Glosario · Español

Inferencia

El proceso de ejecutar un modelo ya entrenado para producir predicciones o generaciones.

Español · Spanish

Definición

La inferencia es el acto de usar un modelo entrenado — distinto del entrenamiento. Para LLMs, la inferencia es lo que cuesta dinero en producción: cada llamada API, cada respuesta de chatbot, cada embedding. La optimización de inferencia (batching, KV caching, cuantificación, decodificación especulativa) puede reducir los costos en 10x.

Ejemplo

Una app hace 10 millones de llamadas de inferencia LLM por mes a un promedio de $0.001 cada una — $10k/mes.

Cómo Vedwix usa esto

El costo de inferencia es una consideración de primera clase en nuestras decisiones de arquitectura.

Trabajando en un proyecto de Inferencia?

Inferencia.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

Inferencia

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto