Glossário · Português

Inferência

O processo de executar um modelo já treinado para produzir previsões ou gerações.

Português · Portuguese

Definição

A inferência é o ato de usar um modelo treinado — distinto do treinamento. Para LLMs, a inferência é o que custa dinheiro em produção: cada chamada de API, cada resposta de chatbot, cada embedding. A otimização de inferência (batching, KV caching, quantização, decodificação especulativa) pode reduzir custos em 10x.

Exemplo

Um app faz 10 milhões de chamadas de inferência LLM por mês a uma média de $0,001 cada — $10k/mês.

Como a Vedwix usa isto

O custo de inferência é uma consideração de primeira classe em nossas decisões de arquitetura.

Trabalhando em um projeto de Inferência?

Inferência.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Inferência

Descreva seu projeto em três frases ou menos.

Iniciar um projeto