Glossário · Português

Quantização

Reduzir a precisão numérica dos pesos do modelo para tornar a inferência mais barata e mais rápida.

Português · Portuguese

Definição

A quantização converte os pesos do modelo de floats de 32 bits ou 16 bits para inteiros de 8 bits ou 4 bits. O modelo se torna muito menor e mais rápido, com uma pequena penalidade de qualidade. Formatos comuns incluem GGUF, GPTQ, AWQ e bitsandbytes. A quantização é essencial para servir LLMs em escala ou em dispositivos.

Exemplo

Um modelo de 7B parâmetros roda em 6 GB em FP16, ~3,5 GB em quantização de 4 bits — pequeno o suficiente para um laptop.

Como a Vedwix usa isto

Quantizamos modelos com fine-tuning para serving em produção — tipicamente Q5 ou Q6 GGUF para equilíbrio.

Trabalhando em um projeto de Quantização?

Quantização.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Mais termos de AI

RAGAI Fine-tuningAI EmbeddingAI Vector DatabaseAI Hybrid SearchAI RerankerAI

Quantização

Descreva seu projeto em três frases ou menos.

Iniciar um projeto