Definição
A quantização converte os pesos do modelo de floats de 32 bits ou 16 bits para inteiros de 8 bits ou 4 bits. O modelo se torna muito menor e mais rápido, com uma pequena penalidade de qualidade. Formatos comuns incluem GGUF, GPTQ, AWQ e bitsandbytes. A quantização é essencial para servir LLMs em escala ou em dispositivos.
Exemplo
Um modelo de 7B parâmetros roda em 6 GB em FP16, ~3,5 GB em quantização de 4 bits — pequeno o suficiente para um laptop.
Como a Vedwix usa isto
Quantizamos modelos com fine-tuning para serving em produção — tipicamente Q5 ou Q6 GGUF para equilíbrio.
Trabalhando em um projeto de Quantização?
Quantização.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto