定義
量子化は、モデルの重みを32ビットまたは16ビットの浮動小数点から8ビットまたは4ビットの整数に変換します。モデルははるかに小さく高速になりますが、品質のペナルティは小さいです。一般的な形式には、GGUF、GPTQ、AWQ、bitsandbytesがあります。量子化は、規模やデバイス上でLLMを提供するのに不可欠です。
例
7Bパラメータモデルは、FP16で6 GB、4ビット量子化で約3.5 GBで実行されます — ラップトップに十分小さい。
Vedwixでの使用方法
本番サービングのためにファインチューニングされたモデルを量子化します — バランスのために通常Q5またはQ6 GGUFです。