定義
QLoRAはベースモデルを4ビットに量子化し、その上にLoRAアダプターを適用します。これにより、単一のハイエンドコンシューマGPUで70Bパラメータモデルのファインチューニングが可能になります。品質のトレードオフはほとんどのドメインで小さいです。
例
単一のA100でQLoRAでLlama 3 70Bをファインチューニングし、メモリ要件を280GBから80GB未満に削減。
Vedwixでの使用方法
クライアントのコンピューティングが制約されている場合、またはデータセットの変動を素早く反復する場合に使用されます。