定義
推論は訓練されたモデルを使用する行為で、訓練とは異なります。LLMの場合、推論は本番でお金がかかるものです: すべてのAPI呼び出し、すべてのチャットボット応答、すべてのエンベディング。推論最適化(バッチング、KVキャッシング、量子化、投機的デコーディング)はコストを10倍に下げることができます。
例
アプリは月に1000万LLM推論呼び出しを平均$0.001で行います — 月$10k。
Vedwixでの使用方法
推論コストは、私たちのアーキテクチャ決定における第一級の考慮事項です。
推論は訓練されたモデルを使用する行為で、訓練とは異なります。LLMの場合、推論は本番でお金がかかるものです: すべてのAPI呼び出し、すべてのチャットボット応答、すべてのエンベディング。推論最適化(バッチング、KVキャッシング、量子化、投機的デコーディング)はコストを10倍に下げることができます。
アプリは月に1000万LLM推論呼び出しを平均$0.001で行います — 月$10k。
推論コストは、私たちのアーキテクチャ決定における第一級の考慮事項です。