用語集 · 日本語

推論

予測または生成を生成するために既に訓練されたモデルを実行するプロセス。

日本語 · Japanese

定義

推論は訓練されたモデルを使用する行為で、訓練とは異なります。LLMの場合、推論は本番でお金がかかるものです: すべてのAPI呼び出し、すべてのチャットボット応答、すべてのエンベディング。推論最適化（バッチング、KVキャッシング、量子化、投機的デコーディング）はコストを10倍に下げることができます。

アプリは月に1000万LLM推論呼び出しを平均$0.001で行います — 月$10k。

推論コストは、私たちのアーキテクチャ決定における第一級の考慮事項です。

プロジェクトでお困りですか推論?

3つの文章でプロジェクトについてお聞かせください。

カテゴリ内の他の用語 AI

3つの文章でプロジェクトについてお聞かせください。