用語集 · 日本語

マルチモーダルモデル

テキスト以外のものを処理できるLLM — 画像、音声、ビデオ、または構造化された入力。

日本語 · Japanese

定義

マルチモーダルモデルは、テキストと並んで1つ以上の非テキスト入力タイプを受け入れます。ビジョンLLM(GPT-4V、Claude 3.5+、Gemini Pro Vision)は画像とドキュメントを分析できます。オーディオLLMは音声を扱います。フロンティアは真のany-to-anyマルチモーダルモデルに向かっています。マルチモーダル機能は、ドキュメントAI、アクセシビリティ、より豊かなエージェントの動作を解放します。

ドキュメントエージェントが請求書PDFを画像として読み取り、明細を抽出し、データベースと照合します。

Vedwixでの使用方法

ビジョンLLMは現在、ドキュメント抽出プロジェクトのデフォルトです。

プロジェクトでお困りですか マルチモーダルモデル?

マルチモーダルモデル.

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始

マルチモーダルモデル

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始