Glosario · Español

Modelo multimodal

Un LLM que puede procesar más que texto — imágenes, audio, video, o entradas estructuradas.

Español · Spanish

Definición

Los modelos multimodales aceptan uno o más tipos de entrada no textual junto con el texto. Los LLMs de visión (GPT-4V, Claude 3.5+, Gemini Pro Vision) pueden analizar imágenes y documentos. Los LLMs de audio manejan voz. La frontera se está moviendo hacia modelos verdaderamente cualquiera-a-cualquiera multimodales. La capacidad multimodal desbloquea IA de documentos, accesibilidad y comportamiento de agente más rico.

Ejemplo

Un agente de documentos lee PDFs de facturas como imágenes, extrae líneas de pedido, y las reconcilia contra una base de datos.

Cómo Vedwix usa esto

Los LLMs de visión ahora son predeterminados para cualquier proyecto de extracción de documentos.

Trabajando en un proyecto de Modelo multimodal?

Modelo multimodal.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

Modelo multimodal

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto