Definición
Los modelos multimodales aceptan uno o más tipos de entrada no textual junto con el texto. Los LLMs de visión (GPT-4V, Claude 3.5+, Gemini Pro Vision) pueden analizar imágenes y documentos. Los LLMs de audio manejan voz. La frontera se está moviendo hacia modelos verdaderamente cualquiera-a-cualquiera multimodales. La capacidad multimodal desbloquea IA de documentos, accesibilidad y comportamiento de agente más rico.
Ejemplo
Un agente de documentos lee PDFs de facturas como imágenes, extrae líneas de pedido, y las reconcilia contra una base de datos.
Cómo Vedwix usa esto
Los LLMs de visión ahora son predeterminados para cualquier proyecto de extracción de documentos.
Trabajando en un proyecto de Modelo multimodal?
Modelo multimodal.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto