Definição
Modelos multimodais aceitam um ou mais tipos de entrada não-texto junto com texto. LLMs de visão (GPT-4V, Claude 3.5+, Gemini Pro Vision) podem analisar imagens e documentos. LLMs de áudio lidam com fala. A fronteira está se movendo em direção a modelos verdadeiramente multimodais qualquer-para-qualquer. A capacidade multimodal desbloqueia IA de documentos, acessibilidade e comportamento de agente mais rico.
Exemplo
Um agente de documentos lê PDFs de faturas como imagens, extrai itens de linha e os reconcilia contra um banco de dados.
Como a Vedwix usa isto
LLMs de visão agora são padrão para qualquer projeto de extração de documentos.
Trabalhando em um projeto de Modelo multimodal?
Modelo multimodal.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto