Glossário · Português

Modelo multimodal

Um LLM que pode processar mais do que texto — imagens, áudio, vídeo ou entradas estruturadas.

Português · Portuguese

Definição

Modelos multimodais aceitam um ou mais tipos de entrada não-texto junto com texto. LLMs de visão (GPT-4V, Claude 3.5+, Gemini Pro Vision) podem analisar imagens e documentos. LLMs de áudio lidam com fala. A fronteira está se movendo em direção a modelos verdadeiramente multimodais qualquer-para-qualquer. A capacidade multimodal desbloqueia IA de documentos, acessibilidade e comportamento de agente mais rico.

Exemplo

Um agente de documentos lê PDFs de faturas como imagens, extrai itens de linha e os reconcilia contra um banco de dados.

Como a Vedwix usa isto

LLMs de visão agora são padrão para qualquer projeto de extração de documentos.

Trabalhando em um projeto de Modelo multimodal?

Modelo multimodal.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Modelo multimodal

Descreva seu projeto em três frases ou menos.

Iniciar um projeto