Definição
Transformers usam auto-atenção para processar sequências em paralelo, capturando dependências de longo alcance que RNNs antigas não conseguiam. Introduzidos pelo artigo de 2017 "Attention Is All You Need", transformers agora alimentam modelos de linguagem, visão, áudio e multimodais. A variante apenas-decodificador (GPT, Llama, Claude) domina tarefas de linguagem.
Exemplo
GPT-4, Claude 3, Llama 3 e Gemini são todos transformers apenas-decodificador.
Como a Vedwix usa isto
Fundamental. Raramente treinamos transformers do zero — fazer fine-tuning de uma base sólida quase sempre é melhor.
Trabalhando em um projeto de Transformer?
Transformer.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto