Definition
Transformer verwenden Self-Attention, um Sequenzen parallel zu verarbeiten und Long-Range-Abhängigkeiten zu erfassen, die ältere RNNs nicht konnten. Eingeführt durch das Papier "Attention Is All You Need" von 2017, treiben Transformer jetzt Sprache-, Vision-, Audio- und multimodale Modelle an. Die Decoder-only-Variante (GPT, Llama, Claude) dominiert bei Sprachaufgaben.
Beispiel
GPT-4, Claude 3, Llama 3 und Gemini sind alle Decoder-only-Transformer.
Wie Vedwix das verwendet
Grundlegend. Wir trainieren selten Transformer von Grund auf — die Feinabstimmung einer starken Basis ist fast immer besser.
Sie arbeiten an einem Projekt rund um Transformer?
Transformer.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten