Definition
Attention berechnet gewichtete Beziehungen zwischen jedem Token-Paar in einer Sequenz. Dies gibt Transformern ihre Long-Range-Reasoning-Fähigkeit. Multi-Head-Attention führt viele Attention-Berechnungen parallel aus, von denen jede unterschiedliche relationale Muster lernt. Moderne Varianten (FlashAttention, sparse attention) machen Attention auf langen Sequenzen rechentechnisch handhabbar.
Beispiel
In "Die Katze saß auf der Matte, weil sie müde war", hilft Attention dem Modell, "sie" mit "Katze" statt "Matte" zu verknüpfen.
Wie Vedwix das verwendet
Konzeptionell; selten etwas, das wir direkt tunen, außer in benutzerdefinierten Modellen.
Sie arbeiten an einem Projekt rund um Attention-Mechanismus?
Attention-Mechanismus.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten