Der Attention-Mechanismus ist die zentrale technische Innovation hinter der Transformer-Architektur. Er ermöglicht es einem Sprachmodell, bei der Verarbeitung eines Textes jedes Wort mit jedem anderen Wort in Beziehung zu setzen und zu entscheiden, welche Wörter füreinander relevant sind.
Stell dir vor, du liest den Satz: „Die Katze saß auf der Matte, weil sie müde war.“ Um zu verstehen, dass „sie“ sich auf „die Katze“ bezieht (und nicht auf „die Matte“), muss das Modell eine Verbindung zwischen zwei Wörtern herstellen, die weit auseinander stehen.
Der Attention-Mechanismus löst genau dieses Problem: Für jedes Wort im Text berechnet er, wie stark es mit jedem anderen Wort zusammenhängt. Das Ergebnis ist eine gewichtete Beziehungskarte, die dem Modell zeigt, worauf es bei jedem Wort achten soll.
Vor dem Attention-Mechanismus verarbeiteten neuronale Netze Text sequenziell: Wort für Wort, von links nach rechts. Bei langen Texten ging dabei der Anfang verloren, bevor das Ende verarbeitet war. Attention ermöglicht parallele Verarbeitung: Alle Wörter gleichzeitig, alle Beziehungen gleichzeitig. Das ist schneller und leistungsfähiger.
Self-Attention (die Variante, die im Transformer zum Einsatz kommt) berechnet Beziehungen innerhalb eines einzigen Textes. Cross-Attention berechnet Beziehungen zwischen zwei verschiedenen Texten (z.B. bei maschineller Übersetzung). Beide sind Varianten desselben Grundprinzips.
🔗 Verwandte Begriffe:
Transformer, Transformer-Paper, Large Language Model, Deep Learning, Neuronale Netze
➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.
Änderungshistorie: