Der Transformer ist eine Modellarchitektur für neuronale Netze, die 2017 von Google-Forscher:innen vorgestellt wurde. Er bildet die technologische Grundlage aller modernen Sprachmodelle (GPT, Claude, Gemini, LLaMA, Mistral). Kern des Transformers ist der Attention-Mechanismus, der es dem Modell ermöglicht, Zusammenhänge über lange Texte hinweg zu erkennen.
Vor dem Transformer konnten neuronale Netze Sprache nur Wort für Wort verarbeiten, in der Reihenfolge, in der die Wörter im Satz stehen. Das war langsam und führte dazu, dass bei langen Texten der Anfang vergessen wurde, bevor das Ende verarbeitet war.
Der Transformer löst dieses Problem mit dem Attention-Mechanismus: Das Modell kann jedes Wort im Text gleichzeitig mit jedem anderen Wort in Beziehung setzen. Es erkennt, welche Wörter zusammengehören, auch wenn sie weit auseinander stehen. Das macht Transformer schnell (parallelisierbar) und leistungsfähig (kontextverständlich).
Das Paper „Attention Is All You Need“ (Google, 2017) hat eine technologische Welle ausgelöst. GPT steht für „Generative Pre-trained Transformer“. BERT, T5, PaLM, LLaMA, Mistral Large: Alle modernen Sprachmodelle basieren auf der Transformer-Architektur. Ohne den Transformer gäbe es kein ChatGPT, kein Claude, kein Gemini.
Der Transformer ist die Architektur. Ein LLM ist das trainierte Modell, das auf dieser Architektur basiert. ChatGPT ist das Produkt, das dieses Modell nutzbar macht. Drei Ebenen: Architektur → Modell → Produkt.
🔗 Verwandte Begriffe:
Large Language Model (LLM), Deep Learning, Neuronale Netze, Attention-Mechanismus, Google (KI)
➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.
Änderungshistorie: