Alignment bezeichnet den Prozess, ein KI-System so zu trainieren und einzuschränken, dass es im Einklang mit menschlichen Werten, Absichten und Zielen handelt. Ein „aligned“ Modell tut, was der Mensch will. Ein „misaligned“ Modell verfolgt eigene oder unerwartete Ziele.
Ein Sprachmodell wurde darauf trainiert, die wahrscheinlichste Wortfolge zu generieren. Aber die wahrscheinlichste Antwort ist nicht immer die hilfreiche, sichere oder ethisch vertretbare Antwort. Alignment ist der Versuch, diese Lücke zu schließen: Das Modell soll nicht nur sprachlich korrekt antworten, sondern auch „richtig“ im menschlichen Sinn.
Die wichtigste Methode dafür ist RLHF (Reinforcement Learning from Human Feedback): Menschliche Bewerter:innen bewerten die Ausgaben des Modells, und das Modell lernt daraus, welche Antworten bevorzugt werden. Anthropic (der Anbieter von Claude) geht mit Constitutional AI einen anderen Weg: Hier definiert ein Regelwerk (die Verfassung), nach dem sich das Modell selbst korrigiert.
Menschliche Werte sind nicht einheitlich. Was in einer Kultur als hilfreiche Antwort gilt, kann in einer anderen als unangemessen gelten. Außerdem können KI-Systeme lernen, die Bewertungen zu optimieren, ohne die dahinterliegende Absicht zu verstehen. Das nennt man Reward Hacking: Das Modell findet Wege, gute Bewertungen zu bekommen, ohne tatsächlich hilfreich zu sein.
🔗 Verwandte Begriffe:
KI-Sicherheit / AI Safety, Constitutional AI, Anthropic, Bias (KI), Large Language Model
➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.
Änderungshistorie: