Constitutional AI (CAI) ist ein von Anthropic entwickelter Ansatz zur KI-Sicherheit. Statt ein Modell ausschließlich durch menschliches Feedback zu trainieren (RLHF), definiert Anthropic eine Reihe von Prinzipien (die Verfassung), nach denen sich das Modell selbst korrigiert.
Bei der klassischen Methode (RLHF) bewerten menschliche Tester:innen die Ausgaben eines Modells, und das Modell lernt aus diesen Bewertungen. Das ist aufwendig, subjektiv und schwer skalierbar.
Constitutional AI fügt einen Zwischenschritt ein: Das Modell generiert eine Antwort, vergleicht sie mit einer festgelegten Verfassung (einer Liste von Prinzipien wie „Sei hilfreich, aber vermeide Schaden“) und korrigiert sich selbst. Menschliches Feedback wird nicht ersetzt, aber ergänzt durch eine systematische Selbstkontrolle.
Constitutional AI ist der Grund, warum Claude in vielen Tests als der vorsichtigste und am wenigsten manipulierbare der großen KI-Assistenten gilt. Die Verfassung definiert Grenzen, die das Modell eigenständig einhält, auch bei unbekannten Eingaben.
Constitutional AI ist ein Alignment-Ansatz, keine Alternative zu RLHF. In der Praxis kombiniert Anthropic beide Methoden. Die Verfassung setzt den Rahmen, menschliches Feedback verfeinert das Verhalten innerhalb dieses Rahmens.
🔗 Verwandte Begriffe:
Anthropic, Claude, Alignment, RLHF, KI-Sicherheit / AI Safety
➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.
Änderungshistorie: