Trainingsdaten sind die Daten, mit denen ein KI-Modell trainiert wird. Bei Sprachmodellen sind das riesige Mengen an Texten: Bücher, Webseiten, Fachartikel, Foren, Code-Repositories. Die Qualität, Repräsentativität und Menge der Trainingsdaten bestimmen, wie gut das fertige Modell funktioniert.
Ein Sprachmodell lernt Sprache, indem es Milliarden von Texten liest. Diese Texte sind die Trainingsdaten. GPT-5.5 wurde mit Hunderten von Milliarden Wörtern trainiert: Webseiten, Bücher, Wikipedia-Artikel, wissenschaftliche Papers, Foren, Code-Datenbanken, Nachrichtenarchive.
Das Modell extrahiert aus diesen Daten statistische Muster: Welche Wörter folgen in welchen Kontexten aufeinander? Diese Muster bilden das gesamte Wissen und die Fähigkeiten des Modells.
Was nicht in den Trainingsdaten steht, kann das Modell nicht wissen. Wenn ein Thema in den Trainingsdaten unterrepräsentiert ist, liefert das Modell zu diesem Thema schlechtere Ergebnisse. Wenn die Daten verzerrt sind (z.B. durch den Gender Data Gap), übernimmt das Modell diese Verzerrung.
Die Qualität eines KI-Modells ist immer nur so gut wie die Daten, auf denen es trainiert wurde.
Die große unbeantwortete Frage: Wem gehören die Trainingsdaten? Sprachmodelle wurden mit Texten trainiert, die von Menschen geschrieben wurden, ohne deren Zustimmung. Autor:innen, Journalist:innen, Künstler:innen und Verlage klagen weltweit gegen KI-Unternehmen wegen Urheberrechtsverletzungen. Die rechtliche Lage ist Stand Juni 2026 in den meisten Ländern ungeklärt.
🔗 Verwandte Begriffe:
Large Language Model (LLM), Bias (KI), Gender Data Gap, Fine-Tuning, Deep Learning
➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.
Änderungshistorie: