Multimodalität

Multimodalität bezeichnet die Fähigkeit eines KI-Modells, mehrere Datentypen gleichzeitig zu verarbeiten und zu generieren: Text, Bilder, Audio und Video. Multimodale Modelle können z.B. ein Bild beschreiben, aus Text ein Bild erzeugen oder gesprochene Sprache analysieren.

Was Multimodalität bedeutet

Frühere KI-Modelle konnten nur eine Sache: Text verarbeiten, oder Bilder erkennen, oder Sprache verstehen. Multimodale Modelle arbeiten mit mehreren Formaten gleichzeitig. Du kannst ein Foto hochladen und das Modell beschreibt, was darauf zu sehen ist. Du kannst ein Diagramm zeigen und nach einer Analyse fragen. Du kannst eine Sprachnachricht senden und bekommst eine Textantwort.

GPT-5.5, Claude und Gemini sind alle multimodal. Gemini verarbeitet zusätzlich Video. (Stand: Juni 2026)

Warum das wichtig ist

Multimodalität macht KI für deutlich mehr Anwendungsfälle nutzbar. Ein Kundenservice-Bot, der Fotos von Schäden auswerten kann. Ein Analysetool, das handschriftliche Notizen liest. Ein Assistent, der Sprachnachrichten transkribiert und zusammenfasst. All das wird möglich, weil das Modell nicht auf Text beschränkt ist.

Abgrenzung

Multimodal heißt nicht, dass ein Modell in allen Formaten gleich gut ist. Die meisten aktuellen Modelle sind primär auf Text trainiert und können Bilder verstehen, aber nicht generieren (Ausnahme: GPT-5.5 mit integriertem DALL-E). Die Bildgenerierung übernehmen spezialisierte Modelle wie Midjourney oder DALL-E.

🔗 Verwandte Begriffe:

Large Language Model (LLM), ChatGPT, Claude, Gemini, Generative KI

➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.

Änderungshistorie:

Erstveröffentlichung Juni 2026.

KI Glossar Datenschutz Impressum