Multimodale KI
Multimodale KI kann gleichzeitig Text, Bilder, Audio und Video verarbeiten und generieren, im Gegensatz zu Systemen, die nur eine Modalität beherrschen.
Frühe LLMs waren nur Text. GPT-4V (2023) fügte Vision hinzu; Gemini 1.5 und Claude 3 folgten. 2026 sind alle Frontier-Modelle multimodal: sie verstehen und generieren Bilder, manchmal auch Audio (GPT-4o, Gemini Live). Multimodal öffnet Use Cases: Screenshot-Debugging, UI-Automation, Dokumentanalyse mit Diagrammen.
Beispiel
Ein Marketer lädt ein Konkurrenz-Landingpage-Screenshot zu Claude hoch. Claude extrahiert Struktur, identifiziert CTAs, bewertet visuelle Hierarchie und schlägt Verbesserungen vor — Cross-Modal-Analyse.
Häufig gestellte Fragen
Sind multimodale Modelle teurer?
Bild-Tokens zählen extra (Claude: ~1.500 Tokens pro Bild). Audio-Processing: proportional zur Dauer.
Verwandte Begriffe
Weiterführende Links
- → Unser Service: KI-Branche