Multimodal AI
Multimodale AI kan tegelijk tekst, afbeeldingen, audio en video verwerken en genereren, in tegenstelling tot systemen die maar één modaliteit beheersen.
Early LLM's waren puur tekst. GPT-4V (2023) voegde vision toe; Gemini 1.5 en Claude 3 volgden. In 2026 zijn alle frontier-modellen multimodal: kunnen afbeeldingen begrijpen en genereren, soms ook audio (GPT-4o, Gemini Live). Multimodal opent use cases als: screenshot-debugging, UI-automation, documentanalyse met grafieken, real-time spraakgesprekken.
Voorbeeld
Een marketeer uploads een concurrent's landingspagina-screenshot naar Claude. Claude extraheert de structure, identificeert call-to-actions, beoordeelt visuele hierarchy en stelt eigen-pagina-verbeteringen voor — cross-modal analyse.
Veelgestelde vragen
Welke modaliteiten ondersteunen huidige modellen?
Tekst+beeld: alle frontier-modellen. Audio: GPT-4o, Gemini Live. Video: Gemini 1.5 Pro (native), anderen via frame-extractie. Output-modalities verder beperkt.
Zijn multimodal modellen duurder?
Afbeelding-tokens tellen extra (Claude: ~1500 tokens per afbeelding). Audio-processing: proportioneel met duur. Voor specifieke use-cases zijn dedicated single-modality modellen soms goedkoper.
Kan Claude OCR?
Ja, ingebouwd via vision. Voor productie-scale OCR van gestructureerde documenten: dedicated OCR-tools (AWS Textract, Google Document AI) zijn nog vaak accurater/goedkoper.
Gerelateerde termen
Verder lezen
- → Onze dienst: AI-sector