Training data
Training data is de verzameling teksten, afbeeldingen of andere voorbeelden waarmee een AI-model patronen leert voordat het wordt uitgerold.
De kwaliteit en breedte van training data bepalen meer dan welke andere factor hoe goed een LLM is. GPT-5 is getraind op triljoenen tokens uit webpagina's, boeken, code-repositories, papers en (meer recent) synthetische data. De training cut-off — het moment waarop de trainingsset stopt — bepaalt wat het model 'uit zichzelf' weet zonder web search. Voor GEO betekent dit: content die bestaat vóór de cut-off en breed wordt gecrawled heeft invloed op wat AI 'standaard' over een onderwerp zegt.
Voorbeeld
Een LLM met cut-off september 2024 heeft geen idee dat de Bitcoin-halving van april 2024 tot ASIC-shutdowns leidde — tenzij je die informatie via RAG aanvoert. Daarom is live retrieval en grounding cruciaal voor actuele informatie.
Veelgestelde vragen
Kan ik mijn content uit training data laten verwijderen?
Gedeeltelijk. OpenAI en Anthropic respecteren opt-outs via robots.txt (GPTBot, ClaudeBot-disallow) voor toekomstige training. Reeds getrainde modellen kunnen niet selectief 'vergeten' wat ze al hebben gezien — dat zou volledige hertraining vereisen.
Gerelateerde termen
Verder lezen
- → Onze dienst: AI-sector
- → Blog: LinkedIn: meest geciteerde domein in AI-zoekopdrachten
- → Blog: Wat is GEO? Generative Engine Optimization uitgelegd