robots.txt
Het robots.txt-bestand in de root van een website instrueert crawlers welke URL's ze wel of niet mogen crawlen.
robots.txt is de oudste crawler-standaard van het web (1994) en staat altijd op /robots.txt. Via regels als Disallow en Allow per User-agent bepaal je welke crawlers welke paden mogen zien. Belangrijk: robots.txt blokkeert crawlen, níet indexering — pagina's kunnen alsnog in de index verschijnen als andere sites ernaar linken.
Voorbeeld
User-agent: GPTBot — verbiedt OpenAI's training-crawler de premium-sectie, maar laat andere bots ongemoeid.
Disallow: /premium/
Veelgestelde vragen
Hoe voorkom ik dat een pagina in Google verschijnt?
Met een noindex-meta-tag of X-Robots-Tag-header, niet met robots.txt. Robots.txt blokkeert crawl, maar indexering kan via externe links alsnog plaatsvinden.
Moet ik AI-crawlers blokkeren?
Dat is een strategische keuze. Blokkeren beschermt content maar sluit je uit van AI-zichtbaarheid. Voor GEO-kansen: laat minimaal GPTBot, PerplexityBot, ClaudeBot en Google-Extended toe.
Waar zet ik mijn sitemap?
Voeg onderaan toe: Sitemap: https://voorbeeld.nl/sitemap.xml. Crawlers lezen dit en vinden zo al je indexeerbare URL's.
Gerelateerde termen
Verder lezen
- → Onze dienst: SEO