robots.txt
Eine robots.txt-Datei im Root einer Website teilt Crawlern mit, welche URLs sie crawlen dürfen oder nicht.
robots.txt ist der älteste Crawler-Standard des Webs (1994) und liegt stets unter /robots.txt. Regeln wie Disallow und Allow pro User-agent steuern, welche Bots welche Pfade sehen dürfen. Wichtig: robots.txt blockiert Crawling, nicht Indexierung — Seiten können über externe Links dennoch im Index landen.
Beispiel
User-agent: GPTBot blockiert OpenAIs Training-Crawler vom Premium-Bereich, lässt aber andere Bots in Ruhe.
Disallow: /premium/
Häufig gestellte Fragen
Soll ich KI-Crawler blockieren?
Strategische Entscheidung. Blockieren schützt Inhalte, schließt aber KI-Sichtbarkeit aus. Für GEO-Chancen mindestens GPTBot, PerplexityBot, ClaudeBot und Google-Extended erlauben.
Verwandte Begriffe
Weiterführende Links
- → Unser Service: SEO