10 Min. LesezeitAktualisiert vor 9 Tagen

GPTBot, ClaudeBot, PerplexityBot: durchlassen oder blockieren?

Eine Zeile in der robots.txt entscheidet, ob Sie aus dem KI-Modelltraining aussteigen — oder aus den KI-Antworten verschwinden. Zwei völlig verschiedene Dinge, die fast jedes KMU verwechselt. Wir trennen Training-Bots von Retrieval-Bots und zeigen, was Sie wirklich durchlassen sollten.

Inhalt

Kurz gesagt: Trennen Sie zwei Dinge, die fast jeder in einen Topf wirft. Training-Bots wie GPTBot, ClaudeBot und Google-Extended sammeln Inhalte, um KI-Modelle zu trainieren. Retrieval-Bots wie OAI-SearchBot, PerplexityBot und Claude-SearchBot holen Ihre Seite live, wenn ein Nutzer gerade eine Frage stellt — und zitieren Sie in der Antwort. Einen Training-Bot zu blockieren kostet Sie heute nichts an Sichtbarkeit; es ist ein reines Opt-out aus dem Modelltraining. Einen Retrieval-Bot zu blockieren entfernt Sie aus ChatGPT-, Perplexity- und Claude-Antworten. Für die meisten Schweizer KMU lautet die Empfehlung deshalb: Retrieval-Bots zulassen, Training-Bots nach Bedarf. Welche Bots in welche Klasse fallen, klärt dieser Beitrag — und wie Sie die Allowlist sauber durchsetzen, statt sie im WordPress-Backend zu verstreuen, gehört ins Edge- und Hosting-Setup für Headless WordPress 2026.

Ein wichtiger Hinweis vorweg: Dieser Beitrag will keine globale, tagesaktuelle User-Agent-Registry sein. Diese pflegen Cloudflare und die Anbieter selbst, und sie ändern sich laufend. Unser Fokus ist die konkrete Entscheidung, vor der Sie als Schweizer KMU stehen — soll ich blockieren, und wenn ja, was?

Training-Bot oder Retrieval-Bot? Der eine Unterschied, der alles entscheidet

KI-Crawler haben zwei grundverschiedene Jobs. Training-Bots wie GPTBot, ClaudeBot und Google-Extended sammeln Inhalte, um ein Modell zu trainieren — einmalig, im Voraus, ohne Bezug zu einer konkreten Nutzerfrage. Retrieval-Bots wie OAI-SearchBot und PerplexityBot holen Ihre Seite live ab, während ein Nutzer gerade eine Frage stellt, und zitieren Sie in der generierten Antwort. Wer das verwechselt, blockiert das Falsche.

Der praktische Unterschied ist drastisch. Wenn Sie einen Training-Bot sperren, steigen Sie aus dem nächsten Modelltraining aus — Ihre heutige Sichtbarkeit in KI-Antworten bleibt davon unberührt, weil diese Antworten zur Laufzeit aus einer separaten Pipeline gespeist werden. Wenn Sie einen Retrieval-Bot sperren, verschwinden Sie aus genau diesen Antworten und Zitaten. Das eine ist eine Wert- und Markenentscheidung, das andere ein direkter Sichtbarkeitsverlust.

Es gibt eine dritte Klasse, die oft untergeht: nutzerausgelöste Fetcher wie ChatGPT-User, Perplexity-User und Claude-User. Hier hat ein Mensch aktiv geklickt oder gefragt, und der Dienst holt die konkrete Seite ab. Weil die Aktion von einem Nutzer initiiert wird, behandeln die Anbieter diese Fetcher teils bewusst anders: robots.txt-Regeln greifen hier nicht zwingend. robots.txt steuert Crawler — sie ist aber das falsche Werkzeug, um einen einzelnen, nutzerinitiierten Abruf zu verhindern.

Soll ich als Schweizer KMU KI-Crawler überhaupt blockieren?

Für die meisten Schweizer KMU lautet die Antwort: Retrieval-Bots zulassen, Training-Bots optional blockieren. Sichtbarkeit in ChatGPT, Perplexity und Gemini ist heute ein wachsender Akquise- und Vertrauenskanal — kein KMU sollte sich freiwillig daraus aussperren. Ein Training-Opt-out dagegen ist eine Wert- und Markenfrage, keine Sichtbarkeitsfrage. Beides zu vermischen führt zur teuersten Default-Entscheidung, die kaum jemand bewusst trifft: pauschal alles zu blockieren.

Dass KI-Crawler real und in Bewegung sind, zeigen die Zahlen von Cloudflare, das einen erheblichen Teil des weltweiten Web-Traffics sieht. Zwischen Mai 2024 und Mai 2025 stieg GPTBots Anteil unter den reinen KI-Crawlern von 5 % auf 30 %, während ClaudeBot von 27 % auf 21 % fiel; kombiniert dominiert Googlebot mit rund 50 % Anteil (Stand Mai 2025). Diese Bots kommen also ohnehin — die Frage ist nur, ob Sie ihnen die Tür öffnen oder verschliessen.

Für wen lohnt sich selektives Blockieren trotzdem? Wer ein Lizenzgeschäft betreibt oder schützenswerte Originalinhalte hat — etwa eine kostenpflichtige Datenbank, redaktionelle Premium-Inhalte oder proprietäre Recherche —, kann Training-Bots gezielt aussperren, ohne Retrieval-Sichtbarkeit zu opfern. Bandbreite und Serverlast sind dagegen selten das eigentliche Problem: Seriöse Bots respektieren Crawl-delay, und ein entkoppeltes Frontend liefert ohnehin schlank aus.

Einen Training-Bot zu sperren kostet Sichtbarkeit von morgen; einen Retrieval-Bot zu sperren kostet Sichtbarkeit von heute. Verwechseln Sie die beiden nicht.

Bevor Sie überhaupt blockieren, lohnt die Gegenfrage: Werden Ihre Inhalte überhaupt zitiert? Wie Sie das aktiv fördern, statt es nur zu verwalten, ordnet der Beitrag dazu ein, wie Sie in KI-Suchmaschinen zitierbar werden.

Die KI-Crawler-Entscheidungstabelle (Stand: Juni 2026)

Diese Tabelle ordnet die relevanten User-Agents nach Betreiber, Zweck und Empfehlung für ein Schweizer KMU. Ein Caveat vorab, das nicht im Kleingedruckten verschwinden darf: User-Agent-Strings ändern sich laufend, und Betreiber führen neue Bots ein. Die kanonische, tagesaktuelle Liste pflegen Cloudflare und die Anbieter selbst — prüfen Sie die exakten Tokens vor jeder robots.txt-Änderung gegen die Primärquellen.

KI-Crawler-Allowlist für Schweizer KMU — Stand: Juni 2026, User-Agents ändern sich
Bot (User-Agent)BetreiberZweckrobots.txtEmpfehlung KMU
GPTBotOpenAITrainingbefolgtOptional blocken
OAI-SearchBotOpenAIRetrieval (ChatGPT-Suche)befolgtZulassen
ChatGPT-UserOpenAINutzer-Fetchgreift ggf. nichtZulassen
ClaudeBotAnthropicTrainingbefolgtOptional blocken
Claude-SearchBotAnthropicRetrieval (Suchindex)befolgtZulassen
Claude-UserAnthropicNutzer-FetchbefolgtZulassen
PerplexityBotPerplexityRetrieval (Suche/Zitation)befolgtZulassen
Perplexity-UserPerplexityNutzer-Fetchignoriert robots.txtZulassen
Google-ExtendedGoogleTraining-TokenbefolgtOptional blocken (kein Search-Verlust)
Quellen: OpenAI, Anthropic, Perplexity und Google (Primärdoku, verlinkt im Text); Cloudflare Radar für Volumen-Kontext. User-Agents ändern sich — vor jeder robots.txt-Änderung gegen die Anbieter-Doku und Cloudflares Bot-Registry prüfen.

Dass GPTBot der am häufigsten gesperrte KI-Crawler ist, belegt dieselbe Cloudflare-Analyse: Unter den Top-10'000-Domains, von denen nur rund 14 % überhaupt KI-Bots in der robots.txt adressieren, war GPTBot mit 312 sperrenden Domains der meistblockierte Crawler — gefolgt von CCBot und Google-Extended. Das zeigt, wie verbreitet die pauschale Sperre ist — und wie selten sie zwischen Training und Retrieval unterscheidet.

OpenAI: GPTBot, OAI-SearchBot und ChatGPT-User auseinanderhalten

OpenAI betreibt drei relevante Agents, die je einen anderen Zweck haben. GPTBot trainiert die Modelle. OAI-SearchBot speist die ChatGPT-Suche. ChatGPT-User holt eine Seite ab, wenn ein Nutzer aktiv etwas anfragt. Wer alle drei in einen Block wirft, verliert seine ChatGPT-Sichtbarkeit, obwohl er eigentlich nur dem Training widersprechen wollte.

Die Details laut OpenAIs Bot-Dokumentation: GPTBot/1.3 ist der Training-Crawler und befolgt robots.txt. OAI-SearchBot/1.3 speist die ChatGPT-Suche — und hier wird OpenAI deutlich: Wer diesen Bot blockiert, erscheint nicht mehr in den ChatGPT-Suchantworten, höchstens noch als Navigationslink. ChatGPT-User/1.0 schliesslich ist nutzerausgelöst; weil die Aktionen von Nutzern initiiert werden, gelten robots.txt-Regeln laut OpenAI hier "may not apply".

Für ein KMU heisst das in einem Satz: OAI-SearchBot ist der Agent, den Sie mit AI-Sichtbarkeitsambitionen niemals blind mitblockieren sollten. Wenn Sie aus dem Training aussteigen wollen, sperren Sie GPTBot — und lassen OAI-SearchBot ausdrücklich durch.

Anthropic und Perplexity: drei Claude-Bots, zwei Perplexity-Bots

Anthropic und Perplexity trennen ihre Crawler inzwischen sauber — man muss die Namen nur kennen. Anthropic betreibt drei Agents, Perplexity zwei. Die entscheidende Linie verläuft auch hier zwischen Training, Retrieval und nutzerausgelöstem Abruf, und ein Detail bei Perplexity ist für die Durchsetzung wichtig.

Anthropic dokumentiert in seinem Support-Artikel zum Crawling drei Bots, die alle robots.txt befolgen: ClaudeBot für das Modelltraining, Claude-SearchBot für den Suchindex und Claude-User für den Live-Abruf bei Nutzerfragen. Der vollständige Training-User-Agent enthält den Token ClaudeBot/1.0 und +claudebot@anthropic.com. Wer in Claude-Antworten zitiert werden will, lässt Claude-SearchBot durch und sperrt höchstens ClaudeBot.

Perplexity unterscheidet laut eigener Bot-Dokumentation zwei Agents — mit einem wichtigen Unterschied im Verhalten:

  • PerplexityBot/1.0 dient der Anzeige und Verlinkung in Perplexity-Ergebnissen, befolgt robots.txt und ist nicht fürs Modelltraining gedacht. Perplexity empfiehlt ausdrücklich, ihn zuzulassen. Wer ihn sperrt, ist raus aus den Perplexity-Antworten.
  • Perplexity-User/1.0 ist nutzerausgelöst und ignoriert robots.txt-Regeln laut Doku generell, weil ein Mensch die konkrete Anfrage gestellt hat.

Die Konsequenz aus diesem zweiten Punkt ist die Brücke zum letzten Abschnitt: Einen Agent, der robots.txt bewusst ignoriert, stoppen Sie nicht mit einer robots.txt-Zeile. Dafür brauchen Sie eine andere Ebene.

Google-Extended: der Mythos, der Sie aus der Google-Suche wirft

Google-Extended ist kein Crawler, sondern ein robots.txt-Token — und das räumt das verbreitetste Missverständnis aus. Es steuert ausschliesslich, ob Ihre Inhalte Gemini und Vertex AI trainieren beziehungsweise als Grounding dienen. Es entfernt Sie weder aus der Google-Suche noch aus den AI Overviews — diese laufen über Googlebot, einen separaten User-Agent. Wer in der Suche bleiben will, kann Google-Extended bedenkenlos sperren.

Google bestätigt diese Trennung in der Liste der Google-Crawler: Google-Extended betrifft nicht die Aufnahme in die Google-Suche und ist kein Ranking-Signal. Eingeführt wurde der reine Steuertoken im September 2023. Damit ist es der seltene Fall eines sauberen Training-Opt-outs ohne SEO-Kollateralschaden — anders als bei OpenAI, wo Training (GPTBot) und Retrieval (OAI-SearchBot) zwei getrennte Entscheidungen verlangen, ist die Google-Linie hier eindeutig.

Wenn Ihr Unternehmen aus Prinzip nicht in das nächste Gemini-Training einfliessen soll, ist Google-Extended also die Zeile, die genau das erreicht — und sonst nichts anrichtet. Das ist eine legitime Markenentscheidung. Nur sollte sie bewusst getroffen werden, nicht aus der diffusen Angst heraus, "KI-Bots" zu blockieren.

Wie setze ich die Allowlist um? robots.txt plus Edge-ACL

robots.txt ist freiwillig — seriöse Bots befolgen sie, andere nicht. Im Headless-Setup gehört die KI-Bot-Steuerung deshalb zweistufig: eine deklarative robots.txt für die Absicht plus eine Edge-Regel (Cloudflare, Vercel) für die Durchsetzung. So bleibt die Allowlist konsistent, versioniert und manipulationssicher — und nutzerausgelöste Fetcher wie Perplexity-User, die robots.txt ignorieren, lassen sich überhaupt erst wirksam stoppen.

Die erste Stufe ist die robots.txt. Sie deklariert pro User-Agent ein Allow oder Disallow und setzt bei Bedarf ein Crawl-delay. Eine KMU-typische Konfiguration, die Training optional sperrt und Retrieval durchlässt, sieht etwa so aus:

# Training-Opt-out (optional, kein Sichtbarkeitsverlust)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Retrieval-Bots ausdrücklich zulassen (KI-Antworten + Zitate)
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Die zweite Stufe ist die Edge-ACL auf Hosting-Ebene. Sie erzwingt Blocks auch bei Bots, die robots.txt missachten, indem sie nach User-Agent und IP filtert, bevor die Anfrage überhaupt Ihr Frontend erreicht. Genau hier entscheidet sich, ob ein deklarierter Block real durchsetzbar ist — und warum die KI-Bot-Steuerung in eine entkoppelte, edge-nahe Architektur gehört statt in ein WordPress-Plugin, das hinter dem CDN sitzt. Die Mechanik dieser Edge-Schicht behandelt das Edge- und Hosting-Setup für Headless WordPress 2026 im Detail.

Ein letzter Punkt zur Einordnung: Eine saubere robots.txt und eine durchsetzbare Edge-Schicht sind technische Grundlagen, kein Wachstumshebel für sich. Sie entscheiden, ob Sie sichtbar sind — nicht, wie oft Sie zitiert werden. Ob Sie zusätzlich eine kuratierte Inhaltsdatei brauchen, ordnet der ehrliche Faktencheck dazu ein, ob Sie eine llms.txt brauchen. Und wer die Angriffsfläche der Gesamtarchitektur verstehen will, findet die Einordnung zur Architektur und Angriffsfläche von Headless WordPress.

Nächster Schritt

Die KI-Crawler-Entscheidung ist kein Alles-oder-nichts. Sie ist eine bewusste Allowlist: Retrieval-Bots durchlassen, damit Sie in ChatGPT, Perplexity und Claude zitiert werden — Training-Bots nach Ihrer Wert- und Markenstrategie. Wer pauschal alles sperrt, trifft die teuerste Default-Entscheidung, ohne es zu wollen. Und wer pauschal alles öffnet, verschenkt eine legitime Steuerungsmöglichkeit. Beides lässt sich vermeiden, wenn man Training und Retrieval sauber trennt und die Allowlist edge-nah durchsetzt.

Wenn Sie wissen wollen, welche Bots Ihre Site heute real abrufen und ob Ihre Allowlist hält, was sie verspricht, prüfen wir das gerne gemeinsam — vereinbaren Sie ein unverbindliches Erstgespräch. Wie ein entkoppeltes Setup die Grundlage dafür legt, ordnet die Themenseite Headless WordPress im Überblick ein.

Häufige Fragen

Häufige Fragen zum Thema KI-Crawler.

Verliere ich Google-Rankings, wenn ich Google-Extended blockiere?
Nein. Google-Extended steuert ausschliesslich, ob Ihre Inhalte Gemini und Vertex AI trainieren beziehungsweise als Grounding dienen. Die Google-Suche und die AI Overviews laufen über Googlebot, einen separaten User-Agent. Wer Google-Extended per robots.txt sperrt, bleibt in der Suche und in den AI Overviews vollständig sichtbar. Google-Extended ist damit das einzige saubere Training-Opt-out bei Google ohne SEO-Kollateralschaden.
Werde ich aus ChatGPT-Antworten entfernt, wenn ich GPTBot blockiere?
Nicht aus den live generierten Suchantworten. GPTBot ist der Training-Bot. Die ChatGPT-Suche speist sich aus OAI-SearchBot. Wer GPTBot blockt, steigt nur aus dem Modelltraining aus. Erst das Blocken von OAI-SearchBot entfernt Sie laut OpenAI aus den ChatGPT-Suchantworten — dann erscheinen Sie höchstens noch als Navigationslink, nicht mehr als zitierte Quelle.
Befolgen alle KI-Crawler die robots.txt?
Die reinen Crawler ja — GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot und PerplexityBot befolgen laut Anbieter-Dokumentation robots.txt. Nutzerausgelöste Fetcher wie ChatGPT-User und Perplexity-User dagegen nicht zwingend: Perplexity dokumentiert ausdrücklich, dass Perplexity-User robots.txt-Regeln generell ignoriert, weil ein Mensch die konkrete Anfrage gestellt hat. Durchsetzen lässt sich ein Block bei diesen Agents deshalb nicht über die robots.txt, sondern nur am Edge, also auf Hosting-Ebene mit einer Filterregel nach User-Agent.
Wie aktuell ist diese User-Agent-Liste?
Stand Juni 2026. User-Agent-Strings und die Liste aktiver Bots ändern sich laufend — Anbieter führen neue Bots ein, Versionsnummern wechseln. Prüfen Sie die exakten Tokens vor jeder robots.txt-Änderung gegen die Primärdokumentation von OpenAI, Anthropic, Perplexity und Google sowie gegen Cloudflares laufend gepflegte Bot-Registry. Diese Quellen sind die kanonische Referenz, nicht ein einzelner Blogbeitrag.
Reicht robots.txt, um unerwünschte KI-Bots zu blockieren?
Für seriöse Bots ja, für aggressive oder nutzerausgelöste Fetcher nein. robots.txt ist eine freiwillige Bitte, keine technische Sperre — wer sie ignoriert, lädt Ihre Seite trotzdem. Wer Blocks wirklich durchsetzen will, braucht zusätzlich eine Edge-Regel auf Hosting-Ebene (Cloudflare, Vercel), die nach User-Agent und IP filtert, bevor die Anfrage das Frontend erreicht — eine zweistufige Verteidigung aus deklarierter Absicht und erzwungener Durchsetzung.
Erstgespräch

15 Minuten zur Einordnung. Am Ende wissen Sie, ob sich Headless für Sie lohnt — oder nicht.

Im Erstgespräch klären wir, ob Headless WordPress für Ihr Vorhaben der richtige Weg ist. Ergebnis: eine schriftliche Einordnung, die Sie intern weitergeben können.

Lieber direkt einen Termin? Slot wählen

Antwort innerhalb eines Werktags · Vertraulich behandelt · Keine Newsletter-Anmeldung