3 Min Lesezeit

robots.txt verstehen, ohne Entwickler zu sein

Wenige Dateien auf einer Website sind so klein und gleichzeitig so wirksam wie die robots.txt. Sie liegt im Stammverzeichnis, besteht aus wenigen Zeilen Text und entscheidet trotzdem mit darüber, welche Bereiche einer Website von Suchmaschinen überhaupt angeschaut werden.

Genau diese Mischung aus Schlichtheit und Wirkung sorgt regelmässig für Probleme. Eine falsche Zeile reicht, um wichtige Seiten unsichtbar zu machen. Und weil die Datei meist erst spät im Projekt entsteht, fällt das Problem oft erst auf, wenn Rankings unerklärlich verschwinden.

Was robots.txt eigentlich macht

Die robots.txt ist eine Anweisung an Suchmaschinen-Crawler. Sie sagt: Diese Bereiche darfst du dir anschauen, diese hier bitte nicht. Sie ist keine Sicherheitsmassnahme. Sie verhindert nur das Crawlen, nicht den Zugriff.

Wer Inhalte vor Nutzern oder Wettbewerbern verbergen will, braucht andere Mittel. Wer Suchmaschinen nur sagen möchte, wo sie sich Zeit sparen können, ist hier richtig.

Crawlen und Indexieren sind nicht dasselbe

Eine der häufigsten Verwechslungen: viele Unternehmen glauben, eine Sperre in der robots.txt nehme eine Seite aus dem Index. Das stimmt so nicht. Eine durch robots.txt gesperrte Seite kann trotzdem in den Suchergebnissen auftauchen, nur eben ohne Snippet und ohne Inhalt.

Wer eine Seite wirklich aus dem Index nehmen will, arbeitet mit einem noindex im HTML oder über den HTTP-Header. Die robots.txt ist das falsche Werkzeug für diese Aufgabe.

Typische Fehler in der Praxis

Fast alle Probleme mit robots.txt fallen in eine kleine Anzahl Muster.

Eine alte Test- oder Staging-Direktive bleibt nach dem Launch stehen und sperrt die ganze Website.
Wichtige Verzeichnisse mit Bildern, CSS oder JavaScript werden gesperrt, wodurch Google die Seite nicht sauber rendern kann.
Filter- oder Suchparameter werden pauschal blockiert, obwohl darunter wichtige Seiten liegen.
Es wird versucht, sensible Bereiche per robots.txt zu schützen, obwohl die Datei öffentlich einsehbar ist.

Diese Fehler entstehen selten aus Nachlässigkeit. Sie entstehen meist, weil die Datei als technische Randnotiz behandelt und nicht inhaltlich gepflegt wird.

Warum Staging-Reste so gefährlich sind

Während der Entwicklung wird eine Website oft komplett für Suchmaschinen gesperrt. Das ist sinnvoll. Problematisch wird es, wenn diese Sperre versehentlich auf das Live-System wandert.

Eine einzige Zeile mit Disallow: / reicht aus, damit Google die ganze Domain nicht mehr crawlt. Die Folgen sind nicht sofort sichtbar, weil bestehende Rankings noch eine Weile bestehen bleiben. Aber schleichend verliert die Website Sichtbarkeit, neue Inhalte werden gar nicht erst aufgenommen.

Genau deshalb gehört die robots.txt auf jede ernsthafte Launch-Checkliste. Wer das Thema strukturierter angehen will, findet im Beitrag Relaunch-Tag: was wirklich auf die Checkliste gehört eine sauberere Sicht auf den Wechseltag.

Was Unternehmen wirklich entscheiden müssen

Für die meisten Unternehmenswebsites reicht eine sehr knappe robots.txt. Sie erlaubt das Crawlen der gesamten Website und verweist auf die Sitemap. Mehr ist oft nicht nötig.

Komplexer wird es, wenn es interne Suchergebnisseiten, Filterseiten, Druckansichten oder geschützte Bereiche gibt. Dann lohnt sich eine bewusste Entscheidung, was Google sehen soll und was nur unnötig Crawl-Budget verbraucht.

Wichtig dabei: nicht alles, was technisch möglich ist, ist auch sinnvoll. Pauschale Sperren wirken auf den ersten Blick aufgeräumt, schaffen aber häufig neue Probleme.

Pflege gehört zur Datei dazu

Die robots.txt ist kein Setup-Schritt, der einmal passiert und dann fertig ist. Sie verändert sich mit der Website. Neue Bereiche, neue Seitentypen, neue technische Anforderungen können sie betreffen.

Sinnvoll ist, die Datei mindestens bei jedem grösseren Release zu prüfen. Ebenso wichtig: nach Migrationen, Domainwechseln oder beim Wechsel des CMS. Genau in diesen Phasen entstehen die meisten ungewollten Sperren.

Zusammenarbeit mit der Sitemap

robots.txt und sitemap.xml sind zwei sehr unterschiedliche Werkzeuge, die aber zusammen gedacht werden sollten. Die robots.txt sagt, was nicht gecrawlt werden soll. Die Sitemap sagt, was gecrawlt werden darf.

Wenn beide Dateien sich widersprechen, gewinnt die robots.txt. Eine in der Sitemap gelistete, aber per robots.txt gesperrte Seite ist für Google praktisch ein Signal, dass etwas nicht stimmt.

Schluss

robots.txt ist kein magisches SEO-Werkzeug. Sie macht eine Website nicht besser, schneller oder relevanter. Aber sie kann sie still und unauffällig schwächen, wenn niemand hinschaut.

Wenn du nicht sicher bist, ob deine robots.txt zu deiner Website passt oder ob sie nach dem letzten Relaunch noch dieselben Aufgaben erfüllt wie geplant, lässt sich das in einer kurzen Bestandsaufnahme meist schnell klären.