Robots.txt ist eine einfache Textdatei, die im Root-Verzeichnis einer Website hinterlegt wird und Suchmaschinen-Crawlern (Bots) Anweisungen gibt, welche Bereiche der Website sie crawlen und indexieren dürfen oder nicht. Durch die robots.txt-Datei können Website-Betreiber die Aktivität von Suchmaschinen auf ihrer Seite kontrollieren, ohne hierfür die eigentlichen Inhalte oder Strukturen auf der Seite ändern zu müssen.
Eine typische robots.txt-Datei besteht aus sogenannten „User-agent“- und „Disallow“-Direktiven:
Beispiel einer einfachen robots.txt:
User-agent: *
Disallow: /admin/
Disallow: /private-info/
Diese Anweisungen bedeuten, dass alle Suchmaschinen-Crawler (User-agent: *) weder das Verzeichnis /admin/ noch /private-info/ crawlen sollen.
Weitere Direktiven und Beispiele:
Beispiel:
User-agent: *
Disallow: /intern/
Allow: /intern/blog/
Sitemap: https://www.beispielseite.de/sitemap.xml
Hier wird das Verzeichnis /intern/ gesperrt, mit Ausnahme des Unterverzeichnisses /intern/blog/, das explizit erlaubt wird. Zusätzlich wird auf die Sitemap verwiesen.
Die robots.txt-Datei ist ein wichtiges Instrument zur Kontrolle des Crawl-Verhaltens von Suchmaschinen. Richtig eingesetzt, trägt sie dazu bei, die Indexierung relevanter Inhalte sicherzustellen, Ressourcen zu schonen und unerwünschte Seiten aus den Suchergebnissen fernzuhalten. Dennoch sollte man sich bewusst sein, dass die robots.txt lediglich eine Anweisung ist, an die sich seriöse Crawler halten – der wirksamste Schutz sensibler Inhalte erfolgt durch Zugangsbeschränkungen, Noindex-Tags oder Passwörter.
Datenschutzhinweis
Um dir ein optimales Nutzungserlebnis zu ermöglichen, setzen wir auf dieser Website Cookies und vergleichbare Technologien ein, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Mit deiner Einwilligung können wir personenbezogene Daten wie dein Nutzungsverhalten oder eindeutige Kennungen verarbeiten.
Die Datenverarbeitung kann auch außerhalb der EU erfolgen, z. B. durch Anbieter in den USA. Dabei besteht das Risiko, dass Behörden auf diese Daten zugreifen können, ohne dass dir dagegen wirksame Rechtsmittel zustehen.
Folgende Dienste können dabei zum Einsatz kommen – jeweils nur, wenn du zustimmst:
Calendly (Terminvereinbarung)
Facebook (Marketing, eingebettete Inhalte)
Google Fonts (Webschriftarten)
Google Maps (Kartendarstellung)
Google reCAPTCHA (Spamschutz)
Instagram (eingebettete Beiträge)
LinkedIn (eingebettete Inhalte, Tracking)
WhatsApp (Kontaktmöglichkeit)
YouTube (eingebettete Videos)
Wenn du keine Einwilligung erteilst oder diese später widerrufst, kann dies die Funktionalität der Website einschränken – z. B. werden eingebettete Inhalte blockiert.