Crawling & Indexierung

Damit Ihre SEO-Arbeit Früchte tragen kann und Top-Rankings bei Google erzielt werden, müssen alle wichtigen Anforderungen in Sachen Crawlbarkeit und Indexierung erfüllt sein. Wir sagen Ihnen, was sich hinter diesen Begriffen verbirgt und wie sich beide Fachbereiche zielgerichtet als SEO-Werkzeuge einsetzen lassen.

Suchmaschinenoptimierung – Wortwolke

Crawling & Indexierung

Damit Ihre SEO-Arbeit Früchte tragen kann und Top-Rankings bei Google erzielt werden, müssen alle wichtigen Anforderungen in Sachen Crawlbarkeit und Indexierung erfüllt sein. Wir sagen Ihnen, was sich hinter diesen Begriffen verbirgt und wie sich beide Fachbereiche zielgerichtet als SEO-Werkzeuge einsetzen lassen.

Inhaltsverzeichnis

Unser Autor
steffen_pax_2
Steffen Wals
Content-Marketing & SEO-Experte mit Schwerpunkten in Organic Marketing
Artikel teilen
Share on facebook
Share on twitter
Share on linkedin
Share on email

Welche Rolle spielen Crawling und Indexierung im SEO?

Mit zu den wichtigsten Aufgaben der SEO-Arbeit gehört es, die Inhalte, die auf der eigenen Website veröffentlicht werden, den Nutzern und potenziellen Kunden möglichst schnell und effektiv verfügbar zu machen. In der Praxis bedeutet das meist, dass relevante Seiten möglichst schnell in den Google-Index aufgenommen werden und so – durch gezielte OnPage- und OffPage-Maßnahmen – frühzeitig sehr gute Rankings in den Suchergebnissen erzielt werden, um mehr Nutzer auf die Seite zu bringen. Die Analyse (Crawling) und Listung (Indexierung) der Inhalte seitens Google stellt damit einen der ersten bzw. grundlegenden und damit auch entscheidenden Punkte erfolgreicher SEO-Arbeit dar. 


Wir haben für Sie deshalb im Folgenden einen umfassenden Überblick über Begriffsbedeutungen, Funktionsweisen und Best Practices aus den Bereichen Crawling und Indexierung zusammengestellt, der Ihnen sowohl beim Verständnis der Grundlagen als auch bei der Umsetzung der wichtigsten Maßnahmen hilft. Sollten Sie mit Ihrer Website auf Probleme stoßen, bieten wir Ihnen zudem einen umfassenden Crawling- und Indexierungs-Check als Teil unserer kostenlosen SEO-Analyse an.

Wie funktioniert Crawling?

Damit Webseiten später überhaupt im Index platziert und dem Nutzer in den Suchergebnis-Rankings angezeigt werden können, müssen sie zunächst von den Suchmaschinen gefunden, untersucht und ausgewertet werden. Google, Bing, Yahoo, Baidu & Co. nutzen für diese Aufgabe sogenannte Crawler, die auch als “Bots” oder “Spider” bezeichnet werden. Hinter diesen Crawlern verbirgt sich eine enorme Rechenleistung, die dafür sorgt, dass Webseiten – teilweise mehrmals pro Sekunde – auf neue Inhalte geprüft werden. Um die grundlegende Funktionsweise der Suchmaschinen-Crawler verständlich zu machen, wollen wir zunächst genauer auf den bekanntesten Vertreter namens GoogleBot eingehen.

Wie arbeitet der GoogleBot?

Auch wenn meistens einheitlich vom “GoogleBot” gesprochen wird, verbirgt sich dahinter ein ganzes Bot-Netzwerk, das unter anderem mit verschiedenen Crawler-Varianten für unterschiedliche Inhalte arbeitet. So gibt es beispielsweise unterschiedliche GoogleBots für News, Videos und Mobile-Webseiten, die ihre gesammelten Informationen verbinden und so eine übergreifende Auswertung ermöglichen.  

 

Das übergeordnete Ziel: Alle Webseiten im Netz möglichst häufig zu crawlen und auf neue Inhalte zu prüfen, um diese im Index zu sammeln und den Google-Nutzern zu jeder Zeit die bestmöglichen Suchergebnisse für ihre Anfragen auszuspielen. Wie häufig der GoogleBot einzelne Seiten crawlt, ist dabei von unterschiedlichen Faktoren (z. B. externen Links, PageRank) abhängig und kann von einer einzelnen Abfrage alle paar Tage bis hin zu mehreren Anfragen pro Sekunde variieren. 


Um neue Inhalte zu finden und bestehende Webseiten regelmäßig zu aktualisieren, folgt der GoogleBot externen und internen Links (HREF, SRC & JavaScript). Das bedeutet zwangsläufig: Je strukturierter eine Seite verlinkt ist, desto einfacher wird auch die Arbeit des GoogleBots und desto besser werden auch die Inhalte der Seite bei Google aktuell gehalten. Da der GoogleBot bei jedem Crawl der Seite eine Serveranfrage als User-Agent “Googlebot” stellt, sind die Besuche und deren Häufigkeit auch immer über die Server-Logfiles nachvollziehbar.

Was ist das Crawl-Budget?

Der GoogleBot und auch andere Suchmaschinen-Crawler besuchen nicht alle Seiten in der gleichen Frequenz – das wäre alleine in Sachen Rechenleistung nur schwer zu bewerkstelligen. Deshalb wird jeder Webseite von Google ein sogenanntes Crawl-Budget zugewiesen. Vereinfacht gesagt, handelt es sich beim Crawl-Budget um die Zeit, die der GoogleBot bereitstellt, um die Inhalte einer bestimmten Seite zu crawlen. Verbringt er zu viel Zeit mit dem Crawling von Unterseiten, die für die Indexierung ohnehin keine Rolle spielen, kann so das Problem auftreten, dass relevante Unterseiten nicht (oder zu selten) gecrawlt werden und so auch nicht richtig im Google-Index auftauchen. Die wichtigste Methode, um das vorhandene Crawl-Budget möglichst effektiv einzusetzen, sind zielgerichtete Crawling-Anpassungen

 

Beeinflussen lässt sich dieses “Budget” durch externe Backlinks. Je mehr (seriöse) Backlinks eine Seite aufweist, desto höher sieht Google ihre Relevanz – und desto mehr Crawl-Budget wird ihr zugewiesen. Backlinks auf Unterseiten geben dem Crawler zusätzliche Einstiegspunkte, wodurch er nicht mehr zwingend von der Homepage aus starten muss, sondern direkt von der verlinkten Landingpage aus damit beginnt, sich durch die URL-Struktur bzw. interne Verlinkung zu arbeiten.

Wie kann ich das Crawling meiner Website steuern?

Dass sich Bots beim Crawling anhand von Links orientieren, liefert die Grundlage dafür, dass Sie als Webmaster die Chance haben, das Crawling Ihrer Seite zu Teilen anzupassen. Ergänzend zum Aufbau relevanter Backlinks steht deshalb im Vordergrund, die Crawling-Bedingungen ihrer Website so anzupassen, dass das vorhandene Budget effektiv genutzt werden kann und möglichst alle relevanten Seiten so häufig wie möglich gecrawlt werden können.

Welche Seiten sind für das Crawling relevant?

Bevor Sie irgendwelche Maßnahmen hinsichtlich der Crawling-Einstellungen ergreifen (können), sollten Sie sich zunächst bewusst werden, welche Seiten in Hinblick auf die spätere Indexierung überhaupt relevant bzw. am relevantesten sind. Hierbei hilft grundsätzlich die Frage: “Über welche (Unter-)Seiten sollen organische Nutzer auf meine Seite kommen?” Relevant für die Indexierung sind also vor allem die Seiten und Inhalte, die aus SEO-Sicht gute Einstiegspunkte darstellen. Dazu können gehören:

Verschwendet wird das Crawl-Budget hingegen bei Seiten, die ohnehin keine guten Einstiegspunkte für die Nutzer bieten. Das können beispielsweise folgende Arten von (Unter-)Seiten sein:

Allgemeingültig ist diese Herangehensweise jedoch nicht: So ist eine LogIn-Page zwar generell kein guter Einstiegspunkt für neue Besucher – besonders bei größeren und bekannten Websites wird von bestehenden Nutzern aber häufig direkt nach solchen Seiten gesucht, um nicht auf der Website selbst navigieren zu müssen. Mit Blick auf den Nutzer-Mehrwert kann es deshalb sinnvoll sein, auch eine solche Seite als relevant zu betrachten.

Gibt es Seiten, die ohne spätere Indexierung gecrawlt werden sollten?

Tatsächlich gibt es auch für diesen Fall Beispiele: Ein bekanntes ist die sogenannte User- bzw. HTML-Sitemap, auf die wir im späteren Verlauf dieses Artikels noch genauer zu sprechen kommen. Generell fallen in diese Kategorie alle Seiten, die viele interne Links beinhalten, den Crawlern so die Navigation erleichtern und ihnen dabei helfen, die Seiten schneller zu finden, die letztendlich auch indexiert werden sollen.

Crawling über interne Verlinkung steuern

Ob OnPage- oder OffPage-SEO – Links nehmen in jedem Fall eine wichtige Rolle ein. Im Crawling-Kontext ist eine saubere interne Verlinkung der Grundstein dafür, dass Bots jede (relevante) Unterseite schnell und effektiv erreichen können. Das Ergebnis: Es wird kein Crawl-Budget verschwendet, weil der Crawler keine “Sackgassen” ohne weiterführende interne Links erreicht.

Crawling & Indexierung – Interne Verlinkung

Zusätzlich bietet eine systematische interne Verlinkung natürlich auch Ihren Nutzern einen Vorteil in Sachen Benutzerfreundlichkeit (Usability), da sie die thematisch zusammenhängende Navigation auf den Seiten deutlich erleichtert. Selbiges gilt für die Bots: Wenn die verlinkten Seiten inhaltlich zusammenhängen, verstehen auch die Crawler die Seitenstruktur besser.

Interne Verlinkung unstrukturiert (links) vs. strukturiert (rechts)

Welche Rolle spielen externe Links?

Links von externen Seiten mit hoher Autorität werden im SEO-Bereich grundsätzlich dazu genutzt, die Autorität bzw. Vertrauenswürdigkeit, die Google der eigenen Seite bemisst, zu steigern. Im Crawling-Kontext stellen die Links vor allem einen zusätzlichen Einstiegspunkt dar – und erhöhen dadurch auch das Crawl-Budget. In Kombination mit einer strategischen internen Verlinkung wird so nicht nur eine optimale Navigation für Crawler etabliert, sondern der LinkJuice (= Domainautorität), der durch die externen Links weitergegeben wird, kann auch zielgerichtet auf die eigenen Seiten verteilt werden. 

 

Auch das Setzen von Links zu externen Seiten kann den Crawlern dabei helfen, die eigenen Inhalte besser zu interpretieren und zu gewichten.

Crawling über Sitemaps steuern

Während die interne Verlinkung den Crawlern zumindest ein Stück weit dabei helfen kann, die Struktur der Seite zu verstehen, lässt sich dieser Aspekt wesentlich effektiver mit der sogenannten Sitemap umsetzen. Dabei handelt es sich um eine Datei im .xml-Format, die auf dem Server abgelegt wird und alle relevanten SEO-Seiten nach einem festen System auflistet. Sie garantiert zwar nicht, dass automatisch immer alle Seiten gecrawlt werden, erleichtert den Prozess insgesamt aber deutlich. 


Auch wenn sie prinzipiell bei kleineren Webseiten mit wenigen Unterseiten nicht zwingend gebraucht wird, ist es deshalb dennoch sinnvoll, die Sitemap von Anfang an zu etablieren und regelmäßig zu aktualisieren – vor allem dann, wenn es zunächst nur wenige oder gar keine externen Links auf die Unterseiten gibt.

Welche Seiten werden in der Sitemap gelistet?

Generell ist es sinnvoll, in der Sitemap nur die Seiten zu listen, die in irgendeiner Form für spätere Rankings relevant sein können. Ausgeschlossen werden für gewöhnlich folgende Seiten:

Ziel der Sitemap.xml ist es, den Crawlern auf einen Blick die vollständige Struktur der Webseite verständlich zu machen, indem – vereinfacht gesagt – der Strukturbaum mit den einzelnen Verzeichnissen vorgelegt wird. So wissen die Crawler sofort, welchen Links sie folgen können, um bestimmte Zielseiten zu erreichen.

Wie wird die Sitemap aufgebaut?

Die Sitemap.xml wird direkt im Hauptverzeichnis (= Root-Verzeichnis) des Host-Servers abgelegt und ist nach einem festen System und mit festen Restriktionen aufgebaut. Zu diesen Einschränkungen gehören:

Sollte Ihre Webseite die beiden letztgenannten Einschränkungen sprengen, gibt es auch die Möglichkeit, mehrere einzelne Sitemaps zu erstellen. Das kann auch sinnvoll sein, wenn beispielsweise HTML-Seiten und Medien (z. B. Videos) der Übersicht wegen in unterschiedlichen Sitemaps gelistet werden sollen. Zudem werden die gelisteten Seiten in der Sitemap immer als absolute URLs angegeben. Die absolute URL für diesen Artikel wäre beispielsweise: 

 

https://www.pax-marketing.de/unsere-fachbereiche/suchmaschinenoptimierung/onpage/crawling-indexierung/

 

Die relative URL würde hingegen nur den Teil nach dem Hauptverzeichnis abbilden: 

 

/unsere-fachbereiche/suchmaschinenoptimierung/onpage/crawling-indexierung/

Crawling & Indexierung – sitemap.xml Beispiel
Beispiel-Sitemap

Zusätzlich gibt Ihnen die Sitemap die Möglichkeit, ihre Seiten zu priorisieren, was ebenfalls ein sinnvoller Schritt sein kann, wenn das Crawl-Budget beschränkt ist. Sie können zu jeder gelisteten URL ein “<priority>”-Tag ergänzen und dort eine Zahl zwischen 0 und 1 eintragen (Standardwert = 0,5). Der Wert hat keinen Einfluss auf die Rankings, zeigt den Crawlern aber, welche Seiten vorrangig gecrawlt werden sollten. Zusätzlich lassen sich auch weitere Metadaten wie die Änderungshäufigkeit oder die letzte Aktualisierung mit in den XML-Sitemap aufnehmen.

Vorlage: Sitemap.xml zum kostenlosen Download

Auch wenn viele Content-Management- und Shopsysteme mittlerweile automatisierte Funktionen oder Plug-ins für die Erstellung der Sitemap haben, sind diese nicht immer zu 100 % zuverlässig und wir sind davon überzeugt, dass es immer hilfreich ist, wenn Sie als Webmaster wissen, wie Sie eine Sitemap.xml “von Hand” erstellen. Eine Vorlage, die Sie selbst mit ihren absoluten URLs befüllen können, haben wir deshalb hier zum kostenlosen Download für Sie bereitgestellt:

 

DOWNLOAD COMING SOON

 

Bearbeiten können Sie die .xml-Datei mit den meisten herkömmlichen Code-Editoren. Eine einfache und benutzerfreundliche Option ist hierfür Sublime Text (Windows / MacOS / Linux).

Was ist eine HTML-Sitemap (User-Sitemap)?

Die .xml-Sitemap dient vor allem dazu, den Crawlern ihre Arbeit zu erleichtern. Zusätzlich gibt es aber auch eine andere Form der Sitemap, die sich vor allem am Mehrwert für den Nutzer orientiert: die HTML-Sitemap. 

 

Diese Variante der Sitemap wird nicht als externe Datei, sondern in Form einer normalen HTML-Seite erstellt und häufig mit Bezeichnungen wie “Themen”, “Themensammlung” oder “Inhaltsverzeichnis” auf der Webseite platziert. Die Seite ist für jeden Nutzer frei zugänglich und enthält – oftmals nach Kategorien sortiert – Links zu allen relevanten SEO-Seiten auf der Webseite. Mit diesem Klickpfad erhalten Nutzer so auf einen Blick eine Übersicht über alle abgedeckten Themen – zusätzlich hilft aber auch diese “User-Sitemap”, bei der es sich letztendlich um eine Form der internen Verlinkung handelt, den Crawlern bei zielgerichteten Navigieren.

 

Indem die HTML-Sitemap direkt auf der Homepage verlinkt wird, ist jede relevante Seite für die Crawler nur noch zwei “Klicks” entfernt. Ein Problem, das dadurch gelöst wird: Der GoogleBot geht nur maximal drei Ebenen tief (= Crawl-Tiefe). Sind tief liegende Seiten also nicht mithilfe einer (User-)Sitemap oder einer gut strukturierten internen Verlinkung auffindbar, werden sie womöglich gar nicht gecrawlt.

Das wäre beispielsweise auch bei dieser Seite der Fall, da sie sich erst auf der vierten Ebene unserer URL-Struktur befindet: 

 

https://www.pax-marketing.de/unsere-fachbereiche/suchmaschinenoptimierung/onpage/crawling-und-indexierung/

Crawling über robots.txt steuern

Ein “Problem” am Crawling: Die Bots crawlen zunächst einmal jede Seite, die sie erreichen können, insofern es ihnen nicht gezielt verboten wird. Die robots.txt ist eine Text-Datei, die im Root-Verzeichnis des Servers abgelegt wird und die zentrale Crawling-Steuerung ein Stück weit erleichtern soll. Wichtig: Da die robots.txt immer nur für den jeweiligen Host gilt, muss sie mehrfach angelegt werden, wenn eine Webseite beispielsweise gleichzeitig über http:// und https:// erreichbar ist. Auch Subdomains benötigen eine separate robots.txt.

 

Die robots.txt beruht auf dem Robots-Exclusion-Standard-Protokoll und kann dadurch steuern, wie sich Crawler und Bots auf Ihrer Website bzw. Domain verhalten und bewegen. In ihr lassen sich unter anderem Regeln festlegen, die bestimmte Seiten, Verzeichnisse oder Dateitypen vom Crawling ausschließen.

 

Die Regeln lassen sich dabei entweder für Webcrawler und Bots im Allgemeinen oder nur für bestimmte Varianten formulieren. Das bedeutet, dass Seiten von Google und Bing beispielsweise weiter normal gecrawlt werden können, während andere Bots (z. B. Spider-Tools wie Screaming Frog) gezielt ausgeschlossen werden, um der Konkurrenz die Analyse der eigenen Seite zu erschweren. Hierfür müssen sie lediglich den Namen des Bots kennen.

Wie ist die robots.txt aufgebaut?

Auch wenn es sich auf den ersten Blick nur um eine einfache Textdatei handelt, können die Einstellungen in der robots.txt weitreichende Folgen haben und unter Umständen ihre Sichtbarkeit und Rankings aufs Spiel setzen. Die Arbeit damit gehört also in die Hände erfahrener Webmaster oder SEO-Profis. 

Die Einträge bzw. Regeln in der robots.txt bestehen aus drei Elementen: 

Indem ein spezifischer User-Agent (z. B. GoogleBot) angesprochen wird oder nur bestimmte Verzeichnisse aufgenommen werden, lässt sich das Crawling beispielsweise so aussteuern, dass der Crawler-Traffic gezielt reduziert wird und so weniger Server-Überlastungen entstehen. Das kann vor allem für große Websites, die viel und dauerhaft gecrawlt werden, mit der Zeit sehr relevant werden. Um diesen Prozess zu unterstützen, lässt sich in der Google Search Console auch die Crawl-Rate anpassen. Während die Standard-Rate beispielsweise bei 5 Anfragen pro Sekunde liegen kann, lässt sie sich so reduzieren, um ebenfalls Server-Kapazitäten einzusparen. Weiter erhöhen können Sie die Crawling-Frequenz hingegen nicht.

robots.txt zum kostenlosen Download

Damit sie nachvollziehen können, wie die Regeln in der Praxis formuliert werden, haben wir einige der wichtigsten Einträge für Sie in unserer Beispiel-robots.txt gesammelt. Diese können Sie hier kostenlos herunterladen und individuell anpassen:

 

DOWNLOAD COMING SOON

robots.txt: Einschränkungen und Probleme

Auch wenn die Crawling-Steuerung über die robots.txt in der Theorie nach einem guten Werkzeug klingt, kommt sie leider ebenso schnell an ihre Grenzen. Das Hautproblem besteht darin, dass die formulierten Regeln von Crawlern und Bots mehr wie eine Empfehlung und nicht wie eine Pflicht verstanden werden. In der Praxis bedeutet das, dass sich seriöse Bots (z. B. GoogleBots) zwar für gewöhnlich an alle Anweisungen halten, schädliche Bots (z. B. Malware-Bots) aber problemlos über die Regeln hinwegsehen können. Kurz gesagt: Die robots.txt kann Ihre Webseite nicht vor Zugriffen schützen.

Wie funktioniert die Indexierung?

Sobald Ihre Inhalte durch das Crawling analysiert und ausgewertet wurden, sollen sie im nächsten Schritt in den Google Index aufgenommen werden, um Nutzern auch in den Suchergebnissen angezeigt zu werden. Auch hier gibt es eine Reihe unterschiedlicher Begriffe, Anpassungen und Mechanismen, die Sie als Webmaster kennen sollten.

Was ist der Google Index?

Der Google Index umfasst alle vom GoogleBot gecrawlten Seiten, die für die Indexierung freigegeben wurden und bildet so die Grundlage dafür, dass Nutzern auf den Suchergebnisseiten (Search Engine Result Pages – SERPs) relevante Webseiten und Antworten auf ihre Anfragen angezeigt werden können. Das Ziel von Google ist hier also grundsätzlich, alle im Web verfügbaren Seiten in einer Datenbank zu sammeln, um den Nutzern jederzeit die am besten passenden Ergebnisse ausspielen können. Schätzungen zufolge umfasst der Google Index mittlerweile mehr als 1.000 Milliarden Webseiten. Das Crawling dient dazu, den Google Index ständig aktuell zu halten und zu erweitern.

 

In welcher Reihenfolge die Ergebnisse aus dem Index für den Nutzer aufgelistet werden, ist anschließend von über 200 unterschiedlichen Faktoren abhängig. Zu den wichtigsten gehört laut Google neben dem Content und den Backlinks auch der “RankBrain”Algorithmus.

Wie funktioniert RankBrain?

Die Grundidee: RankBrain setzt künstliche Intelligenz und Machine Learning ein, um vor allem die Suchanfragen besser zu beantworten, die zuvor noch nicht gestellt wurden. Das bedeutet: Stolpert der Algorithmus über Begriffe, die er noch nicht kennt, versucht er selbst herauszufinden, welche Wörter und Phrasen eine ähnliche Bedeutung haben dürften, um sich bei der Zusammenstellung der Suchergebnisse auf diese Vermutungen zu stützen. RankBrain versucht also beispielsweise, die Intention einer Suche zu erraten und diese in ein Cluster aus ähnlichen Begriffen einzubetten. Aus den Handlungen der Nutzer lassen sich anschließend Informationen über den Erfolg bzw. den Nutzen filtern, wodurch die nächste Suchanfrage mit einem ähnlichen Wortlaut zielgerichteter beantwortet werden kann.

Wie kann ich die Indexierung meiner Seiten steuern?

Was für das Crawling gilt, gilt auch für die Indexierung: Suchmaschinen indexieren grundsätzliche jede Webseite – sollen einzelne Seiten also nicht im Index auftauchen, müssen hierfür Verbote gesetzt werden. Auch hier gibt es unterschiedliche Möglichkeiten und Tools, die Indexierung gezielt zu beeinflussen.

Meta-Robots / “noindex”

Der effektivste Weg, um die Indexierung von Seiten zu beeinflussen, sind die sogenannten Meta-Robots. Auch wenn es die Bezeichnung zunächst vielleicht vermuten lässt, handelt es sich dabei nicht um eine Variante des robots.txt-Files, sondern um Meta-Tags, die in folgender Form im Head-Bereich von HTML-Seiten platziert werden können: 

 

<meta name=”robots” content=”INPUT”>

 

Statt INPUT lassen sich hier verschiedene Parameter einsetzen, um bestimmte Effekte zu erzielen. Zu den wichtigsten gehören dabei:

Zusätzlich gibt es einige Parameter, die zwar seltener zum Einsatz kommen, in manchen Fällen aber durchaus sinnvoll sein können:

Die einzelnen Parameter lassen sich dabei kombinieren. Hier einige Beispiele: 

 

  1. Eine Seite, die nicht gecrawlt und indexiert werden soll, für Nutzer aber weiterhin erreichbar bleibt:

  <meta name=“robots“ content= “noindex,nofollow“>

 

2. Eine Seite, die gecrawlt und indexiert werden soll, deren Inhalte aber nicht in Googles Snippets auftauchen dürfen: 

<meta name=”robots” content=”index,follow,nosnippet”>

Was sind X-Robots?

Da die Robot-Tags im Head-Bereich von HTML-Seiten gesetzt werden, haben sie keinen Einfluss auf Dateien, die in anderen Formaten vorliegen (z. B. PDF-Downloads). Hierfür werden die Regeln mithilft von X-Robots-Tags direkt im HTTP-Header formuliert. Dabei können alle Parameter gesetzt werden, die auch für die Meta-Robot-Tags funktionieren: 

 

HTTP/1.1 200 OK

Date: Tue, 25 May 2021 21:42:43 GMT

(…)

X-Robots-Tag: noindex

(…)

Häufiger Fehler: Indexierungs-Steuerung via robots.txt

Die robots.txt sollten Sie hingegen nicht nutzen, um Ihre Website von der Indexierung auszuschließen. Wird der Zugriff auf eine Seite über die robots.txt verhindert, können Crawler sie zwar sehen, aber nicht analysieren. Dadurch wird unter anderem auch nicht ausgelesen, ob Meta-Tag-Angaben (z. B. “noindex”) aufgeführt sind, die die Indexierung beeinflussen sollen. Verweisen nun Links auf diese “blockierte” Seite, nehmen Crawler diese grundsätzlich als relevant wahr und können aufgrund der robots.txt nicht auslesen, dass die Seite nicht indexiert werden soll. Das Ergebnis sind häufig Seiten, die dennoch indexiert werden und mit der Meta-Description “Für diese Seite sind keine Informationen verfügbar” in den Suchergebnissen erscheinen.

 

In der Google Search Console finden Sie im Bereich “Abdeckung” eine Übersicht mit den URLs Ihrer Website, die indexiert wurden, obwohl ihr Crawling in der robots.txt untersagt wurde.

Canonical-Tags

Sobald ihre Website wächst, kann es schnell passieren, dass bestimmte Teile Ihres Contents parallel auf mehreren Unterseiten bereitgestellt werden soll. Hierbei besteht das Problem, dass Google die Dopplung als sogenannten “Duplicate Content” einstuft, da die Dopplung keinen Mehrwert für die Nutzer darstellt. Die Folge: Google straft das Kopieren häufig ab und nimmt mindestens eine der beiden Seiten vom Index

 

Grundsätzlich sollte deshalb jeder Content nur unter einer URL erreichbar sein. Um das auch in der Praxis umsetzbar zu machen, können Canonical-Tags genutzt werden. Der Tag wird im Head-Bereich des HTML-Codes der Seite implementiert und verweist auf die kanonische URL. Das ist immer die URL, unter der sich der originale Content befindet. So können Sie Google direkt zeigen, welche Seite das Original ist und dementsprechend auch indexiert werden soll. Um Probleme oder Fehler von Anfang an zu vermeiden, kann es sinnvoll sein, den Canonical-Tag grundsätzlich auf jeder Seite zu setzen und immer auf sich selbst verweisen zu lassen, insofern keine Dopplung vorliegt. 

 

Der Canonical-Tag für diese Seite würde beispielsweise so aussehen: 

 

<link rel=”canonical”href=”https://www.pax-marketing.de/unsere-fachbereiche/suchmaschienenoptimierung/onpage/crawling-und-indexierung”>

 

Die Anwendungsfälle für Canonical-Tags können ganz unterschiedlich aussehen. Zu den häufigsten gehören:

Weiterleitungen: 301- & 302-Redirects

Auch Weiterleitungen (Redirects) spielen eine entscheidende Rolle für die Indexierung. Immerhin gibt es ganz unterschiedliche Gründe (z. B. Server-Umzug, Umstrukturierung), die dafür sorgen können, dass bestimmte bzw. alte URLs nicht mehr indexiert werden sollen. Mit sauber gesetzten Redirects sorgen Sie dafür, dass der GoogleBot von Ihrer veralteten URL direkt zu der Stelle, an der sich der Content nun befindet, geführt wird. Nur so kann sichergestellt werden, dass auch die Rankings und Backlinks beibehalten werden. Besonders relevant für die SEO-Arbeit sind 301- und 302-Weiterleitungen. 

 

 

301-Weiterleitung: Redirects mit dem Code 301 werden immer dann genutzt, wenn eine Seite permanent umgezogen wird und an der neuen Stelle weiterhin dieselbe Relevanz besitzt. Beispiele dafür sind ein Domain- oder CMS-Wechsel, die Umstellung auf SSL-Verschlüsselung oder auch das Umbenennen von Produktkategorien. Im Fall der 301-Weiterleitung wird nur noch die neue, aktuelle URL indexiert. 

 

 

Die meisten CMS und Shopsysteme erleichtern (oder automatisieren) die Erstellung von Redirects beinahe vollständig. Falls nicht, müssen Webmaster folgende Zeile in die .htaccess-Datei auf dem Server eintragen: 

 

redirect 301 /url-alt/ https://www.domain.de/url-neu/
Wichtig: Diesen Schritt sollten ausschließlich erfahrene Webmaster vornehmen!

 

 

302-Weiterleitung: Diese Art von Redirect kommt zum Einsatz, wenn sich die Ansicht bzw. Verfügbarkeit einer Seite nur vorübergehend ändert. So lassen sich beispielsweise saisonale Angebote schalten, ohne dass es außerhalb der Saison zu Fehlermeldungen kommt. Hierbei bleibt im Normalfall die ursprüngliche URL indexiert und die vorübergehende Ziel-URL der Weiterleitung wird nicht indexiert. 

 

Weiterleitungsketten: Unabhängig davon, welche Art von Weiterleitung Sie einsetzen, sollten sie immer darauf achten, sogenannte Weiterleitungsketten zu vermeiden. Werden mehrere Weiterleitungen hintereinander geschaltet, verschlechtert dies nicht nur die Geschwindigkeit ihrer Seite und damit die Nutzererfahrung, sondern der GoogleBot ignoriert automatische Weiterleitungsketten ab dem 5. Schritt und wird die Inhalte dementsprechend auch nicht indexieren.

Für Notfälle: URL manuell aus dem Index entfernen lassen

Manchmal kann es wichtig sein, bestimmte Seiten mit sofortiger Wirkung aus den SERPs zu entfernen – beispielsweise dann, wenn Rechtsverstöße vorliegen. In der Google Search Console finden Sie dafür im Reiter “Google Index” die Option “URLs entfernen”, mit der Sie einen Antrag auf Entfernung stellen können, wodurch die Seite nicht mehr in die Suchergebnisseiten mit einbezogen wird. Das funktioniert für gewöhnlich jedoch nur, wenn mindestens eine der folgenden drei Bedingungen bereits erfüllt ist:

Wird der Antrag bewilligt, sollte die Seite normalerweise nach einigen Stunden aus dem Index entfernt sein und so auch nicht mehr in den Suchergebnissen zu finden sein. Wichtig: In manchen Fällen entfernt Google die jeweiligen URLs nur für einen Zeitraum von 90 Tagen. Anschließend werden sie wieder normal indexiert.

Wie funktioniert Crawling und Indexierung bei JavaScript?

Neben den klassischen HTML-Seiten gibt es mit JavaScript (JS) es noch einen weiteren Bereich, der in Sachen Crawling und Indexierung eine wichtige Rolle spielt – auch, weil er selbst erfahrene SEO-Experten immer wieder vor Probleme stellt. Auch wenn dynamische JavaScript-Inhalte heutzutage zu den Standardkomponenten des modernen Webs gehören, waren sie aus SEO-Sicht lange Zeit ein Unding. Der einfache Grund dafür: Bis zum Jahr 2015 wurden JS-Elemente von Google nicht gerendert – und dadurch auch nicht richtig analysiert –, da der Aufwand an Rechenleistung damals schlichtweg den Rahmen gesprengt hat. 

 

Da JavaScript ständig an Bedeutung gewinnt und Frameworks wie React oder Angular mittlerweile das Erstellen vollständiger Websites mit JS ermöglichen, war Google dazu gezwungen einen zusätzlichen Schritt in die Crawl-Prozesse zu integrieren. Der “Renderer” hilft dem GoogleBot dabei, Seiten so zu sehen, wie sie von Nutzern im Browser gesehen werden. Der Render-Prozess funktioniert mithilfe des Web Rendering Service (WRS), den Google vereinfacht mit diesem Diagramm erklärt:

Crawling & Indexierung – JavaScript Crawling (Google)
Quelle: Google

Auch wenn sich Google in der Grafik rein auf HTML bezieht, sind in diesem Prozess auch die JS-Dateien integriert. Das grundsätzliche Problem: Anders als bei klassischen HTML-Seiten kann der GoogleBot nicht einfach die HTML-Datein abrufen und den enthaltenen Links folgen. Um die Links einer JS-basierten Seite zu crawlen, müssen zunächst alle relevanten JS- und CSS-Dateien durch den WRS rendern, um die von Javascript am Document Object Model (DOM) durchgeführten Änderungen (= dynamische Inhalte) zu crawlen und anschließend zu indexieren. Folglich kann Google die Seite nicht indexieren, bevor nicht alle relevanten JS-Dateien gerendert wurden.

JS-Rendering: Wo liegen die Probleme?

Was grundsätzlich nicht in Vergessenheit geraten sollte: Auch wenn der GoogleBot mittlerweile JavaScript rendern und crawlen kann, sieht er nur die DOM-Inhalte, die ohne zusätzliche Aktion verfügbar sind. Der GoogleBot kann im klassischen Sinn nicht klicken oder scrollen – sind Inhalte lediglich versteckt bzw. ausgeblendet, können sie dennoch gecrawlt werden – müssen sie durch einen Klick vom Nutzer aktiv generiert werden, sieht der GoogleBot die Inhalte nicht. Zusätzlich sollte sämtlicher relevanter Inhalt kurz nach dem Laden der Website verfügbar sein und nicht durch zusätzliche Schritte des Nutzers generiert werden. Das bedeutet auch, dass Elemente wie Title, Überschriften und elementarer Content (v. a. Text) im besten Fall als HTML-Version vorliegen.

 

Doch auch abgesehen davon macht JavaScript aus SEO-Perspektive immer wieder Probleme – unter anderem, weil es keine 100%ige Garantie gibt, dass die Inhalte richtig gecrawlt werden und zudem auch keine Sicherheit darüber besteht, ob dynamische Inhalte von Google genau so bewertet werden wie klassischer HTML-Content. 

 

Ob die JS-Inhalte Ihrer Seite richtig gerendert bzw. gecrawlt werden, können Sie einfach über das URL-Prüftool und den Bereich “Live-URL prüfen” in der Google Search Console testen. Die Funktion “Gerenderte Seite ansehen” zeigt Ihnen, wie der GoogleBot Ihre Seite sieht und finden so auch heraus, ob für den Bot alle JS-Elemente renderbar sind.

JS-Rendering: Welche Rolle spielt die Render-Methode?

Ein Aspekt, der sowohl bei der Problementstehung als auch bei der Lösung häufig eine zentrale Rolle spielt, ist die Methode, mit der die JS-Inhalte gerendert werden. Grundsätzlich wird dabei zwischen drei Varianten unterschieden:

 

  1. Server-Side Rendering (SSR): Die JS-Ressourcen werden direkt auf dem Server gerendert und sowohl den Nutzern als auch den Crawlern anschließend als HTML-Datei zur Verfügung gestellt. Diese Methode verhindert den Großteil der bekannten Crawling-Probleme mit JavaScript, ist jedoch häufig mit einem hohen Entwicklungsaufwand verbunden.

     

  2. Client-Side Rendering (CSR): Die JS-Ressourcen werden vom Nutzer bzw. Crawler im Browser gerendet, wodurch zwar die Serverlast verringert wird, gleichzeitig jedoch ein deutlich höheres Risiko für Darstellungs- und Crawling-Probleme besteht.

     

  3. Dynamic Rendering (DR): Hier werden beide der zuvor genannten Methoden kombiniert. User erhalten eine CSR-Version der Seite, während Crawlern parallel eine SSR-Version zur Verfügung gestellt wird. Umsetzen lässt sich das unter anderem mit Tools wie prerender.io.

Da bislang nicht alle Crawler JS verarbeiten können, stellt ein serverseitiges bzw. dynamisches Rendering zusätzlich sicher, dass die Seite von allen relevanten Suchmaschinen richtig verstanden werden kann. Ein weiteres Problem, das umgangen werden kann: Der GoogleBot scheint beim Rendering einer Seite nur eine bestimmte Zeit zu warten – sollte das Rendern zu lange dauern, kann es zu einem “Timeout” kommen, wodurch relevante Inhalte womöglich nicht indexiert werden.

Wie wirken sich Google-Updates auf Crawling und Indexierung aus?

Die regelmäßigen Algorithmus-Updates seitens Google werden in der SEO-Welt für gewöhnlich mit einem lachenden und einem weinenden Auge betrachtet. Auf der einen Seite können sie monatelange SEO-Arbeit mit verbesserten Rankings belohnen – gleichzeitig kann es aber auch zu Ranking- und Sichtbarkeitsverlusten kommen, deren tatsächliche Ursachen häufig nicht direkt kommuniziert werden. 

 

Während nach einem Update deshalb meistens die veränderten Rankings im Vordergrund stehen, können die Algorithmus-Änderungen aber auch deutlichen Einfluss auf das Crawling und die Indexierung haben.

Beispiel 1: Mobile first Indexing

Beispielhaft für derartige Auswirkungen ist das “Mobile first Indexing”-Update, das von Google im Mai 2018 ausgerollt wurde. Ab diesem Zeitpunkt werden Webseiten auf Grundlage der Inhalte bewertet, die auf mobilen Geräten (z. B. Smartphones) angezeigt werden – die Desktop-Variante spielt dementsprechend nur noch eine untergeordnete Rolle. Websites mit responsivem Design bzw. optimierten Mobile-Varianten wurden dadurch in den Mobile-Suchergebnissen besser positioniert. Ein weiterer Vorteil des Updates: “Versteckte” Inhalte wie Burger- bzw. Akkordeon-Menüs, die zuvor nicht von Google analysiert wurden, fließen seitdem mit in das Crawling und die Indexierung ein.

Beispiel 2: Veränderte Crawling-Raten

Da Veränderungen am Algorithmus auch häufig damit einhergehen, dass Google bestimmten Websites eine andere Bedeutung beimisst, kann sich auch die Crawl-Rate bzw. die Häufigkeit der GoogleBot-Besuche auf einer bestimmten Seite oder einer gesamten Website verändern. Nachvollziehen lassen sich solche Veränderungen unter anderem mithilfe der Crawling-Statistiken und LogFiles innerhalb der Google Search Console.

Crawling & Indexierung: Welche Tools helfen?

Bei den hier besprochenen Themenbereichen steht in einem Großteil der Fälle die Frage im Vordergrund, ob eine Seite überhaupt korrekt gecrawlt bzw. indexiert wurde. Wie in vielen anderen SEO-Bereich liefert Google die wichtigsten Tools zur Überprüfung selbst – und das kostenlos

 

Eine der einfachsten Möglichkeiten, um die korrekte Indexierung zu überprüfen, ist eine Filterung der Suchergebnisse bei Google. Dazu lassen sich direkt im Suchfeld sogenannte “Suchoperatoren” anwenden. Wird bei einer Suchanfrage mit dem folgenden Format das passende Suchergebnis angezeigt, ist die entsprechende Seite von Google auch korrekt gecrawlt und indexiert worden: 

 

site:https://www.domain.de/unterseite

Google Search Console

Für Webmaster, die einen genaueren Einblick in das Crawling- und Indexierungsverhalten ihrer Website benötigen, stellt Google die Search Console bereit. Mithilfe des URL-Prüfungs-Tools lassen sich gezielt einzelne URLs analysieren und so alle relevanten Informationen aus den Bereichen Auffindbarkeit, Crawling und Indexierung auslesen. Dazu gehört beispielsweise, wann die Seite letztmalig gecrawlt wurde, ob sie korrekt indexiert ist und welche Sitemaps auf eine URL verweisen. 

 

Das Tool gibt Nutzern zusätzlich die Möglichkeit, URLs bei Google zur Indexierung einzureichen. Wichtig: Auch wenn Sie die URL nicht einreichen, wird sie früher oder später automatisch vom GoogleBot gecrawlt. Das Beantragen einer Indexierung kann lediglich dabei helfen, dass diese früher geschieht und dadurch beispielsweise Änderungen auf der Seite früher in den Index übernommen werden. Viele wichtige Tipps zur Search Console liefert Google selbst in diesem Ratgeber.

SEO-Spider

Allen erfahrenen Webmastern können SEO-Spider bei der regelmäßigen Crawling- und Indexierungsanalyse ihrer Webseite(n) helfen. Diese Tools ermöglichen Ihnen eine vollständige Analyse der gesamten Website, geben so einen guten Überblick über die relevanten Aspekte (z. B. Anzahl der indexierten Seiten) und erleichtern dadurch auch die Fehlersuche. Sollte Ihre Website weniger als 500 Unterseiten aufweisen, empfehlen wir Ihnen dafür die kostenlose Variante von ScreamingFrog.

Pax Marketing UG (haftungsbeschränkt)

Greifswalder Straße 208

10405 Berlin

Logo Pax Marketing

Sie wollen mehr erfahren?

Wir sind jederzeit persönlich für Sie zur Stelle. Ob für eine erste Einschätzung oder eine tiefgehende Beratung.

 

Kostenloses Beratungsgespräch vereinbaren

Kostenlose Beratung anfragen