Zurück zu allen Beiträgen
guides 7 min read

Warum minderwertige Seiten häufiger gecrawlt werden (und wie Sie das stoppen)

Ali Gundogdu ·
Warum minderwertige Seiten häufiger gecrawlt werden (und wie Sie das stoppen)

Hier ist ein Ärgernis, das in Technical-SEO-Foren immer wieder auftaucht: Jemand prüft seine Crawl-Statistiken und stellt fest, dass der Googlebot Seiten bearbeitet, die niemanden interessieren, alte Veranstaltungslisten, Filterkombinationen, Tag-Archive, während wirklich wichtige Seiten einmal im Monat besucht werden. Es fühlt sich verkehrt an. Warum sollte eine Suchmaschine ihre Zeit mit Ihren schwächsten Seiten verbringen und Ihre besten ignorieren?

Die Antwort: Crawler wissen nicht, welche Seiten zählen, bis sie nachsehen, und minderwertige Seiten neigen dazu, sich zu vermehren, bis sie alles andere verdrängen. Dieser Leitfaden erklärt, warum das passiert, wie Sie die Übeltäter finden und wie Sie die Crawl-Aufmerksamkeit wieder dorthin lenken, wo sie hingehört.

Was ist Crawl-Budget, und wen sollte es kümmern?

Crawl-Budget ist die Anzahl der URLs, die eine Suchmaschine in einem bestimmten Zeitraum auf Ihrer Website crawlen will. Es wird von zwei Dingen geprägt: wie viel Crawling Ihr Server ohne Verlangsamung verkraftet (Crawl-Kapazität) und wie viel die Suchmaschine basierend auf Wichtigkeit und Aktualität Ihrer Website crawlen möchte (Crawl-Nachfrage).

Für die meisten kleinen Websites ist Crawl-Budget kein Thema. Bei ein paar Hundert Seiten crawlt Google sie alle bequem. Zum echten Problem wird es bei vielen Tausend URLs, besonders wenn ein großer Teil davon minderwertig ist. Dann kippt die Rechnung: Jede Anfrage für eine nutzlose Seite ist eine Anfrage weniger für eine Seite, die Sie indexiert und gerankt haben wollen.

Warum minderwertige Seiten mehr Crawling anziehen

Das verkehrte Gefühl entsteht durch einen einfachen Mechanismus. Crawler entdecken URLs, indem sie Links folgen, und besuchen URLs erneut, je nachdem, wie oft sich der Inhalt zu ändern scheint. Minderwertige Seiten gewinnen bei beidem, aus den falschen Gründen.

Sie gewinnen bei der Menge, weil sie automatisch und endlos erzeugt werden. Ein Produktkatalog mit ein paar Filtern kann Zehntausende von URL-Kombinationen produzieren. Ein Kalender kann für jeden Tag eine neue Seite erzeugen, für immer. Sie haben diese Seiten nicht von Hand geschrieben, also vergisst man leicht, wie viele es gibt.

Sie gewinnen bei der scheinbaren Aktualität, weil sich ihr Inhalt ständig verschiebt. Eine “nach Preis sortieren”-Seite oder ein paginiertes Archiv ändert sich, sobald sich Bestand oder Beiträge ändern, also kommt ein Crawler immer wieder zurück, obwohl nichts Bedeutsames neu ist. Die Seite wirkt lebendig und bekommt Aufmerksamkeit, die sie nicht verdient hat.

Das Ergebnis ist eine Website, auf der der Crawler beschäftigt ist, aber am falschen Ort.

Die üblichen Verdächtigen

Die meiste Crawl-Budget-Verschwendung stammt aus einem vertrauten Satz von Mustern:

  • Facettennavigation und Filter. Jede Kombination aus Farbe, Größe, Marke und Sortierung wird zur eigenen URL. Das ist die größte Quelle von Crawl-Aufblähung auf E-Commerce-Websites.
  • URL-Parameter. Session-IDs, Tracking-Parameter und Sortierreihenfolgen erzeugen nahezu unendliche Varianten desselben Inhalts.
  • Tag- und Archivseiten. Tag-Systeme erzeugen oft eine dünne Seite für jedes je verwendete Tag, viele mit nur ein oder zwei Beiträgen.
  • Alte, zeitgebundene Seiten. Vergangene Veranstaltungslisten, abgelaufene Angebote und datierte Archive, die niemandem mehr dienen, aber im Crawl-Pfad sitzen. Genau die “Wie lange behalte ich alte Kalenderseiten”-Frage, die ständig auftaucht, und die Antwort lautet meist: nicht so, dass Crawl-Budget verschwendet wird.
  • Dünne und doppelte Seiten. Nahezu identische Seiten mit wenig eigenem Inhalt geben dem Crawler mehr zu tun und nichts zu belohnen.
  • Unendliche Räume. Kalender mit ewigen “nächster Monat”-Links oder Filter, die zu weiteren Filtern verlinken, können einen Crawler in einer Schleife fangen, die nie endet.

So finden Sie Ihre minderwertigen Seiten

Sie können nicht reparieren, was Sie nicht sehen, und Crawl-Verschwendung ist aus dem Browser meist unsichtbar. Drei Quellen decken sie auf:

  1. Server-Logdateien. Ihre Logs zeigen genau, welche URLs Crawler tatsächlich anfordern und wie oft. Sortieren Sie nach Crawl-Häufigkeit, und Sie sehen schnell, ob der Googlebot seine Besuche auf wichtige Seiten oder auf Filter-Müll verwendet.
  2. Der Crawling-Statistik-Bericht in der Search Console. Er zeigt Crawl-Anfragen über die Zeit, aufgeschlüsselt nach Antwortcode und Dateityp, und markiert, ob das Crawling aus den falschen Gründen steigt.
  3. Ein eigener vollständiger Website-Crawl. Ihre Website so zu crawlen, wie es eine Suchmaschine tut, deckt die URL-Muster auf, die Sie vergessen hatten: die Parameter-Explosionen, die dünnen Archive, die unendlichen Räume.

Wonach Sie suchen, ist die Lücke zwischen den Seiten, die Ihnen wichtig sind, und den Seiten, die gecrawlt werden. Diese Lücke ist Ihre Chance.

So beheben Sie es

Sobald Sie wissen, welche Seiten Budget verschwenden, haben Sie ein Werkzeugset:

  • An der Quelle mit robots.txt blockieren. Für URL-Muster, die nie gecrawlt werden sollten, wie Sortierparameter oder Session-IDs, verbieten Sie sie in der robots.txt. Der Crawler gibt nie eine Anfrage dafür aus.
  • Noindex für Seiten, die existieren müssen, aber nicht ranken sollen. Manche dünnen oder doppelten Seiten müssen für Nutzer zugänglich bleiben, tragen aber nichts zur Suche bei. Ein Noindex-Tag hält sie aus dem Index, beachten Sie aber: Sie werden weiterhin gecrawlt, für reine Crawl-Einsparung ist robots.txt besser.
  • Mit Canonical-Tags konsolidieren. Wenn viele URLs denselben Inhalt zeigen, verweisen Sie sie auf eine kanonische Version, damit der Crawler sie als eine behandelt.
  • Wirklich Totes entfernen. Alte Veranstaltungsseiten und abgelaufene Inhalte, die niemandem dienen, können entfernt und als 404 oder 410 zurückgegeben oder auf eine relevante Live-Seite umgeleitet werden. Lassen Sie sie los.
  • Interne Verlinkung reparieren. Crawler folgen Links, also werden stark verlinkte minderwertige Seiten stark gecrawlt. Weniger interne Links zu dünnen Seiten und stärkere Links zu wichtigen lenken den Crawl-Fluss um.
  • Sitemap sauber halten. Eine XML-Sitemap sollte nur die kanonischen, indexierbaren Seiten auflisten, die Sie gecrawlt haben wollen, ein klares Signal, was zählt.

Häufige Fehler

Ein paar Fallen lohnt es zu vermeiden:

  • Noindex zur Crawl-Budget-Einsparung. Noindex hält eine Seite aus dem Index, stoppt aber nicht das Crawling. Für Crawl-Einsparung blockieren Sie stattdessen in der robots.txt.
  • Seiten blockieren, die Sie auch kanonisieren. Wenn Sie eine URL in der robots.txt verbieten, kann der Crawler ihr Canonical-Tag nicht sehen, das Konsolidierungssignal geht verloren. Wählen Sie pro URL einen Ansatz.
  • Entfernen ohne Links und Traffic zu prüfen. Bevor Sie eine minderwertige Seite löschen, stellen Sie sicher, dass sie nicht still Links oder Traffic einbringt.
  • Es ignorieren, weil die Website klein ist. Bei ein paar Hundert sauberen Seiten müssen Sie sich wirklich keine Sorgen machen.

Wie Seodisias hilft

Der schwerste Teil der Crawl-Budget-Arbeit ist, das Problem überhaupt zu sehen, denn die verschwenderischen URLs werden erzeugt, nicht geschrieben, und sie verstecken sich vor dem normalen Browsen. Seodisias ist ein kostenloser, plattformübergreifender Desktop-Crawler, der Ihre gesamte Website so durchläuft wie eine Suchmaschine und genau diese Muster aufdeckt: die Parameter-Explosionen, die dünnen und doppelten Seiten, die Archive und unendlichen Räume, die Ihren Crawl-Pfad auffressen. Sie sehen die URL-Muster, die sich still vermehren, entscheiden, was zu blockieren, zu entfernen oder zu konsolidieren ist, und lenken die Crawl-Aufmerksamkeit zurück auf die Seiten, die sie verdienen. Kein Konto, kein Limit, und Ihre Crawl-Daten verlassen nie Ihr Gerät.

Fazit

Suchmaschinen crawlen nicht zuerst Ihre besten Seiten; sie crawlen, was sie erreichen können, so oft es sich zu ändern scheint. Minderwertige Seiten nutzen beide Instinkte aus, vermehren sich in der Zahl und verschieben sich im Inhalt, bis sie die Arbeit verdrängen, die Sie eigentlich indexiert haben wollen. Die Lösung ist nicht mehr Inhalt oder mehr Links. Sie besteht darin, die Verschwendung klar zu sehen und dann mit robots.txt, Canonicals, Bereinigung und saubererer interner Verlinkung die Crawl-Aufmerksamkeit dorthin zurückzulenken, wo sie hingehört. Auf einer großen Website ist diese Umlenkung der Aufmerksamkeit eines der wirkungsvollsten Dinge, die Technical SEO tun kann.

Möchten Sie sehen, welche Seiten still Ihr Crawl-Budget auffressen? Crawlen Sie Ihre Website kostenlos mit Seodisias.