Wir haben die Top 1000 Websites auf KI-Reife geprüft

Jeder hat eine Meinung dazu, wie man in der KI-Suche gefunden wird. Anbieter verkaufen Readiness-Audits, Foren streiten darüber, ob llms.txt etwas bringt, und Google veröffentlicht Leitfäden dazu, wie seine Modelle das Web lesen. Was fast niemand tut, ist den tatsächlichen Zustand zu messen. Also haben wir es getan. Wir haben die Top 1000 Websites der Welt genommen und eine nach der anderen geprüft, wie gut sie auf KI-Crawler und Antwortmaschinen vorbereitet sind.
Das Ergebnis ist eine nützliche Bestandsaufnahme. Nur eine von zehn der Top 1000 ist wirklich bereit für die KI-Suche, und kaum ein Drittel hat überhaupt eine Haltung zu KI-Crawlern eingenommen. Das Web ist deutlich weniger bereit, als die Debatte darum vermuten lässt, und die Lücke liegt nicht dort, wo die meisten sie erwarten.
Wie wir gemessen haben
Wir sind von der Tranco-Liste ausgegangen, einem forschungstauglichen Ranking der beliebtesten Domains, das mehrere Quellen kombiniert und gegen Manipulation gebaut ist. Die Methode können Sie auf der Tranco-Projektseite nachlesen. Wir haben die Top 1000 Domains genommen, jede einzelne besucht und vier konkrete Signale erfasst.
Das erste Signal ist llms.txt, die aufkommende Datei, die KI-Modellen sagt, wie sie eine Website lesen und nutzen sollen. Das zweite ist robots.txt, sowohl ob sie existiert als auch ob sie ausdrücklich einen KI-Crawler wie GPTBot oder ClaudeBot benennt. Das dritte ist, ob die Startseite JSON-LD als strukturierte Daten ausliefert. Das vierte ist, ob die Website eine Sitemap deklariert. Diese vier entsprechen direkt den Signalen, die eine Antwortmaschine nutzt, wenn sie entscheidet, ob sie einer Seite vertraut und sie zitiert.
Von den 1000 Domains lieferten 669 eine brauchbare Antwort. Der Rest ist Infrastruktur, die keine öffentliche Website betreibt: Zertifizierungsstellen, Auslieferungsendpunkte für Inhalte, DNS-Hosts und Tracking-Domains, die hoch ranken, aber keine lesbare Startseite haben. Jeder Prozentwert unten nutzt diese 669 erreichbaren Seiten als Bezugsgröße, sodass die Zahlen echte, öffentlich sichtbare Websites beschreiben und nicht die Leitungen des Internets.
Ein paar ehrliche Grenzen vor den Ergebnissen. Wir haben jede Seite einmal gelesen, zu einem einzigen Zeitpunkt, eine Seite, die am nächsten Tag ihre Dateien änderte, ist also so eingefroren, wie wir sie vorfanden. Wir haben die Startseite auf strukturierte Daten geprüft und nicht jedes Template, eine Seite mit JSON-LD nur auf Artikelseiten zählt hier also als Fehlstelle. Und wir haben gezählt, ob eine Seite einen KI-Crawler benennt, nicht ob sie ihn erlaubt oder blockiert, denn das Benennen ist das Signal für Bewusstsein, das wir messen wollten. Mit diesen Vorbehalten bleibt das Bild trotzdem auffallend klar.
Wir beginnen mit einer bewusst großzügigen Frage: Hat eine Seite überhaupt eine KI-Haltung? Wir zählen ein Ja, wenn sie entweder eine llms.txt-Datei veröffentlicht oder mindestens einen KI-Crawler ausdrücklich in ihrer robots.txt benennt. Das ist eine niedrige Schwelle, kein perfektes Setup nötig. Später ziehen wir sie höher und bewerten jede Seite über alle vier Signale, aber dieser erste Schnitt fragt nur, ob eine Seite bemerkt hat, dass es KI-Crawler gibt.
Vor dem Lesen Abschnitt für Abschnitt hier die ganze Stichprobe auf einen Blick. Jeder Balken ist der Anteil der 669 erreichbaren Seiten, die den Check bestehen.
Nur ein Drittel hat KI auf dem Schirm
Über die 669 erreichbaren Seiten hinweg haben nur 32,6 Prozent überhaupt eine KI-Haltung. Zwei von drei der meistbesuchten Websites der Welt haben nirgendwo etwas getan, um zu signalisieren, wie KI-Maschinen ihre Inhalte behandeln sollen. Und das ist nur die niedrige Schwelle. Der Anteil, der wirklich bereit ist und den wir später bewerten, ist weit kleiner.
Das ist die Zahl, bei der man kurz innehalten sollte. Das sind keine kleinen Seiten, die an einem Nachmittag gebaut wurden. Es sind die meistbesuchten, bestausgestatteten und professionellsten Websites der Welt. Wenn ein Drittel von ihnen eine KI-Haltung hat, dann ist das eigentliche Web, die lange Mitte aus Seiten mit kleineren Teams, mit hoher Wahrscheinlichkeit noch weiter zurück.
Es lohnt sich zu erinnern, wie niedrig diese Schwelle liegt. Eine Seite schafft sie, indem sie eine einzige optionale Datei veröffentlicht oder einen Crawler-Namen in eine Textdatei tippt, die sie ohnehin schon hat. Wir haben keine guten Antworten verlangt, keine vollständigen strukturierten Daten und keine durchdachte Richtlinie. Wir haben irgendeine Antwort verlangt, und zwei Drittel der Top-Seiten gaben keine.
Man könnte das als Krise lesen. Ehrlicher ist es, es als Chance zu lesen. Die Signale, die eine Seite für eine Antwortmaschine lesbar machen, sind nicht exotisch. Es sind dieselben Grundlagen aus Crawlbarkeit und Struktur, die Suche schon immer getragen haben, die ruhigere Lesart, für die wir in unserem Leitfaden zur generativen Suchmaschinenoptimierung argumentiert haben. Die meisten Seiten sind nicht zurück, weil die Arbeit schwer wäre. Sie sind zurück, weil ihnen niemand gesagt hat, dass die Arbeit jetzt auch für sie gilt.
llms.txt ist noch eine Randnotiz
Die meistgehypte KI-Readiness-Taktik des letzten Jahres ist die llms.txt-Datei. In unserer Stichprobe veröffentlichen genau 12,4 Prozent der Seiten eine. Der Standard, der das neue robots.txt werden sollte, liegt vorerst selbst bei den größten Seiten im einstelligen Bereich echter Verbreitung.
Hier kommt der ehrliche Teil. Diese niedrige Zahl ist nicht der Skandal, nach dem sie aussieht. Wir haben schon gesagt, dass llms.txt günstig hinzuzufügen und in Ordnung zu haben ist, aber keine große KI-Maschine hat sie als Ranking- oder Zitatfaktor bestätigt, und Googles eigener Leitfaden nennt sie unnötig. Die 12,4 Prozent sind also weniger ein Maß für Nachlässigkeit als ein Maß dafür, wie wenig die Datei heute tatsächlich bringt. Wenn die größten Seiten der Welt, mit dem meisten zu gewinnen und dem meisten Personal dafür, sich nicht die Mühe machen, sagt das etwas über den echten Ertrag.
Die Lehre lautet nicht „schnell llms.txt veröffentlichen”. Es ist das Gegenteil. Stecken Sie die Mühe in die Signale, die Maschinen bestätigt lesen, und behandeln Sie llms.txt als nettes Extra in fünf Minuten, nicht als Priorität. Die Seiten an der Spitze des Webs haben mit ihrer Zeit abgestimmt, und die Abstimmung sagt, dass diese Datei optional ist.
Der Bot-Krieg: Welche Crawler Websites benennen
Der aufschlussreichste Ausschnitt der Daten ist, welche KI-Crawler Websites in ihrer robots.txt ansprechen. Wenn eine Seite einen bestimmten Bot benennt, ob um ihn zu erlauben oder zu blockieren, trifft sie eine bewusste Entscheidung über den Zugang dieses Unternehmens. Hier der Anteil der 669 erreichbaren Seiten, die jeden benennen, mit der absoluten Zahl daneben.
OpenAIs GPTBot ist der meistgenannte Crawler im Web, was zu seiner Stellung als der Bot passt, an den Seitenbetreiber zuerst dachten. Common Crawl liegt ungewöhnlich hoch, weil es der KI-Welle vorausging und viele Seiten es vor Jahren aus anderen Gründen blockierten und sich dann zufällig in der KI-Debatte wiederfanden. Anthropic und Google folgen dicht dahinter, und der lange Schwanz neuerer Crawler wie Apple und Cohere zeigt, dass das Bewusstsein schnell abfällt, sobald man die vier Namen verlässt, die die Schlagzeilen beherrschen.
Es gibt eine Feinheit, die die reinen Zahlen verbergen. Einen Bot zu benennen kann bedeuten, ihn willkommen zu heißen oder ihn zu verbannen, und unser Audit erfasste das Vorhandensein des Namens, nicht die Richtung der Regel. In der Praxis kommen beide Entscheidungen vom selben Ort, einem Seitenbetreiber, der sich bewusst hingesetzt und über KI-Zugang nachgedacht hat. Deshalb ist die Zählung ein fairer Stellvertreter für Bewusstsein, auch wenn sie nicht zwischen offenen und geschlossenen Türen unterscheidet.
Das Muster ist wichtig für Ihre eigene robots.txt. Wenn Sie KI-Crawler erlauben oder blockieren wollen, lässt das Benennen nur von GPTBot ein Dutzend anderer Bots unadressiert, jeder folgt in der Zwischenzeit seinem eigenen Standard. Eine vollständige Haltung deckt den ganzen Satz ab, genau deshalb prüft Seodisias in seiner KI-Ready-Analyse auf 14 bekannte KI-Crawler statt nur auf den berühmten.
Die schweigende Mehrheit sagt nichts
Dreht man die Bot-Daten um, erscheint eine größere Geschichte. Nur 23,8 Prozent der erreichbaren Seiten benennen überhaupt einen KI-Crawler in ihrer robots.txt. Mehr als drei Viertel sagen nichts. Sie haben KI-Bots nicht erlaubt, sie haben sie nicht blockiert, sie haben sich der Frage schlicht nicht gestellt. Selbst unter den Seiten, die überhaupt eine robots.txt pflegen, benennen nur 32,6 Prozent einen einzigen KI-Crawler.
Schweigen ist selbst eine Entscheidung, und meist die falsche. Eine Seite, die nichts sagt, wird unter dem jeweiligen Standard gecrawlt, den jedes KI-Unternehmen wählt, ohne Spur der Absicht und ohne Kontrolle darüber, wie ihre Inhalte Antwortmaschinen füttern. Für einen Publisher, der sich um Scraping sorgt, ist das eine verpasste Gelegenheit, Grenzen zu setzen. Für ein Unternehmen, das Zitate will, ist es eine verpasste Gelegenheit, den roten Teppich auszurollen. So oder so bedeutet das Fehlen einer Haltung, dass die Seite auf KI reagiert, statt zu steuern, wie KI sie behandelt.
Die Grundlagen rund um dieses Schweigen sind ebenfalls nicht ermutigend. Nur 49,3 Prozent der Seiten deklarieren eine Sitemap, und nur 33,2 Prozent liefern JSON-LD als strukturierte Daten auf der Startseite. Strukturierte Daten sind der klarste Weg, jeder Maschine, ob Suche oder generativ, zu sagen, was eine Seite tatsächlich enthält, und zwei Drittel der Top-Seiten lassen das auf ihrer wichtigsten Seite aus. Wenn Sie einen schnellen strukturellen Gewinn wollen, liegt hier der einfache Boden, und es ist genau die Art von Problem, die ein technisches SEO-Audit in Minuten aufdeckt.
Warum gibt es die Lücke überhaupt, auf Seiten, die sie sich klar leisten könnten zu schließen? Die ehrliche Antwort ist, dass KI-Reife keinen Eigentümer hat. Such-Teams halten sie für die Aufgabe anderer, die Rechtsabteilung sorgt sich um Scraping, ohne zu handeln, und das Engineering hat einen Rückstand, den eine robots.txt-Änderung nie ganz nach oben schafft. Die Arbeit ist klein, aber niemandem zugewiesen, und nicht zugewiesene Arbeit passiert nicht. Das ist eine gute Nachricht für jeden, der bereit ist, sie zuzuweisen.
Zum Schluss bewerten wir jede Seite, 25 Punkte je Signal, und sortieren die gesamten Top 1000 in Reife-Stufen. Hier ist die Basis alle 1000 Domains, daher enthält die unterste Stufe auch die 331, die gar keine öffentliche Seite ausliefern.
Fast sechs von zehn der beliebtesten Domains der Welt landen in der untersten Stufe, und nur eine von zehn, unsere Grenze für wirklich bereit, erreicht die oberste. Unter den echten Seiten, die antworten, erreichen nur 18 volle vier von vier. Die Mitte ist dünn, eine Seite, die auch nur zwei oder drei erfüllt, ist dem Großteil des Webs voraus.
Was Sie tun sollten
Die ermutigende Schlussfolgerung aus einem entmutigenden Datensatz ist, dass die Schwelle, um aufzufallen, niedrig liegt. Sie brauchen keine eigene KI-Abteilung und keine teure Transformation. Sie müssen die wenigen konkreten Dinge tun, die zwei Drittel der größten Seiten nicht getan haben, und Sie können sie alle an einem Nachmittag erledigen.
- Nehmen Sie eine
robots.txt-Haltung ein. Entscheiden Sie, ob KI-Crawler Ihre Inhalte erreichen sollen, und schreiben Sie diese Entscheidung für den ganzen Satz bekannter Bots, nicht nur fürGPTBot. - Fügen Sie
JSON-LDals strukturierte Daten auf Ihren wichtigen Seiten hinzu, damit Maschinen verstehen, was jede Seite enthält. Beginnen Sie mit der Startseite und Ihren wichtigsten Templates. - Halten Sie eine aktuelle Sitemap, damit Crawler alles Wichtige finden, was bei größeren Seiten direkt damit zusammenhängt, wie Crawl-Budget funktioniert.
- Behandeln Sie
llms.txtals optional. Fügen Sie sie hinzu, wenn Sie mögen, aber lassen Sie sie die Signale oben nicht verdrängen.
Der Grund, warum das funktioniert, ist derselbe Grund, warum der Datensatz so aussieht, wie er aussieht. Die Signale, die Sie für eine Antwortmaschine lesbar machen, überschneiden sich fast vollständig mit einer technisch gesunden Seite. Der Kanal änderte sich, als Antworten begannen, innerhalb von KI gerendert zu werden, aber die Arbeit nicht. Seiten, die schon solides technisches SEO machen, sind den größten Teil des Weges KI-bereit, ohne es so zu nennen, und Seiten, die die Grundlagen ignorieren, sind für beide unsichtbar.
Betrachten Sie die Top 1000 also als Spiegel für den Rest des Webs. Ein Drittel hat eine KI-Haltung, ein Achtel veröffentlicht llms.txt, und zwei Drittel lassen strukturierte Daten aus. Die Chance besteht nicht darin, der lautesten Taktik nachzujagen, sondern die ruhige, bestätigte Arbeit zu tun, die die meisten Seiten noch vernachlässigen. Die Unternehmen an der Spitze kamen mit Budgets dorthin, die die meisten Leser nicht haben, ließen diesen Boden aber unbedeckt, was bedeutet, dass eine kleine Seite, die die Grundlagen erledigt, für eine Antwortmaschine bewusster wirken kann als ein Riese, der sie ignorierte. Nehmen Sie ein Signal, Ihre robots.txt-Haltung oder Ihre strukturierten Daten, beheben Sie es diese Woche und gehen Sie dann zum nächsten.
Welche Seiten wir geprüft haben
Zur Transparenz hier die 100 meistbesuchten öffentlichen Seiten unserer Stichprobe, die höchstplatzierten Domains, die eine Antwort lieferten. Wir listen sie als reinen Text ohne Links, damit die Liste neutral bleibt und niemandem ein Ranking-Signal gibt. Sie vermittelt außerdem ein Gefühl dafür, was das Audit tatsächlich angesehen hat.
google.com whatsapp.net chatgpt.com office365.com
cloudflare.com fastly.net vimeo.com t.me
gstatic.com appsflyersdk.com myfritz.net criteo.com
facebook.com netflix.com zoom.us blogspot.com
microsoft.com wordpress.org qq.com europa.eu
googleapis.com digicert.com tiktokv.com vk.com
youtube.com skype.com yandex.net b-cdn.net
amazonaws.com youtu.be baidu.com googleadservices.com
apple.com pinterest.com workers.dev github.io
instagram.com gandi.net windows.com amazon-adsystem.com
mail.ru goo.gl cloudflare-dns.com epicgames.com
fbcdn.net whatsapp.com nginx.org unity3d.com
twitter.com x.com mozilla.org snapchat.com
dzen.ru googlesyndication.com nic.ru app-measurement.com
linkedin.com yahoo.com opera.com apache.org
googletagmanager.com cloud.microsoft yandex.ru nih.gov
live.com icloud.com samsung.com mailinabox.email
office.com tiktok.com nginx.com amazonvideo.com
amazon.com msn.com sentry.io dns.google
azure.com spotify.com wordpress.com outlook.com
wikipedia.org cloudflare.net okcdn.ru kaspersky.com
github.com adobe.com reddit.com intuit.com
bing.com googledomains.com google-analytics.com app-analytics-services.com
doubleclick.net ntp.org bit.ly telekom.de
googleusercontent.com wa.me ui.com prodregistryv2.orgPrüfen Sie, ob Ihre eigene Seite KI-bereit ist
Wir haben diese vier Checks auf tausend Seiten laufen lassen. Auf Ihrer können Sie sie in wenigen Minuten durchführen. Die KI-Ready-Funktion in Seodisias bewertet Ihre Seite mit bis zu 100 Punkten über diese Signale und die übrige Readiness-Checkliste, gruppiert dann nach Priorität, was zu beheben ist, mit fertigen Schema- und robots.txt-Snippets zum Einfügen. Sie läuft lokal, verarbeitet unbegrenzt viele URLs und ist kostenlos zum Herunterladen und Nutzen. Wenn zwei Drittel der größten Seiten der Welt das nicht getan haben, gehören die paar Stunden, die es Sie kostet, zur wirkungsvollsten Arbeit an Ihrer Seite gerade jetzt.