Auditamos los 1000 sitios top para la búsqueda con IA

Todo el mundo tiene una opinión sobre cómo aparecer en la búsqueda con IA. Los proveedores venden auditorías de preparación, los foros discuten si llms.txt sirve para algo y Google publica guías sobre cómo sus modelos leen la web. Lo que casi nadie hace es medir el estado real de las cosas. Así que lo hicimos. Tomamos los 1000 sitios web más visitados del mundo y revisamos, uno por uno, qué tan preparados están para los rastreadores de IA y los motores de respuesta.
El resultado es una comprobación de realidad muy útil. Solo uno de cada diez de los 1000 top está de verdad listo para la búsqueda con IA, y apenas un tercio ha tomado alguna postura sobre los rastreadores de IA. La web está mucho menos preparada de lo que sugiere la conversación a su alrededor, y la brecha no está donde la mayoría la espera.
Cómo lo medimos
Partimos de la lista Tranco, un ranking de calidad académica de los dominios más populares que combina varias fuentes y está diseñado para resistir la manipulación. Puede leer sobre el método en el sitio del proyecto Tranco. Tomamos los 1000 dominios principales, visitamos cada uno y registramos cuatro señales concretas.
La primera señal es llms.txt, el archivo emergente que indica a los modelos de IA cómo leer y usar un sitio. La segunda es robots.txt, tanto si existe como si nombra de forma explícita a algún rastreador de IA como GPTBot o ClaudeBot. La tercera es si la página de inicio incluye datos estructurados JSON-LD. La cuarta es si el sitio declara un sitemap. Estas cuatro corresponden directamente a las señales que usa un motor de respuesta cuando decide si confía en una página y la cita.
De los 1000 dominios, 669 devolvieron una respuesta utilizable. El resto es infraestructura que no sirve un sitio público: autoridades de certificación, puntos de entrega de contenido, hosts de DNS y dominios de seguimiento que rankean alto pero no tienen una página de inicio legible. Cada porcentaje de abajo usa esos 669 sitios alcanzables como base, de modo que las cifras describen sitios reales y de cara al público, no las cañerías de internet.
Unos límites honestos antes de los hallazgos. Leímos cada sitio una vez, en un único momento, así que un sitio que cambió sus archivos al día siguiente queda congelado tal como lo encontramos. Revisamos la página de inicio en busca de datos estructurados y no cada plantilla, así que un sitio con JSON-LD solo en las páginas de artículo aparece aquí como ausencia. Y contamos si un sitio nombra a un rastreador de IA, no si lo permite o lo bloquea, porque nombrarlo es la señal de conciencia que queríamos medir. Con esas salvedades, el panorama sigue siendo llamativamente claro.
Empezamos con una pregunta deliberadamente generosa: ¿tiene el sitio alguna postura sobre la IA? Contamos un sí si publica un archivo llms.txt o nombra de forma explícita al menos a un rastreador de IA en su robots.txt. Es un listón bajo, no hace falta una configuración perfecta. Más adelante lo subimos y puntuamos cada sitio en las cuatro señales, pero este primer corte solo pregunta si el sitio se ha dado cuenta de que los rastreadores de IA existen.
Antes de la lectura sección por sección, aquí está toda la muestra de un vistazo. Cada barra es la proporción de los 669 sitios alcanzables que pasan cada comprobación.
Solo un tercio se ha dado cuenta de la IA
Entre los 669 sitios alcanzables, apenas el 32,6 por ciento tiene alguna postura sobre la IA. Dos de cada tres de los sitios web más visitados del planeta no han hecho nada, en ninguna parte, para señalar cómo deben tratar su contenido los motores de IA. Y eso es solo el listón bajo. La proporción que está de verdad lista, que puntuamos más adelante, es mucho menor.
Esa es la cifra para detenerse a pensar. No son páginas pequeñas montadas en una tarde. Son los sitios con más tráfico, más recursos y más mantenimiento profesional del mundo. Si un tercio de ellos tiene una postura sobre IA, entonces la web real, la larga franja media de sitios con equipos más pequeños, casi con seguridad va mucho más atrás.
Conviene recordar lo bajo que está este listón. Un sitio lo supera publicando un único archivo opcional, o escribiendo el nombre de un rastreador en un archivo de texto que ya tiene. No pedimos buenas respuestas, ni datos estructurados completos, ni una política bien pensada. Pedimos cualquier respuesta, y dos tercios de los sitios top no dieron ninguna.
Es tentador leer esto como una crisis. Es más honesto leerlo como una oportunidad. Las señales que hacen legible un sitio para un motor de respuesta no son exóticas. Son los mismos fundamentos de rastreo y estructura que siempre han sostenido la búsqueda, la lectura más serena que defendimos en nuestra guía de optimización para motores generativos. La mayoría de los sitios no están atrasados porque el trabajo sea difícil. Están atrasados porque nadie les dijo que el trabajo ahora también les aplica.
llms.txt sigue siendo un detalle menor
La táctica de preparación para IA más promocionada del último año es el archivo llms.txt. En nuestra muestra, exactamente el 12,4 por ciento de los sitios publica uno. El estándar que debía ser el nuevo robots.txt está, por ahora, en cifras de un solo dígito de adopción real incluso entre los sitios más grandes.
Aquí viene la parte honesta. Esa cifra baja no es el escándalo que parece. Ya dijimos que llms.txt es barato de añadir y está bien tenerlo, pero ningún motor de IA importante lo ha confirmado como factor de ranking o de cita, y la propia guía de Google lo califica de innecesario. Así que el 12,4 por ciento es menos una medida de negligencia y más una medida de lo poco que el archivo aporta hoy. Si los sitios más grandes del mundo, con más por ganar y más personal para hacerlo, no se molestan, eso dice algo sobre el rendimiento real.
La conclusión no es «corra a publicar llms.txt». Es lo contrario. Invierta el esfuerzo en las señales que los motores han confirmado que leen, y trate llms.txt como un extra agradable de cinco minutos, no como una prioridad. Los sitios en la cima de la web han votado con su tiempo, y el voto dice que este archivo es opcional.
La guerra de los bots: a quién nombran los sitios
El fragmento más revelador de los datos es a qué rastreadores de IA deciden dirigirse los sitios en su robots.txt. Cuando un sitio nombra a un bot concreto, sea para permitirlo o bloquearlo, toma una decisión deliberada sobre el acceso de esa empresa. Aquí está la proporción de los 669 sitios alcanzables que nombran a cada uno, con el número absoluto al lado.
El GPTBot de OpenAI es el rastreador más nombrado de la web, lo que encaja con su posición como el bot en el que los responsables de sitios pensaron primero. Common Crawl está inusualmente alto porque precede a la ola de IA y muchos sitios lo bloquearon hace años por razones ajenas, para luego encontrarse por accidente dentro de la conversación sobre IA. Anthropic y Google siguen de cerca, y la larga cola de rastreadores más nuevos como Apple y Cohere muestra que la conciencia cae rápido en cuanto se sale de los cuatro nombres que dominan los titulares.
Hay un matiz que las cifras crudas ocultan. Nombrar a un bot puede significar darle la bienvenida o vetarlo, y nuestra auditoría registró la presencia del nombre, no la dirección de la regla. En la práctica ambas decisiones vienen del mismo lugar, un responsable que se sentó y pensó a propósito sobre el acceso de la IA. Por eso el conteo es un buen indicador de conciencia aunque no distinga entre puertas abiertas y cerradas.
El patrón importa para su propio robots.txt. Si decide permitir o bloquear rastreadores de IA, nombrar solo a GPTBot deja sin tratar a una docena de otros bots, cada uno siguiendo mientras tanto su propio valor por defecto. Una postura completa cubre el conjunto entero, y por eso Seodisias revisa 14 rastreadores de IA conocidos en su análisis de preparación para IA en lugar de solo el famoso.
La mayoría silenciosa no dice nada
Si le da la vuelta a los datos de bots, aparece una historia mayor. Solo el 23,8 por ciento de los sitios alcanzables nombra a algún rastreador de IA en su robots.txt. Más de tres cuartas partes no dicen nada. No han permitido a los bots de IA, no los han bloqueado, simplemente no se han planteado la cuestión. Incluso entre los sitios que se molestan en mantener un robots.txt, solo el 32,6 por ciento nombra a un único rastreador de IA.
El silencio es en sí mismo una decisión, y casi siempre la equivocada. Un sitio que no dice nada es rastreado bajo el valor por defecto que elija cada empresa de IA, sin registro de intención y sin control sobre cómo su contenido alimenta a los motores de respuesta. Para un editor preocupado por el scraping, es una oportunidad perdida de poner límites. Para un negocio que quiere citas, es una oportunidad perdida de tender la alfombra. En ambos casos, la ausencia de postura significa que el sitio reacciona a la IA en vez de dirigir cómo la IA lo trata.
Los fundamentos en torno a ese silencio tampoco animan. Solo el 49,3 por ciento de los sitios declara un sitemap, y apenas el 33,2 por ciento incluye datos estructurados JSON-LD en la página de inicio. Los datos estructurados son la forma más clara de decirle a cualquier motor, de búsqueda o generativo, qué contiene realmente una página, y dos tercios de los sitios top lo omiten en su página más importante. Si quiere una victoria estructural rápida, aquí está el terreno fácil, y es justo el tipo de problema que una auditoría SEO técnica saca a la luz en minutos.
¿Por qué existe la brecha, en sitios que claramente podrían permitirse cerrarla? La respuesta honesta es que la preparación para IA no tiene dueño. Los equipos de búsqueda la ven como tarea de otro, el área legal se preocupa por el scraping sin actuar, e ingeniería tiene un backlog en el que una edición de robots.txt nunca llega arriba. El trabajo es pequeño pero no está asignado, y el trabajo sin asignar no ocurre. Eso es una buena noticia para quien esté dispuesto a asignarlo.
Por último, puntúe cada sitio, 25 puntos por señal, y ordene los 1000 sitios top en niveles de preparación. Aquí la base son los 1000 dominios, así que el nivel más bajo incluye también los 331 que no sirven ninguna página pública.
Casi seis de cada diez de los dominios más populares del mundo caen en el nivel más bajo, y solo uno de cada diez, nuestra línea para estar de verdad listo, alcanza el más alto. Entre los sitios reales que responden, solo 18 logran un cuatro de cuatro perfecto. El medio es delgado, así que un sitio que cumple aunque sean dos o tres se adelanta a la mayor parte de la web.
Qué hacer al respecto
La conclusión alentadora de un conjunto de datos desalentador es que el listón para destacar está bajo. No necesita un departamento de IA aparte ni una transformación cara. Necesita hacer las pocas cosas concretas que dos tercios de los sitios más grandes no han hecho, y puede hacerlas todas en una tarde.
- Tome una postura en
robots.txt. Decida si quiere que los rastreadores de IA lleguen a su contenido, y escriba esa decisión para el conjunto completo de bots conocidos, no solo paraGPTBot. - Añada datos estructurados
JSON-LDa sus páginas importantes para que los motores entiendan qué contiene cada página. Empiece por la página de inicio y sus plantillas principales. - Mantenga un sitemap actualizado para que los rastreadores encuentren todo lo que importa, algo que en sitios grandes se conecta directamente con cómo funciona el crawl budget.
- Trate
llms.txtcomo opcional. Añádalo si quiere, pero no deje que desplace a las señales de arriba.
La razón por la que esto funciona es la misma por la que el conjunto de datos se ve como se ve. Las señales que lo hacen legible para un motor de respuesta se solapan casi por completo con un sitio técnicamente sano. El canal cambió cuando las respuestas empezaron a renderizarse dentro de la IA, pero el trabajo no. Los sitios que ya hacen un SEO técnico sólido están casi listos para la IA sin llamarlo así, y los sitios que ignoran lo básico son invisibles para ambos.
Trate entonces a los 1000 top como un espejo del resto de la web. Un tercio tiene una postura sobre IA, un octavo publica llms.txt y dos tercios omiten los datos estructurados. La oportunidad no es perseguir la táctica más ruidosa, sino hacer el trabajo callado y confirmado que la mayoría de los sitios todavía descuida. Las empresas en la cima llegaron con presupuestos que la mayoría de los lectores no tiene, y aun así dejaron este terreno sin cubrir, lo que significa que un sitio pequeño que hace lo básico puede parecerle más deliberado a un motor de respuesta que un gigante que lo ignoró. Tome una señal, su postura en robots.txt o sus datos estructurados, corríjala esta semana y pase a la siguiente.
Qué sitios revisamos
Por transparencia, aquí están los 100 sitios públicos más visitados de nuestra muestra, los dominios mejor posicionados que devolvieron una respuesta. Los listamos como texto plano, sin enlaces, para que la lista sea neutral y no dé señal de ranking a nadie. También da una idea de lo que la auditoría miró en realidad.
google.com whatsapp.net chatgpt.com office365.com
cloudflare.com fastly.net vimeo.com t.me
gstatic.com appsflyersdk.com myfritz.net criteo.com
facebook.com netflix.com zoom.us blogspot.com
microsoft.com wordpress.org qq.com europa.eu
googleapis.com digicert.com tiktokv.com vk.com
youtube.com skype.com yandex.net b-cdn.net
amazonaws.com youtu.be baidu.com googleadservices.com
apple.com pinterest.com workers.dev github.io
instagram.com gandi.net windows.com amazon-adsystem.com
mail.ru goo.gl cloudflare-dns.com epicgames.com
fbcdn.net whatsapp.com nginx.org unity3d.com
twitter.com x.com mozilla.org snapchat.com
dzen.ru googlesyndication.com nic.ru app-measurement.com
linkedin.com yahoo.com opera.com apache.org
googletagmanager.com cloud.microsoft yandex.ru nih.gov
live.com icloud.com samsung.com mailinabox.email
office.com tiktok.com nginx.com amazonvideo.com
amazon.com msn.com sentry.io dns.google
azure.com spotify.com wordpress.com outlook.com
wikipedia.org cloudflare.net okcdn.ru kaspersky.com
github.com adobe.com reddit.com intuit.com
bing.com googledomains.com google-analytics.com app-analytics-services.com
doubleclick.net ntp.org bit.ly telekom.de
googleusercontent.com wa.me ui.com prodregistryv2.orgCompruebe si su propio sitio está listo para la IA
Pasamos estas cuatro comprobaciones por mil sitios. En el suyo puede hacerlas en unos minutos. La función de preparación para IA de Seodisias puntúa su sitio sobre 100 en estas señales y el resto de la lista de comprobación, y luego agrupa por prioridad lo que hay que corregir, con los fragmentos de schema y robots.txt listos para pegar. Funciona en local, maneja URLs ilimitadas y es gratis para descargar y usar. Si dos tercios de los sitios más grandes del mundo no lo han hecho, las pocas horas que le cuesta están entre el trabajo de mayor impacto en su sitio ahora mismo.