Volver a todos los artículos
guides 7 min read

Los bots ya superan la mitad de la web: qué significa

Serap Gündoğdu ·
Los bots ya superan la mitad de la web: qué significa

El titular que circula este mes dice que los bots ya suponen más de la mitad de todo el tráfico web. Es cierto, suena alarmante, y la mayoría de las interpretaciones que lo acompañan son del tipo de alarma equivocada. El dato es real, pero la conclusión que la gente saca de él normalmente no lo es.

Así que déjeme desgranar qué dicen los datos en realidad, separar la parte que sí debería cambiar su comportamiento de la que no, y ser honesto sobre dónde deja esto a un dueño de sitio normal. La versión corta: que la cuota de bots cruce el cincuenta por ciento es un hito, no una emergencia. Lo que importa es qué bots le están llegando y qué le hacen a su crawl budget, y esa es una pregunta que puede responder en una tarde, en lugar de preocuparse por ella en abstracto.

Qué dicen los números en realidad

Los informes del sector convergen en la misma imagen. En distintas mediciones del tráfico agregado de internet, las peticiones automatizadas han superado al tráfico de personas reales, situándose justo por encima de la mitad. Esa cifra lleva años subiendo, así que la sorpresa no es tanto que haya ocurrido, sino que haya tardado tanto en cruzar la línea.

El detalle importante está escondido bajo el titular. “Tráfico de bots” no es una sola cosa. Se reparte en aproximadamente tres grupos, y no podrían ser más diferentes entre sí:

  • Bots buenos con un trabajo. Rastreadores de motores de búsqueda, monitores de disponibilidad, lectores de feeds y los más nuevos rastreadores de IA que recogen páginas para entrenar o para responder preguntas. Se identifican y, en su mayoría, siguen las reglas.
  • Bots malos. Raspadores que roban contenido, programas de credential stuffing, acaparadores de inventario, escáneres de vulnerabilidades. Mienten sobre quiénes son e ignoran sus reglas a propósito.
  • Rastreadores de IA, la porción nueva y de rápido crecimiento. GPTBot, ClaudeBot, Google-Extended, PerplexityBot y otros. Técnicamente son bots buenos, pero su volumen ha crecido tan rápido que merecen su propia línea.

Cuando alguien dice que los bots son la mitad de la web, está sumando los tres juntos. Tratar ese número combinado como una única amenaza es el primer error, porque su respuesta a un raspador de contenido y su respuesta a Googlebot deberían ser opuestas.

Una barra dividida en tres segmentos de color etiquetados bots buenos, bots malos y rastreadores de IA, junto a una barra más pequeña de tráfico humano

Por qué la porción de IA crece tan rápido

El crecimiento no está repartido de forma uniforme. El rastreo de búsqueda clásico es relativamente estable. La parte que añade más peticiones nuevas es la IA: modelos que se entrenan y, cada vez más, modelos que recogen páginas en vivo para responder a la pregunta de un usuario en ese momento.

Esto es un cambio real, no solo más de lo mismo. Un rastreador de búsqueda tradicional visita, indexa una vez y le envía visitantes durante las semanas siguientes. Una recogida de IA en vivo puede tomar su página, usarla para componer una respuesta y no enviarle nada, porque el usuario obtuvo lo que necesitaba dentro del chat. Indagamos sobre si estos motores siquiera leen los archivos que usted prepara para ellos en nuestro análisis sobre si los motores de IA leen de verdad el llms.txt, y la respuesta fue desalentadora. Los protocolos que se están construyendo para hacer este intercambio más justo, como NLWeb y AIPREF, aún son incipientes, algo que cubrimos en la explicación de los estándares de la web agéntica.

La consecuencia práctica es que cada vez más trabajo de su servidor se hace para un público que quizá nunca haga clic. Eso es incómodo, pero es una cuestión de estrategia para otro día. El coste inmediato y concreto es más simple: cada una de esas recogidas gasta parte de su crawl budget.

La parte que sí le toca: el crawl budget

Aquí es donde el número de la mitad de la web deja de ser una curiosidad y empieza a ser su problema. Su sitio tiene una cantidad finita de atención que cualquier rastreador le dedicará en una ventana de tiempo dada. Cuando el volumen de bots sube, más peticiones compiten por ese mismo presupuesto, y las peticiones que ganan no siempre son las páginas que le importan.

Si un rastreador agota su visita en URL de filtros facetados, páginas de etiquetas caducadas, duplicados por ID de sesión y páginas de archivo pobres, le queda menos para las páginas que le generan tráfico. Escribimos justo sobre este fallo en por qué las páginas de bajo valor se rastrean más, y el aumento del tráfico de bots en general agudiza el síntoma, no lo cambia. Un sitio desordenado ya desperdiciaba crawl budget antes; ahora desperdicia más, y más rápido.

La buena noticia es que las palancas no han cambiado. El aumento del tráfico de bots es una razón para por fin tirar de ellas, no para entrar en pánico:

  • Deje de alimentar a los rastreadores con basura. Recorte las URL de bajo valor, casi duplicadas y generadas por parámetros que solo existen para ser rastreadas. La guía de optimización del crawl budget recorre el proceso completo.
  • Modele la atención con la estructura. Los enlaces internos son la señal más fuerte que usted controla sobre dónde gastan su tiempo los rastreadores. Lo tratamos en el enlazado interno como herramienta de crawl budget.
  • Establezca reglas claras para los bots de IA. Decida de forma deliberada qué rastreadores de IA pueden acceder a qué, y déjelo escrito como es debido. La guía completa de robots.txt y bots de IA cubre la sintaxis y las concesiones.

Cómo averiguar qué le está llegando de verdad a su sitio

La respuesta honesta a “¿son los bots un problema para mí?” es: no lo sabe hasta que mira, y casi nadie mira. La cifra agregada de la mitad de la web no le dice nada sobre su sitio concreto. Su mezcla podría ser un noventa por ciento de Googlebot haciendo trabajo útil, o podría ser un raspador martilleando un único endpoint y arrastrando sus tiempos de respuesta hacia abajo.

Dos cosas le dicen la verdad. Primero, los registros de su servidor. Recogen cada petición, el user agent real, la IP, el código de estado y qué URL recibieron más golpes. Una muestra de registros de unos pocos días le mostrará al instante si su crawl budget se está gastando en páginas que dan dinero o en un pantano de URL con parámetros. Tenga en cuenta que los user agents se pueden falsificar, así que contraste a los que más pegan con los rangos de IP publicados que documentan los rastreadores reales de búsqueda y de IA.

Segundo, rastree su propio sitio como lo haría un bot. Cuando pasa un rastreador por su sitio, ve la misma estructura que ve un bot de búsqueda o de IA: cuántas URL expone en realidad, cuántas son pobres o duplicadas, dónde las cadenas de redirección y las páginas huérfanas se comen el presupuesto en silencio. Para esta parte está hecho nuestro propio rastreador, y funciona igual en Windows, macOS y Linux, así que encaja con lo que ya use. Ya no está adivinando sobre la cifra agregada; está mirando la suya.

Una lupa sobre un mapa del sitio, con unas pocas páginas resaltadas como rutas de rastreo desperdiciadas y las páginas principales despejadas

La conclusión

Que los bots superen la mitad de todo el tráfico web es un hito real y un buen recordatorio, pero no es, por sí mismo, algo que temer. La cifra mete en el mismo saco a rastreadores útiles, raspadores dañinos y una porción de IA de rápido crecimiento que exigen cada uno una respuesta distinta. Promediarlos en una única estadística aterradora es la forma de terminar ignorando un problema real de raspado o bloqueando a los rastreadores que en realidad le envían tráfico.

El movimiento que rinde es poco vistoso y está enteramente bajo su control: mire sus propios registros, rastree su propio sitio y gaste su crawl budget en las páginas que importan. Que la web se llene de más bots solo aumenta el valor de un sitio limpio y fácil de rastrear. Esa parte no ha cambiado, y sigue siendo el trabajo que merece la pena hacer.