Por qué las páginas de bajo valor se rastrean más (y cómo evitarlo)

Aquí hay una frustración que aparece una y otra vez en los foros de SEO técnico: alguien revisa sus estadísticas de rastreo y descubre que Googlebot machaca páginas que no le importan a nadie, listados de eventos antiguos, combinaciones de filtros, archivos de etiquetas, mientras que páginas realmente importantes se visitan una vez al mes. Se siente al revés. ¿Por qué un motor de búsqueda gastaría su tiempo en sus páginas más débiles e ignoraría las mejores?

La respuesta es que los rastreadores no saben qué páginas importan hasta que las miran, y las páginas de bajo valor tienen la costumbre de multiplicarse hasta desplazar a todo lo demás. Esta guía explica por qué ocurre, cómo encontrar a los culpables y cómo devolver la atención del rastreo adonde corresponde.

¿Qué es el presupuesto de rastreo y a quién debería importarle?

El presupuesto de rastreo es la cantidad de URL que un motor de búsqueda está dispuesto a rastrear en tu sitio en un período dado. Lo definen dos cosas: cuánto rastreo aguanta tu servidor sin ralentizarse (capacidad de rastreo) y cuánto quiere rastrear el motor según la importancia y la frescura de tu sitio (demanda de rastreo).

Para la mayoría de los sitios pequeños, el presupuesto de rastreo no es un problema. Con unos cientos de páginas, Google las rastrea todas con holgura. Se vuelve un problema real con muchos miles de URL, sobre todo cuando una gran parte son de bajo valor. Ahí la cuenta se vuelve en tu contra: cada petición gastada en una página inútil es una petición que no se gasta en una página que querés indexada y posicionada.

Por qué las páginas de bajo valor atraen más rastreo

La sensación de “al revés” viene de un mecanismo simple. Los rastreadores descubren URL siguiendo enlaces y vuelven a visitarlas según con qué frecuencia parece cambiar el contenido. Las páginas de bajo valor ganan en ambos frentes, por las razones equivocadas.

Ganan en volumen porque se generan de forma automática e interminable. Un catálogo de productos con unos pocos filtros puede producir decenas de miles de combinaciones de URL. Un calendario puede producir una página nueva por cada día, para siempre. No escribiste estas páginas a mano, así que es fácil olvidar cuántas existen.

Ganan en aparente frescura porque su contenido cambia sin parar. Una página de “ordenar por precio” o un archivo paginado cambia cada vez que cambian el inventario o las publicaciones, así que un rastreador vuelve a comprobar una y otra vez, aunque no haya nada nuevo de fondo. La página parece viva y recibe una atención que no se ganó.

El resultado es un sitio donde el rastreador está ocupado, pero ocupado en el lugar equivocado.

Los sospechosos habituales

La mayor parte del desperdicio de presupuesto de rastreo viene de un conjunto conocido de patrones:

Navegación por facetas y filtros. Cada combinación de color, talla, marca y orden se convierte en su propia URL. Es la mayor fuente de inflado de rastreo en sitios de comercio electrónico.
Parámetros de URL. Los ID de sesión, los parámetros de seguimiento y los órdenes crean variaciones casi infinitas del mismo contenido.
Páginas de etiquetas y archivos. Los sistemas de etiquetas suelen generar una página fina por cada etiqueta usada, muchas con una o dos entradas.
Páginas antiguas y atadas al tiempo. Listados de eventos pasados, ofertas vencidas y archivos con fecha que ya no sirven a nadie pero siguen en la ruta de rastreo. Es la pregunta de “cuánto tiempo conservo las páginas de calendario viejas” que aparece sin parar, y la respuesta suele ser: no de una forma que desperdicie presupuesto de rastreo.
Páginas finas y duplicadas. Páginas casi idénticas con poco contenido propio le dan al rastreador más para masticar y nada para premiar.
Espacios infinitos. Calendarios con enlaces “mes siguiente” para siempre, o filtros que enlazan a más filtros, pueden atrapar a un rastreador en un bucle que nunca termina.

Cómo encontrar tus páginas de bajo valor

No podés arreglar lo que no ves, y el desperdicio de rastreo es casi invisible desde el navegador. Tres fuentes lo revelan:

Archivos de registro del servidor. Tus logs muestran exactamente qué URL piden los rastreadores y con qué frecuencia. Ordená por frecuencia de rastreo y verás enseguida si Googlebot gasta sus visitas en páginas que importan o en basura de filtros.
El informe de Estadísticas de rastreo en Search Console. Muestra las peticiones de rastreo a lo largo del tiempo, desglosadas por código de respuesta y tipo de archivo, y señala si el rastreo sube por las razones equivocadas.
Un rastreo completo propio del sitio. Rastrear tu sitio como lo hace un motor de búsqueda saca a la luz los patrones de URL que olvidaste que existían: las explosiones de parámetros, los archivos finos, los espacios infinitos.

Lo que buscás es la brecha entre las páginas que te importan y las páginas que se rastrean. Esa brecha es tu oportunidad.

Cómo solucionarlo

Una vez que sabés qué páginas desperdician presupuesto, tenés un conjunto de herramientas:

Bloqueá en el origen con robots.txt. Para patrones de URL que nunca deberían rastrearse, como parámetros de orden o ID de sesión, no los permitas en el robots.txt. El rastreador nunca gasta una petición en ellos.
Usá noindex para páginas que deben existir pero no posicionar. Algunas páginas finas o duplicadas deben seguir accesibles para los usuarios pero no aportan nada a la búsqueda. Una etiqueta noindex las mantiene fuera del índice, pero ojo: se siguen rastreando, así que para puro ahorro de rastreo es mejor el robots.txt.
Consolidá con etiquetas canónicas. Cuando muchas URL muestran el mismo contenido, apuntalas a una versión canónica para que el rastreador las trate como una.
Eliminá lo que está realmente muerto. Páginas de eventos viejos y contenido vencido que no sirve a nadie pueden eliminarse y devolverse como 404 o 410, o redirigirse a una página viva relevante. Dejalas ir.
Arreglá tu enlazado interno. Los rastreadores siguen enlaces, así que las páginas de bajo valor muy enlazadas se rastrean mucho. Reducir los enlaces internos a páginas finas y reforzar los enlaces a las importantes redirige el flujo de rastreo.
Mantené limpio tu sitemap. Un sitemap XML debería listar solo las páginas canónicas e indexables que querés que se rastreen, una señal clara de qué importa.

Errores comunes

Vale la pena evitar algunas trampas:

Usar noindex para ahorrar presupuesto de rastreo. Noindex mantiene una página fuera del índice pero no detiene el rastreo. Para ahorrar rastreo, bloqueá en el robots.txt.
Bloquear páginas que también canonizás. Si no permitís una URL en el robots.txt, el rastreador no puede ver su etiqueta canónica, y se pierde la señal de consolidación. Elegí un enfoque por URL.
Eliminar sin revisar enlaces ni tráfico. Antes de borrar una página de bajo valor, asegurate de que no esté ganando enlaces o tráfico en silencio.
Ignorarlo porque el sitio es pequeño. Con unos cientos de páginas limpias, de verdad no hace falta preocuparse.

Cómo ayuda Seodisias

Lo más difícil del trabajo de presupuesto de rastreo es ver el problema en primer lugar, porque las URL que lo desperdician se generan, no se escriben, y se esconden de una navegación normal. Seodisias es un rastreador de escritorio gratuito y multiplataforma que recorre todo tu sitio como lo hace un motor de búsqueda y saca a la luz exactamente estos patrones: las explosiones de parámetros, las páginas finas y duplicadas, los archivos y espacios infinitos que se comen tu ruta de rastreo. Ves los patrones de URL que se multiplican en silencio, decidís qué bloquear, eliminar o consolidar, y devolvés la atención del rastreo a las páginas que se la ganan. Sin cuenta, sin límite, y tus datos de rastreo nunca salen de tu máquina.

En resumen

Los motores de búsqueda no rastrean primero tus mejores páginas; rastrean lo que pueden alcanzar, tan seguido como parezca cambiar. Las páginas de bajo valor explotan ambos instintos, se multiplican en número y cambian en contenido hasta desplazar el trabajo que de verdad querés indexado. La solución no es más contenido ni más enlaces. Es ver el desperdicio con claridad y luego usar robots.txt, canónicas, poda y un enlazado interno más limpio para devolver la atención del rastreo adonde corresponde. En un sitio grande, esa redirección de la atención es una de las cosas de mayor impacto que puede hacer el SEO técnico.

¿Querés ver qué páginas se comen tu presupuesto de rastreo en silencio? Rastreá tu sitio gratis con Seodisias.

Por qué las páginas de bajo valor se rastrean más (y cómo evitarlo)

¿Qué es el presupuesto de rastreo y a quién debería importarle?

Por qué las páginas de bajo valor atraen más rastreo

Los sospechosos habituales

Cómo encontrar tus páginas de bajo valor

Cómo solucionarlo

Errores comunes

Cómo ayuda Seodisias

En resumen

Artículos relacionados

¿Cayó el tráfico orgánico? Un manual de diagnóstico sereno

Descubierta, actualmente sin indexar: por qué pasa y cómo solucionarlo

Por qué Google desindexa páginas (y cómo diagnosticarlo con un rastreo)