Estándares de la web agéntica: NLWeb, MCP y AIPREF explicados

Ya hay una sigla nueva casi cada mes. NLWeb, MCP, A2A, AIPREF, llms.txt. Cada una llega con un artículo que le advierte que su sitio quedará obsoleto si no la adopta hoy mismo. Si usted gestiona un sitio y trata de seguir el ritmo, la sensación sincera está entre la curiosidad y el cansancio.
Así que haré lo aburrido y le explicaré qué son de verdad estos estándares, qué problema intentan resolver y qué debería hacer realmente un responsable de sitio con ellos ahora mismo. Algo importa. La mayoría conviene entenderlo, no implementarlo esta semana.
Para situarlo, ya ocurrieron dos cambios. Primero llegó la pregunta de si una IA leería su página y la citaría, el terreno de la Generative Engine Optimization. Después llegaron los agentes que operan su sitio en nombre de un usuario, que recorrimos en SEO agéntico y el Universal Commerce Protocol. Este artículo trata de una tercera capa por debajo de ambas: los protocolos que se están construyendo para que agentes y sitios hablen entre sí de forma estándar.
Qué significa de verdad la web agéntica
“Web agéntica” es una expresión imprecisa, así que conviene ser exactos. No significa solo que una IA pulse sus botones. Esa parte, un agente que conduce un navegador por su proceso de compra, es el tema de la guía anterior de SEO agéntico.
La idea más nueva es una capa de estándares que permite a un sitio ofrecer a un agente una vía limpia y estructurada para hacer preguntas y ejecutar acciones, sin necesidad de raspar la página renderizada. Piense en la diferencia entre alguien que lee un menú escrito en una pizarra y un restaurante que le entrega una lista estructurada con precios, alérgenos y disponibilidad ya ordenados. La misma información, pero una es mucho más fácil y barata de procesar.
Tres estándares acaparan la conversación en este terreno. NLWeb, que permite a un sitio responder preguntas en lenguaje natural. MCP, que permite a un sitio exponer herramientas que un agente puede invocar. Y AIPREF, que permite a un sitio declarar cómo puede usar la IA su contenido. Se solapan, están en grados de madurez muy distintos, y solo uno de ellos es una idea terminada que usted podría implementar con sensatez.

NLWeb: su sitio como una conversación
NLWeb es un proyecto abierto que Microsoft presentó en su conferencia Build 2025. Lo interesante es quién está detrás: R.V. Guha, la persona asociada a RSS, RDF y Schema.org. Ese linaje importa, porque NLWeb se apoya en formatos que usted ya conoce en lugar de inventar un universo nuevo.
La mecánica es fácil de describir. Un sitio con NLWeb expone un endpoint /ask. Un agente, o una persona, le envía una pregunta en lenguaje natural, y el sitio devuelve una respuesta estructurada en JSON anclada en el propio contenido del sitio. Por debajo, NLWeb reutiliza el marcado Schema.org, RSS, sitemaps y feeds, y los combina con un modelo de lenguaje y un índice vectorial para que las respuestas sigan ligadas a sus datos reales en vez de inventarse.
Hay un detalle más que conviene saber. Cada instancia de NLWeb es también un servidor MCP, lo que nos lleva al siguiente estándar.
MCP: un puerto universal para los agentes
MCP, el Model Context Protocol, lo presentó Anthropic a finales de 2024. La analogía habitual es la de un conector universal. Antes de un estándar común, cada integración de IA era un cableado a medida. MCP da a los agentes una forma estándar de descubrir y usar las herramientas que ofrece un servicio.
Para un sitio, un servidor MCP es algo que el responsable monta y aloja, normalmente uno por sitio. Define un conjunto de endpoints de herramientas, cosas como getProductDetails o createAppointment, descritas con un esquema legible por máquina. Un agente que habla MCP puede entonces descubrir esas herramientas e invocarlas de forma predecible, en lugar de adivinar cómo funciona su página.
Es tentador llamar a MCP una robots.txt más lista, y eso capta una parte, pero la comparación se queda corta. Un archivo robots.txt le dice a un bot adónde no puede ir. Un servidor MCP le dice a un agente qué puede hacer de verdad y le entrega datos limpios y segmentados para hacerlo. Para algunas empresas es una oportunidad real, incluidos los editores que podrían exponer un conjunto de datos estructurado y cobrar por el acceso. Para la mayoría de los sitios pequeños, es infraestructura que todavía no necesitan.
AIPREF: declarar cómo puede usar la IA su contenido
El tercer estándar es el más aterrizado de los tres, porque resuelve un problema que ya tiene todo responsable de sitio: una forma de decir “puedes leer esto, pero no entrenar con ello”, y que las máquinas respeten la distinción.
AIPREF es un grupo de trabajo de la IETF, el mismo organismo de estándares que define los protocolos centrales de internet. Está construyendo un vocabulario pequeño y compartido para expresar preferencias sobre el uso por IA. El borrador actual define dos categorías de uso. train-ai cubre usar su contenido para construir o refinar un modelo de IA. search cubre las aplicaciones cuyo fin principal es encontrar su contenido y dirigir a los usuarios de vuelta a usted, con atribución. Cada categoría puede ponerse en permitir, prohibir o dejarse sin declarar.
El grupo también trabaja en cómo adjuntar esas preferencias al contenido, ya sea incrustadas en el propio contenido o mediante un archivo al estilo de robots.txt, además de reglas para reconciliar señales contradictorias. Esto conecta directamente con cómo ya gestiona usted el acceso de los rastreadores.
Aquí va el estado sincero. AIPREF está en la vía de estándares, pero no está terminado. El borrador del vocabulario aún se está revisando, y la revisión actual está previsto que caduque a finales de 2026. Eso es normal en el trabajo de la IETF, y es justo por eso por lo que no debería reconstruir su política de acceso alrededor de él este trimestre. Entiéndalo, obsérvelo, y mantenga limpias sus reglas actuales de robots y bots mientras tanto.
Qué debería hacer usted hoy en realidad
Aquí está la parte que la mayoría de los artículos se salta. La optimización para la web agéntica suele dibujarse como una pila de capas, y la idea útil es que cada capa se apoya en la de debajo. Semrush lo plantea más o menos así, y el orden es lo que importa:

- Cimientos de SEO. Su sitio tiene que ser rastreable y estar libre de fallos técnicos. Si un rastreador normal tropieza con su sitio, un agente también lo hará.
- Preparación para agentes. Redacción clara, estructura semántica, datos completos, para que una máquina entienda qué es su marca y qué ofrece sin adivinar.
- Presencia fuera del sitio. Información coherente sobre su marca por toda la web, para que un agente se forme una imagen correcta de usted a partir de más de una fuente.
- Capa de acción. Que el sitio sea de verdad operable para un agente, el formulario que se envía, el botón que funciona.
Fíjese en lo que está y no está en esa lista. Los endpoints de NLWeb y los servidores MCP están en lo más alto, y solo dan fruto cuando todo lo de debajo es sólido. La mayor parte del valor para un sitio típico vive en las dos capas inferiores, y esas las controla usted hoy, sin ningún protocolo nuevo.
En concreto, el trabajo que rinde sin importar qué estándar gane es la misma lista poco vistosa de siempre. HTML limpio y rastreable, sin enlaces rotos ni cadenas de redirección. Sin noindex accidentales ni páginas bloqueadas. Marcado Schema.org completo en sus páginas importantes en lugar de marcado pobre por todas partes, porque los datos estructurados incompletos transmiten incertidumbre a un agente igual que a un buscador. Feeds y sitemaps correctos. Datos de producto y servicio honestos y actualizados. Esos mismos datos son además la base de la que lee el propio NLWeb, y ese es el punto: haga bien lo básico y ya estará casi listo para los agentes.
El marcado Schema merece una nota propia, porque se está convirtiendo en silencio en parte de la fontanería de la web agéntica. Los agentes lo usan no solo para identificar qué es una entidad, sino para juzgar relaciones, relevancia y si su contenido es lo bastante fiable como para actuar a partir de él. El marcado completo en sus páginas clave gana al marcado pobre y disperso.
El filtro del ruido
Ahora la parte incómoda, porque la web agéntica ha atraído algunas afirmaciones de verdad absurdas. Leerá que su sitio ya está obsoleto, que los visitantes humanos son algo secundario, que necesita un servidor MCP para el próximo trimestre o desaparece. Trate eso como trataría cualquier discurso de venta que termina en “compre ya o piérdalo para siempre”.
Varias cosas son ciertas a la vez, y sostenerlas todas juntas es la postura sincera.
Los estándares son reales y la gente detrás es seria. NLWeb viene de la persona que ayudó a darnos Schema.org. MCP ya tiene amplia tracción como vía para que los agentes usen herramientas. AIPREF lo construye la IETF. Esto no es humo.
Pero la adopción es temprana y las barreras son concretas. Las encuestas a editores señalan la complejidad técnica y la simple preparación organizativa como las razones principales por las que no han desplegado herramientas agénticas, no la falta de interés. Los estándares que aún están en borrador van a cambiar. Y los riesgos crecen con la capacidad: un agente que puede leer, comparar y actuar en nombre de un usuario es también un agente con acceso a preferencias sensibles y a dinero, y por eso existe la capa de consentimiento que AIPREF intenta estandarizar.
Así que la conclusión razonable no es “ignórelo” ni “entre en pánico”. Es orden. La mayoría de los sitios pequeños y medianos obtendrán mucho más valor, y antes, de una mejor estructura de contenido, datos más limpios, rutas de conversión más simples y mejores señales de confianza que de la carrera por levantar un servidor de protocolo sobre cimientos inestables. Apostar una hoja de ruta a una especificación en borrador es la forma de dedicar un trimestre a algo que la especificación luego cambia bajo sus pies. Si quiere una versión más larga de este argumento aplicada a la búsqueda con IA en general, la dejamos en ¿ha muerto el SEO en 2026?.
Nada de esto significa que la capa de protocolo no importe. Significa que el orden importa. Ponga el cimiento en orden, porque el cimiento es de lo que lee cada uno de estos estándares, y es la única parte que rinde tanto si la web agéntica llega el año que viene como si tarda cinco.
Dónde encaja un rastreador
La verdad poco vistosa que recorre todo esto es que “listo para agentes” y “listo para búsqueda” son casi la misma lista de comprobación. Páginas rastreables. Sin enlaces rotos. Códigos de estado correctos. Sin noindex perdidos. Schema presente y completo. Estructura predecible. Un agente y un bot de búsqueda fallan ante los mismos problemas.
Ese solapamiento es una buena noticia, porque significa que puede medir su preparación con herramientas que ya entiende. Un rastreo de su propio sitio saca a la luz justo los problemas de base que bloquean a ambos: páginas que devuelven 4xx o 5xx, enlaces que no llevan a ninguna parte, datos estructurados ausentes o pobres, páginas bloqueadas o con noindex que no pretendía esconder. Para ese tipo de pasada está hecho Seodisias. Usted lo apunta a su sitio, sin límite de URL, y le informa de los enlaces rotos, los códigos de estado erróneos, el schema ausente y las páginas bloqueadas en una sola pasada, los mismos fallos que entorpecen por igual a un agente de IA y a un rastreador de búsqueda.
La conclusión
NLWeb, MCP y AIPREF merecen entenderse, y uno de ellos, AIPREF, merece observarse de cerca porque toca cómo puede usarse legalmente su contenido. Pero ninguno cambia el trabajo que debería hacer este mes. Haga su sitio limpio, rastreable, bien estructurado y honesto con sus datos. Ese cimiento es lo que la web agéntica está pensada para leer, es lo que los buscadores ya recompensan, y es la única parte de esta historia lo bastante madura como para actuar hoy. Para una lectura sobria de dónde se sitúa la orientación oficial en todo esto, la propia guía de optimización para IA de Google, explicada es un buen complemento de este artículo.