Google dice que LLMs.Txt es comparable a la metaetiqueta Palabras clave

Google dice que LLMs.Txt es comparable a la metaetiqueta Keywords

John Mueller, de Google, respondió a una pregunta sobre LLMs.txt, una norma propuesta para mostrar el contenido de los sitios web a agentes de inteligencia artificial y rastreadores, restándole importancia a su utilidad y comparándola con la inútil metaetiqueta de palabras clave, confirmando la experiencia de otros que la han utilizado.

LLMS.txt

El archivo LLMS.txt ha sido comparado con un archivo Robots.txt por los grandes modelos lingüísticos, pero esto es completamente falso. El objetivo principal de un archivo robots.txt es controlar la forma en que los robots rastrean un sitio web. La propuesta de LLMs.txt no trata de controlar a los robots. Eso sería superfluo, puesto que ya existe un estándar para ello con robots.txt.

La propuesta LLMs.txt tiene como objetivo general mostrar contenidos a los LLMs con un archivo de texto que utiliza el formato markdown para que puedan consumir sólo el contenido principal de una página web, completamente desprovisto de publicidad y navegación por el sitio. Markdown es un formato legible por humanos y máquinas que indica los encabezados con un signo de libra (#) y las listas con un signo menos (-). LLMs.txt hace algunas otras cosas similares a esta funcionalidad y eso es todo.

Qué es LLMs.txt:

  • LLMs.txt no es un medio para controlar robots de inteligencia artificial.
  • LLMs.txt es una forma de mostrar el contenido principal a los robots de inteligencia artificial.
  • LLMs.txt es sólo una propuesta y no una norma ampliamente utilizada y aceptada.

Esta última parte es importante porque está relacionada con lo que dijo John Mueller de Google:

LLMs.txt es comparable a la metaetiqueta Keywords

Alguien inició una discusión en Reddit sobre LLMs.txt para preguntar si alguien más compartía su experiencia de que los bots de IA no comprueban sus archivos LLMs.txt.

Ellos escribieron:

"Envié un archivo LLM.txt a la raíz de mi blog a principios de este mes, pero aún no veo ningún impacto en mis registros de rastreo. Tengo curiosidad por saber si alguien ha establecido un sistema de seguimiento o si ha notado algo después de la implementación.

Si aún no lo has puesto en práctica, me interesaría conocer tu opinión.

Una persona que participó en este debate señaló que ellos alojan más de 20.000 dominios y que ningún agente de inteligencia artificial o robot descarga archivos LLMs.txt, sólo robots especializados como BuiltWith capturan estos archivos.

El comentarista escribió:

"Actualmente alojo unos 20.000 dominios. Puedo confirmar que ningún robot se apodera realmente de ellos, con la excepción de algunos agentes de usuario de nicho..."

Responde John Mueller:

" AFAIK ninguno de los servicios de AI dijo que usaban LLMs.TXT (y puedes ver cuando miras los logs de tu servidor que ni siquiera lo comprueban). Para mí, es comparable a la metaetiqueta de palabras clave: es de lo que el propietario de un sitio afirma que trata su sitio... (¿es realmente así el sitio? bueno, se puede comprobar. En ese punto, ¿por qué no comprobar el sitio directamente?)".

Tiene razón, ninguno de los principales servicios de IA, Anthropic, OpenAI y Google, ha anunciado su compatibilidad con el estándar LLMs.txt propuesto. Si ninguno de ellos lo utiliza realmente, ¿qué sentido tiene?

Mueller también plantea que un archivo LLMs.txt es redundante, porque ¿para qué utilizar ese archivo markdown si el contenido original (y los datos estructurados) ya se ha descargado? Un bot que utilice el archivo LLMs.txt tendrá que comprobar el otro contenido para asegurarse de que no es spam, así que ¿para qué molestarse?

Por último, ¿qué impide a un editor o SEO mostrar un conjunto de contenidos en LLMs.txt a los agentes de IA de spam y otro conjunto de contenidos a los usuarios y motores de búsqueda? Es demasiado fácil generar spam de esta manera, esencialmente mediante el encubrimiento de LLMs.

En este sentido, esta etiqueta es muy similar a la metaetiqueta de palabras clave, que ningún motor de búsqueda utiliza porque sería demasiado dudoso creer que un sitio trata realmente de esas palabras clave y porque los motores de búsqueda son hoy más potentes y sofisticados a la hora de analizar los contenidos para entender de qué tratan.

Lea el debate en LinkedIn aquí :

LLM.txt: ¿en qué punto nos encontramos?

Imagen cortesía de Shutterstock/Jemastock

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *