Google dit que LLMs.Txt est comparable à la balise méta Keywords

Google Says LLMs.Txt Comparable To Keywords Meta Tag

John Mueller, de Google, a répondu à une question sur LLMs.txt, une norme proposée pour montrer le contenu d’un site web aux agents d’intelligence artificielle et aux robots d’indexation, en minimisant son utilité et en la comparant à l’inutile balise méta keywords, confirmant ainsi l’expérience d’autres personnes qui l’ont utilisée.

LLMS.txt

Le fichier LLMS.txt a été comparé à un fichier Robots.txt pour les grands modèles de langage, mais c’est totalement faux. L’objectif principal d’un fichier robots.txt est de contrôler la manière dont les robots explorent un site web. La proposition de LLMs.txt ne vise pas à contrôler les robots. Ce serait superflu car il existe déjà une norme pour cela avec robots.txt.

La proposition de LLMs.txt vise généralement à montrer le contenu aux LLMs avec un fichier texte qui utilise le format markdown afin qu’ils puissent consommer uniquement le contenu principal d’une page web, complètement dépourvu de publicité et de navigation sur le site. Le langage markdown est un format lisible par l’homme et la machine qui indique les titres par le signe dièse (#) et les listes par le signe moins (-). LLMs.txt fait quelques autres choses similaires à cette fonctionnalité et c’est tout ce dont il s’agit.

Ce qu’est LLMs.txt :

  • LLMs.txt n’est pas un moyen de contrôler les robots d’intelligence artificielle.
  • LLMs.txt est un moyen de montrer le contenu principal aux robots d’intelligence artificielle.
  • LLMs.txt n’est qu’une proposition et non une norme largement utilisée et acceptée.

Cette dernière partie est importante car elle est liée à ce qu’a dit John Mueller de Google :

LLMs.txt est comparable à la métabalise Keywords

Quelqu’un a lancé une discussion sur Reddit à propos de LLMs.txt pour demander si quelqu’un d’autre partageait son expérience selon laquelle les robots d’intelligence artificielle ne vérifiaient pas leurs fichiers LLMs.txt.

Ils ont écrit :

« J’ai soumis à la racine de mon blog un fichier LLM.txt au début de ce mois, mais je ne vois pas encore d’impact sur mes journaux d’exploration. Je suis curieux de savoir si quelqu’un a mis en place un système de suivi ou si vous avez remarqué quelque chose après la mise en œuvre.

Si vous ne l’avez pas encore mis en œuvre, je suis curieux d’entendre votre avis à ce sujet ».

Une personne participant à cette discussion a indiqué qu’elle hébergeait plus de 20 000 domaines et qu’aucun agent d’intelligence artificielle ou robot ne téléchargeait les fichiers LLMs.txt, seuls des robots de niche tels que celui de BuiltWith s’emparant de ces fichiers.

Le commentateur a écrit :

« J’héberge actuellement environ 20 000 domaines. Je peux confirmer qu’aucun robot ne s’en empare vraiment, à l’exception de quelques agents utilisateurs de niche… »

John Mueller répond :

« AFAIK aucun des services d’IA n’a dit qu’il utilisait LLMs.TXT (et vous pouvez voir quand vous regardez les journaux de votre serveur qu’ils ne le vérifient même pas). Pour moi, c’est comparable à la balise méta keywords – c’est ce que le propriétaire d’un site prétend être le sujet de son site … (le site est-il vraiment comme ça ? eh bien, vous pouvez le vérifier. À ce moment-là, pourquoi ne pas vérifier le site directement ?) »

Il a raison, aucun des principaux services d’IA, Anthropic, OpenAI et Google, n’a annoncé qu’il prenait en charge la norme LLMs.txt proposée. Si aucun d’entre eux ne l’utilise réellement, à quoi bon ?

Mueller soulève également le fait qu’un fichier LLMs.txt est redondant, car pourquoi utiliser ce fichier markdown si le contenu original (et les données structurées) ont déjà été téléchargés ? Un robot qui utilise le fichier LLMs.txt devra vérifier l’autre contenu pour s’assurer qu’il ne s’agit pas de spam, alors pourquoi s’en préoccuper ?

Enfin, qu’est-ce qui empêche un éditeur ou un référenceur de montrer un ensemble de contenus dans LLMs.txt aux agents IA de spam et un autre ensemble de contenus aux utilisateurs et aux moteurs de recherche ? Il est trop facile de générer du spam de cette manière, essentiellement par le cloaking pour les LLM.

À cet égard, cette balise est très similaire à la balise méta keywords qu’aucun moteur de recherche n’utilise parce qu’il serait trop douteux de croire qu’un site porte réellement sur ces mots clés et que les moteurs de recherche sont aujourd’hui plus performants et plus sophistiqués dans l’analyse du contenu pour comprendre de quoi il s’agit.

Lire la discussion sur LinkedIn ici :

LLM.txt – où en sommes-nous ?

Image présentée par Shutterstock/Jemastock

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *