Une étude révèle que les robots d’IA représentent 28 % du trafic de Googlebot

AI Crawlers Account For 28% Of Googlebot’s Traffic, Study Finds

Un rapport publié par Vercel met en évidence l’impact croissant des robots d’intelligence artificielle dans l’exploration des sites web.

GPTBot d’OpenAI et Claude d’Anthropic génèrent près d’un milliard de requêtes par mois sur le réseau de Vercel.

Les données indiquent que GPTBot a effectué 569 millions de requêtes au cours du mois dernier, tandis que Claude en a effectué 370 millions.

En outre, PerplexityBot a contribué à 24,4 millions de recherches et AppleBot à 314 millions de requêtes.

Ensemble, ces robots d’IA représentent environ 28% du volume total de Googlebot, qui s’élève à 4,5 milliards de recherches.

Voici ce que cela pourrait signifier pour le référencement.

Principales conclusions sur les robots d’IA

L’analyse a porté sur les schémas de trafic sur le réseau de Vercel et sur diverses architectures web. Elle a mis en évidence certaines caractéristiques essentielles des robots d’indexation :

  • Les principaux crawlers d’IA ne rendent pas JavaScript, bien qu’ils extraient des fichiers JavaScript.
  • Les crawlers d’IA sont souvent inefficaces, ChatGPT et Claude dépensant plus de 34% de leurs demandes sur des pages 404.
  • Le type de contenu sur lequel ces robots se concentrent varie. ChatGPT donne la priorité au HTML (57.7%), tandis que Claude se concentre davantage sur les images (35.17%).

Répartition géographique

Contrairement aux moteurs de recherche traditionnels qui opèrent à partir de plusieurs régions, les crawlers d’IA maintiennent actuellement une présence concentrée aux États-Unis :

  • ChatGPT opère depuis Des Moines (Iowa) et Phoenix (Arizona).
  • Claude opère à partir de Columbus (Ohio)

Corrélation avec l’Almanach du Web

Ces résultats s’alignent sur les données partagées dans le rapport SEO de l’Almanach du Web. chapitrequi fait également état de la présence croissante de robots d’indexation (crawlers).

Selon ce rapport, les sites web utilisent désormais des fichiers robots.txt pour définir des règles à l’intention des robots d’intelligence artificielle, en leur indiquant ce qu’ils peuvent ou ne peuvent pas explorer.

GPTBot est le robot le plus mentionné, apparaissant sur 2.7% des sites mobiles étudiés. Le bot Common Crawl, souvent utilisé pour collecter des données d’entraînement pour les modèles linguistiques, est également fréquemment observé.

Les deux rapports soulignent que les propriétaires de sites web doivent s’adapter au comportement des robots d’indexation.

3 façons d’optimiser les robots d’indexation de l’IA

Sur la base de données récentes de Vercel et du Web Almanac, voici trois façons d’optimiser la navigation pour les robots d’indexation.

1. Rendu côté serveur

Les robots d’IA n’exécutent pas de JavaScript. Cela signifie que tout contenu reposant sur un rendu côté client risque d’être invisible.

Actions recommandées :

  • Mettre en œuvre le rendu côté serveur pour les contenus critiques
  • S’assurer que le contenu principal, les méta-informations et les structures de navigation sont présents dans le code HTML initial.
  • Utiliser la génération de sites statiques ou la régénération statique incrémentale lorsque cela est possible.

2. Structure du contenu et diffusion

Les données de Vercel révèlent des préférences distinctes en matière de type de contenu parmi les robots d’indexation de l’IA :

ChatGPT :

  • Priorité au contenu HTML (57.70%)
  • consacre 11,50 % de ses recherches à des fichiers JavaScript

Claude :

  • Se concentre fortement sur les images (35.17%)
  • Consacre 23,84 % de ses recherches à des fichiers JavaScript

Recommandations d’optimisation :

  • Structurer le contenu HTML de manière claire et sémantique
  • Optimiser la diffusion des images et des métadonnées
  • Inclure un texte alt descriptif pour les images
  • Mettre en place une hiérarchie d’en-tête appropriée

3. Considérations techniques

Les taux élevés de 404 des robots d’indexation de l’IA signifient que vous devez garder ces considérations techniques à l’esprit :

  • Maintenir les sitemaps à jour
  • Mise en place de chaînes de redirection appropriées
  • Utiliser des modèles d’URL cohérents
  • Audit régulier des erreurs 404

Perspectives d’avenir

Pour les spécialistes du marketing de recherche, le message est clair : les chatbots d’IA sont une nouvelle force dans l’exploration du web, et les sites doivent adapter leur référencement en conséquence.

Bien que les robots d’IA puissent actuellement s’appuyer sur des informations mises en cache ou datées, leur capacité à analyser du contenu frais provenant de l’ensemble du web va s’accroître.

Vous pouvez faire en sorte que votre contenu soit exploré et indexé grâce au rendu côté serveur, à des structures d’URL propres et à des sitemaps actualisés.


Image en vedette : tete_escape/Shutterstock

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *