Un rapport publié par Vercel met en évidence l’impact croissant des robots d’intelligence artificielle dans l’exploration des sites web.
GPTBot d’OpenAI et Claude d’Anthropic génèrent près d’un milliard de requêtes par mois sur le réseau de Vercel.
Les données indiquent que GPTBot a effectué 569 millions de requêtes au cours du mois dernier, tandis que Claude en a effectué 370 millions.
En outre, PerplexityBot a contribué à 24,4 millions de recherches et AppleBot à 314 millions de requêtes.
Ensemble, ces robots d’IA représentent environ 28% du volume total de Googlebot, qui s’élève à 4,5 milliards de recherches.
Voici ce que cela pourrait signifier pour le référencement.
Principales conclusions sur les robots d’IA
L’analyse a porté sur les schémas de trafic sur le réseau de Vercel et sur diverses architectures web. Elle a mis en évidence certaines caractéristiques essentielles des robots d’indexation :
- Les principaux crawlers d’IA ne rendent pas JavaScript, bien qu’ils extraient des fichiers JavaScript.
- Les crawlers d’IA sont souvent inefficaces, ChatGPT et Claude dépensant plus de 34% de leurs demandes sur des pages 404.
- Le type de contenu sur lequel ces robots se concentrent varie. ChatGPT donne la priorité au HTML (57.7%), tandis que Claude se concentre davantage sur les images (35.17%).
Répartition géographique
Contrairement aux moteurs de recherche traditionnels qui opèrent à partir de plusieurs régions, les crawlers d’IA maintiennent actuellement une présence concentrée aux États-Unis :
- ChatGPT opère depuis Des Moines (Iowa) et Phoenix (Arizona).
- Claude opère à partir de Columbus (Ohio)
Corrélation avec l’Almanach du Web
Ces résultats s’alignent sur les données partagées dans le rapport SEO de l’Almanach du Web. chapitrequi fait également état de la présence croissante de robots d’indexation (crawlers).
Selon ce rapport, les sites web utilisent désormais des fichiers robots.txt pour définir des règles à l’intention des robots d’intelligence artificielle, en leur indiquant ce qu’ils peuvent ou ne peuvent pas explorer.
GPTBot est le robot le plus mentionné, apparaissant sur 2.7% des sites mobiles étudiés. Le bot Common Crawl, souvent utilisé pour collecter des données d’entraînement pour les modèles linguistiques, est également fréquemment observé.
Les deux rapports soulignent que les propriétaires de sites web doivent s’adapter au comportement des robots d’indexation.
3 façons d’optimiser les robots d’indexation de l’IA
Sur la base de données récentes de Vercel et du Web Almanac, voici trois façons d’optimiser la navigation pour les robots d’indexation.
1. Rendu côté serveur
Les robots d’IA n’exécutent pas de JavaScript. Cela signifie que tout contenu reposant sur un rendu côté client risque d’être invisible.
Actions recommandées :
- Mettre en œuvre le rendu côté serveur pour les contenus critiques
- S’assurer que le contenu principal, les méta-informations et les structures de navigation sont présents dans le code HTML initial.
- Utiliser la génération de sites statiques ou la régénération statique incrémentale lorsque cela est possible.
2. Structure du contenu et diffusion
Les données de Vercel révèlent des préférences distinctes en matière de type de contenu parmi les robots d’indexation de l’IA :
ChatGPT :
- Priorité au contenu HTML (57.70%)
- consacre 11,50 % de ses recherches à des fichiers JavaScript
Claude :
- Se concentre fortement sur les images (35.17%)
- Consacre 23,84 % de ses recherches à des fichiers JavaScript
Recommandations d’optimisation :
- Structurer le contenu HTML de manière claire et sémantique
- Optimiser la diffusion des images et des métadonnées
- Inclure un texte alt descriptif pour les images
- Mettre en place une hiérarchie d’en-tête appropriée
3. Considérations techniques
Les taux élevés de 404 des robots d’indexation de l’IA signifient que vous devez garder ces considérations techniques à l’esprit :
- Maintenir les sitemaps à jour
- Mise en place de chaînes de redirection appropriées
- Utiliser des modèles d’URL cohérents
- Audit régulier des erreurs 404
Perspectives d’avenir
Pour les spécialistes du marketing de recherche, le message est clair : les chatbots d’IA sont une nouvelle force dans l’exploration du web, et les sites doivent adapter leur référencement en conséquence.
Bien que les robots d’IA puissent actuellement s’appuyer sur des informations mises en cache ou datées, leur capacité à analyser du contenu frais provenant de l’ensemble du web va s’accroître.
Vous pouvez faire en sorte que votre contenu soit exploré et indexé grâce au rendu côté serveur, à des structures d’URL propres et à des sitemaps actualisés.
Image en vedette : tete_escape/Shutterstock