Dans un épisode récent du podcast Search Off the Record de Google, Allan Scott, de l’équipe « Dups », a expliqué comment Google décide de l’URL à considérer comme principale lorsqu’il y a des pages dupliquées.
Il a révélé que Google tient compte d’environ 40 signaux différents pour choisir l’URL principale parmi un groupe de pages similaires.
Environ 40 signaux pour la sélection de l’URL canonique
Le contenu dupliqué est un problème courant pour les moteurs de recherche, car de nombreux sites web ont plusieurs pages avec un contenu identique ou similaire.
Pour résoudre ce problème, Google utilise un processus appelé canonicalisation. Ce processus permet à Google de choisir une URL comme version principale à indexer et à afficher dans les résultats de recherche.
Google a souligné l’importance d’utiliser des signaux tels que les balises rel= »canonical », les sitemaps et les redirections 301 pour la canonisation. Cependant, le nombre de signaux impliqués dans ce processus est plus important que vous ne le pensez.
Scott l’a révélé au cours du podcast :
« Je ne suis pas sûr du chiffre exact pour l’instant, car il y a des hauts et des bas, mais je pense qu’il se situe aux alentours de 40.
Voici quelques-uns des signaux connus qui ont été mentionnés :
- balises rel= »canonical
- 301 redirections
- HTTPS vs. HTTP
- Sitemaps
- Liens internes
- Longueur de l’URL
Le poids et l’importance de chaque signal peuvent varier, et certains signaux, comme les balises rel= »canonical », peuvent influencer à la fois le processus de regroupement et de canonisation.
Équilibrer les signaux
Avec autant de signaux en jeu, Allan a reconnu les défis liés à la détermination de l’URL canonique lorsque les signaux sont contradictoires.
Il a déclaré :
« Si vos signaux entrent en conflit les uns avec les autres, le système commencera à se rabattre sur des signaux moins importants.
Cela signifie que si les signaux forts tels que les balises rel= »canonical » et les redirections 301 sont cruciaux, d’autres facteurs peuvent entrer en jeu lorsque ces signaux ne sont pas clairs ou contradictoires.
Par conséquent, le processus de canonisation de Google implique un équilibre délicat pour déterminer l’URL canonique la plus appropriée.
Meilleures pratiques pour la canonicalisation
Des signaux clairs aident Google à identifier l’URL canonique préférée.
Les meilleures pratiques sont les suivantes :
- Utiliser correctement les balises rel= »canonical ».
- Mettre en place des redirections 301 pour les contenus déplacés de manière permanente.
- Veiller à ce que les versions HTTPS des pages soient accessibles et liées.
- Soumettre des sitemaps avec des URL canoniques préférées.
- Veillez à la cohérence des liens internes.
Ces signaux aident Google à trouver les URL canoniques correctes, ce qui améliore l’exploration, l’indexation et la visibilité de votre site dans les moteurs de recherche.
Les erreurs à éviter
Voici quelques erreurs courantes à éviter.
1. Balises canoniques incorrectes ou contradictoires:
- Pointer vers des pages inexistantes ou 404
- Plusieurs balises canoniques avec des URL différentes sur une même page
- Pointer vers un domaine entièrement différent
Correction: Vérifier deux fois les balises canoniques, n’en utiliser qu’une par page, et utiliser des URL absolues.
2. Chaînes ou boucles canoniques
Lorsque la page A renvoie à la page B en tant que page canonique, mais que la page B renvoie à la page A ou à une autre page, ce qui crée une boucle.
Correction: S’assurer que les URL canoniques pointent toujours vers la version finale et préférée de la page.
3. Utiliser conjointement les balises noindex et canoniques
Envoyer des signaux contradictoires aux moteurs de recherche. Noindex signifie ne pas indexer la page du tout, ce qui rend les balises canoniques non pertinentes.
Correction: Utiliser les balises canoniques pour la consolidation et noindex pour l’exclusion.
4. Canonicaliser pour rediriger ou noindexer des pages
Le fait de pointer des canoniques vers des pages redirigées ou non indexées perturbe les moteurs de recherche.
Correction: Les URL canoniques doivent avoir un statut 200 et être indexables.
5. Ignorer la sensibilité à la casse
Une casse incohérente des URL peut entraîner des problèmes de contenu dupliqué.
Correction: Conserver la cohérence de la casse des URL et des balises canoniques.
6. Négliger la pagination et les paramètres
Le contenu paginé et les URL riches en paramètres peuvent entraîner une duplication s’ils sont mal gérés.
Correction: Utilisez des balises canoniques pointant vers la première page ou « View All » pour la pagination, et gardez des paramètres cohérents.
Principaux enseignements
Il est peu probable que la liste complète des plus de 40 signaux utilisés pour déterminer les URL canoniques soit rendue publique.
Toutefois, cette discussion très instructive mérite d’être soulignée.
Voici les principaux points à retenir :
- Google utilise environ 40 signaux différents pour déterminer les URL canoniques, les balises rel= »canonical » et les redirections 301 étant parmi les indicateurs les plus forts.
- En cas de conflit entre les signaux, Google s’appuie sur des signaux secondaires pour prendre sa décision
- Une mise en œuvre claire et cohérente des signaux de canonicalisation (balises, redirections, sitemaps, liens internes) est cruciale.
- Les erreurs courantes telles que les chaînes canoniques, les signaux mixtes ou les implémentations incorrectes peuvent perturber les moteurs de recherche.
Écoutez l’intégralité de la discussion dans la vidéo ci-dessous :
Image principale : chatiyanon/Shutterstock