ecommerce-seo-optimisation-produits
Comment optimiser votre site de e-commerce pour le SEO
20 janvier 2017
redaction-contenu-mobile
Comment adapter la rédaction de contenu pour les mobiles
3 février 2017
ecommerce-seo-optimisation-produits
Comment optimiser votre site de e-commerce pour le SEO
20 janvier 2017
redaction-contenu-mobile
Comment adapter la rédaction de contenu pour les mobiles
3 février 2017
Afficher tout

Tout ce qu’il faut savoir sur le crawl budget pour le référencement

crawl-budget-googlebot

Tout ce qu’il faut savoir sur le crawl budget pour le référencement

Googlebot

Commençons par la base : Googlebot, c’est quoi ?

C’est le robot d’exploration de Google. En anglais, on le nomme spider signifiant araignée puisqu’il se promène sur la toile (le « web ») pour en explorer le contenu.

C’est donc ce robot qui vient analyser le contenu de votre site web et le répertorier dans l’index de Google !

Il fonctionne grâce à des algorithmes complexes qui lui permettent de comprendre le contenu de votre site et suivre les liens de façon efficace. Voyez-le comme un explorateur qui ne s’arrête jamais de chercher des nouveautés sur le web pour en informer Google et mettre à jour les pages de résultats.

Son rôle est donc primordial pour le référencement. Il est la source première d’information.

 

Budget d’exploration ou crawl budget

Le web est immense et grandit exponentiellement de jour en jour. Googlebot doit donc organiser son exploration pour être efficace. C’est pour cette raison qu’existe le budget d’exploration communément appelé crawl budget.  Le budget dépend de la demande d’exploration et la vitesse d’exploration

Toutefois, si votre site a moins de quelques milliers d’URLs, le budget d’exploration n’aura pas d’impact sur votre site et il sera explorer sans problème.

Google doit limiter les ressources allouées à un site par le serveur de Googlebot pour les  gros sites ou les sites comportant des pages auto-générées en fonction de paramètres.

 

Vitesse d’exploration

Le premier élément déterminant le budget d’exploration est la vitesse d’exploration (crawl rate).

Généralement, le robot effectuera plusieurs connections parallèles sur un même site web pour l’explorer. Il aura un temps d’attente entre ces requêtes d’exploration. C’est ce qu’on nomme le fetching rate qu’on pourrait traduire par taux de récupération.

L’objectif est de ne pas surcharger la bande passante de votre serveur. Googlebot ne doit pas affecter l’expérience des visiteurs de votre site web.

Ainsi, le taux peut varier selon :

  1. La santé de l’exploration (Crawl health) : Si le site répond très vite (chargement des pages, réponse du serveur, etc.), la limite augmente et le nombre de connections simultanées aussi. Le contraire est vrai aussi.
  2. La limite de vitesse d’exploration déterminée dans la Search Console : Vous pouvez indiquer un maximum vous-mêmes pour votre site web.

 

Demande d’exploration

Si Googlebot n’explore pas à pleine capacité sur le site, celui-ci n’augmentera pas nécessairement. Tout dépend de la demande d’exploration déterminée par l’algorithme du Googlebot.

En bref, les pages populaires sont explorées plus souvent. De plus, Google détermine les pages à explorer pour éviter de conserver des pages qui n’existent plus dans son index. Finalement, le déplacement d’un site augmente aussi la demande d’exploration pour réindexer le contenu des nouvelles urls.

 

Les éléments-clés pour optimiser le budget d’exploration du Googlebot

Certains facteurs affectent à la baisse le crawl budget de votre site web. Un budget sera diminué si vous avez plusieurs pages apportant peu de valeur.

Voici des situations à risque :

  • Les « recherche à facettes » : Il s’agit des filtres dans un outil de recherche pour trier par prix, couleur, etc. S’il y en a plusieurs, ils peuvent créer des combinaisons infinies.
  • Le contenu dupliqué
  • Les erreurs « soft 404 »: Lorsqu’une URL erronée affiche le contenu d’une autre page comme la page d’accueil sans passer par un code d’erreur 404, Google n’apprécie pas. Il indexe ce contenu comme une véritable page et cela diminue la qualité de son moteur de recherche.
  • Les pages piratées
  • Les espaces infinis: Il s’agit de liens infinis. Par exemple, on peut penser aux liens de calendrier « mois prochain » qui peuvent se poursuivre à l’infini et détourner Googlebot du véritable contenu.  Si vous recevez une erreur de ce genre dans votre Search Console, vous trouverez les directives à ce sujet dans l’aide de Google.
  • Les proxys
  • Le contenu de faible qualité et le spam

 

En plus d’éliminer ces situations de votre site, voici ce qu’il faut retenir :

  • Améliorez la vitesse de chargement du site, car elle affecte la vitesse d’exploration et donc le budget.
  • Portez attention aux erreurs d’exploration de la Search Console.
  • Gardez en tête que tout ce que Googlebot explore compte dans le budget : CSS, urls alternatives, AMP, Javascript. Faites donc attention aux redirections longues.
  • N’oubliez pas que le crawl-delay dans le robots.txt n’est pas prix en compte par le Googlebot.
  • Enlevez les paramètres des urls qui n’affectent pas le contenu de la page et utilisez plutôt les cookies et redirections 301.
  • Indiquez avec disallow les actions que Googlebot ne peut pas effectuer dans le robots.txt comme ajouter au panier par exemple.
  • Sachez que les liens nofollow pourraient être suivis.

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *