Tout ce qu’il faut savoir sur le crawl budget pour le référencement

Affluences — Fri, 27 Jan 2017 16:10:58 +0000

Le crawl budget a un impact sur le référencement des gros sites.

Googlebot

Commençons par la base : Googlebot, c’est quoi ?

C’est le robot d’exploration de Google. En anglais, on le nomme spider signifiant araignée puisqu’il se promène sur la toile (le « web ») pour en explorer le contenu.

C’est donc ce robot qui vient analyser le contenu de votre site web et le répertorier dans l’index de Google !

Il fonctionne grâce à des algorithmes complexes qui lui permettent de comprendre le contenu de votre site et suivre les liens de façon efficace. Voyez-le comme un explorateur qui ne s’arrête jamais de chercher des nouveautés sur le web pour en informer Google et mettre à jour les pages de résultats.

Son rôle est donc primordial pour le référencement. Il est la source première d’information.

Budget d’exploration ou crawl budget

Le web est immense et grandit exponentiellement de jour en jour. Googlebot doit donc organiser son exploration pour être efficace. C’est pour cette raison qu’existe le budget d’exploration communément appelé crawl budget. Le budget dépend de la demande d’exploration et la vitesse d’exploration

Toutefois, si votre site a moins de quelques milliers d’URLs, le budget d’exploration n’aura pas d’impact sur votre site et il sera explorer sans problème.

Google doit limiter les ressources allouées à un site par le serveur de Googlebot pour les gros sites ou les sites comportant des pages auto-générées en fonction de paramètres.

Vitesse d’exploration

Le premier élément déterminant le budget d’exploration est la vitesse d’exploration (crawl rate).

Généralement, le robot effectuera plusieurs connections parallèles sur un même site web pour l’explorer. Il aura un temps d’attente entre ces requêtes d’exploration. C’est ce qu’on nomme le fetching rate qu’on pourrait traduire par taux de récupération.

L’objectif est de ne pas surcharger la bande passante de votre serveur. Googlebot ne doit pas affecter l’expérience des visiteurs de votre site web.

Ainsi, le taux peut varier selon :

La santé de l’exploration (Crawl health) : Si le site répond très vite (chargement des pages, réponse du serveur, etc.), la limite augmente et le nombre de connections simultanées aussi. Le contraire est vrai aussi.
La limite de vitesse d’exploration déterminée dans la Search Console : Vous pouvez indiquer un maximum vous-mêmes pour votre site web.

Demande d’exploration

Si Googlebot n’explore pas à pleine capacité sur le site, celui-ci n’augmentera pas nécessairement. Tout dépend de la demande d’exploration déterminée par l’algorithme du Googlebot.

En bref, les pages populaires sont explorées plus souvent. De plus, Google détermine les pages à explorer pour éviter de conserver des pages qui n’existent plus dans son index. Finalement, le déplacement d’un site augmente aussi la demande d’exploration pour réindexer le contenu des nouvelles urls.

Les éléments-clés pour optimiser le budget d’exploration du Googlebot

Certains facteurs affectent à la baisse le crawl budget de votre site web. Un budget sera diminué si vous avez plusieurs pages apportant peu de valeur.

Voici des situations à risque :

Les « recherche à facettes » : Il s’agit des filtres dans un outil de recherche pour trier par prix, couleur, etc. S’il y en a plusieurs, ils peuvent créer des combinaisons infinies.
Le contenu dupliqué
Les erreurs « soft 404 »: Lorsqu’une URL erronée affiche le contenu d’une autre page comme la page d’accueil sans passer par un code d’erreur 404, Google n’apprécie pas. Il indexe ce contenu comme une véritable page et cela diminue la qualité de son moteur de recherche.
Les pages piratées
Les espaces infinis: Il s’agit de liens infinis. Par exemple, on peut penser aux liens de calendrier « mois prochain » qui peuvent se poursuivre à l’infini et détourner Googlebot du véritable contenu. Si vous recevez une erreur de ce genre dans votre Search Console, vous trouverez les directives à ce sujet dans l’aide de Google.
Les proxys
Le contenu de faible qualité et le spam

En plus d’éliminer ces situations de votre site, voici ce qu’il faut retenir :

Améliorez la vitesse de chargement du site, car elle affecte la vitesse d’exploration et donc le budget.
Portez attention aux erreurs d’exploration de la Search Console.
Gardez en tête que tout ce que Googlebot explore compte dans le budget : CSS, urls alternatives, AMP, Javascript. Faites donc attention aux redirections longues.
N’oubliez pas que le crawl-delay dans le robots.txt n’est pas prix en compte par le Googlebot.
Enlevez les paramètres des urls qui n’affectent pas le contenu de la page et utilisez plutôt les cookies et redirections 301.
Indiquez avec disallow les actions que Googlebot ne peut pas effectuer dans le robots.txt comme ajouter au panier par exemple.
Sachez que les liens nofollow pourraient être suivis.

[contact-form-7]

Cet article Tout ce qu’il faut savoir sur le crawl budget pour le référencement est apparu en premier sur Affluences.

Résultats de Google en temps réel : la fraîcheur pourrait avoir un goût amer !

Richard Picard — Fri, 15 Jan 2010 20:07:25 +0000

Google est un moteur (de recherche!) en marche !
Régulièrement de nouvelles fonctionnalités s’implantent, plus ou moins discrètement.
Dernièrement, le moteur dominant a officialisé sa capacité à indexer en temps réel les contenus du web et à les fournir tout aussi fraîchement aux internautes.

Nouvelle corde à son arc, le moteur offre ici sa contribution à la formidable montée en puissance des différents réseaux sociaux. Car c’est principalement dans l’inépuisable vivier de contenus que sont devenus les pages Facebook, les blogues et autres comptes Twitter, que Google extraira ces données en temps réel.
Cette réponse à l’appétit de l’instantanéité de l’internet n’est pas sans conséquence.
Car si l’internaute sort à priori gagnant de la mise en place de cette fonction, les propriétaires de sites, référenceurs et promoteurs du web peuvent avoir des sueurs froides.
Outre le fait que l’on peut se demander si les résultats les plus récents sont les meilleurs, il n’en reste pas moins que pour continuer à apparaître dans les pages de résultats, nous devrons composer avec cet élément. Si Google privilégie le temps réel et les contenus récents, qu’en est-il des sites plus statiques…? Une page voire un site au complet, dont la fréquence de mise à jour est à l’échelle mensuelle ou plus, a-t-elle encore des chances de répondre aux critères de temps et de fraîcheur imposés par Google ? Comment ce dernier jugera et classera ce type de données ?
C’est le fondement même du positionnement qui est ébranlé. Le contenu est roi, l’adage reste vrai, mais le roi devra se « dynamiser ».
Si les médias sociaux occupent le devant de la scène, la réalité du terrain a parfois un tout autre visage. Bien des sites dans des domaines plus « traditionnels » ne jouissent plus d’une fraîcheur d’actualité qui leurs permettent de répondre aux récents critères mis en place par Google. Certes la propagation de la recherche en temps réel n’est pas généralisée, mais le monde du web évolue vite ! Il faut anticiper et savoir s’adapter.
Toutefois, il ne faut pas succomber à la tragédie, Google ne pourra pas se contenter d’afficher uniquement des résultats en temps réel. Les règles de base du référencement et du positionnement perdureront mais pour combien de temps…?
Comme dans toute course, il y a des courbes. Les résultats en temps réel pourraient être un virage à ne pas manquer. Quant on sait que de nombreuses entreprises au Québec sont encore au stade du web 1.0, il est nécessaire que les entrepreneurs québécois prennent conscience de l’importance du web pour rester compétitif.

Cet article Résultats de Google en temps réel : la fraîcheur pourrait avoir un goût amer ! est apparu en premier sur Affluences.

Archives de "Indexation site" - Affluences