L’indexation des pages web par google commence avec les « crawlers ». Les « crawlers » sont des robots, ou bots, chargés de capturer le contenu des pages web qui seront stockées en vue d’un traitement ultérieur.
Aujourd’hui, nous allons nous intéresser à ces bots et plus particulièrement comment ils voient nos pages.
Les différents robots de google
C’est quoi un robot de Google ? Le robot de google ne ressemble pas aux petits robots sur pattes, de forme humaine, que l’on a l’habitude de voir dans les films.
Non, le robot de google, ou plutôt les robots de google ne sont ni plus ni moins des scripts capables de capturer le contenu des sites.
Un robot pour chaque type de contenu
Google ne fonctionne pas qu’avec un seul robot, mais il a multiplié ses robots pour plus d’efficacité. Ainsi, il existe des robots pour chaque type de contenu.
- Googlebot : Pour les sites version ordinateur
- Google Mobile : Pour les sites version mobile
- Google Images : Pour les images
- etc.
Vous pouvez voir la liste complète des robots sur la page Robots d’exploration Google.
Est-ce que les robots voient tout notre contenu ?
Nous avons l’habitude de voir nos sites à l’aide des navigateurs (Chrome, Firefox, Internet Explorer, etc.). En général ils s’affichent plutôt pas mal si le webmaster a bien fait son travail.
Les robots ne voient pas forcément nos sites de la même manière et cela peut être source de problème pour le référencement notamment.
Le classement des sites par google repose en grande partie sur le contenu de ces derniers. Il est facile de comprendre que si les robots de google sont incapables de voir certaines section de nos pages, ce sera pénalisant pour notre référencement.
Quelles sont les raisons qui peuvent empêcher les robots de voir notre contenu ?
Les raisons pouvant empêcher les robots de voir correctement notre contenu peuvent être :
- Le robot est bloqué par le fichier robots.txt ou par la meta robot (noindex) de la page
- Le site est fait avec du Flash
- Les fichiers associés au code HTML sont bloqués pour le robot : fichiers CSS, Javascript
- Des erreurs dans le code HTML
- Le code de retour HTML de la page est incorrect (404)
- Menu de navigation en Javascript
- etc.
Vérifier comment les robots voient nos pages
Encore une fois Google a pensé à tout et nous met à disposition un outil pour contrôler comment son robot voit nos pages.
La fonctionnalité Explorer comme Google des Webmasters Tools
Cette fonctionnalité est disponible dans les outils de Google Webmaster Tools dans le menu Explorer. Elle présente aux webmasters les résultats de l’exploration de leur page par Googlebot.
La page de votre site est affichée telle que la voit googlebot. Si tout va bien, votre page se présentera de la même manière que via un navigateur.
Par contre en cas de problème, des sections de votre site auront pu disparaître, au pire juste une page blanche s’affichera. Cela signifiera que le robot ne voit pas grand chose de votre contenu.
A savoir qu’on a le choix d’explorer ses pages en tant que ordinateur ou mobile. Ce qui est intéressant car les sites actuels ont tout intérêt à bien s’afficher sur tout type de terminal.
Voir aussi l’article Examiner le rendu de vos pages avec la fonctionnalité Explorer comme Google publié sur le Blog officiel de Google.
Comment remedier aux problèmes d’exploration ?
A chaque problème sa solution :
- Si les robots ont simplement été bloqués par erreur, il suffit de les débloquer.
- Si le site est en Flash, il faudra malheureusement le refaire en HTML
- Si le site s’affiche mal sur mobile, il faudra le transformer en responsive design
- S’il y a des erreurs HTML, il faudra les corriger
- etc.
Une fois les erreurs corrigées, repasser la vérification. Chaque page du site peut être vérifiée individuellement.
Conclusion
L’indexation des pages web est primordiale pour le référencement. Visualiser sa page telle que la voit le robot de Google est une étape indispensable dans le processus de référencement.
Contenu