• 40 heures
  • Facile

Ce cours est visible gratuitement en ligne.

Ce cours existe en livre papier.

Vous pouvez être accompagné et mentoré par un professeur particulier par visioconférence sur ce cours.

J'ai tout compris !

Les robots sur le web

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Sur le web, nous ne sommes pas seuls. Il y a nous, les humains, qui visitons les sites web et les faisons vivre, mais il y a aussi d'autres visiteurs : les robots ! Il en existe des centaines qui arpentent le web tous les jours, et chacun d'eux a une tâche précise. Qui sont-ils et que font-ils sur le web ? Apprenons à les connaître. ;)
Ne sautez en aucun cas ce chapitre, sinon vous ne comprendrez vraiment rien à la suite de ce tutoriel !

Introduction aux robots

Nous ne sommes pas seuls

Qui sont les robots ?

N'imaginez pas que le Terminator existe, ce n'est absolument pas le propos ici ! Les robots, dans le monde de l'informatique, sont des programmes réalisés par des développeurs afin de réaliser une tâche précise. Vous en avez très probablement côtoyé sans le savoir. Si vous êtes amateurs de jeux vidéo et que vous jouez en solo, il arrive souvent que vous ayez quand même des ennemis à affronter. Ces ennemis ne sont pas dirigés par des humains qui joueraient en même temps que vous : ce sont des robots !

Sur le Site du Zéro, Zozor pourrait être aussi considéré comme un robot, car lorsque vous vous inscrivez au Site du Zéro, vous recevez un message privé de la part de Zozor vous souhaitant la bienvenue. Or, le compte de Zozor n'est en réalité dirigé par personne, il est programmé lui-même pour vous envoyez ce message de bienvenue à l'inscription !

Les robots du web !

Je le disais en introduction de ce chapitre, les humains ne sont pas les seuls visiteurs sur le web, il existe donc des robots. En fait, sur le web il existe même des centaines et des centaines de robots qui remplissent des tâches diverses et variées sur les sites. Ils ont généralement été créés par des entreprises pour leur propre besoin. Voulez-vous un exemple ? Si vous diffusez de la publicité sur votre site web, c'est un robot qui détermine à l'avance quel type d'annonce est le plus approprié à votre site web en fonction de son contenu.

Googlebot, le robot de Google !

Après cette introduction générale aux robots, parlons maintenant d'un autre robot, certainement le plus connu sur le web, il s'agit de « Googlebot ». Sachez que le fonctionnement même de Google dépend complètement de ce robot !

Comment fonctionne Google ?

Comment Google référence-t-il les sites web ?

Google fonctionne grâce à Googlebot

Si je vous dis que Google est un moteur de recherche, je ne vous apprends rien. Mais savez-vous réellement comment fonctionne un moteur de recherche ? Le rôle d'un moteur de recherche est de permettre à son utilisateur de trouver rapidement une information sur le web en lui renvoyant une liste des sites les plus pertinents. Cette tâche est complexe, car il existe une multitude de sites. Or, Google doit forcément connaître le contenu de tous ces sites afin de renvoyer le meilleur d'entre eux. Comment fait-il alors pour récupérer ces informations ? C'est simple : il passe par Googlebot !

Image utilisateur

Google n'est pas magicien, il a besoin de quelqu'un pour aller visiter tous les sites du monde et rapporter le contenu de ces sites afin de les évaluer. Vous imaginez bien que ce n'est pas un être humain qui a cette responsabilité. Le web, c'est aujourd'hui plus de 2 milliards de sites, vous imaginez le boulot... Alors Google a eu l'idée simple de passer par un robot et de le baptiser Googlebot ! Des centaines de milliers de Googlebots sont donc lancés constamment sur les sites web et ils retournent ainsi des informations en permanence à Google, lui permettant de peaufiner son index, et de modifier le positionnement des sites sur la SERP.

D'ailleurs, il y a d'énormes chances pour qu'en ce moment même un Googlebot soit en train de visiter votre site web, ou même le Site du Zéro, en retournant des informations à Google ! En fin de compte, Google fonctionne grâce à ces Googlebots. Un moteur de recherche n'est donc rien de plus qu'un très vaste programme informatique, et il n'y a aucune intervention humaine lors de l'indexation d'un site web.

Le fonctionnement de Googlebot

Un programme en plusieurs étapes

Googlebot a été programmé par Google selon plusieurs critères. Il est très perfectionné, et comprendre son fonctionnement est l'une des clés pour bien réussir son référencement. Nous allons donc voir ici le comportement que Googlebot adoptera au moment où il verra votre site web.

  1. Googlebot arrive sur votre site web : à son arrivée sur votre site web, Googlebot va commencer par analyser votre page web, en regardant son code source HTML. Il enregistre ce code source, et le fait parvenir à Google.

  2. Googlebot explore les liens <a></a> : Googlebot ne va pas s'arrêter là. Il va repérer tous vos liens et les explorer, de la même manière qu'un utilisateur cliquerait dessus.

  3. Googlebot arrive sur de nouvelles pages web : de la même manière que précédemment, il va récupérer les codes HTML de ces nouvelles pages et les faire parvenir à Google.

  4. Googlebot explore à nouveaux les liens : Googlebot va encore explorer tous les liens présents, avant d'enregistrer les codes HTML des pages qu'il atteindra... et ainsi de suite.

Voilà exactement comment Googlebot fonctionne. Vous pouvez le comparer à un utilisateur qui ouvrirait tous les liens en enregistrant vos pages HTML, il ne fait rien d'autre. Quelques heures plus tard, Google aura indexé ces pages, et elles seront accessibles sur simple recherche Google. Nous verrons plus tard qu'il est bien sûr possible d'imposer des restrictions à Googlebot.

Googlebot ne s'intéresse qu'à votre contenu !

Vous l'avez très probablement deviné : Googlebot ne s'intéresse qu'à votre contenu. Dans les chapitres précédents, j'avais utilisé l'expression « ère du contenu », car nous sommes vraiment dans l'ère où le contenu est l'objet central d'une page web et Googlebot a été développé autour de cette idée. En effet, Googlebot ne voit pas du tout les pages de la même manière qu'un internaute humain : votre navigateur web affiche le contenu, mais le met également en forme. Vous êtes capables de distinguer un menu, des images, une barre de navigation... Googlebot ne fonctionne pas du tout comme cela, il ne voit que la source HTML de votre page web, pas sa mise en forme.

Dans la suite de ce tutoriel, vous aurez tôt ou tard besoin de voir vos pages web de la même manière que Googlebot les voit. Pour cela, il faut un « lecteur d'écran ». Il s'agit d'une catégorie de navigateur web permettant de n'afficher que le contenu d'un site, en désactivant CSS, JavaScript et images. Vous pouvez d'ores et déjà lire une annexe sur le navigateur Lynx Browser, un lecteur d'écran très puissant. Vous y apprendrez à lire vos pages comme le fait un Googlebot !

Quand est-ce que passe le Googlebot ?

Les heures de passage de Googlebot

Le Googlebot ne peut pas être présent éternellement sur votre site. En effet, il faut aussi le libérer de temps en temps et le laisser aller voir ailleurs... En fait, on ne sait pas vraiment à quelles heures Googlebot passe sur un site, tout simplement parce que c'est différent pour chaque site web. Googlebot est capable de déterminer de lui-même quand il doit passer sur un site ou non, et pour cela, il se base sur les premiers jours d'existence de ce site. Le jour où vous aurez fini de développer votre site et qu'il sera en ligne, vous allez devoir le signaler à Google pour qu'un Googlebot soit envoyé dessus en vue de l'indexer. Nous apprendrons à le faire. Google va alors indexer pour la toute première fois votre site web.

Dans les premiers jours, Googlebot a tendance à passer très souvent sur votre site pour vérifier si votre contenu est mis à jour. Si pendant cette période vous mettez très fréquemment à jour votre site, Googlebot saura que c'est un site qui est vivant et qui bouge, et qu'on a besoin de lui pour indexer les contenus. Ceci est très positif pour vous. À l'inverse, si Googlebot voit que rien ne bouge dans les premiers jours, il aura plutôt tendance à se dire qu'on n'a pas vraiment besoin de lui, et il passera moins souvent, voire très rarement. Ceci est en revanche vraiment négatif. C'est pourquoi, pour les premiers jours de votre site, vous devez avoir à cœur de montrer au Googlebot que votre site est réactif, sinon beaucoup de vos efforts pourraient ne pas être vus par Google. Retenez bien ce conseil !

Le référencement se construit sur la durée

Rien n'est instantané

Dès le prochain chapitre, nous commencerons à parler sérieusement de référencement, et je vous enseignerai les rudiments de cette discipline. Dans le futur, vous commencerez à modifier certaines parties de vos sites pour qu'elles plaisent davantage à Googlebot, mais sachez que Google ne prendra jamais en considération ces modifications immédiatement.

Le référencement se construit sur la durée, et il s'agit d'un processus long. Il faut donc attendre que Googlebot repasse sur votre site et prenne en considération les changements pour que Google mette à jour ses résultats de recherche. Malgré tout, il sera alors fort peu probable que cette mise à jour améliore la position de votre site. En effet, il faut du temps pour construire votre référencement et vous ne grappillerez jamais les premières places immédiatement. Prenez l'exemple du Site du Zéro. C'est un référencement construit sur plus d'une dizaine d'années… Par conséquent, si vous planchez sur un site qui donne des cours d'informatique, vous allez vraiment avoir du mal pour déloger le Site du Zéro des premières places !

Les sanctions de Google

Googlebot et les pénalités

Le travail de Google est « simple » : organiser l'information sur le web et la rendre utilisable pour tous. C'est à ce titre que Googlebot va évaluer la qualité de votre site et vous donner de bons ou de mauvais points. Si votre site respecte les consignes de Google et que vous ne faites que proposer du contenu pertinent et de qualité, Googlebot ne fera que vous donner de bons points et améliorera le positionnement de votre site.

En revanche, si vous ne faites que plagier le contenu des autres sites ou que vous ne respectez pas les consignes de Google, vous risquez d'encaisser des pénalités. Ces pénalités sont très négatives pour votre référencement. Plus Google vous donne de pénalités, plus la fréquence de passage du Googlebot diminue. À terme, Google peut carrément retirer votre site de son index, veillez donc bien à ne pas faire n'importe quoi. ;)

  • Les robots sont des programmes automatisés arpentant le web tous les jours et remplissant une tâche précise.

  • L'un d'eux, Googlebot, est un robot d'indexation. Son rôle est de faire parvenir les pages web des sites qu'il visite à Google pour qu'il puisse les ajouter à son index.

  • Un moteur de recherche est un énorme programme complètement automatisé : aucun humain n'intervient dans le processus d'indexation d'un site.

Exemple de certificat de réussite
Exemple de certificat de réussite