• 40 heures
  • Facile

Ce cours est visible gratuitement en ligne.

Ce cours existe en livre papier.

Vous pouvez être accompagné et mentoré par un professeur particulier par visioconférence sur ce cours.

J'ai tout compris !

Mis à jour le 19/11/2018

Un site web, une arborescence, des URL ! (1/2)

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Parlons de l'arborescence de votre site. Qui dit arborescence dit URL. Nous verrons dans ce chapitre que les URL qui mènent vers votre site sont avant toute chose un moyen de localiser vos pages sur le web, mais qu'elles ne constituent pas un critère d'indexation à proprement parler comme peut l'être la balise <title>, et ce, depuis la mise à jour Google Panda. Pourquoi en parler dans un tutoriel sur le référencement ? Tout simplement parce qu'il est recommandé de traiter ses URL proprement : si le robot s'en moque, avoir des URL propres reste une façon de plaire à votre visiteur et de l'inciter à cliquer sur l'URL tout en conservant une organisation claire dans vos contenus !

La base de l'URL : le nom de domaine !

Les URL de votre site

Le nom de domaine

Même si Google ne prend pas réellement en compte vos URL, il y distingue bien le nom de domaine, qui reste le seul élément pris en compte dans l'indexation. Il est donc important de choisir un bon nom de domaine. Pour rappel, le nom de domaine est en fait la première partie de l'adresse de votre site web. C'est une chaîne de caractères qui se termine généralement par « .com », « .fr » ou « .org ». Pour le Site du Zéro, son nom de domaine est siteduzero.com. Le « www. » est ce que l'on appelle un sous-domaine.

Les noms de domaine se composent de deux éléments

siteduzero.com

  • La partie "siteduzero" est ce que l'on appelle le domaine.

  • La partie ".com" est ce que l'on appelle l'extension. Pour votre culture, on appelle ces extensions des TLD : des domaines de premier niveau.

Un nom de domaine est donc l'empreinte unique d'un site web. C'est le premier champ de bataille entre les sites web pour gagner des points au niveau du référencement et se démarquer par rapport à son concurrent. Le choix du nom de domaine est quelque chose de primordial puisque le visiteur le verra sur chacune de vos pages dans sa barre d'adresse. Nous allons donc voir ici comment choisir un nom de domaine SEO-Friendly. :)

Le nom de domaine est le nom de votre site

La première chose à faire est de choisir un nom de domaine en adéquation avec son projet de site. En effet, si vous donnez un certain nom à votre site, votre nom de domaine devra également porter ce nom. Ça paraît vraiment logique, mais il m'est arrivé de voir des sites qui ne le faisaient pas. Au-delà de la simple question de confort pour le visiteur, cela a un réel enjeu pour le référencement. En effet, si le nom de domaine et le nom du site sont identiques et contiennent tous les deux un mot-clé intéressant par rapport à votre thématique, c'est déjà un bon point.

On a l'habitude de placer un mot-clé en rapport direct avec la thématique du site. Parlons un peu des jeux vidéo Zelda. Si vous voulez créer un site qui va donner des solutions sur les principaux volets de la série, des news et tout ce qui va avec, essayez d'inclure le mot « zelda » dans votre nom de domaine parce qu'il a de fortes chances d'être tapé par un utilisateur lors de sa recherche. Cela fera déjà un excellent mot-clé pour chacune des pages de votre site. Nous aborderons dans un prochain chapitre la notion de « longue traîne », vous verrez alors tout l'intérêt de bien choisir ses mots-clés.

L'extension du nom de domaine
Image utilisateur

Même si votre extension n'a pas grand intérêt au niveau du SEO, nous pouvons quand même en parler un tout petit peu, car vous devez probablement vous demander quoi choisir : .com, .fr, .org ?...Vis-à-vis de Google, la réponse n'a pas grand intérêt. Matt Cutts revenait sur cette question (EN) il n'y a pas longtemps sur l'un de ses posts Google+ à l'occasion des nouvelles extensions qui sont apparues récemment.

Il y dit que les systèmes d'indexation Google sont suffisamment avancés pour repérer la langue dans laquelle chaque page web est écrite et que Google ne s'arrête donc pas seulement à l'extension du nom de domaine. Partant de ce fait, vous allez pouvoir réserver un nom de domaine en sachant que l'extension ne représente au final pas grand-chose pour le robot. Pour ma part, je vous conseille quand même de choisir une extension en fonction de la langue que cible votre site. Si votre site se veut 100% français, selon moi, une extension en.fr est tout indiquée. Si en revanche vous voulez proposer un site dans plusieurs langues qui pourra être visité internationalement, vous pouvez vous laisser tenter par un nom de domaine en .com. C'est assez libre de ce côté-là au niveau du référencement, vu que l'on sait que le robot ira identifier la langue utilisée directement au contact de votre contenu.

Notez quand même qu'il existe un réel intérêt à utiliser une extension en « .fr » si votre site est 100% français. En effet, dans ce cas de figure, votre site ressortira de manière prioritaire dans les résultats de recherche de la version française de Google par rapport aux sites en .uk, qui eux, seront prioritaires dans la version anglaise (Royaume-Uni) de Google. Le choix de votre TLD est libre, mais gardez cette petite remarque en tête.

Âge du nom de domaine

L'âge de votre nom de domaine a également un impact sur votre référencement. En effet, plus le nom de domaine est ancien, plus le site web sur lequel il pointe est considéré comme étant de confiance par Google. Cela peut être une bonne idée de réserver votre nom de domaine le plus tôt possible, mais ceci n'a qu'un impact très mineur sur votre référencement.

Longueur du nom de domaine, un dernier conseil

Pour clore cette partie sur les noms de domaine, nous allons évoquer la longueur idéale qu'un nom de domaine doit avoir. Eh oui ! Un nom de domaine doit être ni trop court, ni trop long. Les domaines à rallonge ne sont pas très bien vus par le robot, et c'est pareil pour les domaines trop courts. Par exemple, « google.fr » est un nom de domaine trop court (6 caractères hors extension) alors que « siteduzero.com » (10 caractères hors extension) est bien meilleur.

On admet généralement que l'idéal est d'avoir un nom de domaine d'une longueur comprise entre 10 et 15 caractères. La limite valable serait de 20 caractères, ce qui vous donne quand même une marge de manœuvre plutôt grande pour vous trouver un joli nom. Cette information est néanmoins à prendre avec des pincettes dans le sens où les URL ne sont pas prises en compte par le robot. :)

Construire des URL "SEO-Friendly"

Points fondamentaux de la construction d'URL !

De la précision dans votre arbo, divisez vos contenus !

Je vous l'ai déjà dit, la principale force d'un site web, c'est son contenu. Le problème, c'est que très vite, plus le nombre de pages web grandit plus on va avoir besoin de diviser son contenu dans des sous-répertoires. Un site qui compte plusieurs milliers de pages dans son patrimoine ne se divise pas de la même manière qu'un site qui en possède vingt. Le premier des deux aura systématiquement besoin de passer par des sous-dossiers pour optimiser son référencement ; le second, non.

J'ai un grand nombre de pages web sur mon site, mais j'aime bien que mes pages soient toutes à la racine. En quoi ça pose problème à Google ? Après tout, c'est mon site et je le divise comme je veux.

Pour répondre à cette question. Je vais ressortir la page de résultats de Google. Prenons encore une fois le cas de la recherche pour le cours de PHP du Site du Zéro (voir la figure suivante).

L'URL, systématiquement visible dans le résultat de recherche de Google
L'URL, systématiquement visible dans le résultat de recherche de Google

Jetez un coup d’œil à l'URL en vert. Je vais maintenant la recopier ici, étant donné que sur Google elle est tronquée.

Citation : Lien cours de PHP : Site du Zéro

siteduzero.com/tutoriel-3-14668-concevez-votre-site-web-avec-php-et-mysql.html

Cette URL est assez correcte, mais elle pourrait être optimisée, dans le sens où l'on aurait pu placer ce cours dans un sous-dossier, voire dans un sous-sous-dossier, afin d'avoir quelques mots-clés en plus que Google aurait considérés lors de son indexation. Le Site du Zéro possède quand même plusieurs milliers de pages, on pourrait tirer profit par exemple du nom des sections où les tutos sont classés.

Par exemple :

Citation : Lien cours de PHP optimisé: Site du Zéro

siteduzero.com/apprendre-php/tutoriel-3-14668-concevez-votre-site-web-avec-php-et-mysql.html

Tout de suite c'est optimisé, étant donné que l'on a un sous-dossier « apprendre-php » contenant déjà deux mots-clés dégageant l'intérêt de votre page : « apprendre » et « php ». Ces mots-clés, je les ai mis au hasard, on les travaillera vraiment une fois que nous serons plus avancés dans le cours. Comme d'habitude, tentez pour le moment de vous contenter uniquement d'une expression qui définit rapidement l'ensemble du contenu que l'on va trouver dans votre sous-dossier. Patience, mes amis, patience…

Vous avez probablement compris le concept maintenant ! Lorsqu'on a beaucoup de contenu sur son site, il faut diviser !

Nommez correctement vos fichiers

Vos fichiers doivent absolument être nommés correctement, étant donné qu'ils apparaissent dans l'URL et donc dans les résultats de Google. Vous ne devez pas surcharger les noms de vos fichiers de caractères ou d'expressions inutiles. Nommez-les de la manière la plus simple possible, en favorisant l'intégration de mots-clés. Il faut éviter absolument tous les caractères inutiles dans les noms de vos fichiers. Cela ne sert strictement à rien.

Les tirets comme séparateurs

Dans vos URL, vous utiliserez les tirets « - » comme séparateurs plutôt que des underscores « _ » et ce, dans un souci d'uniformiser vos URL vis-à-vis de votre nom de domaine qui, lui, ne peut techniquement pas contenir d'underscores. Par ailleurs, retenez toujours que l'utilisation d'underscores dans les URL est une erreur fréquente qui coûte cher, et qui peut être très facilement évitée. Un fichier nommé « apprendre-php.html » est plus intéressant que « apprendre_php.html » dans le sens où l'URL sera uniformisée. En revanche, pensez toujours au fait que les URL ne sont pas prises en compte par Google. Vous n'aurez donc aucune pénalité en utilisant des underscores, c'est simplement « plus beau ».

Les caractères « complexes »

Les URL n'étant pas prises en compte depuis Google Panda, vous pouvez nommer vos fichiers comme vous le voulez, ce qui implique que vous pouvez y incorporer des accents si vous le souhaitez. Prenons l'exemple de Wikipedia. Ces trois liens amènent vers le même article et deux de ces trois liens comportent des accents, et même des underscores !

Citation : Lien 1° Guerre Mondiale - Wikipedia

http://fr.wikipedia.org/wiki/Premiere_Guerre_mondiale
http://fr.wikipedia.org/wiki/Première_Guerre_mondiale
http://fr.wikipedia.org/wiki/1ère_Guerre_mondiale

Pourtant, Wikipedia est l'un des sites les mieux référencés au monde. C'est bien la preuve que Googlebot ne prend pas en considération les URL et que vous pouvez en faire ce que vous voulez. Celles de Wikipedia sont très explicites pour les visiteurs. Pourquoi ne pas utiliser des URL similaires à celles de Wikipedia ?

Le <h1> dans l'URL

La dernière partie de l'URL devra être votre titre <h1>. Cela permettra de faire apparaître votre <h1> dans la page de résultats de Google, et dans son URL c'est toujours bon pour inciter un visiteur à cliquer. ;)

Sous-domaine ou répertoire ?

Vous devez forcément vous demander quel type de découpage est le plus recommandé pour un site web : doit-on utiliser des sous-domaines, ou des répertoires sur le domaine principal ? Voici le format que vos URL prendront dans les deux cas, lorsque nous souhaitons accéder à une page de profil par exemple.

Avec sous-domaine

Avec répertoire

membre.votresite.com/profil.html

votresite.com/membre/profil.html

C'est simple : le sous-domaine viendra se greffer avant le nom de domaine avec un point (« . ») comme séparateur. Avant 2007, les sous-domaines s'employaient de manière totalement différente. En effet, pour Googlebot, un sous-domaine représentait carrément un nouveau site complètement différent du domaine principal, qui ne profitait donc pas de son référencement déjà construit.

Fin 2007, Google a fait une mise à jour de son algorithme . Désormais, Googlebot considère un sous-domaine comme un répertoire du domaine principal. Il n'y a donc, aujourd'hui, que des différences très minimes entre utiliser un sous-domaine plutôt qu'un répertoire, et inversement.

Image utilisateur

Une autre règle d'or : un changement = une redirection.

Évitez les erreurs 404 !

C'est ce que trop de webmasters ne font pas, et c'est également ce qui massacre un référencement acquis, en plus de rapporter des pénalités. Changer l'emplacement d'un fichier ou le renommer entraîne obligatoirement un changement au niveau de l'URL d'accès de celui-ci. Seulement, Googlebot n'est pas devin. Au moment où il reviendra sur votre page web, il empruntera le lien qu'il avait visité la dernière fois. Or, ce lien n'étant plus valide, le Googlebot tombera sur une belle erreur 404.

Encaisser une erreur 404 est un énorme point noir pour son site. C'est pourquoi, la toute première chose à faire sera de créer une page de 404 personnalisée, sur laquelle tous les utilisateurs, dont le Googlebot, seront redirigés dès qu'une 404 sera levée. Cela limitera déjà la casse. Créez un fichier .htaccess à la racine de votre site web, et redirigez les erreurs 404 sur un fichier d'erreur personnalisé, que l'on va appeler par exemple "erreur.html". Les pages d'erreurs se gèrent en .htaccess grâce à la directive ErrorDocument.

ErrorDocument 404 http://www.site.com/erreur.html

Vous pouvez maintenant créer un fichier erreur.html et le placer à la racine de votre site pour personnaliser une erreur ; c'est d'ailleurs le type de procédé qu'emploie le Site du Zéro. Essayez vous-mêmes. :)

Cependant, ça ne suffit pas. Si l'internaute ou le Googlebot emprunte l'ancien lien de votre page et que celle-ci se trouve à un autre endroit, vous aimeriez naturellement que celui-ci soit redirigé sur la nouvelle page plutôt que sur la page d'erreur. En effet, Googlebot aura à cœur de visiter plusieurs fois la même page web dans le temps pour voir si celle-ci a été modifiée ou non et aller toujours plus loin dans son indexation. Ainsi, pour qu'il ait toujours le fil, il va falloir faire une redirection. Pour cela, nous allons encore une fois devoir passer sur le fichier .htaccess et travailler dessus.
Ouvrez-le simplement, et ajouter une redirection permanente à l'aide de la directive RedirectPermanent.

RedirectPermanent /ancienne-url.html http://www.site.com/nouvelle-url.html

Grâce à ce bout de code placé dans votre fichier .htaccess, toutes les requêtes demandant le fichier ancienne-url.html seront automatiquement redirigées vers nouvelle-url.html. Ainsi, votre URL aura été déplacée correctement, Google la prendra à son tour en compte, et vous n'encaisserez pas de pénalités.

Comme il existe une infinité de manières de coder un site, adaptez ces solutions pour les outils avec lesquels est codé votre site. Bonne chance ! :)

Précisions sur les redirections

Redirection 301

Petit quart d'heure technique : les serveurs et les clients, sur le web, communiquent grâce au protocole HTTP, qui n'est rien d'autre qu'une langue commune pour s'échanger des pages web. C'est pourquoi toutes les URL commencent par « http:// ». La redirection que nous venons de voir est en fait une redirection 301, qui est tout bêtement une redirection exprimée en HTTP. C'est donc le serveur lui-même qui effectue cette redirection. Il s'agit là de la manière la plus naturelle de rediriger des visiteurs ou robots vers une ressource qui a été déplacée. Le nombre 301 est un code qui correspond en fait à « redirection permanente (défintive) de ce contenu ». Les visiteurs et robots seront donc redirigés directement par le serveur lui-même vers le nouvel emplacement de votre page.

Ainsi, utiliser une redirection 301, c'est s'assurer de rediriger les visiteurs et les robots de la manière la plus naturelle possible vers la nouvelle ressource ! Nous n'aurions pas pu procéder avec du JavaScript par exemple, qui est une méthode beaucoup plus exotique et "sale".

Créer des redirections 301 sous Apache, NGinx

Comme nous l'avons vu, sous Apache, il suffit de créer un fichier .htaccess et d'y utiliser la directive RedirectPermanent.

RedirectPermanent /ancienne-url.html http://www.site.com/nouvelle-url.html

D'autres serveurs HTTP existent, tels que NGinx qui est lui aussi très utilisé. Cependant, j'ai une mauvaise nouvelle : les fichiers .htaccess n'existent pas sous NGinx, et les redirections 301 se réalisent différemment. Il vous faut ouvrir le fichier /etc/nginx/nginx.conf, et y ajouter les liens qui suivent dans la section server{}.

location /ancienne-url.html {
    rewrite /chemin/de/votre/ancienne/page.html http://www.site.com/nouvelle-url.html permanent;
}
Autres redirections

Sachez que les redirections 301 ne sont pas les seules redirections existantes. Il en existe d'autres en HTTP. En fait, tous les codes de redirection commençant par le chiffre 3 sont des redirections. En voici quelques-unes pour votre culture…

Code et nom

Effet

301 Moved Permanently

Redirection que l'on utilise pour indiquer qu'une ressource a été déplacée de manière permanente. C'est celle que l'on a utilisée.

302 Found

Ce code indique au client que la ressource demandée a été temporairement déplacée vers un nouvel endroit.

303 See Other

Le code 303 n'indique pas que la ressource demandée a été déplacée, mais elle renvoie en fait une autre adresse où la ressource peut être trouvée.

307 Temporary Redirect

Le code 307 indique quant à lui que la ressource demandée est temporairement disponible à une autre adresse. Elle indique également l'adresse en question qui est retournée au client. Le code 307 est très semblable au code 302, car il a été fait à partir du code 302 afin d'en faire une version moins ambiguë.

Problématique des URL dynamiques

Les URL, en particulier celles qui sont générées directement par des langages tels que PHP posent rapidement un problème : elles sont très laides pour l'internaute qui ne peut pas savoir ce qu'elles contiennent.

Un problème d'URL

Des URL générées dynamiquement

Ces URL laides gérées dynamiquement possèdent des variables dans leur construction. Voici par exemple une URL qui aurait pu être générée par PHP.

Citation : URL par PHP

http://www.site.com/page.php?id=1&ion=le-site&titre=ouverture-!

Ce type d'URL est assez médiocre, vous ne trouvez pas ? Pour le Googlebot, pas de problème, il saura l'indexer, mais pour votre visiteur, vous ne trouvez pas que c'est dommage de le laisser se bagarrer avec beaucoup de variables pour savoir ce que va contenir la page web ? Il serait quand même bien de nettoyer un peu ces URL pour aider le visiteur à identifier le contenu de votre page à partir de l'URL. Dans le même style, voici un exemple d'URL encore plus mauvais.

Citation : URL très mauvaise

http://www.site.com/page.php?id=1

Ou encore pire (oui :-° ) , une URL comportant la référence d'un produit que l'on souhaite vendre.

Citation : URL très très mauvaise

http://www.site.com/page.php?ref=KHDH0184DAAX578451F

Vous vous rendez compte ? Avez-vous une seule idée de ce que va contenir la page à partir de la référence du produit ? Non, et c'est normal. Par ailleurs, il me semble correct de vous prouver à quel point il est désagréable pour un visiteur de ne pas pouvoir identifier l'intérêt d'une page web à partir de son URL. Voici le lien vers une vidéo YouTube : http://www.youtube.com/watch?v=7Hk5uVv8JpM. Il est difficile de savoir que la vidéo est une conférence sur le référencement animée par Google ! Pourtant, je suis sûr que vous auriez cliqué dessus si cela avait été indiqué dans l'URL. Avouez ! :D

Aujourd'hui, nous avons de la chance, les URL ne sont pas prises compte dans l'indexation par Google. Il n'est donc pas si dramatique que ça d'avoir des URL laides. Cependant, vous devez savoir qu'à l'époque où Google accordait encore relativement d'importance aux URL, les sites qui proposaient des choses comme les références d'un produit en guise d'URL n'arrivaient jamais à bien se positionner. Certains de ces sites faisaient l'effort de mettre à jour toutes leurs URL, mais il y avait un piège ! Certains oubliaient de faire des redirections 301, et forcément les 404 à répétition avaient tendance à ne pas trop plaire à Google.

Heureusement, cette époque est révolue et nous ne raisonnons maintenant plus qu'en termes de confort pour votre visiteur. Si votre site est aujourd'hui construit autour d'URL médiocres, vous pouvez le laisser vivre. N'oubliez pas que les URL ne servent aujourd'hui qu'à localiser des ressources (pages) sur le web. Si vous souhaitez néanmoins jouer avec le feu, il existe une solution plutôt sympathique mais assez complexe à mettre en œuvre techniquement.

La solution

L'URL Rewriting

La solution à ce problème d'URL laides se met généralement en place via des fichiers .htaccess (dans le cas d'un serveur Apache) pour mettre au point des URL dynamiques mais propres. Cette technique se nomme l'« URL Rewriting », ou la « réécriture d'URL ». C'est quelque chose d'assez difficile à mettre en place étant donné que c'est très technique et que tout le monde ne sait pas forcément manipuler les fichiers .htaccess correctement. Grâce à l'URL Rewriting, on peut effectuer ce genre de modifications sur les URL.

Une URL par PHP http://www.site.com/page.php?id=1&ion=le-site&titre=ouverture-!
Même URL par PHP avec rewrite http://www.site.com/le-site/1-ouverture-!.html

Cette URL est quand même beaucoup plus propre en termes de confort pour votre visiteur : le contenu est structuré et hiérarchisé. Vous devez maintenant savoir que ce problème d'URL propres existe et que c'est une plaie. Si vous avez compris, c'est déjà bien suffisant.

  • Votre nom de domaine est un choix très important.

  • Optez pour un nom de domaine possédant un mot-clé en rapport avec votre thématique.

  • Votre nom de domaine apparaîtra pour chaque page de votre site.

  • Plus vous aurez de pages, plus vous devrez diviser votre arbo.

  • Même si Google est maintenant tout à fait capable de traiter des URL contenant des paramètres, optez pour des réécritures propres.

  • Les erreurs 404 sont très mal vues par Google. Un changement d'adresse = une redirection.

Exemple de certificat de réussite
Exemple de certificat de réussite