Skip to content

Lorsque l’on parle de Google, on évoque souvent les fameux robots chargés d’analyser chaque site Internet. Aussi appelés « spiders », les robots de Google explorent les URLs, les liens présents sur une page et le code source HTML. C’est le passage de ces bots qui va permettre à votre site d’être indexé.

Le fichier sitemap.XML permet de faciliter l’accès des robots à un site. Le robots.txt est, au contraire, un protocole d’exclusion qui interdit notamment aux robots l’exploration et l’indexation de certaines pages de votre site. L’invention du fichier robots.txt est attribuée à Martin Koster qui souhaitait alors réguler la capacité d’analyse des robots chargés d’effectuer le crawl des pages d’un site Web.

Mais alors, pourquoi empêcher l’accès des robots à votre site ? En quoi le robots.txt peut-il être utile pour le référencement naturel et comment le mettre en place ? L’équipe de Jloo vous explique tout en détail !

Qu’est-ce qu’un robots.txt ?

Le robots.txt est un fichier au format texte qui permet d’indiquer aux robots de Google quelles pages explorer sur un site Web. Plus précisément, ce fichier permet de mettre en place un protocole d’exclusion indiquant aux robots les pages qu’il faut explorer et celles qu’il ne faut pas explorer. Attention, le fichier robots.txt s’adresse seulement aux robots d’indexation du moteur de recherche : les pages que ces derniers ne doivent pas analyser demeurent accessibles pour les internautes.

Le fichier robots.txt est mis en place par le développeur à la racine du site Web. Il ne permet pas à une page déjà indexée de ne plus l’être puisque son but est d’empêcher le crawl. Si une page a déjà été crawlée, elle restera donc indexée. Ce sont les balises « no index » qui permettent au développeur d’un site Web d’empêcher l’indexation de certaines pages.

Pourquoi mettre en place un fichier robots.txt ?

Pourquoi empêcher les robots de Google de crawler certaines pages d’un site Web ? Tout simplement pour optimiser le temps de crawl des robots ! Ce fichier est par exemple utilisé par les sites Internet comportant un grand nombre d’URLs, il permettra d’éviter aux robots de passer du temps de crawl sur des pages dont l’indexation n’est pas prioritaire. En aucun cas un robots.txt ne sert à empêcher qu’une page Web ne s’affiche sur les SERPs, il s’agit simplement de gérer le trafic des robots sur votre site Internet afin de leur indiquer des priorités.

Lorsque les robots crawlers arrivent sur un site, ils commencent par télécharger le fichier robots.txt : de cette façon, ils analysent d’abord les règles liées au site. Après avoir pris connaissance de ces règles et indications, ils se lancent dans l’exploration du site Web.

Dès lors, comment déterminer les pages qui ne doivent pas être crawlées en priorité ? Il peut être très utile d’empêcher les robots d’explorer les pages contenant du contenu dupliqué ou encore le moteur de recherche interne affiché sur votre site Web. Il peut également s’agir de contenus confidentiels ou de ressources internes comme un cahier des charges ou un livre blanc.

Le fichier robots.txt peut empêcher le crawl de trois types de contenus :

–          Une page Web.

–          Un fichier de ressources.

–          Un fichier multimédia.

Le fichier robots.txt appliqué à une page Web permettra de gérer le trafic des robots sur votre site Web. Cela permettra d’éviter d’être submergé par le passage des robots ou de prioriser des pages qui méritent davantage d’être indexées. Lorsque ces pages contiennent un robots.txt, elles peuvent tout de même apparaître sur les SERPs, elles ne contiendront cependant aucune description.

Comment créer un fichier robots.txt ?

Les fichiers robots.txt sont situés à la racine d’un site Web, concrètement ils prennent cette forme : www.exemple.com/robots.txt. Un tel fichier peut comporter plusieurs règles : disallow, allow et sitemap. La directive « user agent » est obligatoire puisqu’elle permet de spécifier à quel robot le fichier s’adresse. L’astérisque permet de viser l’ensemble des robots d’exploration.

Il peut s’agir d’un robots.txt ciblé, contenant l’adresse URL d’une page ou contenant simplement une consigne. Chaque règle a sa syntaxe, si celle-ci n’est pas respectée au caractère près le fichier ne fonctionnera pas.

Voici l’exemple de fichier donné par Google, il s’agit d’abord de viser le robot « user-agent » chargé de crawler le site, en l’occurrence le « Google bot ».

User-agent : Googlebot

Disallow : /nogooglebot/

User-agent : *

Allow : /

Sitemap : http://www.exemple.com/sitemap/xml

Attention, le fichier robots.txt doit toujours être rédigé en minuscule et il doit être situé à la racine du site. Un site Web ne peut contenir qu’un seul fichier robots.txt.

Bonnes pratiques et erreurs à éviter en matière de robots.txt

Le risque principal du fichier robots.txt est de bloquer l’accès de pages pourtant considérées comme prioritaires. Nous vous recommandons de rédiger ce fichier dans un simple bloc-notes en vérifiant bien qu’il n’existe aucune ligne blanche dans les blocs de directives. Veillez également à bien respecter l’ordre lorsque vous rédigez ces directives.

Éviter de rédiger votre fichier dans un éditeur de texte classique (type Page ou Word), des caractères spéciaux pourraient se glisser dans le fichier et empêcher la prise en compte des directives par les robots.

Nous vous conseillons de tester votre fichier avant de l’importer. Après test et importation, les robots de Google trouveront le fichier sans intervention de votre part. L’importation d’un fichier robots.txt dépend du serveur et de l’architecture de chaque site Web. Il suffit en général de glisser le fichier à l’emplacement prévu par votre serveur. Vous pouvez contacter Paul Vengeons, un freelance SEO efficace pour davantage d’information.

Sachez que l’exploration par les robots de Google est autorisée par défaut. Nul besoin d’inclure une directive « Allow » pour les pages que vous souhaitez prioriser. La directive « Allow » servira simplement à remplacer les « Dissallow » dans un même fichier robots.txt.

Auteur : José
Auteur : José
Consultant SEO pendant plus de 12 ans auprès d'une agence web, José est un véritable expert du SEO. Chaque jour, il met son expertise technique au service des clients afin d'améliorer le référencement naturel de leurs sites.
DEMANDE D’INFORMATION

Un besoin immédiat ? Nous sommes aussi joignable par téléphone.
DEMANDE D’INFORMATION

Merci pour votre message.

Notre équipe commerciale va vous contacter dans les plus brefs délais.