Qu’est-ce qu’un fichier robots.txt ? – SEO

Imaginons qu’un moteur de recherche soit sur le point de visiter un site. Avant de visiter la page cible, il consultera le fichier robots.txt pour y trouver des instructions.

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots Web (généralement les robots des moteurs de recherche) comment explorer les pages de leur site Web. Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP), un groupe de normes Web qui régissent la manière dont les robots explorent le Web, accèdent au contenu, l’indexent et le proposent aux utilisateurs. Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions concernant la manière dont les moteurs de recherche doivent traiter les liens (telles que “follow” ou “nofollow”) sur une page, un sous-répertoire ou un site.

Le fichier robots.txt, également connu sous le nom de protocole d’exclusion des robots ou de norme, est un fichier texte qui indique aux robots Web (le plus souvent les moteurs de recherche) quelles pages de votre site doivent être explorées.

Il indique également aux robots web quelles pages ne doivent pas être explorées.

En pratique, les fichiers robots.txt indiquent si certains agents utilisateurs (logiciels d’exploration du Web) peuvent ou non explorer certaines parties d’un site Web. Ces instructions d’exploration sont spécifiées en “interdisant” ou en “autorisant” le comportement de certains agents utilisateurs (ou de tous).

 

Quel est son format de base ?

User-agent : [nom de l’agent utilisateur]Désaccorder : [chaîne d’URL ne devant pas être explorée].

Ensemble, ces deux lignes sont considérées comme un fichier robots.txt complet – bien qu’un fichier robots puisse contenir plusieurs lignes d’agents utilisateurs et de directives (c’est-à-dire, désapprouver, autoriser, retarder l’exploration, etc.)

Dans un fichier robots.txt contenant plusieurs directives relatives aux agents utilisateurs, chaque règle d’exclusion ou d’autorisation ne s’applique qu’aux agents utilisateurs spécifiés dans cet ensemble particulier séparé par un saut de ligne. Si le fichier contient une règle qui s’applique à plus d’un agent utilisateur, un robot d’exploration ne prêtera attention (et ne suivra les directives) qu’au groupe d’instructions le plus spécifique.

 

Comment fonctionne le fichier robots.txt ?

Les moteurs de recherche ont deux tâches principales :

  • L’exploration du Web pour découvrir du contenu ;
  • Indexer ce contenu afin de le proposer aux internautes qui recherchent des informations.

Pour explorer les sites, les moteurs de recherche suivent les liens pour se rendre d’un site à l’autre – en fin de compte, ils explorent des milliards de liens et de sites Web. Ce comportement d’exploration est parfois appelé “spidering”.

Après être arrivé sur un site Web, mais avant de l’explorer, le moteur de recherche recherche recherche un fichier robots.txt. S’il en trouve un, il lit d’abord ce fichier avant de continuer à parcourir la page. Comme le fichier robots.txt contient des informations sur la manière dont le moteur de recherche doit explorer le site, les informations qu’il contient vont guider l’action du crawler sur ce site particulier. Si le fichier robots.txt ne contient pas de directives interdisant l’activité d’un agent utilisateur (ou si le site n’a pas de fichier robots.txt), le moteur de recherche procédera à l’exploration d’autres informations sur le site.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *