Le robots.txt doit être présent à la racine de tous les sites internet. Oui, tous 😉
C’est Martin Koster qui a créé ce format de fichier pour réguler le crawl. Vous savez quoi ? Plus de 20 ans après, il sert toujours à ça.
Ca fait du bien de voir des choses qui durent sur le web. Car c’est rare 🙂
Principe :
Nous allons demander à Google de ne pas apporter de l’importance à des pages.
On parle des CGV, du moteur de recherche, de certaines facettes d’un site, tout ce qui n’est pas propice à être valorisé pour le référencement.
On va en profiter pour soumettre son sitemap .
Il faut bien comprendre que même si vous donnez des instructions par une autre façon à Google, vous devez quand même soigner votre robots.txt .
En aucun cas le robots.txt va permettre de désindexer fermement des pages de votre site. Pour cela, vous devrez mettre la balise « noindex » dans les pages à désindexer.
En pratique :
Le robots.txt est un fichier texte que vous pouvez ouvrir et modifier avec votre éditeur habituel.
Début :
User-agent: *
Disallow: /repertoire_a_déprioriser/
Sitemap: https://www.monsite.com/sitemap.xml
Vérifier :
Votre robots.txt doit être visible d’un navigateur à l’adresse votresite.com/robots.txt
Conclusion :
On a survolé le principe et les pratiques pour bien comprendre ce qu’attend Google d’un robots.txt. Si vous utilisez un CMS comme WordPress, Prestashop et Magento, vous allez trouver des robots.txt tout fait sur la toile à adapter à vos besoins. Sinon, vous pouvez nous contacter et on se fera un plaisir de vous aider.