Crawling SEO : Mais qu’est-ce-que c’est ?

Qu’est-ce-que le crawling en SEO ?

 

On parle de “crawling” lorsque Google ou un autre moteur de recherche envoie un robot sur une page Web ou un article Web et “lit” la page. C’est ainsi que le robot de Google ou d’autres crawlers vérifie le contenu de la page. Il ne faut pas confondre cette opération avec l’indexation de la page. L’exploration est la première étape pour qu’un moteur de recherche reconnaisse votre page et l’affiche dans les résultats de recherche. L’exploration d’un site web par le robot d’un moteur de recherche se fait en cliquant sur les liens proposés, afin de découvrir toutes les pages du site au travers d’une navigation naturelle. Cependant, le fait que votre page soit explorée ne signifie pas nécessairement qu’elle a été (ou sera) indexée.  Pour être trouvée dans une requête d’un moteur de recherche, vous devez d’abord être explorée, puis indexée.

Le crawl d’un site web est la première action, essentielle, mise en place par les moteurs pour découvrir votre site. Sans crawl préalable, il est impossible qu’une page ressorte dans les résultats de recherche par la suite…

Pour constituer leur index, les moteurs de recherche ont besoin de connaître et d’atteindre un maximum de pages du Web. Pour cela, ils utilisent des robots, ou spiders ou crawlers. Celui de Google s’appelle Googlebot, celui de Bng a pour nom BingBot, etc.

Ces robots ont pour objectif de crawler un site web : ils vont passer sur les pages d’un site pour y effectuer deux actions distinctes :
1. Récupérer (sauvegarder) le code HTML de la page pour l’envoyer au moteur pour le traiter ultérieurement.
2. Suivre les liens (internes et externes) que cette page contient pour explorer d’autres pages.

C’est cette phase d’exploration des pages en suivant les liens internes d’un site et de récupération systématique du code source des pages que l’on appelle “crawl“.

Pourquoi les pages des sites sont-elles explorées ? 

Les pages sont explorées pour diverses raisons, notamment :

  • La soumission à Google d’un sitemap XML contenant l’URL en question
  • La présence de liens internes pointant vers la page
  • Des liens externes pointent vers la page
  • Un pic de trafic sur la page

Pour vous assurer que votre page sera explorée, vous devez télécharger un plan de site XML sur Google Search Central, précédemment connu sous le nom de Google Search Console (anciennement Google Webmaster Tools), afin de fournir à Google une feuille de route pour l’ensemble de votre nouveau contenu.

Pour chaque site, Google définit un budget crawl ou ressources allouées au crawl de cette source d’informations.

Aujourd’hui, un moteur comme Google sait crawler les pages conçues en HTML, mais également en Javascript, Ajax, etc. Les outils d’analyse de logs permettent alors de comprendre et d’analyser comment les robots des moteurs crawlent un site. Il est également possible d’utiliser des outils qui crawlent un site web comme le ferait un moteur : onCrawl, Botify, Screaming Frog, etc.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *