Robots.txt : quel est son rôle et comment le créer ?

Robots.txt est un fichier qui indique aux moteurs de recherche les zones de votre site web à indexer.

ROBOTS.TXT GOOGLE

Quel est son rôle exactement ? Comment créer le fichier robots.txt ? Et comment l’utiliser pour votre référencement ?

Qu’est-ce que le fichier robots.txt ?

Le robots.txt est un fichier texte, son placement est à la racine de votre site web. Il interdit aux robots des moteurs de recherche l’indexation de certaines zones de votre site internet. Le fichier robots.txt est l’un des premiers fichiers analysés par les spiders (robots).

À quoi sert-il ?

Le fichier robots.txt donne des instructions aux robots des moteurs de recherche qui analysent votre site web, c’est un protocole d’exclusion des robots. Grâce à ce fichier, vous pouvez interdire l’exploration et l’indexation de :

  • votre site à certains robots (également appelés « agents » ou « spiders« ),
  • certaines pages de votre site aux robots et/ou de quelques pages à certains robots.

Pour bien comprendre l’intérêt du fichier robots.txt, nous pouvons prendre l’exemple d’un site composé d’une zone publique pour communiquer auprès des clients et d’un intranet réservé aux salariés. Dans ce cas, la zone publique est accessible aux robots et la zone privée, interdite d’accès.

Ce fichier indique également aux moteurs l’adresse du fichier sitemap du site web.

Une balise Meta nommée « robots » placée dans le code html d’une page web interdit son indexation avec la syntaxe suivante : <meta name= »robots » content= »noindex »>.

Où trouver le fichier ROBOTS.TXT ?

Le fichier robots.txt se trouve au niveau de la racine de votre site internet. Pour vérifier sa présence sur votre site, vous tapez dans la barre d’adresse de votre navigateur : http://www.adressedevotresite.com/robots.txt.

Si le fichier est :

  • présent, il s’affichera et les robots suivront les instructions présentes dans le fichier.
  • absent, une erreur 404 s’affichera et les robots considéreront qu’aucun contenu n’est interdit.
Un site internet contient un seul fichier pour les robots et son nom doit être exact et en minuscule (robots.txt).

Comment le créer ?

Pour créer votre fichier robots.txt, vous devez pouvoir accéder à la racine de votre domaine.

Le fichier robots TXT est créé manuellement ou généré par défaut par la majorité des CMS comme WordPress au moment de leur installation. Mais il est également possible de créer votre fichier pour les robots avec des outils en ligne.

Pour la création manuelle, vous utilisez un simple éditeur de texte tel que Notepad tout en respectant à fois :

  • une syntaxe et des instructions,
  • un nom de fichier : robots.txt,
  • une structure : une instruction par ligne et aucune ligne vide.
Pour accéder au dossier de la racine de votre site web, il est impératif de posséder un accès FTP. Si vous ne disposez pas de cet accès, vous ne pourrez pas le créer et vous devrez prendre contact avec votre hébergeur ou votre agence web.

La syntaxe et les instructions du fichier robots.txt

Les fichiers robots.txt utilisent les instructions ou commandes suivantes :

  • User-agent : les user-agents sont les robots des moteurs de recherche, par exemple Googlebot pour Google ou Bingbot pour Bing.
  • Disallow : disallow est l’instruction qui interdit aux user-agents l’accès à une url ou à un dossier.
  • Allow : allow est une instruction autorisant l’accès à une url placée dans un dossier interdit.

Exemple de fichier robots.txt :

# fichier pour les robots du site http://www.adressedevotresite.com/
User-Agent: * (autorise l’accès à tous les robots )
Disallow: /intranet/ (interdit l’exploration du dossier intranet)
Disallow: /login.php (interdit l’exploration de l’url http://www.adressedevotresite.com/login.php)
Allow: /*.css?* (autorise l’accès à toutes les ressources css)
Sitemap: http://www.adressedevotresite.com/sitemap_index.xml (lien vers le sitemap pour le référencement)

Dans l’exemple ci-dessus, la commande User-agent s’applique à tous les robots d’exploration grâce à l’insertion d’un astérisque (*). Le dièse (#) est utilisé pour afficher des commentaires, les commentaires ne sont pas pris en compte par les robots.

Vous trouverez sur le site de robots-txt, les ressources spécifiques à certains moteurs de recherche et certains CMS.

Le robots.txt et le SEO

Au niveau de l’optimisation du SEO de votre site internet, le fichier robots.txt permet de :

  • éviter les robots d’indexer des contenus dupliqués,
  • fournir le sitemap aux robots pour fournir des indications sur les URLs à indexer,
  • économiser le « budget crawl » des robots de Google en excluant les pages peu qualitatives de votre site internet.

Comment tester votre fichier robots.txt ?

Pour tester votre fichier robots.txt, il vous suffit de créer et d’authentifier votre site sur Google Search Console. Une fois votre compte créé, vous devrez cliquer dans le menu sur Exploration puis sur Outil de test du fichier robots.txt.

robots.txt

Le test du fichier robots.txt permet de vérifier que toutes les URLs importantes peuvent être indexées par Google.

Pour conclure, si vous souhaitez avoir la maîtrise de l’indexation de votre site internet, la création d’un fichier robots.txt est indispensable. Si aucun fichier n’est présent, toutes les urls trouvées par les robots seront indexées et se retrouveront dans les résultats des moteurs de recherche.

En vous inscrivant à notre newsletter, vous acceptez que vos données soient utilisées comme mentionné dans notre Politique de confidentialité

Je commente

Je note

Cet article est noté 4.8/5 par 39 de nos lecteurs

ALLER EN HAUT Demander un devis