Je note

Cet article est noté 5/5 par 18 de nos lecteurs

Sitemap : tout savoir sur le plan de site d’un site web

Mis à jour25 juillet 2023 Écrit par Hugo Essique Nb de vues 15745 Commentaires 0

Un sitemap, appelé également plan de site est un fichier au format XML. Qu'est-ce qu'un sitemap et quel est son rôle ?

sitemap plan de site

Qu’est-ce qu’un sitemap, à quoi sert-il ?

Un sitemap est un plan de site au format XML (Extensible Markup Language). Il se matérialise par un fichier contenant une liste enrichie des URLs internes d’un site web.

Un sitemap fourni aux moteurs de recherche des informations sur la nature des URLs internes d’un site internet. Sans lui, certaines URLs ne seraient pas découvertes par les robots.

Si par exemple une URL de votre votre site n’est liée par aucune autre URL, il est alors impossible pour un robot de l’indexer sans le sitemap.

Les robots d’indexation (Googlebot par exemple) ont donc besoin d’un sitemap pour découvrir toutes les URLs de votre site web.

Les robots d’exploration des moteurs de recherche comme Googlebot lisent ce fichier pour explorer plus intelligemment votre site. Source : Google

Le sitemap fourni également aux moteurs de recherche des métadonnées relatives aux pages listées. Ces métadonnées renseignent les moteurs de recherche avec des informations telles que :

  • la date de la dernière modification d’une page web,
  • sa fréquence de mise à jour,
  • ou encore son importance dans le site internet.

Les moteurs de recherche utilisent les informations contenues dans le sitemap pour optimiser le référencement de votre site internet.

Le protocole

Les robots d’exploration des moteurs de recherche Google, Yahoo! et Microsoft respectent le même protocole Sitemap. Un document décrivant le schéma XML est d’ailleurs disponible sur le site sitemaps.org.

Téléchargez le protocole

Le plan Sitemap doit :

  • commencer par une balise d’ouverture <urlset> et se terminer par une balise de fermeture </urlset>.
  • spécifier l’espace de nom (standard de protocole) dans la balise <urlset>.
  • inclure pour chaque URL une entrée <url> en tant que balise XML parent.
  • inclure une entrée enfant <loc> pour chaque balise parent <url>.

Toutes les autres balises sont facultatives. La prise en charge de ces balises facultatives varie d’un moteur de recherche à un autre.

Un sitemap ne peut pas lister plus de 50 000 URLs et la taille d’un fichier XML ne doit pas dépasser 10 Mo (10 485 760 octets). Source : sitemaps.org

Les différents types d’entrées d’un sitemap

Un sitemap contient des URLs :

  • « classiques » (HTML, PDF),
  • d’images,
  • de vidéos.

Pourquoi le sitemap est-il important ?

Pour mieux comprendre l’importance d’un sitemap, un rapide décryptage du fonctionnement des robots d’indexation (appelés également Crawlers, Web spiders ou encore Bots) est nécessaire.

Pour découvrir et indexer les différentes pages de votre site web, Googlebot (et les autres robots) procèdent de la manière suivante :

  • Googlebot découvre votre site via un lien et commence par analyser le fichier Robots.txt(si le fichier robots.txt existe, le chemin vers le sitemap doit y être préciser, exemple : https://www.anthedesign.fr/sitemap_index.xml),
  • le robot analyse ensuite le code source HTML de votre page web, l’enregistre et l’envoie à Google,
  • Googlebot explore et repère ensuite tous les liens balisés <a> … </a> (internes et externes) tel qu’un utilisateur pourrait le faire en cliquant sur les liens lors de sa navigation.

Cette procédure est répétée à plusieurs reprises jusqu’à l’exploration complète de votre site internet. Une fois tous les liens explorés, reste à Google d’indexer vos pages web.

Les robots visiteront votre site à une fréquence dépendante des mises à jour de celui-ci. Plus les mises à jour de votre site sont fréquentes, plus il est visité par les robots.

Conseil : dans le cas d’une création de site internet, n’hésitez pas à transmettre votre sitemap à Google via Google Search Console.

Pour conclure, l’importance de la présence d’un sitemap est lié au constat suivant : si une URL de votre site internet est inaccessible par la racine ou via ses URLs descendantes, les robots ne pourront pas la trouver et l’indexer.

En vous inscrivant à notre newsletter, vous acceptez que vos données soient utilisées comme mentionné dans notre Politique de confidentialité

ALLER EN HAUT Demander un devis