Votre site est inutile s'il ne peut pas être indexé par les moteurs de recherche. Si vous souhaitez que cela apparaisse dans les résultats de la recherche, vous devez vous assurer qu'il est accessible aux moteurs de recherche. Cependant, vous souhaiterez parfois limiter l'accès à certaines parties de votre site, par exemple masquer des pages non pertinentes ou des documents privés. Dans cet article, vous apprendrez à gérer l'accessibilité de votre site pour les moteurs de recherche via un robots.txt fichier ou balises META robots.
Avant d'entrer dans les détails sur la création d'un fichier robots.txt ou d'une méta-balise robots, nous devons examiner leurs avantages. Il existe certains scénarios où leur mise en œuvre peut s'avérer utile, tels que:
Le contenu en double dilue vos efforts de référencement, car les moteurs de recherche ont du mal à décider quelle version est la plus pertinente pour la requête des utilisateurs. Ce problème peut être évité en bloquant les pages en double via un fichier ou une balise de robot. Il existe un autre moyen de gérer le contenu en double, mais nous en discuterons plus tard..
Si vous avez des pages en ligne nouvelles mais incomplètes, il est préférable de les empêcher des robots d'exploration de les indexer. Cela peut être utile pour les nouvelles pages de produits, par exemple - si vous souhaitez les garder secrètes jusqu'au lancement, ajoutez un fichier de robots ou une balise..
Certains sites Web ont des pages confidentielles ou des fichiers qui ne sont pas bloqués par un formulaire de connexion. Un moyen simple de les masquer aux moteurs de recherche consiste à utiliser le fichier robots.txt ou la balise méta..
Maintenant que nous savons Pourquoi nous devrions gérer l'accessibilité de certaines pages, il est temps d'apprendre Comment nous pouvons le faire.
Les rampeurs sont des bourreaux de travail. Ils veulent indexer autant que possible, sauf si vous leur dites le contraire.
Lorsqu'un robot visite votre site Web, il recherche le fichier robots.txt. Ce fichier lui donne des instructions sur les pages qui doivent être indexées et celles qui doivent être ignorées. En créant un fichier robots.txt, vous pouvez empêcher les robots d'exploration d'accéder à certaines parties de votre site Web..
Le fichier robots.txt doit être placé dans le dossier répertoire de niveau supérieur de votre site - par exemple: www.domain.com/robots.txt. Ce nom de fichier est également sensible à la casse.
Attention: Si vous ajoutez un fichier robots.txt à votre site Web, veuillez vérifier les erreurs. Vous ne voulez pas empêcher par inadvertance les robots d'exploration d'indexer des pages importantes.
robots.txt est un simple fichier texte avec plusieurs enregistrements. Chaque enregistrement comporte deux éléments: agent utilisateur et refuser.
L'élément user-agent indique les robots qui doivent utiliser les informations d'interdiction. Disallow indique aux crawlers quelle partie du site Web ne peut pas être indexée.
Un disque ressemblera à quelque chose comme ça:
Agent utilisateur: * Interdit:
L'enregistrement ci-dessus permet aux moteurs de recherche d'accéder à toutes les pages. Nous utilisons l'astérisque (*) pour cibler tous les robots d'exploration et, comme nous n'avons pas spécifié de page interdire, ils peuvent indexer toutes les pages..
Cependant, en ajoutant une barre oblique au champ interdire, nous pouvons empêcher tous les robots d'exploration d'indexer n'importe quoi de notre site web:
User-agent: * Disallow: /
Nous pouvons également choisir de cibler un seul robot. Regardez l'exemple ci-dessous:
User-agent: Googlebot Disallow: / répertoire-privé /
Cet enregistrement indique à Google de ne pas indexer le répertoire privé. Googlebot utilise Googlebot pour ses recherches sur le Web. Pour une liste complète de tous les robots, visitez la base de données de robots Web.
Coupler une interdiction à un agent utilisateur serait une tâche fastidieuse. Heureusement, nous pouvons ajouter plusieurs interdits dans le même enregistrement..
Agent utilisateur: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg
Cela empêchera Bing d’indexer le répertoire exemple, la page inintéressante et le logo..
Comme nous nous appuyons sur les expressions régulières ici, nous pouvons également utiliser des caractères génériques dans un fichier robots.txt..
Par exemple, beaucoup de gens utilisent Wordpress comme système de gestion de contenu. Les visiteurs peuvent utiliser la fonction de recherche intégrée pour rechercher des publications sur un sujet donné. L'URL d'une requête de recherche présente la structure suivante: http://domain.com/?s=searchquery.
Si je veux empêcher l'indexation des résultats de recherche, je peux utiliser un caractère générique. L'enregistrement robots.txt ressemblera à ceci:
User-agent: * Disallow: /? S =
Vous pouvez également utiliser des caractères génériques pour empêcher l'indexation des types de fichiers. Le code suivant bloquera toutes les images .png:
User-agent: * Disallow: /*.png$
N'oubliez pas d'ajouter le signe dollar à la fin. Il dit aux moteurs de recherche que c'est la fin d'une chaîne d'URL.
C'est toujours une bonne idée de tester votre fichier robots.txt pour voir si vous avez commis des erreurs. Vous pouvez utiliser Google Webmaster Tools pour cela.
Sous "santé", vous trouverez la page "URL bloquées". Vous trouverez ici toutes les informations sur votre fichier. Vous pouvez également tester les modifications avant de les télécharger.
La méta-balise robots est utilisée pour gérer l'accessibilité des robots d'exploration à une seule page. Il indique aux moteurs de recherche si la page peut être explorée, archivée ou si les liens sur la page peuvent être suivis.
Voici à quoi ressemble la balise Meta des robots:
Cette balise META empêche les robots d'exploration d'indexer la page Web. En plus de «noindex», plusieurs autres attributs pourraient être utiles:
Plusieurs attributs peuvent être utilisés dans une seule balise méta de robot, par exemple:
Ce balisage empêche les robots d’indexer la page et de suivre ses liens..
Si vous utilisez des tags en conflit, Google utilisera l'option la plus contraignante. Supposons que vous utilisiez les termes "index" et "noindex" dans la même balise, la page ne sera pas indexée (option la plus restrictive, juste pour être sûr).
Comme nous en avons discuté, il existe deux façons de gérer l'accessibilité des pages Web: un fichier robots.txt et des balises méta..
Le fichier robots.txt est idéal pour bloquer des répertoires complets ou certains types de fichiers. Avec une seule ligne de texte, vous pouvez faire beaucoup de travail (et potentiellement beaucoup de dégâts!). Mais si vous souhaitez bloquer une page individuelle, il est préférable d'utiliser la balise méta robots..
Parfois, les URL bloquées via le fichier robots.txt peuvent toujours apparaître dans les résultats de la recherche. Lorsque de nombreux liens pointent vers la page et que Google considère que le seul résultat de recherche pertinent pour la requête de recherche, celui-ci est toujours affiché. Si vous ne voulez absolument pas que la page soit affichée, vous devez ajouter la balise méta noindex. Cela peut sembler compliqué, mais Matt Cutts explique tout en détail dans les URL non explorées dans les résultats de recherche sur YouTube..
Avec le fichier robots.txt et les balises méta robots, vous pouvez facilement gérer l'accessibilité de votre site aux moteurs de recherche..
N'oubliez pas de vérifier et revérifier vos balises méta et votre fichier robots.txt pour empêcher le blocage par inadvertance des robots d'exploration d'indexation de pages importantes..