Plateforme
Templates
Tarifs
Ressources
DocumentationAPI
Contact
Se connecter
Commencer
FR
EN

partager

Comment limiter l'indexation de son site à certaines catégories de pages ?

Après avoir aspiré son site dans un moteur de recherche, il arrive fréquemment qu'un certains nombre de pages apparaissent dénuées d'intérêt dans le cadre de votre assistant. Cet article vous présente différentes manières d'exclure ces pages en vous assurant qu'elles ne seront jamais réindexées.

Parution le 

10/12/2021

, par 

Martin Caussanel

Selon les sites, il arrive fréquemment qu'un grand nombre de pages soient inutiles dans le cadre de votre assistant (i.e des pages profiles, du contenu que vous ne désirez pas desservir via votre assistant, ...).

Il est possible de filtrer ces pages selon différentes granularités pour vous assurer qu'elles soient supprimées des résultats de recherche actuels et à venir.

Cet article vous apprendra à :

  1. Limiter l'indexation à une catégorie de pages dès la création du moteur
  2. Supprimer des types de page a posteriori
  3. Supprimer des pages précises a posteriori

Limiter l'indexation dès sa création

Comme indiqué plus amplement dans l'article "Comment transformer un moteur de recherche en chatbot ?", il est possible de spécifier une catégorie de pages précises à indexer dès la création du moteur de recherche, en fournissant une URL de départ terminant par un sous-chemin.

Par exemple, en créant un moteur de recherche avec pour URL de départ "https://votresite.com/fr/documentation/", l'indexation se limitera automatiquement à toutes les pages commençant par "/fr/documentation/".

Cependant, ce cas de figure a pour condition que l'URL "https://votresite.com/fr/documentation/" redirige bien sur une page existante et proposant des liens pour rejoindre les autres pages de cette catégorie.

Pour plus de détails sur l'usage de cette fonctionnalité, je vous invite à jeter un coup d’œil à l'article "Comment transformer un moteur de recherche en chatbot ?" !

‍

Supprimer des types de page a posteriori

Aussi appelée "blacklist", cette opération consiste à bannir certaines formes d'URLs de vos résultats de recherche actuels et à venir.

Ainsi, toutes les pages concernées seront immédiatement supprimées, et le moteur de recherche n'ira plus jamais les ré-indexer lors des prochaines indexations périodiques.

Pour ce faire, rendez-vous dans l'écran d'administration de votre ressource Moteur de recherche, onglet Domaines.

En bas de page, vous verrez une section "Configuration avancée par domaines" présentant quelques options de configuration, comme dans la capture d'écran ci-dessous :

‍

Ici, le champ qui nous intéresse est "Exclure les modèles d'urls suivants :". Il vous permet de spécifier autant de types de pages à exclure que vous le désirez.

Pour comprendre comment écrire ces types de pages, prenons un exemple concret avec l'onglet Contenu dans la capture d'écran ci-dessus :

‍

Ici, on retrouve 2 types de page :

  • Les pages par auteur (/author/...)
  • Les pages par tag (/tag/...)

Imaginons maintenant qu'on souhaite se débarrasser de toutes les pages par tag, et ne plus les réindexer à l'avenir. Pour ce faire, on écrirait le filtre suivant dans notre champs d'exclusion : /tag/.*

Le .* final est très important, car c'est ce qui indique qu'on ne souhaite pas bannir une page de tag précise, mais bien l'ensemble des pages de tags. Sans ce .* final, une seule URL serait exclue : http://quotes.toscrape.com/tag/

Ce .* peut se situer n'importe où :

  • En tout début d'URL, par exemple pour dire "toutes les pages terminant par /Martin-Luther-King-Jr" : .*/Martin-Luther-King-Jr
  • En fin d'URL, par exemple pour dire "toutes les pages commençant par /tag/" : /tag/.*‍
  • En milieu d'URL, par exemple pour dire "toutes les pages commençant par /author/ et terminant par King-Jr" : /author/.*King-Jr

Il est aussi possible de cumuler plusieurs .* dans la même règle pour y faire apparaître plusieurs "parties libres".

‍

Dès que vous cliquez sur "Enregistrer" après avoir indiqué la règle d'exclusion /tag/.*, l'onglet Contenu sera mis à jour après avoir rafraîchi la page :

Supprimer des pages précises a posteriori

Plus fine, cette opération vous permet de supprimer certaines pages précises depuis votre console Prisme.ai. Tout comme la suppression de catégories d'URLs, les pages ciblées ne seront plus jamais réindexées.

Celle-ci est encore plus simple que la méthode précédente, puisqu'il suffit de cliquer sur l'icône "Supprimer" disponible tout à droite de chaque entrée de l'onglet Contenu.

PlateformeCas d'usageTarifs
BlogDocumentationRecrutement
Se connecterBlagnac, France
CGUMentions LégalesPolitique de confidentialité

Tous droits réservés Prisme.ai - 2016-2022 - Gogowego SAS - Made In Francecréation de site internet polish_ studio