Exclusions de pages web

Marche à suivre pour configurer ce crawler de manière à ce qu'il n'importe aucune page web non désirée dans le portail :

  1. Par défaut, ce crawler applique les recommandations du serveur web concernant le choix des pages intéressantes pour les crawlers automatisés. Si vous préférez ne pas appliquer ces recommandations, désélectionnez l'option Obéir aux protocoles automatiques d'exclusion du site destinataire.

    En règle générale, ces recommandations permettent de limiter les analyses d'un contenu jugé indésirable dans le portail. Cependant, certains sites proposent des recommandations très strictes. S'il s'avère que votre crawler n'importe aucun contenu d'un site, essayez de désactiver cette option.

  2. Par défaut, ce crawler enregistre les URL des pages web importées en fonction de la casse de caractères utilisée sur le site d'origine. Pour changer les URL en minuscules, sélectionnez Convertir toutes les URL en minuscules.

  3. Marche à suivre pour éviter d'importer du contenu venant d'une certaine partie d'un site web ou pour éviter d'importer des pages particulières :

  4. Par défaut, ce crawler n'analyse et n'importe aucune des pages désignées dans les exclusions. Si votre crawler doit partir du lien d'une page exclue pour se rendre sur une page non exclue qui elle-même doit être importée, choisissez l'option Analyser les pages exclues, mais ne pas les importer.

  5. Marche à suivre pour limiter l'analyse à une partie d'un site web ou à des pages particulières :


  1. Cliquez sur Administration.
  2. Ouvrez l'éditeur de crawler web :
  3. À gauche, sous Modifier les paramètres d'objet, cliquez sur Exclusions de pages web.