Marche à suivre pour configurer ce crawler de manière à ce qu'il n'importe aucune page web non désirée dans le portail :
Par défaut, ce crawler applique les recommandations
du serveur web concernant le choix des pages intéressantes pour les crawlers
automatisés. Si vous préférez ne pas appliquer ces recommandations, désélectionnez
l'option Obéir aux protocoles automatiques
d'exclusion du site destinataire.
En règle générale, ces recommandations permettent de limiter les analyses
d'un contenu jugé indésirable dans le portail. Cependant, certains sites
proposent des recommandations très strictes. S'il s'avère que votre crawler
n'importe aucun contenu d'un site, essayez de désactiver cette option.
Par défaut, ce crawler enregistre les URL des pages web importées en fonction de la casse de caractères utilisée sur le site d'origine. Pour changer les URL en minuscules, sélectionnez Convertir toutes les URL en minuscules.
Marche à suivre pour éviter d'importer du contenu venant d'une certaine partie d'un site web ou pour éviter d'importer des pages particulières :
Pour préciser une zone à éviter, cliquez sur
Ajouter
une exclusion ; ensuite, dans la zone de texte, tapez l'URL
de la partie du site web que vous souhaitez éviter.
Vous pouvez utiliser le caractère générique * pour rendre cette
exclusion plus générale. Par exemple, pour éviter d'analyser les informations
sur les ventes d'un site web, vous pouvez taper http://masociete.com*ventes.
Ainsi, ce crawler ne va importer aucune page du site masociete.com dont
l'adresse URL comporte le mot « ventes », où qu'il soit placé.
Remarque : Des caractères génériques sont impliqués
par défaut de part et d'autre du texte saisi. Par exemple, si vous tapez
ventes,
le crawler ne va importer aucune page d'un site quelconque
accessible à partir de cette URL et comportant le mot « ventes »
dans l'URL.
Important : Si vous indiquez des exclusions et
des inclusions, les exclusions ne s'appliquent qu'aux pages incluses.
Par exemple, si vous excluez ventes
et incluez http://masociete.com,
votre crawler va importer toutes les pages de http://masociete.com à l'exception des pages dont l'URL
contient le mot « ventes », où qu'il soit placé.
Pour supprimer une exclusion, sélectionnez
celle-ci et cliquez sur .
Pour sélectionner ou désélectionner toutes les cases des exclusions, sélectionnez ou désélectionnez la case située à gauche de Exclusions.
Par défaut, ce crawler n'analyse et n'importe aucune des pages désignées dans les exclusions. Si votre crawler doit partir du lien d'une page exclue pour se rendre sur une page non exclue qui elle-même doit être importée, choisissez l'option Analyser les pages exclues, mais ne pas les importer.
Marche à suivre pour limiter l'analyse à une partie d'un site web ou à des pages particulières :
Pour spécifier l'adresse visée par l'analyse,
cliquez sur Ajouter une inclusion ; ensuite, dans la zone
de texte, tapez l'URL de la zone du site web à laquelle vous souhaitez
limiter l'analyse. Comme les sites web peuvent contenir des liens vers
d'autres sites, les inclusions sont utiles car elles peuvent servir à
maintenir le crawler sur un site particulier. Pour éviter d'analyser d'autres
sites, ajoutez l'URL de base du site que vous souhaitez analyser à la
liste des inclusions ; par exemple, http://masociete.com.
Vous pouvez utiliser le caractère générique * pour rendre cette
inclusion plus générale. Par exemple, si vous souhaitez analyser uniquement
l'information d'accès par signature unique (SSO), vous pouvez taper http://masociete.com*sso. Ainsi, ce
crawler ne va importer que les pages du site masociete.com dont l'URL
comporte le mot « sso », où qu'il soit placé.
Remarque : Des caractères génériques sont impliqués
par défaut de part et d'autre du texte saisi. Par exemple, si vous tapez
sso,
le crawler ne va importer aucune page d'un site quelconque
accessible à partir de cette URL et comportant le mot « sso »
dans l'URL.
Important : Si vous indiquez des inclusions et
des exclusions, les exclusions ne s'appliquent qu'aux pages incluses.
Par exemple, si vous incluez http://masociete.com
et excluez sso, votre crawler
va importer toutes les pages de http://masociete.com à
l'exception des pages dont l'URL contient le mot « sso »,
où qu'il soit placé.
Pour supprimer une inclusion, sélectionnez
celle-ci et cliquez sur .
Pour sélectionner ou désélectionner toutes les cases des inclusions, sélectionnez ou désélectionnez la case située à gauche de Inclusions.
Marche à suivre pour afficher la page associée à cette rubrique d'aide :