À propos des crawlers de contenu

Vous créez un crawler de contenu pour importer du contenu provenant de référentiels externes dans le portail. Vous devez exécuter une tâche associée au crawler de contenu pour faire des recherches périodiques de contenu dans le référentiel externe et pouvoir importer ce contenu. Pour en savoir davantage sur les tâches, consultez la rubrique À propos des tâches.

Remarque : les crawlers de contenu dépendent des sources de contenu. Pour en savoir davantage sur les sources de contenu, consultez la rubrique À propos des sources de contenu.

Cette rubrique traite des sujets suivants :

Crawlers de contenu web
Crawlers de contenu distants
Services web de contenu
Importation des paramètres de sécurité des documents
Diagnostic des résultats d’une analyse

Pour savoir comment créer ou modifier des objets administratifs (y compris les crawlers de contenu), cliquez ici.

Crawlers de contenu web

Un crawler de contenu web permet aux utilisateurs d’importer dans le portail du contenu venant du web.

Pour en savoir davantage sur l’éditeur de crawler de contenu web, cliquez sur une des pages de l’éditeur ci-dessous :

Choisir une source de contenu
Paramètres principaux
Exclusions de pages web
Paramètres de ciblage
Paramètres de document
Type de contenu
Paramètres avancés
Définir la tâche
Propriétés et noms
Sécurité (uniquement disponible en mode de modification d’objet)
Historique et état des migrations (uniquement disponible en mode de modification d’objet)

Crawlers de contenu distants

Un crawler de contenu distant permet aux utilisateurs d’importer dans le portail du contenu venant d’un référentiel externe.

Alors que certains fournisseurs d’analyse sont installés avec le portail et à la disposition des utilisateurs du portail, d’autres doivent être installés et configurés manuellement. Par exemple, Oracle propose les fournisseurs d’analyse suivants :

Fichier Windows NT (inclus avec le logiciel du portail)
Documentum
Microsoft Exchange
Lotus Notes

Remarque : pour savoir comment vous procurer des fournisseurs d’analyse, rendez-vous sur le réseau Oracle Technology Network à l’adresse http://www.oracle.com/technology/index.html. Pour plus de renseignements sur l’installation des fournisseurs d’analyse, consultez le document Installation Guide for WebCenter Interaction (Guide d’installation de WebCenter Interaction) (disponible sur http://www.oracle.com/technology/documentation/bea.html) ou la documentation qui accompagne votre fournisseur d’analyse, ou contactez l’administrateur de votre portail.

Pour créer un crawler de contenu distant :

Installez le fournisseur d’analyse sur l’ordinateur du portail ou sur un autre ordinateur.
Créez un serveur distant.
Créez un service web de contenu (décrit plus loin).
Créez une source de contenu distante.
Créez un crawler de contenu distant.

Pour en savoir davantage sur l’éditeur de crawler de contenu distant, cliquez sur une des pages de l’éditeur ci-dessous :

Choisir une source de contenu
Paramètres principaux
Paramètres de document
Type de contenu
Paramètres avancés
Définir la tâche
Propriétés et noms
Sécurité (uniquement disponible en mode de modification d’objet)
Historique et état des migrations (uniquement disponible en mode de modification d’objet)

Les fournisseurs d’analyse ci-dessous, quand ils sont installés, comprennent au moins une page supplémentaire vers l’éditeur de crawler de contenu distant :

Fichier Windows NT (inclus avec le logiciel du portail)
Documentum
Microsoft Exchange
Lotus Notes

Services web de contenu

Les services web de contenu permettent de spécifier les paramètres généraux du référentiel de contenu distant alors que les paramètres de destination et de sécurité sont établis dans la source de contenu distante et le crawler de contenu distant associés. Ceci vous permet d’analyser plusieurs emplacements d’un même référentiel de contenu sans avoir à spécifier plusieurs fois les mêmes paramètres.

Remarque : vos sources de contenu distantes reposent sur les services web de contenu que vous créez. Pour en savoir davantage sur les sources de contenu, consultez la rubrique À propos des sources de contenu.

Pour en savoir davantage sur l’éditeur du service web de contenu, cliquez sur une des pages de l’éditeur ci-dessous :

Paramètres principaux
Configuration HTTP
Préférences
Paramètres d’URL avancés
Paramètres avancés
Paramètres d’authentification
Préférences
Informations d’utilisateur
Paramètres de débogage
Objets associés (uniquement disponible en mode de modification d’objet)
Propriétés et noms
Sécurité (uniquement disponible en mode de modification d’objet)
Historique et état des migrations (uniquement disponible en mode de modification d’objet)

Importation des paramètres de sécurité des documents

Les utilisateurs peuvent obtenir un accès automatique au contenu importé par certains crawlers de contenu distants. Le tableau de synchronisation ACL général indique à ces crawlers de contenu les modalités d’importation des paramètres de sécurité des documents source.

Pour voir un exemple d’importation des paramètres de sécurité, consultez la rubrique Exemple d’importation des paramètres de sécurité.

Diagnostic des résultats d’une analyse

Si votre crawler de contenu n’importe pas le contenu attendu, plusieurs choses sont à vérifier :

Vérifiez que les filtres des dossiers exécutent un filtrage correct du contenu. Pour savoir comment tester vos filtres, consultez la section Test des filtres de la page Paramètres principaux (filtre).
Vérifiez que le crawler de contenu n’a pas placé de contenu indésirable dans le dossier destinataire. Si, par suite du filtrage, un document n’est ventilé dans aucun sous-dossier, il est possible que le crawler de contenu place ce document dans le dossier destinataire. Ce paramétrage est défini sur la page Paramètres principaux de l’éditeur de dossier.
Vérifiez que le crawler de contenu n’a pas placé de contenu dans le dossier des documents non classés. Si un document ne peut être placé dans aucun dossier ou sous-dossier destinataire, il est possible que le crawler de contenu place ce document dans le dossier des documents non classés. Ce paramétrage est défini sur la page Paramètres avancés de l’éditeur de crawler de contenu. Si vous disposez des autorisations nécessaires, vous pouvez afficher le dossier Documents non classés quand vous modifiez le répertoire ou quand vous cliquez sur Administration | Sélectionner un utilitaire | Accès aux documents non classés.
Vous devez au moins disposer de droits de modification sur le dossier destinataire.
En ce qui concerne les crawlers de contenu web, vérifiez que les protocoles d’exclusion de robot ou que certaines instructions d’exclusion ou d’inclusion n’empêchent pas le crawler d’importer le contenu escompté. Ce paramétrage est défini sur la page Exclusions de pages web de l’éditeur de crawler de contenu.
Vérifiez que les informations d’authentification spécifiées dans la source de contenu associée permettent au portail d’accéder au contenu.
Pour plus de détails, consultez l’historique des tâches.