Per specificare la lingua del contenuto, cosa fare con i documenti rifiutati ed un tag crawler, eseguire quanto indicato di seguito.
Sotto Lingua del contenuto, nell'elenco a discesa, scegliere la lingua in cui è scritta la maggior parte del contenuto che si desidera importare.
Sotto Documenti rifiutati, specificare cosa fare con i documenti che non si riesce ad ordinare in una cartella.
In ogni caso, per importare questo tipo di
documenti, scegliere Importare nella
cartella Documenti non classificati.
Nota: La cartella Documenti non classificati è disponibile
per gli utenti con accesso
a documenti non classificati. Per accedere a documenti non classificati,
nel menu Directory fare clic su Modifica
directory e aprire la cartella Documenti
non classificati. Si può, inoltre, fare clic su Amministrazione
| Seleziona utility|
Accedi a Documenti non classificati.
Per evitare l'importazione di questi documenti, scegliere Non importare.
Se si sta modificando un crawler di contenuto esistente, si vedranno altre opzioni sotto Documenti rifiutati che consentono di specificare cosa fare quando questo crawler di contenuto trova un documento precedentemente rifiutato. La definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b:
se si è scelto "da questo crawler di contenuto, i documenti precedentemente rifiutati includono tutti i documenti rifiutati da questo crawler di contenuto;
se si è scelto "da quest'origine contenuto", i documenti precedentemente rifiutati includono tutti i documenti rifiutati da quest'origine contenuto.
Specificare cosa fare con i documenti precedentemente rifiutati.
Per obbligare il crawler di contenuto a cercare di importare documenti rifiutati in precedenza, selezionare Reimporta.
Per evitare l'importazione di questi documenti, scegliere Non importare.
Se è assolutamente necessario, si potrà eliminare la cronologia dei documenti precedentemente rifiutati. Di nuovo, .a definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b: se si è scelto "da quest'origine dati" nel passaggio 4b, si sta eliminando la cronologia dei rifiuti di tutti i crawler che importano documento da quest'origine contenuto; se si è ancora certi di dover eliminare la cronologia dei documenti eliminati dal portale, fare clic su Azzera cronologia rifiuti.
Nota: se un documento non viene ordinato in alcuna cartella, ma viene collocato nella cartella Documenti non classificati, non deve considerarsi rifiutato. I documenti rifiutati sono quelli che non sono stati collocati in alcuna cartella.
Se si sta modificando un crawler di contenuto esistente, si vedrà la sezione Importa documenti. Sotto Importare documenti, specificare se importare solo nuovi documenti. Per impostazione predefinita, questo crawler di contenuto tenta di importare solo documenti nuovi (quelli che non sono stati precedentemente importati da questo o altri crawler di contenuto che accedono alla stessa origine contenuto). Si possono cambiare le impostazioni del crawler di contenuto e consentirgli di importare più copie di ciascun documento, cosa utile quando si eseguono test sui crawler di contenuto.
Per importare solo nuovi documenti, selezionare Importa solo nuovi link e appariranno nuove opzioni; altrimenti, andare direttamente al passaggio 5.
Per specificare cosa significa nuovi link, eseguire quanto descritto di seguito.
Per importare solo quei documenti che non sono stati importati in precedenza dal crawler di contenuto, scegli da questo crawler di contenuto.
Per importare solo quei documenti che non sono stati importati dall'origine contenuto associata (da questo o da un altro crawler di contenuto, oppure, manualmente, da un utente), scegliere da quest'origine contenuto.
Nota: l'opzione scelta influisce su tutte le azioni dei passaggi 3 e 4f.
Per aggiornare i documenti importati in precedenza
come specificato nella pagina Impostazione
documenti, selezionare aggiornarli.
In genere, aggiornare i documenti è compito dell'Agente di aggiornamento
scheda; l'aggiornamento dei documenti rallenta il crawler di contenuto.
In ogni caso, se le impostazioni del documento sono state modificate per
questo crawler di contenuto o se sono state cambiate le mappature delle
proprietà nei tipi di documento associati, aggiornando i documenti si
aggiorneranno anche le impostazioni di documenti importati in precedenza.
Nota: se si sta analizzando un feed RSS, l'opzione aggiornali/e aggiorna le proprietà (come
ad esempio titolo e descrizione) aggiungendo i valori dei documenti di
destinazione, non il feed RSS. Se si desidera mantenere le proprietà del
feed RSS, non selezionare aggiornali/e.
Se sono state create altre cartelle o se sono
stati applicati filtri diversi alle cartelle di destinazione, selezionare
cercare di ordinarli in altre cartelle
per ordinare i documenti precedentemente importati nelle nuove cartelle
della directory di conoscenza.
Un altro crawler di contenuto potrebbe aver importato documenti
dalla stessa origine dati, però in cartelle diverse da quelle di destinazione
specificate per questo crawler di contenuto. Assicurarsi di voler davvero
riordinare i documenti nelle cartelle di destinazione specificate per
questo crawler di contenuto.
Per reimportare i documenti precedentemente eliminati (manualmente, perché scaduti o perché mancano i documenti di origine), selezionare rigenerare i link eliminati. Queste azioni potrebbero reimportare documenti un tempo ritenuti inappropriati per il portale.
In caso di assoluta necessità, si potranno eliminare le cronologie di documenti che sono stati eliminati dal portale. La "cronologia" è definita da quanto specificato come nuovi documenti nel passaggio 3b:
se si sceglie "da questo crawler di contenuto", la cronologia includerà tutti i documenti importati da questo crawle di contenuto che sono stati eliminati;
se si sceglie, invece, "da quest'origine contenuto", la cronologia includerà tutti i documenti importati da quest'origine contenuto che sono stati eliminati. Di conseguenza, si sta essenzialmente eliminando la cronologia di tutti i crawler di contenuto che importano documenti da quest'origine contenuto.
Se si è ancora certi di dover eliminare il registro di documenti eliminati dal portale, fare clic su Annulla eliminazione cronologia.
Per marcare i documenti importati con un tag crawler di contenuto, digitare il tag nella casella Marcare i documenti importati con il seguente tag crawler di contenuto. Questo tag si utilizza per differenziare i documenti importati da questo crawler di contenuto da quelli importati da un altro crawler dello stesso tipo.
Sotto Configurazione Runtime, impostare quanto indicato di seguito.
Massimo numero di thread riporta documenti - determina il numero massimo di thread concomitanti utilizzati per riportare contenuto dalla sua origine.
Massimo dei thread indicizzatori di schede - determina il numero massimo di thread concomitanti usati nell'elaborazione del contenuto una volta analizzato nel portale.
Gli intervalli consentiti per questi campi sono impostati nel file di configurazione del portale. Il valori impostati in questo punto sono inoltre limitati dal numero massimo di thread consentiti nell'automation service usato per il job associato al crawler di contenuto.
Per visualizzare la pagina associata a questo argomento della guida, eseguire le azioni indicate di seguito.