Impostazioni avanzate (Crawler di contenuto

Per specificare la lingua del contenuto, cosa fare con i documenti rifiutati ed un tag crawler, eseguire quanto indicato di seguito.

Sotto Lingua del contenuto, nell'elenco a discesa, scegliere la lingua in cui è scritta la maggior parte del contenuto che si desidera importare.
Sotto Documenti rifiutati, specificare cosa fare con i documenti che non si riesce ad ordinare in una cartella.

In ogni caso, per importare questo tipo di documenti, scegliere Importare nella cartella Documenti non classificati.

Nota: La cartella Documenti non classificati è disponibile per gli utenti con accesso a documenti non classificati. Per accedere a documenti non classificati, nel menu Directory fare clic su Modifica directory e aprire la cartella Documenti non classificati. Si può, inoltre, fare clic su Amministrazione | Seleziona utility| Accedi a Documenti non classificati.
Per evitare l'importazione di questi documenti, scegliere Non importare.

Se si sta modificando un crawler di contenuto esistente, si vedranno altre opzioni sotto Documenti rifiutati che consentono di specificare cosa fare quando questo crawler di contenuto trova un documento precedentemente rifiutato. La definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b:

se si è scelto "da questo crawler di contenuto, i documenti precedentemente rifiutati includono tutti i documenti rifiutati da questo crawler di contenuto;
se si è scelto "da quest'origine contenuto", i documenti precedentemente rifiutati includono tutti i documenti rifiutati da quest'origine contenuto.

Specificare cosa fare con i documenti precedentemente rifiutati.

Per obbligare il crawler di contenuto a cercare di importare documenti rifiutati in precedenza, selezionare Reimporta.
Per evitare l'importazione di questi documenti, scegliere Non importare.

Se è assolutamente necessario, si potrà eliminare la cronologia dei documenti precedentemente rifiutati. Di nuovo, .a definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b: se si è scelto "da quest'origine dati" nel passaggio 4b, si sta eliminando la cronologia dei rifiuti di tutti i crawler che importano documento da quest'origine contenuto; se si è ancora certi di dover eliminare la cronologia dei documenti eliminati dal portale, fare clic su Azzera cronologia rifiuti.

Nota: se un documento non viene ordinato in alcuna cartella, ma viene collocato nella cartella Documenti non classificati, non deve considerarsi rifiutato. I documenti rifiutati sono quelli che non sono stati collocati in alcuna cartella.

Se si sta modificando un crawler di contenuto esistente, si vedrà la sezione Importa documenti. Sotto Importare documenti, specificare se importare solo nuovi documenti. Per impostazione predefinita, questo crawler di contenuto tenta di importare solo documenti nuovi (quelli che non sono stati precedentemente importati da questo o altri crawler di contenuto che accedono alla stessa origine contenuto). Si possono cambiare le impostazioni del crawler di contenuto e consentirgli di importare più copie di ciascun documento, cosa utile quando si eseguono test sui crawler di contenuto.

Per importare solo nuovi documenti, selezionare Importa solo nuovi link e appariranno nuove opzioni; altrimenti, andare direttamente al passaggio 5.
Per specificare cosa significa nuovi link, eseguire quanto descritto di seguito.

Per importare solo quei documenti che non sono stati importati in precedenza dal crawler di contenuto, scegli da questo crawler di contenuto.
Per importare solo quei documenti che non sono stati importati dall'origine contenuto associata (da questo o da un altro crawler di contenuto, oppure, manualmente, da un utente), scegliere da quest'origine contenuto.

Nota: l'opzione scelta influisce su tutte le azioni dei passaggi 3 e 4f.

Per aggiornare i documenti importati in precedenza come specificato nella pagina Impostazione documenti, selezionare aggiornarli. In genere, aggiornare i documenti è compito dell'Agente di aggiornamento scheda; l'aggiornamento dei documenti rallenta il crawler di contenuto. In ogni caso, se le impostazioni del documento sono state modificate per questo crawler di contenuto o se sono state cambiate le mappature delle proprietà nei tipi di documento associati, aggiornando i documenti si aggiorneranno anche le impostazioni di documenti importati in precedenza.

Nota: se si sta analizzando un feed RSS, l'opzione aggiornali/e aggiorna le proprietà (come ad esempio titolo e descrizione) aggiungendo i valori dei documenti di destinazione, non il feed RSS. Se si desidera mantenere le proprietà del feed RSS, non selezionare aggiornali/e.
Se sono state create altre cartelle o se sono stati applicati filtri diversi alle cartelle di destinazione, selezionare cercare di ordinarli in altre cartelle per ordinare i documenti precedentemente importati nelle nuove cartelle della directory di conoscenza.

Un altro crawler di contenuto potrebbe aver importato documenti dalla stessa origine dati, però in cartelle diverse da quelle di destinazione specificate per questo crawler di contenuto. Assicurarsi di voler davvero riordinare i documenti nelle cartelle di destinazione specificate per questo crawler di contenuto.
Per reimportare i documenti precedentemente eliminati (manualmente, perché scaduti o perché mancano i documenti di origine), selezionare rigenerare i link eliminati. Queste azioni potrebbero reimportare documenti un tempo ritenuti inappropriati per il portale.
In caso di assoluta necessità, si potranno eliminare le cronologie di documenti che sono stati eliminati dal portale. La "cronologia" è definita da quanto specificato come nuovi documenti nel passaggio 3b:

se si sceglie "da questo crawler di contenuto", la cronologia includerà tutti i documenti importati da questo crawle di contenuto che sono stati eliminati;
se si sceglie, invece, "da quest'origine contenuto", la cronologia includerà tutti i documenti importati da quest'origine contenuto che sono stati eliminati. Di conseguenza, si sta essenzialmente eliminando la cronologia di tutti i crawler di contenuto che importano documenti da quest'origine contenuto.

Se si è ancora certi di dover eliminare il registro di documenti eliminati dal portale, fare clic su Annulla eliminazione cronologia.

Per marcare i documenti importati con un tag crawler di contenuto, digitare il tag nella casella Marcare i documenti importati con il seguente tag crawler di contenuto. Questo tag si utilizza per differenziare i documenti importati da questo crawler di contenuto da quelli importati da un altro crawler dello stesso tipo.
Sotto Configurazione Runtime, impostare quanto indicato di seguito.

Massimo numero di thread riporta documenti - determina il numero massimo di thread concomitanti utilizzati per riportare contenuto dalla sua origine.
Massimo dei thread indicizzatori di schede - determina il numero massimo di thread concomitanti usati nell'elaborazione del contenuto una volta analizzato nel portale.

Gli intervalli consentiti per questi campi sono impostati nel file di configurazione del portale. Il valori impostati in questo punto sono inoltre limitati dal numero massimo di thread consentiti nell'automation service usato per il job associato al crawler di contenuto.

Per visualizzare la pagina associata a questo argomento della guida, eseguire le azioni indicate di seguito.

Fare clic su Amministrazione.
Aprire l'Editor Crawler di contenuto.

Per creare un nuovo crawler di contenuto, eseguire quanto descritto di seguito.

Aprire una cartella amministrativa.
Nell'elenco a discesa Crea oggetto, fare clic sul tipo di crawler di contenuto che si desidera creare.

Per modificare un crawler di contenuto esistente, eseguire i passaggi indicati di seguito.

Navigare fino a trovare il crawler di contenuto da modificare.
Fare clic sul nome del crawler di contenuto.

A sinistra, sotto Modifica impostazioni oggetto, fare clic suImpostazioni avanzate.