Impostazioni avanzate (Crawler di contenuto

Per specificare la lingua del contenuto, cosa fare con i documenti rifiutati ed un tag crawler, eseguire quanto indicato di seguito.

  1. Sotto Lingua del contenuto, nell'elenco a discesa, scegliere la lingua in cui è scritta la maggior parte del contenuto che si desidera importare.

  2. Sotto Documenti rifiutati, specificare cosa fare con i documenti che non si riesce ad ordinare in una cartella.

  3. Se si sta modificando un crawler di contenuto esistente, si vedranno altre opzioni sotto Documenti rifiutati che consentono di specificare cosa fare quando questo crawler di contenuto trova un documento precedentemente rifiutato. La definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b:

  4. Specificare cosa fare con i documenti precedentemente rifiutati.

    Se è assolutamente necessario, si potrà eliminare la cronologia dei documenti precedentemente rifiutati. Di nuovo, .a definizione di "rifiutato in precedenza" dipende dall'opzione scelta nel passaggio 4b: se si è scelto "da quest'origine dati" nel passaggio 4b, si sta eliminando la cronologia dei rifiuti di tutti i crawler che importano documento da quest'origine contenuto; se si è ancora certi di dover eliminare la cronologia dei documenti eliminati dal portale, fare clic su Azzera cronologia rifiuti.

    Nota: se un documento non viene ordinato in alcuna cartella, ma viene collocato nella cartella Documenti non classificati, non deve considerarsi rifiutato. I documenti rifiutati sono quelli che non sono stati collocati in alcuna cartella.

  5. Se si sta modificando un crawler di contenuto esistente, si vedrà la sezione Importa documenti. Sotto Importare documenti, specificare se importare solo nuovi documenti. Per impostazione predefinita, questo crawler di contenuto tenta di importare solo documenti nuovi (quelli che non sono stati precedentemente importati da questo o altri crawler di contenuto che accedono alla stessa origine contenuto). Si possono cambiare le impostazioni del crawler di contenuto e consentirgli di importare più copie di ciascun documento, cosa utile quando si eseguono test sui crawler di contenuto.

    1. Per importare solo nuovi documenti, selezionare Importa solo nuovi link e appariranno nuove opzioni; altrimenti, andare direttamente al passaggio 5.

    2. Per specificare cosa significa nuovi link, eseguire quanto descritto di seguito.

    3. Nota: l'opzione scelta influisce su tutte le azioni dei passaggi 3 e 4f.

    4. Per aggiornare i documenti importati in precedenza come specificato nella pagina Impostazione documenti, selezionare aggiornarli. In genere, aggiornare i documenti è compito dell'Agente di aggiornamento scheda; l'aggiornamento dei documenti rallenta il crawler di contenuto. In ogni caso, se le impostazioni del documento sono state modificate per questo crawler di contenuto o se sono state cambiate le mappature delle proprietà nei tipi di documento associati, aggiornando i documenti si aggiorneranno anche le impostazioni di documenti importati in precedenza.

      Nota:
      se si sta analizzando un feed RSS, l'opzione aggiornali/e aggiorna le proprietà (come ad esempio titolo e descrizione) aggiungendo i valori dei documenti di destinazione, non il feed RSS. Se si desidera mantenere le proprietà del feed RSS, non selezionare aggiornali/e.

    5. Se sono state create altre cartelle o se sono stati applicati filtri diversi alle cartelle di destinazione, selezionare cercare di ordinarli in altre cartelle per ordinare i documenti precedentemente importati nelle nuove cartelle della directory di conoscenza.

      Un altro crawler di contenuto potrebbe aver importato documenti dalla stessa origine dati, però in cartelle diverse da quelle di destinazione specificate per questo crawler di contenuto. Assicurarsi di voler davvero riordinare i documenti nelle cartelle di destinazione specificate per questo crawler di contenuto.

    6. Per reimportare i documenti precedentemente eliminati (manualmente, perché scaduti o perché mancano i documenti di origine), selezionare rigenerare i link eliminati. Queste azioni potrebbero reimportare documenti un tempo ritenuti inappropriati per il portale.

    7. In caso di assoluta necessità, si potranno eliminare le cronologie di documenti che sono stati eliminati dal portale. La "cronologia" è definita da quanto specificato come nuovi documenti nel passaggio 3b:

    8. Se si è ancora certi di dover eliminare il registro di documenti eliminati dal portale, fare clic su Annulla eliminazione cronologia.

  6. Per marcare i documenti importati con un tag crawler di contenuto, digitare il tag nella casella Marcare i documenti importati con il seguente tag crawler di contenuto. Questo tag si utilizza per differenziare i documenti importati da questo crawler di contenuto da quelli importati da un altro crawler dello stesso tipo.

  7. Sotto Configurazione Runtime, impostare quanto indicato di seguito.

  8. Gli intervalli consentiti per questi campi sono impostati nel file di configurazione del portale. Il valori impostati in questo punto sono inoltre limitati dal numero massimo di thread consentiti nell'automation service usato per il job associato al crawler di contenuto.


  1. Fare clic su Amministrazione.
  2. Aprire l'Editor Crawler di contenuto.
  3. A sinistra, sotto Modifica impostazioni oggetto, fare clic suImpostazioni avanzate.