Per configurare questo crawler in modo da evitare l'importazione di pagine Web indesiderate nel portale, eseguire i passaggi descritti di seguito.
Per impostazione predefinita, questo crawler segue
le raccomandazioni del server Web sulle pagine che potrebbero essere utili
ai crawler automatizzati. Se si desidera ignorare queste raccomandazioni,
deselezionare la casella Seguire i protocolli
di esclusione del robot del sito di destinazione.
In generale, queste raccomandazioni aiutano a limitare l'analisi di
contenuto non desiderato nel portale. In ogni caso, alcuni siti offrono
raccomandazioni di tipo molto rigido. Se il crawler non importa alcun
contenuto da un sito, provare a disattivare questa opzione.
Per impostazione predefinita, questo crawler salva gli URL nelle pagine Web importate con le lettere maiuscole usate sul sito Web di origine. Per cambiare le lettere degli URL da maiuscole a minuscole, selezionare Cambiare le lettere di tutti gli URL da maiuscole a minuscole.
Per evitare di importare contenuto da un'area specifica di un sito Web oppure evitare l'importazione di pagine particolari, eseguire quanto descritto di seguito.
Per specificare un'area da evitare, fare clic
su Aggiungi
esclusioni; quindi, nella casella di testo, digitare l'URL che
porta all'area del sito Web che si desidera evitare.
È possibile usare caratteri jolly (*) per rendere più generica
questa esclusione. Ad esempio, per evitare di analizzare informazioni
di vendita da un sito, si può digitare http://mycompany.com*sales.
Come risultato, questo crawler non importerà alcuna pagina dal sito mycompany.com
che presenti la parola "sales" (vendite) nel suo URL.
Nota: i caratteri jolly sono assunti da entrambi i lati
del testo. Per esempio, se si digita la parola sales
(vendite), il crawler
non importerà alcuna pagina da qualsiasi
sito accessibile dall'URL di destinazione che presenti la parola "sales"
in qualsiasi punto.
Importante: se si elencano esclusioni ed
inclusioni, le esclusioni si applicheranno solo alle pagine incluse.
Ad esempio, se si esclude la parola sales
(vendite) e si include http://mycompany.com,
il crawler importerà tutte le pagine del sito http://mycompany.com tranne le pagine che includono la parola
"sales" in qualsiasi punto dell'URL.
Per rimuovere un'esclusione, selezionarla
e fare clic su .
Per selezionare o deselezionare tutte le caselle relative alle esclusioni, selezionare o deselezionare la casella a sinistra di Esclusioni.
Per impostazione predefinita, questo crawler non analizza o importa pagine specificate nelle esclusioni. Se il crawler navigherà da un link su una pagina esclusa ad una pagina che non è esclusa e che dovrebbe essere importata, scegliere Analizzare le pagine escluse, ma non importarle.
Per limitare l'analisi ad un'area di un sito Web o a pagine particolari, eseguire quanto descritto di seguito.
Per specificare i punti di analisi del crawler,
fare clic su Aggiungi inclusioni; quindi, nella casella di testo,
digitare l'URL che porta all'area del sito Web a cui si desidera limitare
l'analisi. Poichè i siti Web possono contenere link ad altri siti, si
consiglia di utilizzare le inclusioni per mantenere il crawler in un sito
particolare. Per evitare l'analisi di altri siti, aggiungere l'URL di
base del sito che si intende analizzare all'elenco inclusioni; ad esempio,
http://mycompany.com.
È possibile usare caratteri jolly (*) per rendere più generica
questa inclusione. Ad esempio, se si desiderano analizzare solo le informazioni
sul Single Sign-on (SSO), si digiterà http://mycompany.com*sso.
Come risultato, questo crawler importerà solo le pagine dal sito mycompany.com
con la parola "sso" in qualsiasi punto dell'URL.
Nota: i caratteri jolly sono assunti da entrambi i lati
del testo. Per esempio, se si digita la parola sso, il crawler importerà ogni pagina da
qualsiasi sito accessibile dall'URL
di destinazione che presenti la parola "sso" in qualsiasi punto
dell'URL.
Importante: se si elencano inclusioni ed
esclusioni, le esclusioni si applicheranno solo alle pagine incluse.
Ad esempio, se si esclude la parola sso
e si include http://mycompany.com,
il crawler importerà tutte le pagine del sito http://mycompany.com tranne le pagine con la parola "sso"
inclusa in qualsiasi punto dell'URL.
Per rimuovere un'inclusione, selezionarla
e fare clic su .
Per selezionare o deselezionare tutte le caselle relative alle inclusioni, selezionare o deselezionare la casella a sinistra di Inclusioni.
Per visualizzare la pagina associata a questo argomento della guida, eseguire quanto indicato di seguito.