要設定此 Crawler 以避免將不需要的網頁匯入至入口網站﹕
預設情況下,此 Crawler 遵循 Web 伺服器關於哪些頁面可能對自動 Crawler 具有價值的建議。如果要略過這些建議,請清除遵循目標網站的自動排除協定核取方塊。
一般情況下,這些建議有助於限制將不需要的內容匯入到入口網站中。但是,一些網站會提出非常嚴格的建議。如果 Crawler 未從網站匯入任何內容,請嘗試關閉此選項。
根據預設,crawler 會將匯入網頁的 URL 按來源網站的大小寫保存。要將 URL 變更為小寫,請選擇將所有 URL 轉換為小寫。
要避免從某網站區域匯入內容或避免匯入特定頁面﹕
要指定避免的區域,請按一下 新增排除﹔然後,在文字方塊中鍵入要避免的網站區域的 URL。
您可以使用萬用字元 (*) 進行更具一般性的排除。例如,要避免爬過網站中的銷售資訊,您可以鍵入 http://mycompany.com*sales。於是,此 Crawler 將不會從 mycompany.com 匯入 URL 中任何位置包含 "sales" 的任何頁面。
注﹕您的文字兩邊均適用萬用字元。例如,如果鍵入 sales,Crawler 將不會從目標 URL 可存取的任何網站匯入 URL 中任何位置包含 "sales" 的任何頁面。
切記﹕如果同時列出排除和包含,則排除僅套用於包含的頁面。例如,如果排除 sales 而包含 http://mycompany.com,則 Crawler 將匯入 http://mycompany.com 中除 URL 中任何位置包含 "sales" 的那些頁面以外的所有頁面。
要移除排除,請選取排除並按一下 。
要選中或清除所有排除核取方塊,請選中或清除排除左邊的方塊。
預設情況下,此 Crawler 不爬過或匯入排除中指定的任何頁面。如果 Crawler 要透過已排除頁面上的連結進入不被排除且應匯入的頁面,請選擇爬過排除的頁面但不匯入。
要將爬行限制為網站的區域或特定頁面以內﹕
要指定此 Crawler 可爬行的位置,請按一下 新增包含﹔然後在文字方塊中鍵入要將爬行限制到的網站區域的 URL。由於網站可以包含其他網站的連結,因此您可能需要使用包含來將 Crawler 保持在特定網站上。要避免爬過其他網站,請向包含清單中新增要爬過網站的基本 URL﹔例如,http://mycompany.com。
您可以使用萬用字元 (*) 進行更具一般性的包含。例如,如果僅要爬過單點登入 (SSO) 中的資訊,您可以鍵入 http://mycompany.com*sso。於是,此 Crawler 將僅從 mycompany.com 匯入 URL 中任何位置包含 "sso" 的頁面。
注﹕您的文字兩邊均適用萬用字元。例如,如果鍵入 sso, Crawler 將從目標 URL 可存取的任何網站匯入 URL 中任何位置包含 "sso" 的任何頁面。
切記﹕如果同時列出包含和排除,則排除僅套用於包含的頁面。例如,如果包含 http://mycompany.com 而排除 sso,則 Crawler 將匯入 http://mycompany.com 中除 URL 中任何位置包含 "sso" 的那些頁面以外的所有頁面。
要移除包含,請選中包含並按一下 。
要選中或清除所有包含核取方塊,請選中或清除包含左邊的方塊。
要顯示與此說明主題相關的頁面﹕