網頁排除

要設定此 Crawler 以避免將不需要的網頁匯入至入口網站﹕

  1. 預設情況下,此 Crawler 遵循 Web 伺服器關於哪些頁面可能對自動 Crawler 具有價值的建議。如果要略過這些建議,請清除遵循目標網站的自動排除協定核取方塊。

    一般情況下,這些建議有助於限制將不需要的內容匯入到入口網站中。但是,一些網站會提出非常嚴格的建議。如果 Crawler 未從網站匯入任何內容,請嘗試關閉此選項。

  2. 根據預設,crawler 會將匯入網頁的 URL 按來源網站的大小寫保存。要將 URL 變更為小寫,請選擇將所有 URL 轉換為小寫

  3. 要避免從某網站區域匯入內容或避免匯入特定頁面﹕

  4. 預設情況下,此 Crawler 不爬過或匯入排除中指定的任何頁面。如果 Crawler 要透過已排除頁面上的連結進入不被排除且匯入的頁面,請選擇爬過排除的頁面但不匯入

  5. 要將爬行限制為網站的區域或特定頁面以內﹕


  1. 按一下系統管理
  2. 開啟 Web Crawler 編輯器﹕
  3. 在左邊的「編輯物件設定」下面,按一下 網頁排除