要指定內容的語言、對於被拒絕的文件要執行的操作以及內容 Crawler 標記﹕
在「內容語言」下面的下拉清單中,選擇您要匯入的大部份內容所使用的語言。
在「被拒絕的文件」下,指定對未成功歸類到資料夾中的文件執行的操作﹕
要匯入這些文件,請選擇匯入至未分類文件資料夾。
注:具有未分類文件存取權的使用者可以使用「未分類文件」資料夾。要存取未分類文件,在「目錄」功能表中,按一下編輯目錄並開啟未分類文件資料夾。您還可以按一下系統管理 | 選擇實用程式| 存取未分類文件。
要避免匯入這些文件,請選擇不匯入。
如果您正在編輯現有的內容 crawler,「被拒絕的文件」之下會顯示其他的選項,可以讓您指定在此內容 crawler 找到先前拒絕的文件時要執行的動作。「先前被拒絕」的定義視您在步驟 4b 中選擇的選項而定﹕
如果您選擇「已由此內容 Crawler 匯入」,則先前被拒絕的文件包括已由此內容 Crawler 拒絕的所有文件。
如果您選擇「由此內容來源匯入的文件」,則先前被拒絕的文件包括由此內容來源匯入而被拒絕的所有文件。
指定如何處理先前拒絕的文件:
要使此內容 Crawler 匯入先前被拒絕的文件,請選中重新匯入。
要避免匯入這些文件,請選擇不匯入。
如果確有必要,您可以刪除先前拒絕文件的歷史記錄。「先前被拒絕」的定義也依賴於您在步驟 4b 中選擇的選項。如果您在步驟 4b 中選擇了「從此內容來源」,則您將刪除從此內容來源匯入文件的所有內容 crawler 的拒絕歷史記錄。如果您仍確信必須刪除先前拒絕的文件之歷史記錄,請按一下清除拒絕歷史記錄。
注:如果文件未歸類到任何資料夾中,但已放入「未分類文件」資料夾中,則該文件不計為被拒絕的文件。被拒絕的文件是指未放入任何資料夾中的文件。
如果是編輯現有的內容 Crawler,您將看到「匯入文件」區段。在「匯入文件」下,指定是否僅匯入新文件。預設情況下,此內容 crawler 將會嘗試僅匯入新文件(即此內容 crawler 或其他存取同一內容來源的內容 crawler 先前尚未匯入的文件)。您可以讓內容 Crawler 匯入每個文件的多個複本,這對測試內容 Crawler 可能會有用。
要僅匯入新文件,請選中僅匯入新連結,此時將會顯示新選項﹔否則請跳至步驟 5。
要指定新連結的含義﹕
要僅匯入此內容 Crawler 先前尚未匯入的文件,請選擇已由此內容 Crawler 匯入。
要僅匯入未從相關內容來源匯入的文件(由此內容 crawler、其他內容 crawler 或使用者手動匯入),請選擇由此內容來源匯入的文件。
注﹕此處選擇的選項會影響步驟 3 和步驟 4f 中的操作。
要根據文件設定頁面中指定的設定重新整理先前匯入的文件,請選中重新整理它們。通常,重新整理文件是「文件重新整理代理程式」的作業﹔重新整理文件會降低內容 Crawler 的速度。但是,如果變更了此內容 crawler 的文件設定或變更了所關聯內容類型中的屬性對應,則重新整理文件將更新先前已匯入文件的這些設定。
注: 如果您正在爬行 RSS 饋送,重新整理它們選項會重新整理屬性(例如標題和描述),使用的是目標文件而非 RSS 饋送中的值。如果您想要保留 RSS 饋送中的屬性,請不要選擇重新整理它們。
如果建立了其他資料夾或者對目的地資料夾套用不同篩選器,則請選中嘗試將它們歸類至其他資料夾,以將先前匯入的文件歸類至新的知識目錄資料夾。
其他內容 Crawler 可能已從同一個內容來源匯入文件,但匯入的目的地資料夾與此內容 Crawler 所指定的不同。請確保您確實要將這些文件重新歸類至此內容 Crawler 所指定的目的地資料夾中。
要重新匯入先前已刪除(手動刪除、由於過期或遺失來源文件而刪除)的文件,請選中重新生成已刪除的連結。這可能會重新匯入曾被認為不適合入口網站的文件。
如果確有必要,您可以刪除已從入口網站中刪除的文件的歷史記錄。「歷史記錄」由您在步驟 3b 中指定為新文件的內容定義﹕
如果您選擇「從此內容 Crawler 匯入」,則歷史記錄將包括從此內容 Crawler 匯入並已刪除的所有文件。
如果您選擇「由此內容來源匯入的文件」,則歷史記錄將包括從此內容來源匯入並已刪除的所有文件。因此,您將刪除從此內容來源匯入文件的所有內容 crawler 的歷史記錄。
如果您仍確信必須刪除已從入口網站中刪除的文件的記錄,請按一下清除刪除歷史記錄。
要使用內容 Crawler 標記對已匯入的文件進行標記,請在使用下列 Crawler 標籤對匯入的文件進行標記方塊中鍵入標記。此標記用於區分由此內容 Crawler 匯入的文件及由其他內容 Crawler 匯入的文件。
在「執行時設定」下,請作如下設定﹕
最大文件提取引線 - 確定用於同時從內容來源中提取內容的最大引線數。
最大資料卡索引編排引線 - 確定在將內容搜尋到入口網站之後,用於同時處理內容的最大引線數。
這些欄位所允許的範圍可在入口網站設定檔案中設定。此處的設定值還會受到與此內容 crawler 有關的作業中使用的 Automation Service 中的最大允許引線的限制。
要顯示與此說明主題相關的頁面: