采集器
SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集規(guī)則,智能采集只需您添加需要采集的網(wǎng)址地址即可,程序會(huì)自動(dòng)為您采集網(wǎng)站的信息。接下來(lái)分別為您介紹兩種采集方式:
一、手工采集:
手工采集即自己配置采集規(guī)則。打開(kāi) SupeSite 的“系統(tǒng)設(shè)置”,點(diǎn)擊“資訊管理”的“采集器”,然后點(diǎn)擊“添加新機(jī)器人”。
首先簡(jiǎn)單講解制作采集器的基本原理和思路:
1、確定您要采集哪個(gè)頁(yè)面的新聞,將這些頁(yè)面的地址填入到“列表頁(yè)面采集設(shè)置”的地址框;
2、確定在這些頁(yè)面您要采集的內(nèi)容區(qū)域,因?yàn)椴皇且粋€(gè)網(wǎng)頁(yè)所有的內(nèi)容都要采集回來(lái),而是采集一個(gè)網(wǎng)頁(yè)的一部分內(nèi)容,所以您必須告訴程序您要采集的區(qū)域,也就是“列表區(qū)域識(shí)別規(guī)則”;
3、第2步確定區(qū)域之后,還要告訴程序您要采集的文章鏈接,也就是“文章鏈接url識(shí)別規(guī)則”。
4、現(xiàn)在已經(jīng)確定了大的采集框架,接下來(lái)要告訴程序在一個(gè)文章頁(yè)面,文章的標(biāo)題(“文章標(biāo)題識(shí)別規(guī)則”),文章的來(lái)源和作者分別是什么。然后就是一篇文章內(nèi)容的范圍,也就是說(shuō)一個(gè)文章頁(yè)面內(nèi),真正您需要采集的范圍,就是“文章內(nèi)容識(shí)別規(guī)則”。最后設(shè)置分頁(yè)的區(qū)域和分頁(yè)的鏈接地址。
5、以上4個(gè)步驟已經(jīng)確定了采集的范圍,如果您需要過(guò)濾標(biāo)題和內(nèi)容,請(qǐng)根據(jù)您的要求設(shè)置每一項(xiàng)的過(guò)濾設(shè)置,如“文章標(biāo)題過(guò)濾規(guī)則”和“文章內(nèi)容過(guò)濾規(guī)則”等。
以上幾個(gè)步驟確定范圍都是通過(guò)查看頁(yè)面源碼,進(jìn)行設(shè)置的,截取的方法需要一些經(jīng)驗(yàn),練習(xí)2--3次就可以領(lǐng)悟到了。
接下來(lái)介紹采集器的基本原理和步驟:
第1:打開(kāi) SupeSite 的“系統(tǒng)設(shè)置”,點(diǎn)擊“資訊管理”的“采集器”,然后點(diǎn)擊“添加新機(jī)器人”。
這里需要特別指出的是:?jiǎn)未尾杉瘋€(gè)數(shù)和自動(dòng)導(dǎo)入。單次采集個(gè)數(shù)盡量設(shè)置較小的數(shù)字,以免超時(shí)。自動(dòng)導(dǎo)入,請(qǐng)選擇資訊分類,可以直接將采集的結(jié)果導(dǎo)入到資訊庫(kù)中。如下圖:
第2:填寫(xiě)“列表頁(yè)面采集”和“采集頁(yè)面編碼”。請(qǐng)?zhí)顚?xiě)要采集的頁(yè)面地址(列表頁(yè)面地址)。這里分為手工輸入和自動(dòng)輸入:手動(dòng)輸入需要您自己將所需采集的地址逐行輸入。自動(dòng)增長(zhǎng)只需填入采集頁(yè)面的地址和頁(yè)面頁(yè)碼,用[page]代替分頁(yè)變量。如下圖:
點(diǎn)擊上圖中的,嘗試鏈接,可以看到如下圖的頁(yè)面,這樣可以判斷您的服務(wù)器是否可以鏈接到要采集的網(wǎng)站,即檢測(cè)服務(wù)器是否允許采集,如果這里顯示無(wú)法鏈接,則不能采集該網(wǎng)頁(yè)。
設(shè)置“采集頁(yè)面編碼”,是您采集網(wǎng)頁(yè)的編碼,并不是您站點(diǎn)的編碼。這里切記?。∪缦聢D:
第3:設(shè)置“列表區(qū)域”和“文章鏈接”的識(shí)別規(guī)則。如下圖,填入列表區(qū)域的規(guī)則和文章鏈接的規(guī)則,采集內(nèi)容的范圍用[list]代替,采集文章的標(biāo)題用[url]代替。文章鏈接URL的剔除和過(guò)濾規(guī)則,請(qǐng)您參考圖片里的詳細(xì)說(shuō)明,這里不再贅述。
第4:設(shè)置“文章標(biāo)題”識(shí)別規(guī)則,如下圖,文章標(biāo)題用[subject]代替。文章標(biāo)題的過(guò)濾規(guī)則,剔除規(guī)則,替換規(guī)則,包含關(guān)鍵字,請(qǐng)您參考圖片里的詳細(xì)說(shuō)明,這里不再贅述。
第5:設(shè)置“文章內(nèi)容”的識(shí)別規(guī)則,如下四圖,都屬于文章內(nèi)容識(shí)別規(guī)則。文章內(nèi)容用[message]代替,分頁(yè)區(qū)域用[pagearea]代替,分頁(yè)鏈接用[page]代替,信息來(lái)源用[from]代替,文章作者用[author]代替。同上,一些過(guò)濾,剔除等規(guī)則,請(qǐng)您參考圖片里的詳細(xì)說(shuō)明,這里不再贅述。
這里說(shuō)明幾點(diǎn):
文章內(nèi)容格式化:此操作將去除網(wǎng)頁(yè)多余代,并將文章內(nèi)容按原有段落分段。格式化的過(guò)程為程序自動(dòng)分析,會(huì)存在一些誤差。
保存內(nèi)容中的圖片到本地和保存內(nèi)容中的FLASH到本地,這里選擇是否將采集到的圖片和Flash存放到本地。如需將對(duì)方網(wǎng)站的圖片存放到自己的服務(wù)器上,請(qǐng)選擇“是”!
至此已經(jīng)設(shè)置完一個(gè)采集規(guī)則,然后點(diǎn)擊“開(kāi)始采集”,采集完畢之后點(diǎn)擊“查看結(jié)果”。最后將采集的內(nèi)容導(dǎo)入資訊。這里說(shuō)明一點(diǎn):采集的內(nèi)容只能夠?qū)胭Y訊這個(gè)頻道。
這里重點(diǎn)說(shuō)明,導(dǎo)入后刪除和不刪除,如果選擇刪除,則采集來(lái)的信息在導(dǎo)入資訊之后,將無(wú)法再次被使用。
二、智能采集:
智能采集為您提供非常簡(jiǎn)單,易用的采集方式。只要將您需要采集的站點(diǎn)地址添加到地址框,然后點(diǎn)擊開(kāi)始采集即可。
智能采集集成于手工采集中,您只需將采集的地址填入地址框,然后點(diǎn)擊提交即可。
如需詳細(xì)了解請(qǐng)?jiān)L問(wèn)我們的網(wǎng)站: http://www.bjbarcode.com 或聯(lián)系我們:010-51296829