本發(fā)明涉及信息更新,尤其是涉及一種企業(yè)信息的采集方法和采集系統(tǒng)。
背景技術(shù):
1、現(xiàn)在想要獲取企業(yè)的聯(lián)系方式等企業(yè)信息,一般途徑是直接訪問企業(yè)官網(wǎng),從企業(yè)官網(wǎng)首頁提取企業(yè)的企業(yè)信息。但由于不同官網(wǎng)的構(gòu)成結(jié)構(gòu)不一樣,企業(yè)信息不一定直接展示在首頁,直接從企業(yè)官網(wǎng)首頁提取企業(yè)的聯(lián)系方式信息,只能得到表面的數(shù)據(jù),不能精確定位到所需企業(yè)信息的位置,容易丟失數(shù)據(jù)。同時(shí)每一個(gè)企業(yè)官網(wǎng)的更新時(shí)間是不一樣的,如果針對(duì)所有企業(yè)官網(wǎng)均采用相同的信息提取周期,則會(huì)造成大量資源的浪費(fèi),而針對(duì)那些網(wǎng)頁信息更新頻率高的企業(yè),則不能及時(shí)提取到其企業(yè)信息。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種企業(yè)信息的采集方法和采集系統(tǒng),從而全面且及時(shí)的提取不同更新頻率的企業(yè)的企業(yè)信息,進(jìn)而避免資源浪費(fèi)。
2、第一方面,本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集方法,包括:根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息;將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。
3、進(jìn)一步的,信息采集頻率的預(yù)設(shè)權(quán)重值通過下述步驟確定得到:獲取預(yù)設(shè)第二數(shù)據(jù)庫中的企業(yè)官網(wǎng)鏈接;提取企業(yè)官網(wǎng)鏈接中的目標(biāo)域名信息,并將目標(biāo)域名信息與第一數(shù)據(jù)庫中的域名信息進(jìn)行對(duì)比;如果目標(biāo)域名信息與域名信息不同,將目標(biāo)域名信息保存至第一數(shù)據(jù)庫,確定目標(biāo)域名信息對(duì)應(yīng)的企業(yè)官網(wǎng)鏈接為待訪問鏈接,并確定待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值為初始權(quán)重值。
4、進(jìn)一步的,判斷待訪問鏈接是否為第一次訪問鏈接的步驟,包括:獲取第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息;如果企業(yè)信息為空,確定待訪問鏈接為第一次訪問鏈接。
5、進(jìn)一步的,目標(biāo)企業(yè)信息包括企業(yè)聯(lián)系方式;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,包括:訪問目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面;根據(jù)預(yù)設(shè)的正則表達(dá)式提取第二展示頁面中的企業(yè)聯(lián)系方式。
6、進(jìn)一步的,目標(biāo)企業(yè)信息還包括網(wǎng)頁快照文件;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,還包括:確認(rèn)第二展示頁面加載完成;遍歷第二展示頁面中的所有網(wǎng)頁內(nèi)容元素,并獲取網(wǎng)頁內(nèi)容元素對(duì)應(yīng)的網(wǎng)頁快照元素;將所有網(wǎng)頁快照元素合成得到第二展示頁面對(duì)應(yīng)的網(wǎng)頁快照文件。進(jìn)一步的,目標(biāo)企業(yè)信息還包括企業(yè)官網(wǎng)的頁面字節(jié)碼的哈希值;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,還包括:訪問目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面;通過預(yù)設(shè)加密算法對(duì)第二展示頁面中所有頁面字節(jié)碼進(jìn)行加密,得到企業(yè)官網(wǎng)的目標(biāo)哈希值。
7、進(jìn)一步的,如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息的步驟之后,方法還包括:如果權(quán)重值為1,保持預(yù)設(shè)權(quán)重值不變。
8、進(jìn)一步的,方法還包括:如果目標(biāo)企業(yè)信息與企業(yè)信息相同,或者企業(yè)信息為空,保持待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值不變。
9、第二方面,本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集系統(tǒng),包括:鏈接獲取模塊,用于根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;目標(biāo)鏈接確定模塊,用于判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;企業(yè)信息獲取模塊,用于打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息;企業(yè)信息對(duì)比模塊,用于將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;企業(yè)信息采集模塊,用于如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。
10、第三方面,本發(fā)明實(shí)施例提供了電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。
11、本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集方法和采集系統(tǒng),包括:根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,獲取第二展示頁面中的目標(biāo)企業(yè)信息;將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。該方式中,通過為不同更新頻率的企業(yè)官網(wǎng)設(shè)置不同的采集頻率,并根據(jù)采集頻率訪問包括企業(yè)信息的鏈接的方法,從而全面且及時(shí)的提取不同更新頻率的企業(yè)信息。
12、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
13、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
1.一種企業(yè)信息的采集方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述信息采集頻率的預(yù)設(shè)權(quán)重值通過下述步驟確定得到:
3.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述判斷所述待訪問鏈接是否為第一次訪問鏈接的步驟,包括:
4.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息包括企業(yè)聯(lián)系方式;
5.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息還包括網(wǎng)頁快照文件;
6.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息還包括企業(yè)官網(wǎng)的頁面字節(jié)碼的哈希值;
7.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述如果所述目標(biāo)企業(yè)信息與所述企業(yè)信息不相同,根據(jù)所述目標(biāo)企業(yè)信息更新所述企業(yè)信息的步驟之后,所述方法還包括:
8.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述方法還包括:
9.一種企業(yè)信息的采集系統(tǒng),其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括存儲(chǔ)有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和處理器,所述計(jì)算機(jī)程序被所述處理器讀取并運(yùn)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的企業(yè)信息的更新方法。