欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

企業(yè)信息的采集方法和采集系統(tǒng)與流程

文檔序號(hào):40433734發(fā)布日期:2024-12-24 15:07閱讀:21來源:國知局
企業(yè)信息的采集方法和采集系統(tǒng)與流程

本發(fā)明涉及信息更新,尤其是涉及一種企業(yè)信息的采集方法和采集系統(tǒng)。


背景技術(shù):

1、現(xiàn)在想要獲取企業(yè)的聯(lián)系方式等企業(yè)信息,一般途徑是直接訪問企業(yè)官網(wǎng),從企業(yè)官網(wǎng)首頁提取企業(yè)的企業(yè)信息。但由于不同官網(wǎng)的構(gòu)成結(jié)構(gòu)不一樣,企業(yè)信息不一定直接展示在首頁,直接從企業(yè)官網(wǎng)首頁提取企業(yè)的聯(lián)系方式信息,只能得到表面的數(shù)據(jù),不能精確定位到所需企業(yè)信息的位置,容易丟失數(shù)據(jù)。同時(shí)每一個(gè)企業(yè)官網(wǎng)的更新時(shí)間是不一樣的,如果針對(duì)所有企業(yè)官網(wǎng)均采用相同的信息提取周期,則會(huì)造成大量資源的浪費(fèi),而針對(duì)那些網(wǎng)頁信息更新頻率高的企業(yè),則不能及時(shí)提取到其企業(yè)信息。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明的目的在于提供一種企業(yè)信息的采集方法和采集系統(tǒng),從而全面且及時(shí)的提取不同更新頻率的企業(yè)的企業(yè)信息,進(jìn)而避免資源浪費(fèi)。

2、第一方面,本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集方法,包括:根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息;將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。

3、進(jìn)一步的,信息采集頻率的預(yù)設(shè)權(quán)重值通過下述步驟確定得到:獲取預(yù)設(shè)第二數(shù)據(jù)庫中的企業(yè)官網(wǎng)鏈接;提取企業(yè)官網(wǎng)鏈接中的目標(biāo)域名信息,并將目標(biāo)域名信息與第一數(shù)據(jù)庫中的域名信息進(jìn)行對(duì)比;如果目標(biāo)域名信息與域名信息不同,將目標(biāo)域名信息保存至第一數(shù)據(jù)庫,確定目標(biāo)域名信息對(duì)應(yīng)的企業(yè)官網(wǎng)鏈接為待訪問鏈接,并確定待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值為初始權(quán)重值。

4、進(jìn)一步的,判斷待訪問鏈接是否為第一次訪問鏈接的步驟,包括:獲取第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息;如果企業(yè)信息為空,確定待訪問鏈接為第一次訪問鏈接。

5、進(jìn)一步的,目標(biāo)企業(yè)信息包括企業(yè)聯(lián)系方式;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,包括:訪問目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面;根據(jù)預(yù)設(shè)的正則表達(dá)式提取第二展示頁面中的企業(yè)聯(lián)系方式。

6、進(jìn)一步的,目標(biāo)企業(yè)信息還包括網(wǎng)頁快照文件;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,還包括:確認(rèn)第二展示頁面加載完成;遍歷第二展示頁面中的所有網(wǎng)頁內(nèi)容元素,并獲取網(wǎng)頁內(nèi)容元素對(duì)應(yīng)的網(wǎng)頁快照元素;將所有網(wǎng)頁快照元素合成得到第二展示頁面對(duì)應(yīng)的網(wǎng)頁快照文件。進(jìn)一步的,目標(biāo)企業(yè)信息還包括企業(yè)官網(wǎng)的頁面字節(jié)碼的哈希值;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息的步驟,還包括:訪問目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面;通過預(yù)設(shè)加密算法對(duì)第二展示頁面中所有頁面字節(jié)碼進(jìn)行加密,得到企業(yè)官網(wǎng)的目標(biāo)哈希值。

7、進(jìn)一步的,如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息的步驟之后,方法還包括:如果權(quán)重值為1,保持預(yù)設(shè)權(quán)重值不變。

8、進(jìn)一步的,方法還包括:如果目標(biāo)企業(yè)信息與企業(yè)信息相同,或者企業(yè)信息為空,保持待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值不變。

9、第二方面,本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集系統(tǒng),包括:鏈接獲取模塊,用于根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;目標(biāo)鏈接確定模塊,用于判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;企業(yè)信息獲取模塊,用于打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,提取第二展示頁面中的目標(biāo)企業(yè)信息;企業(yè)信息對(duì)比模塊,用于將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;企業(yè)信息采集模塊,用于如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。

10、第三方面,本發(fā)明實(shí)施例提供了電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

11、本發(fā)明實(shí)施例提供了一種企業(yè)信息的采集方法和采集系統(tǒng),包括:根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;判斷待訪問鏈接是否為第一次訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,通過關(guān)鍵字識(shí)別技術(shù),提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接,確定待訪問鏈接為目標(biāo)鏈接;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面,獲取第二展示頁面中的目標(biāo)企業(yè)信息;將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;如果目標(biāo)企業(yè)信息與企業(yè)信息不相同,根據(jù)目標(biāo)企業(yè)信息更新企業(yè)信息,并將待訪問鏈接對(duì)應(yīng)的信息采集頻率的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng),得到更新后的權(quán)重值,以基于更新后的權(quán)重值更新待訪問鏈接對(duì)應(yīng)的企業(yè)信息。該方式中,通過為不同更新頻率的企業(yè)官網(wǎng)設(shè)置不同的采集頻率,并根據(jù)采集頻率訪問包括企業(yè)信息的鏈接的方法,從而全面且及時(shí)的提取不同更新頻率的企業(yè)信息。

12、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

13、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。



技術(shù)特征:

1.一種企業(yè)信息的采集方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述信息采集頻率的預(yù)設(shè)權(quán)重值通過下述步驟確定得到:

3.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述判斷所述待訪問鏈接是否為第一次訪問鏈接的步驟,包括:

4.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息包括企業(yè)聯(lián)系方式;

5.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息還包括網(wǎng)頁快照文件;

6.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述目標(biāo)企業(yè)信息還包括企業(yè)官網(wǎng)的頁面字節(jié)碼的哈希值;

7.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述如果所述目標(biāo)企業(yè)信息與所述企業(yè)信息不相同,根據(jù)所述目標(biāo)企業(yè)信息更新所述企業(yè)信息的步驟之后,所述方法還包括:

8.根據(jù)權(quán)利要求1所述的企業(yè)信息的采集方法,其特征在于,所述方法還包括:

9.一種企業(yè)信息的采集系統(tǒng),其特征在于,包括:

10.一種電子設(shè)備,其特征在于,包括存儲(chǔ)有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和處理器,所述計(jì)算機(jī)程序被所述處理器讀取并運(yùn)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的企業(yè)信息的更新方法。


技術(shù)總結(jié)
本發(fā)明提供了一種企業(yè)信息的采集方法和采集系統(tǒng),根據(jù)信息采集頻率的預(yù)設(shè)權(quán)重值獲取企業(yè)官網(wǎng)的待訪問鏈接;如果待訪問鏈接為第一次訪問鏈接,打開待訪問鏈接對(duì)應(yīng)的第一展示頁面,提取第一展示頁面中預(yù)設(shè)關(guān)鍵字對(duì)應(yīng)的目標(biāo)鏈接;如果待訪問鏈接不為第一次訪問鏈接確定待訪問鏈接為目標(biāo)鏈接;打開目標(biāo)鏈接對(duì)應(yīng)的第二展示頁面并獲取目標(biāo)企業(yè)信息;將目標(biāo)企業(yè)信息與預(yù)設(shè)第一數(shù)據(jù)庫中待訪問鏈接對(duì)應(yīng)的企業(yè)信息進(jìn)行對(duì)比;如果目標(biāo)企業(yè)信息與企業(yè)信息不相同更新企業(yè)信息并將待訪問鏈接對(duì)應(yīng)的預(yù)設(shè)權(quán)重值減去預(yù)設(shè)步長(zhǎng)。為不同更新頻率的企業(yè)官網(wǎng)設(shè)置不同的采集頻率,并根據(jù)采集頻率訪問包括企業(yè)信息的鏈接,從而全面且及時(shí)的提取不同更新頻率的企業(yè)信息。

技術(shù)研發(fā)人員:徐國榮,徐超,吳超非
受保護(hù)的技術(shù)使用者:上海微問家信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
福州市| 固安县| 无极县| 突泉县| 乐陵市| 平凉市| 惠州市| 兖州市| 聊城市| 荔波县| 白银市| 金秀| 甘孜| 东方市| 怀安县| 竹山县| 胶州市| 驻马店市| 阳西县| 绥滨县| 名山县| 汉阴县| 无为县| 渭源县| 河曲县| 乡宁县| 广水市| 石嘴山市| 湘潭县| 大姚县| 西丰县| 莲花县| 泰顺县| 克山县| 紫云| 新昌县| 渭南市| 磴口县| 嘉兴市| 郑州市| 庄河市|