欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站檢測方法及相關裝置與流程

文檔序號:40461423發(fā)布日期:2024-12-27 09:26閱讀:9來源:國知局
網(wǎng)站檢測方法及相關裝置與流程

所屬的技術人員能夠理解,本技術的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本技術的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。基于相同的發(fā)明構(gòu)思,本技術實施例還提供一種電子設備。在一種實施例中,該電子設備可以是服務器,也可以是終端設備。參閱圖17所示,其為本技術實施例中提供的一種可能的電子設備的結(jié)構(gòu)示意圖,圖17中,電子設備1700包括:處理器1710和存儲器1720。其中,存儲器1720存儲有可被處理器1710執(zhí)行的計算機程序,處理器1710通過執(zhí)行存儲器1720存儲的指令,可以執(zhí)行上述網(wǎng)站檢測方法的步驟。存儲器1720可以是易失性存儲器(volatile?memory),例如隨機存取存儲器(random-access?memory,ram);存儲器1720也可以是非易失性存儲器(non-volatilememory),例如只讀存儲器(read-only?memory,rom),快閃存儲器(flash?memory),硬盤(hard?disk?drive,hdd)或固態(tài)硬盤(solid-statedrive,ssd);或者存儲器1720是能夠用于攜帶或存儲具有指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的程序代碼并能夠由計算機存取的任何其他介質(zhì),但不限于此。存儲器1720也可以是上述存儲器的組合。處理器1710可以包括一個或多個中央處理單元(central?processing?unit,cpu)或者為數(shù)字處理單元等等。處理器1710,用于執(zhí)行存儲器1720中存儲的計算機程序時實現(xiàn)上述網(wǎng)站檢測方法。在一些實施例中,處理器1710和存儲器1720可以在同一芯片上實現(xiàn),在一些實施例中,它們也可以在獨立的芯片上分別實現(xiàn)。本技術實施例中不限定上述處理器1710和存儲器1720之間的具體連接介質(zhì)。本技術實施例中以處理器1710和存儲器1720之間通過總線連接為例,總線在圖17中以粗線描述,其它部件之間的連接方式,僅是進行示意性說明,并不引以為限??偩€可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于描述,圖17中僅用一條粗線描述,但并不描述僅有一根總線或一種類型的總線?;谕话l(fā)明構(gòu)思,本技術實施例提供了一種計算機可讀存儲介質(zhì),其包括計算機程序,當計算機程序在電子設備上運行時,計算機程序用于使電子設備執(zhí)行上述網(wǎng)站檢測方法的步驟。在一些可能的實施方式中,本技術提供的網(wǎng)站檢測方法的各個方面還可以實現(xiàn)為一種程序產(chǎn)品的形式,其包括計算機程序,當程序產(chǎn)品在電子設備上運行時,計算機程序用于使電子設備執(zhí)行上述網(wǎng)站檢測方法中的步驟,例如,電子設備可以執(zhí)行如圖3中所示的步驟。程序產(chǎn)品可以采用一個或多個可讀介質(zhì)的任意組合??勺x介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲介質(zhì)??勺x存儲介質(zhì)例如可以是但不限于電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式盤、硬盤、ram、rom、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(compact?disk?read?only?memory,cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。本技術的實施方式的程序產(chǎn)品可以采用cd-rom并包括計算機程序,并可以在電子設備上運行。然而,本技術的程序產(chǎn)品不限于此,在本文件中,可讀存儲介質(zhì)可以是任何包含或存儲計算機程序的有形介質(zhì),該計算機程序可以被命令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用??勺x信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀計算機程序。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合??勺x信號介質(zhì)還可以是可讀存儲介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由命令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的計算機程序。盡管已描述了本技術的優(yōu)選實施例,但本領域內(nèi)的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本技術范圍的所有變更和修改。顯然,本領域的技術人員可以對本技術進行各種改動和變型而不脫離本技術的精神和范圍。這樣,倘若本技術的這些修改和變型屬于本技術權利要求及其等同技術的范圍之內(nèi),則本技術也意圖包含這些改動和變型在內(nèi)。


背景技術:

1、隨著互聯(lián)網(wǎng)的普及和發(fā)展,網(wǎng)站數(shù)量呈現(xiàn)爆炸式增長,網(wǎng)站已成為日常信息獲取的重要途徑之一。面對海量網(wǎng)站,如何檢測內(nèi)容重復或相似的網(wǎng)站,成為亟需解決的問題。

2、相關技術中,網(wǎng)站的網(wǎng)頁是由超文本標記語言(hypertext?markuplanguage,html)元素構(gòu)成的,針對各網(wǎng)站中的每個網(wǎng)站,基于網(wǎng)頁的html文件,獲得由html文件中的各html元素構(gòu)成的文檔對象模型(documentobject?model,dom)結(jié)構(gòu),然后根據(jù)dom結(jié)構(gòu)生成網(wǎng)址指紋,進而利用各網(wǎng)站各自的網(wǎng)址指紋,從各網(wǎng)站中,檢測出內(nèi)容相似或相同的網(wǎng)站。

3、然而,很多網(wǎng)頁的html結(jié)構(gòu)非常簡單,且通常通過在html文件動態(tài)嵌入另一個網(wǎng)頁地址的方式,來實現(xiàn)最終的頁面顯示效果,但是,html結(jié)構(gòu)簡單會導致dom結(jié)構(gòu)簡單,而dom結(jié)構(gòu)越簡單,生成的網(wǎng)址指紋越相似,基于dom結(jié)構(gòu)生成的網(wǎng)址指紋越難以有效體現(xiàn)各網(wǎng)站的區(qū)別,從而導致網(wǎng)站檢測的準確性較低。


技術實現(xiàn)思路

1、本技術實施例提供一種網(wǎng)站檢測方法及相關裝置,用以提升待檢測網(wǎng)址的網(wǎng)址指紋的準確性,從而提高網(wǎng)站檢測的準確率。

2、第一方面,本技術實施例提供一種網(wǎng)站檢測方法,包括:

3、分別基于各待檢測網(wǎng)址發(fā)起訪問請求,獲得對應的訪問資源集;每個所述訪問資源集包含:在呈現(xiàn)相應的待檢測網(wǎng)址關聯(lián)的網(wǎng)頁的過程中,加載的各訪問資源;

4、分別對獲得的各訪問資源集中各訪問資源各自的資源存儲地址進行分詞,并基于分詞結(jié)果,生成相應的待檢測網(wǎng)址的網(wǎng)址指紋;

5、基于獲得的各網(wǎng)址指紋,對所述各待檢測網(wǎng)址進行分類,確定所述各待檢測網(wǎng)址各自對應的網(wǎng)址類別。

6、第二方面,本技術實施例提供一種網(wǎng)站檢測裝置,包括:

7、資源分析單元,用于分別基于各待檢測網(wǎng)址發(fā)起訪問請求,獲得對應的訪問資源集;每個所述訪問資源集包含:在呈現(xiàn)相應的待檢測網(wǎng)址關聯(lián)的網(wǎng)頁的過程中,加載的各訪問資源;

8、特征生成單元,用于分別對獲得的各訪問資源集中各訪問資源各自的資源存儲地址進行分詞,并基于分詞結(jié)果,生成相應的待檢測網(wǎng)址的網(wǎng)址指紋;

9、網(wǎng)址分類單元,用于基于獲得的各網(wǎng)址指紋,對所述各待檢測網(wǎng)址進行分類,確定所述各待檢測網(wǎng)址各自對應的網(wǎng)址類別。

10、作為一種可能的實現(xiàn)方式,所述分別對獲得的各訪問資源集中各訪問資源各自的資源存儲地址進行分詞,并基于分詞結(jié)果,生成相應的待檢測網(wǎng)址的網(wǎng)址指紋時,特征生成單元具體用于:

11、針對所述各待檢測網(wǎng)址中的每個待檢測網(wǎng)址,分別執(zhí)行以下操作:

12、對一個待檢測網(wǎng)址對應的訪問資源集中的各訪問資源各自的資源存儲地址進行分詞處理,獲得各詞語,并根據(jù)各詞語的各自的詞頻,確定所述各詞語各自的權重;

13、基于預設的映射方式,將所述各詞語分別映射為二進制序列,并基于所述各詞語各自的權重,對獲得的各二進制序列進行融合,獲得所述一個待檢測網(wǎng)址的網(wǎng)址指紋。

14、作為一種可能的實現(xiàn)方式,所述對一個待檢測網(wǎng)址對應的訪問資源集中的各訪問資源各自的資源存儲地址進行分詞,獲得各詞語之前,特征生成單元還用于:

15、若確定所述各訪問資源各自的資源存儲地址中,存在符合清洗條件的至少一個資源存儲地址,則分別對所述至少一個資源存儲地址進行非關鍵數(shù)據(jù)清洗,獲得相應的清洗后的資源存儲地址;

16、所述對一個待檢測網(wǎng)址對應的訪問資源集中的各訪問資源各自的資源存儲地址進行分詞處理,獲得各詞語時,特征生成單元具體用于:

17、對獲得的至少一個清洗后的資源存儲地址,以及各資源存儲地址中,除所述至少一個資源存儲地址的其他資源存儲地址進行分詞處理,獲得各詞語。

18、作為一種可能的實現(xiàn)方式,所述若確定所述各訪問資源各自的資源存儲地址中,存在符合清洗條件的至少一個資源存儲地址時,分別對所述至少一個資源存儲地址進行非關鍵數(shù)據(jù)清洗,獲得相應的清洗后的資源存儲地址時,特征生成單元具體用于:

19、若確定各訪問資源各自的資源存儲地址中,存在包含參考關鍵字的至少一個資源存儲地址,則分別從所述至少一個資源存儲地址中,刪除所述參考關鍵字,獲得相應的清洗后的資源存儲地址;

20、若確定各訪問資源各自的資源存儲地址中,存在包含目標域名的至少一個資源存儲地址,則分別從所述至少一個資源存儲地址中,刪除所述目標域名,獲得相應的清洗后的資源存儲地址。

21、作為一種可能的實現(xiàn)方式,特征生成單元還用于:

22、按照所述一個待檢測網(wǎng)址對應的訪問資源集中的各訪問資源的資源加載順序,對所述各訪問資源各自的資源存儲地址進行排序;

23、基于排序結(jié)果,結(jié)合所述各訪問資源各自的狀態(tài)碼,確定所述各訪問資源中的起始訪問資源,并將所述起始訪問資源的資源存儲地址作為目標域名。

24、作為一種可能的實現(xiàn)方式,所述基于獲得的各網(wǎng)址指紋,對所述各待檢測網(wǎng)址進行分類,確定所述各待檢測網(wǎng)址各自對應的網(wǎng)址類別時,網(wǎng)址分類單元具體用于:

25、基于獲得的各網(wǎng)址指紋,獲得所述各待檢測網(wǎng)址之間的特征相似度;

26、基于所述各待檢測網(wǎng)址之間的特征相似度,對所述各待檢測網(wǎng)址進行層次聚類,獲得聚類結(jié)果,所述聚類結(jié)果包括至少一個類別簇及其之間的層次關系,每個類別簇包含:歸屬于一個網(wǎng)址類別的至少一個待檢測網(wǎng)址;

27、基于所述聚類結(jié)果,確定各待檢測網(wǎng)址各自對應的網(wǎng)址類別。

28、作為一種可能的實現(xiàn)方式,網(wǎng)址類別包括中間類別和目標類別,中間類別是目標類別的子類別;

29、所述基于所述各待檢測網(wǎng)址之間的特征相似度,對所述各待檢測網(wǎng)址進行層次聚類,獲得聚類結(jié)果時,網(wǎng)址分類單元具體用于:

30、基于所述各待檢測網(wǎng)址之間的特征相似度,對所述各待檢測網(wǎng)址進行網(wǎng)址合并處理,獲得各中間類別,并基于所述各待檢測網(wǎng)址各自對應的網(wǎng)址指紋,獲得所述各中間類別各自對應的類別特征;

31、基于所述各中間類別各自對應的類別特征之間的特征相似度,對所述各中心類別進行類別合并處理,獲得至少一個目標類別;

32、基于所述各待檢測網(wǎng)址與所述各中間類別之間的合并關系,結(jié)合所述各中間類別與所述至少一個目標類別之間的合并關系,獲得聚類結(jié)果。

33、作為一種可能的實現(xiàn)方式,所述基于所述各待檢測網(wǎng)址之間的特征相似度,對所述各待檢測網(wǎng)址進行網(wǎng)址合并處理,獲得各中間類別時,網(wǎng)址分類單元具體用于:

34、針對所述各待檢測網(wǎng)址,進行迭代檢測,直至符合網(wǎng)址合并結(jié)束條件時,獲得各中間類別,其中,在每次迭代過程中,執(zhí)行以下操作:

35、獲取當前未合并的各待檢測網(wǎng)址;

36、基于當前未合并的各待檢測網(wǎng)址中每兩個待檢測網(wǎng)址的網(wǎng)址指紋之間的特征相似度,從當前未合并的各待檢測網(wǎng)址中,篩選出符合網(wǎng)址合并條件的兩個待檢測網(wǎng)址,并對篩選出的兩個待檢測網(wǎng)址進行合并,構(gòu)建一個中間類別。

37、作為一種可能的實現(xiàn)方式,所述基于所述各待檢測網(wǎng)址各自對應的網(wǎng)址指紋,獲得所述各中間類別各自對應的類別特征時,網(wǎng)址分類單元具體用于:

38、針對所述各中間類別中的每個中間類別,分別執(zhí)行以下操作:

39、對歸屬于當前中間類別的兩個待檢測網(wǎng)址各自的網(wǎng)址指紋進行特征融合,獲得所述當前中間類別對應的類別特征。

40、作為一種可能的實現(xiàn)方式,所述基于所述各中間類別各自對應的類別特征之間的特征相似度,對所述各中心類別進行類別合并處理,獲得至少一個目標類別時,網(wǎng)址分類單元具體用于:

41、針對所述各中間類別,進行迭代合并,當符合類別合并結(jié)束條件時,將合并獲得的各中間類別作為各目標類別,其中,在每次迭代過程中,執(zhí)行以下操作:

42、獲取當前未合并的各中間類別,并基于當前未合并的各中間類別中每兩個中間類別的類別特征之間的特征相似度,從當前未合并的各中間類別中,篩選出符合類別合并條件的兩個中間類別,以及基于篩選出的兩個中間類別,構(gòu)建一個新的中間類別。

43、第三方面,本技術實施例提供一種電子設備,包括處理器和存儲器,其中,所述存儲器存儲有計算機程序,當所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述方法的步驟。

44、第四方面,本技術實施例提供一種計算機可讀存儲介質(zhì),其包括計算機程序,當所述計算機程序在電子設備上運行時,所述計算機程序用于使所述電子設備執(zhí)行上述方法的步驟。

45、第五方面,本技術實施例提供一種計算機程序產(chǎn)品,所述程序產(chǎn)品包括計算機程序,所述計算機程序存儲在計算機可讀存儲介質(zhì)中,電子設備的處理器從所述計算機可讀存儲介質(zhì)中讀取并執(zhí)行所述計算機程序,使得電子設備執(zhí)行上述方法的步驟。

46、本技術實施例中,分別基于各待檢測網(wǎng)址發(fā)起訪問請求,獲得對應的訪問資源集;每個訪問資源集包含:在呈現(xiàn)相應的待檢測網(wǎng)址關聯(lián)的網(wǎng)頁的過程中,加載的各訪問資源,然后,基于各訪問資源各自的資源存儲地址的分詞結(jié)果,生成相應的待檢測網(wǎng)址的網(wǎng)址指紋,生成相應的待檢測網(wǎng)址的網(wǎng)址指紋,進而基于獲得的各網(wǎng)址指紋,對各待檢測網(wǎng)址進行分類,確定各待檢測網(wǎng)址各自對應的網(wǎng)址類別。

47、通過訪問待檢測網(wǎng)址時,網(wǎng)頁呈現(xiàn)過程中所加載的訪問資源,生成待檢測網(wǎng)址的網(wǎng)址指紋,可以使得生成的網(wǎng)址指紋體現(xiàn)網(wǎng)頁所要呈現(xiàn)的內(nèi)容,這樣,如果多個待檢測網(wǎng)址所呈現(xiàn)的內(nèi)容(即加載的訪問資源)相同或相似,即便多個待檢測網(wǎng)址的dom結(jié)構(gòu)相同,多個待檢測網(wǎng)址的網(wǎng)址指紋將會相同或相似,從而在后續(xù)進行網(wǎng)址分類時,提高分類效果和檢測準確性。

48、本技術的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本技術而了解。本技術的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
新田县| 长顺县| 建平县| 宣恩县| 张家界市| 新昌县| 曲周县| 宁晋县| 洞头县| 新晃| 吉水县| 邵东县| 清镇市| 岚皋县| 定兴县| 文安县| 教育| 延寿县| 秦安县| 阜南县| 体育| 固始县| 陆川县| 伊宁市| 纳雍县| 漠河县| 周至县| 丰顺县| 阳原县| 汾西县| 呼和浩特市| 鱼台县| 隆尧县| 嵩明县| 乐平市| 武清区| 驻马店市| 庆元县| 垦利县| 宝山区| 宁德市|