本申請涉及網(wǎng)絡技術(shù)領(lǐng)域,尤其涉及一種識別違禁網(wǎng)頁的方法、裝置及服務器。
背景技術(shù):
目前大量企業(yè)級的用戶在服務提供商提供的云服務器上建站,服務器提供商為了確保所建站點上的網(wǎng)頁內(nèi)容符合國家政策規(guī)定,需要對網(wǎng)頁中的內(nèi)容進行檢測,以確保網(wǎng)頁中不存在違禁內(nèi)容?,F(xiàn)有技術(shù)中,通過關(guān)鍵詞檢測來識別網(wǎng)頁中是否存在違禁內(nèi)容,由于關(guān)鍵詞存在較多的變形,因此容易被非法用戶繞過,致使對違禁網(wǎng)頁識別的準確度不高。
技術(shù)實現(xiàn)要素:
有鑒于此,本申請?zhí)峁┮环N新的技術(shù)方案,提高對違禁網(wǎng)頁識別的準確度。
為實現(xiàn)上述目的,本申請?zhí)峁┘夹g(shù)方案如下:
根據(jù)本申請的第一方面,提供了一種識別違禁網(wǎng)頁的方法,包括:
確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組,所述第一二維數(shù)組包括所述網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在所述網(wǎng)頁正文中出現(xiàn)的次數(shù);
從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,所述多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù);
依次確定所述第一二維數(shù)組與多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到所述多個第二二維數(shù)組各自對應的多個相似度值;
如果所述多個相似度值中最大的相似度值大于第一預設閾值,確定所述待匹配網(wǎng)頁為違禁網(wǎng)頁。
根據(jù)本申請的第二方面,提供了一種識別違禁網(wǎng)頁的裝置,包括:
第一確定模塊,用于確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組,所述第一二維數(shù)組包括所述網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在所述網(wǎng)頁正文中出現(xiàn)的次數(shù);
獲取模塊,用于從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,所述多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù);
第二確定模塊,用于依次確定所述第一確定模塊得到的所述第一二維數(shù)組與所述獲取模塊獲取到的所述多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到所述多個第二二維數(shù)組各自對應的多個相似度值;
第三確定模塊,用于如果所述第二確定模塊確定所述多個相似度值中最大的相似度值大于第一預設閾值,確定所述待匹配網(wǎng)頁為違禁網(wǎng)頁。
根據(jù)本申請的第三方面,提供了一種服務器,所述服務器包括:
處理器;用于存儲所述處理器可執(zhí)行指令的存儲器;
其中,所述處理器,用于確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組,所述第一二維數(shù)組包括所述網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在所述網(wǎng)頁正文中出現(xiàn)的次數(shù);
從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,所述多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù);
依次確定所述第一二維數(shù)組與多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到所述多個第二二維數(shù)組各自對應的多個相似度值;
如果所述多個相似度值中最大的相似度值大于第一預設閾值,確定所述待匹配網(wǎng)頁為違禁網(wǎng)頁。
根據(jù)本申請的第四方面,提供了一種識別違禁網(wǎng)頁的方法,所述方法包括:
確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的待匹配二維數(shù)組,所述待匹配二維數(shù)組包括:所述網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在網(wǎng)頁正文中出現(xiàn)的次數(shù);
從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個樣本二維數(shù)組,所述多個樣本二維數(shù)組中的每一個樣本二維數(shù)組包括:對應違禁網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在該對應違禁網(wǎng)頁正文中出現(xiàn)的次數(shù);
確定待匹配二維數(shù)組與至少一個樣本二維數(shù)組的相似度值,得到至少一個樣本二維數(shù)組對應的相似度值。
根據(jù)本申請的第五方面,提供了一種識別違禁網(wǎng)頁的裝置,所述裝置包括:
第一確定模塊,用于確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的待匹配二維數(shù)組,所述待匹配二維數(shù)組包括所述網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在網(wǎng)頁正文中出現(xiàn)的次數(shù);
獲取模塊,用于從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個樣本二維數(shù)組,所述多個樣本二維數(shù)組中的每一個樣本二維數(shù)組包括:對應違禁網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在該對應違禁網(wǎng)頁正文中出現(xiàn)的次數(shù);
第二確定模塊,用于確定待匹配二維數(shù)組與至少一個樣本二維數(shù)組的相似度值,得到至少一個樣本二維數(shù)組對應的相似度值;
第三確定模塊,用于如果所述第二確定模塊確定存在至少一個相似度值大于第一預設閾值,確定所述待匹配網(wǎng)頁為違禁網(wǎng)頁。
由以上技術(shù)方案可見,本申請通過從樣本庫中獲取了多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,通過第一二維數(shù)組與多個第二二維數(shù)組的多個相似度值來確定待匹配網(wǎng)頁是否為違禁網(wǎng)頁,可以避免現(xiàn)有技術(shù)中通過關(guān)鍵詞檢測時由于關(guān)鍵詞的變形得到錯誤的檢測結(jié)果,提高了對待匹配網(wǎng)頁監(jiān)控的準確度。
附圖說明
圖1示出了根據(jù)本發(fā)明的一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;
圖2示出了根據(jù)本發(fā)明的另一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;
圖3a示出了根據(jù)本發(fā)明的再一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;
圖3b示出了根據(jù)本發(fā)明的又一示例性實施例的識別違禁網(wǎng)頁的方法所適用的架構(gòu)圖;
圖4示出了根據(jù)本發(fā)明的又一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;
圖5示出了根據(jù)本發(fā)明的一示例性實施例的服務器的結(jié)構(gòu)示意圖;
圖6示出了根據(jù)本發(fā)明的一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖;
圖7示出了根據(jù)本發(fā)明的另一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖;
圖8示出了根據(jù)本發(fā)明的再一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖;
圖9示出了根據(jù)本發(fā)明的又一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本申請相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本申請的一些方面相一致的裝置和方法的例子。
在本申請使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本申請。在本申請和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。
應當理解,盡管在本申請可能采用術(shù)語第一、第二、第三等來描述各種信息,但這些信息不應限于這些術(shù)語。這些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如,在不脫離本申請范圍的情況下,第一信息也可以被稱為第二信息,類似地,第二信息也可以被稱為第一信息。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應于確定”。
為對本申請進行進一步說明,提供下列實施例:
圖1示出了根據(jù)本發(fā)明的一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;如圖1所示,包括如下步驟:
步驟101,確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組(也可以稱為待匹配二維數(shù)組),第一二維數(shù)組包括網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在網(wǎng)頁正文中出現(xiàn)的次數(shù)。
步驟102,從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組(也可以稱為待樣本二維數(shù)組),多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù)。
步驟103,依次確定第一二維數(shù)組與多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到多個第二二維數(shù)組各自對應的相似度值。
步驟104,如果多個相似度值中最大的相似度值大于第一預設閾值,確定待匹配網(wǎng)頁為違禁網(wǎng)頁。
上述步驟101中,在一實施例中,可以通過對待匹配網(wǎng)頁的網(wǎng)頁正文進行分詞,得到該網(wǎng)頁正文中的每一個詞及每一個詞在網(wǎng)頁正文中出現(xiàn)的次數(shù),通過每一個詞和每一個詞對應的次數(shù)確定該網(wǎng)頁正文對應的第一二維數(shù)組,其中,第一二維數(shù)組用于表示該待匹配網(wǎng)頁的網(wǎng)頁內(nèi)容,例如,待匹配網(wǎng)頁的網(wǎng)頁正文進行分詞后,得到詞“源代碼”、“需要”、“相似性”、“測試”、“網(wǎng)頁”、“樣本”,上述各個詞在該網(wǎng)頁正文中出現(xiàn)的次數(shù)為分別為:源代碼=1、需要=1、相似性=2、測試=1、網(wǎng)頁=1、樣本=3。由此可以通過“源代碼=1、需要=1、相似性=2、測試=1、網(wǎng)頁=1、樣本=3”得到一個第一二維數(shù)組,通過該第一二維數(shù)組即可表示待匹配網(wǎng)頁。
需要說明的是,本申請中分詞所得到的結(jié)果“詞”并不是狹義上的詞,其所指代的是經(jīng)過分詞處理所得到的分詞子串,這里的分詞子串具體形式可能是一個字,也可能是一個詞或詞組,具體的分詞結(jié)果取決于分詞算法,本申請并不需要進行限定。
另外,可以理解的是,本申請中的“第一二維數(shù)組(待匹配二維數(shù)組)”是一種用于描述待匹配網(wǎng)頁特征的信息,更具體而言,是一種用于描述待匹配網(wǎng)頁正文的信息。在一些情況下,并不是網(wǎng)頁正文中每一個字都能夠有效表達該網(wǎng)頁的特征,因此根據(jù)實際需求,在在利用分詞處理獲得二維數(shù)組過程中,可以做一些輔助處理,例如去除網(wǎng)頁正文中的停用詞,去除網(wǎng)頁正文結(jié)尾處的“分享到……”文本等等。當然,本申請對輔助處理的具體方式并不需要進行限定。
上述步驟102中,可以預先通過與上述步驟101相似的描述得到多個違禁網(wǎng)頁各自對應的第二二維數(shù)組,并將多個第二二維數(shù)組存儲在樣本庫中,當發(fā)現(xiàn)新的違禁網(wǎng)頁時,將該新的違禁網(wǎng)頁對應的第二二維數(shù)組更新至樣本庫中。例如,樣本庫中已經(jīng)存儲有100個違禁網(wǎng)頁各自對應的第二二維數(shù)組,則第二二維數(shù)組的數(shù)量為100,本領(lǐng)域技術(shù)人員可以理解的是,每個第二二維數(shù)組所記錄的全部詞以及全部詞對應的次數(shù)可以互不相同,第二二維數(shù)組的名稱僅為了區(qū)別待匹配網(wǎng)頁對應的第一二維數(shù)組,因此本申請對第二二維數(shù)組中的內(nèi)容不做限制。
上述步驟103中,在一實施例中,可以通過計算第一二維數(shù)組與多個第二二維數(shù)組之間的歐式距離或者余弦距離來確定待匹配網(wǎng)頁與樣本庫中記錄的違禁網(wǎng)頁之間的相似度,例如,樣本庫中有100個違禁網(wǎng)頁,則該100個違禁網(wǎng)頁分別對應一個第二二維數(shù)組,也即,共有100個第二二維數(shù)組,因此通過相似度計算后可以得到100個相似度值。
上述步驟104中,例如,如果待匹配網(wǎng)頁的第一二維數(shù)組與樣本庫中第1個違禁網(wǎng)頁對應的第二二維數(shù)組之間的相似度值為該100個相似度值中的最大值,并且待匹配網(wǎng)頁的第一二維數(shù)組與該第1個違禁網(wǎng)頁對應的第二二維數(shù)組之間的相似度值大于第一預設閾值,可以確定待匹配網(wǎng)頁為違禁網(wǎng)頁。
根據(jù)步驟103-104的描述,可以理解的是,如果最終目的只是“判斷待匹配網(wǎng)頁是否為違禁網(wǎng)頁”,那么只要能夠確定待匹配網(wǎng)頁與任意一個違禁網(wǎng)頁樣本足夠像(即二維數(shù)組的相似度大于第一預設閾值),就可以確定待匹配網(wǎng)頁為違禁網(wǎng)頁,并不需要確定待匹配網(wǎng)頁與哪一個違禁網(wǎng)頁樣本最像,即不需要分別計算待匹配二維數(shù)組與全部違禁網(wǎng)頁樣本二維數(shù)組的相似度,也不需要計算相似度最大值。實際應用中,只需逐一計算待匹配二維數(shù)組與每個違禁網(wǎng)頁樣本二維數(shù)組的相似度,只要某次計算得到的相似度大于第一預設閾值,就可以確定對應的待匹配網(wǎng)頁為違禁網(wǎng)頁,無需繼續(xù)計算其他相似度值。
由上述描述可知,本發(fā)明實施例中通過從樣本庫中獲取多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,通過第一二維數(shù)組與多個第二二維數(shù)組對應的多個相似度值來確定待匹配網(wǎng)頁是否為違禁網(wǎng)頁,可以避免現(xiàn)有技術(shù)中通過關(guān)鍵詞檢測時由于關(guān)鍵詞的變形得到錯誤的檢測結(jié)果,提高了對待匹配網(wǎng)頁監(jiān)控的準確度。
圖2示出了根據(jù)本發(fā)明的另一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;本實施例以如何確定待匹配網(wǎng)頁的第一二維數(shù)組與樣本庫中的違禁網(wǎng)頁的第二二維數(shù)組之間的相似度值為例進行示例性說明,如圖2所示,包括如下步驟:
步驟201,根據(jù)第一組次數(shù)確定第一參數(shù)值,以及根據(jù)第二組次數(shù)確定第二參數(shù)值。
其中,將網(wǎng)頁正文經(jīng)分詞得到的分詞子串定義為第一組詞,其各自對應的次數(shù)定義為第一組次數(shù),將多個違禁網(wǎng)頁中的每一個違禁網(wǎng)頁正文的分詞子串定義為第二組詞,其各自對應的次數(shù)定義為第二組次數(shù),多個第二二維數(shù)組(樣本二維數(shù)組)對應多個第二組次數(shù)。
步驟202,確定同時出現(xiàn)在第一二維數(shù)組與第二二維數(shù)組的第三組詞,以及確定該第三組詞在第一二維數(shù)組和該第二二維數(shù)組中分別記錄的第三組次數(shù)和第四組次數(shù)。
步驟203,根據(jù)第三組次數(shù)與第四組次數(shù),確定第三參數(shù)值。
步驟204,根據(jù)第一參數(shù)值、第二參數(shù)值、第三參數(shù)值,基于歐氏距離方法或者余弦距離方法,確定第一二維數(shù)組與對應的第二二維數(shù)組的相似度值。
例如,待匹配網(wǎng)頁的第一二維數(shù)組為:{源代碼=a1,需要=b1,相似性=c1,測試=d1,網(wǎng)頁=e1,樣本=f1},樣本庫中的第1個違禁網(wǎng)頁對應的第二二維數(shù)組為:{需要=b2,相似性=c2,測試=d2,網(wǎng)頁=e2,算法=m2},以下結(jié)合該第一二維數(shù)組與第二二維數(shù)組的舉例對本實施例進行示例性說明。
上述步驟201中,在一實施例中,第一組次數(shù)與第二組次數(shù)均可以為一個一維數(shù)組,例如,第一組次數(shù)對應的一維數(shù)組為[a1,b1,c1,d1,e1,f1],第二組次數(shù)對應的一維數(shù)組為[b2,c2,d2,e2,m2]。
在一實施例中,可以計算第一組詞中的每一個詞對應的次數(shù)的平方,得到多個第一平方值,計算多個第一平方值的和值,得到第一參數(shù)值,例如,將上述統(tǒng)計到的待匹配網(wǎng)頁的所有詞對應的次數(shù)的平方相加得到ɑ=a12+b12+c12+d12+e12+f12??梢岳斫獾氖牵擞嬎闫椒胶椭?,還可以采用其他形式的第一參數(shù)算法,例如計算立方和、計算帶加權(quán)的平方和等等。
在一實施例中,可以計算第二組詞中的每一個詞對應的次數(shù)的平方,得到多個第二平方值,計算多個第二平方值的和值,得到第二參數(shù)值,例如,將上述統(tǒng)計到的違禁網(wǎng)頁中的所有詞對應的次數(shù)的平方相加得到β=b22+c22+d22+e22+m22。可以理解的是,除了計算平方和之外,還可以采用其他形式的第二參數(shù)算法,例如計算立方和、計算帶加權(quán)的平方和等等。
上述步驟202中,由于同時出現(xiàn)在網(wǎng)頁正文和樣本庫中的第1個違禁網(wǎng)頁中出現(xiàn)的第三組詞為:需要、相似性、測試、網(wǎng)頁,其中,“需要”在待匹配網(wǎng)頁中出現(xiàn)的次數(shù)為b1次,在第1個違禁網(wǎng)頁中出現(xiàn)的次數(shù)為b2次。以此類推,可以統(tǒng)計“相似性”、“測試”、“網(wǎng)頁”分別在待匹配網(wǎng)頁和第1個違禁網(wǎng)頁中出現(xiàn)的次數(shù),得到第三組次數(shù)和第四組次數(shù)。在一實施例中,第三組次數(shù)和第四組次數(shù)均可以為一個一維數(shù)組,例如,第三組次數(shù)對應的一維數(shù)組為[b1,c1,d1,e1],第四組次數(shù)對應的一維數(shù)組為[b2,c2,d2,e2]。
在一實施例中,可以將第三組詞中的每一個詞在第三組次數(shù)中的次數(shù)與該每一個詞在第四組次數(shù)中的次數(shù)相乘,得到與第三組次數(shù)所包含元素數(shù)量相對應的多個計算結(jié)果,將多個計算結(jié)果相加,得到第一參數(shù)值,例如,將“需要”、“相似性”、“測試”、“網(wǎng)頁”分別在待匹配網(wǎng)頁出現(xiàn)的次數(shù)與在違禁網(wǎng)頁中出現(xiàn)的次數(shù)相乘,得到b1*b2、c1*c2、d1*d2、e1*e2,共四個計算結(jié)果,將該四個計算結(jié)果相加,得到:θ=b1*b2+c1*c2+d1*d2+e1*e2。可以理解的是,除了計算乘積加和之外,還可以采用其他形式的第三參數(shù)算法,例如計算帶加權(quán)的乘積加和等等。
上述步驟204中,當相似度值為余弦距離值時,待匹配網(wǎng)頁與第1個違禁網(wǎng)頁之間的相似度值
本實施例中,由于相似度值的計算參考了待匹配網(wǎng)頁中被分詞后得到的全部詞以及樣本庫中的違禁網(wǎng)頁中的分詞后得到的全部詞,因此該相似度值可以充分表示待匹配網(wǎng)頁與樣本庫中的違禁網(wǎng)頁之間的相似性,當相似度值達到一定程度時,即可表示待匹配網(wǎng)頁與違禁網(wǎng)頁之間非常相似,進而可以通過相似度值來準確地判斷待匹配網(wǎng)頁是否為違禁網(wǎng)頁。
圖3a示出了根據(jù)本發(fā)明的再一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖,圖3b示出了根據(jù)本發(fā)明的又一示例性實施例的識別違禁網(wǎng)頁的方法所適用的架構(gòu)圖;如圖3a所示,包括如下步驟:
步驟301,確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組,第一二維數(shù)組包括網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在網(wǎng)頁正文中出現(xiàn)的次數(shù)。
步驟302,從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù)。
步驟303,依次確定第一二維數(shù)組與多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到多個第二二維數(shù)組各自對應的多個相似度值。
步驟304,確定多個相似度值中最大的相似度值是否大于第一預設閾值,如果多個相似度值中最大的相似度值大于第一預設閾值,執(zhí)行步驟304,如果多個相似度值中最大的相似度值小于第一預設閾值,執(zhí)行步驟305。
步驟305,如果多個相似度值中最大的相似度值大于第一預設閾值,確定待匹配網(wǎng)頁為違禁網(wǎng)頁,流程結(jié)束。
步驟306,如果多個相似度值中最大的相似度值小于第一預設閾值,確定多個相似度值中最大的相似度值是否大于第二預設閾值,其中,第二預設閾值小于第一預設閾值,如果多個相似度值中最大的相似度值大于第二預設閾值,執(zhí)行步驟307,如果多個相似度值中最大的相似度值小于第二預設閾值,執(zhí)行步驟309。
步驟307,如果多個相似度值中最大的相似度值大于第二預設閾值,確定待匹配網(wǎng)頁為疑似違禁網(wǎng)頁。
步驟308,將待匹配網(wǎng)頁添加到樣本庫中,流程結(jié)束。
步驟309,如果多個相似度值中最大的相似度值小于第二預設閾值,確定待匹配網(wǎng)頁為正常網(wǎng)頁,流程結(jié)束。
步驟301-步驟303、步驟305的相關(guān)描述可以參見上述圖1所示實施例的相關(guān)描述,在此不再詳述。
上述步驟304中,在一實施例中,第一預設閾值可以在最初設定,通過后期對待匹配網(wǎng)頁監(jiān)控的準確度來更新該第一預設閾值。
上述步驟306中,第二預設閾值的設置方式可以與第一預設閾值的設置方式相同,在此不再詳述。
如圖3b所示,例如,樣本庫中的100個違禁網(wǎng)頁中,待匹配網(wǎng)頁與100個違禁網(wǎng)頁對應有100個相似度值,如果待匹配網(wǎng)頁與第1個違禁網(wǎng)頁之間的相似度值在該100個相似度值中最大,當待匹配網(wǎng)頁與第1個違禁網(wǎng)頁之間的相似度值大于第一預設閾值時,即可通過步驟305確定待匹配網(wǎng)頁為違禁網(wǎng)頁。
如果該待匹配網(wǎng)頁與第1個違禁網(wǎng)頁之間的相似度值小于第一預設閾值,為了避免由于樣本庫中的違禁網(wǎng)頁的樣本量不夠大時導致待匹配網(wǎng)頁檢測錯誤,可以通過第二預設閾值對該相似度值做進一步的判斷,確定該相似度值與第二預設閾值的大小關(guān)系,如果該相似度值小于第二預設閾值,則可將該待匹配網(wǎng)頁視為正常網(wǎng)頁,如果該相似度值位于第一預設閾值與第二預設閾值之間,則視為該待匹配網(wǎng)頁為疑似違禁網(wǎng)頁,可以通過進一步人工審核的方式確定該待匹配網(wǎng)頁是否為違禁網(wǎng)頁,如果為違禁網(wǎng)頁,則將該待匹配網(wǎng)頁更新到樣本庫中,從而豐富樣本庫中的違禁網(wǎng)頁的類型。
對于樣本庫中的違禁網(wǎng)頁,最初可以通過人工方式收集,并通過本申請圖4所示實施例中的方式提取違禁網(wǎng)頁中的網(wǎng)頁正文,之后,可以通過本實施例的方式更新樣本庫。
本實施例在具有上述實施例的有益技術(shù)效果的基礎上,如果相似度值位于第一預設閾值和第二預設閾值之間,通過將該待匹配網(wǎng)頁更新到樣本庫中,從而可以自動化豐富樣本庫,進而確保后期對待匹配網(wǎng)頁的監(jiān)控更準確。
圖4示出了根據(jù)本發(fā)明的又一示例性實施例的識別違禁網(wǎng)頁的方法的流程示意圖;如圖4所示,包括如下步驟:
步驟401,對待匹配網(wǎng)頁中的內(nèi)容進行預處理。
步驟402,確定預處理后的待匹配網(wǎng)頁的起始行和結(jié)尾行。
步驟403,當起始行和結(jié)尾行之間的距離大于設定閾值時,確定起始行和結(jié)尾行之間的內(nèi)容為網(wǎng)頁正文。
在上述步驟401中,可以將js/css/html注釋等與網(wǎng)頁正文無關(guān)的字符過濾掉,保留換行。
在上述步驟402中,逐行讀取預處理之后的網(wǎng)頁正文中的內(nèi)容,根據(jù)網(wǎng)頁類型設置合適的閾值,當讀取的當前行的文本字符數(shù)大于該合適的閾值,并且該當前行之后的一行仍然為文本,則可將該行設定為起始行。從起始行繼續(xù)讀取網(wǎng)頁內(nèi)容,直到確定其中的一行的長度為0,并且在該行之后的文本長度也為0,則可確保該行之后沒有其他正文塊,將該行記為結(jié)尾行。
在上述步驟403中,可以起始行和結(jié)尾行之間的距離與設定閾值進行比較,如果大于該設定閾值,則可確定起始行和結(jié)尾行之間的內(nèi)容為網(wǎng)頁正文。
此外,還可以對被記為正文的文本去噪,例如,可以濾除網(wǎng)頁正文的結(jié)尾處的“分享到…”,從而確保提取的網(wǎng)頁正文的準確性。
本領(lǐng)域技術(shù)人員可以理解的是,對于本申請中樣本庫中違禁網(wǎng)頁,同樣可以采用本實施例中的方法獲取到違禁網(wǎng)頁的網(wǎng)頁正文,從而提高網(wǎng)頁識別的準確率。
本實施例中,通過提取待匹配網(wǎng)頁中的網(wǎng)頁正文,可以確保網(wǎng)頁正文中的詞具有比現(xiàn)有技術(shù)中的網(wǎng)頁上的關(guān)鍵詞匹配更具針對性,同時,由于將與網(wǎng)頁正文無關(guān)的內(nèi)容已經(jīng)濾除,因此可以避免待匹配網(wǎng)頁的側(cè)邊欄中的無關(guān)內(nèi)容對網(wǎng)頁正文內(nèi)容的干擾,從而可以確保待匹配網(wǎng)頁的識別具有更準確的命中率。
對應于上述的識別違禁網(wǎng)頁的方法,本申請還提出了圖5所示的根據(jù)本發(fā)明的一示例性實施例的服務器的示意結(jié)構(gòu)圖。請參考圖5,在硬件層面,該服務器包括處理器、內(nèi)部總線、網(wǎng)絡接口、內(nèi)存以及非易失性存儲器,當然還可能包括其他業(yè)務所需要的硬件。處理器從非易失性存儲器中讀取對應的計算機程序到內(nèi)存中然后運行,在邏輯層面上形成識別違禁網(wǎng)頁的裝置。當然,除了軟件實現(xiàn)方式之外,本申請并不排除其他實現(xiàn)方式,比如邏輯器件抑或軟硬件結(jié)合的方式等等,也就是說以下處理流程的執(zhí)行主體并不限定于各個邏輯單元,也可以是硬件或邏輯器件。
圖6為根據(jù)本發(fā)明的一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖;如圖6所示,該識別違禁網(wǎng)頁的裝置可以包括:第一確定模塊61、獲取模塊62、第二確定模塊63、第三確定模塊64。其中:
第一確定模塊61,用于確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的第一二維數(shù)組,第一二維數(shù)組包括網(wǎng)頁正文經(jīng)過分詞得到的全部詞以及每一詞在網(wǎng)頁正文中出現(xiàn)的次數(shù);
獲取模塊62,用于從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,多個第二二維數(shù)組中的每一個第二二維數(shù)組包括對應違禁網(wǎng)頁經(jīng)過分詞得到的全部詞以及每一個詞在該對應違禁網(wǎng)頁中出現(xiàn)的次數(shù);
第二確定模塊63,用于依次確定第一確定模塊61得到的第一二維數(shù)組與獲取模塊62獲取到的多個第二二維數(shù)組中的每一個第二二維數(shù)組對應的相似度值,得到多個第二二維數(shù)組各自對應的多個相似度值;
第三確定模塊64,用于如果第二確定模塊63確定多個相似度值中最大的相似度值大于第一預設閾值,確定待匹配網(wǎng)頁為違禁網(wǎng)頁。
根據(jù)本申請的另一具體實施方式:第一確定模塊61、獲取模塊62、第二確定模塊63以及第三確定模塊64還可以有其他功能配置方式,其中:
第一確定模塊61,用于確定待匹配網(wǎng)頁的網(wǎng)頁正文對應的待匹配二維數(shù)組,待匹配二維數(shù)組包括:網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在網(wǎng)頁正文中出現(xiàn)的次數(shù);
獲取模塊62,用于從樣本庫中獲取與多個違禁網(wǎng)頁對應的多個樣本二維數(shù)組,多個樣本二維數(shù)組中的每一個樣本二維數(shù)組包括:對應違禁網(wǎng)頁正文經(jīng)過分詞得到的分詞子串以及每一分詞子串在該對應違禁網(wǎng)頁正文中出現(xiàn)的次數(shù);
第二確定模塊63,用于確定第一確定模塊61得到的待匹配二維數(shù)組與獲取模塊62獲取到的至少一個樣本二維數(shù)組對應的相似度值,得到至少一個樣本二維數(shù)組對應的相似度值;
第三確定模塊64,用于如果存在至少一個相似度值大于第一預設閾值,確定待匹配網(wǎng)頁為違禁網(wǎng)頁。
圖7示出了根據(jù)本發(fā)明的另一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖,如圖7所示,在上述圖6所示實施例的基礎上,網(wǎng)頁正文的全部詞各自對應的次數(shù)定義為第一組次數(shù),多個違禁網(wǎng)頁中的每一個違禁網(wǎng)頁的全部詞各自對應的次數(shù)定義為第二組次數(shù),多個第二二維數(shù)組對應多個第二組次數(shù);第二確定模塊63可包括:
第一確定單元631,用于根據(jù)第一組次數(shù)確定第一參數(shù)值,以及根據(jù)第二組次數(shù)確定第二參數(shù)值;
第二確定單元632,用于確定同時出現(xiàn)在第一二維數(shù)組與該第二二維數(shù)組的第三組詞,以及確定該第三組詞在第一二維數(shù)組和該第二二維數(shù)組中分別記錄的第三組次數(shù)和第四組次數(shù);
第三確定單元633,用于根據(jù)第二確定單元632確定的第三組次數(shù)與第四組次數(shù),確定第三參數(shù)值;
第四確定單元634,用于根據(jù)第一確定單元631確定的第一參數(shù)值、第二確定單元632確定的第二參數(shù)值、第三確定單元633確定的第三參數(shù)值,基于余弦距離計算方法,確定第一二維數(shù)組與對應的第二二維數(shù)組的相似度值。
根據(jù)本申請的另一具體實施方式:第一確定單元631、第二確定單元632、第三確定單元633以及第四確定單元634還可以有其他功能配置方式,其中:
第一確定單元631,用于根據(jù)第一組次數(shù),利用預設的第一參數(shù)算法確定第一參數(shù)值,以及根據(jù)第二組次數(shù),利用預設的第二參數(shù)算法確定第二參數(shù)值;
第二確定單元632,用于確定同時出現(xiàn)在待匹配二維數(shù)組與該樣本二維數(shù)組的第三組分詞子串,以及確定該第三組分詞子串在待匹配二維數(shù)組和該樣本二維數(shù)組中分別記錄的第三組次數(shù)和第四組次數(shù);
第三確定單元633,用于根據(jù)第二確定單元632確定的第三組次數(shù)與第四組次數(shù),利用預設的第三參數(shù)算法確定第三參數(shù)值;
第四確定單元634,用于根據(jù)第一確定單元631確定的第一參數(shù)值、第二確定單元632確定的第二參數(shù)值、第三確定單元633確定的第三參數(shù)值,基于余弦距離計算方法,確定待匹配二維數(shù)組與對應的樣本二維數(shù)組的相似度值。
在一實施例中,第一確定單元631可包括:
第一計算子單元6311,用于計算第一組詞中的每一個詞對應的次數(shù)的平方,得到多個第一平方值;
第一加法子單元6312,用于計算第一計算子單元6311計算得到的多個第一平方值的和值,得到第一參數(shù)值。
在一實施例中,第二確定單元632可包括:
第二計算子單元6321,用于計算第二組詞中的每一個詞對應的次數(shù)的平方,得到多個第二平方值;
第二加法子單元6322,用于計算第二計算子單元6321得到的多個第二平方值的和值,得到第二參數(shù)值。
在一實施例中,第三確定單元633可包括:
第三計算子單元6331,用于將第三組詞中的每一個詞在第三組次數(shù)中的次數(shù)與該每一個詞在第四組次數(shù)中的次數(shù)相乘,得到第三組次數(shù)中的數(shù)量相對應的多個計算結(jié)果;
第三加法子單元6332,用于計算第三計算子單元6331得到的多個計算結(jié)果相加,得到第三參數(shù)值。
在一實施例中,第二確定模塊63可包括:
第一確定單元635,用于確定同時出現(xiàn)在第一二維數(shù)組與該第二二維數(shù)組的第三組詞,以及確定該第三組詞在第一二維數(shù)組和該第二二維數(shù)組中分別記錄的第三組次數(shù)和第四組次數(shù);
第二確定單元636,用于根據(jù)第一確定單元635確定的第三組次數(shù)與第四組次數(shù),基于歐氏距離計算方法,確定第一二維數(shù)組與對應的第二二維數(shù)組的相似度值。
本實施例中,第二確定單元632與第一確定單元635可以合并為同一個功能模塊。
圖8示出了根據(jù)本發(fā)明的再一示例性實施例的識別違禁網(wǎng)頁的裝置的結(jié)構(gòu)示意圖,如圖8所示,在上述圖6所示實施例的基礎上,在一實施例中,裝置還可包括:
第四確定模塊64,用于如果第二確定模塊62得到的多個相似度值中最大的相似度值小于第一預設閾值,確定多個相似度值中最大的相似度值是否大于第二預設閾值,其中,第二預設閾值小于第一預設閾值;
第五確定模塊65,用于如果第四確定模塊64確定多個相似度值中最大的相似度值大于第二預設閾值,確定待匹配網(wǎng)頁為疑似違禁網(wǎng)頁;
添加模塊66,用于將待匹配網(wǎng)頁添加到樣本庫中;
第六確定模塊67,用于如果第四確定模塊65確定多個相似度值中最大的相似度值小于第二預設閾值,確定待匹配網(wǎng)頁為正常網(wǎng)頁。
圖9示出了根據(jù)本發(fā)明的又一示例性實施例的識別網(wǎng)頁內(nèi)容的裝置的結(jié)構(gòu)示意圖,如圖9所示,在上述圖6所示實施例的基礎上,第一確定模塊61可包括:
分詞單元611,用于對待匹配網(wǎng)頁的網(wǎng)頁正文進行分詞,得到網(wǎng)頁正文中的每一個詞及每一個詞在網(wǎng)頁正文中出現(xiàn)的次數(shù);
第五確定單元612,用于通過分詞單元611得到的每一個詞和每一個詞對應的次數(shù)確定網(wǎng)頁正文對應的第一二維數(shù)組,第一二維數(shù)組用于表示待匹配網(wǎng)頁的網(wǎng)頁內(nèi)容。
在一實施例中,裝置還可包括:
預處理模塊68,用于對待匹配網(wǎng)頁中的內(nèi)容進行預處理;
第七確定模塊69,用于確定預處理模塊68預處理后的待匹配網(wǎng)頁的起始行和結(jié)尾行;
第八確定模塊60,用于當?shù)谄叽_定模塊69確定起始行和結(jié)尾行之間的距離大于設定閾值時,確定起始行和結(jié)尾行之間的內(nèi)容為網(wǎng)頁正文,第一確定模塊61確定第八確定模塊60得到的網(wǎng)頁正文對應的第一二維數(shù)組。
上述實施例可見,本申請中通過獲取樣本庫中已經(jīng)的多個違禁網(wǎng)頁對應的多個第二二維數(shù)組,通過第一二維數(shù)組與多個第二二維數(shù)組的相似度值來確定待匹配網(wǎng)頁是否為違禁網(wǎng)頁,可以避免現(xiàn)有技術(shù)中通過關(guān)鍵詞檢測時由于關(guān)鍵詞的變形得到錯誤的檢測結(jié)果,提高對待匹配網(wǎng)頁監(jiān)控的準確度。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本申請的其它實施方案。本申請旨在涵蓋本申請的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本申請的一般性原理并包括本申請未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本申請的真正范圍和精神由下面的權(quán)利要求指出。
還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
以上所述僅為本申請的較佳實施例而已,并不用以限制本申請,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內(nèi)。