欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

作弊網(wǎng)頁(yè)識(shí)別方法及裝置的制作方法

文檔序號(hào):6400062閱讀:244來(lái)源:國(guó)知局
專利名稱:作弊網(wǎng)頁(yè)識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)信息檢索領(lǐng)域,尤其涉及一種作弊網(wǎng)頁(yè)識(shí)別方法及裝置。
背景技術(shù)
在當(dāng)前互聯(lián)網(wǎng)信息爆炸式增長(zhǎng)的背景下,搜索引擎已成為人們根據(jù)自身需要進(jìn)入互聯(lián)網(wǎng)世界的重要入口之一。因此,網(wǎng)頁(yè)在搜索引擎中的排名位置在相當(dāng)程度上影響著該網(wǎng)頁(yè)的訪問(wèn)量。為了獲得到更高的訪問(wèn)量,進(jìn)而獲取更多的經(jīng)濟(jì)效益,網(wǎng)站總是希望自己的頁(yè)面出現(xiàn)在搜索引擎返回結(jié)果中排名靠前的位置。通過(guò)提高頁(yè)面的質(zhì)量,使其內(nèi)容與用戶查詢更相關(guān)、更加契合用戶的需要,是常規(guī)的提高頁(yè)面排名的方法。然而,一些網(wǎng)頁(yè)根據(jù)搜索引擎的特點(diǎn)采取有針對(duì)性的欺騙手段,而不是提高自身的內(nèi)容質(zhì)量,使得其獲得非公平的查詢相關(guān)性和價(jià)值重要性,從而提高其在搜索引擎中的排名。這樣的網(wǎng)頁(yè)就是所謂的作弊網(wǎng)頁(yè)?;ヂ?lián)網(wǎng)中的作弊網(wǎng)頁(yè)對(duì)搜索引擎的性能產(chǎn)生了不可忽視的負(fù)面影響。一方面,作弊網(wǎng)頁(yè)導(dǎo)致搜索引擎將相關(guān)度弱或權(quán)威性低的網(wǎng)頁(yè)展現(xiàn)給用戶,直接影響了用戶所獲得的查詢結(jié)果;另一方面,作弊網(wǎng)頁(yè)還導(dǎo)致搜索引擎索引大量?jī)?nèi)容質(zhì)量低或重要性差的信息,從而增加了無(wú)謂的索引空間開(kāi)銷和檢索時(shí)間開(kāi)銷。因此,識(shí)別作弊頁(yè)面成為高效搜索引擎所不可或缺的關(guān)鍵技術(shù)之一?,F(xiàn)有的作弊網(wǎng)頁(yè)主要包括以下四類:基于內(nèi)容的作弊、基于鏈接的作弊、基于掩蓋的作弊和基于跳轉(zhuǎn)的作弊等。基于內(nèi)容的作弊指通過(guò)在網(wǎng)頁(yè)的標(biāo)題、頁(yè)面以及不可見(jiàn)的文本區(qū)域中添加或者堆砌熱門的查詢?cè)~匯,使該網(wǎng)頁(yè)能夠在搜索熱門詞匯時(shí)被檢索出來(lái),同時(shí)獲得較高的相關(guān)度評(píng)分,從而提升網(wǎng)頁(yè)排車的作弊方式;基于鏈接的作弊指通過(guò)在網(wǎng)頁(yè)中添加若干鏈接,構(gòu)建出用于誤導(dǎo)PageRank算法的鏈接結(jié)構(gòu),從而提升網(wǎng)頁(yè)的權(quán)威性以獲得優(yōu)先排名的作弊手段;基于掩蓋的作弊是指頁(yè)面內(nèi)容在被搜索引擎抓取和實(shí)際點(diǎn)擊過(guò)程不一致,進(jìn)而欺騙搜索引擎的作弊行為;基于跳轉(zhuǎn)的作弊指利用重定向技術(shù),從當(dāng)前網(wǎng)頁(yè)跳轉(zhuǎn)至另一個(gè)頁(yè)面,從而改變網(wǎng)頁(yè)可見(jiàn)內(nèi)容的作弊方式。面對(duì)上述的作弊手段和方式,大量的作弊網(wǎng)頁(yè)檢測(cè)方法和反作弊策略應(yīng)運(yùn)而生。其中,基于機(jī)器學(xué)習(xí)的方法由于其在理論上有著堅(jiān)實(shí)的基礎(chǔ),同時(shí)在實(shí)踐中也取得了優(yōu)于其他方法的反作弊效果,因此在業(yè)界被廣泛采用。例如,相關(guān)技術(shù)中提供了一種搜索引擎作弊檢測(cè)的優(yōu)化方法,以及一種基于小樣本集的搜索引擎作弊檢測(cè)方法,這些方法中提供了基于機(jī)器學(xué)習(xí)的作弊網(wǎng)頁(yè)檢測(cè)方法,其百先從頁(yè)面中提取特征,然后根據(jù)已知的網(wǎng)頁(yè)樣本利用機(jī)器學(xué)習(xí)方法訓(xùn)練模型,最后利用模型對(duì)作弊網(wǎng)頁(yè)進(jìn)行識(shí)別。需要指出的是,搜索引擎的反作弊策略和作弊頁(yè)面制造者之間一直處于針?shù)h相對(duì)的狀態(tài)。當(dāng)某網(wǎng)站中的作弊頁(yè)面被反作弊策略控制,網(wǎng)站相關(guān)人員將會(huì)在原有作弊頁(yè)面的基礎(chǔ)上衍生出新的作弊頁(yè)面,力圖躲避原有的反作弊策略的識(shí)別和處理。這就意味著,反作弊策略如果僅僅能夠?qū)Ξ?dāng)前環(huán)境中的作弊網(wǎng)頁(yè)進(jìn)行甄別,那么它還不能較好地滿足實(shí)際需要。只有能夠在當(dāng)前識(shí)別能力的基礎(chǔ)上不斷迭代改進(jìn),進(jìn)而在面對(duì)不斷變化的作弊網(wǎng)頁(yè)時(shí)保持可控的召回水平,反作弊策略才能持續(xù)發(fā)揮作用。因此,相關(guān)技術(shù)中提出通過(guò)不斷地增加、刪除和修改網(wǎng)頁(yè)特征的方式,以期在不修改方法結(jié)構(gòu)的前提下滿足對(duì)新型作弊頁(yè)面的識(shí)別要求。然而,特征的調(diào)整主要源于新型作弊網(wǎng)頁(yè)。這意味著,調(diào)整后的特征在原有的網(wǎng)頁(yè)樣本中表現(xiàn)得并不典型。因此,如果僅僅調(diào)整網(wǎng)頁(yè)特征往往還不足以很好地應(yīng)對(duì)新型的作弊網(wǎng)頁(yè)。只有根據(jù)頁(yè)面特征的調(diào)整情況,適時(shí)地添加有針對(duì)性的網(wǎng)頁(yè)樣本(包括作弊和正常的網(wǎng)頁(yè)),才能使反作弊的有效性保持在相對(duì)穩(wěn)定的水平。對(duì)于作弊網(wǎng)頁(yè)而言,盡管其在整體網(wǎng)頁(yè)中的絕對(duì)占比不算低,但在短時(shí)間內(nèi)尋找到特征調(diào)整所需的作弊頁(yè)面卻需要花費(fèi)不菲的代價(jià)。對(duì)于正常網(wǎng)頁(yè)而言,盡管獲取成本低,但是從中選擇出有較強(qiáng)代表性和典型性,同時(shí)又與原有模型配合最佳的實(shí)例,也并非輕而易舉。由上述分析可知,為了使基于機(jī)器學(xué)習(xí)作弊頁(yè)面識(shí)別方法的召回能力始終保持在較好水平,網(wǎng)頁(yè)的獲取和標(biāo)注過(guò)程十分關(guān)鍵。由于該過(guò)程需要付出較多的人力成本,因此提高這一環(huán)節(jié)的效率對(duì)于提高作弊頁(yè)面識(shí)別方法的整體性能影響重大。遺憾的是,相關(guān)技術(shù)未能有效解決這一間題。針對(duì)相關(guān)技術(shù)中基于機(jī)器學(xué)習(xí)的作弊頁(yè)面識(shí)別方法對(duì)于新型作弊網(wǎng)頁(yè)識(shí)別效果較差的問(wèn)題,目前尚未提出有效的解決方案。

發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種作弊網(wǎng)頁(yè)識(shí)別方法及裝置,以至少解決相關(guān)技術(shù)中基于機(jī)器學(xué)習(xí)的作弊頁(yè)面識(shí)別方法對(duì)于新型作弊網(wǎng)頁(yè)識(shí)別效果較差的問(wèn)題。根據(jù)本發(fā)明的一個(gè)方面,提供了一種作弊網(wǎng)頁(yè)識(shí)別方法,包括:獲取已知網(wǎng)頁(yè)樣本的集合,其中,所述已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,所述未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整;使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。優(yōu)選地,根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整包括:使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集;將所述正常頁(yè)面子集與所述作弊頁(yè)面子集中的所述未知網(wǎng)頁(yè)樣本進(jìn)行逐一交換,并重新計(jì)算所述初始支持向量機(jī)的模型參數(shù),直至所述正常頁(yè)面子集與所述作弊頁(yè)面子集的間隔不再擴(kuò)大;使用最終得到的所述正常頁(yè)面子集與所述作弊頁(yè)面子集對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。優(yōu)選地,根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整包括使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面于集和作弊頁(yè)面子集;分別獲取所述正常頁(yè)面子集和所述作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁(yè)面子集以及所述作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本數(shù)量;在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機(jī)對(duì)所述候選的標(biāo)注樣本的判斷結(jié)果不同時(shí),將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁(yè)樣本的集合;使用最終得到的所述已知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。優(yōu)選地,在根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)之前,還包括:將所述已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁(yè)特征包括以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征。優(yōu)選地,根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)包括:將所述已知網(wǎng)頁(yè)樣本的集合分為第一子集和第二子集;根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);使用所述第二子集對(duì)所述初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。根據(jù)本發(fā)明的另一方面,還提供了一種作弊網(wǎng)頁(yè)識(shí)別裝置,包括:第一獲取模塊,用于獲取已知網(wǎng)頁(yè)樣本的集合,其中,所述已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;生成模塊,用于根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);第二獲取模塊,用于獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,所述未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;調(diào)整模塊,用于根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整;判斷模塊,用于使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。優(yōu)選地,所述調(diào)整模塊包括:第一劃分單元,用于使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集:第一處理單元,用于將所述正常頁(yè)面子集與所述作弊頁(yè)面子集中的所述未知網(wǎng)頁(yè)樣本進(jìn)行逐一交換,并重新計(jì)算所述初始支持向量機(jī)的模型參數(shù),直至所述正常頁(yè)面子集與所述作弊頁(yè)面子集的間隔不再擴(kuò)大:第一調(diào)整單元,用于使用最終得到的所述正常頁(yè)面子集與所述作弊頁(yè)面子集對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。優(yōu)選地,所述調(diào)整模塊包括:第二劃分單元,用于使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集:獲取單元,用于分別獲取所述正常頁(yè)面子集和所述作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁(yè)面子集以及所述作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本數(shù)量;第二處理單元,用于在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機(jī)對(duì)所述候選的標(biāo)注樣本的判斷結(jié)果不同時(shí),將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁(yè)樣本的集合;第二調(diào)整單元,用于使用最終得到的所述已知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。優(yōu)選地,所述裝置還包括:轉(zhuǎn)化模塊,用于將所述已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁(yè)特征包括以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征。優(yōu)選地,所述生成模塊包括:第三劃分單元,用于將所述已知網(wǎng)頁(yè)樣本的集合分為第一子集和第二子集;生成單元,用于根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);測(cè)試單元,用于使用所述第二子集對(duì)所述初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。根據(jù)本發(fā)明的技術(shù)方案,采用獲取已知網(wǎng)頁(yè)樣本的集合,其中,該已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)上述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,該未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)上述未知網(wǎng)頁(yè)樣本的集合對(duì)上述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整;使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)的方式,解決了相關(guān)技術(shù)中基于機(jī)器學(xué)習(xí)的作弊頁(yè)面識(shí)別方法對(duì)于新型作弊網(wǎng)頁(yè)識(shí)別效果較差的問(wèn)題,提升了對(duì)于新型作弊網(wǎng)頁(yè)的識(shí)別效果。


說(shuō)明書附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別方法的流程2是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)框圖;圖3是根據(jù)本發(fā)明實(shí)施例的調(diào)整模塊的優(yōu)選結(jié)構(gòu)框圖;圖4是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別裝置的優(yōu)選結(jié)構(gòu)框圖;圖5是根據(jù)本發(fā)明實(shí)施例的生成模塊的優(yōu)選結(jié)構(gòu)框圖;圖6是根據(jù)本發(fā)明實(shí)施例一的基于半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別方法的各步驟流程圖;圖7是根據(jù)本發(fā)明實(shí)施例一的基于半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)框圖;圖8是根據(jù)本發(fā)明實(shí)施例二的樣本預(yù)處理步驟的優(yōu)選流程圖;圖9是根據(jù)本發(fā)明實(shí)施例二的基于半監(jiān)督學(xué)習(xí)識(shí)別模型訓(xùn)練步驟的優(yōu)選流程10是根據(jù)本發(fā)明實(shí)施例二的基于主動(dòng)學(xué)習(xí)的網(wǎng)頁(yè)樣本添加步驟的優(yōu)選流程圖。
具體實(shí)施例方式需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。雖然相關(guān)技術(shù)中提供了基于機(jī)器學(xué)習(xí)的作弊網(wǎng)頁(yè)檢測(cè)方法,并提出通過(guò)增加、刪除和修改網(wǎng)頁(yè)特征,保持系統(tǒng)對(duì)作弊識(shí)別的有效性。然而,對(duì)于如何通過(guò)添加針對(duì)性樣本的問(wèn)題,相關(guān)技術(shù)中均未提及。因此,在本實(shí)施例中提供了一種作弊網(wǎng)頁(yè)識(shí)別方法,圖1是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別方法的流程圖,如圖1所示,該方法包括如下步驟:步驟S102,獲取已知網(wǎng)頁(yè)樣本的集合,其中,該已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;步驟S104,根掘上述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);步驟S106,獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,該未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;步驟S108,根據(jù)上述未知網(wǎng)頁(yè)樣本的集合對(duì)上述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整,這里可以重復(fù)執(zhí)行S106-S108的步驟,繼續(xù)獲取未知網(wǎng)頁(yè)樣本,以持續(xù)更新支持向量機(jī)的模型參數(shù):步驟S110,使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。本實(shí)施例通過(guò)上述步驟,在根據(jù)已知網(wǎng)頁(yè)樣本的集合生成初始的用于判斷是否為作弊網(wǎng)頁(yè)的支持向量機(jī)之后,再根據(jù)未知網(wǎng)頁(yè)樣本集合(該未知網(wǎng)頁(yè)樣本集合優(yōu)選地可以包含具有統(tǒng)計(jì)意義數(shù)量的未知網(wǎng)頁(yè)樣本)對(duì)初始的支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整,并使用調(diào)整后的支持向量機(jī)對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行作弊判斷,由于調(diào)整后的支持向量機(jī)的模型參數(shù)中考慮了未知網(wǎng)頁(yè)樣本集合,從而相比使用只考慮已知網(wǎng)頁(yè)樣本集合的初始支持向量機(jī)進(jìn)行作弊判斷而言,調(diào)整后的支持向量機(jī)對(duì)于新型作弊網(wǎng)頁(yè)的判斷更加快速和準(zhǔn)確,解決了相關(guān)技術(shù)中基于機(jī)器學(xué)習(xí)的作弊頁(yè)面識(shí)別方法對(duì)于新型作弊網(wǎng)頁(yè)識(shí)別效果較差的問(wèn)題,提升了對(duì)于新型作弊網(wǎng)頁(yè)的識(shí)別效果。優(yōu)選地,上述步驟S108中根據(jù)未知網(wǎng)頁(yè)樣本的集合對(duì)初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整的方式可以包括兩種,一種方式是半監(jiān)督學(xué)習(xí)方式,一種是主動(dòng)學(xué)習(xí)方式,下面對(duì)這兩種方式分別進(jìn)行說(shuō)明:方式一(半監(jiān)督學(xué)習(xí)方式),該方式可以首先使用初始支持向量機(jī)將未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集,然后將正常頁(yè)面子集與作弊頁(yè)面子集中的元素(即未知網(wǎng)頁(yè)樣本)進(jìn)行逐一交換,并重新計(jì)算初始支持向量機(jī)的模型參數(shù),擴(kuò)大正常頁(yè)面子集與作弊頁(yè)面子集之間的間隔,直至正常頁(yè)面子集與作弊頁(yè)面子集的間隔不再擴(kuò)大為止,使用最終得到的正常頁(yè)面子集與作弊頁(yè)面子集對(duì)初始支持向量機(jī)參數(shù)進(jìn)行調(diào)整。此時(shí)根據(jù)最終調(diào)整得到的參數(shù)即可獲得最終調(diào)整后的支持向量機(jī)。方式二(主動(dòng)學(xué)習(xí)方式),該方式也可以是首先使用初始支持向量機(jī)將末知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集,然后,分別獲取正常頁(yè)面子集和作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中該預(yù)設(shè)第二數(shù)量是小于正常頁(yè)面子集以及作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本數(shù)量的。經(jīng)過(guò)人工對(duì)候選的標(biāo)注樣本進(jìn)行標(biāo)注后,如果發(fā)現(xiàn)候選的標(biāo)注樣本的人工標(biāo)注結(jié)果與初始支持向量機(jī)對(duì)候選的標(biāo)注樣本的判斷結(jié)果不同,例如,正常頁(yè)面子集中的候選標(biāo)注樣本的人工標(biāo)注結(jié)果為作弊網(wǎng)頁(yè),或者作弊頁(yè)面子集中的候選標(biāo)注樣本的人工標(biāo)注結(jié)果為正常網(wǎng)頁(yè),則可以將候選的標(biāo)注樣本按照人工標(biāo)注的結(jié)果添加至已知網(wǎng)頁(yè)樣本的集合中。此時(shí)由于已知網(wǎng)頁(yè)樣本集合發(fā)生改變,則可以使用改變的已知網(wǎng)頁(yè)樣本集合對(duì)初始支持向量機(jī)參數(shù)進(jìn)行調(diào)整,根據(jù)最終調(diào)整得到的參數(shù)即可獲得最終調(diào)整后的支持向量機(jī)。優(yōu)選地,在根據(jù)已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)之前,還可以對(duì)已知網(wǎng)頁(yè)樣本集合進(jìn)行一些預(yù)處理,以方便支持向量機(jī)的生成,例加,可以將已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征分別轉(zhuǎn)化為特征向量,其中,上述網(wǎng)頁(yè)特征可以包括但不限于以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征
坐寸ο優(yōu)選地,步驟S104中根據(jù)已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)的方式可以為:將已知網(wǎng)頁(yè)樣本的集合分為第一子集(例如,可以稱為訓(xùn)練子集)和第二子集(例如,可以稱為測(cè)試子集),然后根據(jù)第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī),最后使用第二子集對(duì)初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。通過(guò)這種邊學(xué)習(xí)邊驗(yàn)證的方式,保證了初始支持向量機(jī)對(duì)于已知網(wǎng)頁(yè)樣本集合的判斷準(zhǔn)確性。
對(duì)應(yīng)于上述方法,在本實(shí)施例中還提供了一種作弊網(wǎng)頁(yè)識(shí)別裝置,該裝置用于實(shí)現(xiàn)上述實(shí)施例及優(yōu)選實(shí)施方式,已經(jīng)進(jìn)行過(guò)說(shuō)明的不再贅述。加以下所使用的,術(shù)語(yǔ)"模塊"可以實(shí)現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實(shí)施例所描述的裝置較住地以軟件來(lái)實(shí)現(xiàn),但是硬件,或者軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。圖2是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)框圖,如圖2所示,該裝置包括:第一獲取模塊22、生成模塊24、第二獲取模塊26、調(diào)整模塊28、以及判斷模塊30,下面對(duì)各個(gè)模塊進(jìn)行詳細(xì)說(shuō)明。第一獲取模塊22,用于獲取已知網(wǎng)頁(yè)樣本的集合,其中,已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;生成模塊24,與第一獲取模塊22相連,用于根據(jù)第一獲取模塊22獲取的已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);第二獲取模塊26,用于獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;調(diào)整模塊28,與生成模塊24和第二獲取模塊26相連,用于根據(jù)第二獲取模塊26獲取的未知網(wǎng)頁(yè)樣本的集合對(duì)生成模塊24生成的初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整;判斷模塊30,與調(diào)整模塊28相連,用于使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。圖3是根據(jù)本發(fā)明實(shí)施例的調(diào)整模塊28的優(yōu)選結(jié)構(gòu)框圖,如圖3所示,調(diào)整模塊28可以包括:第一劃分單元282,用于使用初始支持向量機(jī)將未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集;第一處理單元284,與第一劃分單元282相連,用于將正常頁(yè)面子集與作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本進(jìn)行逐一交換,并重新計(jì)算初始支持向量機(jī)的模型參數(shù),直至正常頁(yè)面子集與作弊頁(yè)面子集的間隔不再擴(kuò)大;第一調(diào)整單元286,與第一處理單元284相連,用于使用第一處理單元284最終得到的正常頁(yè)面子集與作弊頁(yè)面子集對(duì)初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。優(yōu)選地,如圖3所示,調(diào)整模塊28也可以包括:第二劃分單元288,用于使用初始支持向量機(jī)將末知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集;獲取單元290,與第二劃分單元288相連,用于分別獲取正常頁(yè)面子集和作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中,該預(yù)設(shè)第二數(shù)量小于正常頁(yè)面子集以及作弊頁(yè)面子集中的末知網(wǎng)頁(yè)樣本數(shù)量;第二處理單元292,與獲取單元290相連,用于在候選的標(biāo)注樣本的標(biāo)注結(jié)果與初始支持向量機(jī)對(duì)候選的標(biāo)注樣本的判斷結(jié)果不同時(shí),將候選的標(biāo)注樣本按照標(biāo)注結(jié)果添加至已知網(wǎng)頁(yè)樣本的集合;第二調(diào)整單元294,用于使用第二處理單元292最終得到的已知網(wǎng)頁(yè)樣本的集合對(duì)初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。圖4是根據(jù)本發(fā)明實(shí)施例的作弊網(wǎng)頁(yè)識(shí)別裝置的優(yōu)選結(jié)構(gòu)框圖,如圖4所示,該裝置還可以包括:轉(zhuǎn)化模塊42,與第一獲取模塊22相連,用于將已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征轉(zhuǎn)化為特征向量,其中該網(wǎng)頁(yè)特征可以包括以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征。圖5是根據(jù)本發(fā)明實(shí)施例的生成模塊24的優(yōu)選結(jié)構(gòu)框圖,如圖5所示,生成模塊24可以包括:第三劃分單元242,用于將已知網(wǎng)頁(yè)樣本的集合分為第一子集和第二子集;生成單元244,與第三劃分單元242相連,用于根據(jù)第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);測(cè)試單元246,與生成單元244相連,用于使用第二子集對(duì)初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。
下面結(jié)合優(yōu)選實(shí)施例和附圖對(duì)上述實(shí)施例及優(yōu)選實(shí)施方式的實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)說(shuō)明。在以下優(yōu)選實(shí)施例中,以計(jì)算機(jī)信息檢索和搜索引擎技術(shù)領(lǐng)域?yàn)槔M(jìn)行說(shuō)明,提供了一種作弊網(wǎng)頁(yè)的識(shí)別方法及裝置,該方法和裝置首先能夠根據(jù)已知的網(wǎng)頁(yè)樣本生成用于識(shí)別作弊網(wǎng)頁(yè)的模型,并在此基礎(chǔ)上自動(dòng)選擇出的供模型持續(xù)迭代改進(jìn)的候選網(wǎng)頁(yè)樣本供人工標(biāo)注,從而解決了現(xiàn)有頁(yè)面作弊識(shí)別方法需要花費(fèi)大量時(shí)間和人力成本獲取網(wǎng)頁(yè)樣本以應(yīng)對(duì)新型作弊網(wǎng)頁(yè)的問(wèn)題。實(shí)施例一本優(yōu)選實(shí)施例提供了一種基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別方法,圖6是根據(jù)本發(fā)明實(shí)施例一的基于半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別方法的各步驟流程圖,如圖6所示,該方法可以包括如下步驟:步驟S602:明確所利用的網(wǎng)頁(yè)特征集合F。該步驟主要用于確定從網(wǎng)頁(yè)中所需要抽取的特征,包括內(nèi)容特征、結(jié)構(gòu)特征、鏈接關(guān)系特征等方面。步驟S604:預(yù)處理已知網(wǎng)頁(yè)樣本集合S。該步驟的目標(biāo)在于根據(jù)步驟S602確定的特征集合F,將各已知的網(wǎng)頁(yè)樣本轉(zhuǎn)化為特征向量,同時(shí)將樣本集合S劃分為用于模型訓(xùn)練和測(cè)試的兩部分。需要指出的是,在本文中的〃已知網(wǎng)頁(yè)〃指的是該網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)是已知的。步驟S606:獲取未知網(wǎng)頁(yè)樣本集合U。該步驟的目標(biāo)在于從大量的網(wǎng)頁(yè)中抽樣獲得若干樣本,網(wǎng)頁(yè)樣本是否為作弊網(wǎng)頁(yè)未知。需要指出的是,在本文中〃未知網(wǎng)頁(yè)〃指的是該網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)尚未確定。步驟S608:根據(jù)集合S和U,采用半監(jiān)督學(xué)習(xí)的方法,生成用于識(shí)別作弊網(wǎng)頁(yè)的持向量機(jī)(Support Vector Machine)模型。步驟S610利用得到的支持向量機(jī)模型,判斷某個(gè)網(wǎng)頁(yè)是否作弊,并進(jìn)行相應(yīng)處理。步驟S612向網(wǎng)頁(yè)特征集合F添加新的特征。該步驟的目的在于人工添加表征新作弊類型的網(wǎng)頁(yè)特征,從而增強(qiáng)原有模型的識(shí)別能力。步驟S614:向網(wǎng)頁(yè)樣本集合S添加新的樣本。該步驟主要采用主動(dòng)學(xué)習(xí)的方法,根據(jù)已有的識(shí)別模型,從具有統(tǒng)計(jì)意義規(guī)模的未知網(wǎng)頁(yè)樣本中挑選出若干待標(biāo)注的網(wǎng)頁(yè),在經(jīng)過(guò)人工標(biāo)注(即人工確認(rèn)該網(wǎng)頁(yè)是否作弊)后添加至網(wǎng)頁(yè)樣本集合5。對(duì)應(yīng)于上述方法,在本優(yōu)選實(shí)施例中還提供了 一種基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別裝置,圖7是根據(jù)本發(fā)明實(shí)施例一的基于半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)框圖,如圖7所示,該裝置包括:網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù):用于保存已知的網(wǎng)頁(yè)樣本相關(guān)信息。樣本處理模塊:用于管理網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)系統(tǒng),包括單獨(dú)樣本實(shí)例的維護(hù),以及對(duì)網(wǎng)頁(yè)樣本集合全體的統(tǒng)計(jì)與劃分。特征分析模塊:用于對(duì)網(wǎng)頁(yè)進(jìn)行分析,從而將其轉(zhuǎn)換為特征向量。進(jìn)一步地,該模塊包括內(nèi)容分析子模塊、結(jié)構(gòu)分析子模塊、鏈接分析子模塊。上述三個(gè)子模塊分別從內(nèi)容、結(jié)構(gòu)以及鏈接角度對(duì)網(wǎng)頁(yè)進(jìn)行定量描述。同時(shí),特征分析模塊還負(fù)責(zé)維護(hù)分析網(wǎng)頁(yè)所涉及的各個(gè)特征。
模型訓(xùn)練模塊:用于根據(jù)已知的網(wǎng)頁(yè)樣本和末知的網(wǎng)頁(yè)樣本,獲得支持向量機(jī)模型。進(jìn)一步地,該模塊可以包括性能評(píng)價(jià)和參數(shù)選擇兩個(gè)子模塊。其中,前者(性能評(píng)價(jià)子模塊)用于當(dāng)參數(shù)已知時(shí),評(píng)價(jià)模型識(shí)別作弊網(wǎng)頁(yè)的性能,后者(參數(shù)選擇子模塊)在前者的基礎(chǔ)上,選擇出使支持向量機(jī)模型性能最優(yōu)的參數(shù)。網(wǎng)頁(yè)作弊判斷模塊:用于根據(jù)支持向量機(jī)模型判斷網(wǎng)頁(yè)是否作弊。進(jìn)一步地,該模塊可以包括判斷子模塊和處理子模塊。其中,后者(處理子模塊)用于在判斷某一網(wǎng)頁(yè)為作弊網(wǎng)頁(yè)時(shí),向搜索引擎其他的部分發(fā)出提示信號(hào),從而對(duì)該網(wǎng)頁(yè)進(jìn)行處理(更改索引數(shù)據(jù)等)。樣本擴(kuò)充模塊:用于根據(jù)網(wǎng)頁(yè)特征集合和支持向量機(jī)模型,在給定的樣本集合中選擇出若干能夠最大程度提高模型性能的網(wǎng)頁(yè)樣本。該模塊進(jìn)一步可以包括網(wǎng)頁(yè)分析子模塊和網(wǎng)頁(yè)選擇子模塊。其中,前者(網(wǎng)頁(yè)分析子模塊)利用已經(jīng)獲得的支持向量機(jī)模型對(duì)未知的樣本進(jìn)行判斷,同時(shí)對(duì)判斷結(jié)果的置信度進(jìn)行評(píng)估:后者(網(wǎng)頁(yè)選擇子模塊)則根據(jù)判斷結(jié)果頁(yè)的置信度選擇出符合要求的網(wǎng)頁(yè)。 網(wǎng)頁(yè)標(biāo)注模塊,用于對(duì)選擇出的未知網(wǎng)頁(yè)進(jìn)行人工標(biāo)注。通過(guò)本優(yōu)選實(shí)施例中提供的用于識(shí)別作弊網(wǎng)頁(yè)的方法和裝置,對(duì)作弊網(wǎng)頁(yè)進(jìn)行分析,將網(wǎng)頁(yè)轉(zhuǎn)換為抽象的特征向量,并以此訓(xùn)練支持向量機(jī)模型,進(jìn)而判斷未知網(wǎng)頁(yè)是否作弊。同時(shí),本優(yōu)選實(shí)施例還提供了便捷高效的方法,從而在不改變方法整體結(jié)構(gòu)的同時(shí)通過(guò)添加特征及選擇性地添加樣本的方法,以有效應(yīng)對(duì)以新出現(xiàn)的作弊網(wǎng)頁(yè)。本優(yōu)選實(shí)施例提供的用于識(shí)別作弊網(wǎng)頁(yè)的方法和裝置的主要優(yōu)勢(shì)體現(xiàn)在以下三個(gè)方面:—、由于本優(yōu)選實(shí)施例從內(nèi)容、結(jié)構(gòu)和鏈接等多個(gè)方面對(duì)網(wǎng)頁(yè)進(jìn)行綜合分析,與僅局限于單一角度識(shí)別作弊網(wǎng)頁(yè)的方法和裝置相比,本優(yōu)選實(shí)施例的方法及裝置對(duì)作弊網(wǎng)頁(yè)的識(shí)別能力更強(qiáng);二、本優(yōu)選實(shí)施例的方法及裝置在生成用于識(shí)別作弊網(wǎng)頁(yè)的模型過(guò)程中,在參考已知網(wǎng)頁(yè)樣本的同時(shí),也參考了具有統(tǒng)計(jì)意義規(guī)模的未知網(wǎng)頁(yè)樣本。這樣的設(shè)計(jì)可以有效避免已知樣本可能存在的采樣偏差,從而提高識(shí)別的惟確率。三、本優(yōu)選實(shí)施例提出的方法和裝置,一方面通過(guò)修改網(wǎng)頁(yè)特征集合提高對(duì)作弊網(wǎng)頁(yè)的描述能力;另一方面,通過(guò)主動(dòng)學(xué)習(xí)的方法自動(dòng)挑選出能夠有效表現(xiàn)新特征的正常或作弊網(wǎng)頁(yè),最大限度地節(jié)約了人力成本,使新特征更好地發(fā)揮作用。因此,本優(yōu)選實(shí)施例的方法及裝置此能夠?qū)π滦妥鞅拙W(wǎng)頁(yè)快速作出反應(yīng),使識(shí)別的有效水平保持穩(wěn)定。實(shí)施例二本優(yōu)選實(shí)施例所提出的基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別方法,其各步驟總體流程如圖6所示。其中,步驟S602確定所利用的網(wǎng)頁(yè)特征集合F,步驟S604根據(jù)步驟S602所確定的特征集合對(duì)已知網(wǎng)頁(yè)樣本集合S中各網(wǎng)頁(yè)進(jìn)行預(yù)處理,步驟S606獲取若干末標(biāo)注的網(wǎng)頁(yè)樣本(記為集合U),步驟S608根據(jù)集合S和U訓(xùn)練支持向量機(jī)模型,并利用該模型識(shí)別作弊網(wǎng)頁(yè),步驟S610用于向網(wǎng)頁(yè)特征集合F添加新的特征,步驟S612和S614采用主動(dòng)學(xué)習(xí)的方法,向網(wǎng)頁(yè)樣本集合S添加新樣本。接下來(lái)詳細(xì)敘述各主要步驟。步驟S602:確定所利用的網(wǎng)頁(yè)特征集合F。該步驟將根據(jù)已知的作弊網(wǎng)頁(yè),從網(wǎng)頁(yè)標(biāo)題、正文內(nèi)容、網(wǎng)頁(yè)結(jié)構(gòu)和鏈接關(guān)系等方面入手明確表征網(wǎng)頁(yè)的特征集合。
步驟S604:預(yù)處理已知的網(wǎng)頁(yè)樣本集合S。該步驟的目標(biāo)在于根據(jù)步驟S602確定的特征集合F對(duì)S中的各個(gè)網(wǎng)頁(yè)進(jìn)行處理。圖8是根據(jù)本發(fā)明實(shí)施例二的樣本預(yù)處理步驟的優(yōu)選流程圖,如圖8所示,對(duì)于某一具體網(wǎng)頁(yè)而言,該步驟首先對(duì)網(wǎng)頁(yè)的各個(gè)特征進(jìn)行評(píng)定,將其轉(zhuǎn)化為某種形式的數(shù)值(步驟5604-2)。然后,對(duì)得到的數(shù)值進(jìn)行分析,根據(jù)其類型采取相應(yīng)的歸一化方法(步驟5604-4),同時(shí)根據(jù)該網(wǎng)頁(yè)是否為作弊頁(yè)面,將該類別屬性同特征數(shù)值一起生成某一特征向量,從而代表對(duì)應(yīng)網(wǎng)頁(yè)。最后,將得到的全體特征向量劃分按照l(shuí):c(4 < c < 10)的比例分為訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集合兩部分(步驟5604-6)。步驟S606:獲取未知網(wǎng)頁(yè)樣本集合U。該步驟的主要任務(wù)是隨機(jī)獲得若干網(wǎng)頁(yè)樣本。與步驟5604類似,該步驟同樣需要對(duì)獲得的各個(gè)頁(yè)面進(jìn)行評(píng)定、歸一化從而轉(zhuǎn)化為其一特征向量。由于集合U中的樣本不知是否為作弊頁(yè)面,因此各個(gè)頁(yè)面的類別屬性將被標(biāo)注為不同子集合S中兩種類別的屬性值。步驟S608:根據(jù)集合S和U訓(xùn)練支持向量機(jī)模型,并利用該模型識(shí)別作弊網(wǎng)頁(yè)。圖9是根據(jù)本發(fā)明實(shí)施例二的基于半監(jiān)督學(xué)習(xí)識(shí)別模型訓(xùn)練步驟的優(yōu)選流程圖,如圖9所示,該步驟5608可以包括以下5608-2、5608-4兩個(gè)子步驟。步驟S608-2:根據(jù)步驟S2得到的訓(xùn)練數(shù)據(jù)集合和測(cè)試數(shù)據(jù)集合,生成支持向量機(jī)模型。具體地說(shuō),百先,根據(jù)訓(xùn)練數(shù)據(jù)集合尋找生成初始的模型;然后,尋找使得模型對(duì)測(cè)試集合的識(shí)別準(zhǔn)確率最高的參數(shù);最后,根據(jù)該參數(shù)生成模型M’。步驟S608-4:首先,利用M’對(duì)集合U中的各樣本進(jìn)行識(shí)別,其實(shí)質(zhì)是將集合U分為正常頁(yè)面和作弊頁(yè)面兩個(gè)子集U+和U-;其次,在保證模型對(duì)集合S類別識(shí)別正確的基礎(chǔ)上,通過(guò)逐一交換U+和U-中元素的方式,擴(kuò)大U+和U-的間隔;然后根據(jù)對(duì)U+和U-調(diào)整結(jié)果,調(diào)整M’中的參數(shù);該步驟一直執(zhí)行直到U+和U-的間隔不能在擴(kuò)大,此時(shí)根據(jù)最終調(diào)整所得的參數(shù)生成M,M即為最終的識(shí)別模型。步驟S610:使用支持向量機(jī)模型判斷網(wǎng)頁(yè)是否作弊。對(duì)其一具體網(wǎng)頁(yè),該步驟不僅給出正常或者作弊的判斷結(jié)果,而且還將獲得該網(wǎng)頁(yè)樣本距離分類超平面的距離。而當(dāng)判斷其一網(wǎng)頁(yè)為作弊網(wǎng)頁(yè)時(shí),該步驟將向搜索引擎其他的部分發(fā)出提示信號(hào),以對(duì)對(duì)應(yīng)的索引數(shù)據(jù)進(jìn)行修改。步驟S612:在網(wǎng)頁(yè)特征集合F添加新的特征。對(duì)于新出現(xiàn)或新觀察到的作弊類型,首先需要對(duì)其進(jìn)行人工分析的技術(shù),并提取出全部的特征。然后,將這些特征同原有的網(wǎng)頁(yè)特征集合F進(jìn)行合并。該過(guò)程將有可能增力口、刪除或者調(diào)整F中的元素。由于集合F發(fā)生了變化,因此本步驟完成后,步驟S604和S606中涉及調(diào)整元素的分析、評(píng)定和歸一化方法都將有可能被改變。步驟S614:采用主動(dòng)學(xué)習(xí)的方法向網(wǎng)頁(yè)樣本集合S添加新樣本。圖10是根據(jù)本發(fā)明實(shí)施例二的基于主動(dòng)學(xué)習(xí)的網(wǎng)頁(yè)樣本添加步驟的優(yōu)選流程圖,如圖10所示,該步驟5614可以包括以下5614-2、5614-4、5614-6、5614-8四個(gè)子步驟。步驟5614-2:隨機(jī)獲得具有統(tǒng)計(jì)意義規(guī)模的本知網(wǎng)頁(yè)W(例如,規(guī)模超過(guò)100000,即|W| > 10,0000),利用步驟5608得到的支持向量機(jī)模型對(duì)網(wǎng)頁(yè)否為作弊網(wǎng)頁(yè)進(jìn)行判斷。該步驟的結(jié)果將W分為W+和W-兩個(gè)子集,其分別由W中判斷為正常和作弊的網(wǎng)頁(yè)組成。
步驟5614-4:按照與支持向量機(jī)模型中分類超平面的距離從小到大的順序,對(duì)于步驟S614-2所得到的W+和W-的各個(gè)網(wǎng)頁(yè)進(jìn)行排序。步驟S614-6:對(duì)于步驟S614_4得到的W+和W-,分別取其排序結(jié)果中前η (η<< IffD個(gè)網(wǎng)頁(yè)(共2n個(gè))網(wǎng)頁(yè)作為候選標(biāo)注網(wǎng)頁(yè),并人工對(duì)這2n個(gè)網(wǎng)頁(yè)進(jìn)行標(biāo)注。如果人工標(biāo)注的結(jié)果和支持向量機(jī)模型判斷的結(jié)果不一致,則將這些網(wǎng)頁(yè)保存至集合L。L中各個(gè)網(wǎng)頁(yè)的類型以人工標(biāo)注的結(jié)果為準(zhǔn)。步驟S614-8:將L中的全部網(wǎng)頁(yè)添加至網(wǎng)頁(yè)樣本集合S。需要指出的是,步驟S602至步驟S610已經(jīng)組成了完整的、利用支持向量機(jī)模型識(shí)別作弊頁(yè)面方法。在此基礎(chǔ)上,步驟5612至步驟5614則將與步驟5602至步驟5610共同完成對(duì)向量機(jī)模型的持續(xù)迭代改進(jìn),從而不斷提高對(duì)于作弊頁(yè)面的識(shí)別能力。本優(yōu)選實(shí)施例還提供了一種識(shí)別作弊網(wǎng)頁(yè)的裝置,其中包括一個(gè)用于存儲(chǔ)的數(shù)據(jù)庫(kù)系統(tǒng)和六個(gè)用于事務(wù)處理的模塊。裝置各組成元素間的相互關(guān)系如圖7所示。以下將結(jié)合附圖對(duì)該裝置進(jìn)行進(jìn)一步說(shuō)明。網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù):該系統(tǒng)將保存用于模型訓(xùn)練的網(wǎng)頁(yè)樣本。其中,各個(gè)樣本的類型(正?;蛘咦鞅?已經(jīng)明確。所保存的網(wǎng)頁(yè)相關(guān)信息主要包括網(wǎng)頁(yè)的ID、標(biāo)題、url、html代碼、獲取時(shí)間、類型等。樣本處理模塊:用于維護(hù)網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)系統(tǒng),包括添加、修改網(wǎng)頁(yè)樣本;負(fù)責(zé)對(duì)全體網(wǎng)頁(yè)樣本集合進(jìn)行劃分,生成模型訓(xùn)練需要的訓(xùn)練和測(cè)試的兩部分;負(fù)責(zé)對(duì)網(wǎng)頁(yè)樣本進(jìn)行統(tǒng)計(jì),以配合完成模型訓(xùn)練。特征分析模塊:該模塊主要負(fù)責(zé)三方面的任務(wù):一、分析根據(jù)已知的網(wǎng)頁(yè),分析將其對(duì)應(yīng)的html; 二、將網(wǎng)頁(yè)特征向量化:三、維護(hù)模型訓(xùn)練所涉及的特征集合。第一方面的任務(wù)由三個(gè)子模塊協(xié)同完成:內(nèi)容分析子模塊、結(jié)構(gòu)分析子模塊、鏈接分析子模塊。內(nèi)容分析子模塊主要考察網(wǎng)頁(yè)內(nèi)容方面的特征,包括標(biāo)題、中心內(nèi)容、高亮文本、鏈接等可見(jiàn)內(nèi)容中的文本特征、語(yǔ)法特征以及語(yǔ)義特征;結(jié)構(gòu)分析子模塊主要涉及網(wǎng)頁(yè)html代碼所對(duì)應(yīng)的DOM樹(shù)的結(jié)構(gòu)信息、頁(yè)面整體的布局情況、頁(yè)面局部中各個(gè)元素的關(guān)系以及網(wǎng)頁(yè)不可見(jiàn)部分的所隱含的信息;鏈接分析子模塊主要分析本網(wǎng)頁(yè)與站點(diǎn)主頁(yè)、同站點(diǎn)下其他網(wǎng)頁(yè)以及與其他外部網(wǎng)頁(yè)的間關(guān)系。需要說(shuō)明的是,上述三個(gè)子模塊方面間相互聯(lián)系,相當(dāng)一部分的網(wǎng)頁(yè)特征由兩個(gè)或者全部三個(gè)子模塊中共同產(chǎn)生。第二方面的任務(wù)由特征向量化子模塊完成,該模塊根據(jù)網(wǎng)頁(yè)分析的結(jié)果進(jìn)行評(píng)定,并綜合某一特征值在全體網(wǎng)頁(yè)樣本中的統(tǒng)計(jì)情況選擇合理的歸一化從而將某一特征映射為某一數(shù)值,并最終將網(wǎng)頁(yè)轉(zhuǎn)化為其一向量。第三方面的任務(wù)有特征維護(hù)子模塊完成,該模塊負(fù)責(zé)添加、刪除和修改網(wǎng)頁(yè)分析所涉及到的配置信息,包括特征數(shù)目、名稱、類型等等。模型訓(xùn)練模塊:該模塊負(fù)責(zé)生成用于最終判斷網(wǎng)頁(yè)作弊與否的支持向量機(jī)模型。該模塊進(jìn)一步包括性能評(píng)價(jià)和參數(shù)選擇兩個(gè)子模塊。其中,性能評(píng)價(jià)子模塊,負(fù)責(zé)根據(jù)訓(xùn)練樣本以及指定的參數(shù)和配置生成支持向量機(jī)模型,并根據(jù)測(cè)試樣本集合及和末知樣本集合評(píng)價(jià)模型多方面的性能指標(biāo),包括識(shí)別的正確率、準(zhǔn)確率、召回率等等。參數(shù)選擇子模塊,負(fù)責(zé)在參數(shù)可選擇的范圍內(nèi)進(jìn)行搜索,從而選擇出使支持向量機(jī)模型性能最優(yōu)的參數(shù)。需要指出的是,所謂的性能可以根據(jù)實(shí)際需要進(jìn)行調(diào)整,它可以設(shè)置為性能評(píng)價(jià)子模塊中所涉及的任何指標(biāo)及其組合。網(wǎng)頁(yè)作弊判斷模塊:該模塊用于完成作弊頁(yè)面的判斷任務(wù)。進(jìn)一步地,當(dāng)其一網(wǎng)頁(yè)被判斷為作弊網(wǎng)頁(yè)時(shí),該模塊還負(fù)責(zé)向搜索引擎其他的部分發(fā)出提示信號(hào),并傳遞該網(wǎng)頁(yè)的相關(guān)信息,從而為對(duì)該網(wǎng)頁(yè)進(jìn)行處理提供參考信息。樣本擴(kuò)充模塊:該模塊負(fù)責(zé)根據(jù)網(wǎng)頁(yè)特征集合和當(dāng)前生成的支持向量機(jī)模型,選擇最大程度提高作弊網(wǎng)頁(yè)識(shí)別能力的樣本。該模塊進(jìn)一步包括網(wǎng)頁(yè)分析子模塊和網(wǎng)頁(yè)選擇子模塊。其中:前者利用已經(jīng)獲得的支持向量機(jī)模型對(duì)具有統(tǒng)計(jì)意義規(guī)模的未知樣本進(jìn)行判斷。同時(shí),該模塊還負(fù)責(zé)對(duì)判斷結(jié)果的置信度(即樣本距支持向量機(jī)中的分類超平面的距離)進(jìn)行計(jì)算。后者將分別對(duì)識(shí)別得到的兩類網(wǎng)頁(yè)(正?;蛘咦鞅?的置信度按照從低到高的順序進(jìn)行排序,并分別從中選擇出前若干個(gè)候選網(wǎng)頁(yè)樣本。網(wǎng)頁(yè)標(biāo)注模塊:該模塊用于對(duì)未知網(wǎng)頁(yè)進(jìn)行人工標(biāo)注。由于標(biāo)注頁(yè)面是相當(dāng)主觀的任務(wù),因此該模塊提供了多人標(biāo)注及比較功能。當(dāng)多個(gè)標(biāo)注結(jié)果不一致時(shí),該模塊將發(fā)出提示。當(dāng)明確標(biāo)注結(jié)果后,該網(wǎng)頁(yè)將被添加至網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)中。實(shí)施例三在本優(yōu)選實(shí)施例中,提供了一種作弊網(wǎng)頁(yè)的識(shí)別方法,包括:步驟S2:明確所利用的網(wǎng)頁(yè)特征集合,包括網(wǎng)頁(yè)的內(nèi)容特征、結(jié)構(gòu)特征、鏈接關(guān)系特征等。步驟S4:預(yù)處理已知網(wǎng)頁(yè)樣本集合,包括根據(jù)步驟網(wǎng)頁(yè)特征將網(wǎng)頁(yè)向量化,同時(shí)對(duì)樣本集合進(jìn)行劃分為訓(xùn)練和測(cè)試的兩部分。步驟S6:獲取末知網(wǎng)頁(yè)樣本集合,步驟S8:根據(jù)已知和未知的網(wǎng)頁(yè)樣本,采用半監(jiān)督學(xué)習(xí)的方法,生成識(shí)別模型:步驟S10:根據(jù)模型判斷某網(wǎng)頁(yè)是否作弊,并進(jìn)行相應(yīng)處理;步驟S12:添加新的網(wǎng)頁(yè)特征;步驟S14:采用主動(dòng)學(xué)習(xí)的方法,添加新的已知網(wǎng)頁(yè)樣本。優(yōu)選地,上述預(yù)處理已知網(wǎng)頁(yè)樣本集合的步驟可以包括:將網(wǎng)頁(yè)特征將轉(zhuǎn)化為其一數(shù)值,同時(shí)對(duì)其采取歸一化方法,從而將網(wǎng)頁(yè)轉(zhuǎn)化為其一特征向量;同時(shí)還包括將已知網(wǎng)頁(yè)樣本集合劃分為訓(xùn)練和測(cè)試的兩部分。優(yōu)選地,采用半監(jiān)督學(xué)習(xí)的方法生成識(shí)別模型的步驟可以包括:首先根據(jù)已知的訓(xùn)練和測(cè)試網(wǎng)頁(yè)樣本生成初始的支持向量機(jī)模型,然后根據(jù)未知樣本集合對(duì)支持向量機(jī)模型的參數(shù)進(jìn)行調(diào)整。優(yōu)選地,上述模型參數(shù)調(diào)整方法可以包括:首先,利用初始的支持向量機(jī)模型對(duì)未知樣本集合進(jìn)行識(shí)別,將其分為正常頁(yè)面和作弊頁(yè)面兩個(gè)子集;其次,在保證模型對(duì)已知網(wǎng)頁(yè)樣本識(shí)別正確的基礎(chǔ)上,逐一交換兩個(gè)子集中的元素以擴(kuò)大子集間的間隔,并據(jù)此調(diào)整模型的參數(shù);該步驟一直執(zhí)行直到子集的間隔不能在擴(kuò)大。優(yōu)選地,上述作弊網(wǎng)頁(yè)的識(shí)別方法可以采用主動(dòng)學(xué)習(xí)的方法,添加新的已知網(wǎng)頁(yè)樣本的步驟,包括:利用已有的模型對(duì)具有統(tǒng)計(jì)意義規(guī)模的未知網(wǎng)頁(yè)進(jìn)行識(shí)別,從而將未知網(wǎng)頁(yè)集合劃分為兩個(gè)子集;在兩個(gè)子集中分別選擇出待標(biāo)注的網(wǎng)頁(yè)樣本,在進(jìn)行標(biāo)注后添加至已知網(wǎng)頁(yè)樣本集合。優(yōu)選地,上述待標(biāo)注網(wǎng)頁(yè)的選擇方法可以為:按照判斷結(jié)果的置信度從小到大的順序,分別對(duì)于兩個(gè)子集中的網(wǎng)頁(yè)進(jìn)行排序,并分別取前若干網(wǎng)頁(yè)作為候選標(biāo)注樣本。其中的結(jié)果置信度,定義為與支持向量機(jī)模型中分類超平面的距離。當(dāng)這些網(wǎng)頁(yè)的人工標(biāo)注結(jié)果與判斷結(jié)果不一致時(shí),將其添加至已知網(wǎng)頁(yè)樣本集合。對(duì)應(yīng)于上述方法,在本優(yōu)選實(shí)施例中還提供了 一種基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁(yè)識(shí)別裝置,包括:網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)(也稱網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)系統(tǒng)):用于保存已知的網(wǎng)頁(yè)樣本相關(guān)信息;樣本處理模塊:用于管理網(wǎng)頁(yè)樣本數(shù)據(jù)庫(kù)系統(tǒng);特征分析模塊:用于對(duì)網(wǎng)頁(yè)進(jìn)行分析,從而將其轉(zhuǎn)換為特征向量;模型訓(xùn)練模塊:用于根據(jù)已知的網(wǎng)頁(yè)樣本和未知的網(wǎng)頁(yè)樣本,獲得支持向量機(jī)模型;網(wǎng)頁(yè)作弊判斷模塊:用于根據(jù)支持向量機(jī)模型判斷網(wǎng)頁(yè)是否作弊;樣本擴(kuò)充模塊:用于根據(jù)網(wǎng)頁(yè)特征集合和支持向量機(jī)模型,選擇出若干能夠最大程度提高模型性能的網(wǎng)頁(yè)樣本。優(yōu)選地,上述特征分析模塊通過(guò)以下方式對(duì)網(wǎng)頁(yè)特征進(jìn)行分忻A.從包括標(biāo)題、中心內(nèi)容、高亮文本、鏈接等可見(jiàn)內(nèi)容中的文本、語(yǔ)法以及語(yǔ)義角度考察內(nèi)容特征;從網(wǎng)頁(yè)html代碼所對(duì)應(yīng)的DOM樹(shù)的結(jié)構(gòu)信息、頁(yè)面布局情況、以及網(wǎng)頁(yè)不可見(jiàn)部分考察結(jié)構(gòu)特征;從該網(wǎng)頁(yè)與同站點(diǎn)主頁(yè)、同站點(diǎn)下其他網(wǎng)頁(yè)以及與其他外部網(wǎng)頁(yè)的間關(guān)系考察鏈接特征。B.根據(jù)網(wǎng)頁(yè)特征分析的結(jié)果進(jìn)行評(píng)定,并綜合其一特征值在全體網(wǎng)頁(yè)樣本中的統(tǒng)計(jì)情況選擇合理的歸一化從而將某一特征映射為其一數(shù)值,將網(wǎng)頁(yè)轉(zhuǎn)化為其一向量。優(yōu)選地,上述特征分析模塊包括性能評(píng)價(jià)和參數(shù)選擇兩個(gè)子模塊:其中前者負(fù)責(zé)根據(jù)訓(xùn)練樣本以及指定的參數(shù)和配置生成支持向量機(jī)模型,并根據(jù)測(cè)試樣本集合及和未知樣本集合評(píng)價(jià)模型;后者,負(fù)責(zé)在參數(shù)可選擇的范圍內(nèi)進(jìn)行搜索,從而選擇出使支持向量機(jī)模型性能最優(yōu)的參數(shù)。優(yōu)選地,上述特征分析模塊可以通過(guò)以下方式擴(kuò)充樣本:首先利用已經(jīng)獲得的支持向量機(jī)模型對(duì)具有統(tǒng)計(jì)意義規(guī)模的未知樣本進(jìn)行判斷,從而將其分類為正?;蜃鞅變深惥W(wǎng)頁(yè),同時(shí)計(jì)算判斷結(jié)果的置信度(即樣本距支持向量機(jī)中的分類超平面的距離);然后,分別對(duì)識(shí)別得到的兩類網(wǎng)頁(yè)(正?;蛘咦鞅?的置信度按照從低到高的順序進(jìn)行排序,并分別從中選擇出前若干個(gè)網(wǎng)頁(yè)樣本進(jìn)行人工標(biāo)注,如果標(biāo)注結(jié)果與判斷結(jié)果不一致,那么網(wǎng)頁(yè)樣本擴(kuò)充至網(wǎng)頁(yè)樣本集合。在另外一個(gè)實(shí)施例中,還提供了一種軟件,該軟件用于執(zhí)行上述實(shí)施例及優(yōu)選實(shí)施例中描述的技術(shù)方案。在另外一個(gè)實(shí)施例中,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)中存儲(chǔ)有上述軟件,該存儲(chǔ)介質(zhì)包括但不限于光盤、軟盤、埂盤、可擦寫存儲(chǔ)器等。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種作弊網(wǎng)頁(yè)識(shí)別方法,其特征在于,包括 獲取已知網(wǎng)頁(yè)樣本的集合,其中,所述已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本; 根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī); 獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,所述未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本: 根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整; 使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整包括: 使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集; 將所述正常頁(yè)面子集與所述作弊頁(yè)面子集中的所述未知網(wǎng)頁(yè)樣本進(jìn)行逐一交換,并重新計(jì)算所述初始支持向量機(jī)的模型參數(shù),直至所述正常頁(yè)面子集與所述作弊頁(yè)面子集的間隔不再擴(kuò)大; 使用最終得到的所述正常頁(yè)面子集與所述作弊頁(yè)面子集對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。
3.根據(jù)權(quán)利要求1所述的方法,`其特征在于,根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整包括: 使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集; 分別獲取所述正常頁(yè)面子集和所述作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁(yè)面子集以及所述作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本數(shù)量: 在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機(jī)對(duì)所述候選的標(biāo)注樣本的判斷結(jié)果不同時(shí),將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁(yè)樣本的集入■η , 使用最終得到的所述已知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)難iF.0
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,在根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)之前,還包括: 將所述已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁(yè)特征包括以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī)包括: 將所述已知網(wǎng)頁(yè)樣本的集合分為第一子集和第二子集; 根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī); 使用所述第二子集對(duì)所述初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。
6.一種作弊網(wǎng)頁(yè)識(shí)別裝置,其特征在于,包括第一獲取模塊,用于獲取已知網(wǎng)頁(yè)樣本的集合,其中,所述已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本; 生成模塊,用于根據(jù)所述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī); 第二獲取模塊,用于獲取預(yù)設(shè)第一數(shù)量的末知網(wǎng)頁(yè)樣本的集合,其中,所述末知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本; 調(diào)整模塊,用于根據(jù)所述未知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整; 判斷模塊,用于使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述調(diào)整模塊包括 第一劃分單元,用于使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集 第一處理單元,用于將所述正常頁(yè)面子集與所述作弊頁(yè)面子集中的所述未知網(wǎng)頁(yè)樣本進(jìn)行逐一交換,并重新計(jì)算所 述初始支持向量機(jī)的模型參數(shù),直至所述正常頁(yè)面子集與所述作弊頁(yè)面子集的間隔不再擴(kuò)大; 第一調(diào)整單元,用于使用最終得到的所述正常頁(yè)面子集與所述作弊頁(yè)面子集對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述調(diào)整模塊包括 第二劃分單元,用于使用所述初始支持向量機(jī)將所述未知網(wǎng)頁(yè)樣本的集合劃分為正常頁(yè)面子集和作弊頁(yè)面子集; 獲取單元,用于分別獲取所述正常頁(yè)面子集和所述作弊頁(yè)面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁(yè)樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁(yè)面子集以及所述作弊頁(yè)面子集中的未知網(wǎng)頁(yè)樣本數(shù)量; 第二處理單元,用于在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機(jī)對(duì)所述候選的標(biāo)注樣本的判斷結(jié)果不同時(shí),將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁(yè)樣本的集合; 第二調(diào)整單元,用于使用最終得到的所述已知網(wǎng)頁(yè)樣本的集合對(duì)所述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 轉(zhuǎn)化模塊,用于將所述已知網(wǎng)頁(yè)樣本的集合中網(wǎng)頁(yè)樣本的網(wǎng)頁(yè)特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁(yè)特征包括以下類型至少之一:網(wǎng)頁(yè)的內(nèi)容特征,網(wǎng)頁(yè)的結(jié)構(gòu)特征,網(wǎng)頁(yè)的鏈接特征。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述生成模塊包括: 第三劃分單元,用于將所述已知網(wǎng)頁(yè)樣本的集合分為第一子集和第二子集; 生成單元,用于根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī); 測(cè)試單元,用于使用所述第二子集對(duì)所述初始支持向量機(jī)的判斷準(zhǔn)確性進(jìn)行測(cè)試。
全文摘要
本發(fā)明公開(kāi)了一種作弊網(wǎng)頁(yè)識(shí)別方法及裝置,其中,該方法包括獲取已知網(wǎng)頁(yè)樣本的集合,其中,該已知網(wǎng)頁(yè)樣本為已知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)上述已知網(wǎng)頁(yè)樣本的集合生成用于判斷作弊網(wǎng)頁(yè)的初始支持向量機(jī);獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁(yè)樣本的集合,其中,該未知網(wǎng)頁(yè)樣本為未知是否為作弊網(wǎng)頁(yè)的網(wǎng)頁(yè)樣本;根據(jù)上述未知網(wǎng)頁(yè)樣本的集合對(duì)上述初始支持向量機(jī)的模型參數(shù)進(jìn)行調(diào)整;使用調(diào)整后的支持向量機(jī)判斷待檢測(cè)網(wǎng)頁(yè)是否為作弊網(wǎng)頁(yè)。通過(guò)本發(fā)明,解決了相關(guān)技術(shù)中基于機(jī)器學(xué)習(xí)的作弊頁(yè)面識(shí)別方法對(duì)于新型作弊網(wǎng)頁(yè)識(shí)別效果較差的問(wèn)題,提升了對(duì)于新型作弊網(wǎng)頁(yè)的識(shí)別效果。
文檔編號(hào)G06F17/30GK103150369SQ20131007326
公開(kāi)日2013年6月12日 申請(qǐng)日期2013年3月7日 優(yōu)先權(quán)日2013年3月7日
發(fā)明者楊甲東 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌恰县| 崇州市| 特克斯县| 林州市| 团风县| 葫芦岛市| 淅川县| 临桂县| 富蕴县| 会同县| 英山县| 泸西县| 攀枝花市| 伊宁县| 西和县| 海阳市| 虎林市| 潞西市| 普陀区| 太仓市| 泰来县| 德安县| 东丽区| 衡阳县| 谢通门县| 九江市| 六安市| 靖西县| 丽江市| 汕尾市| 九寨沟县| 富顺县| 信丰县| 米脂县| 班玛县| 义马市| 萨嘎县| 阿合奇县| 林甸县| 宁德市| 依兰县|