專利名稱:基于動態(tài)貝葉斯模型的網(wǎng)頁垃圾檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種作弊網(wǎng)頁檢測的方法,主要采用一種改進的動態(tài)貝葉斯網(wǎng)絡(luò)模型為用戶點擊行為建模,對作弊網(wǎng)頁進行判斷和識別,屬于信息安全領(lǐng)域。
背景技術(shù):
搜索引擎是通向當(dāng)今互聯(lián)網(wǎng)的一座橋梁,是網(wǎng)民在海量的網(wǎng)頁中找到自己感興趣信息的工具。由于網(wǎng)絡(luò)存在巨大的用戶流量,這為廣告提供了一個巨大的潛在市場。而網(wǎng)絡(luò)廣告高達(dá)3%以上的點擊率可以使得這種潛在對象轉(zhuǎn)變?yōu)楝F(xiàn)實的廣告目標(biāo)對象,進而導(dǎo)致直接或者間接的商品購買行為。相對于傳統(tǒng)廣告,這類廣告的費用相對較低。于是,一大批急于打開市場而又苦于無法提供巨額廣告費的中小廠商便成了網(wǎng)絡(luò)廣告的第一批客戶。 而大量研究結(jié)果顯示,用戶在使用搜索引擎時只會瀏覽前幾頁的返回結(jié)果[1,2,3],對于商業(yè)網(wǎng)站而言,就某些查詢占據(jù)靠前的排序,會給網(wǎng)站帶來流量的大幅增加,流量的變大意味著更多的交易。因為強大的利潤誘惑,搜索引擎優(yōu)化行業(yè)猶如雨后春筍般在快速地發(fā)展。搜索引擎優(yōu)化,是針對搜索引擎對網(wǎng)頁的檢索特點,讓網(wǎng)站建設(shè)各項基本要素適合搜索引擎的檢索原則,從而使搜索引擎收錄盡可能多的網(wǎng)頁,并在搜索引擎自然檢索結(jié)果中排名靠前,最終達(dá)到網(wǎng)站推廣的目的。追求高排名是搜索引擎優(yōu)化師們的目標(biāo)。通過了解各類搜索引擎如何抓取互聯(lián)網(wǎng)頁面、如何進行索引以及如何確定其對某一特定關(guān)鍵詞的搜索結(jié)果排名等技術(shù),來對網(wǎng)頁內(nèi)容進行相關(guān)的優(yōu)化,使其符合用戶瀏覽習(xí)慣,提高網(wǎng)站訪問量,最終提升網(wǎng)站的銷售能力或宣傳能力。商業(yè)網(wǎng)站都希望通過各種形式來干擾搜索引擎的排序,當(dāng)中尤以各種依靠廣告為生的網(wǎng)站為甚。然而,短期內(nèi)大幅提高網(wǎng)站排名是一件困難的事情,一個頁面一般需要經(jīng)過長期的發(fā)展過程,才能變得“知名”。因而目前搜索引擎優(yōu)化技術(shù)被很多目光短淺的人,用一些搜索引擎優(yōu)化作弊的不正當(dāng)手段,犧牲用戶體驗,一味迎合搜索引擎的缺陷來提高排名,這種搜索引擎優(yōu)化方法是不可取的,最終也會受到用戶的唾棄。在建立網(wǎng)站或設(shè)計網(wǎng)頁時使用一些不道德的方法來操控搜索引擎的排名算法,讓自己的網(wǎng)頁獲得較高排名,這種做法就是搜索引擎作弊。這樣的網(wǎng)頁就叫做網(wǎng)頁垃圾。[1]Craig Silverstein, Hannes Marais, Monika Henzinger, and Michael Moricz. Analysis of a Very Large Web Search Engine Query Log. SIGIR Forum,33 (1) 6-12,1999.[2]Allan Borodin, Gareth 0. Roberts, Jerrey S. Rosenthal, and Panayiotis Tsaparas. Link Analysis Ranking :Algorithms,Theory, and Experiments. ACM Trans. Inter. Tech.,5(1) :231-297,2005.[3]Bernard J Jansen and Amanda Spink.An Analysis of Web Documents Retrieved and Viewed. In The 4th International Conference on Internet Computing, pages 65-69. Las Vegas, Nevada,2003.
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是提供一種基于動態(tài)貝葉斯的垃圾網(wǎng)頁檢測方法,解決傳統(tǒng)的動態(tài)貝葉斯模型存在以下幾點缺點1、全部信息需求總能在某一個網(wǎng)址對應(yīng)的網(wǎng)頁就能滿足,然后結(jié)束本次會話。但從實際的用戶搜索經(jīng)驗就可以知道,尤其是在信息類型的查詢中,用戶點擊了某個網(wǎng)址后可能只滿足了部分的需要,然后繼續(xù)往下查找。2、如果上一個網(wǎng)址的摘要沒有被查看,下一個網(wǎng)址的摘要就不會被查看,這也與實際情況不符。本發(fā)明是一種改進的動態(tài)貝葉斯模型,其更符合搜索引擎用戶的行為習(xí)慣。技術(shù)方案本發(fā)明的基于動態(tài)貝葉斯模型的網(wǎng)頁垃圾檢測方法分為三大部分一.日志分析步驟11)收集網(wǎng)頁點擊日志;步驟12)對日志內(nèi)容進行分析,提取其中的用戶身份標(biāo)識號碼、查詢詞、結(jié)果排名、是否被點擊、網(wǎng)址等信息;步驟1 按照每個查詢詞下所有的用戶身份標(biāo)識號碼的個數(shù)進行降序排列,編號為0,1,2……;步驟14)對于每個查詢詞,以其對應(yīng)的網(wǎng)址編號和是否被點擊建立會話文件,二 .采用期望最大化算法計算吸引度%和滿意度\步驟21)初始化吸引度知和滿意度\ ;步驟22)由條件獨立性可推導(dǎo)出事件Ai, Si的后驗概率,
Σ Σ Σ=,E^ =e)P{A^a4y.= ^m±m(xù)-γ Mfl^-
2. aAe) βAe)
ee{0,l}公式7
Σ Σ 和)扣=一\smsi\c{)P{c^, =e)^):= ^lM---ζ.公式8其中,ai(e),)表示前項后項公式;^7表示用戶是否檢查返回結(jié)果列表中第j個會話的第i個網(wǎng)址的摘要;變量CT表示用戶是否點擊返回結(jié)果列表中第j個會話的第i個網(wǎng)址;次表示第j個會話的第i個網(wǎng)址的滿意度的二值變量;4表示第j個會話的第i個網(wǎng)址的吸引度的二值變量-’p、Em =…《)表示滿意的情況下點擊與否的概率; P識=^7/)表示點擊情況下,滿意與否的概率JfSfi,Eji = O表示在條件4/和< =€下
發(fā)生6'/的條件概率=刁表示瀏覽摘要與否Ei = e的情況下點擊發(fā)生的概率;步驟2 通過最大化后驗概率更新吸引度知和滿意度\
N Mau = argmax^Z7^ =權(quán)撒4 = 0)log(l-^) + ^/ = l)log⑷)+/^)公式 9
a /=I '=1
su = arg max Σ Σ7(《=祖R = 0)log(l-s)= 1)log⑶)+Λ力公式 10
s /=1 '=I其中,<表示第j個會話的第i個位置的網(wǎng)址;U表示網(wǎng)頁地址;I為示性函數(shù),即滿足括號內(nèi)的等式為1,不滿足括號內(nèi)的等式為O ;P (a)和P (s)表示3和s的先驗貝塔分布;a = P(Ci = i|Ei = 1),表示用戶檢查了第i個網(wǎng)址的摘要的條件下點擊的概率 ’ s = P(Si = IlCi = 1),表示用戶點擊了第i個網(wǎng)址,閱讀內(nèi)容后滿意的概率;步驟24)以步驟23)得到的吸引度%和滿意度\重復(fù)步驟22)、步驟23);步驟25)迭代20次后,對網(wǎng)頁是否為作弊網(wǎng)頁進行預(yù)測,即迭代后的吸引度%、滿意度^大于等于選定的閾值為正常網(wǎng)頁,小于選定的閾值為作弊網(wǎng)頁;三.進行驗證步驟31)讓10個志愿者根據(jù)自己的判斷在返回列表的網(wǎng)址中前10個網(wǎng)址找出作弊的網(wǎng)頁,認(rèn)為作弊的打分為1,不是作弊為-1,無法判斷為0;得分最高的3個網(wǎng)頁作為查詢的作弊網(wǎng)頁;步驟3 通過提出的評價指標(biāo)中的查準(zhǔn)率、召全率、作弊度,來驗證本發(fā)明提出的方法。有益效果由于改進的動態(tài)貝葉斯模型假設(shè)只有用戶查看了網(wǎng)址并且被該網(wǎng)址吸引后才會產(chǎn)生一個點擊,本發(fā)明具有以下一些特殊優(yōu)點和有益成果在改進的動態(tài)貝葉斯中提出了一個簡單有效的方法,認(rèn)為用戶放棄查看下一個位置的概率與前一次點擊位置的距離有關(guān)。也就是說,隨著沒有找到能吸取注意力的網(wǎng)址的時間越長,則越有可能放棄本次查詢。改進的動態(tài)貝葉斯是根據(jù)用戶瀏覽搜索引擎結(jié)果返回列表的特點來建立,因而與其它點擊模型相比,它也更能體現(xiàn)瀏覽行為的本質(zhì),表明用戶的喜好。也正因為這點,根據(jù)改進的動態(tài)貝葉斯中實際的相關(guān)性對網(wǎng)頁進行排名的結(jié)果反映了用戶的需求。
圖1是本發(fā)明方案的流程圖,rui表示用戶角度的文檔-查詢對的相關(guān)性,λ是一個與排名位置有關(guān)的全局參數(shù),Y表示瀏覽返回列表的持續(xù)度。圖2是展開兩個時間幀的動態(tài)貝葉斯網(wǎng)絡(luò)。AiG {0,1}一個會話中處于位置i的二值吸引變量,Ei e {0,1}一個會話中處于位置i的二值檢查變量,Ci e {0,1}一個會話中處于位置i的二值點擊變量,Si e {0,1}一個會話中處于位置i的二值滿意變量。
具體實施例方式假設(shè)只有用戶查看了網(wǎng)址的摘要并且被這個網(wǎng)址吸引后才會產(chǎn)生一個點擊,(見圖2)。用戶是否被網(wǎng)頁吸引的概率僅依賴于網(wǎng)頁本身(公式1)。用戶點擊了網(wǎng)址后,可能會滿意找到的網(wǎng)頁,也可能認(rèn)為這是一個不相關(guān)的網(wǎng)頁,此時的滿意度確實是查詢與網(wǎng)頁真實的相關(guān)度,可以根據(jù)該滿意度對網(wǎng)頁進行排名,它是一個與位置無關(guān)的滿意度;如果用戶沒有點擊該網(wǎng)址,那么可以認(rèn)為網(wǎng)址對應(yīng)的網(wǎng)頁是沒有滿意度的(公式2)。P(Ci = IlEi = O) =0Λ(;=1Κ=1) = (公式 1)P{S, = 116; = 1) = Sui P(Si = OjCi = 0) = 1(公式 2)
6
其中,Ei表示用戶是否檢查返回結(jié)果列表中第i個網(wǎng)址的摘要,變量Ci表示用戶是否點擊返回結(jié)果列表中第i個網(wǎng)址,Sui表示用戶是否滿意點擊的第Ui個網(wǎng)址中的內(nèi)容, Ui表示第i個位置的網(wǎng)頁地址。在動態(tài)貝葉斯模型中,用戶對某個網(wǎng)址對應(yīng)的網(wǎng)頁滿意后,規(guī)定用戶將停止本次查詢,認(rèn)為一個網(wǎng)頁已經(jīng)完全滿足了用戶的需求。但是在實際中,用戶的需求往往會由多個網(wǎng)頁共同提供,多個網(wǎng)頁的信息集合才是用戶的最終所求。因此,在改進的動態(tài)貝葉斯模型中,用戶對本次網(wǎng)頁可能獲得一定的滿意度;用戶決定是否查看下一個網(wǎng)頁時,要參考從第一個網(wǎng)頁到現(xiàn)在為止所獲得的滿意度之和來決定(公式3)。其中,7, = lf^,y表示瀏覽返回列表的持續(xù)度。另外在動態(tài)貝葉斯模型中,假設(shè)用戶從上往下瀏覽網(wǎng)頁,直到用戶找到滿意的網(wǎng)頁,或者放棄本次查詢;是否放棄僅與一個常數(shù)相關(guān),文中并沒有給出有效的方法求取。在改進的動態(tài)貝葉斯中提出了一個簡單有效的方法,認(rèn)為用戶放棄查看下一個位置的概率與前一次點擊位置的距離有關(guān)。也就是說,隨著沒有找到能吸取注意力的網(wǎng)頁的時間越長,則越有可能放棄本次查詢(見公式4)。P (Ei = 11 Sh = 0) =I-Ai (公式 4)其中Λ =^,ri = arg^^ax^ = 1),表示用戶角度的文檔-查詢對的相關(guān)性, M表示網(wǎng)址的總個數(shù)。建立動態(tài)貝葉斯模型需要以下步驟1.收集網(wǎng)頁點擊日志2.對日志內(nèi)容進行分析處理步驟1)對日志內(nèi)容進行分析,提取其中的用戶身份標(biāo)識號碼、查詢詞、結(jié)果排名、 是否被點擊、網(wǎng)址等信息;步驟2、按照每個查詢詞下所有的用戶身份標(biāo)識號碼的個數(shù)進行降序排列,編號為0,1,2……;步驟幻對于每個查詢詞,以其對應(yīng)的網(wǎng)址編號和是否被點擊建立會話文件,文件中一行表示一個會話;會話實例如下(網(wǎng)址編號,是否被點擊)011021002130002131會話實例的第一行表示第一個會話,返回3個結(jié)果,分別是011021。每兩個數(shù)字為一組,每一組的第一個數(shù)字表示網(wǎng)址的編號,第二個數(shù)字表示對應(yīng)的網(wǎng)址是否被點擊,“0” 表示沒有被點擊,“ 1,,表示被點擊。第二行表示第二個會話,第三行表示第三個會話,表示方式同上。3.基于會話文件和本發(fā)明提出的動態(tài)貝葉斯模型計算吸引度和滿意度
7CN 102243659 A
說明書
5/6頁步驟1)由會話文件計算公式1-4 ;步驟2~)計算前項后項公式5、6 ;
權(quán)利要求
1. 一種基于動態(tài)貝葉斯模型的網(wǎng)頁垃圾檢測方法,其特征在于該方法分為三大部分一.日志分析步驟11)收集網(wǎng)頁點擊日志;步驟12)對日志內(nèi)容進行分析,提取其中的用戶身份標(biāo)識號碼、查詢詞、結(jié)果排名、是否被點擊、網(wǎng)址等信息;步驟13)按照每個查詢詞下所有的用戶身份標(biāo)識號碼的個數(shù)進行降序排列,編號為0, 1,2……;步驟14)對于每個查詢詞,以其對應(yīng)的網(wǎng)址編號和是否被點擊建立會話文件,二.采用期望最大化算法計算吸引度%和滿意度^ 步驟21)初始化吸引度%和滿意度\ ;步驟22)由條件獨立性可推導(dǎo)出事件Ai, Si的后驗概率,“Σ…碼⑷^{0,1}公式7Σ Σ a,{e)^)I\EM = 一jS/MS/jC/MC/^ =e)Σ 尋)公式8其中,ai(e),)表示前項后項公式;^7表示用戶是否檢查返回結(jié)果列表中第j 個會話的第i個網(wǎng)址的摘要;變量cy表示用戶是否點擊返回結(jié)果列表中第j個會話的第i 個網(wǎng)址;次表示第j個會話的第i個網(wǎng)址的滿意度的二值變量;4表示第j個會話的第i個網(wǎng)址的吸引度的二值變量;p、Em = <《)表示滿意的情況下點擊與否的概率;/^y 表示點擊情況下,滿意與否的概率;AG |4,E1 = 4表示在條件<和< =e下發(fā)生《的條件概率;Λ^ 為=刁表示瀏覽摘要與否Ei = e的情況下點擊67發(fā)生的概率; 步驟2 通過最大化后驗概率更新吸引度%和滿意度^N Mau = argmax^Z7^ = u){Q{A] = 0)log(l-^) + ^ = l)log(^)) +巧“)公式 9a /=1 /=1N Msu = arg max Σ Σ7(《=敞⑶=0)log(l-s) +^f = 1)log⑶)+Λ力公式 10^ y-i '-ι其中,<表示第j個會話的第i個位置的網(wǎng)址;u表示網(wǎng)頁地址;I為示性函數(shù),即滿足括號內(nèi)的等式為1,不滿足括號內(nèi)的等式為0 ;P(a)和P (s)表示3和s的先驗貝塔分布;a =P (Ci = IEi = 1),表示用戶檢查了第i個網(wǎng)址的摘要的條件下點擊的概率;s = P(Si = 11Ci = ι),表示用戶點擊了第i個網(wǎng)址,閱讀內(nèi)容后滿意的概率;步驟以步驟2 得到的吸引度%和滿意度^重復(fù)步驟22)、步驟23); 步驟25)迭代20次后,對網(wǎng)頁是否為作弊網(wǎng)頁進行預(yù)測,即迭代后的吸引度%、滿意度 Su大于等于選定的閾值為正常網(wǎng)頁,小于選定的閾值為作弊網(wǎng)頁;三.進行驗證步驟31)讓10個志愿者根據(jù)自己的判斷在返回列表的網(wǎng)址中前10個網(wǎng)址找出作弊的網(wǎng)頁,認(rèn)為作弊的打分為1,不是作弊為-1,無法判斷為0 ;得分最高的3個網(wǎng)頁作為查詢的作弊網(wǎng)頁;步驟3 通過提出的評價指標(biāo)中的查準(zhǔn)率、召全率、作弊度,來驗證本發(fā)明提出的方法。
全文摘要
基于動態(tài)貝葉斯模型的網(wǎng)頁垃圾檢測方法涉及一種作弊網(wǎng)頁檢測的方法,主要采用一種改進的動態(tài)貝葉斯網(wǎng)絡(luò)模型為用戶點擊行為建模,對作弊網(wǎng)頁進行判斷和識別,搜索引擎查詢?nèi)罩居涗浟擞脩襞c搜索引擎的交互信息。它的內(nèi)容包括查詢詞、搜索引擎返回的網(wǎng)址、用戶點擊的網(wǎng)址以及時間戳等信息。日志中被點擊的網(wǎng)址及其點擊順序等信息反映了用戶的喜好。本發(fā)明為日志點擊行為建模,挖掘搜索引擎返回列表序列中網(wǎng)址之間的點擊因果關(guān)系,從用戶的角度說明了哪些網(wǎng)址是用戶認(rèn)為和查詢詞相關(guān)聯(lián)的,得到從用戶角度出發(fā)的網(wǎng)頁與查詢的相關(guān)性,它是一種隱含的回饋,從而使作弊網(wǎng)頁的排名位置靠后,而相關(guān)網(wǎng)頁的排名則靠前了。
文檔編號G06F17/30GK102243659SQ20111020027
公開日2011年11月16日 申請日期2011年7月18日 優(yōu)先權(quán)日2011年7月18日
發(fā)明者周國強, 常成成, 張衛(wèi)豐, 張迎周, 田先桃, 許碧歡, 陸柳敏 申請人:南京郵電大學(xué)