專利名稱:基于快速相似度的PageRank方法
技術(shù)領(lǐng)域:
本發(fā)明是基于快速相似度的I^geRank方法,屬于Web結(jié)構(gòu)挖掘和信息檢索領(lǐng)域。相關(guān)知識包括計算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、編碼理論等。
背景技術(shù):
I^ageRank算法是由S. Brin, L. Page等在1998年提出的,是一種以網(wǎng)絡(luò)中的鏈接關(guān)系為研究對象的網(wǎng)頁分級算法,其作用是將最重要的網(wǎng)頁優(yōu)先顯示給用戶,以盡可能的滿足用戶的搜索需求。Google搜索引擎采用的就是將復(fù)雜文本匹配算法和I^ageRank算法相結(jié)合的技術(shù)。通過I^geRank算法在Google中的成功應(yīng)用,足以證明,該算法運(yùn)用到搜索引擎中是非常有效的。I^ageRank算法可以迭代計算出每個網(wǎng)頁的I^ageRank值,PageRank值的高低代表了網(wǎng)頁在網(wǎng)絡(luò)中權(quán)威性,值越高則權(quán)威性最高,在搜索結(jié)果中網(wǎng)頁出現(xiàn)的位置就越靠前。
漢明距離相似度算法[1]是由張煥炯、王國勝和鐘義信在2001年提出的,它借助編碼理論中漢明距離的概念,通過求文本與查詢式之間的漢明距離來表征文本的相似度,是一種快速有效的相似度計算方法。
目前許多學(xué)者在改善I^ageRank算法主題漂移現(xiàn)象的過程中,絕大部分是將向量空間相似度算法和I^geRank算法相結(jié)合。然而,向量空間模型算法具有大量的乘法運(yùn)算,會進(jìn)一步加劇算法的復(fù)雜性,降低可應(yīng)用性。本發(fā)明將計算迅速的漢明距離相似文本算法與 PageRank結(jié)合,從搜索的查全率和查準(zhǔn)率兩方面改進(jìn)。 參考文獻(xiàn)張煥炯,王國勝,鐘義信.基于漢明距離的文本相似度計算[J].計算機(jī)工程與應(yīng)用,2001,19 :21-22.L. Page,S. Brin,etc.The PageRank Citation Ranking :Bringing Order to the Web.http://www-diglib. Stanford, edu/diglib/pub/, 1998.韓洪光.搜索引擎分析-基于I^ageRank算法的研究與改進(jìn)[D].北京交通大學(xué), 2008.袁瑞紅.基于語義相似度的Web結(jié)構(gòu)挖掘算法研究及實現(xiàn)[D].南京理工大學(xué), 2009.徐家樹,刑立新,覃征.超鏈接文本相關(guān)度的I^ageRank算法[J].哈爾濱工業(yè)大學(xué)學(xué)報,2009,41 (1) :223-225.袁津生,趙傳剛等.搜索引擎與信息檢索教程[M].中國水利水電出版社,2008.段淮川,胡平.基于主題特征和時間因子的改進(jìn)I^ageRank算法[J].計算機(jī)工程與設(shè)計,2010,4 (31) :866-868.王鐘斐,王彪.基于錨文本相似度的I^ageRank改進(jìn)算法[J].計算機(jī)工程.2010, 24(36) :258-260.
發(fā)明內(nèi)容
本發(fā)明的目的是通過改進(jìn)I^ageRank算法,使得在進(jìn)行信息搜索的過程中提高搜索的查準(zhǔn)率和查全率。將漢明距離相似度算法和I^geRank算法相結(jié)合以改善原有I^geRank算法主題漂移的現(xiàn)象。為提高搜索的查全率,可以增加搜索的范圍即增加搜索檢索詞的同義詞,在計算相似度時需要改進(jìn)漢明距離相似度計算,以達(dá)到提高查全率的同時保證查準(zhǔn)率。 本發(fā)明為實現(xiàn)上述目的,采用的技術(shù)方法如下
1)增加同義詞檢索當(dāng)用戶輸入檢索詞或檢索語句后,首先可將檢索詞進(jìn)行分詞、去停用詞等處理,其次根據(jù)得到的各個詞,查找它們同義詞,然后在網(wǎng)絡(luò)中匹配包含檢索詞和它們同義詞的網(wǎng)頁。
2)增加相似度計算將漢明距離相似度計算引入I^geRank算法,由于增加了同義詞檢索的過程,需要在漢明距離相似度計算的過程中增加同義詞匹配,而且需要嚴(yán)格區(qū)分檢索詞和檢索詞的同義詞,使其具有不同的參數(shù)。
3)按照快速相似度I^ageRank值的倒序顯示包含檢索詞和它們同義詞的網(wǎng)頁。 具體包括如下步驟
步驟10從網(wǎng)絡(luò)中獲取各個網(wǎng)頁的鏈接關(guān)系。
步驟20將鏈接關(guān)系進(jìn)行預(yù)處理,計算得到網(wǎng)頁的入度和出度;解析網(wǎng)頁,獲取網(wǎng)頁的標(biāo)題。再將網(wǎng)頁網(wǎng)址、入度、出度和網(wǎng)頁標(biāo)題建立索引;
步驟30根據(jù)索引庫中的內(nèi)容,計算各網(wǎng)頁的I^geRank值,計算公式為 PR(u) = d Yj PR(v)/N(v) +(I-d)
veB(u)
式中參數(shù)u是一個網(wǎng)頁,B (u)是指向網(wǎng)頁u的網(wǎng)頁集合,N (ν)是指網(wǎng)頁ν向外的鏈接數(shù),d是衰減因子,通常取0. 85;
步驟40根據(jù)輸入的檢索詞,計算網(wǎng)頁標(biāo)題與檢索詞的相似度
Sim(U ,Q) = l_txk yk / η
k=l
式中參數(shù)Xk,yk分別表示網(wǎng)頁U的標(biāo)題對應(yīng)的碼字和查尋式Q對應(yīng)的碼字中第k位的分量,它們的值為0或1 ;0表示在某位置上U不存在與檢索詞或檢索詞的同義詞,1則表示存在;11為碼子的長度,Θ為模2加(異或)運(yùn)算;
步驟50根據(jù)上述的計算可以得到快速相似度I^ageRank的計算公式 r e l(U, Q) = PR(U) · Sim(p, 0.(1-
2n
式中參數(shù)rel (U,Q)是快速相似度PageRank值;PR(U)是網(wǎng)頁U的PageRank值; Sim(U, Q)是網(wǎng)頁標(biāo)題和檢索詞的相似度值;s是標(biāo)記U中存在同義詞的個數(shù);η為網(wǎng)頁標(biāo)題碼字的長度。
本發(fā)明提供的技術(shù)方案的有益效果是
基于快速相似度的I^ageRank算法利用經(jīng)典的I^ageRank算法和快速有效的漢明距離相似度算法,在增加檢索詞的同義詞搜索的過程中,改進(jìn)漢明距離相似度算法,使其能夠計算包含同義詞的網(wǎng)頁的相似度,在計算相似度的過程中使得檢索詞和檢索詞的同義詞具有不同的參數(shù),保證搜索查全率提高的同時提高搜索的查準(zhǔn)率。
圖1查詢流程圖。 圖2具體方法流程圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明的實施方式作進(jìn)一步詳細(xì)闡述。
基于快速相似度的I^geRank算法,包括
1)提高搜索的查準(zhǔn)率利用漢明距離相似度方法計算網(wǎng)頁標(biāo)題與檢索詞之間的相似度值,作為搜索結(jié)果網(wǎng)頁的排序的標(biāo)準(zhǔn)之一,即將漢明距離相似度算法與I^geRank算法結(jié)合,以改善I^geRank算法主題漂移現(xiàn)象。
2)提高搜索的查全率包含檢索詞的同義詞的網(wǎng)頁可能是與搜索主題相關(guān)的網(wǎng)頁,可在搜索過程中增加檢索詞同義詞的搜索,為此需改進(jìn)漢明距離相似度算法,增加同義詞匹配,計算時區(qū)分檢索詞和它的同義詞,提高查全率保證查準(zhǔn)率。
如圖1、2所示,展示了實現(xiàn)快速相似度I^ageRank算法的流程如下 步驟10對用戶輸入的查詢詞或查詢語句進(jìn)行分詞、去停用詞,使其成為一個個獨(dú)立的詞語。
步驟勸根據(jù)上一步得到的詞語,到建立的同義詞詞庫中查詢,獲取各個詞的同義詞詞組。
步驟30依托上一步中得到的同義詞詞組和查詢詞,創(chuàng)建查詢對象。
步驟40獲取包含查詢詞或查詢詞的同義詞詞組的網(wǎng)頁,需要經(jīng)過三個步驟的計算過
程
首先,使用公式:
權(quán)利要求
1. 一種基于快速相似度的I^ageRank方法,其特征在于具體構(gòu)建方法如下 步驟10從網(wǎng)絡(luò)中獲取各個網(wǎng)頁的鏈接關(guān)系;步驟20將鏈接關(guān)系進(jìn)行預(yù)處理,計算得到網(wǎng)頁的入度和出度;解析網(wǎng)頁,獲取網(wǎng)頁的標(biāo)題。再將網(wǎng)頁網(wǎng)址、入度、出度和網(wǎng)頁標(biāo)題建立索引;步驟30根據(jù)索引庫中的內(nèi)容,計算各網(wǎng)頁的I^geRank值,計算公式為
全文摘要
本發(fā)明公開一種基于快速相似度的PageRank方法。該方法將PageRank算法和改進(jìn)的漢明距離相似度算法相結(jié)合,提出一種新的網(wǎng)頁排序方法。PageRank算法是一種單純研究網(wǎng)頁鏈接的算法,容易出現(xiàn)主題漂移的問題。針對這一問題本算法提出了兩點(diǎn)改進(jìn)①結(jié)合漢明距離相似度算法,計算檢索詞和網(wǎng)頁文本的相似度,提高搜索的查準(zhǔn)率。②為提高搜索的查全率,需改進(jìn)漢明距離相似度算法,增加搜索檢索詞的同義詞,擴(kuò)大搜索的范圍。根據(jù)上述兩點(diǎn),得到快速相似度PageRank算法的計算公式,從查全率和查準(zhǔn)率兩方面滿足搜索的要求。
文檔編號G06F17/30GK102253971SQ201110158710
公開日2011年11月23日 申請日期2011年6月14日 優(yōu)先權(quán)日2011年6月14日
發(fā)明者喬文文, 畢碩本, 汪大, 馬燕 申請人:南京信息工程大學(xué)