專利名稱:基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)和信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法。
背景技術(shù):
隨著網(wǎng)絡(luò)和信息檢索技術(shù)的發(fā)展和普及,搜索引擎在用戶日常網(wǎng)上活動中占據(jù)了愈發(fā)重要的地位,因而分析用戶在使用搜索引擎時其背后的用戶需求也逐漸成為搜索引擎領(lǐng)域一個重要的研究方向。目前已有的研究發(fā)現(xiàn),出于不同的信息需求,用戶將會選擇不同的搜索結(jié)果。如果搜索引擎能夠推測出用戶的信息需求,那么就可以在此基礎(chǔ)上向用戶提供更符合其要求的搜索結(jié)果,進(jìn)而提升用戶滿意度。查詢意圖定義為查詢背后的信息需求,用戶的信息需求是多種多樣的,研究中一般會將查詢需求歸納為幾種類別,這樣,對查詢意圖的分析主要就是判定查詢意圖屬于哪一類。Broder等人[1]在2002年首次提出查詢意圖分類的問題,他們把查詢意圖分成三類,分別是1)導(dǎo)航類即用戶要找到一個導(dǎo)航類的網(wǎng)頁,如一個網(wǎng)站的首頁,一個網(wǎng)站的頻道頁面等。如用戶搜索“新浪”,一般情況下其希望得到的是新浪主頁的鏈接地址。2)信息類即用戶希望直接找到一些能夠滿足需求的網(wǎng)頁,這些網(wǎng)頁大多是內(nèi)容型的,通過閱讀這些網(wǎng)頁的內(nèi)容,就能夠收集信息,滿足需求。如用戶搜索“喬布斯去世”,其希望搜集到關(guān)于喬布斯逝世,喬布斯的生平等相關(guān)信息,同時根據(jù)搜索結(jié)果進(jìn)一步修改并精確查詢語句,進(jìn)行多次檢索,滿足其信息需求。此外,在搜索時,信息類的查詢意圖占有最大的比例。3)事務(wù)類即用戶希望通過找到一些網(wǎng)頁或者服務(wù),完成某個事務(wù),譬如購買一個選定的商品、下載一個特定的資源、進(jìn)行轉(zhuǎn)賬付款等等。此外,Rose等人在2004年[2]將查詢意圖分為導(dǎo)航類,信息類和資源類,并且對后兩類進(jìn)行了更細(xì)粒度的劃分。另外還有一些研究,將查詢意圖定義為商業(yè)類和非商業(yè)類,產(chǎn)品類和非產(chǎn)品類,地理信息類和非地理信息類等等,具體類別的定義應(yīng)該同搜索引擎能夠提供的服務(wù)相關(guān)聯(lián)。識別用戶的查詢意圖,有助于搜索引擎提供更加能夠滿足用戶信息需求的檢索結(jié)果,搜索引擎可以根據(jù)查詢意圖類型采用不同的檢索模型,或者是對檢索模型設(shè)置不同的參數(shù);根據(jù)查詢意圖的不同,搜索引擎還可以在結(jié)果展示方面做一些優(yōu)化,比如,如果查詢是導(dǎo)航性的,通常會在生成摘要的時候做鏈接展開,如在Google上檢索“新浪”生成的摘要信息主要包含了新浪幾個經(jīng)常訪問的子站點的鏈接;如果能夠識別出查詢具有商業(yè)意圖, 那么就可以向用戶投放相關(guān)的廣告,被點擊的概率就會更大。對于查詢意圖的分類,現(xiàn)有的實現(xiàn)方案主要采用用戶點擊數(shù)據(jù)和錨文本的分布作為分類特征,并選取常用的分類算法,如SVM,DT,Naive Bayes等,對查詢意圖進(jìn)行分類。由于最初的研究在定義查詢意圖類型的時候有些分歧,后續(xù)的一些研究中主要是將查詢意圖分成導(dǎo)航類和信息類兩種類別,研究方法的差別主要體現(xiàn)為特征選取方法的不同,目前對查詢意圖進(jìn)行分類常用的主要有以下幾種特征,其中nCS、nRS和Click Distribution(點擊分布)主要是通過挖掘用戶點擊數(shù)據(jù)獲取,Anchor-link Distribution(錨鏈接分布)主要是通過分析錨文本集合獲取。l、nCS 特征值根據(jù)較少努力假說[2],如果一個查詢需求是導(dǎo)航類型的,那么用戶很可能在查詢的時候,就已經(jīng)存在明確的目標(biāo)鏈接并且直接點擊返回結(jié)果列表中的相應(yīng)鏈接,即用戶更加傾向于點擊搜索引擎所返回的結(jié)果列表中的一小部分鏈接。根據(jù)以上假說,可以根據(jù)用戶對某一個查詢關(guān)鍵詞的搜索結(jié)果的點擊的個數(shù)來分析他的查詢需求。nCS特征值定義
汰、徹生_、=1、# (點擊個數(shù)小于《的查詢會話) 查詢關(guān)鍵詞妁=- 納本冶八、車、-
#(?的查詢會話)2、nRS 特征值根據(jù)覆蓋頁面假說[3],如果一個查詢需求是導(dǎo)航型的,那么用戶更加傾向于點擊搜索引擎所返回的結(jié)果列表中的前幾個鏈接。這是因為,導(dǎo)航類的查詢需求比信息類或者交易類查詢需求在信息檢索上具有更好的表現(xiàn)。因此,對某一查詢關(guān)鍵詞,可以通過分析用戶點擊的鏈接在返回結(jié)果中的排名來判斷查詢的意圖。nRS特征值定義如下
DC/* 、# (只點擊to尸《返回結(jié)果的查詢會話) 查詢關(guān)鍵詞妁=-二納本冶八、車、-
#的查詢會話)3、Click Distribution[4]如果一個查詢需求是導(dǎo)航型的,那么用戶很可能只點擊少數(shù)的幾個權(quán)威度較高的鏈接,并且這些鏈接有可能是他們已經(jīng)知道的。相反,如果一個查詢需求是信息類的,那么用戶為了獲取足夠的信息,會傾向于點擊更多的鏈接。因此,導(dǎo)航類的查詢,大部分點擊應(yīng)該集中在少數(shù)幾個非常權(quán)威的網(wǎng)頁,信息類的查詢,點擊就應(yīng)該比較分散,可以根據(jù)用戶點擊鏈接的分布來分析用戶的查詢需求。對一個查詢所有點擊對應(yīng)的URL集合,統(tǒng)計每個URL出現(xiàn)的次數(shù),得到查詢的點擊分布,樣本為點擊的URL,樣本的概率就是該URL點擊次數(shù)占總點擊次數(shù)的比例。按照URL 所占比例降序排列,對于導(dǎo)航類查詢的點擊分布,排名靠前的少數(shù)幾個應(yīng)該會占據(jù)整體點擊很大的比例,而對于信息類的查詢,點擊分布就會比較均勻。4、Anchor-link Distribution[4]對與導(dǎo)航類的查詢,由于存在非常權(quán)威的頁面與之對應(yīng),那么相應(yīng)的錨文本,大部分也會指向那些權(quán)威頁面,而對于信息類的查詢,錨文本指向的頁面就比較分散。首先獲取以查詢詞作為錨文本的所有鏈接指向的URL地址,然后對這些鏈接按照出現(xiàn)次數(shù)進(jìn)行排序,就得到了查詢詞的錨文本鏈接分布,樣本是URL,樣本的概率是該URL 出現(xiàn)次數(shù)在URL出現(xiàn)總次數(shù)上的比例,同樣,類似于click distribution導(dǎo)航類查詢的錨文本鏈接分布,排名靠前的少數(shù)幾個URL應(yīng)該會占據(jù)較大的比例,而信息類的查詢錨文本鏈接分布也應(yīng)該比較均勻。
目前的實現(xiàn)方案中,如果基于查詢點擊的特征則需要大量的點擊信息,那么對于長尾查詢中的查詢詞,由于其點擊次數(shù)較少,因此統(tǒng)計點擊的特征偏差就會較大。如果基于錨文本進(jìn)行分類,則需要大量的錨文本集合,同時要求錨文本和查詢詞之間完全匹配,不同的查詢詞可能背后的意圖一致,例如,北京大學(xué)和北大,用錨文本處理這些查詢詞的時候會出現(xiàn)比較大的偏差,同時很多查詢詞在錨文本集合中無法找到。因此,在目前已有的實現(xiàn)方式中,兩個最基本的特征——用戶點擊數(shù)據(jù)和錨文本的分布,都存在一定的局限性。上面提到的參考文獻(xiàn)如下1、Andrei Broder. A taxonomy of web search. SIGIR Forum 2002, Volume 36(2) :3-10.2、Daniel E.Rose and Danny Levinson. Understanding user goals inweb search.Proceedings of the 13th international conference on Worldffide Web,2004.3、Yiqun Liu, Min Zhang, Liyun Ru and Shaoping Ma. AutomaticQuery Type Identification Based on click through information. AIRS' 2006.4、Uichin Lee,Zhenyu Liu and Junghoo Cho. Automatic identificationof user goals in Web search. Proceedings of the 14th internationalconference on World Wide Web,2005.
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明所要解決的技術(shù)問題是長尾分布的查詢點擊日志不足,以及部分查詢無法在錨文本中找到匹配的錨文本集合或者集合中元素過少時如何對查詢進(jìn)行意圖分類的問題。( 二 )技術(shù)方案為解決上述技術(shù)問題,本發(fā)明提供了一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法,包括以下步驟Si、獲取查詢的檢索結(jié)果和網(wǎng)頁;S2、根據(jù)所述檢索結(jié)果和網(wǎng)頁構(gòu)建檢索結(jié)果集;S3、度量所述檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù);S4、利用相關(guān)性分?jǐn)?shù)的分布對查詢意圖進(jìn)行分類。優(yōu)選地,步驟S2具體包括抓取檢索結(jié)果,并獲取搜索引擎返回的前η個結(jié)果,η為正整數(shù)。優(yōu)選地,當(dāng)步驟S3使用改進(jìn)的圖算法進(jìn)行度量,則步驟S2在構(gòu)建檢索結(jié)果集的同時還解析所述網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息,所述改進(jìn)的圖算法包括改進(jìn)的Hits算法和改進(jìn)的I^ageRank算法。優(yōu)選地,當(dāng)步驟S3使用改進(jìn)的Hits算法進(jìn)行度量,則步驟S2在構(gòu)建檢索結(jié)果集的同時獲取所述前η個結(jié)果入鏈和出鏈的網(wǎng)頁。優(yōu)選地,步驟S2中,構(gòu)建檢索結(jié)果集,同時解析所述網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息的步驟包括S21、解析檢索結(jié)果頁面RP,獲取每一個檢索結(jié)果的摘要、標(biāo)題和URL,形成檢索結(jié)果集R;S22、將R中的網(wǎng)頁添加到網(wǎng)頁集合U中;S23、對于R中的每一個網(wǎng)頁ρ S231、抓取ρ指向的所有網(wǎng)頁,形成集合0 = {ρ的出鏈集合},將0添加到U中;S232、抓取指向ρ的所有的網(wǎng)頁,形成I = {ρ的入鏈集合},從I中隨機(jī)選取m個元素添加到U中;S24、對于網(wǎng)頁集合U中的每一個網(wǎng)頁p,解析p,獲取ρ指向的鏈接的地址和錨文本,獲取P的標(biāo)題,并輸出每一個檢索結(jié)果的摘要信息。優(yōu)選地,所述改進(jìn)的Hits算法或改進(jìn)的I^ageRank算法中,根據(jù)查詢詞與錨文本之間的相似度對鏈接關(guān)系圖中的每一條邊設(shè)定不同的權(quán)重。優(yōu)選地,當(dāng)步驟S3使用改進(jìn)的檢索模型進(jìn)行度量,則該步驟S3具體為使用 tf-idf打分模型,選取文檔的標(biāo)題和搜索引擎生成的摘要對文檔進(jìn)行打分。優(yōu)選地,步驟S4具體為對于相關(guān)性分?jǐn)?shù)的分布,采用分布的中位數(shù)、均值、信息熵中的若干個作為分類的特征,然后對于每一個相關(guān)性分?jǐn)?shù)的分布,選擇若干個特征形成分類的特征向量,最后采用分類方法對查詢詞進(jìn)行分類,從而預(yù)測出查詢詞的類別,最后根據(jù)所述查詢詞的類別判斷查詢意圖的類別。(三)有益效果本發(fā)明采用改進(jìn)的Hits算法、改進(jìn)的I^geRank算法以及改進(jìn)的檢索模型三種方式獲取檢索結(jié)果的相關(guān)性分?jǐn)?shù),解決了現(xiàn)有的方案中長尾分布的查詢點擊日志不足的問題,也解決了基于錨文本的方法中,無法在錨文本中找到匹配的錨文本集合或者集合中元素過少的問題。
圖1是本發(fā)明實施例的方法流程圖。
具體實施例方式下面對于本發(fā)明所提出的一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法, 結(jié)合附圖和實施例詳細(xì)說明。如圖1所示,本發(fā)明實施例的方法包括以下步驟Si、獲取查詢的檢索結(jié)果和網(wǎng)頁;S2、根據(jù)所述檢索結(jié)果和網(wǎng)頁構(gòu)建檢索結(jié)果集;S3、度量所述檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù);S4、利用相關(guān)性分?jǐn)?shù)的分布對查詢意圖進(jìn)行分類。以下對S2 S4的每個步驟分別進(jìn)行詳細(xì)介紹。S2、構(gòu)建檢索結(jié)果集為了構(gòu)建結(jié)果集(是一個集合),首先需要抓取檢索結(jié)果(可以是頁面),獲取搜索引擎返回的前η個結(jié)果。如果在步驟S3中使用改進(jìn)的Hits算法度量相關(guān)性分?jǐn)?shù),還需要獲取這前η個結(jié)果入鏈和出鏈的網(wǎng)頁。本發(fā)明中,對于改進(jìn)的圖算法(包括改進(jìn)的Hits 算法和改進(jìn)的I^ageRank算法),采用查詢詞和錨文本的相似度來度量圖算法中邊的權(quán)重,采用檢索結(jié)果的摘要來度量文檔和查詢詞之間的檢索模型分?jǐn)?shù),因此在構(gòu)建結(jié)果集的同時也需要解析所述相關(guān)網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息。獲取網(wǎng)頁和解析所述網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息的方法流程如下輸入Query q (表示輸入查詢詞q);輸出檢索結(jié)果集合相關(guān)的網(wǎng)頁,包括檢索結(jié)果頁面,檢索結(jié)果網(wǎng)頁的入鏈和出鏈,以及這些網(wǎng)頁的標(biāo)題和錨文本,同時輸出每一個檢索結(jié)果的摘要信息;運(yùn)行流程1)U= {},U表示網(wǎng)頁集合,初始為空;2)獲取符合查詢詞q的前η個的檢索結(jié)果頁面RP ;3)解析頁面RP,獲取每一個檢索結(jié)果的摘要,標(biāo)題和URL,形成檢索結(jié)果集合R ;4)將R中的網(wǎng)頁添加到U中;5)對于R中的每一個網(wǎng)頁ρ 5.1)抓取ρ指向的所有網(wǎng)頁,形成0= {ρ的出鏈集合},將0添加到U中5. 2)抓取指向ρ的所有的網(wǎng)頁,形成I = {ρ的入鏈集合},從I中隨機(jī)選取m個添加到網(wǎng)頁集合U中6)對于網(wǎng)頁集合U中的每一個網(wǎng)頁p,解析p,獲取ρ指向的鏈接的地址和錨文本, 獲取P的標(biāo)題,并輸出每一個檢索結(jié)果的摘要信息。上述過程中,一般取η = 100,m= 100。S3、度量所述檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù)得到檢索結(jié)果集后,本步驟選取三種方式中的一種計算檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù),前兩種基于圖算法,第三種方法使用檢索模型對文檔和查詢進(jìn)行打分。設(shè)R,I和0分別表示檢索結(jié)果集,入鏈集和出鏈集。圖G = {V,E},V表示鏈接關(guān)系圖中的頂點集合,E表示鏈接關(guān)系圖中邊的集合,U,ν表示鏈接關(guān)系圖中的頂點,(u, ν)表示從頂點u到ν的邊。在這里,鏈接關(guān)系圖G中的不同頂點代表不同的URL對應(yīng)的網(wǎng)頁,邊代表網(wǎng)頁到網(wǎng)頁之間的鏈接。對于網(wǎng)頁U中的任一鏈接(u,ν),定義Lu = {(u,v)},如果 ν e V(1)1^之外的邊,在構(gòu)建的檢索結(jié)果集中找不到邊指向的URL,在構(gòu)建G的過程中,刪除了這些邊。此外設(shè)W(u,ν)表示邊的權(quán)重,傳統(tǒng)的Hits和I^ageRank算法中,該值一般由下述公式得到w(u,v)= 1(2)
deg(M)其中,deg (U)表示u的出度。在構(gòu)建鏈接關(guān)系圖的時候,Hits算法使用R,I和0來構(gòu)建,即V= {R,I, 0}, PageRank中只使用R來構(gòu)建,即V = {R}。本發(fā)明中對傳統(tǒng)的Hits和I^ageRank算法做了一些優(yōu)化,主要體現(xiàn)在邊的權(quán)重設(shè)置方面,具體的細(xì)節(jié)在下面描述。1)、Hits 算法
傳統(tǒng)的Hits算法中,每條邊的權(quán)重都一樣,用戶在獲取信息的時候,對于給定的查詢,用戶更有可能沿著具有和查詢詞相似的錨文本的鏈接跳轉(zhuǎn),因此,在本發(fā)明中,根據(jù)查詢詞和錨文本之間的相似度對鏈接關(guān)系圖中的每一條邊設(shè)定不同的權(quán)重。
權(quán)利要求
1.一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法,其特征在于,包括以下步驟51、獲取查詢的檢索結(jié)果和網(wǎng)頁;52、根據(jù)所述檢索結(jié)果和網(wǎng)頁構(gòu)建檢索結(jié)果集;53、度量所述檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù);54、利用相關(guān)性分?jǐn)?shù)的分布對查詢意圖進(jìn)行分類。
2.如權(quán)利要求1所述的方法,其特征在于,步驟S2具體包括抓取檢索結(jié)果,并獲取搜索引擎返回的前η個結(jié)果,η為正整數(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,當(dāng)步驟S3使用改進(jìn)的圖算法進(jìn)行度量,則步驟S2在構(gòu)建檢索結(jié)果集的同時還解析所述網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息,所述改進(jìn)的圖算法包括改進(jìn)的Hits算法和改進(jìn)的I^geRank算法。
4.如權(quán)利要求3所述的方法,其特征在于,當(dāng)步驟S3使用改進(jìn)的Hits算法進(jìn)行度量, 則步驟S2在構(gòu)建檢索結(jié)果集的同時獲取所述前η個結(jié)果入鏈和出鏈的網(wǎng)頁。
5.如權(quán)利要求3所述的方法,其特征在于,步驟S2中,構(gòu)建檢索結(jié)果集,同時解析所述網(wǎng)頁所鏈接的錨文本、所述網(wǎng)頁的標(biāo)題和檢索結(jié)果的摘要信息的步驟包括521、解析檢索結(jié)果頁面RP,獲取每一個檢索結(jié)果的摘要、標(biāo)題和URL,形成檢索結(jié)果集R;522、將R中的網(wǎng)頁添加到網(wǎng)頁集合U中;523、對于R中的每一個網(wǎng)頁ρ5231、抓取ρ指向的所有網(wǎng)頁,形成集合0= {ρ的出鏈集合},將0添加到U中;5232、抓取指向ρ的所有的網(wǎng)頁,形成I= {ρ的入鏈集合},從I中隨機(jī)選取m個元素添加到U中;524、對于網(wǎng)頁集合U中的每一個網(wǎng)頁p,解析p,獲取ρ指向的鏈接的地址和錨文本,獲取P的標(biāo)題,并輸出每一個檢索結(jié)果的摘要信息。
6.如權(quán)利要求3所述的方法,其特征在于,所述改進(jìn)的Hits算法或改進(jìn)的I^ageRank算法中,根據(jù)查詢詞與錨文本之間的相似度對鏈接關(guān)系圖中的每一條邊設(shè)定不同的權(quán)重。
7.如權(quán)利要求1所述的方法,其特征在于,當(dāng)步驟S3使用改進(jìn)的檢索模型進(jìn)行度量,則該步驟S3具體為使用tf-idf打分模型,選取文檔的標(biāo)題和搜索引擎生成的摘要對文檔進(jìn)行打分。
8.如權(quán)利要求1 7中任一項所述的方法,其特征在于,步驟S4具體為對于相關(guān)性分?jǐn)?shù)的分布,采用分布的中位數(shù)、均值、信息熵中的若干個作為分類的特征,然后對于每一個相關(guān)性分?jǐn)?shù)的分布,選擇若干個特征形成分類的特征向量,再采用分類方法對查詢詞進(jìn)行分類,從而預(yù)測出查詢詞的類別,最后根據(jù)所述查詢詞的類別判斷查詢意圖的類別。
全文摘要
本發(fā)明涉及網(wǎng)絡(luò)和信息檢索技術(shù)領(lǐng)域,公開了一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法,包括以下步驟S1、獲取查詢的檢索結(jié)果和網(wǎng)頁;S2、根據(jù)所述檢索結(jié)果和網(wǎng)頁構(gòu)建檢索結(jié)果集;S3、度量所述檢索結(jié)果集中文檔的相關(guān)性分?jǐn)?shù);S4、利用相關(guān)性分?jǐn)?shù)的分布對查詢意圖進(jìn)行分類。本發(fā)明采用改進(jìn)的Hits算法、改進(jìn)的PageRank算法以及改進(jìn)的檢索模型三種方式獲取檢索結(jié)果的相關(guān)性分?jǐn)?shù),解決了現(xiàn)有的方案中長尾分布的查詢點擊日志不足的問題,也解決了基于錨文本的方法中,無法在錨文本中找到匹配的錨文本集合或者集合中元素過少的問題。
文檔編號G06F17/30GK102411626SQ20111041561
公開日2012年4月11日 申請日期2011年12月13日 優(yōu)先權(quán)日2011年12月13日
發(fā)明者何靖, 劉曉兵, 徐谷子, 李鑠, 閆宏飛 申請人:北京大學(xué)