專利名稱:基于倒排表進行檢索提示的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機信息檢索技術(shù),特別是指一種基于倒排表的檢索提示方法。
背景技術(shù):
搜索引擎的用戶經(jīng)常需要尋找自己本不熟悉的內(nèi)容(新穎的內(nèi)容),即他并不明確自己的需要,或者不知如何表達這種需要。除了某些流行的詞語以外(如明星的名字,新聞事件的名字等),用戶所輸入的查詢詞并不總是最適當?shù)牟樵冊~。另一種情況是用戶并沒有明確的目標,只是想大概了解一下某個范圍內(nèi)自己感興趣的未知內(nèi)容,這樣,他就更加不知道如何通過查詢詞表達這種需求了。最后一種情況是用戶根本就不知道相關(guān)內(nèi)容的存在,他不可能想起去找尋它們,而這些內(nèi)容卻是他所想要得到的;或者用戶認為有相關(guān)內(nèi)容,但索引庫中確實沒有相關(guān)內(nèi)容,例如某些信息沒有被自動獲取或者某些信息被當作有害信息被禁止訪問或丟棄了。
上述情況的存在,使得用戶表達需求困難,不能讓搜索引擎方便的找到用戶所需要的內(nèi)容,我們稱之為用戶需求與內(nèi)容的不一致性。這種不一致性的解決需要系統(tǒng)根據(jù)內(nèi)容提示出相關(guān)的詞,讓用戶選擇或點擊來進行搜索而不是要求用戶輸入正確的查詢詞。研究表明,用戶通常從一個短查詢開始,查看查詢結(jié)果后,修改查詢,再進行檢索,如此反復,直到找到目標,若在查詢結(jié)果中給予更多的提示將加速這一過程。
目前的搜索引擎主要都是基于對用戶輸入的查詢詞進行統(tǒng)計而生成檢索提示的,即通過對所有用戶輸入的查詢詞進行統(tǒng)計,得到所有查詢詞的熱門程度,然后選擇與當前用戶輸入的查詢詞類似的且最熱門的一批檢索詞作為檢索提示。這種檢索提示方法提示給用戶的總是最熱門的那批檢索詞,雖有其合理性,但并不一定就是用戶真正想要的。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種基于倒排表進行檢索提示的方法,它可基于待檢索文檔的內(nèi)容來進行檢索提示。
為此,本發(fā)明采用以下方法一種基于倒排表進行檢索提示的方法,它包括如下步驟●建立主搜索引擎使用的主倒排表把全部待檢索文檔切分成詞,對切分后的詞進行索引,建立以詞為索引、包含此詞的文檔編號列表為值的倒排表,稱之為主倒排表。使用主倒排表對文檔進行索引和檢索的部分即為主搜索引擎,主搜索引擎用于根據(jù)查詢串中的詞檢索包含該詞的文檔;●建立次搜索引擎使用的次倒排表把上一步驟中切分后的詞再切分成字,對切分后的字進行索引,建立以字為索引、包含此字的詞為值的倒排表,稱之為次倒排表,使用次倒排表對詞進行索引和檢索的部分即為次搜索引擎,次搜索引擎用于根據(jù)查詢串中的字檢索包含該字的詞;●用主搜索引擎檢索文檔將用戶輸入的檢索串切分成詞,用主搜索引擎檢索出包含這些詞的文檔,再對所有檢索出的文檔進行相關(guān)度排序,得到排序后的檢出文檔序列;●用次搜索引擎檢索詞將用戶輸入的檢索串切分成字,用次搜索引擎檢索出包含檢索串中每一個字的詞,再對所有檢索出的詞進行優(yōu)先度排序,得到排序后的檢出詞序列;●檢索提示向用戶提供檢索提示時,按照從次搜索引擎中檢索出的檢出詞序列的順序顯示每個檢出詞,并在每個檢出詞后面顯示出包含這個詞的文檔數(shù)目。
此外在所述建立次搜索引擎使用的次倒排表步驟前,可先對主搜索引擎使用的主倒排表中的詞進行篩選,以去除不需要的詞。
篩選時,可以以詞長和包含此詞的文檔個數(shù)作為篩選條件。
在所述用主搜索引擎檢索文檔步驟中,對檢索出的文檔采用TF*IDF算法或PageRank算法進行相關(guān)度排序。
在所述用次搜索引擎對檢索串中的字進行檢索的步驟中,采用以下優(yōu)先度算法進行排序首先分別計算檢索串中的各字與次倒排表中的該詞的相似度,即TF*IDF檢索串中的某字與該詞的相似度=檢索串中的某字在該詞中出現(xiàn)的次數(shù)×log(次倒排表中包含某字的詞的個數(shù)的倒數(shù)),然后計算該詞的優(yōu)先度,即該詞的優(yōu)先度=該詞在主搜索引擎的所有文檔中出現(xiàn)的頻率的平方根×檢索串中的各字與該詞的相似度之和。
本發(fā)明方法實際上就是基于待檢索文檔的內(nèi)容來進行檢索提示,它較基于查詢詞統(tǒng)計的檢索提示有如下優(yōu)點(1)從信息論的角度,一個詞在各場合出現(xiàn)的頻度越高,它所包含的信息量就越少?;趦?nèi)容的檢索提示可以把少見的、信息量大的詞給提示出來,而基于查詢統(tǒng)計的提示則只能提示出些眾所周知的包含信息量少的詞。
(2)基于內(nèi)容所提示的詞一定會有內(nèi)容對應。基于查詢詞的提示則不然,用戶可能輸入檢索不到結(jié)果或有誤導性的查詢詞。
(3)基于內(nèi)容檢索提示,由于文檔內(nèi)容中用語的相對一致性,所提示的詞冗余數(shù)量少,跨越范圍大,能夠給用戶更加廣度的提示?;诓樵冊~的提示則不然,由于事先不知道目標文檔所采用的詞,不同用戶對流行的主題會采用不同的查詢詞,不同的組合,不同的順序,這種現(xiàn)象導致基于查詢詞的提示被大量意義重復的流行詞所填充。
(4)基于內(nèi)容的提示能提示出鮮為人知的檢索詞,從而擴展用戶的知識面?;诓樵冊~的提示則不然,只有被用戶使用過且滿足統(tǒng)計要求的查詢詞才會被提示出來,即便所索引的內(nèi)容中有相關(guān)主題,但只要用戶不知道,就不會去查詢或只有很少的用戶查詢,系統(tǒng)也不會提示用戶去查詢,它們也就永遠不為人知或僅為少數(shù)人知道。
(5)基于內(nèi)容的提示能準確提示相關(guān)文檔的數(shù)目,且效率相對較高。由于基于內(nèi)容的檢索提示,直接提示的就是倒排表中的詞,可以很容易獲取對應文檔的數(shù)目。而基于查詢詞的提示,若要獲取對應的文檔數(shù)則需要進行對應的查詢或通過額外的緩存來記錄檢索結(jié)果數(shù)目,完成相同的功能所需開銷巨大。并且按照查詢詞解析后的查詢結(jié)果反映的是包含檢索詞各種排列組合的可能文檔,所獲取結(jié)果并不準確(嚴重偏大)。
圖1為本發(fā)明的體系結(jié)構(gòu)圖;圖2為本發(fā)明的流程圖;圖3為本發(fā)明的主倒排表示意圖;圖4為本發(fā)明的次倒排表示意圖;圖5為Google Suggest基于查詢統(tǒng)計給出的提示;圖6為百度的相關(guān)搜索基于查詢統(tǒng)計給出的提示;圖7為依據(jù)本發(fā)明構(gòu)造的新搜索引擎基于內(nèi)容所給出的檢索提示。
具體實施例方式
倒排表是搜索引擎中的一種常用的數(shù)據(jù)結(jié)構(gòu),倒排表以詞為索引,以包含這些詞的文檔集合為項,可以快速找到包含某個詞或某些詞的文檔集合。倒排表不僅存放了每個詞所對應的文檔編號列表,還存儲了該詞對應的文檔的數(shù)目(稱之為文檔頻率df)、該詞在某文檔中的出現(xiàn)的次數(shù)(稱之為詞頻tf),甚至該詞在某文檔中的出現(xiàn)的位置等信息。因此倒排表中的詞和它所對應的文檔數(shù)目實質(zhì)上構(gòu)造了一個以大規(guī)模語料為基礎(chǔ)的詞頻詞典,可以作為檢索提示的一個依據(jù)。當用戶不知道該使用什么樣的檢索詞來搜索他感興趣的內(nèi)容時,他可以輸入與他想檢索的內(nèi)容有關(guān)的字詞,系統(tǒng)能夠搜索倒排表中已有的詞,提示出與用戶輸入相關(guān)的詞,并能列出每個詞會在多少篇文檔中出現(xiàn)。用戶根據(jù)檢索提示,可以做進一步的精確搜索。
北京航空航天大學軟件工程研究所研發(fā)出一種中文分詞軟件BUAASEISEG,該分詞軟件傾向于長詞切分,具有很強的新詞識別能力,對術(shù)語、人名、地名、組織名、機構(gòu)名等命名實體有很強的識別能力。BUAASEISEG采用迭代式二元切分方法,結(jié)合候選詞在文章中出現(xiàn)的局部概率以及候選詞在詞頻詞典中出現(xiàn)的全局概率,以及候選詞向后續(xù)詞的轉(zhuǎn)移次數(shù),能夠在線進行上下文相關(guān)的新詞識別和歧義消解,只要具備一定的上下文,它就具有識別各種類型的新詞的能力(不局限于人名、地名、組織名)和消解各類歧義的能力。對于一些在文章中出現(xiàn)頻率較高的命名實體,BUAASEISEG會將其切分成一個整詞,比如“北京航空航天大學”,BUAASEISEG也把它切分成一個整詞,而一般的中文分詞算法則會把它切分成“北京”,“航空”,“航天”,“大學”4個詞。BUAASEISEG同時支持英文的命名實體識別,比如“software engineering”會作為一個完整的詞加入倒排表中,而不會分為”software”和”engineering”兩個詞。(關(guān)于BUAASEISEG分詞系統(tǒng)的詳細說明可以參見論文曹勇剛,曹羽中,金茂忠,劉超.面向信息檢索的自適應中文分詞系統(tǒng).軟件學報,2006,17(3)356-363)。
本發(fā)明是一種基于倒排表進行檢索提示的方法,下面結(jié)合圖1所示的本發(fā)明的體系結(jié)構(gòu)和圖2所示的流程圖,描述本發(fā)明的實施步驟。
步驟a)建立主搜索引擎使用的主倒排表把全部待檢索文檔或網(wǎng)頁切分成詞,對切分后的詞進行索引,在索引的過程中建立以詞為索引、包含此詞的文檔編號列表為值的倒排表,其結(jié)構(gòu)如附圖3所示。我們把對文檔進行索引和檢索的部分,稱為主搜索引擎,主搜索引擎用于根據(jù)查詢串中的詞檢索包含該詞的文檔。
如果待檢索文檔中包含中文,可以使用任意中文分詞算法或中文分詞軟件(分詞器)來進行中文分詞。如果使用特定的分詞算法,比如使用中文分詞軟件BUAASEISEG,將會得到更佳的檢索提示。
步驟b)對步驟a)中主倒排表中的詞進行篩選可以以詞長和包含此詞的文檔個數(shù)作為篩選條件,去除不需要的詞(如單個詞或出現(xiàn)極少的詞)。根據(jù)不同的需要可以采用各種篩選手段,也可以不進行篩選。篩選的原則是詞長必須大于等于2并且詞必須在至少五個文檔中出現(xiàn)過(即DF≥5)。選擇何種篩選條件主要依據(jù)要索引的文檔集的大小以及內(nèi)容,根據(jù)實驗效果來確定。
步驟c)建立次搜索引擎使用的次倒排表把切分后的詞(如經(jīng)過篩選,則指篩選后的詞)進行單字切分(即把英文切分成一個個的單詞,中文切分成一個個的漢字)并進行索引,建立以字為索引、包含此字的詞為值的倒排表,稱之為“次倒排表”,其結(jié)構(gòu)如附圖4所示。我們把使用次倒排表對詞進行索引和檢索的部分稱為次搜索引擎。次搜索引擎用于根據(jù)查詢串中的字檢索包含這些字的詞匯(不限次序)。次倒排表中同時也存儲了每個詞的文檔頻率(即有多少篇文檔中包含此詞)。
步驟d)用主搜索引擎檢索文檔用戶檢索時,先把檢索串按步驟a)中使用的切詞算法切分成詞,用主搜索引擎檢索出包含這些詞的文檔,再對所有檢索出的文檔進行相關(guān)度排序(依據(jù)搜索引擎所通用的向量空間模型進行計算),得到檢索結(jié)果,即排序后的檢出文檔序列。此處可以采用信息檢索領(lǐng)域的各種相關(guān)度排序算法,如TF*IDF,PageRank等,所使用的具體排序算法只會影響文檔檢索結(jié)果的查準率和查全率,而不會影響檢索提示的效果。
步驟e)用次搜索引擎檢索詞在步驟d)的同時將用戶輸入的檢索串切分成字,然后到次搜索引擎中檢索出所有包含檢索串中每一個字的詞以及該詞的文檔頻率,再對所有檢索出的詞進行優(yōu)先度排序,得到排序后的檢出詞序列。
步驟f)提供檢索提示向用戶提供檢索提示時,按照從次搜索引擎中檢索出的檢出詞序列的順序顯示每個檢出詞,并在每個詞后面顯示該詞的文檔頻率(即有多少篇文檔中包含此詞)。
在步驟e)中本發(fā)明使用了一種檢索提示詞優(yōu)先度排序算法(此算法將在后面詳細描述)對全部檢索結(jié)果進行優(yōu)先度排序,得到優(yōu)先度最高的10個(可以根據(jù)需要調(diào)整數(shù)目)檢索提示詞,顯示在步驟d)所得到的檢索結(jié)果頁面中(一般適合放在上方、下方或兩處全有)。每個檢索提示詞都對應有超鏈接,前方也可以有一個復選框,用戶可以單擊單個或選中多個自己感興趣的檢索詞,進行進一步的精確搜索。用戶也可以通過點擊”更多檢索提示”這個鏈接,得到全部檢索提示詞。
本發(fā)明所使用的檢索提示詞優(yōu)先度排序算法如下把用戶輸入的檢索串sequence切分成單字,即sequence={char[1],char[2],.....,char[n]},然后用char[1],char[2]....,char[n]到次倒排表中去進行匹配,如果次倒排表中的某個詞word[j]包含了char[1],char[2],....,char[n](不限各個字的出現(xiàn)順序),那么word[j]就是一個檢索提示詞。然后對char[1],char[2],.....,char[n]分別計算與word[j]的相似度得分,計算公式是sim(char[i],word[j])=TF*IDF其中sim(char[i],word[j])字char[i]與檢索提示詞word[j]的相似度得分TF字char[i]在詞word[j]中出現(xiàn)的次數(shù)。
IDF次倒排索引中包含字char[i]的詞的個數(shù)的倒數(shù)取log值。
然后檢索提示詞的優(yōu)先度計算公式如下Priority(word[j])=boost(word[j])*∑sim(char[i],word[j])即把char[1],char[2],......,char[n]與word[j]的相似度得分求和后再乘以word[j]本身的加權(quán)值boost(word[j]),即得到了word[j]的優(yōu)先度得分Priority(word[j])。其中加權(quán)值boost的計算公式如下boost(word[j])=sqrt(docFreq(word[j]))其中docFreq(word[j])指檢索提示詞word[j]在主搜索引擎的所有文檔中出現(xiàn)的頻率,即主搜索引擎中有多少個文檔包含word[j],sqrt指取平方根。
使用檢索提示詞加權(quán)值的好處是可以優(yōu)先提示文檔頻率高的詞,這樣一方面可以避免把步驟a)中少數(shù)切分錯誤的詞排在前面提示出來(因為切分錯誤的詞通常具有很低的文檔頻率),另一方面由于文檔中最經(jīng)常出現(xiàn)的詞可能也是人們最常使用、最感興趣的詞,這樣可以讓用戶很快找到自己所需要的詞。
本發(fā)明不依賴于特定的軟硬件環(huán)境,它可以采用目前已有的搜索引擎的硬件配置。按照本說明書的步驟,可在任何已有的具有倒排表索引和查詢能力的搜索引擎基礎(chǔ)上加以改造從而實現(xiàn)本發(fā)明要達到的目標——基于內(nèi)容的檢索提示。
本發(fā)明的所產(chǎn)生的提示和已有搜索引擎的基于查詢統(tǒng)計的差別在發(fā)明內(nèi)容中已經(jīng)闡述,附圖5-7給出了一個具體的例子(檢索“機器人”)來和流行的搜索引擎Google和百度進行提示效果比較,其中DiMoor是發(fā)明人在開源搜索引擎Nutch(http://lucene.Apache.org/nutch/)的基礎(chǔ)上按本說明書的步驟構(gòu)造的新搜索引擎。由圖5-圖6可看出,基于查詢統(tǒng)計的檢索提示會由于用戶反復采用不同的查詢詞檢索同一個熱門話題而使得提示面很窄且不規(guī)范(圖5-圖6中由于游戲愛好者數(shù)量大于科學愛好者,提示出來的基本上都是跟游戲有關(guān)的詞,而科學中的機器人相關(guān)詞匯被埋沒了)。圖7則能從更普遍意義上揭示所索引的文檔所包含的各種與查詢詞相關(guān)的詞匯,并揭示了包含對應提示詞的文檔數(shù)目(從圖7可以看到,實際上網(wǎng)上介紹機器人技術(shù)的科普文章并不少于用機器人作弊的游戲攻略)。
如使用我們的發(fā)明方法系統(tǒng),用戶輸入檢索詞“北航”,系統(tǒng)將能夠提示出“北京航空航天大學”,“北方航空公司”等,也能夠提示出北京航空航天大學的下級機構(gòu)名如“北京航空航天大學計算機學院”,“北京航空航天大學軟件工程研究所”,“北京航空航天大學宇航學院”等等,如果用戶是想要利用搜索引擎了解北京航空航天大學下屬的某一個單位,但又并不確切知道該單位的名稱,這樣的檢索提示就非常有價值了。
權(quán)利要求
1.一種基于倒排表進行檢索提示的方法,其特征在于它包括如下步驟●建立主搜索引擎使用的主倒排表把全部待檢索文檔切分成詞,對切分后的詞進行索引,建立以詞為索引、包含此詞的文檔編號列表為值的倒排表,稱之為主倒排表。使用主倒排表對文檔進行索引和檢索的部分即為主搜索引擎,主搜索引擎用于根據(jù)查詢串中的詞檢索包含該詞的文檔;●建立次搜索引擎使用的次倒排表把上一步驟中切分后的詞再切分成字,對切分后的字進行索引,建立以字為索引、包含此字的詞為值的倒排表,稱之為次倒排表,使用次倒排表對詞進行索引和檢索的部分即為次搜索引擎,次搜索引擎用于根據(jù)查詢串中的字檢索包含該字的詞;●用主搜索引擎檢索文檔將用戶輸入的檢索串切分成詞,用主搜索引擎檢索出包含這些詞的文檔,再對所有檢索出的文檔進行相關(guān)度排序,得到排序后的檢出文檔序列;●用次搜索引擎檢索詞將用戶輸入的檢索串切分成字,用次搜索引擎檢索出包含檢索串中每一個字的詞,再對所有檢索出的詞進行優(yōu)先度排序,得到排序后的檢出詞序列;●檢索提示向用戶提供檢索提示時,按照從次搜索引擎中檢索出的檢出詞序列的順序顯示每個檢出詞,并在每個檢出詞后面顯示出包含這個詞的文檔數(shù)目。
2.如權(quán)利要求1所述的基于倒排表進行檢索提示的方法,其特征在于在所述建立次搜索引擎使用的次倒排表步驟前,先對主搜索引擎使用的主倒排表中的詞進行篩選,以去除不需要的詞。
3.如權(quán)利要求2所述的基于倒排表進行檢索提示的方法,其特征在于對所述主搜索引擎使用的主倒排表中的詞進行篩選時,可以以詞長和包含此詞的文檔個數(shù)作為篩選條件。
4.如權(quán)利要求3所述的基于倒排表進行檢索提示的方法,其特征在于所述篩選的條件是詞長必須大于等于2并且詞必須在至少五個文檔中出現(xiàn)過。
5.如權(quán)利要求1所述的基于倒排表進行檢索提示的方法,其特征在于在所述用主搜索引擎檢索文檔步驟中,對檢索出的文檔采用TF*IDF算法或PageRank算法進行相關(guān)度排序。
6.如權(quán)利要求1所述的基于倒排表進行檢索提示的方法,其特征在于在所述用次搜索引擎對檢索串中的字進行檢索的步驟中,采用以下優(yōu)先度算法進行排序首先分別計算檢索串中的各字與次倒排表中的該詞的相似度,即TF*IDF檢索串中的某字與該詞的相似度=檢索串中的某字在該詞中出現(xiàn)的次數(shù)×log(次倒排表中包含某字的詞的個數(shù)的倒數(shù)),然后計算該詞的優(yōu)先度,即該詞的優(yōu)先度=該詞在主搜索引擎的所有文檔中出現(xiàn)的頻率的平方根×檢索串中的各字與該詞的相似度之和。
全文摘要
本發(fā)明是一種基于倒排表進行檢索提示的方法,它包括如下步驟建立主搜索引擎使用的主倒排表和次搜索引擎使用的次倒排表;將用戶輸入的檢索串切分成詞,用主搜索引擎檢索出包含這些詞的文檔,并將這些文檔進行相關(guān)度排序,得到檢索結(jié)果。再將檢索串切分成字,用次搜索引擎檢索出包含檢索串中每一個字的詞,再對所有檢索出的詞匯進行優(yōu)先度排序,得到排序后的檢出詞序列;向用戶提供檢索提示時,按照從次搜索引擎中檢索出的檢出詞序列的順序顯示每個檢出詞,并在每個檢出詞后面顯示出包含這個檢出詞的文檔數(shù)目。本發(fā)明基于待檢索文檔的內(nèi)容來進行檢索提示,它較基于查詢詞統(tǒng)計的檢索提示有如下優(yōu)點可以把少見的、信息量大的詞給提示出來;所提示的詞冗余數(shù)量少,跨越范圍大,能夠給用戶更加廣度的提示;能提示出鮮為人知的檢索詞,并能列出每個檢索提示詞會在多少篇文檔中出現(xiàn),從而擴展用戶的知識面,幫助用戶進行更準確的檢索。
文檔編號G06F17/30GK1916905SQ20061011282
公開日2007年2月21日 申請日期2006年9月4日 優(yōu)先權(quán)日2006年9月4日
發(fā)明者曹勇剛, 曹羽中, 金茂忠, 劉超 申請人:北京航空航天大學