一種針對檢索結(jié)果多元化的信息檢索數(shù)據(jù)融合方法
【專利摘要】本發(fā)明公開了一種針對檢索結(jié)果多元化的信息檢索數(shù)據(jù)融合方法,包括以下步驟:假設(shè)總共有t個信息檢索系統(tǒng),它們對于同一查詢搜索同一數(shù)據(jù)庫,從而得到t個結(jié)果。對任一結(jié)果統(tǒng)計其中文檔在其它結(jié)果中出現(xiàn)的次數(shù);計算每一個檢索結(jié)果(1≤i≤t)的差異值作為差異性權(quán)重;使用性能指標ERR-IA20評估,得到的性能值作為每個信息檢索系統(tǒng)的性能權(quán)重;結(jié)合差異性權(quán)重和性能權(quán)重,計算每一個信息檢索系統(tǒng)的綜合權(quán)重;重復使用上述方法于一組查詢,每個信息檢索系統(tǒng)的最終權(quán)重取在所有查詢中得到的平均值;將計算出的最終權(quán)重應(yīng)用線性組合方法進行檢索結(jié)果融合。本發(fā)明能夠同時提高融合結(jié)果的有效性和多樣性,可應(yīng)用于不同種類的融合問題如文檔、圖片、醫(yī)療記錄等。
【專利說明】一種針對檢索結(jié)果多元化的信息檢索數(shù)據(jù)融合方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索領(lǐng)域,具體涉及一種數(shù)據(jù)融合技術(shù)。
【背景技術(shù)】
[0002]在信息檢索任務(wù)中,相關(guān)性一直是人們對檢索結(jié)果質(zhì)量進行評價的一個重要指標。一個好的結(jié)果排名絕不會給出大量不相關(guān)的檢索結(jié)果。傳統(tǒng)的檢索系統(tǒng)往往根據(jù)文檔和給定查詢之間的相關(guān)性程度進行排名,這在相關(guān)文檔比較少的情況下是很合理的。然而對于有較多相關(guān)文檔的情況,檢索結(jié)果中就可能有較多的重復的相關(guān)文檔?,F(xiàn)在很多檢索系統(tǒng),特別是web檢索,在計算文檔與查詢的相關(guān)程度過程中不僅考慮相關(guān)性特征,還考慮其間的多樣性或者是新穎性特征。多樣性已成為檢索結(jié)果評價的一個重要指標。
[0003]數(shù)據(jù)融合方法是采用多個來自于不同信息檢索系統(tǒng)針對同一查詢提供的結(jié)果,按照某種策略進行融合,給出新的結(jié)果。以往關(guān)于數(shù)據(jù)融合的研究(比如[5,6,7])表明了數(shù)據(jù)融合方法是有可能提高檢索性能的,但這些研究都僅考慮了相關(guān)性,融合的結(jié)果能夠在有效性方面有所改善。對于多元化層面上的檢索性能,數(shù)據(jù)融合技術(shù)需要被重新評估。特別是,一些數(shù)據(jù)融合方法應(yīng)該有所修改以適應(yīng)新的檢索要求。
[0004]關(guān)于數(shù)據(jù)融合方法,可以根據(jù)對成員結(jié)果的處理方式大致分為兩類。一種是同等處理的融合方法,另一種是有偏向性處理的融合方法。前者公平地處理每一個參與融合的成員結(jié)果,后者則會賦予不同成員結(jié)果不同的權(quán)重。比較有名的CombSum, CombMNZ和Condorcet方法屬于第一類,而線性組合(Linear Combination)是第二類方法的一個典型代表。在要求檢索結(jié)果多元化的情況下,同等處理成員結(jié)果的數(shù)據(jù)融合方法是可以直接應(yīng)用的,不需要修改。但是對于線性組合方法,則需要進一步考慮。線性組合方法的一般步驟是:先確定每個信息檢索系統(tǒng)的權(quán)重,然后根據(jù)分配好的權(quán)重組合文檔在所有系統(tǒng)中的得分作為文檔的全局得分,最后根據(jù)全局得分對文檔進行排序,得到最終的融合結(jié)果。其中,權(quán)重分配問題是獲得良好的融合結(jié)果的關(guān)鍵。
[0005]權(quán)重分配主要考慮兩種特征,一是成員檢索系統(tǒng)的有效性,另一種是信息檢索系統(tǒng)結(jié)果之間的相似性(差異性)。因為對于一個信息檢索系統(tǒng),給予的權(quán)重代表了它在整體中的重要程度,系統(tǒng)本身擁有較好的檢索性能則應(yīng)該獲得一個較大的權(quán)重,反之則應(yīng)該給予一個較小的權(quán)重。另一方面,對于一個和其他信息檢索系統(tǒng)比較相似的信息檢索系統(tǒng),則應(yīng)該給它設(shè)定一個較小的權(quán)重。反之,一個信息檢索系統(tǒng)和其他信息檢索系統(tǒng)都不是很相似,它的結(jié)果中包含了較多的不同于其他結(jié)果的文檔,則應(yīng)該獲得一個較高的權(quán)重。因此,在分配權(quán)重時,應(yīng)該要考慮成員的性能或它與其他結(jié)果的差異程度,或者是兩者的結(jié)合。文獻[I]描述了一種僅考慮性能權(quán)重分配方法,考察了使用不同性能函數(shù)作為權(quán)重的融合效果。采用信息檢索系統(tǒng)在某一衡量指標下(如MAP)的評價值/7,可選的權(quán)重計算方案有p°_5,p,p2,P3等等。文獻[2,3]介紹了僅考慮相似性的方法,通過計算兩個信息檢索系統(tǒng)結(jié)果中相同文檔的覆蓋率來衡量兩個結(jié)果間的相似程度。文獻[4]將這兩種特征結(jié)合。假設(shè)有t個信息檢索系統(tǒng),性能權(quán)重取信息檢索系統(tǒng)的性能值P,如用MAP來衡量。信息檢索系統(tǒng)結(jié)果差異性方面,通過計算兩個結(jié)果序列(LL,)的距離獲取兩者之間的差異值。這種距離計算比較了每個文檔在兩個信息檢索系統(tǒng)結(jié)果中分值的差異:
【權(quán)利要求】
1.一種針對檢索結(jié)果多元化的信息檢索數(shù)據(jù)融合方法,其特征在于包括以下步驟: 步驟一,假設(shè)總共有t個信息檢索系統(tǒng),對于同一查詢搜索同一數(shù)據(jù)庫,從而得到由Ni個文檔的有序集合構(gòu)成的檢索結(jié)果爲;取爲中排在前η的η個文檔 構(gòu)成文檔集合稱檢索結(jié)果Z1;將文檔&在t個信息檢索系統(tǒng)中出現(xiàn)的總次數(shù)記為i=l, 2,3,…t ;j=l, 2,3,…η ;η的選取規(guī)則如下: 當 Ni 大于 1000 時,11=10%*11^11{隊}并取整;當 100<=^<=1000 時,n=100 ;當隊〈100 時,n=min{Nj ; 步驟二,計算第i個信息檢索系統(tǒng)的檢索結(jié)果中文檔出現(xiàn)在其它信息檢索系統(tǒng)檢索結(jié)果中的總次數(shù)3^,%的最大值為t-Ι;計算第i個信息檢索系統(tǒng)的檢索結(jié)果^與其它信息檢索系統(tǒng)的檢索結(jié)果的差異性權(quán)重公式如下
2.根據(jù)權(quán)利要求1所述的一種針對檢索結(jié)果多元化的信息檢索數(shù)據(jù)融合方法,其特征在于:所述現(xiàn)有的性能指標為ERR-1A020或ff-nDCG@20。
【文檔編號】G06F17/30GK103838874SQ201410112940
【公開日】2014年6月4日 申請日期:2014年3月25日 優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】吳勝利, 黃春蘭, 王秀紅 申請人:江蘇大學