專利名稱:基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索與數(shù)據(jù)壓縮技術(shù)領(lǐng)域,具體涉及ー種基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索弓I裁剪方法。
背景技術(shù):
隨著以社交網(wǎng)絡(luò)為代表的Web 2. O時(shí)代的到來,每時(shí)每刻都有大量文本數(shù)據(jù)被生產(chǎn)出來,對(duì)這些海量文本數(shù)據(jù)或者大數(shù)據(jù)建立索引必然導(dǎo)致龐大的索引文件。同時(shí),為支持更加豐富而多樣化的查詢檢索功能,存儲(chǔ)在索引文件中的信息類型和數(shù)量也較以前有大量的増加,這無疑進(jìn)ー步加劇了索引文件的膨脹。龐大索引文件不僅占用大量的磁盤空間,更 使得查詢時(shí)訪問索引文件時(shí)間開銷過大,磁盤I/o的過于頻繁與緩慢的磁盤訪問速度,已經(jīng)成為影響效率提升的重大瓶頸之一。此外,新應(yīng)用場(chǎng)景的出現(xiàn),如移動(dòng)終端檢索(searchin mobile devices)、個(gè)人電腦桌面搜索(desktop search)、P2P 檢索(Peer to Peersearch)等,對(duì)信息檢索系統(tǒng)的各項(xiàng)性能提出了更嚴(yán)格的要求,迫使現(xiàn)代信息檢索系統(tǒng)必須重新考慮下列問題哪一部分索引數(shù)據(jù)應(yīng)該被存儲(chǔ)于索引文件之中。目前降低索引文件大小的最常見方法是使用數(shù)據(jù)壓縮技術(shù),數(shù)據(jù)壓縮技術(shù)一般存在兩種類型無損壓縮和有損壓縮。無損壓縮采用高效的數(shù)據(jù)編碼方式表示記錄在索引結(jié)構(gòu)中的數(shù)據(jù)信息,比如Delta編碼、Golomb編碼和可變長(zhǎng)字節(jié)編碼等,壓縮過程中不刪除任何索引信息。有損壓縮則是通過刪除在查詢時(shí)被認(rèn)為是無用的索引信息的方式達(dá)到降低索引文件大小的目的。目前,對(duì)倒排索引文件無損壓縮方法的研究已經(jīng)有許多成熟的解決方案,也有ー些對(duì)動(dòng)態(tài)后繼樹索引文件進(jìn)行無損壓縮的相關(guān)研究。無損壓縮的優(yōu)勢(shì)在于其安全性高,不會(huì)損失任何索引信息。與無損壓縮研究不同,針對(duì)索引文件的有損壓縮研究,即索引裁剪技術(shù)研究,卻并不是很多。依據(jù)目前公開可查詢的國(guó)內(nèi)外文獻(xiàn)來看,索引裁剪技術(shù)研究主要針對(duì)倒排索引文件進(jìn)行,國(guó)內(nèi)的相關(guān)研究更少,而且沒有針對(duì)動(dòng)態(tài)后繼樹索引文件進(jìn)行索引裁剪的相關(guān)研究。在充分利用動(dòng)態(tài)后繼樹索引結(jié)構(gòu)針對(duì)中文信息檢索的優(yōu)越性的同時(shí),必須注意到動(dòng)態(tài)后繼樹索引結(jié)構(gòu)的不足產(chǎn)生的索引文件比較大,膨脹比高。因此針對(duì)動(dòng)態(tài)后繼樹索引的特點(diǎn)進(jìn)行相應(yīng)的索引裁剪技術(shù)研究,從而彌補(bǔ)其索引文件膨脹比高的不足就具有極大理論價(jià)值和實(shí)踐意義。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供了一種基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法。為了實(shí)現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案一種基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索弓I裁剪方法,以完整的動(dòng)態(tài)后繼樹索弓I作為處理對(duì)象,對(duì)索引中的樹葉信息進(jìn)行重要性評(píng)估,然后刪除不重要的樹葉信息,形成裁剪后的動(dòng)態(tài)后繼樹索引;
該方法依次包括以下步驟
(I)針對(duì)動(dòng)態(tài)后繼樹索引結(jié)構(gòu),創(chuàng)建完整的動(dòng)態(tài)后繼樹索引;(2)依次遍歷索引中每ー篇文檔包含的不同ニ元詞項(xiàng),提取索引統(tǒng)計(jì)信息;
(3)利用重要性評(píng)分公式
卿)+^,計(jì)算索引中的
ニ元詞項(xiàng)在其當(dāng)前出現(xiàn)文檔中的重要性評(píng)分,然后對(duì)ニ元詞項(xiàng)進(jìn)行重要性降序排列;其中tf(bi)是ニ元詞項(xiàng)&在文檔中的出現(xiàn)次數(shù),TFm是ニ元詞項(xiàng)&在文檔集C中的出現(xiàn)
次數(shù),I Cl是文檔集e的長(zhǎng)度,丨D|為文檔ゴ的長(zhǎng)度,.W為平滑因子;該評(píng)分公式由一系列的公式推導(dǎo)而形成首先從傳統(tǒng)的查詢似然模型出發(fā),引入高效的狄尼克雷平滑機(jī)制對(duì)此查詢似然模型進(jìn)行擴(kuò)展;然后在信息論K-L距離定義的基礎(chǔ)上采用算木平均數(shù)的方式定義了對(duì)稱K-L距離,從而更加平衡的度量文檔與文檔集之間的差異;最后評(píng)估文檔中的ニ元
詞項(xiàng)對(duì)文檔對(duì)稱K-L距離的貢獻(xiàn)度即;
(4)輸入裁剪參數(shù)1<1€1€太€が)、/^^.£^1),讓裁剪參數(shù)しP依次分別和索引中與
一篇文檔關(guān)聯(lián)的所有樹葉信息的個(gè)數(shù)μ/41進(jìn)行比較、計(jì)算,控制動(dòng)態(tài)后繼樹索引的裁剪規(guī)模,刪除ー篇文檔中排序靠后的ニ元詞項(xiàng)所對(duì)應(yīng)的樹葉信息Leaf Information (LI);裁剪參數(shù)k、P在取值范圍內(nèi)的實(shí)際取值可以根據(jù)裁剪數(shù)據(jù)的實(shí)際情況、實(shí)際需求輸入,通過不同的取值,可以得到我們需要的不同裁剪效果;
(5)形成并輸出裁剪后的動(dòng)態(tài)后繼樹索引。上述的ニ元詞項(xiàng)由樹根詞項(xiàng)和與樹根詞項(xiàng)直接關(guān)聯(lián)的樹葉詞項(xiàng)組成的整體,是不可分割。所述的樹根詞項(xiàng)是指在創(chuàng)建動(dòng)態(tài)后繼樹索引時(shí),位于樹根的分詞詞項(xiàng);而樹葉詞項(xiàng)則是樹根的后繼,指位于樹葉的分詞詞項(xiàng)。上述的索引統(tǒng)計(jì)信息包括ニ元詞項(xiàng)在每ー篇文檔中出現(xiàn)的次數(shù)、含有某一個(gè)ニ元詞項(xiàng)的文檔數(shù)目、ニ元詞項(xiàng)在文檔集中總的出現(xiàn)次數(shù)、每ー篇文檔的長(zhǎng)度(即包含ニ元詞項(xiàng)的個(gè)數(shù))和文檔集的總長(zhǎng)度(即所有文檔長(zhǎng)度之和)、與一篇文檔關(guān)聯(lián)的所有樹葉信息的個(gè)數(shù)丨Z/41等,索引統(tǒng)計(jì)信息還可包括有其他信息,不限于上述提及的統(tǒng)計(jì)信息。所述的步驟(4)輸入裁剪參數(shù)!^^,!^!^、^(^/^^,讓裁剪參數(shù)匕P分別
和索引中與一篇文檔關(guān)聯(lián)的所有樹葉信息的個(gè)數(shù)丨進(jìn)行比較、計(jì)算,控制動(dòng)態(tài)后繼樹索引的裁剪規(guī)模,刪除ー篇文檔中排序靠后的ニ元詞項(xiàng)所對(duì)應(yīng)的樹葉信息步驟為
①輸入裁剪參數(shù)匕P;
②若丨LlLiI < k,轉(zhuǎn)步驟⑤;
③若μ/4Ι>λ且μ/41- PWLA >k,則裁剪掉排序靠后的Ρ| 4Ι個(gè)樹葉信息;ρ\π[ I表示的是對(duì)ρμ/41進(jìn)行上取整,即當(dāng)I為小數(shù)吋,則對(duì)其上取整,如,I的結(jié)果為8. 2時(shí),則取整為9 ;
④若
權(quán)利要求
1.一種基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法,其特征在于該方法依次包括以下步驟 (1)針對(duì)動(dòng)態(tài)后繼樹索引結(jié)構(gòu),創(chuàng)建完整的動(dòng)態(tài)后繼樹索引; (2)依次遍歷索引中每ー篇文檔包含的不同ニ元詞項(xiàng),提取索引統(tǒng)計(jì)信息; (3)利用重要性評(píng)分公式
2.根據(jù)權(quán)利要求I所述的基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法,其特征在于所述的ニ元詞項(xiàng)由樹根詞項(xiàng)和與樹根詞項(xiàng)直接關(guān)聯(lián)的樹葉詞項(xiàng)組成的整體。
3.根據(jù)權(quán)利要求I所述的基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法,其特征在于所述的索引統(tǒng)計(jì)信息包括ニ元詞項(xiàng)在每ー篇文檔中出現(xiàn)的次數(shù)、含有某一個(gè)ニ元詞項(xiàng)的文檔數(shù)目、ニ元詞項(xiàng)在文檔集中總的出現(xiàn)次數(shù)、每ー篇文檔的長(zhǎng)度和文檔集的總長(zhǎng)度、與一篇文檔關(guān)聯(lián)的所有樹葉信息的個(gè)數(shù)丨LlLi I。
4.根據(jù)權(quán)利要求I所述的基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法,其特征在于所述的步驟(4)輸入裁剪參數(shù),讓裁剪參數(shù)k、P分別和索引中與一篇文檔關(guān)聯(lián)的所有樹葉信息的個(gè)數(shù)μ/らI進(jìn)行比較、計(jì)算,控制動(dòng)態(tài)后繼樹索引的裁剪規(guī)模,刪除ー篇文檔中排序靠后的ニ元詞項(xiàng)所對(duì)應(yīng)的樹葉信息步驟為 ①輸入裁剪參數(shù)P; ②若轉(zhuǎn)步驟⑤; ③若μ/4Ι>*且μ/4Ι- p\LiLd \ >k,則裁剪掉排序靠后的個(gè)樹葉信息; ④若丨£/41>た且|£馬|- p\LILd\^k,則裁剪掉排序靠后的-k個(gè)樹葉信息; ⑤結(jié)束。
全文摘要
本發(fā)明公開了一種基于擴(kuò)展查詢似然模型的動(dòng)態(tài)后繼樹索引裁剪方法,該方法依次包括以下步驟(1)針對(duì)動(dòng)態(tài)后繼樹索引結(jié)構(gòu),首先創(chuàng)建完整的動(dòng)態(tài)后繼樹索引;(2)然后依次遍歷索引中每一篇文檔包含的不同二元詞項(xiàng),提取索引的統(tǒng)計(jì)信息;(3)計(jì)算這些二元詞項(xiàng)在其當(dāng)前出現(xiàn)文檔中的相對(duì)重要性評(píng)分;(4)輸入裁剪參數(shù),從完整動(dòng)態(tài)后繼樹索引中刪除掉一定比例的不重要二元詞項(xiàng)所對(duì)應(yīng)的索引信息;(5)形成裁剪后的動(dòng)態(tài)后繼樹索引。本方法通過合理的去掉動(dòng)態(tài)后繼樹索引中的不重要信息達(dá)到降低索引文件大小的目的。
文檔編號(hào)G06F17/30GK102841945SQ20121030700
公開日2012年12月26日 申請(qǐng)日期2012年8月27日 優(yōu)先權(quán)日2012年8月27日
發(fā)明者霍林, 鄒先澤 申請(qǐng)人:廣西大學(xué)