專利名稱:一種基于多信息源融合的文獻關聯(lián)語義生成方法
技術領域:
本發(fā)明涉及一種信息處理技術,特別涉及一種基于多信息源融合的文獻關聯(lián)語義生成方法。
背景技術:
基于購物籃的文獻關聯(lián)語義生成方法,以讀者的借閱記錄為購物籃,挖掘出關聯(lián)規(guī)則,進而計算出文獻的關聯(lián)度,即關聯(lián)語義。這種方法優(yōu)點是能夠利用讀者的知識發(fā)現(xiàn)文獻的關聯(lián)語義,而缺點是對于借閱量不大的文獻,由于缺乏數(shù)據(jù)難以挖掘出有意義的規(guī)則。 基于文獻內(nèi)容的關聯(lián)語義生成方法,通過對文獻提取關鍵詞,并以向量方式表示文獻,以文獻向量作為項集挖掘關聯(lián)規(guī)則,進而生成文獻的關聯(lián)語義。這種方法的優(yōu)點是可以根據(jù)文獻內(nèi)容挖掘文獻關聯(lián)語義,缺點是分詞及關鍵詞提取的誤差會導致關聯(lián)語義的偏差,語義為靜態(tài)的,不能反映出文獻之間關系的動態(tài)變化。
發(fā)明內(nèi)容
本發(fā)明針對文獻關聯(lián)語義生成方法的不足,提出了一種基于多信息源融合的文獻關聯(lián)語義生成方法,分別從文獻摘要內(nèi)容、讀者借閱記錄、網(wǎng)上書店的購物及瀏覽記錄三個數(shù)據(jù)源生成文獻的關聯(lián)語義,并把這三種來源的文獻關聯(lián)語義進行融合以生成文獻的最終關聯(lián)語義,以獲得較為準確的文獻關聯(lián)語義。本發(fā)明的技術方案為一種基于多信息源融合的文獻關聯(lián)語義生成方法,分別從文獻摘要內(nèi)容、讀者借閱記錄、網(wǎng)上書店的購物及瀏覽記錄三個數(shù)據(jù)源生成文獻的關聯(lián)語義,并把這三種來源的文獻關聯(lián)語義進行融合以生成文獻的最終關聯(lián)語義。所述方法具體包括如下步驟
一、針對文獻摘要內(nèi)容進行關聯(lián)語義的生成
1)對文獻摘要內(nèi)容進行預處理包括摘要文本的分詞及關鍵詞提取處理;
2)將各個文獻轉換為向量表示Di = ^ljW1j^23 w2,...;kn,wj ,其中Ir1 ~ kN為表示
文獻的《個關鍵詞;W1 ~ 為Z7個關鍵詞所對應的權值;全部文獻集合的向量表示構成文獻向量集合々;
3)基于文獻向量集合"挖掘關聯(lián)規(guī)則乓=伏《·,&,>%},表示第i個關鍵詞和第j個關
鍵詞之間存在著關聯(lián)規(guī)則A ,其強度為>1^。所有關聯(lián)規(guī)則構成關聯(lián)規(guī)則集合;
4)基于關聯(lián)規(guī)則集合R,統(tǒng)計兩個文獻之間的存在的關聯(lián)規(guī)則,并把這些關聯(lián)規(guī)則的強度累加在一起作為兩個文獻之間的關聯(lián)強度;
5)采用第4)步的方法計算所有文獻之間的關聯(lián)強度,對得到的所有關聯(lián)強度進行歸一化操作;
6)將獲得的全部文獻的關聯(lián)語義用矩陣表示為
權利要求
1.ー種基于多信息源融合的文獻關聯(lián)語義生成方法,其特征在于,分別從文獻摘要內(nèi) 容、讀者借閱記錄、網(wǎng)上書店的購物及瀏覽記錄三個數(shù)據(jù)源生成文獻的關聯(lián)語義,并把這三 種來源的文獻關聯(lián)語義進行融合以生成文獻的最終關聯(lián)語義。
2.根據(jù)權利要求1所述基于多信息源融合的文獻關聯(lián)語義生成方法,其特征在于,所 述方法具體包括如下步驟;ー、針對文獻摘要內(nèi)容進行關聯(lián)語義的生成·1)對文獻摘要內(nèi)容進行預處理包括摘要文本的分詞及關鍵詞提取處理;·2)將各個文獻轉換為向量表示
全文摘要
本發(fā)明涉及一種基于多信息源融合的文獻關聯(lián)語義生成方法,分別從文獻摘要內(nèi)容、讀者借閱記錄、網(wǎng)上書店的購物及瀏覽記錄三個數(shù)據(jù)源生成文獻的關聯(lián)語義,并把這三種來源的文獻關聯(lián)語義進行融合以生成文獻的最終關聯(lián)語義。與現(xiàn)有技術相比較,本發(fā)明考慮了多方面的語義信息,能提高文獻關聯(lián)語義的準確度。特別是考慮了與用戶相關的動態(tài)語義信息,克服了基于內(nèi)容的靜態(tài)語義的缺點,能夠反映文獻之間關系的動態(tài)變化;把互聯(lián)網(wǎng)作為以一個信息源,使參與關聯(lián)語義挖掘的用戶數(shù)大大增加,從而使挖掘結果更加具有統(tǒng)計意義。
文檔編號G06F17/30GK102254019SQ201110207918
公開日2011年11月23日 申請日期2011年7月25日 優(yōu)先權日2011年7月25日
發(fā)明者武偉, 魏曉 申請人:上海應用技術學院