專利名稱:基于貝葉斯分類算法的信息檢索方法
技術領域:
本發(fā)明屬于信息處理技術領域,尤其涉及一種基于貝葉斯分類算法的信息檢索方 法。
背景技術:
信息檢索是互聯(lián)網(wǎng)應用的重要組成部分,隨著互聯(lián)網(wǎng)信息的飛速增長,錯綜復雜 的分類體系使得對有價值的信息進行檢索越來越困難。貝葉斯分類是文本挖掘中的基礎算法,該方法通過運用概率論知識對文本信息進 行快速、準確地分類;而分類后的信息可以作為其他應用的基礎。信息種類多樣化、信息關系復雜化的現(xiàn)狀導致用戶按照需求,查詢相關信息時,可 能由任何一個信息主題延伸到其他信息主題,從而在系統(tǒng)中構成若干信息環(huán)。此類特征往 往使得系統(tǒng)進行信息推薦時,可能會提供一些字面相似、實則意義相差甚遠的信息,造成用 戶在進行信息檢索時可能會遇到不可預料的麻煩。針對上述問題,本發(fā)明將貝葉斯分類算法應用于信息檢索中,通過對信息資源進 行分類,縮小檢索范圍,從而實現(xiàn)在某一類別內進行檢索時,能夠提高信息檢索的準確率。
發(fā)明內容
本發(fā)明的目的在于,提供一種基于貝葉斯分類算法的信息檢索方法,通過貝葉斯 分類算法對原始信息進行分類,以縮小信息檢索的范圍,然后在某一特定類別下進行信息 檢索,從而提高信息檢索的準確率。技術方案是,一種基于貝葉斯分類算法的信息檢索方法,其特征是所述方法包括 下列步驟步驟1 從關系數(shù)據(jù)庫中選取數(shù)據(jù)表,建立信息檢索模型;所述建立信息檢索模型 具體是先定義所述數(shù)據(jù)表的主鍵和外鍵,然后按照數(shù)據(jù)表之間存在的主鍵和外鍵關系,構 建環(huán)狀結構信息檢索模型;步驟2:從所述信息檢索模型中導出樣本集,并將樣本集劃分為訓練數(shù)據(jù)集和測 試數(shù)據(jù)集;步驟3 從信息檢索模型中選擇相關字段作為樣本集的分類屬性,確定所述分類 屬性的類別,并根據(jù)分類屬性計算類別的先驗概率P(Ci);步驟4 計算樣本的后驗概率P (X| Ci);步驟5:根據(jù)貝葉斯公式
權利要求
1.一種基于貝葉斯分類算法的信息檢索方法,其特征是所述方法包括下列步驟 步驟1 從關系數(shù)據(jù)庫中選取數(shù)據(jù)表,建立信息檢索模型;所述建立信息檢索模型具體是先定義所述數(shù)據(jù)表的主鍵和外鍵,然后按照數(shù)據(jù)表之間存在的主鍵和外鍵關系,構建環(huán) 狀結構信息檢索模型;步驟2 從所述信息檢索模型中導出樣本集,并將樣本集劃分為訓練數(shù)據(jù)集和測試數(shù) 據(jù)集;步驟3:從信息檢索模型中選擇相關字段作為樣本集的分類屬性,確定所述分類屬性 的類別,并根據(jù)分類屬性計算類別的先驗概率P (Ci); 步驟4:計算樣本的后驗概率P (X| Ci);mP(C1)U p(x, IC1)步驟5 根據(jù)貝葉斯公式^^ , = 1Z ] 計算樣本的類別概率P (Ci IX);!P(X)步驟6 根據(jù)樣本的類別概率對樣本進行分類,并生成數(shù)據(jù)分類集; 步驟7 用戶在數(shù)據(jù)分類集中做信息檢索操作。
2.根據(jù)權利要求1所述的一種基于貝葉斯分類算法的信息檢索方法,其特征是所述 先驗概率P(Ci)是指訓練數(shù)據(jù)集中每個類別的樣本所占的比例,先驗概率P(Ci)利用公式 P(Ci) = Si/S計算,其中Si是類別Ci在訓練數(shù)據(jù)集的樣本數(shù),而s是訓練數(shù)據(jù)集的樣本總數(shù)。
3.根據(jù)權利要求1所述的一種基于貝葉斯分類算法的信息檢索方法,其特征 是所述后驗概率P(Xlci)是指測試數(shù)據(jù)集中每個類別的樣本所占比例,利用公式P(X I C1) = f\P(Xk I )計算,其中,概率 P (Xk I Ci) = Sik/Si, 1 彡 k 彡 n,Sik 是類別 Ci 在測試k=\數(shù)據(jù)集的樣本數(shù),而Si是訓練數(shù)據(jù)集的樣本總數(shù),η為類別數(shù)。
4.根據(jù)權利要求1所述的一種基于貝葉斯分類算法的信息檢索方法,其特征是所述根 據(jù)樣本的類別概率對樣本進行分類具體是比較測試數(shù)據(jù)集中的樣本在每個類別下的概率 大小,選取概率值最大的類別對樣本進行分類;其中,最大概率值利用公式X e CiIP(CjX) =Max {P (CjX)}計算。
全文摘要
本發(fā)明公開了信息處理技術領域中的一種基于貝葉斯分類算法的信息檢索方法。包括從關系數(shù)據(jù)庫中選取數(shù)據(jù)表,建立信息檢索模型;從所述信息檢索模型中導出樣本集,并將樣本集劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集;從信息檢索模型中選擇相關字段作為樣本集的分類屬性,確定所述分類屬性的類別,并根據(jù)分類屬性計算類別的先驗概率;計算樣本的后驗概率;根據(jù)貝葉斯公式計算樣本的類別概率;根據(jù)樣本的類別概率對樣本進行分類,并生成數(shù)據(jù)分類集;用戶在數(shù)據(jù)分類集中做信息檢索操作。本發(fā)明將貝葉斯分類算法應用于實際的信息檢索,有效地提高了信息檢索的精確度。
文檔編號G06F17/30GK102081655SQ20111000507
公開日2011年6月1日 申請日期2011年1月11日 優(yōu)先權日2011年1月11日
發(fā)明者劉琳, 李國棟, 李國粹, 問梁軍 申請人:華北電力大學