一種基于水利對象分類標簽的分面檢索系統(tǒng)及方法
【技術領域】
[0001] 本發(fā)明涉及一種基于水利對象分類標簽的分面檢索系統(tǒng)及方法,屬于智能信息檢 索領域。
【背景技術】
[0002] 傳統(tǒng)的水利領域信息搜索引擎對數(shù)據(jù)集中的關鍵詞建立索引,當用戶向搜索引擎 提交關鍵詞查詢請求時,搜索引擎通過關鍵詞匹配的方式在數(shù)據(jù)庫中進行檢索,并將結果 反饋給用戶。這種檢索方式要求用戶具有較高的專業(yè)領域知識背景,對于大眾用戶的支持 度不高;而用戶的檢索意圖往往并不明確,用戶需要的是探索式的檢索,系統(tǒng)應該對用戶的 檢索進行引導;關鍵字檢索只是采取關鍵字匹配,在關鍵字無匹配時會出現(xiàn)搜索結果為空 的情況,用戶體驗不好;檢索結果是系統(tǒng)中全部記錄的關鍵字匹配查詢結果,無法聚焦于用 戶所關注的領域,信息過載問題嚴重,容易使用戶在檢索過程中迷失。
[0003] 分面檢索技術是一種基于分面理論的在數(shù)據(jù)集上進行探索性的檢索技術,它具有 很強的檢索結果分類能力,用戶可以僅關注所感興趣類別中的檢索結果,忽略其它類別的 檢索結果,從而能有效緩解信息過載問題。用戶可以通過與分面目錄的交互不斷對檢索結 果進行細化或泛化,無需用戶關于數(shù)據(jù)集的先驗知識,即可獲得良好的檢索結果,大大降低 了用戶對相關領域知識的要求。同時分面檢索的導航功能也可以引導用戶進行檢索,有效 避免檢索結果為空的情況。但是,當前的分面檢索技術大部分只關注分面與分面之間的關 系,對分面值與分面之間的關系考慮甚少,而水利業(yè)務系統(tǒng)用戶往往對分面值關注較多,這 不能滿足水利業(yè)務的需求,因此,在水利領域亟需一種能夠滿足用戶業(yè)務需求的分面檢索 方法。
【發(fā)明內容】
[0004] 發(fā)明目的:針對現(xiàn)有系統(tǒng)中存在的問題,本發(fā)明提出一種基于水利對象分類標簽 的分面檢索系統(tǒng)及方法,經分面檢索技術引入到水利領域,以提高水利信息資源目錄服務 系統(tǒng)的檢索效率。
[0005] 本發(fā)明的思路是:利用資源分類標簽構建分類標簽庫,由系統(tǒng)業(yè)務人員對注冊錄 入系統(tǒng)的元數(shù)據(jù)資源貼加標簽,維護資源標簽庫以及索引庫;獲取用戶查詢請求后,首先基 于關鍵字檢索得到初步檢索結果集,通過頻率統(tǒng)計以及相關性計算推薦分面,逐步細化,得 到精煉查詢結果集,最后對檢索結果進行排序返回用戶,提高用戶的查詢效率。
[0006] 技術方案:一種基于水利對象分類標簽的分面檢索系統(tǒng),包括如下模塊:標簽模 塊,用于對水利數(shù)據(jù)資源元數(shù)據(jù)庫中的元數(shù)據(jù)對象進行分類貼標簽處理,同時對系統(tǒng)中的 分類標簽進行管理;存儲模塊,用于存儲水利數(shù)據(jù)資源元數(shù)據(jù)、分類標簽庫以及索引信息; 檢索模塊,用于根據(jù)用戶的檢索請求以及分面選擇對元數(shù)據(jù)信息進行檢索查詢;
[0007] 所述標簽模塊,用于對分類標簽庫中的標簽和索引庫中的分類標簽索引進行管 理,具體包括對多級分類標簽的查詢、添加、修改、刪除等的管理操作,對元數(shù)據(jù)創(chuàng)建分類標 簽索引,查詢、修改、刪除分類標簽索引等的管理操作;
[0008] 所述存儲模塊,包含水利數(shù)據(jù)資源元數(shù)據(jù)庫、分類標簽庫、索引庫;其中水利數(shù)據(jù) 資源元數(shù)據(jù)庫用于存儲水利數(shù)據(jù)資源的元數(shù)據(jù)信息,元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),采用XML文件 格式存儲;分類標簽庫用于存儲水利元數(shù)據(jù)對象的多級分類標簽信息,該分類標簽采用分 級策略,且至少包含兩級;索引庫用于存儲對元數(shù)據(jù)信息構建的索引信息和元數(shù)據(jù)對應的 分類標簽索引信息;
[0009] 所述檢索模塊,包含關鍵字檢索模塊,分面檢索模塊和檢索結果排序模塊;其中關 鍵字檢索模塊,用于根據(jù)用戶的檢索請求在系統(tǒng)索引庫中進行全文關鍵字匹配,匹配結果 為初步結果集;分面檢索模塊,用于根據(jù)用戶的選擇對初步結果集進行精煉,結果為精煉結 果集;檢索結果排序模塊,用于對精煉結果集中的檢索結果進行排序操作。
[0010] 進一步的,所述關鍵字檢索模塊,從用戶的檢索請求中提取用戶輸入的關鍵字,將 該關鍵字與索引庫中的元數(shù)據(jù)索引信息進行匹配,取出全部匹配的元數(shù)據(jù)信息作為初步結 果集返回展示;
[0011] 所述分面檢索模塊,包含分面推薦單元和分面排序單元,分面推薦單元基于分面 推薦原則把最有價值的分面推薦給用戶,分面排序單元基于水利領域的特殊性把用戶最期 望獲取的檢索結果優(yōu)先排列給用戶顯示;在未選定分面的情況下,系統(tǒng)首先推薦結果集中 覆蓋率高的分面,當用戶的分面選擇產生后,該模塊將基于用戶選擇的分面進行分面相關 性計算,把相關性高的分面推薦給用戶,得到精煉查詢結果。
[0012] 一種基于水利對象分類標簽的分面檢索方法,包含如下步驟:
[0013] S-I :根據(jù)業(yè)務需求制定水利對象分類標簽,通過標簽管理模塊將水利對象分類標 簽錄入分類標簽庫;
[0014] S-2 :對注冊錄入的元數(shù)據(jù)進行貼加標簽操作,構建分類標簽索引;
[0015] S-3:獲取用戶查詢請求,并進行分詞處理,基于關鍵字查詢對元數(shù)據(jù)資源進行查 詢,得到初步檢索結果集,具體包括如下步驟:
[0016] 步驟S-3-1 :獲取用戶查詢請求,并進行分詞處理,得到查詢詞集合;
[0017] 步驟S-3-2 :根據(jù)查詢詞集合,利用Iucene查詢方法進行關鍵字查詢;
[0018] 步驟S-3-3 :將匹配的結果即初步檢索結果集高亮返回用戶顯示;
[0019] S-4 :根據(jù)覆蓋率計算公式優(yōu)先推薦覆蓋率高的分面,用戶選擇分面后根據(jù)分面相 關性計算公式推薦相關性高的分面,逐步精煉,得到精煉檢索結果集,具體包括如下步驟:
[0020] 步驟S-4-1 :由步驟S-3檢索得到的初步結果集,計算初步檢索結果集中的分面 數(shù);
[0021] 步驟S-4-2 :根據(jù)關鍵字在分面中的匹配度推薦匹配度高的m個分面;
[0022] 步驟S-4-3 :根據(jù)分面相關性計算公式,計算每個分面的相關度,推薦相關度高的 m個分面顯示;
[0023] 步驟S-4-4 :在推薦的每個分面中分別計算分面值的覆蓋率,推薦覆蓋率高的η個 分面值顯示;
[0024] 步驟S-4-5 :獲取用戶選擇分面檢索請求,若是精煉結果請求,即選擇某個特定 分面值,則轉向步驟S-4-6 ;若是擴大結果請求,即取消某個分面值的選定,則轉向步驟 S-4-7 ;
[0025] 步驟S-4-6 :獲取用戶選定的分面值,根據(jù)分面值檢索結果集,得到精煉結果集; 轉向步驟S-4-8 ;
[0026] 步驟S-4-7 :獲取用戶取消的分面值,根據(jù)分面值擴大結果集;轉向步驟S-4-8 ;
[0027] 步驟S-4-8 :判斷用戶對精煉結果集是否滿意,若是,轉向步驟S-4-9,否則,轉向 步驟S-4-3 ;
[0028] 步驟 S-4-9:結束。
[0029] S-5 :根據(jù)分面檢索的精煉,對檢索結果進行排序,將檢索結果返回用戶。
[0030] 所述步驟S-I中,分類標簽采用分級策略,分類標簽共分K級,各級標簽存儲于標 簽庫中。
[0031] 所述步驟S-4-2中,分面相關性計算公式如下:
[0032]
⑴
[0033] 其中,C(B)表示分面B所包含的數(shù)據(jù)集數(shù)量,C(B|A = p)表示在條件(A = P)JP 用戶在A分面中選定分面值p的情況下,分面B所包含的數(shù)據(jù)集數(shù)量,Rab表示某一分面(分 面B)在用戶選定特定的分面值(分面A中的分面值p)后的保持率,也即分面B與分面A 之間的相關性。保持率越高說明用戶所選分面值對于該分面的影響越小,則該分面與用戶 所選分面的相關性越大,優(yōu)先推薦;反之,保持率越低說明用戶所選分面值對于該分面的影 響越大,則該分面與用戶所選分面的相關性越小,不推薦。
[0034] 所述步驟S-4-3中,分面值的覆蓋率計算公式如下:
[0035]
(2)
[0036] 其中,ns(p)表示包含分面值p的元數(shù)據(jù)信息總數(shù),113表示元數(shù)據(jù)信息總數(shù),f (p) 代表分面值P的覆蓋率。
[0037] 本發(fā)明采用上述技術方案,具有以下有益效果:采用分級標簽對水利對象進行分 類,采用分面檢索擴展基本的關鍵字檢索,使用戶聚焦于關注的領域,解決信息過載問題, 同時,采用分面推薦算法,提高檢索效率。
【附圖說明】
[0038] 圖1為本發(fā)明實施例的基于水利對象分類標簽的分面檢索系統(tǒng)及方法;
[0039] 圖2為本發(fā)明實施例的關鍵字檢索的流程圖;
[0040] 圖3為本發(fā)明實施例的分面推薦的流程圖。
【具體實施方式】
[0041] 下面結合具體實施例,進一步闡明本發(fā)明,應理解這些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領域技術人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權利要求所限定的范圍。
[0042] 如圖1所示,基于水利對象分類標簽的分面檢索系統(tǒng)由標簽模塊、存儲模塊和檢 索模塊組成。
[0043] 標簽模塊包括標簽管理模塊,用于對水利對象分類標簽的管理;存儲模塊包含水 利數(shù)據(jù)資源元數(shù)據(jù)庫、分類標簽庫、索引庫,水利數(shù)據(jù)資源元數(shù)據(jù)庫是對水利業(yè)務長期實踐 中積累的水利數(shù)據(jù)的描述,是關于水利數(shù)據(jù)的數(shù)據(jù),采用XML文件格式存儲,在索引庫中建 有這些元數(shù)據(jù)的索引,并對其進行維護;分類標簽是根據(jù)從不同維度對水利數(shù)據(jù)資源信息 的分類成果,在本發(fā)明實施例中采用如表1所示的分類標簽形式。在建立了基本的分類標 簽后,領域工程師還可以根據(jù)實際需要對水利對象分類標簽進行管理,包括對多級分類標 簽的查詢、添加、修改、刪除等的管理操作,對元數(shù)據(jù)創(chuàng)建分類標簽索引,查詢、修改、刪除分 類標簽索引等的管理操作。
[0044] 表 1
[0045]
[0046]
[0047] 檢索模塊,包含關鍵字檢索模塊,分面檢索模塊和檢索結果排序模塊;其中關鍵字 檢索模塊,用于根據(jù)用戶的檢索請求在系統(tǒng)索引庫中進行全文關鍵字匹配,匹配結果為初 步結果集;分面檢索模塊,用于根據(jù)用戶的選擇對初步結果集進行精煉,結果為精煉結果 集;檢索結果排序模塊,用于對精煉結果集中的檢索結果進行排序操作。
[0048] 關鍵字檢索模塊,從用戶的檢索請求中提取用戶輸入的關鍵字,將該關鍵字與索 引庫中的元數(shù)據(jù)索引信息進行匹配,取出全部匹配的元數(shù)據(jù)信息作為初步結果集返回展 示;