[0049] 分面檢索模塊,包含分面推薦單元和分面排序單元,分面推薦單元基于分面推薦 原則把最有價值的分面推薦給用戶,分面排序單元基于水利領域的特殊性把用戶最期望獲 取的檢索結果優(yōu)先排列給用戶顯示;在未選定分面的情況下,系統(tǒng)首先推薦結果集中覆蓋 率高的分面,當用戶的分面選擇產生后,該模塊將基于用戶選擇的分面進行分面相關性計 算,把相關性高的分面推薦給用戶,得到精煉查詢結果。
[0050] 基于水利對象分類標簽的分面檢索方法按如下步驟進行實施:
[0051] S-I :根據業(yè)務需求制定水利對象分類標簽,通過標簽管理模塊將水利對象分類標 簽錄入分類標簽庫;
[0052] 即將上述表1中的水利對象分類標簽錄入分類標簽庫。
[0053] S-2 :對注冊錄入的元數據進行貼加標簽操作,構建分類標簽索引;
[0054] 盡管元數據中包含有對該元數據的描述信息,系統(tǒng)可以根據元數據內容抽取相關 信息,但是為了使檢索結果更加準確,對元數據進行貼加標簽的操作仍需由相關領域的專 業(yè)人員操作,對元數據貼加準確的分類標簽信息。
[0055] S-3:獲取用戶查詢請求,并進行分詞處理,基于關鍵字查詢對元數據資源進行查 詢,得到初步檢索結果集,具體包括如下步驟:
[0056] 步驟S-3-1 :獲取用戶查詢請求,并進行分詞處理;
[0057] 步驟S-3-2 :根據查詢詞集合,利用Iucene查詢方法進行關鍵字查詢;
[0058] 步驟S-3-3 :將匹配的結果高亮返回用戶顯示;
[0059] 為了更好的處理查詢請求,我們采用字符串匹配算法(BM法)作為Lucene(版 本4. 7. 1)中文分詞的核心算法,并結合基本的現代漢語詞典2012版以及水利行業(yè)標準SL 26-2012《水利水電工程技術術語》對用戶的查詢請求進行分詞形成查詢詞集合。引入《水 利水電工程技術術語》主要是因為本系統(tǒng)所管理的數據為水利對象數據,該標準中規(guī)范了 水利水電行業(yè)中的術語。為了加快查詢處理的效率,我們對水利數據資源元數據構建倒排 索引,為了保證查全率,基于Lucene中文分詞采用全文檢索的方式對水利數據資源元數據 ?目息進行檢索。
[0060] S-4 :根據覆蓋率計算公式優(yōu)先推薦覆蓋率高的分面,用戶選擇分面后根據分面相 關性計算公式推薦相關性高的分面,逐步精煉,得到精煉檢索結果集,具體包括如下步驟:
[0061] 步驟S-4-1 :由步驟S-3檢索得到的初步結果集,計算結果集中的分面數;
[0062] 步驟S-4-2 :根據關鍵字在分面中的匹配度推薦匹配度高的m(m彡4)個分面;
[0063] 步驟S-4-3 :根據分面相關性計算公式,計算每個分面的相關度,推薦相關度高的 m(m多4)個分面顯示;
[0064] 步驟S-4-4:在推薦的每個分面中分別計算分面值的覆蓋率,推薦覆蓋率高的 η (η彡3)個分面值顯示;
[0065] 步驟S-4-5 :獲取用戶選擇分面檢索請求,若是精煉結果請求,即選擇某個特定 分面值,則轉向步驟S-4-6 ;若是擴大結果請求,即取消某個分面值的選定,則轉向步驟 S-4-7 ;
[0066] 步驟S-4-6 :獲取用戶選定的分面值,根據分面值檢索結果集,得到精煉結果集; 轉向步驟S-4-8 ;
[0067] 步驟S-4-7 :獲取用戶取消的分面值,根據分面值擴大結果集;轉向步驟S-4-8 ;
[0068] 步驟S-4-8 :判斷用戶對精煉結果集是否滿意,若是,轉向步驟S-4-9,否則,轉向 步驟S-4-3 ;
[0069] 步驟 S-4-9:結束。
[0070] 關鍵詞的匹配度計算公式為:
[0071]
(3)
[0072] 其中,ns(k)表示包含關鍵字k的元數據信息總數,113表示元數據信息總數。
[0073] 對于相關性計算公式
如果用戶選定某個分面值來精煉結果集, 用戶所選分面對于該分面的影響越小,則該分面與用戶所選分面的相關性越大,應優(yōu)先推 薦;反之,如果用戶取消某個分面值來擴大結果集,用戶所選分面值對于該分面的影響越 大,則該分面與用戶所選分面的相關性越小,不推薦,此時應該推薦。
[0074] 為了系統(tǒng)界面顯示效果,推薦的分面?zhèn)€數不宜多于6個,本發(fā)明實施例中我們對m 和η的取值都設為6, 一方面可以獲得較好的顯示效果,另一方面也可以給用戶足夠的推薦 分面選擇。
[0075] S-5 :根據分面檢索的精煉,對檢索結果進行排序,將檢索結果返回用戶。
[0076] 為了保證檢索的效率,在對檢索結果進行排序時,根據水利業(yè)務的特點,用戶一般 都是為了獲取最新的信息而進行檢索的。所以,我們在對檢索結果進行排序時使用聯合域 排序,關鍵字匹配程度作為第一個域,時間作為第二個域。
【主權項】
1. 一種基于水利對象分類標簽的分面檢索系統(tǒng),其特征在于,包括如下模塊:標簽模 塊,用于對水利數據資源元數據庫中的元數據對象進行分類貼標簽處理,同時對系統(tǒng)中的 分類標簽進行管理;存儲模塊,用于存儲水利數據資源元數據、分類標簽庫以及索引信息; 檢索模塊,用于根據用戶的檢索請求以及分面選擇對元數據信息進行檢索查詢。2. 如權利要求1所述的基于水利對象分類標簽的分面檢索系統(tǒng),其特征在于,所述標 簽模塊,用于對分類標簽庫中的標簽和索引庫中的分類標簽索引進行管理。3. 如權利要求1所述的基于水利對象分類標簽的分面檢索系統(tǒng),其特征在于,所述存 儲模塊,包含水利數據資源元數據庫、分類標簽庫、索引庫;其中水利數據資源元數據庫用 于存儲水利數據資源的元數據信息,元數據是數據的數據,采用XML文件格式存儲;分類標 簽庫用于存儲水利對象的多級分類標簽信息,該分類標簽采用分級策略,且至少包含兩級; 索引庫用于存儲對元數據信息構建的索引信息和元數據對應的分類標簽索引信息。4. 如權利要求1所述的基于水利對象分類標簽的分面檢索系統(tǒng),其特征在于,所述檢 索模塊,包含關鍵字檢索模塊,分面檢索模塊和檢索結果排序模塊;其中關鍵字檢索模塊, 用于根據用戶的檢索請求在系統(tǒng)索引庫中進行全文關鍵字匹配,匹配結果為初步結果集; 分面檢索模塊,用于根據用戶的選擇對初步結果集進行精煉,結果為精煉結果集;檢索結果 排序模塊,用于對精煉結果集中的檢索結果進行排序操作。5. 如權利要求3所述的基于水利對象分類標簽的分面檢索系統(tǒng),其特征在于,進一步 的,所述關鍵字檢索模塊,從用戶的檢索請求中提取用戶輸入的關鍵字,將該關鍵字與索引 庫中的元數據索引信息進行匹配,取出全部匹配的元數據信息作為初步結果集返回展示; 所述分面檢索模塊,包含分面推薦單元和分面排序單元,分面推薦單元基于分面推薦 原則把最有價值的分面推薦給用戶,分面排序單元基于水利領域的特殊性把用戶最期望獲 取的檢索結果優(yōu)先排列給用戶顯示;在未選定分面的情況下,系統(tǒng)首先推薦結果集中覆蓋 率高的分面,當用戶的分面選擇產生后,該模塊將基于用戶選擇的分面進行分面相關性計 算,把相關性高的分面推薦給用戶,得到精煉查詢結果。6. -種用于實現1-5任意一項所述基于水利對象分類標簽的分面檢索系統(tǒng)的方法,其 特征在于,包含如下步驟: S-I:根據業(yè)務需求制定水利對象分類標簽,通過標簽管理模塊將水利對象分類標簽錄 入標簽庫; S-2 :對注冊錄入的元數據進行貼加標簽操作,構建分類標簽索引; S-3 :獲取用戶查詢請求,并進行分詞處理,基于關鍵字查詢對元數據資源進行查詢,得 到初步檢索結果集; S-4 :根據覆蓋率計算公式優(yōu)先推薦覆蓋率高的分面,用戶選擇分面后根據分面相關性 計算公式推薦相關性高的分面,逐步精煉,得到精煉檢索結果集; S-5 :根據分面檢索的精煉,對檢索結果進行排序,將檢索結果返回用戶。7. 如權利要求書6所述的基于水利對象分類標簽的分面檢索方法,其特征在于:所述 步驟S-I中的分類標簽采用分級策略,分類標簽共分K級,各級標簽存儲于標簽庫中。8. 如權利要求書6所述的基于水利對象分類標簽的分面檢索方法,其特征在于:所述 步驟S-3具體包含如下實施步驟: S-3-1 :獲取用戶查詢請求,并進行分詞處理; S-3-2 :根據查詢詞集合,利用Iucene查詢方法進行關鍵字查詢; S-3-3 :將匹配的結果高亮返回用戶顯示。9.如權利要求書6所述的基于水利對象分類標簽的分面檢索方法,其特征在于:所述 步驟S-4具體包含如下實施步驟: S-4-1 :由步驟S-3檢索得到的初步結果集,計算結果集中的分面數; S-4-2 :根據關鍵字在分面中的匹配度推薦匹配度高的m個分面; S-4-3 :根據分面相關性計算公式,計算每個分面的相關度,推薦相關度高的m個分面 顯不; S-4-4 :在推薦的每個分面中分別計算分面值的覆蓋率,推薦覆蓋率高的n個分面值顯 示; S-4-5 :獲取用戶選擇分面檢索請求,若是精煉結果請求,即選擇某個特定分面值,則轉 向步驟S-4-6 ;若是擴大結果請求,即取消某個分面值的選定,則轉向步驟S-4-7 ; S-4-6 :獲取用戶選定的分面值,根據分面值檢索結果集,得到精煉結果集;轉向步驟S-4-8 ; S-4-7 :獲取用戶取消的分面值,根據分面值擴大結果集;轉向步驟S-4-8 ; S-4-8 :判斷用戶對精煉結果集是否滿意,若是,轉向步驟S-4-9,否則,轉向步驟S-4-3 ; S-4-9 :結束。
【專利摘要】本發(fā)明公開了一種基于水利對象分類標簽的分面檢索系統(tǒng)及方法。系統(tǒng)包括如下模塊:標簽模塊,用于對水利數據資源元數據庫中的元數據對象進行分類貼標簽處理,同時對系統(tǒng)中的分類標簽進行管理;檢索模塊,用于根據用戶的檢索請求以及分面選擇對元數據信息進行檢索查詢。本發(fā)明基于水利信息資源目錄服務系統(tǒng),為其提供“標簽”管理功能,同時對其簡單檢索進行分面檢索擴展,可以降低用戶對相關領域知識的要求,避免用戶檢索的迷航問題,提高檢索效率。
【IPC分類】G06F17/30
【公開號】CN104915449
【申請?zhí)枴緾N201510374508
【發(fā)明人】馮鈞, 杜丙帥, 孔盛球, 唐志賢, 劉藝, 王臻, 査顯月, 張立霞, 徐歡, 陸佳民, 朱躍龍, 李士進, 萬定生
【申請人】河海大學
【公開日】2015年9月16日
【申請日】2015年6月30日