專利名稱:一種基于領(lǐng)域本體的智能檢索系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文信息檢索(IR)領(lǐng)域,特別涉及一種基于領(lǐng)域本體(Domain ontology )的智能檢索方法,以及包含該方法的智能檢索系統(tǒng)。
背景技術(shù):
信息檢索技術(shù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展史上的里程碑,它為網(wǎng)絡(luò)用戶帶來(lái)了極大的便利, Google、百度是這個(gè)領(lǐng)域的典型代表。用戶只要輸入檢索詞或檢索語(yǔ)句,信息檢索系統(tǒng)就會(huì) 按照一定的排序規(guī)則、為用戶快速地返回包含該檢索詞或檢索語(yǔ)句的所有網(wǎng)頁(yè)。因此,對(duì)于 信息檢索系統(tǒng)而言,正確理解用戶的檢索需求、優(yōu)化結(jié)果排序方式等至關(guān)重要。
然而,現(xiàn)有的通用搜索引擎無(wú)法準(zhǔn)確理解和處理各類信息,特別是專業(yè)領(lǐng)域知識(shí),經(jīng)常 檢索不到、甚至返回大量無(wú)關(guān)專業(yè)領(lǐng)域信息,系統(tǒng)査全率和査準(zhǔn)率不高。主要原因在于
一方面,采取關(guān)鍵字匹配方式理解用戶檢索語(yǔ)句。信息檢索系統(tǒng)并不關(guān)注用戶輸入的專 業(yè)領(lǐng)域詞匯的概念和語(yǔ)義,只是將分詞后的關(guān)鍵詞與索引庫(kù)中的索引詞按照字面形式進(jìn)行直 接匹配。
另一方面,按照檢索相關(guān)度對(duì)結(jié)果進(jìn)行排序處理,即按照檢索詞和索引詞之間相同的字 或詞的多少進(jìn)行排序。
為了提高檢索效率, 一些信息檢索系統(tǒng)提出了 "相關(guān)搜索"等改進(jìn)技術(shù),然而,這些技 術(shù)仍沒(méi)有脫離字面匹配的本質(zhì)。在人工智能(AI)等領(lǐng)域,本體(ontology)的引入為相關(guān) 問(wèn)題的解決帶來(lái)了契機(jī)。
(1) 本體是共享概念模型的形式化的、明確的規(guī)范說(shuō)明(ontology is a formal, explicit specification of a shared conceptualization, studer 1998)。
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),確定該領(lǐng)域共同認(rèn)可的詞匯,并明確定義這些詞匯 及詞匯間的相互關(guān)系,提供對(duì)該領(lǐng)域知識(shí)的共同理解,并以規(guī)范化的形式在計(jì)算機(jī)中加以存 儲(chǔ)。
(2) 規(guī)定了論域。
領(lǐng)域本體以一個(gè)特定的領(lǐng)域?yàn)槊枋鰧?duì)象,提供該特定領(lǐng)域的概念定義和概念之間的關(guān)系 、主要理論、基本原理,以及領(lǐng)域中發(fā)生的活動(dòng)等。
(3) 知識(shí)表示、共享和重用。共享知識(shí)體系的表示是"機(jī)器可處理"的語(yǔ)義,它以RDF為基礎(chǔ),以URI作為命名機(jī)制、 以XML為語(yǔ)法,將不同的應(yīng)用集成在一起,對(duì)Web上的數(shù)據(jù)進(jìn)行抽象表示。本體通過(guò)這種通用 框架的表示方式,允許跨越不同應(yīng)用程序、企業(yè)和團(tuán)體的邊界進(jìn)行數(shù)據(jù)的共享和重用。 (4)信息交流的語(yǔ)義基礎(chǔ)。
由本體所提供的領(lǐng)域內(nèi)共同認(rèn)可的知識(shí)體系包括術(shù)語(yǔ)集、關(guān)系集和規(guī)則集,會(huì)為不同主 體提供一種共識(shí),為不同背景和領(lǐng)域下的人、機(jī)器、軟件系統(tǒng)等進(jìn)行信息交流提供了可能。
正是由于以上的特點(diǎn)和優(yōu)勢(shì),所以本體為語(yǔ)義理解、智能檢索等提供了可能。20世紀(jì) 90年代,本體技術(shù)得到了知識(shí)工程、人工智能等多個(gè)領(lǐng)域的廣泛關(guān)注和研究,并取得了一定 的成果。
然而,目前構(gòu)建較為詳細(xì)的、囊括所有領(lǐng)域知識(shí)體系的通用本體,并基于這個(gè)通用本體 建立信息檢索系統(tǒng)并不現(xiàn)實(shí)。因此,有必要從某一領(lǐng)域出發(fā),構(gòu)建領(lǐng)域本體,實(shí)現(xiàn)對(duì)該專業(yè) 領(lǐng)域知識(shí)的智能檢索。目前,相關(guān)智能檢索技術(shù)中尚不存在基于領(lǐng)域本體的用戶輸入的句型 模式匹配方法和語(yǔ)義距離測(cè)量的結(jié)果優(yōu)化排序方法,且尚不存在包含該方法的智能檢索系統(tǒng) ,導(dǎo)致智能檢索系統(tǒng)面臨一系列技術(shù)問(wèn)題,并未如預(yù)期一樣在檢索性能上比傳統(tǒng)檢索系統(tǒng)有 明顯的提高和改善。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體實(shí)現(xiàn)智能檢索的系統(tǒng),旨在正確理解用戶 需求,提供高效的專業(yè)領(lǐng)域信息服務(wù),改進(jìn)現(xiàn)有信息檢索系統(tǒng)的不足。
本發(fā)明的另一個(gè)目的還在于提供一種用于上述基于領(lǐng)域本體的智能檢索系統(tǒng)的句型模式 匹配方法和語(yǔ)義距離測(cè)量等方法,利用該方法可以正確理解用戶輸入的自然査詢語(yǔ)句,對(duì)査 詢結(jié)果進(jìn)行語(yǔ)義相關(guān)度的計(jì)算,為用戶返回最相關(guān)的專業(yè)領(lǐng)域信息。
為達(dá)到上述發(fā)明目的,本發(fā)明是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的
本發(fā)明實(shí)施例公開(kāi)了一種基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于,該系統(tǒng)包括用 于分析用戶輸入自然査詢語(yǔ)句的本體推理模塊,用于創(chuàng)建索引庫(kù)的索引處理模塊,用于進(jìn)行 特定査詢的査詢處理模塊,以及用于査詢結(jié)果處理的結(jié)果優(yōu)化排序模塊,所述系統(tǒng)還包括 基于某一領(lǐng)域所構(gòu)建的領(lǐng)域本體庫(kù)、數(shù)據(jù)資源庫(kù)、以及索引數(shù)據(jù)庫(kù);
其中,本體推理模塊包括分詞預(yù)處理單元和句型模式匹配單元;
分詞預(yù)處理單元,用于接收用戶輸入的自然査詢語(yǔ)句,對(duì)査詢語(yǔ)句進(jìn)行分詞、詞性標(biāo)注 、領(lǐng)域本體角色標(biāo)注等預(yù)處理,去除弱語(yǔ)義詞匯,得到強(qiáng)語(yǔ)義詞匯集合;
句型模式匹配單元,用于將強(qiáng)語(yǔ)義詞匯集合與事先定義的句型模式進(jìn)行匹配處理,得到新的檢索式;
索弓1處理模塊包括本體語(yǔ)義索弓1處理單元和全文索弓1處理單元;
本體語(yǔ)義索引處理單元,用于獲取數(shù)據(jù)資源文檔,解析、處理并提取文檔主體內(nèi)容信息
,基于領(lǐng)域本體庫(kù)合成文檔語(yǔ)義向量,建立基于本體的語(yǔ)義索引庫(kù);
全文索引處理單元,用于獲取數(shù)據(jù)資源文檔,提取文檔信息,建立全文索引庫(kù); 査詢處理模塊包括語(yǔ)義査詢處理單元、擴(kuò)展査詢處理單元和全文檢索處理單元; 語(yǔ)義査詢處理單元,用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行專業(yè)領(lǐng)域信息的智能査詢
處理;
擴(kuò)展査詢處理單元,用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行擴(kuò)展査詢處理; 全文檢索處理單元,用于按照傳統(tǒng)的檢索方式,即按照關(guān)鍵字匹配原理進(jìn)行全文檢索的 處理;
數(shù)據(jù)資源庫(kù),包括本地領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的資源或從網(wǎng)上抓取的領(lǐng)域內(nèi)的資源數(shù)據(jù); 索引數(shù)據(jù)庫(kù),包括由索引處理模塊建立的本體語(yǔ)義索引庫(kù)和全文索引庫(kù)。 本發(fā)明實(shí)施例還公開(kāi)了一種基于領(lǐng)域本體的智能檢索方法,其特征在于,該方法包括下 述步驟
A. 對(duì)用戶輸入的自然査詢語(yǔ)句進(jìn)行分詞、詞性標(biāo)注,并基于領(lǐng)域本體進(jìn)行角色標(biāo)注;
B. 分析、判斷上述步驟A中的詞匯集,進(jìn)行本體角色非空項(xiàng)的判斷,并按照一定的規(guī)則 進(jìn)行相應(yīng)的査詢;
C. 對(duì)査詢結(jié)果進(jìn)行語(yǔ)義距離測(cè)量,按照語(yǔ)義距離值進(jìn)行結(jié)果的優(yōu)化,并將檢索結(jié)果排 序輸出,返回給用戶。
其中上述步驟B所述的本體角色非空項(xiàng)的判斷進(jìn)一步包括
Bl.如果用戶輸入的自然査詢語(yǔ)句中不包括本體概念,則進(jìn)行全文檢索;
B2.如果用戶輸入的自然査詢語(yǔ)句中包括本體概念,則進(jìn)行句型模式的匹配判斷。
其中上述步驟B2所述的句型模式匹配判斷進(jìn)一步包括
B21.如果句型模式匹配成功,則進(jìn)行語(yǔ)義査詢;
B22.如果句型模式匹配成功,則訪問(wèn)領(lǐng)域本體庫(kù),進(jìn)行適當(dāng)?shù)恼Z(yǔ)義擴(kuò)展處理,進(jìn)行擴(kuò) 展査詢。
因此,本發(fā)明實(shí)施例提供的基于領(lǐng)域本體的智能檢索系統(tǒng)和方法,具有以下的優(yōu)點(diǎn)本 發(fā)明所述的基于領(lǐng)域本體的智能檢索系統(tǒng)及方法充分利用了領(lǐng)域本體庫(kù)中的概念及其相互關(guān) 系,能夠正確理解用戶需求,優(yōu)化檢索結(jié)果,為用戶更全、更準(zhǔn)地返回專業(yè)領(lǐng)域信息,能夠顯著提高專業(yè)技術(shù)領(lǐng)域內(nèi)信息檢索的性能。
根據(jù)下述附圖及實(shí)施例的描述,可以充分說(shuō)明本發(fā)明的特征及優(yōu)點(diǎn)。在附圖中 圖1是本發(fā)明實(shí)施例的一種基于領(lǐng)域本體的智能檢索系統(tǒng)的結(jié)構(gòu)框圖; 圖2是本發(fā)明實(shí)施例中的語(yǔ)義本體索引處理單元?jiǎng)?chuàng)建語(yǔ)義索引數(shù)據(jù)庫(kù)的流程圖; 圖3是圖l所示的本發(fā)明實(shí)施例的智能檢索系統(tǒng)為用戶執(zhí)行專業(yè)領(lǐng)域知識(shí)査詢過(guò)程的流 程圖4是本發(fā)明實(shí)施例所采用的檢索方式圖;以及
圖5是本發(fā)明實(shí)施例的領(lǐng)域本體概念間語(yǔ)義的距離示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下參照附圖以及實(shí)施例,對(duì)本發(fā)明作 進(jìn)一步詳細(xì)描述。應(yīng)當(dāng)理解,下述所舉的實(shí)施例僅被用作解釋本發(fā)明、并不用于限制本發(fā)明 ,即本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例,相反,根據(jù)本發(fā)明的構(gòu)思,本領(lǐng)域普通技術(shù)人 員可以進(jìn)行適當(dāng)更改,這些改變可以落入權(quán)利要求書所限定的發(fā)明范圍之內(nèi)。
本發(fā)明的基本思想是本發(fā)明的一個(gè)實(shí)施例基于領(lǐng)域本體庫(kù)提供了多種檢索方式,如圖
4所示,包括全文檢索402、擴(kuò)展檢索403和語(yǔ)義檢索404。如果用戶輸入的詞匯中不包含本 體概念,則進(jìn)行全文檢索;否則結(jié)合領(lǐng)域本體對(duì)用戶輸入的自然査詢語(yǔ)句進(jìn)行句型模式匹配 處理。如果匹配成功,則訪問(wèn)語(yǔ)義本體索引庫(kù)進(jìn)行語(yǔ)義檢索;如果匹配不成功,則基于領(lǐng)域 本體庫(kù)進(jìn)行適當(dāng)?shù)恼Z(yǔ)義擴(kuò)展査詢。最后,對(duì)査詢結(jié)果進(jìn)行語(yǔ)義距離測(cè)量,并將結(jié)果優(yōu)化排序 并輸出,為用戶返回專業(yè)領(lǐng)域信息。
圖l示出的本發(fā)明提供的基于領(lǐng)域本體的智能檢索系統(tǒng)包括本體推理模塊102、索引處 理模塊109、査詢處理模塊115和結(jié)果優(yōu)化排序模塊119,以及領(lǐng)域本體庫(kù)105、數(shù)據(jù)資源庫(kù) 106和索引數(shù)據(jù)庫(kù)112。
圖1中的索引處理模塊109針對(duì)數(shù)據(jù)資源庫(kù)106中的本地?cái)?shù)據(jù)資源107或網(wǎng)上資源108,并 結(jié)合領(lǐng)域本體庫(kù)105,通過(guò)本體語(yǔ)義索引處理單元110和全文索引處理單元111生成索引數(shù)據(jù) 庫(kù)112;本體推理模塊102接收用戶101輸入的自然語(yǔ)言査詢語(yǔ)句,結(jié)合領(lǐng)域本體庫(kù)105,使用 分詞預(yù)處理單元103和句型模式匹配單元104生成相應(yīng)的檢索式。接著,將檢索式傳入索引數(shù) 據(jù)庫(kù)112 。索引數(shù)據(jù)庫(kù)112接收檢索式,按照對(duì)應(yīng)的規(guī)則訪問(wèn)相應(yīng)的本體語(yǔ)義索引庫(kù)113或全 文索引庫(kù)114,然后,通過(guò)査詢處理模塊115中的語(yǔ)義査詢處理單元116、擴(kuò)展査詢處理單元 117和全文檢索處理單元118進(jìn)行相應(yīng)的査詢處理,最后,通過(guò)結(jié)果優(yōu)化排序模塊119優(yōu)化檢索結(jié)果,將査詢結(jié)果返回給用戶IOI。
圖1中的本發(fā)明實(shí)施例的領(lǐng)域本體庫(kù)105采用儀器儀表領(lǐng)域的數(shù)據(jù)進(jìn)行分析和構(gòu)建,根據(jù) 本發(fā)明開(kāi)發(fā)了一種針對(duì)結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建領(lǐng)域本體庫(kù)的工具,該工具能自動(dòng)進(jìn)行領(lǐng)域本體 知識(shí)庫(kù)的構(gòu)建,極大地提高了領(lǐng)域本體庫(kù)構(gòu)建的效率。
圖l中的全文索引處理單元lll采用一般的處理方法和技術(shù),對(duì)所要處理數(shù)據(jù)資源的標(biāo)題 、摘要、全文等建立索引,以便檢索時(shí)提高系統(tǒng)的査全率,由于相關(guān)技術(shù)已經(jīng)非常成熟,在 此不再詳述。
圖2示出了圖1中本體語(yǔ)義索引處理單元110的處理流程,具體步驟詳述如下
1) 文檔獲取201,用于獲取專業(yè)領(lǐng)域內(nèi)的系統(tǒng)數(shù)據(jù)資源,此處文檔可以包括html、 asp
、pdf、 doc、 txt、 excel、卯t、 ps、圖片等多種格式,Web頁(yè)面信息的獲取是通過(guò)網(wǎng)絡(luò)爬蟲(chóng) 進(jìn)行抓取的。
例如,本發(fā)明的實(shí)施例采用heritrix爬蟲(chóng)框架,根據(jù)用戶設(shè)定的種子去請(qǐng)求一個(gè)頁(yè)面, 并將有效的URL添加到隊(duì)列中等候處理,然后提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解 析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲(chǔ)結(jié) 構(gòu)存儲(chǔ)到本地。同時(shí)將頁(yè)面中有效的URL再次加入隊(duì)列等候處理,如此不斷地分析下去,直 到最后一個(gè)鏈接無(wú)任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取 完所需的預(yù)定網(wǎng)上資源。
本地專業(yè)領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)可以直接從圖1的本地?cái)?shù)據(jù)資源107中提取,實(shí)施例采用國(guó) 家基礎(chǔ)條件重點(diǎn)平臺(tái)項(xiàng)目"先進(jìn)制造與自動(dòng)化科學(xué)數(shù)據(jù)共享網(wǎng)"中的儀器儀表數(shù)據(jù)庫(kù)中的數(shù) 據(jù);對(duì)于領(lǐng)域本體文件,可以訪問(wèn)事先創(chuàng)建的領(lǐng)域本體庫(kù),進(jìn)行直接獲取。
2) 內(nèi)容解析202,對(duì)通過(guò)步驟l)獲得的文檔進(jìn)行解析,S卩通過(guò)對(duì)文檔內(nèi)容進(jìn)行格式 解析,獲取各類文檔中的具體內(nèi)容。具體流程為首先以流的方式把文件讀取到內(nèi)存中,然 后對(duì)各類型文件的存儲(chǔ)格式進(jìn)行分析,最后按照各自的存儲(chǔ)格式從內(nèi)存中提取出文件的有效 信息。
3) 分詞、詞性標(biāo)注203,這一步對(duì)步驟2)中的解析文檔進(jìn)行分詞處理,以及詞性的標(biāo) 注。具體是通過(guò)系統(tǒng)的分詞工具對(duì)文檔中詞匯進(jìn)行分割,并標(biāo)注出各個(gè)詞匯的詞性,特別是 針對(duì)專業(yè)領(lǐng)域詞匯的分詞做了特定的處理。其中名詞、動(dòng)詞、數(shù)詞、形容詞、前置詞、助詞 、連詞、標(biāo)點(diǎn)等詞性標(biāo)記分別為n、 v、 m、 a、 p、 u、 c、 wp等符號(hào)。
例如,針對(duì)以下文檔內(nèi)容"雙金屬溫度計(jì)是利用兩種不同金屬在溫度改變時(shí)膨脹程度 不同的原理工作的。工業(yè)用雙金屬溫度計(jì)主要的元件是一個(gè)用兩種或多種金屬片疊壓在一起組成的多層金屬片。"進(jìn)行分詞和詞性的標(biāo)注,最后的處理結(jié)果是"雙金屬溫度計(jì)/n/ 是/v利用/v兩種/m不同/a金屬/n在/p溫度/n改變/v時(shí)/n膨脹程度/n不 同/a的/u原理/n工作/v 的/u 。 /wp工業(yè)/n用/p雙金屬溫度計(jì)/n主要/b 的/u元件/n是/v —個(gè)/m用/p兩種/m或/c多種/m金屬片/n疊壓/v在/p 一起/nl組成/v 的/u多/a層/q金屬片/n 。 /wp"。
4) 本體角色標(biāo)注204,對(duì)詞匯在本體中所充當(dāng)?shù)慕巧M(jìn)行分析并標(biāo)注,如本體類概念( Class)標(biāo)記為C、 X寸象屬性(ObjectProperty)標(biāo)記為OP、數(shù)據(jù)屬性(DatatypeProperty) 標(biāo)記為DP、本體實(shí)例(Individuals)標(biāo)記為I等的標(biāo)注。另外,根據(jù)需要也可以進(jìn)行更詳細(xì) 標(biāo)注,如儀表實(shí)例(yb—Individuals)標(biāo)記為yb—I、標(biāo)準(zhǔn)實(shí)例(bz— Individuals)標(biāo)記為 bz—I等。
例如,將上述步驟3)的結(jié)果進(jìn)一步進(jìn)行本體角色的判斷,最后標(biāo)注為"雙金屬溫度
計(jì)/n/yb—C 是/v/null 利用/v/0P兩種/m/nu11 不同/a/null 金屬/n/C在/p/nul1 溫度/n/DP改變/v/nu11 時(shí)/n/null 膨脹程度/n/DP不同/a/nu11 的/u/null 原理 /n/DP 工作/v/nu11 的/u/null 。 /wp/nul1 工業(yè)/n/nu11 用/p/null 雙金屬溫度計(jì) /n/yb—C 主要/b/nu11 的/u/null 元件/n/C 是/v/null —個(gè)/m/nu11 用/p/null 兩 種/m/null 或/c/nul1 多種/m/null 金屬片/n/C 疊壓/v/nu11 在/p/null —起 /nl/nul1 組成/v/0P 的/u/null 多/a/nul1 層/q/null 金屬片/n/C 。 /wp/null"。
5) 提取核心詞匯205,此步是針對(duì)步驟4)的標(biāo)注結(jié)果,將其中的本體角色為空的詞匯 去除,保留本體角色為非空詞匯的過(guò)程。 一般情況下,如果文檔中某個(gè)詞匯沒(méi)有被收錄到該 領(lǐng)域的領(lǐng)域本體庫(kù)之中,則該詞匯對(duì)于領(lǐng)域?qū)I(yè)信息檢索過(guò)程而言,基本為干擾信息或不相 干信息,因此,為提高專業(yè)領(lǐng)域檢索的效率,不必為該詞創(chuàng)建索引信息。
對(duì)步驟4)提取核心詞匯如下所示"雙金屬溫度計(jì)/n/yb—C利用/v/0P金屬/n/C 溫度/n/DP膨脹程度/n/DP原理/n/DP雙金屬溫度計(jì)/n/yb—C元件/n/C金屬片/n/C 組成/v/0P金屬片/n/C"。
6) 合成語(yǔ)義向量206,將文檔中所有在領(lǐng)域本體中出現(xiàn)的概念,即步驟5)提取的核心 詞匯合成語(yǔ)義向量,中間允許同一概念出現(xiàn)多次,不同的位置對(duì)最終文檔相似度的計(jì)算結(jié)果 會(huì)有不同的影響。
將步驟5)中的核心詞匯合成語(yǔ)義向量后的結(jié)果是"(雙金屬溫度計(jì),利用,金屬, 溫度,膨脹程度,原理,雙金屬溫度計(jì),元件,金屬片,組成,金屬片)"。
7) 建立語(yǔ)義索引207,基于領(lǐng)域本體知識(shí)庫(kù),對(duì)提取的語(yǔ)義向量建立索引。本發(fā)明所采用的語(yǔ)義索引創(chuàng)建的方式不但能節(jié)省空間、提升檢索效率,還能最大限度地 保留文檔語(yǔ)義。
圖3示出了基于領(lǐng)域本體進(jìn)行專業(yè)領(lǐng)域知識(shí)査詢的流程,其中用戶輸入檢索語(yǔ)句301、分 詞、詞性標(biāo)注302、以及本體角色標(biāo)注303與前面本體語(yǔ)義索引處理單元110中的處理過(guò)程類 似,所以,此處不再贅述。通過(guò)用戶輸入檢索語(yǔ)句301 本體角色標(biāo)注303的流程處理后,得 到標(biāo)有詞性和角色的分詞詞匯集合。
例如,用戶輸入自然査詢語(yǔ)句"能夠測(cè)量人體溫的儀表及生產(chǎn)廠家",經(jīng)過(guò)分詞、詞 性及本體角色標(biāo)注等過(guò)程處理后的結(jié)果是{能夠,v, nullK {測(cè)量,v, ObjectProperty}、 {人,n, X} {體溫,n, X} 、 {的,u, X }、 {儀表,n, yb—Class} 、 {及, c, 皿11}、 性產(chǎn)廠商,n, ObjectProperty }。
以下是從本體角色非空項(xiàng)判斷304處開(kāi)始的詳細(xì)處理流程
1)本體角色非空項(xiàng)304對(duì)標(biāo)注后的強(qiáng)語(yǔ)義詞匯集進(jìn)行分析,判斷其詞匯集合中是否含有 本體概念。
a) 如果本體角色均為空,則利用分詞的詞匯集合訪問(wèn)提取核心詞匯305,然后利用核心 詞匯訪問(wèn)全文索引庫(kù)306進(jìn)行全文檢索匹配處理。
例如,"兒童的營(yíng)養(yǎng)健康問(wèn)題",分詞的詞匯集合為"兒童/的/營(yíng)養(yǎng)/健康/問(wèn)題/" ,提取核心詞匯為"兒童/營(yíng)養(yǎng)/健康/",利用此核心詞匯集訪問(wèn)全文索引庫(kù)進(jìn)行全文檢
索處理。
b) 如果査詢語(yǔ)句中含有一個(gè)或一個(gè)以上的本體概念,則進(jìn)行提取強(qiáng)語(yǔ)義詞匯307的處理 ,然后訪問(wèn)句型模式匹配308。
例如,對(duì)"溫度計(jì)的種類有哪些"分詞后"溫度計(jì)/n的/u種類/n有/v哪些/r",對(duì) 其進(jìn)一步進(jìn)行本體角色標(biāo)注并提取強(qiáng)語(yǔ)義詞匯,最后得到"溫度計(jì)/n/C"。其中,需要注意 的是,句型模式是根據(jù)領(lǐng)域本體知識(shí)庫(kù)中的概念和各概念之間的相互關(guān)系以及推理規(guī)則等事 先建立的一種自定義的句型模式,該句型模式的建立在一定程度上,還必須根據(jù)用戶需求分 析以及在領(lǐng)域?qū)<业闹笇?dǎo)下制定和定義。句型模式建立的越豐富,智能査詢的效果越好。
bl)如果含有本體概念的強(qiáng)語(yǔ)義詞匯集與句型模式M匹配成功,則執(zhí)行此步驟,最后形 成智能檢索式;
下述是一個(gè)匹配成功的實(shí)施例
例如,用戶輸入"能夠測(cè)量人體溫的儀表及生產(chǎn)廠家",經(jīng)過(guò)分詞和提取核心詞匯最后 得到的詞匯集是"測(cè)量/人/體溫/儀表/生產(chǎn)廠家"。該檢索語(yǔ)句與句型模式M^目匹配。句型模式M^皮定義為"本體屬性Pl+X+本體類概念C+本體屬性P2",且存在如下關(guān)系C擁有 屬性Pl、 P2,其中"X"為任意成分,強(qiáng)語(yǔ)義詞匯集與句型模式匹配的具體對(duì)應(yīng)關(guān)系為" 測(cè)量/ (本體屬性Pl)人/ (X)體溫/ (X)儀表/ (本體概念C)生產(chǎn)廠家/ (本體屬性P2)"
結(jié)合上述的實(shí)施例,符合模式Mi的處理規(guī)則是將儀表(本體類C)下測(cè)量(屬性PD 的值包含"人體溫"(X)的所有儀表(本體類C)實(shí)例及該儀表(本體類C)實(shí)例的生產(chǎn)廠 家(屬性P2)的對(duì)應(yīng)值按照一定格式返回,簡(jiǎn)單地說(shuō)就是將滿足測(cè)量人體溫的儀表實(shí)例及其 生產(chǎn)廠家按照規(guī)定格式輸出。
當(dāng)句型模式匹配成功后,根據(jù)既定模式下的處理規(guī)則,訪問(wèn)領(lǐng)域本體庫(kù),經(jīng)過(guò)本體推理 ,形成符合系統(tǒng)索引格式要求的智能語(yǔ)義檢索式。
檢索式應(yīng)為[RiU (Fl...,F(xiàn)J] U [R2U (Fi,...,F(xiàn)n)] U,..., U [RiU (F丄,F(xiàn)2, , Fk)]。 其中,m》l,n》l,k》1, R表示滿足條件的儀表,F(xiàn)表示儀表R對(duì)應(yīng)的一個(gè)或多個(gè)生產(chǎn)廠家。 例如,當(dāng)i二l,k二3時(shí)的檢索式應(yīng)為R!U (F!,F(xiàn)2,F(xiàn)3),即,U,U,。
b2)如果含有本體概念的強(qiáng)語(yǔ)義詞匯集與句型模式匹配失敗,則執(zhí)行此步驟,最后形成 擴(kuò)展檢索式。
例如,"溫度計(jì)的種類有哪些",經(jīng)分詞后的詞匯中含有本體概念"溫度計(jì)",但是在 句型模式中沒(méi)有定義;同理,當(dāng)用戶輸入"光譜儀",經(jīng)分詞后的詞匯"光譜儀"屬于本體 概念,但是在句型模式中也沒(méi)有定義。
當(dāng)模式匹配失敗后,訪問(wèn)領(lǐng)域本體庫(kù)309,進(jìn)行語(yǔ)義擴(kuò)展,形成擴(kuò)展査詢檢索式。具體 處理過(guò)程是將査詢語(yǔ)句中的強(qiáng)語(yǔ)義詞匯x, y與領(lǐng)域本體庫(kù)309中的相關(guān)概念X, Y進(jìn)行映射, 并根據(jù)本體概念間的上下級(jí)關(guān)系、同義關(guān)系,以及其它關(guān)系進(jìn)行適當(dāng)?shù)臇嗽償U(kuò)展處理。 (X,Xi,...,Xa) U (Y,Yi,...,Yb),其中a,b為正整數(shù),例如,X丄為X的同義詞,Y2為概念Y的 下位概念,S口, a二l,b二2時(shí),那么査詢的檢索式為(X, X工)U (Y, Y工,Y2) , g卩。XYUXY工UXY2 UX^UX^2。
b3)通過(guò)上述步驟bl)和b2)之后,形成査詢檢索式311,具體為形成對(duì)應(yīng)的語(yǔ)義査詢 檢索式和擴(kuò)展査詢檢索式。利用査詢檢索式311訪問(wèn)語(yǔ)義索引庫(kù)312,進(jìn)行相應(yīng)的語(yǔ)義査詢或 擴(kuò)展査詢處理。
2)結(jié)果排序
a)語(yǔ)義距離測(cè)量
al)句型模式匹配成功時(shí)的語(yǔ)義距離測(cè)量算法實(shí)施例參照步驟l)中的bl)所述,對(duì)檢索式中的每一項(xiàng)RF的相關(guān)"語(yǔ)義距離"進(jìn)行計(jì)算,Drf為本體中R和F兩概念間的最短語(yǔ)義 距離,其中Drf為正整數(shù),其取值是將R和F聯(lián)系起來(lái)經(jīng)過(guò)最少本體概念節(jié)點(diǎn)時(shí),概念連接線 的條數(shù)。如圖5所示,有多條語(yǔ)義關(guān)系線可以將A、 B連接起來(lái),最短只經(jīng)過(guò)兩條連接線、一 個(gè)本體節(jié)點(diǎn)即可將二者連接起來(lái),即Dr產(chǎn)2。 drf為索引庫(kù)中每條記錄的語(yǔ)義向量中的維差, 如文檔語(yǔ)義向量I^(aLa2,a3,a4,a5,a6,a7),其中a^R, a6=F,則dr產(chǎn)3。當(dāng)R或F沒(méi)有在文檔語(yǔ) 義向量中出現(xiàn)時(shí),則語(yǔ)義距離無(wú)限遠(yuǎn),實(shí)際計(jì)算時(shí)計(jì)為103,當(dāng)均沒(méi)出現(xiàn)時(shí),此項(xiàng)drf不做任 何計(jì)算。
a2)句型模式匹配失敗時(shí)的語(yǔ)義距離測(cè)量算法當(dāng)用戶輸入的檢索式中含有本體概念, 但是,其強(qiáng)語(yǔ)義詞匯集與本體句型模式匹配失敗時(shí),語(yǔ)義距離測(cè)量采用下述的方式。實(shí)施例 參照步驟l)中的b2)所述,強(qiáng)語(yǔ)義詞匯集可能包含l個(gè)或多個(gè)本體概念詞匯,當(dāng)本體概念數(shù) 量為1時(shí),査詢檢索式應(yīng)為XUXiU... UXra,其中,Xl ..X!n為X的擴(kuò)展概念。此時(shí)不涉及語(yǔ) 義距離問(wèn)題,這種情況下,設(shè)定Dr產(chǎn)dr產(chǎn)l。當(dāng)本體核心概念數(shù)量為多個(gè)時(shí),返回的査詢檢索 式的形式如前面所述為(X, , Xa) U (Y, , Yb) U, , U (Z, Zl , Zb),此時(shí), Drf、 drf的值為任意組合檢索式的概念之間距離的平均值。
b)根據(jù)語(yǔ)義距離進(jìn)行排序計(jì)算
排序計(jì)算的公式為Z=qi* E f 1 (qiAi, B) +q2*f 2 (gl (Drf) , g2 (drf))。 其中A為一個(gè)檢索式形成的多個(gè)檢索向量組成的矩陣,Ai為A中一個(gè)檢索向量,E是在i 為不同值時(shí)所有fl的和,B為文檔語(yǔ)義向量,fi(qiAi,B)表示Ai、 B兩向量的相關(guān)函數(shù),qi為査 詢擴(kuò)展系數(shù),qiE(O,l],如果為原概念,貝Uqfl,如果為同義詞或下位概念等,則根據(jù)査 詢擴(kuò)展策略中不同的相似度設(shè)定査詢擴(kuò)展系數(shù)qi,如
fl(Ai, B)=qi*(ai+a2+. . . +aj)*(b1+b2+. . . +bk),其中aj, bk分別為Ai, B兩向量維數(shù)為i時(shí)的概念 ,當(dāng)且僅當(dāng)aj與bk為同一概念時(shí),f(A,B)自增ca。
f2(gl,g2)為gl,g2的相似函數(shù),如,f2(gl,g2) = Eqi/(|gi(Drf)-g2(drf) |+1)。其中qi為與 距離Drf對(duì)應(yīng)的語(yǔ)義向量的査詢擴(kuò)展系數(shù),gl(Drf)為同一檢索式中不同向量的本體語(yǔ)義距離 標(biāo)準(zhǔn)化函數(shù),如gl(DrfX/Drf。
g2(drf)與gl(Drf)含義雷同,E是對(duì)不同的qi, Drf, drf下式子 求和。qi,q2分別為兩函數(shù)fl,f2的權(quán)值。
可以通過(guò)對(duì)qi, q2大小的設(shè)定以及fl, f2, gl, g2等函數(shù)的修改實(shí)現(xiàn)排序方法的調(diào)整。另外可 以以此排序算法為內(nèi)核,結(jié)合其它常用的排序方法,能夠達(dá)到更好的效果。
注全文檢索結(jié)果排序根據(jù)事先對(duì)標(biāo)題、摘要、全文等不同匹配區(qū)域設(shè)定的權(quán)值,以 及關(guān)鍵詞命中個(gè)數(shù)等信息計(jì)算相似度并排序。具體排序算法不在詳細(xì)敘述。3)將上述處理后的排序結(jié)果返回給用戶。
盡管上述已經(jīng)詳細(xì)地描述了本發(fā)明,應(yīng)當(dāng)理解本發(fā)明的實(shí)施例僅僅是示范性地圖解了本 發(fā)明的原理,在不脫離本發(fā)明構(gòu)思和范圍的情況下,本發(fā)明的實(shí)施例還有各種變化,替代和 修改。這些改變都應(yīng)該包含在本發(fā)明的范圍內(nèi),不應(yīng)被看作與本發(fā)明的精神和范圍的脫離。
權(quán)利要求
1.一種基于領(lǐng)域本體的智能檢索系統(tǒng),包括用于分析用戶輸入自然查詢語(yǔ)句的本體推理模塊,用于創(chuàng)建索引庫(kù)的索引處理模塊,用于進(jìn)行特定查詢的查詢處理模塊,以及用于查詢結(jié)果處理的結(jié)果優(yōu)化排序模塊,其特征在于,所述的系統(tǒng)還包括數(shù)據(jù)資源庫(kù)、領(lǐng)域本體庫(kù)和索引數(shù)據(jù)庫(kù);
2.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于 ,所述的本體推理模塊包括分詞預(yù)處理單元和句型模式匹配單元;所述分詞預(yù)處理單元,用于接收用戶輸入的自然査詢語(yǔ)句,對(duì)査詢語(yǔ)句進(jìn)行分詞、詞 性標(biāo)注、領(lǐng)域本體角色標(biāo)注等預(yù)處理,去除弱語(yǔ)義詞匯,得到強(qiáng)語(yǔ)義詞匯集合;所述句型模式匹配單元,用于將強(qiáng)語(yǔ)義詞匯集合與事先定義的句型模式進(jìn)行匹配處理 ,得到新的檢索式;
3.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于 ,所述的索引處理模塊包括本體語(yǔ)義索弓1處理單元和全文索弓1處理單元;所述本體語(yǔ)義索引處理單元,用于獲取數(shù)據(jù)資源文檔,解析、處理并提取文檔主體內(nèi) 容信息,基于領(lǐng)域本體庫(kù)合成語(yǔ)義向量,建立語(yǔ)義本體索引庫(kù);所述全文索引處理單元,用于獲取數(shù)據(jù)資源文檔,提取文檔信息,建立全文索引庫(kù);
4.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于 ,所述的査詢處理模塊包括語(yǔ)義査詢處理單元、擴(kuò)展査詢處理單元和全文檢索處理單元;所述語(yǔ)義査詢處理單元,用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行專業(yè)領(lǐng)域信息的智 能査詢處理;所述擴(kuò)展査詢處理單元,用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行擴(kuò)展査詢處理; 全文檢索處理單元,用于按照傳統(tǒng)的檢索方式,即按照關(guān)鍵字匹配原理進(jìn)行全文檢索 的處理。
5.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于 ,所述的數(shù)據(jù)資源庫(kù)包括本地領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的資源或從網(wǎng)上抓取的領(lǐng)域內(nèi)的資源數(shù)據(jù);
6 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng),其特征在于 ,所述的索引數(shù)據(jù)庫(kù)包括由索引處理模塊建立的本體語(yǔ)義索引庫(kù)和全文索引庫(kù)。
7 一種如權(quán)利要求l所述基于領(lǐng)域本體的智能檢索方法,其特征在于 ,所述的方法包括以下步驟A. 對(duì)用戶輸入的自然査詢語(yǔ)句進(jìn)行分詞、詞性標(biāo)注、并基于領(lǐng)域本體進(jìn)行角色標(biāo)注;B. 分析、判斷上述步驟A中的詞匯集,進(jìn)行本體角色非空項(xiàng)的判斷,并按照一定的規(guī) 則進(jìn)行相應(yīng)的査詢;C. 對(duì)査詢結(jié)果進(jìn)行語(yǔ)義距離測(cè)量,按照語(yǔ)義距離值進(jìn)行結(jié)果的優(yōu)化,并將結(jié)果排序輸 出,返回給用戶。
8 根據(jù)權(quán)利要求7所述的方法,其特征在于,步驟B中所述的本體角 色非空項(xiàng)的判斷進(jìn)一步包括Bl.如果用戶輸入的自然査詢語(yǔ)句中不包括本體概念,則進(jìn)行全文檢索;B2.如果用戶輸入的自然査詢語(yǔ)句中包括本體概念,則進(jìn)行本體模式的匹配判斷。
9 根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟B2進(jìn)一步包括 B21.如果本體模式匹配成功,則形成語(yǔ)義査詢檢索式;B22.如果本體模式匹配成功,則訪問(wèn)領(lǐng)域本體庫(kù),進(jìn)行語(yǔ)義擴(kuò)展處理,并形成擴(kuò)展査 詢檢索式。
全文摘要
本發(fā)明涉及中文信息檢索(IR)領(lǐng)域,特別涉及一種基于領(lǐng)域本體(Domain ontology)的智能檢索方法,以及包含該方法的智能檢索系統(tǒng)。其中該系統(tǒng)包括用于分析用戶輸入自然查詢語(yǔ)句的本體推理模塊,用于創(chuàng)建索引庫(kù)的索引處理模塊,用于進(jìn)行特定查詢的查詢處理模塊,以及用于查詢結(jié)果處理的結(jié)果優(yōu)化排序模塊,所述系統(tǒng)還包括基于某一領(lǐng)域所構(gòu)建的領(lǐng)域本體庫(kù)、數(shù)據(jù)資源庫(kù)、以及索引數(shù)據(jù)庫(kù)。本發(fā)明所述的基于領(lǐng)域本體的智能檢索系統(tǒng)及方法充分利用了領(lǐng)域本體庫(kù)中的概念及其相互關(guān)系,能夠正確理解用戶需求,優(yōu)化檢索結(jié)果,為用戶更全、更準(zhǔn)地返回專業(yè)領(lǐng)域信息,能夠顯著提高專業(yè)技術(shù)領(lǐng)域內(nèi)信息檢索的性能。
文檔編號(hào)G06F17/30GK101582073SQ20081030672
公開(kāi)日2009年11月18日 申請(qǐng)日期2008年12月31日 優(yōu)先權(quán)日2008年12月31日
發(fā)明者鵬 劉, 來(lái) 吳, 李春梅, 范書德, 黃道雄 申請(qǐng)人:北京中機(jī)科??萍及l(fā)展有限公司