一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法
【專利摘要】本發(fā)明公開了一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,利用本體來(lái)描述某個(gè)領(lǐng)域的語(yǔ)義信息,使得計(jì)算機(jī)更準(zhǔn)確得理解用戶查詢內(nèi)容,進(jìn)而實(shí)現(xiàn)語(yǔ)義層面的檢索,在分析現(xiàn)有技術(shù)的基礎(chǔ)上,結(jié)合語(yǔ)義網(wǎng)本體的結(jié)構(gòu)特點(diǎn),提出了一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義索引模型,模型根據(jù)關(guān)鍵詞在本體中的位置推斷關(guān)鍵詞與不同實(shí)例之間的語(yǔ)義相關(guān)度,將相關(guān)度權(quán)重寫入關(guān)鍵詞對(duì)應(yīng)的實(shí)例倒排列表,降低了語(yǔ)義檢索時(shí)相似度計(jì)算的復(fù)雜度,提高了檢索的效率。本發(fā)明所述方法將檢索從關(guān)鍵字簡(jiǎn)單匹配的語(yǔ)法層次提高到計(jì)算機(jī)可以理解的語(yǔ)義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了檢索的智能化。
【專利說(shuō)明】一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種智能檢索方法,具體是一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)是當(dāng)今最主要的網(wǎng)絡(luò)信息集散地,匯聚了海量信息,同時(shí)信息數(shù)量還在以 驚人的速度增長(zhǎng),信息檢索技術(shù)作為一種便捷的信息查看方式在信息獲取的過程中占據(jù)著 越來(lái)越重要的位置。傳統(tǒng)的搜索引擎大多使用的是基于關(guān)鍵詞匹配的方式,缺乏必要的語(yǔ) 義信息,不能很好地理解用戶需求,常常得到大量不相關(guān)的信息,為了突破這些限制,大量 的研究工作開始轉(zhuǎn)向搜索領(lǐng)域的語(yǔ)義化,即語(yǔ)義網(wǎng)和網(wǎng)絡(luò)搜索兩個(gè)領(lǐng)域最熱的研究方向之 〇
[0003] 當(dāng)前實(shí)用化的信息檢索系統(tǒng)在信息的語(yǔ)義解釋上有一定局限性,計(jì)算機(jī)無(wú)法通過 幾個(gè)關(guān)鍵字完全理解用戶的需求。首先是由于不同的用戶對(duì)同一個(gè)概念的表示方法不同, 也就是沒有統(tǒng)一的信息表示規(guī)范,其次是因?yàn)橥粋€(gè)關(guān)鍵字在不同的上下文表示不同的概 念,即存在一詞多義的情況。造成這些局限的最主要問題是不能很好地處理概念、標(biāo)識(shí)之間 的各種聯(lián)系和推理關(guān)系。
[0004] 語(yǔ)義檢索利用語(yǔ)義技術(shù)將信息檢索的過程從關(guān)鍵詞匹配提升到語(yǔ)義概念(或知 識(shí))匹配的層面。本體是一種重要的知識(shí)表示方式,它描述了概念的內(nèi)涵以及不同概念之間 的關(guān)系,具有良好的概念層次結(jié)構(gòu),同時(shí)還提供對(duì)邏輯推理的支持,很多研究人員嘗試將本 體技術(shù)應(yīng)用到基于知識(shí)的檢索中。在語(yǔ)義檢索應(yīng)用中,本體技術(shù)主要用于不同的應(yīng)用系統(tǒng) 之間的信息理解、使用和分享,基于本體的語(yǔ)義標(biāo)注技術(shù)能夠在現(xiàn)實(shí)互聯(lián)網(wǎng)中的網(wǎng)絡(luò)文檔 和各個(gè)領(lǐng)域的本體模型之間建立關(guān)聯(lián),給原本沒有語(yǔ)義概念的信息賦予語(yǔ)義的內(nèi)涵,建立 語(yǔ)義數(shù)據(jù)庫(kù)。將語(yǔ)義數(shù)據(jù)庫(kù)應(yīng)用到信息檢索領(lǐng)域中能夠避免關(guān)鍵詞匹配技術(shù)的不足,提升 信息檢索的效率。
[0005] 近年來(lái),國(guó)外針對(duì)語(yǔ)義信息檢索的研究比較活躍,相當(dāng)一部分研究是利用本體技 術(shù)提高特定領(lǐng)域的信息檢索效果。其中比較知名的語(yǔ)義檢索系統(tǒng)有 :SH0E、SW〇〇gle、C〇rese 等。
[0006] SHOE是最早對(duì)網(wǎng)絡(luò)資源進(jìn)行語(yǔ)義查詢的語(yǔ)義檢索系統(tǒng),它的主要組成部分有網(wǎng)頁(yè) 標(biāo)注工具、網(wǎng)頁(yè)抓取器、信息查詢工具、推理機(jī)等。Swoogle是一個(gè)針對(duì)互聯(lián)網(wǎng)上的語(yǔ)義網(wǎng) 文檔、術(shù)語(yǔ)以及數(shù)據(jù)的搜索引擎。它可以像Google-樣在互聯(lián)網(wǎng)上爬行,收集各類Meta信 息,并將信息存入信息庫(kù)中,之后在此基礎(chǔ)上創(chuàng)建索引實(shí)現(xiàn)信息檢索。Corese系統(tǒng)是一個(gè)基 于本體的語(yǔ)義搜索引擎。在查詢的過程中使用基于RDF(S)的查詢語(yǔ)言對(duì)使用相同標(biāo)準(zhǔn)標(biāo) 注過的網(wǎng)絡(luò)資源進(jìn)行搜索。該系統(tǒng)的相似度算法的設(shè)計(jì)主要是依據(jù)推理規(guī)則以及語(yǔ)義網(wǎng)中 實(shí)體之間的語(yǔ)義距離,例如概念之間、屬性之間、概念與屬性之間等。從這個(gè)意義上講,該系 統(tǒng)更容易檢索到那些在概念和語(yǔ)義關(guān)系上接近用戶查詢的資源。
[0007] 國(guó)內(nèi)對(duì)語(yǔ)義網(wǎng)的研究更多停留在理論層面,將語(yǔ)義網(wǎng)和本體技術(shù)應(yīng)用于信息檢索 領(lǐng)域的研究起步較晚,借鑒國(guó)外經(jīng)驗(yàn)較多,成熟的應(yīng)用較少。雖然取得了一些研究進(jìn)展,但 與國(guó)外尤其是發(fā)達(dá)國(guó)家相比還是有一定的差距,主要還是因?yàn)槲覈?guó)缺少相關(guān)的政府組織或 強(qiáng)有力的民間組織來(lái)推動(dòng)語(yǔ)義網(wǎng)的研究,也缺少?gòu)膽?zhàn)略層面對(duì)互聯(lián)網(wǎng)的規(guī)劃和設(shè)計(jì),但是 人工智能、信息管理等多領(lǐng)域的學(xué)者專家一直在對(duì)語(yǔ)義網(wǎng)、本體技術(shù)、語(yǔ)義檢索等方面進(jìn)行 著研究探索,并取得了一定成果。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于提供一種把當(dāng)前的信息檢索技術(shù)從關(guān)鍵字匹配方式提高到計(jì) 算機(jī)可理解的語(yǔ)義檢索方式的面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,以解決上述【背景技術(shù)】中提出 的問題。
[0009] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案: 一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,包括以下步驟:(1)借助本體管理工具完成本體 概念庫(kù)的構(gòu)建,利用語(yǔ)義標(biāo)注工具進(jìn)行標(biāo)注得到實(shí)例數(shù)據(jù)集;(2)根據(jù)本體概念、實(shí)例、屬 性之間的相互關(guān)系設(shè)定不同短語(yǔ)與實(shí)例的相關(guān)度權(quán)重,遍歷實(shí)例數(shù)據(jù)集,構(gòu)建語(yǔ)義數(shù)據(jù)索 引;(3)用戶輸入查詢語(yǔ)句,利用分詞工具對(duì)用戶查詢語(yǔ)句進(jìn)行分詞處理;(4)利用本體概 念連通圖和上下文分析對(duì)用戶查詢進(jìn)行語(yǔ)義擴(kuò)展,形成新的單詞集合;(5)用新的單詞集 合作為原始詞,進(jìn)行語(yǔ)義檢索,得到相關(guān)實(shí)例集合;(6)將檢索得到的實(shí)例集合按照相關(guān)度 權(quán)值大小進(jìn)行排序;(7)將檢索結(jié)果返回給用戶。
[0010] 作為本發(fā)明進(jìn)一步的方案:所述構(gòu)建語(yǔ)義數(shù)據(jù)索引的步驟包括:(1)對(duì)實(shí)例數(shù)據(jù) 集中的所有實(shí)例以及實(shí)例對(duì)應(yīng)的資源進(jìn)行編號(hào);(2)遍歷實(shí)例數(shù)據(jù)集中所有實(shí)例,訪問實(shí) 例所屬的概念、包含的屬性以及相關(guān)的概念和實(shí)例,查表得到與實(shí)例相關(guān)的所有實(shí)體的相 關(guān)度權(quán)值,將實(shí)例編號(hào)和權(quán)重存入實(shí)體名稱對(duì)應(yīng)的倒排列表;(3)遍歷所有的實(shí)體名稱,對(duì) 每個(gè)實(shí)體名稱進(jìn)行分詞處理;(4)合并每個(gè)單詞對(duì)應(yīng)的倒排列表,得到語(yǔ)義索引。
[0011] 作為本發(fā)明進(jìn)一步的方案:所述的利用本體概念連通圖進(jìn)行語(yǔ)義擴(kuò)展的算法包括 如下步驟:(1)輸入語(yǔ)義實(shí)例數(shù)據(jù)索引庫(kù),輸出本體概念連通圖,頂點(diǎn)為概念,邊的權(quán)重為 概念之間的關(guān)聯(lián)程度;(3)初始化本體概念連通圖CM;(4)訪問語(yǔ)義實(shí)例數(shù)據(jù)庫(kù),獲取具有 概念的文檔集合D;(5)對(duì)于每一個(gè)具有概念的文檔集合Di中所出現(xiàn)的任意兩個(gè)概念和 Ck,取兩個(gè)概念中出現(xiàn)頻率較小的概念作為這兩個(gè)概念同時(shí)出現(xiàn)在文檔集合Di中的頻數(shù)f; (6) 如果概念&和概念Ck在本體概念圖中是連通的并且權(quán)重不為0,就將頻數(shù)f?累加權(quán)重; (7) 如果Cj和Ck不連通,則在圖中連通Cj和Ck,并為其賦值為f ; (8)對(duì)圖中所有邊的頻數(shù) f取最大值作為分母進(jìn)行歸一化處理,得到連通概念&和Ck的邊權(quán)重%, k ; 作為本發(fā)明進(jìn)一步的方案:所述的利用上下文分析進(jìn)行語(yǔ)義擴(kuò)展的算法包括如下步 驟:(1)輸入單詞序列q2、…、qn,輸出每個(gè)單詞的擴(kuò)展概念;(2)使用簡(jiǎn)單查詢方式獲 得每個(gè)單詞序列 qi的相關(guān)文檔集合Di ; (3)統(tǒng)計(jì)文檔集合Di中出現(xiàn)的本體概念,對(duì)每個(gè)概 念出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì);(4)統(tǒng)計(jì)每篇文檔集合Di中出現(xiàn)單詞序列qi的次數(shù);(5)綜合考慮 概念以及單詞序列1出現(xiàn)的頻率,取前K個(gè)概念作為 qi的擴(kuò)展概念;(6)對(duì)K個(gè)概念一并 提取其屬性描述作為擴(kuò)展向量?jī)?nèi)容,初始化每個(gè)單詞序列1的候選概念列表。
[0012] 作為本發(fā)明再進(jìn)一步的方案:所述的對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行語(yǔ)義檢索的步 驟包括:(1)預(yù)處理用戶輸入的查詢語(yǔ)句,消除無(wú)效字符,利用分詞工具對(duì)用戶輸入查詢語(yǔ) 句進(jìn)行分詞處理;(2)利用本體概念連通圖和上下文分析對(duì)用戶查詢擴(kuò)展方法進(jìn)行語(yǔ)義擴(kuò) 展,得到擴(kuò)展后的單詞集合;(3)依次查找擴(kuò)展后的單詞集中每個(gè)單詞對(duì)應(yīng)的實(shí)例倒排列 表,整合所有的倒排列表,得到用戶查詢對(duì)應(yīng)的實(shí)例列表;(4)根據(jù)實(shí)例對(duì)應(yīng)的相關(guān)度權(quán) 重,對(duì)實(shí)例列表進(jìn)行排序,得到用戶查詢對(duì)應(yīng)的最終倒排列表。
[0013]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是: 本發(fā)明在本體技術(shù)的支持下,通過對(duì)本體中屬性關(guān)系的應(yīng)用實(shí)現(xiàn)了實(shí)例的準(zhǔn)確查找, 使信息檢索的查準(zhǔn)率比現(xiàn)有技術(shù)有所提高;本發(fā)明所述方法將檢索從關(guān)鍵字簡(jiǎn)單匹配的語(yǔ) 法層次提高到計(jì)算機(jī)可以理解的語(yǔ)義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了 檢索的智能化。
【專利附圖】
【附圖說(shuō)明】
[0014] 圖1為本發(fā)明中一個(gè)本體實(shí)例的結(jié)構(gòu)示意圖。
[0015] 圖2為本發(fā)明中以事件為主題的本體結(jié)構(gòu)示意圖。
[0016] 圖3為本發(fā)明中創(chuàng)建語(yǔ)義索引的流程圖。
[0017]圖4為本發(fā)明中通過索引查詢數(shù)據(jù)的流程圖。
[0018]圖5為本發(fā)明中本體概念連通圖。
[0019]圖6為本發(fā)明中用戶查詢擴(kuò)展的流程圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合【具體實(shí)施方式】對(duì)本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說(shuō)明。
[0021] 請(qǐng)參閱圖1-6,一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,包括以下步驟:(1)借助本體 管理工具完成本體概念庫(kù)的構(gòu)建,利用語(yǔ)義標(biāo)注工具進(jìn)行標(biāo)注得到實(shí)例數(shù)據(jù)集,圖1中張 三所屬的概念是學(xué)生,雁塔區(qū)所屬的概念是地區(qū),對(duì)象屬性表示與其他實(shí)例之間的關(guān)系,張 三家住在雁塔區(qū),那么"張三"就是該人的實(shí)例名稱,"家住在"是對(duì)象屬性,而"雁塔區(qū)"是 對(duì)應(yīng)于該實(shí)例的對(duì)象屬性的值,數(shù)據(jù)屬性表明實(shí)例具有的字面量、數(shù)字等屬性值,張三的體 重為60kg,"體重為"就是張三對(duì)應(yīng)的數(shù)據(jù)屬性,60kg就是該數(shù)據(jù)屬性對(duì)應(yīng)的值;(2)根據(jù)本 體概念、實(shí)例、屬性之間的相互關(guān)系設(shè)定不同短語(yǔ)與實(shí)例的相關(guān)度權(quán)重,遍歷實(shí)例數(shù)據(jù)集, 構(gòu)建語(yǔ)義數(shù)據(jù)索引;(3)用戶輸入查詢語(yǔ)句,利用分詞工具對(duì)用戶查詢語(yǔ)句進(jìn)行分詞處理; (4)利用本體概念連通圖和上下文分析對(duì)用戶查詢進(jìn)行語(yǔ)義擴(kuò)展,形成新的單詞集合;(5) 用新的單詞集合作為原始詞,進(jìn)行語(yǔ)義檢索,得到相關(guān)實(shí)例集合;(6)將檢索得到的實(shí)例集 合按照相關(guān)度權(quán)值大小進(jìn)行排序;(7)將檢索結(jié)果返回給用戶。
[0022] 構(gòu)建語(yǔ)義數(shù)據(jù)索引的步驟包括:(1)對(duì)實(shí)例數(shù)據(jù)集中的所有實(shí)例以及實(shí)例對(duì)應(yīng)的 資源進(jìn)行編號(hào);(2)遍歷實(shí)例數(shù)據(jù)集中所有實(shí)例,訪問實(shí)例所屬的概念、包含的屬性以及相 關(guān)的概念和實(shí)例,查表得到與實(shí)例相關(guān)的所有實(shí)體的相關(guān)度權(quán)值,將實(shí)例編號(hào)和權(quán)重存入 實(shí)體名稱對(duì)應(yīng)的倒排列表;(3)遍歷所有的實(shí)體名稱,對(duì)每個(gè)實(shí)體名稱進(jìn)行分詞處理;(4) 合并每個(gè)單詞對(duì)應(yīng)的倒排列表,得到語(yǔ)義索引。
[0023] 利用本體概念連通圖進(jìn)行語(yǔ)義擴(kuò)展的算法包括如下步驟:(1)輸入語(yǔ)義實(shí)例數(shù)據(jù) 索引庫(kù),輸出本體概念連通圖,頂點(diǎn)為概念,邊的權(quán)重為概念之間的關(guān)聯(lián)程度;(3)初始化 本體概念連通圖CM ; (4)訪問語(yǔ)義實(shí)例數(shù)據(jù)庫(kù),獲取具有概念的文檔集合D ; (5)對(duì)于每一 個(gè)具有概念的文檔集合Di中所出現(xiàn)的任意兩個(gè)概念Cj和Ck,取兩個(gè)概念中出現(xiàn)頻率較小 的概念作為這兩個(gè)概念同時(shí)出現(xiàn)在文檔集合Di中的頻數(shù)f ; (6)如果概念&和概念Ck在本 體概念圖中是連通的并且權(quán)重不為〇,就將頻數(shù)f累加權(quán)重;(7)如果Cj和Ck不連通,則在 圖中連通&和C k,并為其賦值為f ; (8)對(duì)圖中所有邊的頻數(shù)f取最大值作為分母進(jìn)行歸一 化處理,得到連通概念q和Ck的邊權(quán)重%, k ; 利用上下文分析進(jìn)行語(yǔ)義擴(kuò)展的算法包括如下步驟:(1)輸入單詞序列qi、q2、…、q n, 輸出每個(gè)單詞的擴(kuò)展概念;(2)使用簡(jiǎn)單查詢方式獲得每個(gè)單詞序列qi的相關(guān)文檔集合Di ; (3)統(tǒng)計(jì)文檔集合Di中出現(xiàn)的本體概念,對(duì)每個(gè)概念出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì);(4)統(tǒng)計(jì)每篇文檔 集合Di中出現(xiàn)單詞序列qi的次數(shù);(5)綜合考慮概念以及單詞序列qi出現(xiàn)的頻率,取前K 個(gè)概念作為1的擴(kuò)展概念;(6)對(duì)K個(gè)概念一并提取其屬性描述作為擴(kuò)展向量?jī)?nèi)容,初始 化每個(gè)單詞序列 qi的候選概念列表。
[0024] 對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行語(yǔ)義檢索的步驟包括:(1)預(yù)處理用戶輸入的查詢語(yǔ) 句,消除無(wú)效字符,利用分詞工具對(duì)用戶輸入查詢語(yǔ)句進(jìn)行分詞處理;(2)利用本體概念連 通圖和上下文分析對(duì)用戶查詢擴(kuò)展方法進(jìn)行語(yǔ)義擴(kuò)展,得到擴(kuò)展后的單詞集合;(3)依次 查找擴(kuò)展后的單詞集中每個(gè)單詞對(duì)應(yīng)的實(shí)例倒排列表,整合所有的倒排列表,得到用戶查 詢對(duì)應(yīng)的實(shí)例列表;(4)根據(jù)實(shí)例對(duì)應(yīng)的相關(guān)度權(quán)重,對(duì)實(shí)例列表進(jìn)行排序,得到用戶查詢 對(duì)應(yīng)的最終倒排列表。
[0025] 請(qǐng)參閱圖2,本發(fā)明實(shí)施例中,一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,包括以下步 驟: (1)創(chuàng)建一個(gè)以事件為主題的本體結(jié)構(gòu),進(jìn)行語(yǔ)義標(biāo)注得到本體實(shí)例集,圖中帶圓圈的 圖標(biāo)都是"事件"領(lǐng)域的概念,帶菱形的圖標(biāo)都是從文件標(biāo)注得到的實(shí)例數(shù)據(jù),例如"軍事事 件"是"事件"的子概念,"東海艦隊(duì)舉行大規(guī)模海上演練"是"軍事事件"的實(shí)例。
[0026] (2)對(duì)本體實(shí)例集中的所有的實(shí)例進(jìn)行編號(hào),如表1所示。
[0027] 表1-本體實(shí)例集中的所有實(shí)例編號(hào)列表
【權(quán)利要求】
1. 一種面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,其特征在于,包括以下步驟:(1)借助本體管 理工具完成本體概念庫(kù)的構(gòu)建,利用語(yǔ)義標(biāo)注工具進(jìn)行標(biāo)注得到實(shí)例數(shù)據(jù)集;(2)根據(jù)本 體概念、實(shí)例、屬性之間的相互關(guān)系設(shè)定不同短語(yǔ)與實(shí)例的相關(guān)度權(quán)重,遍歷實(shí)例數(shù)據(jù)集, 構(gòu)建語(yǔ)義數(shù)據(jù)索引;(3)用戶輸入查詢語(yǔ)句,利用分詞工具對(duì)用戶查詢語(yǔ)句進(jìn)行分詞處理; (4)利用本體概念連通圖和上下文分析對(duì)用戶查詢進(jìn)行語(yǔ)義擴(kuò)展,形成新的單詞集合;(5) 用新的單詞集合作為原始詞,進(jìn)行語(yǔ)義檢索,得到相關(guān)實(shí)例集合;(6)將檢索得到的實(shí)例集 合按照相關(guān)度權(quán)值大小進(jìn)行排序;(7)將檢索結(jié)果返回給用戶。
2. 根據(jù)權(quán)利1所述的面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,其特征在于,所述構(gòu)建語(yǔ)義數(shù)據(jù) 索引的步驟包括:(1)對(duì)實(shí)例數(shù)據(jù)集中的所有實(shí)例以及實(shí)例對(duì)應(yīng)的資源進(jìn)行編號(hào);(2)遍 歷實(shí)例數(shù)據(jù)集中所有實(shí)例,訪問實(shí)例所屬的概念、包含的屬性以及相關(guān)的概念和實(shí)例,查表 得到與實(shí)例相關(guān)的所有實(shí)體的相關(guān)度權(quán)值,將實(shí)例編號(hào)和權(quán)重存入實(shí)體名稱對(duì)應(yīng)的倒排列 表;(3)遍歷所有的實(shí)體名稱,對(duì)每個(gè)實(shí)體名稱進(jìn)行分詞處理;(4)合并每個(gè)單詞對(duì)應(yīng)的倒 排列表,得到語(yǔ)義索引。
3. 根據(jù)權(quán)利1所述的面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,其特征在于,所述的利用本體概 念連通圖進(jìn)行語(yǔ)義擴(kuò)展的算法包括如下步驟:(1)輸入語(yǔ)義實(shí)例數(shù)據(jù)索引庫(kù),輸出本體概 念連通圖,頂點(diǎn)為概念,邊的權(quán)重為概念之間的關(guān)聯(lián)程度;(3)初始化本體概念連通圖CM ; (4)訪問語(yǔ)義實(shí)例數(shù)據(jù)庫(kù),獲取具有概念的文檔集合D ; (5)對(duì)于每一個(gè)具有概念的文檔集 合Di中所出現(xiàn)的任意兩個(gè)概念和Ck,取兩個(gè)概念中出現(xiàn)頻率較小的概念作為這兩個(gè)概 念同時(shí)出現(xiàn)在文檔集合Di中的頻數(shù)f ; (6)如果概念&和概念Ck在本體概念圖中是連通的 并且權(quán)重不為0,就將頻數(shù)f累加權(quán)重;(7)如果&和C k不連通,則在圖中連通&和Ck,并 為其賦值為f ; (8)對(duì)圖中所有邊的頻數(shù)f取最大值作為分母進(jìn)行歸一化處理,得到連通概 念Cj和Ck的邊權(quán)重Wj, k。
4. 根據(jù)權(quán)利1所述的面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,其特征在于,所述的利用上下文 分析進(jìn)行語(yǔ)義擴(kuò)展的算法包括如下步驟:(1)輸入單詞序列 qi、q2、…、qn,輸出每個(gè)單詞的 擴(kuò)展概念;(2)使用簡(jiǎn)單查詢方式獲得每個(gè)單詞序列 qi的相關(guān)文檔集合Di ; (3)統(tǒng)計(jì)文檔 集合Di中出現(xiàn)的本體概念,對(duì)每個(gè)概念出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì);(4)統(tǒng)計(jì)每篇文檔集合Di中出 現(xiàn)單詞序列 qi的次數(shù);(5)綜合考慮概念以及單詞序列qi出現(xiàn)的頻率,取前K個(gè)概念作為 1的擴(kuò)展概念;(6)對(duì)K個(gè)概念一并提取其屬性描述作為擴(kuò)展向量?jī)?nèi)容,初始化每個(gè)單詞序 列Qi的候選概念列表。
5. 根據(jù)權(quán)利1所述的面向領(lǐng)域數(shù)據(jù)的語(yǔ)義檢索方法,其特征在于,所述的對(duì)用戶輸入 的查詢語(yǔ)句進(jìn)行語(yǔ)義檢索的步驟包括:(1)預(yù)處理用戶輸入的查詢語(yǔ)句,消除無(wú)效字符,利 用分詞工具對(duì)用戶輸入查詢語(yǔ)句進(jìn)行分詞處理;(2)利用本體概念連通圖和上下文分析對(duì) 用戶查詢擴(kuò)展方法進(jìn)行語(yǔ)義擴(kuò)展,得到擴(kuò)展后的單詞集合;(3)依次查找擴(kuò)展后的單詞集 中每個(gè)單詞對(duì)應(yīng)的實(shí)例倒排列表,整合所有的倒排列表,得到用戶查詢對(duì)應(yīng)的實(shí)例列表; (4)根據(jù)實(shí)例對(duì)應(yīng)的相關(guān)度權(quán)重,對(duì)實(shí)例列表進(jìn)行排序,得到用戶查詢對(duì)應(yīng)的最終倒排列 表。
【文檔編號(hào)】G06F17/27GK104239513SQ201410471778
【公開日】2014年12月24日 申請(qǐng)日期:2014年9月16日 優(yōu)先權(quán)日:2014年9月16日
【發(fā)明者】宋勝利, 高海昌, 覃桂敏, 褚華 申請(qǐng)人:西安電子科技大學(xué)