用于自動化擴(kuò)展層次化本體知識庫的方法與流程

文檔序號：12465141閱讀：221來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本體(Ontology)的概念最早起源于哲學(xué)領(lǐng)域[1]，作為語義基礎(chǔ)被廣泛應(yīng)用于信息檢索、人工智能、語義網(wǎng)絡(luò)、軟件工程、自然語言處理、電子商務(wù)和知識管理等領(lǐng)域。本發(fā)明涉及對已存在的本體庫進(jìn)行擴(kuò)展的方法，尤其是對層次化本體知識庫進(jìn)行動態(tài)的、自動化的擴(kuò)展方法。
背景技術(shù)：
：：本體作為共享概念模型的明確形式化規(guī)范說明[2]，是語義Web的核心。為了充分利用已存在的本體，許多研究集中于本體映射，即找到異構(gòu)本體間的語義聯(lián)系。映射技術(shù)可以分為元素層映射和結(jié)構(gòu)層映射兩種[3]。元素層映射技術(shù)忽略元素與別的元素的關(guān)系,進(jìn)行本體映射時只考慮元素本身；結(jié)構(gòu)層映射通過分析一個大結(jié)構(gòu)中元素間的彼此關(guān)系來進(jìn)行映射。元素層映射往往被看作是結(jié)構(gòu)層映射的基礎(chǔ)。目前元素層映射方法主要有基于字符串的技術(shù)，如比較前綴后綴，計算編輯距離，N-gram算法等[4]；基于語言的技術(shù),利用某種自然語言(如英語)處理技術(shù)對輸入單詞進(jìn)行處理，如削尾處理，消除前置詞，聯(lián)詞等[5]；利用語言學(xué)資源，引入共享知識詞典和領(lǐng)域知識詞典(如WordNet)，利用語言關(guān)系進(jìn)行匹配[6]。以上方法均被成功地應(yīng)用到英文本體映射中。但本體映射主要應(yīng)用于兩個已存在的異構(gòu)本體，無法實(shí)現(xiàn)一個單一本體庫的動態(tài)擴(kuò)展，且一些成功的應(yīng)用于英文本體映射中的方法并不適用于中文的本體映射。[參考文獻(xiàn)][1]張秀蘭,蔣玲.本體概念研究綜述[J].情報學(xué)報,2007,26(4):527-531。[2]ThomasRG.ATranslationApproachtoPotableOntologySpecification[J].KnowledgeAcquisition,1993,02:199-200。[3]PavelShvaiko,JeromeEuzenat.ASurveyofSchema2basedMatchingApproaches[J].JournalonDataSemantics(JoDS),IV,LNCS3730,2005:1462171.。[4]DoH.H.,RahmE..COMA2asystemforflexiblecombinationofschemamatchingapproaches[J].VeryLargeDataBasesConference(VLDB),2001:610-621。[5]GiunchigliaF.,ShvaikoP.,andYatskevichM..S-Match:analgorithmandanimplementationofsemanticmatching[J].EuropeanSemanticWebSymposium(ESWS),2004:61-75。[6]GiunchigliaF.,YatskevichM.Elementlevelsemanticmatching[D].ltaly:Dept.ofInformationandCommunicationTechnologyUniversityofTrento,2004。技術(shù)實(shí)現(xiàn)要素：針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明提出了一種用于自動化擴(kuò)展層次化本體知識庫的方法，即該方法能夠自動的將新實(shí)體加入到已存在的層次化本體庫中，以對當(dāng)前語義網(wǎng)中不斷增大的本體規(guī)模。為了解決上述技術(shù)問題，本發(fā)明提出的一種用于自動化擴(kuò)展層次化本體知識庫的方法，包括以下步驟：步驟一、對已存在的層次化本體庫構(gòu)建類別關(guān)系樹；步驟二、提取上述層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征；步驟三、利用步驟二提取得到的層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征，在所述層次化本體庫所在的類別關(guān)系樹中，自頂向下計算所述新實(shí)體ei與類別關(guān)系樹中各類別cj節(jié)點(diǎn)的相似度，并包含下述情形之一：1)一旦找到所述預(yù)插入的新實(shí)體ei與當(dāng)前層類別cj的相似度u高于Δu時，Δu取值為0.3，則繼續(xù)在當(dāng)前層類別的子類別中進(jìn)行相似度u的比較，直至將所述預(yù)插入的新實(shí)體ei插入到相似度u高于Δu的一葉子節(jié)點(diǎn)的類別cj中，該類別cj中原有的實(shí)體均分別記為e′；2)若所述預(yù)插入的新實(shí)體ei與當(dāng)前層中各類別cj的相似度u均小于或等于Δu，則在當(dāng)前層的父類別建立一個類別cj，所述類別cj位于葉子節(jié)點(diǎn)，將所述預(yù)插入的新實(shí)體ei插入到該類cj中，此時，將插入到類別cj中的實(shí)體記為實(shí)體e′；步驟四、將預(yù)插入的新實(shí)體ei插入到某一位于葉子節(jié)點(diǎn)的類別cj后，對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′按照下述情形之一進(jìn)行實(shí)體名稱及屬性的確定，從而實(shí)現(xiàn)層次化本體知識庫的擴(kuò)展；1)若所述預(yù)插入的新實(shí)體ei與該位于葉子節(jié)點(diǎn)的類別cj中的實(shí)體e′具有相同的實(shí)體名稱，則對所述預(yù)插入的新實(shí)體ei與實(shí)體e′利用如下公式(5)進(jìn)行相似度的計算；若相似度s高于Δs，Δs取值為0.5，將所述預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′的屬性進(jìn)行合并；否則，將預(yù)插入的新實(shí)體ei的實(shí)體名稱重新命名；2)若所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與該位于葉子節(jié)點(diǎn)的類別cj中的實(shí)體e′的實(shí)體名稱不同，且相似度s高于Δs，則將所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別cj中的實(shí)體e′的實(shí)體名稱及屬性分別合并。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：本發(fā)明作為層次化本體知識庫的一種自動化擴(kuò)展方法，主要是基于對新實(shí)體和層次化本體庫中的類別及類別所含實(shí)體的相似度的考察，實(shí)現(xiàn)了對新實(shí)體的插入，即本體知識庫的自動化擴(kuò)展，實(shí)現(xiàn)了層次化本體知識庫對語義網(wǎng)中不斷出現(xiàn)的新實(shí)體的融合，同時，這樣有利于形成一個統(tǒng)一標(biāo)準(zhǔn)的本體庫，為語義網(wǎng)更好的實(shí)現(xiàn)知識共享和互操作提供幫助，實(shí)現(xiàn)基于語義的表示和推理，為進(jìn)一步建立可信的語義網(wǎng)奠定良好的基礎(chǔ)。附圖說明圖1是層次化本體庫的類別樹示例；圖2是自頂向下的插入新實(shí)體的過程示例；圖3是計算新實(shí)體和某一類別的相似度的過程示例。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施實(shí)例對本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)描述，所描述的具體實(shí)施實(shí)例僅對本發(fā)明進(jìn)行解釋說明，并不用以限制本發(fā)明。本發(fā)明提出的一種用于自動化擴(kuò)展層次化本體知識庫的方法，包括以下步驟：步驟一、對已存在的層次化本體庫構(gòu)建類別關(guān)系樹；如圖1所示，已存在的層次化本體庫選取中文維基百科本體庫，通過維基百科自定義的類別標(biāo)簽，加手工標(biāo)注維基百科類別名字的后綴單詞到類別樹節(jié)點(diǎn)的映射。即事先標(biāo)注好“XXX運(yùn)動員”的類別應(yīng)該對應(yīng)到類別樹上的“人”，“XXX公司”應(yīng)該對應(yīng)到類別樹上的“組織機(jī)構(gòu)”；當(dāng)遇到一個維基百科實(shí)體時，如“姚明”，首先需要查看其維基百科類別標(biāo)簽，有“籃球運(yùn)動員”這個類別標(biāo)簽，而類別后綴“運(yùn)動員”被標(biāo)注成類別樹上的“人”這個類別，則維基百科實(shí)體“姚明”屬于“人”這個類別。步驟二、提取上述層次化本體庫中各類別cj及預(yù)插入的新實(shí)體的特征，用于計算上述層次化本體庫中各類別與預(yù)插入的新實(shí)體之間的相似度u，以尋找預(yù)插入的新實(shí)體在上述層次化本體庫中可插入的位置，圖3示出了計算新實(shí)體和某一類別的相似度的過程，一般來說，實(shí)體均具有實(shí)體名稱、屬性及屬性值，故本發(fā)明選取實(shí)體的屬性作為實(shí)體的特征，每個類別所擁有的所有實(shí)體的屬性集合作為該類別的特征。步驟三、利用步驟二提取得到的層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征，在所述層次化本體庫所在的類別關(guān)系樹中，圖2示出了自頂向下的插入新實(shí)體的過程，自頂向下計算所述新實(shí)體ei與類別關(guān)系樹中各類別cj節(jié)點(diǎn)的相似度,具體過程如下：對于預(yù)插入的新實(shí)體ei和上述層次化本體庫的類別cj，使用如下公式計算相似度：首先，將上述層次化本體庫中類別cj及預(yù)插入的新實(shí)體ei分別轉(zhuǎn)換為向量表示和其中,wi表示預(yù)插入新實(shí)體ei的第i個屬性；是屬于上述層次化本體庫中類別cj的所有實(shí)體所包含的所有屬性，其次，可以使用上述公式(2)或(3)計算上述層次化本體庫中類別cj的屬性與預(yù)插入的新實(shí)體ei的屬性Vei[k]的相似度，其中公式(2)是利用編輯距離計算上述層次化本體庫中類別cj的屬性與預(yù)插入的新實(shí)體ei的相似度，公式(3)是將上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei的屬性的屬性向量分別轉(zhuǎn)換為詞向量的表示Vk和Vm，然后計算兩個詞向量Vk和Vm余弦值作為上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei之間的相似度。鑒于有一些屬性幾乎在每一個實(shí)體中都有，不具有分辨性，因此，我們賦予屬于上述層次化本體庫中類別cj中的每個屬性一個權(quán)重本發(fā)明以上述層次化本體庫中類別cj中的每個屬性的TF-IDF值作為該屬性的權(quán)重。其中，每個屬性的TF-IDF值計算方法如下所示：首先，對于上述層次化本體庫中類別cj中的每個屬性屬于上述層次化本體庫中類別cj的實(shí)體ej,把上述層次化本體庫中類別cj的屬性在上述層次化本體庫中類別cj的實(shí)體ej中出現(xiàn)的次數(shù)記作tn，其中預(yù)插入的新實(shí)體ei屬于層次化本體庫中的類別cj，把上述層次化本體庫中類別cj的屬性在類別cj中的所有實(shí)體中出現(xiàn)的次數(shù)記作tall。其次，我們把所有包含屬性的類別個數(shù)記作dn,總類別個數(shù)記作dall。接下來，我們可以利用規(guī)則(4)計算屬性的權(quán)重除了考慮每個屬性的權(quán)重，本發(fā)明還加入了一些自然語言方面的先驗(yàn)知識作為懲罰項BRules(ei,cj)。例如，類別“學(xué)校”所擁有的實(shí)體大多數(shù)都具有“…學(xué)?！被颉啊袑W(xué)”的名稱格式，故我們可以先收集一個類別下所有的實(shí)體名稱，對其進(jìn)行分詞并獲取高頻詞，結(jié)合我們的先驗(yàn)知識，得到實(shí)體名稱匹配規(guī)則，然后利用如下公式，獲得新實(shí)體ei和類別cj的懲罰項：這樣通過公式(1)就可以獲得上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei之間的相似度。并包含下述情形之一：1)一旦找到所述預(yù)插入的新實(shí)體ei與當(dāng)前層類別cj的相似度u高于Δu((Δu為經(jīng)驗(yàn)閾值，一般取0.3)時，則繼續(xù)在當(dāng)前層類別的子類別中進(jìn)行相似度u的比較，直至將所述預(yù)插入的新實(shí)體ei插入到相似度u高于Δu的一葉子節(jié)點(diǎn)的類別cj中，該類別cj中原有的實(shí)體均分別記為e′；2)若所述預(yù)插入的新實(shí)體ei與當(dāng)前層中各類別cj的相似度u均小于或等于Δu，則在當(dāng)前層的父類別建立一個類別cj，所述類別cj位于葉子節(jié)點(diǎn)，將所述預(yù)插入的新實(shí)體ei插入到該類別cj中，此時，將插入到類別cj中的實(shí)體記為實(shí)體e′；本發(fā)明中新類別的產(chǎn)生利用的是層次聚類方法。即首先將每個未找到類別的新實(shí)體的屬性按拼音順序排序，然后對其進(jìn)行分詞，將每個詞用訓(xùn)練好的詞向量表示，得到新實(shí)體的向量表示。在初始階段將每一個新實(shí)體都視為一個簇，之后每一次合并兩個最接近的簇。步驟四、將預(yù)插入的新實(shí)體ei插入到某一位于葉子節(jié)點(diǎn)的類別cj時，需要對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′進(jìn)行判斷，并按照下述情形之一進(jìn)行實(shí)體名稱及屬性的確定，從而實(shí)現(xiàn)層次化本體知識庫的擴(kuò)展；1)本體庫中是否已存在實(shí)體與新實(shí)體具有相同名稱，且指代相同的語義內(nèi)容，若存在，則對新實(shí)體與已存在的實(shí)體進(jìn)行合并；具體內(nèi)容是：若所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′具有相同的實(shí)體名稱，則對所述預(yù)插入的新實(shí)體ei與實(shí)體e′，利用如下公式(5)進(jìn)行相似度的計算；若相似度s高于Δs(Δs為經(jīng)驗(yàn)閾值，一般取0.5),將所述預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′的屬性進(jìn)行合并；本體庫中是否存在實(shí)體與新實(shí)體具有相同的名稱，但指代不同的語義內(nèi)容，若存在，則對新實(shí)體和已存在的實(shí)體進(jìn)行消歧和區(qū)分，將預(yù)插入的新實(shí)體ei的實(shí)體名稱重新命名；2)若所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別cj中的實(shí)體e′的實(shí)體名稱不同，但指代相同的語義內(nèi)容，即相似度s高于Δs,則將所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別中cj的實(shí)體e′的實(shí)體名稱及屬性分別合并。首先對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′進(jìn)行名稱匹配，若存在同名實(shí)體，則通過如下公式計算所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′之間的相似度：SimEE(ei,ej)＝(Si*Sj)/(||Si||×||Sj||)(5)其中，把預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′轉(zhuǎn)換成向量表示和對于實(shí)體向量例如和包括實(shí)體名稱，實(shí)體屬性，實(shí)體屬性值。用v＝{w1,w2,...wl}表示向量表示和的并集。對于每個單詞wv∈v,使用下面的公式(6)計算每個單詞wv和每個編輯距離其中表示wv和之間的編輯距離，||wv||和表示向量的長度。然后，選擇最大的s作為wv和之間的語義相似度，通過重復(fù)計算v中每個元素，我們可以得到v和之間的語義相似度向量，表示為Si＝{si1,si2,...sin}，重復(fù)同樣的步驟，我們可以得到v和之間的語義相似度向量。盡管上面結(jié)合附圖對本發(fā)明進(jìn)行了描述，但是本發(fā)明并不局限于上述的具體實(shí)施方式，上述的具體實(shí)施方式僅僅是示意性的，而不是限制性的，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下，在不脫離本發(fā)明宗旨的情況下，還可以做出很多變形，這些均屬于本發(fā)明的保護(hù)之內(nèi)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王博;王盈輝;武賢麗
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：多重自密封無焊縫液位電極裝置的制作方法
上一篇：一種電耦合測量液體容量的檢測裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

本體知識庫的構(gòu)建方法相關(guān)技術(shù)

本體知識庫相關(guān)技術(shù)

本體知識庫構(gòu)建相關(guān)技術(shù)

本體知識庫的構(gòu)建相關(guān)技術(shù)

本體論相關(guān)技術(shù)

無心法師本體是什么相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于自動化擴(kuò)展層次化本體知識庫的方法與流程