本體(Ontology)的概念最早起源于哲學(xué)領(lǐng)域[1],作為語義基礎(chǔ)被廣泛應(yīng)用于信息檢索、人工智能、語義網(wǎng)絡(luò)、軟件工程、自然語言處理、電子商務(wù)和知識管理等領(lǐng)域。本發(fā)明涉及對已存在的本體庫進(jìn)行擴(kuò)展的方法,尤其是對層次化本體知識庫進(jìn)行動態(tài)的、自動化的擴(kuò)展方法。
背景技術(shù):
::本體作為共享概念模型的明確形式化規(guī)范說明[2],是語義Web的核心。為了充分利用已存在的本體,許多研究集中于本體映射,即找到異構(gòu)本體間的語義聯(lián)系。映射技術(shù)可以分為元素層映射和結(jié)構(gòu)層映射兩種[3]。元素層映射技術(shù)忽略元素與別的元素的關(guān)系,進(jìn)行本體映射時只考慮元素本身;結(jié)構(gòu)層映射通過分析一個大結(jié)構(gòu)中元素間的彼此關(guān)系來進(jìn)行映射。元素層映射往往被看作是結(jié)構(gòu)層映射的基礎(chǔ)。目前元素層映射方法主要有基于字符串的技術(shù),如比較前綴后綴,計算編輯距離,N-gram算法等[4];基于語言的技術(shù),利用某種自然語言(如英語)處理技術(shù)對輸入單詞進(jìn)行處理,如削尾處理,消除前置詞,聯(lián)詞等[5];利用語言學(xué)資源,引入共享知識詞典和領(lǐng)域知識詞典(如WordNet),利用語言關(guān)系進(jìn)行匹配[6]。以上方法均被成功地應(yīng)用到英文本體映射中。但本體映射主要應(yīng)用于兩個已存在的異構(gòu)本體,無法實(shí)現(xiàn)一個單一本體庫的動態(tài)擴(kuò)展,且一些成功的應(yīng)用于英文本體映射中的方法并不適用于中文的本體映射。[參考文獻(xiàn)][1]張秀蘭,蔣玲.本體概念研究綜述[J].情報學(xué)報,2007,26(4):527-531。[2]ThomasRG.ATranslationApproachtoPotableOntologySpecification[J].KnowledgeAcquisition,1993,02:199-200。[3]PavelShvaiko,JeromeEuzenat.ASurveyofSchema2basedMatchingApproaches[J].JournalonDataSemantics(JoDS),IV,LNCS3730,2005:1462171.。[4]DoH.H.,RahmE..COMA2asystemforflexiblecombinationofschemamatchingapproaches[J].VeryLargeDataBasesConference(VLDB),2001:610-621。[5]GiunchigliaF.,ShvaikoP.,andYatskevichM..S-Match:analgorithmandanimplementationofsemanticmatching[J].EuropeanSemanticWebSymposium(ESWS),2004:61-75。[6]GiunchigliaF.,YatskevichM.Elementlevelsemanticmatching[D].ltaly:Dept.ofInformationandCommunicationTechnologyUniversityofTrento,2004。技術(shù)實(shí)現(xiàn)要素:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出了一種用于自動化擴(kuò)展層次化本體知識庫的方法,即該方法能夠自動的將新實(shí)體加入到已存在的層次化本體庫中,以對當(dāng)前語義網(wǎng)中不斷增大的本體規(guī)模。為了解決上述技術(shù)問題,本發(fā)明提出的一種用于自動化擴(kuò)展層次化本體知識庫的方法,包括以下步驟:步驟一、對已存在的層次化本體庫構(gòu)建類別關(guān)系樹;步驟二、提取上述層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征;步驟三、利用步驟二提取得到的層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征,在所述層次化本體庫所在的類別關(guān)系樹中,自頂向下計算所述新實(shí)體ei與類別關(guān)系樹中各類別cj節(jié)點(diǎn)的相似度,并包含下述情形之一:1)一旦找到所述預(yù)插入的新實(shí)體ei與當(dāng)前層類別cj的相似度u高于Δu時,Δu取值為0.3,則繼續(xù)在當(dāng)前層類別的子類別中進(jìn)行相似度u的比較,直至將所述預(yù)插入的新實(shí)體ei插入到相似度u高于Δu的一葉子節(jié)點(diǎn)的類別cj中,該類別cj中原有的實(shí)體均分別記為e′;2)若所述預(yù)插入的新實(shí)體ei與當(dāng)前層中各類別cj的相似度u均小于或等于Δu,則在當(dāng)前層的父類別建立一個類別cj,所述類別cj位于葉子節(jié)點(diǎn),將所述預(yù)插入的新實(shí)體ei插入到該類cj中,此時,將插入到類別cj中的實(shí)體記為實(shí)體e′;步驟四、將預(yù)插入的新實(shí)體ei插入到某一位于葉子節(jié)點(diǎn)的類別cj后,對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′按照下述情形之一進(jìn)行實(shí)體名稱及屬性的確定,從而實(shí)現(xiàn)層次化本體知識庫的擴(kuò)展;1)若所述預(yù)插入的新實(shí)體ei與該位于葉子節(jié)點(diǎn)的類別cj中的實(shí)體e′具有相同的實(shí)體名稱,則對所述預(yù)插入的新實(shí)體ei與實(shí)體e′利用如下公式(5)進(jìn)行相似度的計算;若相似度s高于Δs,Δs取值為0.5,將所述預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′的屬性進(jìn)行合并;否則,將預(yù)插入的新實(shí)體ei的實(shí)體名稱重新命名;2)若所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與該位于葉子節(jié)點(diǎn)的類別cj中的實(shí)體e′的實(shí)體名稱不同,且相似度s高于Δs,則將所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別cj中的實(shí)體e′的實(shí)體名稱及屬性分別合并。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明作為層次化本體知識庫的一種自動化擴(kuò)展方法,主要是基于對新實(shí)體和層次化本體庫中的類別及類別所含實(shí)體的相似度的考察,實(shí)現(xiàn)了對新實(shí)體的插入,即本體知識庫的自動化擴(kuò)展,實(shí)現(xiàn)了層次化本體知識庫對語義網(wǎng)中不斷出現(xiàn)的新實(shí)體的融合,同時,這樣有利于形成一個統(tǒng)一標(biāo)準(zhǔn)的本體庫,為語義網(wǎng)更好的實(shí)現(xiàn)知識共享和互操作提供幫助,實(shí)現(xiàn)基于語義的表示和推理,為進(jìn)一步建立可信的語義網(wǎng)奠定良好的基礎(chǔ)。附圖說明圖1是層次化本體庫的類別樹示例;圖2是自頂向下的插入新實(shí)體的過程示例;圖3是計算新實(shí)體和某一類別的相似度的過程示例。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施實(shí)例對本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)描述,所描述的具體實(shí)施實(shí)例僅對本發(fā)明進(jìn)行解釋說明,并不用以限制本發(fā)明。本發(fā)明提出的一種用于自動化擴(kuò)展層次化本體知識庫的方法,包括以下步驟:步驟一、對已存在的層次化本體庫構(gòu)建類別關(guān)系樹;如圖1所示,已存在的層次化本體庫選取中文維基百科本體庫,通過維基百科自定義的類別標(biāo)簽,加手工標(biāo)注維基百科類別名字的后綴單詞到類別樹節(jié)點(diǎn)的映射。即事先標(biāo)注好“XXX運(yùn)動員”的類別應(yīng)該對應(yīng)到類別樹上的“人”,“XXX公司”應(yīng)該對應(yīng)到類別樹上的“組織機(jī)構(gòu)”;當(dāng)遇到一個維基百科實(shí)體時,如“姚明”,首先需要查看其維基百科類別標(biāo)簽,有“籃球運(yùn)動員”這個類別標(biāo)簽,而類別后綴“運(yùn)動員”被標(biāo)注成類別樹上的“人”這個類別,則維基百科實(shí)體“姚明”屬于“人”這個類別。步驟二、提取上述層次化本體庫中各類別cj及預(yù)插入的新實(shí)體的特征,用于計算上述層次化本體庫中各類別與預(yù)插入的新實(shí)體之間的相似度u,以尋找預(yù)插入的新實(shí)體在上述層次化本體庫中可插入的位置,圖3示出了計算新實(shí)體和某一類別的相似度的過程,一般來說,實(shí)體均具有實(shí)體名稱、屬性及屬性值,故本發(fā)明選取實(shí)體的屬性作為實(shí)體的特征,每個類別所擁有的所有實(shí)體的屬性集合作為該類別的特征。步驟三、利用步驟二提取得到的層次化本體庫中各類別cj及預(yù)插入的新實(shí)體ei的特征,在所述層次化本體庫所在的類別關(guān)系樹中,圖2示出了自頂向下的插入新實(shí)體的過程,自頂向下計算所述新實(shí)體ei與類別關(guān)系樹中各類別cj節(jié)點(diǎn)的相似度,具體過程如下:對于預(yù)插入的新實(shí)體ei和上述層次化本體庫的類別cj,使用如下公式計算相似度:首先,將上述層次化本體庫中類別cj及預(yù)插入的新實(shí)體ei分別轉(zhuǎn)換為向量表示和其中,wi表示預(yù)插入新實(shí)體ei的第i個屬性;是屬于上述層次化本體庫中類別cj的所有實(shí)體所包含的所有屬性,其次,可以使用上述公式(2)或(3)計算上述層次化本體庫中類別cj的屬性與預(yù)插入的新實(shí)體ei的屬性Vei[k]的相似度,其中公式(2)是利用編輯距離計算上述層次化本體庫中類別cj的屬性與預(yù)插入的新實(shí)體ei的相似度,公式(3)是將上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei的屬性的屬性向量分別轉(zhuǎn)換為詞向量的表示Vk和Vm,然后計算兩個詞向量Vk和Vm余弦值作為上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei之間的相似度。鑒于有一些屬性幾乎在每一個實(shí)體中都有,不具有分辨性,因此,我們賦予屬于上述層次化本體庫中類別cj中的每個屬性一個權(quán)重本發(fā)明以上述層次化本體庫中類別cj中的每個屬性的TF-IDF值作為該屬性的權(quán)重。其中,每個屬性的TF-IDF值計算方法如下所示:首先,對于上述層次化本體庫中類別cj中的每個屬性屬于上述層次化本體庫中類別cj的實(shí)體ej,把上述層次化本體庫中類別cj的屬性在上述層次化本體庫中類別cj的實(shí)體ej中出現(xiàn)的次數(shù)記作tn,其中預(yù)插入的新實(shí)體ei屬于層次化本體庫中的類別cj,把上述層次化本體庫中類別cj的屬性在類別cj中的所有實(shí)體中出現(xiàn)的次數(shù)記作tall。其次,我們把所有包含屬性的類別個數(shù)記作dn,總類別個數(shù)記作dall。接下來,我們可以利用規(guī)則(4)計算屬性的權(quán)重除了考慮每個屬性的權(quán)重,本發(fā)明還加入了一些自然語言方面的先驗(yàn)知識作為懲罰項BRules(ei,cj)。例如,類別“學(xué)校”所擁有的實(shí)體大多數(shù)都具有“…學(xué)?!被颉啊袑W(xué)”的名稱格式,故我們可以先收集一個類別下所有的實(shí)體名稱,對其進(jìn)行分詞并獲取高頻詞,結(jié)合我們的先驗(yàn)知識,得到實(shí)體名稱匹配規(guī)則,然后利用如下公式,獲得新實(shí)體ei和類別cj的懲罰項:這樣通過公式(1)就可以獲得上述層次化本體庫中類別cj與預(yù)插入的新實(shí)體ei之間的相似度。并包含下述情形之一:1)一旦找到所述預(yù)插入的新實(shí)體ei與當(dāng)前層類別cj的相似度u高于Δu((Δu為經(jīng)驗(yàn)閾值,一般取0.3)時,則繼續(xù)在當(dāng)前層類別的子類別中進(jìn)行相似度u的比較,直至將所述預(yù)插入的新實(shí)體ei插入到相似度u高于Δu的一葉子節(jié)點(diǎn)的類別cj中,該類別cj中原有的實(shí)體均分別記為e′;2)若所述預(yù)插入的新實(shí)體ei與當(dāng)前層中各類別cj的相似度u均小于或等于Δu,則在當(dāng)前層的父類別建立一個類別cj,所述類別cj位于葉子節(jié)點(diǎn),將所述預(yù)插入的新實(shí)體ei插入到該類別cj中,此時,將插入到類別cj中的實(shí)體記為實(shí)體e′;本發(fā)明中新類別的產(chǎn)生利用的是層次聚類方法。即首先將每個未找到類別的新實(shí)體的屬性按拼音順序排序,然后對其進(jìn)行分詞,將每個詞用訓(xùn)練好的詞向量表示,得到新實(shí)體的向量表示。在初始階段將每一個新實(shí)體都視為一個簇,之后每一次合并兩個最接近的簇。步驟四、將預(yù)插入的新實(shí)體ei插入到某一位于葉子節(jié)點(diǎn)的類別cj時,需要對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′進(jìn)行判斷,并按照下述情形之一進(jìn)行實(shí)體名稱及屬性的確定,從而實(shí)現(xiàn)層次化本體知識庫的擴(kuò)展;1)本體庫中是否已存在實(shí)體與新實(shí)體具有相同名稱,且指代相同的語義內(nèi)容,若存在,則對新實(shí)體與已存在的實(shí)體進(jìn)行合并;具體內(nèi)容是:若所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′具有相同的實(shí)體名稱,則對所述預(yù)插入的新實(shí)體ei與實(shí)體e′,利用如下公式(5)進(jìn)行相似度的計算;若相似度s高于Δs(Δs為經(jīng)驗(yàn)閾值,一般取0.5),將所述預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′的屬性進(jìn)行合并;本體庫中是否存在實(shí)體與新實(shí)體具有相同的名稱,但指代不同的語義內(nèi)容,若存在,則對新實(shí)體和已存在的實(shí)體進(jìn)行消歧和區(qū)分,將預(yù)插入的新實(shí)體ei的實(shí)體名稱重新命名;2)若所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別cj中的實(shí)體e′的實(shí)體名稱不同,但指代相同的語義內(nèi)容,即相似度s高于Δs,則將所述預(yù)插入的新實(shí)體ei的實(shí)體名稱與類別中cj的實(shí)體e′的實(shí)體名稱及屬性分別合并。首先對所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′進(jìn)行名稱匹配,若存在同名實(shí)體,則通過如下公式計算所述預(yù)插入的新實(shí)體ei與類別cj中的實(shí)體e′之間的相似度:SimEE(ei,ej)=(Si*Sj)/(||Si||×||Sj||)(5)其中,把預(yù)插入的新實(shí)體ei和類別cj中的實(shí)體e′轉(zhuǎn)換成向量表示和對于實(shí)體向量例如和包括實(shí)體名稱,實(shí)體屬性,實(shí)體屬性值。用v={w1,w2,...wl}表示向量表示和的并集。對于每個單詞wv∈v,使用下面的公式(6)計算每個單詞wv和每個編輯距離其中表示wv和之間的編輯距離,||wv||和表示向量的長度。然后,選擇最大的s作為wv和之間的語義相似度,通過重復(fù)計算v中每個元素,我們可以得到v和之間的語義相似度向量,表示為Si={si1,si2,...sin},重復(fù)同樣的步驟,我們可以得到v和之間的語義相似度向量。盡管上面結(jié)合附圖對本發(fā)明進(jìn)行了描述,但是本發(fā)明并不局限于上述的具體實(shí)施方式,上述的具體實(shí)施方式僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨的情況下,還可以做出很多變形,這些均屬于本發(fā)明的保護(hù)之內(nèi)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3