基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法
【專利摘要】本發(fā)明提供一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,先對(duì)源本體進(jìn)行劃分,然后利用源本體的劃分結(jié)果確定目標(biāo)本體中的相似概念塊,最后通過(guò)NSGA-II算法獲取的不同概念塊之間的映射結(jié)果并通過(guò)貪心算法獲取最終的本體映射結(jié)果。本發(fā)明采用通用的基于面向映射的分塊技術(shù)來(lái)處理大規(guī)模本體映射問(wèn)題,提高本體映射過(guò)程的效率與映射結(jié)果的質(zhì)量。將大規(guī)模的本體劃分成小的分塊,映射過(guò)程只需關(guān)注分塊與分塊之間的比較,而不需要考慮整個(gè)本體,從而提高了匹配的效率。
【專利說(shuō)明】基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法。
【背景技術(shù)】
[0002]在醫(yī)學(xué)、農(nóng)林學(xué)和環(huán)境科學(xué)等眾多領(lǐng)域中的研究者都要用到生物醫(yī)學(xué)的數(shù)據(jù)源和工具來(lái)從事像藥物發(fā)明或是從事環(huán)境對(duì)人體健康的影響因素等研究。因此在近十年內(nèi),產(chǎn)生了數(shù)量眾多的分布在網(wǎng)絡(luò)上的生物醫(yī)學(xué)數(shù)據(jù)源。然而,隨著在線的生物醫(yī)學(xué)數(shù)據(jù)和相應(yīng)的檢索工具的數(shù)量的增長(zhǎng),研究者想在網(wǎng)上檢索所需的生物醫(yī)學(xué)信息(如通過(guò)某個(gè)病理?xiàng)l件下的一種基因來(lái)檢索相關(guān)的疾病),這一過(guò)程不僅速度緩慢而且容易出錯(cuò)。因此集成不同的生物醫(yī)學(xué)資源被認(rèn)為是解決同時(shí)訪問(wèn)多個(gè)異質(zhì)數(shù)據(jù)源的有效方案。然而大部分的生物醫(yī)學(xué)系統(tǒng)的開發(fā)過(guò)程都是彼此獨(dú)立的,并沒(méi)有共同的數(shù)據(jù)結(jié)構(gòu)和共享的數(shù)據(jù)字典,這就使得數(shù)據(jù)模式的異質(zhì)性問(wèn)題成為了數(shù)據(jù)資源集成的主要障礙。隨著生物醫(yī)學(xué)語(yǔ)義網(wǎng)的出現(xiàn),很大程度上緩解了生物醫(yī)學(xué)數(shù)據(jù)源間數(shù)據(jù)異質(zhì)性問(wèn)題。生物醫(yī)學(xué)語(yǔ)義網(wǎng)的關(guān)鍵就是生物醫(yī)學(xué)本體的開發(fā)。近些年來(lái),生物醫(yī)學(xué)領(lǐng)域的專家開發(fā)了數(shù)量眾多的生物醫(yī)學(xué)本體(如關(guān)于疾病、解剖學(xué)和遺傳基因的本體),其中有不少本體中的信息是有交叉的(如兩個(gè)本體中的一些實(shí)體在語(yǔ)義上是等價(jià)的)。
[0003]由于本體可以有效地共享與復(fù)用知識(shí)和數(shù)據(jù)而被廣泛地應(yīng)用在語(yǔ)義網(wǎng)的異質(zhì)數(shù)據(jù)源的交互中。然而由于人的主觀性,同一個(gè)應(yīng)用領(lǐng)域的不同本體可能用不同的方式定義同一個(gè)實(shí)體對(duì)象,產(chǎn)生了本體異質(zhì)問(wèn)題。解決該問(wèn)題的方法是找出不同本體中實(shí)體間的對(duì)應(yīng)關(guān)系,這一過(guò)程被稱為本體映射。對(duì)于擁有上百萬(wàn)個(gè)概念實(shí)體的大規(guī)模的本體而言,通過(guò)人為的方式來(lái)完成本體映射是不現(xiàn)實(shí)的。因此,需要開發(fā)高效的本體映射系統(tǒng)來(lái)自動(dòng)完成大規(guī)模本體映射任務(wù)。
[0004]另外,近年來(lái),地理信息受到了越來(lái)越多的關(guān)注。對(duì)于全球定位系統(tǒng)的構(gòu)建、全新的可視化技術(shù)、用于獲取地理數(shù)據(jù)的設(shè)備以及開發(fā)出可以集成不同的已有技術(shù)和設(shè)備的可存儲(chǔ)和使用地理信息的系統(tǒng)的需求正不斷增加。此外,由于地理空間語(yǔ)義網(wǎng)的成功,出現(xiàn)了越來(lái)越多的地理空間本體,這些本體可以用于描述地理空間科學(xué)領(lǐng)域的地理概念以及概念間的關(guān)系。隨著這些地理空間本體的上層應(yīng)用的發(fā)展,本體中的數(shù)據(jù)數(shù)量也在飛速增加??墒怯捎诘乩砜臻g領(lǐng)域的數(shù)據(jù)具有模糊性、不確定性以及粒度級(jí)別眾多等特點(diǎn),同一個(gè)地理位置在不同的本體中可能具有不同的文件格式、表示類型、坐標(biāo)參考系統(tǒng)、自然語(yǔ)言描繪等,這種快速的數(shù)據(jù)增長(zhǎng)導(dǎo)致不同的地理空間本體之間的異質(zhì)性問(wèn)題變得越來(lái)越嚴(yán)重。如何集成這些地理空間本體,并在此基礎(chǔ)上實(shí)現(xiàn)不同的上層的應(yīng)用系統(tǒng)間的協(xié)作具有重大的現(xiàn)實(shí)意義。
[0005]對(duì)于大規(guī)模本體映射技術(shù)而言,如何縮小待處理的數(shù)據(jù)規(guī)模是找出正確實(shí)體映射的關(guān)鍵。將待映射的本體劃分為小規(guī)模的分塊,通過(guò)映射相似的分塊并集成多個(gè)映射結(jié)果是當(dāng)前主流的技術(shù)。當(dāng)前采用分塊技術(shù)的大規(guī)模本體映射系統(tǒng)有COMA++、Falcon-AO,Anchor-Flood, Lily、GOMMA, LogMAP等,然而這些映射系統(tǒng)中采用的分塊技術(shù)都沒(méi)有考慮到分塊過(guò)程中的映射目的,即對(duì)本體執(zhí)行分塊的過(guò)程與后續(xù)的映射過(guò)程是相對(duì)獨(dú)立的兩個(gè)步驟,這樣就無(wú)法保證最終的本體映射結(jié)果的質(zhì)量。針對(duì)這一問(wèn)題,本發(fā)明提出采用面向映射的分塊技術(shù)并將分塊間的映射過(guò)程視為一個(gè)多目標(biāo)優(yōu)化問(wèn)題,并通過(guò)多目標(biāo)進(jìn)化算法NSGA-1I求解該問(wèn)題,獲取本體映射結(jié)果。
[0006]在已有的技術(shù)方案中,F(xiàn)alcon-AOl, 2同樣也是通過(guò)基于分塊的技術(shù)來(lái)實(shí)現(xiàn)大規(guī)模本體映射,同本發(fā)明的方案最為近似。Falcon-AO采用的是基于結(jié)構(gòu)的相似度度量方法來(lái)形成分塊,不同的本體分塊之間的外部相似度和內(nèi)部相似度采用以下公式計(jì)算:
【權(quán)利要求】
1.一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:包括: 步驟10、對(duì)源本體進(jìn)行劃分,包括概念塊初始化步驟和劃分算法執(zhí)行步驟,所述概念塊初始化步驟中,本體中的每一個(gè)概念獨(dú)自構(gòu)成一個(gè)概念塊,所述劃分算法執(zhí)行步驟中,根據(jù)概念塊的大小和概念塊之間的鄰近概念相似度值來(lái)迭代地歸并不同的概念塊,形成一個(gè)臨時(shí)概念塊集; 如果形成的臨時(shí)概念塊集合中的概念塊規(guī)模同當(dāng)前概念塊集合的規(guī)模相同,算法終止,否則,算法將臨時(shí)概念塊集合取代當(dāng)前概念塊集合,并繼續(xù)歸并更多的概念塊;如果概念塊的規(guī)模為I或生成的臨時(shí)概念塊集合的內(nèi)部相似度值小于某個(gè)閾值e,則算法終止;步驟20、對(duì)目標(biāo)本體進(jìn)行劃分,包括: 步驟21、比較目標(biāo)本體和源本體概念塊中不同概念的名稱、標(biāo)簽和備注信息的相似程度,從目標(biāo)本體中選取同源本體概念塊對(duì)應(yīng)的候選概念集; 步驟22、通過(guò)計(jì)算候選概念集中每個(gè)概念同源本體概念塊間的關(guān)聯(lián)值來(lái)進(jìn)一步確定目標(biāo)本體同源本體概念塊對(duì)應(yīng)的相關(guān)概念集; 步驟30、映射本體概念塊,包括: 步驟31、提出基于無(wú)參考映射的本體映射結(jié)果評(píng)價(jià)體系,該本體映射結(jié)果評(píng)價(jià)體系采用兩種不依賴于標(biāo)準(zhǔn)映射結(jié)果的指標(biāo),即MatchCoverage和Frequency來(lái)分別近似地獲取映射結(jié)果的查全率和查準(zhǔn)率,給定兩個(gè)本體概念塊S1和S2, MatchCoverage和Frequency分別由以下兩個(gè)公式計(jì)算:
2.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述步驟10是采用基于鄰近概念的相似度度量技術(shù),本體中不同概念塊間的鄰近概念相似度取決于共同的鄰近概念數(shù)量,給定兩個(gè)概念塊Cl和C2,它們的鄰近概念相似度由以下公式計(jì)算:
3.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于: 所述步驟21的具體實(shí)現(xiàn)過(guò)程是:所述比較目標(biāo)本體和源本體概念塊中不同概念的名稱、標(biāo)簽和備注信息的相似程度是通過(guò)SMOA距離來(lái)比較,對(duì)于目標(biāo)本體Otgt中的每一個(gè)概念Ci, Ci同Segsrc之間的相似度值Si等于Ci同Ssm中每一個(gè)概念Cj的相似度Sij之和,只對(duì)大于閾值a的Sij求和, 如果得到的Si大于閾值P,則將Ci加入候選概念集C ; 所述步驟22的具體實(shí)現(xiàn)過(guò)程是:在所述候選概念集C中,概念Ck對(duì)概念Ci的影響值定義如下:
4.根據(jù)權(quán)利要求3所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述步驟22的具體實(shí)現(xiàn)過(guò)程中,和不同源本體概念塊對(duì)應(yīng)的目標(biāo)本體概念塊的確定過(guò)程采取并發(fā)方式執(zhí)行。
5.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述先確定群體中個(gè)體的編碼方案具體是: 個(gè)體編碼信息既包括用于集成不同相似度度量的映射結(jié)果的權(quán)重和用于過(guò)濾本體映射結(jié)果的閾值,采用的是加權(quán)平均的方法集成不同的相似度度量產(chǎn)生的映射結(jié)果,具體描述如下:
6.根據(jù)權(quán)利要求5所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述編碼方案是通過(guò)在區(qū)間[O,I]中定義分割點(diǎn)來(lái)間接地表示不同的權(quán)重,假設(shè)p是所需的權(quán)重個(gè)數(shù),則分割點(diǎn)集合表示為:
7.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述確定算法的遺傳算子包括: a.選擇算子的確定,采用的選擇算子首先根據(jù)群體中不同個(gè)體的擁擠度進(jìn)行降序排序,并選擇排在前半部分的個(gè)體,從中隨機(jī)復(fù)制一個(gè)個(gè)體直到形成新的群體; b.交叉算子的確定,采用的是單點(diǎn)交叉算子,首先在父?jìng)€(gè)體中隨機(jī)確定一個(gè)分割點(diǎn),該分割點(diǎn)將兩個(gè)父?jìng)€(gè)體分割為兩個(gè)部分:左邊部分和右邊部分,然后通過(guò)交換兩個(gè)父?jìng)€(gè)體右邊部分的編碼以產(chǎn)生新的兩個(gè)子個(gè)體; c.變異算子的確定,采用的是位點(diǎn)變異算子,首先根據(jù)變異概率確定對(duì)個(gè)體會(huì)產(chǎn)生變異的編碼位,然后將這些編碼位的值從I修改為O,或是從O修改為I。
8.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述根據(jù)群體更新策略生成下一代個(gè)體具體是: 首先通過(guò)將當(dāng)前代種群與新生成的種群放在一起,消除冗余的個(gè)體; 通過(guò)快速非支配排序算法并根據(jù)不同個(gè)體間的擁擠度來(lái)選出新的群體; 當(dāng)算法終止后,從pareto前沿中選出三個(gè)拐點(diǎn)解作為代表,由于pareto前沿的拐點(diǎn)區(qū)域代表了 pareto前沿中不同目標(biāo)間的最大權(quán)衡,所述三個(gè)拐點(diǎn)解分別是擁有最好的MatchCoverage, Frequency以及二者間最好的權(quán)衡。
9.根據(jù)權(quán)利要求8所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于: 所述擁有最好的MatchCoverage具體是指在pareto前沿中擁有最好MatchCoverage的解中選出一個(gè)Frequency最高的解; 所述擁有最好的Frequency具體是指在pareto前沿中擁有最好Frequency的解中選出一個(gè)MatchCoverage最高的解; 所述MatchCoverage, Frequency 二者間最好的權(quán)衡,具體是通過(guò)二者的和諧均值MatchFmeasure 來(lái)度量:
【文檔編號(hào)】G06F19/00GK103810388SQ201410055311
【公開日】2014年5月21日 申請(qǐng)日期:2014年2月19日 優(yōu)先權(quán)日:2014年2月19日
【發(fā)明者】薛醒思, 王金水 申請(qǐng)人:福建工程學(xué)院