基于本體概念求解語義相似度的混合方法與流程

文檔序號：11063467閱讀：501來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域，具體涉及一種基于本體概念求解語義相似度的混合方法。

背景技術(shù)：

目前，很多學(xué)者在關(guān)注本體概念相似度的計算方法，相似度問題在哲學(xué)、語義學(xué)等多個學(xué)科中被深入的研究和分析。前人主要從概念的名稱、屬性、結(jié)構(gòu)等方面來綜合考慮概念的相似度。之前有先將概念相似度計算分為兩層：“初始相似度”和“通過非上下位關(guān)系體現(xiàn)的相似度”，前者主要利用概念之間的距離計算得到，后者則是在前人計算的基礎(chǔ)上，通過概念的非上下位關(guān)系計算得到；再綜合二者就可得到領(lǐng)域本體內(nèi)概念的實際相似度。除此之外，還有主要通過概念間的上下位關(guān)系以及其它因素來計算領(lǐng)域內(nèi)部概念之間的語義相似度。例如，有人提出了一種綜合的相似度計算方法，即先根據(jù)兩個概念名稱的相似性過濾出最相關(guān)的概念；再分別基于概念實例、概念屬性和概念關(guān)系計算概念相似度，并進(jìn)行綜合。詞語相似度計算在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、個性化推薦等領(lǐng)域有廣泛的應(yīng)用，因此提高相似度計算結(jié)果的準(zhǔn)確度顯得尤為重要。隨著領(lǐng)域本體的不斷普及，以及本體樹對概念節(jié)點之間關(guān)系的準(zhǔn)確描述，本體已經(jīng)成為語義相似度研究基礎(chǔ)。當(dāng)前基于本體的語義相似度的研究主要有：提高相似度計算結(jié)果準(zhǔn)確性、解決本體樹中節(jié)點多繼承性問題、解決節(jié)點對之間不對稱問題等。為了更精準(zhǔn)找到相似術(shù)語，同時又考慮詞形、詞序、本體概念、本體概念共同祖先深度和密度等因子的綜合影響，為了滿足上述需求，本發(fā)明提出了基于本體概念求解語義相似度的混合方法。

技術(shù)實現(xiàn)要素：

針對如何更精準(zhǔn)獲得每一個術(shù)語的相似術(shù)語問題以及考慮詞形、詞序、本體概念、本體概念共同祖先深度與密度等因子的綜合影響，本發(fā)明提供了基于本體概念求解語義相似度的混合方法。

為了解決上述問題，本發(fā)明是通過以下技術(shù)方案實現(xiàn)的：

步驟1：初始化統(tǒng)計方法模塊。

步驟2：將待比較詞(c₁，c₂)輸入初始化統(tǒng)計方法模塊中。

步驟3：將待比較詞(c₁，c₂)映射到本體概念模塊中。

步驟4：分別選取待比較詞(c₁，c₂)對應(yīng)深度最大的本體概念g₁、g₂。

步驟5：計算待比較詞(c₁，c₂)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g₁，g₂)。

步驟6：待比較詞(c₁，c₂)之間的詞形相似度xingsim(c₁，c₂)。

步驟7：待比較詞(c₁，c₂)之間的詞序相似度xusim(c₁，c₂)。

步驟8：經(jīng)過上述步驟，計算兩待比較詞(c₁，c₂)最近共同祖先的深度D(c₁，c₂)、密度p(c₁，c₂)對兩待比較詞(c₁，c₂)相似度的影響，構(gòu)造影響因子函數(shù)f₁(c₁，c₂)、f₂(c₁，c₂)，目標(biāo)影響函數(shù)h(c₁，c₂)。

步驟9：綜合上述步驟，計算兩待比較詞(c₁，c₂)的相似度sim(c₁，c₂)。

本發(fā)明有益效果是：

1、此計算詞匯相似度方法在量化概念上更接近專家的經(jīng)驗值。

2、此方法更充分、更綜合考慮了待比較詞(c₁，c₂)對應(yīng)深度最大的本體概念間的距離、深度與密度等因素，大大的提高了語義相似度結(jié)果的準(zhǔn)確度。

3、更好的提高了本體推理的效果。

4、又考慮了詞語本身具有的詞形相似度、詞序相似度，語義相似度結(jié)果的準(zhǔn)確度得到了更好提高。

5、各種影響因子的數(shù)據(jù)處理更規(guī)范。

6、更符合實際應(yīng)用效果。

附圖說明

圖1為基于本體概念求解語義相似度的混合方法的結(jié)構(gòu)流程圖。

具體實施方式

為解決更精準(zhǔn)獲得每一個術(shù)語的相似術(shù)語問題以及考慮詞形、詞序、本體概念、本體概念共同祖先深度與密度等影響因子，結(jié)合圖1對本發(fā)明進(jìn)行了詳細(xì)說明，其具體實施步驟如下：

步驟1：初始化統(tǒng)計方法模塊。

步驟2：將待比較詞(c₁，c₂)輸入初始化統(tǒng)計方法模塊中。

步驟3：將待比較詞(c₁，c₂)映射到本體概念模塊中。

步驟4：分別選取待比較詞(c₁，c₂)對應(yīng)深度最大的本體概念g₁、g₂，其具體描述如下：

待比較詞(c₁，c₂)與概念之間是一對多的關(guān)系，當(dāng)選取的概念深度越深，則待比較詞(c₁，c₂)則越具體，更方便計算待比較詞(c₁，c₂)的語義相似度。這個深度在統(tǒng)計模塊塊中很容易找到，例如在《知網(wǎng)》中找到詞語對應(yīng)的本體概念。

步驟5：計算待比較詞(c₁，c₂)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g₁，g₂)，需先求兩本體概念間義原項的相似度sim(g₁，g₂)，再計算兩本體概念間相對深度deepth(g₁，g₂)，具體計算過程如下：

步驟5.1)兩本體概念間義原項的相似度sim(g₁，g₂)

設(shè)c₁對應(yīng)深度最大的本體概念g₁中含有n個義原，即g₁∈(y₁，y₂，…，y_n)，c₂對應(yīng)深度最大的本體概念g₂中含有m個義原，即g₂∈(y₁′，y₂′，…，y_m′)。

分別兩兩計算g₁與g₂中義原的相似度，即sim(y_i，y_j′)，i∈(1，2，…，n)、j∈(1，2，…，m),可以得g₁與g₂中義原項相似度矩陣J(g₁，g₂)，如下：

根據(jù)上述矩陣找出每個行向量中義原平均相似度averageS_i，即

最后得到兩本體概念間義原項的相似度sim(g₁，g₂)，如下：

步驟5.2)計算兩本體概念間相對深度deepth(g₁，g₂)

deepth(g₁，g₂)＝d₁-d₂

上式d₁為c₁對應(yīng)深度最大的本體概念g₁在模塊中的深度值，同理d₂為c₂對應(yīng)深度最大的本體概念g₂在模塊中的深度值，這個根據(jù)模塊可以很容易得出。

對相對深度deepth(g₁，g₂)進(jìn)行歸一化處理，即得：

α為調(diào)節(jié)因子，由領(lǐng)域?qū)＜医o定。

步驟5.3)計算待比較詞(c₁，c₂)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g₁，g₂)

步驟6：待比較詞(c₁，c₂)之間的詞形相似度xingsim(c₁，c₂)，需先知詞長相似率與詞性相似率，其具體計算過程如下：

步驟6.1)詞長相似率rateword(c₁，c₂)

步驟6.2)詞性相似率wordsim(c₁，c₂)

上式n為待比較詞(c₁，c₂)中詞性相似個數(shù)，len(c₁)為詞c₁的長度，len(c₂)為c₂的長度。

步驟6.3)待比較詞(c₁，c₂)之間的詞形相似度xingsim(c₁，c₂)

步驟7：待比較詞(c₁，c₂)之間的詞序相似度xusim(c₁，c₂)，其具體計算過程如下：

這當(dāng)待比較詞(c₁，c₂)所含有相同的詞性時，詞序的相同與否反映待比較詞(c₁，c₂)的語義相似度。所以詞序相似度xusim(c₁，c₂)反映了待比較詞所包含相同詞性在位置順序關(guān)系上的相似程度，用待比較詞(c₁，c₂)中所包含的相同詞性相鄰順序逆向的個數(shù)來衡量。計算公式如下：

根據(jù)待比較(c₁，c₂)可得y_逆(c₁，c₂)、y_逆(c₂，c₁)

y_逆(c₁，c₂)為c₁中的詞性相同詞在C₂中的位置順序構(gòu)成的自然數(shù)序列的逆序數(shù)。反之，Y_逆(c₂，c₁)為c₂中的詞性相同詞在c₁中的位置順序構(gòu)成的自然數(shù)序列的逆序數(shù)。從而得下式：

上式y(tǒng)_逆(n，…，2，1)為待比較詞(c₁，c₂)中詞性相同的詞個數(shù)n的最大逆序數(shù)。

步驟8：經(jīng)過上述步驟，計算兩待比較詞(c₁，c₂)最近共同祖先的深度D(c₁，c₂)、深度D(c₁，c₂)對兩待比較詞(c₁，c₂)相似度的影響，構(gòu)造影響因子函數(shù)f₁(c₁，c₂)、f₂(c₁，c₂)，目標(biāo)影響函數(shù)h(c₁，c₂)，其具體計算過程如下：

步驟8.1)根據(jù)模塊，可以找到兩待比較詞(c₁，c₂)最近共同祖先的深度D(c₁，c₂)。

這里兩待比較詞(c₁，c₂)最近共同祖先深度越靠近底層，代表兩待比較詞(c₁，c₂)越相近。

這里可以構(gòu)造兩因子，即：

根據(jù)兩因子得到深度D(c₁，c₂)對兩待比較詞(c₁，c₂)相似度的影響，有下式：

步驟8.2)同理，根據(jù)模塊，可以找到兩待比較詞(c₁，c₂)最近共同祖先的密度p(c₁，c₂)。

這里兩待比較詞(c₁，c₂)最近共同祖先密度p(c₁，c₂)越大，代表兩待比較詞(c₁，c₂)越相近。

構(gòu)造兩因子，即：

根據(jù)兩因子得到密度p(c₁，c₂)對兩待比較詞(c₁，c₂)相似度的影響，有下式：

綜合步驟8.1)、步驟8.2)可得下式目標(biāo)影響函數(shù)h(c₁，c₂)

h(c₁，c₂)＝βD(c₁，c₂)_{標(biāo)準(zhǔn)化}+γp(c₁，c₂)_{標(biāo)準(zhǔn)化}

上式β+γ＝1，β、γ分別為深度D(c₁，c₂)、深度D(c₁，c₂)的權(quán)重系數(shù)，β為深度深度D(c₁，c₂)對詞語相似度的影響系數(shù)，β∈(0，1)，其取值可以通過試驗得到，這里β越大則表示詞語共同祖先的深度對相似度的影響越大，反之影響越小，同理γ。

步驟9：綜合上述步驟，計算兩待比較詞C∈(c₁，c₂)的相似度sim(c₁，c₂)，其具體求解過程如下：

上式

A+B+C＝1，A、B、C分別為兩本體概念間的相似度gaisim(g₁，g₂)、f′、目標(biāo)影響函數(shù)h(c₁，c₂)加權(quán)系數(shù)，值越大，對兩待比較詞C∈(c₁，c₂)的相似度sim(c₁，c₂)影響也越大，它們可以根據(jù)實驗得到。

基于本體概念求解語義相似度的混合方法，其偽代碼計算過程：

輸入：初始化模塊，待比較詞C∈(c₁，c₂)

輸出：待比較詞C∈(c₁，c₂)相似度sim(c₁，c₂)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷;
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于本體概念求解語義相似度的混合方法與流程