欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于本體概念求解語義相似度的混合方法與流程

文檔序號:11063467閱讀:501來源:國知局
基于本體概念求解語義相似度的混合方法與制造工藝

本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種基于本體概念求解語義相似度的混合方法。



背景技術(shù):

目前,很多學(xué)者在關(guān)注本體概念相似度的計算方法,相似度問題在哲學(xué)、語義學(xué)等多個學(xué)科中被深入的研究和分析。前人主要從概念的名稱、屬性、結(jié)構(gòu)等方面來綜合考慮概念的相似度。之前有先將概念相似度計算分為兩層:“初始相似度”和“通過非上下位關(guān)系體現(xiàn)的相似度”,前者主要利用概念之間的距離計算得到,后者則是在前人計算的基礎(chǔ)上,通過概念的非上下位關(guān)系計算得到;再綜合二者就可得到領(lǐng)域本體內(nèi)概念的實際相似度。除此之外,還有主要通過概念間的上下位關(guān)系以及其它因素來計算領(lǐng)域內(nèi)部概念之間的語義相似度。例如,有人提出了一種綜合的相似度計算方法,即先根據(jù)兩個概念名稱的相似性過濾出最相關(guān)的概念;再分別基于概念實例、概念屬性和概念關(guān)系計算概念相似度,并進(jìn)行綜合。詞語相似度計算在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、個性化推薦等領(lǐng)域有廣泛的應(yīng)用,因此提高相似度計算結(jié)果的準(zhǔn)確度顯得尤為重要。隨著領(lǐng)域本體的不斷普及,以及本體樹對概念節(jié)點之間關(guān)系的準(zhǔn)確描述,本體已經(jīng)成為語義相似度研究基礎(chǔ)。當(dāng)前基于本體的語義相似度的研究主要有:提高相似度計算結(jié)果準(zhǔn)確性、解決本體樹中節(jié)點多繼承性問題、解決節(jié)點對之間不對稱問題等。為了更精準(zhǔn)找到相似術(shù)語,同時又考慮詞形、詞序、本體概念、本體概念共同祖先深度和密度等因子的綜合影響,為了滿足上述需求,本發(fā)明提出了基于本體概念求解語義相似度的混合方法。



技術(shù)實現(xiàn)要素:

針對如何更精準(zhǔn)獲得每一個術(shù)語的相似術(shù)語問題以及考慮詞形、詞序、本體概念、本體概念共同祖先深度與密度等因子的綜合影響,本發(fā)明提供了基于本體概念求解語義相似度的混合方法。

為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:

步驟1:初始化統(tǒng)計方法模塊。

步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計方法模塊中。

步驟3:將待比較詞(c1,c2)映射到本體概念模塊中。

步驟4:分別選取待比較詞(c1,c2)對應(yīng)深度最大的本體概念g1、g2。

步驟5:計算待比較詞(c1,c2)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g1,g2)。

步驟6:待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2)。

步驟7:待比較詞(c1,c2)之間的詞序相似度xusim(c1,c2)。

步驟8:經(jīng)過上述步驟,計算兩待比較詞(c1,c2)最近共同祖先的深度D(c1,c2)、密度p(c1,c2)對兩待比較詞(c1,c2)相似度的影響,構(gòu)造影響因子函數(shù)f1(c1,c2)、f2(c1,c2),目標(biāo)影響函數(shù)h(c1,c2)。

步驟9:綜合上述步驟,計算兩待比較詞(c1,c2)的相似度sim(c1,c2)。

本發(fā)明有益效果是:

1、此計算詞匯相似度方法在量化概念上更接近專家的經(jīng)驗值。

2、此方法更充分、更綜合考慮了待比較詞(c1,c2)對應(yīng)深度最大的本體概念間的距離、深度與密度等因素,大大的提高了語義相似度結(jié)果的準(zhǔn)確度。

3、更好的提高了本體推理的效果。

4、又考慮了詞語本身具有的詞形相似度、詞序相似度,語義相似度結(jié)果的準(zhǔn)確度得到了更好提高。

5、各種影響因子的數(shù)據(jù)處理更規(guī)范。

6、更符合實際應(yīng)用效果。

附圖說明

圖1為基于本體概念求解語義相似度的混合方法的結(jié)構(gòu)流程圖。

具體實施方式

為解決更精準(zhǔn)獲得每一個術(shù)語的相似術(shù)語問題以及考慮詞形、詞序、本體概念、本體概念共同祖先深度與密度等影響因子,結(jié)合圖1對本發(fā)明進(jìn)行了詳細(xì)說明,其具體實施步驟如下:

步驟1:初始化統(tǒng)計方法模塊。

步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計方法模塊中。

步驟3:將待比較詞(c1,c2)映射到本體概念模塊中。

步驟4:分別選取待比較詞(c1,c2)對應(yīng)深度最大的本體概念g1、g2,其具體描述如下:

待比較詞(c1,c2)與概念之間是一對多的關(guān)系,當(dāng)選取的概念深度越深,則待比較詞(c1,c2)則越具體,更方便計算待比較詞(c1,c2)的語義相似度。這個深度在統(tǒng)計模塊塊中很容易找到,例如在《知網(wǎng)》中找到詞語對應(yīng)的本體概念。

步驟5:計算待比較詞(c1,c2)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g1,g2),需先求兩本體概念間義原項的相似度sim(g1,g2),再計算兩本體概念間相對深度deepth(g1,g2),具體計算過程如下:

步驟5.1)兩本體概念間義原項的相似度sim(g1,g2)

設(shè)c1對應(yīng)深度最大的本體概念g1中含有n個義原,即g1∈(y1,y2,…,yn),c2對應(yīng)深度最大的本體概念g2中含有m個義原,即g2∈(y1′,y2′,…,ym′)。

分別兩兩計算g1與g2中義原的相似度,即sim(yi,yj′),i∈(1,2,…,n)、j∈(1,2,…,m),可以得g1與g2中義原項相似度矩陣J(g1,g2),如下:

根據(jù)上述矩陣找出每個行向量中義原平均相似度averageSi,即

最后得到兩本體概念間義原項的相似度sim(g1,g2),如下:

步驟5.2)計算兩本體概念間相對深度deepth(g1,g2)

deepth(g1,g2)=d1-d2

上式d1為c1對應(yīng)深度最大的本體概念g1在模塊中的深度值,同理d2為c2對應(yīng)深度最大的本體概念g2在模塊中的深度值,這個根據(jù)模塊可以很容易得出。

對相對深度deepth(g1,g2)進(jìn)行歸一化處理,即得:

α為調(diào)節(jié)因子,由領(lǐng)域?qū)<医o定。

步驟5.3)計算待比較詞(c1,c2)對應(yīng)深度最大的兩本體概念間的相似度gaisim(g1,g2)

步驟6:待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2),需先知詞長相似率與詞性相似率,其具體計算過程如下:

步驟6.1)詞長相似率rateword(c1,c2)

步驟6.2)詞性相似率wordsim(c1,c2)

上式n為待比較詞(c1,c2)中詞性相似個數(shù),len(c1)為詞c1的長度,len(c2)為c2的長度。

步驟6.3)待比較詞(c1,c2)之間的詞形相似度xingsim(c1,c2)

步驟7:待比較詞(c1,c2)之間的詞序相似度xusim(c1,c2),其具體計算過程如下:

這當(dāng)待比較詞(c1,c2)所含有相同的詞性時,詞序的相同與否反映待比較詞(c1,c2)的語義相似度。所以詞序相似度xusim(c1,c2)反映了待比較詞所包含相同詞性在位置順序關(guān)系上的相似程度,用待比較詞(c1,c2)中所包含的相同詞性相鄰順序逆向的個數(shù)來衡量。計算公式如下:

根據(jù)待比較(c1,c2)可得y(c1,c2)、y(c2,c1)

y(c1,c2)為c1中的詞性相同詞在C2中的位置順序構(gòu)成的自然數(shù)序列的逆序數(shù)。反之,Y(c2,c1)為c2中的詞性相同詞在c1中的位置順序構(gòu)成的自然數(shù)序列的逆序數(shù)。從而得下式:

上式y(tǒng)(n,…,2,1)為待比較詞(c1,c2)中詞性相同的詞個數(shù)n的最大逆序數(shù)。

步驟8:經(jīng)過上述步驟,計算兩待比較詞(c1,c2)最近共同祖先的深度D(c1,c2)、深度D(c1,c2)對兩待比較詞(c1,c2)相似度的影響,構(gòu)造影響因子函數(shù)f1(c1,c2)、f2(c1,c2),目標(biāo)影響函數(shù)h(c1,c2),其具體計算過程如下:

步驟8.1)根據(jù)模塊,可以找到兩待比較詞(c1,c2)最近共同祖先的深度D(c1,c2)。

這里兩待比較詞(c1,c2)最近共同祖先深度越靠近底層,代表兩待比較詞(c1,c2)越相近。

這里可以構(gòu)造兩因子,即:

根據(jù)兩因子得到深度D(c1,c2)對兩待比較詞(c1,c2)相似度的影響,有下式:

步驟8.2)同理,根據(jù)模塊,可以找到兩待比較詞(c1,c2)最近共同祖先的密度p(c1,c2)。

這里兩待比較詞(c1,c2)最近共同祖先密度p(c1,c2)越大,代表兩待比較詞(c1,c2)越相近。

構(gòu)造兩因子,即:

根據(jù)兩因子得到密度p(c1,c2)對兩待比較詞(c1,c2)相似度的影響,有下式:

綜合步驟8.1)、步驟8.2)可得下式目標(biāo)影響函數(shù)h(c1,c2)

h(c1,c2)=βD(c1,c2)標(biāo)準(zhǔn)化+γp(c1,c2)標(biāo)準(zhǔn)化

上式β+γ=1,β、γ分別為深度D(c1,c2)、深度D(c1,c2)的權(quán)重系數(shù),β為深度深度D(c1,c2)對詞語相似度的影響系數(shù),β∈(0,1),其取值可以通過試驗得到,這里β越大則表示詞語共同祖先的深度對相似度的影響越大,反之影響越小,同理γ。

步驟9:綜合上述步驟,計算兩待比較詞C∈(c1,c2)的相似度sim(c1,c2),其具體求解過程如下:

上式

A+B+C=1,A、B、C分別為兩本體概念間的相似度gaisim(g1,g2)、f′、目標(biāo)影響函數(shù)h(c1,c2)加權(quán)系數(shù),值越大,對兩待比較詞C∈(c1,c2)的相似度sim(c1,c2)影響也越大,它們可以根據(jù)實驗得到。

基于本體概念求解語義相似度的混合方法,其偽代碼計算過程:

輸入:初始化模塊,待比較詞C∈(c1,c2)

輸出:待比較詞C∈(c1,c2)相似度sim(c1,c2)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大荔县| 运城市| 临江市| 宁城县| 五原县| 开化县| 托克逊县| 老河口市| 绍兴县| 喀喇沁旗| 瓮安县| 大邑县| 兴城市| 萝北县| 花莲县| 得荣县| 兴宁市| 静乐县| 张家港市| 霍林郭勒市| 凭祥市| 遂昌县| 文化| 多伦县| 武功县| 通州市| 宁城县| 文安县| 太湖县| 永定县| 宣化县| 旌德县| 贺兰县| 公主岭市| 攀枝花市| 蒙阴县| 江山市| 江都市| 青田县| 南郑县| 安多县|