基于多層文本分類器的輕量級(jí)本體匹配方法

文檔序號(hào)：6598943閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于多層文本分類器的輕量級(jí)本體匹配方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理、文本分類和語義Web領(lǐng)域，更具體地講，涉及一種輕量級(jí)本體匹配方法。
背景技術(shù)：
隨著信息技術(shù)的發(fā)展，基于文本的分類技術(shù)、搜索技術(shù)也得到較快發(fā)展。當(dāng)前引入了本體(ontology)的概念，本體是領(lǐng)域(可以是特定領(lǐng)域，也可以是更廣的范圍)內(nèi)部不同主體(人、機(jī)器、軟件系統(tǒng)等)之間進(jìn)行交流(對(duì)話、互操作、共享等)的一種語義基礎(chǔ)。本體可以分為輕量級(jí)本體(Lightweight ontology)、中級(jí)本體(Middle ontology)和重量級(jí)本體(Heavyweight ontology)，輕量級(jí)本體不具備邏輯推理功能，中級(jí)本體具有簡單的邏輯推理功能，重量級(jí)本體具有復(fù)雜的邏輯推理功能。輕量級(jí)本體除了包含概念層次結(jié)構(gòu)之外，還包含若干概念實(shí)例。鑒于輕量級(jí)本體簡單易用，輕量級(jí)本體更適合于實(shí)際的應(yīng)用程序設(shè)計(jì)和開發(fā)。本體匹配是解決本體異構(gòu)問題的主要方法之一，一個(gè)高效、精確的相似度計(jì)算方法是實(shí)現(xiàn)本體匹配的前提條件?，F(xiàn)有的文本分類技術(shù)一般用于管理文本或其他可采用向量形式描述的資源，基于分類技術(shù)能夠?qū)ξ粗Y源的類別進(jìn)行預(yù)測，從而為用戶提供一種輔助性的指導(dǎo)和幫助。而傳統(tǒng)的本體匹配的方法，大多通過某種策略直接衡量概念的相似程度，或?qū)Ρ葍蓚€(gè)文本實(shí)例集合之間相似度?，F(xiàn)有的一種本體匹配方法是基于傳統(tǒng)二元分類器的本體匹配方法，但在計(jì)算概念相似度時(shí)該方法需要為每個(gè)概念對(duì)都訓(xùn)練一個(gè)分類模型，需要對(duì)兩個(gè)本體的文本實(shí)例都進(jìn)行預(yù)測分類，故具有很高的復(fù)雜度；此外，源于特征選擇的局限性，分類模型訓(xùn)練僅從兩個(gè)類別的文本中進(jìn)行特征選擇，沒有考慮所選特征與其他類別的區(qū)分度，影響預(yù)測分類的準(zhǔn)確性，也會(huì)造成相似度計(jì)算的準(zhǔn)確性不高，影響本體匹配的正確性?，F(xiàn)有的基于文本分類的本體匹配方法的計(jì)算復(fù)雜度較高，且利用多個(gè)二元分類器僅在兩個(gè)概念的文本實(shí)例中篩選特征，衡量每個(gè)概念對(duì)的相似度，具有很大的局限性，使得文本分類無法有效評(píng)估文本之間的相似度，限制了概念相似度計(jì)算的可信性。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中本體匹配時(shí)計(jì)算復(fù)雜以及計(jì)算不精確的問題，本發(fā)明將文本分類技術(shù)應(yīng)用于解決輕量級(jí)本體的匹配問題，提出了一種基于多層文本分類器的輕量級(jí)本體匹配方法。根據(jù)本發(fā)明的一方面，一種基于多層文本分類器的輕量級(jí)本體匹配方法，該方法包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體，將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集，利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器；利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類，將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念；判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例，分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度；基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系，由此完成輕量級(jí)本體匹配。利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器的步驟可包括對(duì)第一本體的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇；利用自底向上的策略對(duì)第一本體的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇，直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn)，獲得最終的文本特征；使用最終的文本特征構(gòu)造多層文本分類器。對(duì)于第二本體中的一個(gè)概念，如果所述一個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例中的最大值大于或等于預(yù)定義的閾值，則確定第二本體中的一個(gè)概念與比例中的最大值所對(duì)應(yīng)的第一本體的概念相似。所述兩個(gè)本體中的概念之間可構(gòu)成概念對(duì)，每個(gè)概念對(duì)的相似度是第二本體的概念的所有文本實(shí)例被歸屬到概念對(duì)中的另一概念的文本實(shí)例在所有文本實(shí)例中的比例。根據(jù)概念對(duì)的相似度的計(jì)算結(jié)果，對(duì)于第二本體中的任一個(gè)概念，在第一本體中尋找與所述任一個(gè)概念的相似度最大的概念，根據(jù)預(yù)定義的閾值確定構(gòu)成概念對(duì)的兩個(gè)概念之間的匹配關(guān)系。當(dāng)最大相似度大于或等于所述預(yù)定義的閾值時(shí)，確定構(gòu)成概念對(duì)的所述兩個(gè)概念彼此相似。

通過結(jié)合附圖，從下面的實(shí)施例的描述中，本發(fā)明這些和/或其它方面及優(yōu)點(diǎn)將會(huì)變得清楚，并且更易于理解，其中圖1是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的原理框圖；圖2是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的流程圖；圖3是多層文本分類的類別的示意圖；圖4示出了根據(jù)本發(fā)明的多層文本特征選擇策略的示意圖。
具體實(shí)施例方式以下，參照附圖來詳細(xì)說明本發(fā)明的實(shí)施例。圖1是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的原理框圖，圖2是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的流程圖。參照圖1，根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法包括四個(gè)步驟多層文本分類器的訓(xùn)練(即，構(gòu)造多層文本分類器)；文本實(shí)例的預(yù)測分類；概念相似度(概念匹配)的計(jì)算；本體匹配關(guān)系的判定。參照圖1和圖2，在步驟201，選擇待匹配的兩個(gè)本體(第一本體01和第二本體 02)中的一個(gè)本體(例如選擇第一本體01)，將選擇的第一本體01的概念分類樹和文本實(shí)例作為訓(xùn)練集，利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器。
圖3是多層文本分類的類別的示意圖。參照圖3，“General Taxonomy”，是根節(jié)點(diǎn)，最下層的矩形是葉節(jié)點(diǎn)(諸如“Animation & Comics”、“Music，Theatre & Dance” 等)，第二層都是分支節(jié)點(diǎn)(諸如“ArtW'Business”等)。應(yīng)該理解，雖然圖3中示出了基于英文的多層文本分類，但是本發(fā)明不限于此，也可適用于基于中文的多層文本分類。
在現(xiàn)有技術(shù)中，多層文本分類一般采用bing-Bang或自頂而下兩種策略；前者在分類過程中使用同一個(gè)分類器，將類別層次樹結(jié)構(gòu)中所有頁節(jié)點(diǎn)看成平等的類，本質(zhì)上還是一種單層分類；后者則是為不同類別訓(xùn)練不同的分類器，枝分類器只關(guān)心當(dāng)前的不同分支。在本發(fā)明中，采用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器。具體地，首先對(duì)第一本體01的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇，再采用自底向上的策略對(duì)第一本體01的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇，直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn)，獲得最終的文本特征，使用最終的文本特征構(gòu)造多層文本分類器?；谠摬呗缘亩鄬游谋痉诸愔恍枰?xùn)練一個(gè)統(tǒng)一的分類器，具體策略如圖4所示。圖4示出了根據(jù)本發(fā)明的多層文本特征選擇策略的示意圖。在圖4中，A1、A2、A3、 Bl和B2為葉節(jié)點(diǎn)，A和B為分支節(jié)點(diǎn)，A和B上面的節(jié)點(diǎn)(未示出)為根節(jié)點(diǎn)。當(dāng)然，還可以包含更多的分支節(jié)點(diǎn)，圖4中未示出，以省略號(hào)表示。如圖4所示，例如，分支節(jié)點(diǎn)Al對(duì)應(yīng)的文本實(shí)例包含文本特征^、a2、. . . aN,分支節(jié)點(diǎn)A2對(duì)應(yīng)的文本實(shí)例包含文本特征b” b2、. . . bM，分支節(jié)點(diǎn)A3對(duì)應(yīng)的文本實(shí)例包含文本特征ci、c2、. . . q。在對(duì)各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇時(shí)，可分別提取各個(gè)葉節(jié)點(diǎn)的文本實(shí)例的前k個(gè)文本特征，例如apay...^,!^ b2、. . . bK，Cl、c2、. . . cK。然后，將提取的文本特征組合，可得到文本特征集合“ai、a2、. . . aK、 b^lv. . .bK、CpCy. . . cK”，如圖 4 右側(cè)所示。返回參照圖2，在步驟202，利用多層文本分類器對(duì)所述兩個(gè)本體01和02中的第二本體02的文本實(shí)例進(jìn)行預(yù)測分類，從而將第二本體02的文本實(shí)例分別歸屬到第一本體 01的多個(gè)概念。即，按照第一本體01的多個(gè)概念來對(duì)第二本體02的文本實(shí)例進(jìn)行分類，將第二本體02的文本實(shí)例分別歸類到第一本體01的多個(gè)概念。例如，假設(shè)第二本體02總共有χ個(gè)文本實(shí)例，χ個(gè)文本實(shí)例分別屬于第二本體02 自身包含的m個(gè)概念，并且第一本體01包含η個(gè)概念?，F(xiàn)在利用構(gòu)造的多層文本分類器對(duì)第二本體02的χ個(gè)文本實(shí)例進(jìn)行預(yù)測分類，將第二本體02的χ個(gè)文本實(shí)例歸屬到第一本體01的每個(gè)概念。如果沒有第二本體02的文本實(shí)例歸屬到第一本體01的某個(gè)概念，則歸屬到第一本體01的這個(gè)概念的文本實(shí)例的數(shù)量為0。在步驟203，判定第二本體02中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例(可稱為歸屬比例或歸屬關(guān)系)，分別作為所述兩個(gè)本體中01和02的相應(yīng)概念之間的相似度，其取值范圍為
。例如，假設(shè)第一本體01包含η個(gè)概念，第二本體02自身包含m個(gè)概念，第二本體 02的文本被預(yù)測分類，歸屬到第一本體01的每個(gè)概念。假設(shè)第二本體02中的第1個(gè)概念包含y個(gè)文本實(shí)例，則計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第1個(gè)概念的文本實(shí)例在所有y文本實(shí)例中的比例，計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第2個(gè)概念的文本實(shí)例在所有y個(gè)文本實(shí)例中的比例，依此類推，直到計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第η個(gè)概念的文本實(shí)例在所有y個(gè)文本實(shí)例中的比例，由此依次有η個(gè)所得值。類似地，按照上述方式，可計(jì)算第二本體02 中的第2個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所有文本實(shí)例中的比例，直到計(jì)算第二本體02中的第m個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所有文本實(shí)例中的比例。下面給出第二本體02中一個(gè)概念的文本實(shí)例的歸屬比例的計(jì)算公式。對(duì)于兩個(gè)本體01和02，第一本體01包含概念Cli，第二本體02包含概念C2j，給出概念C”的所有文本實(shí)例中歸屬到概念Cli的文本實(shí)例在所述所有文本實(shí)例中的比例的計(jì)算公式如下
權(quán)利要求
1.一種基于多層文本分類器的輕量級(jí)本體匹配方法，包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體，將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集，利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器；利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類，將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念；判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例，分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度；基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系，由此完成輕量級(jí)本體匹配。
2.根據(jù)權(quán)利要求1所述的輕量級(jí)本體匹配方法，其中，利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器的步驟包括對(duì)第一本體的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇；利用自底向上的策略對(duì)第一本體的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇，直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn)，獲得最終的文本特征；使用最終的文本特征構(gòu)造多層文本分類器。
3.根據(jù)權(quán)利要求2所述的輕量級(jí)本體匹配方法，其中，對(duì)于第二本體中的一個(gè)概念，如果所述一個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例中的最大值大于或等于預(yù)定義的閾值，則確定所述第二本體中的所述一個(gè)概念與比例中的最大值所對(duì)應(yīng)的第一本體的概念相似。
4.根據(jù)權(quán)利要求2所述的輕量級(jí)本體匹配方法，其中，所述兩個(gè)本體中的概念之間構(gòu)成概念對(duì)，每個(gè)概念對(duì)的相似度是第二本體的概念的所有文本實(shí)例被歸屬到概念對(duì)中的另一概念的文本實(shí)例在所有文本實(shí)例中的比例。
5.根據(jù)權(quán)利要求4所述的輕量級(jí)本體匹配方法，其中，根據(jù)概念對(duì)的相似度的計(jì)算結(jié)果，對(duì)于第二本體中的任一個(gè)概念，在第一本體中尋找與所述任一個(gè)概念的相似度最大的概念，根據(jù)預(yù)定義的閾值確定構(gòu)成概念對(duì)的兩個(gè)概念之間的匹配關(guān)系。
6.根據(jù)權(quán)利要求5所述的輕量級(jí)本體匹配方法，其中，當(dāng)最大相似度大于或等于所述預(yù)定義的閾值時(shí)，確定構(gòu)成概念對(duì)的所述兩個(gè)概念彼此相似。
全文摘要
一種基于多層文本分類器的輕量級(jí)本體匹配方法，該方法包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體，將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集，利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器；利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類，將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念；判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例，分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度；基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系，由此完成輕量級(jí)本體匹配。
文檔編號(hào)G06F17/30GK102193928SQ20101012053
公開日2011年9月21日申請日期2010年3月8日優(yōu)先權(quán)日2010年3月8日
發(fā)明者劉思培, 姜贏, 彭鴿, 王進(jìn), 胡晨申請人:三星電子(中國)研發(fā)中心, 三星電子株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉思培;王進(jìn);彭鴿;姜贏;胡晨
技術(shù)所有人：三星電子(中國)研發(fā)中心;三星電子株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多層文本分類器的輕量級(jí)本體匹配方法