專利名稱:基于多層文本分類器的輕量級(jí)本體匹配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理、文本分類和語義Web領(lǐng)域,更具體地講,涉及一種輕量級(jí)本體匹配方法。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,基于文本的分類技術(shù)、搜索技術(shù)也得到較快發(fā)展。當(dāng)前引入了本體(ontology)的概念,本體是領(lǐng)域(可以是特定領(lǐng)域,也可以是更廣的范圍)內(nèi)部不同主體(人、機(jī)器、軟件系統(tǒng)等)之間進(jìn)行交流(對(duì)話、互操作、共享等)的一種語義基礎(chǔ)。 本體可以分為輕量級(jí)本體(Lightweight ontology)、中級(jí)本體(Middle ontology)和重量級(jí)本體(Heavyweight ontology),輕量級(jí)本體不具備邏輯推理功能,中級(jí)本體具有簡單的邏輯推理功能,重量級(jí)本體具有復(fù)雜的邏輯推理功能。輕量級(jí)本體除了包含概念層次結(jié)構(gòu)之外,還包含若干概念實(shí)例。鑒于輕量級(jí)本體簡單易用,輕量級(jí)本體更適合于實(shí)際的應(yīng)用程序設(shè)計(jì)和開發(fā)。本體匹配是解決本體異構(gòu)問題的主要方法之一,一個(gè)高效、精確的相似度計(jì)算方法是實(shí)現(xiàn)本體匹配的前提條件?,F(xiàn)有的文本分類技術(shù)一般用于管理文本或其他可采用向量形式描述的資源,基于分類技術(shù)能夠?qū)ξ粗Y源的類別進(jìn)行預(yù)測,從而為用戶提供一種輔助性的指導(dǎo)和幫助。而傳統(tǒng)的本體匹配的方法,大多通過某種策略直接衡量概念的相似程度,或?qū)Ρ葍蓚€(gè)文本實(shí)例集合之間相似度?,F(xiàn)有的一種本體匹配方法是基于傳統(tǒng)二元分類器的本體匹配方法,但在計(jì)算概念相似度時(shí)該方法需要為每個(gè)概念對(duì)都訓(xùn)練一個(gè)分類模型,需要對(duì)兩個(gè)本體的文本實(shí)例都進(jìn)行預(yù)測分類,故具有很高的復(fù)雜度;此外,源于特征選擇的局限性,分類模型訓(xùn)練僅從兩個(gè)類別的文本中進(jìn)行特征選擇,沒有考慮所選特征與其他類別的區(qū)分度,影響預(yù)測分類的準(zhǔn)確性,也會(huì)造成相似度計(jì)算的準(zhǔn)確性不高,影響本體匹配的正確性?,F(xiàn)有的基于文本分類的本體匹配方法的計(jì)算復(fù)雜度較高,且利用多個(gè)二元分類器僅在兩個(gè)概念的文本實(shí)例中篩選特征,衡量每個(gè)概念對(duì)的相似度,具有很大的局限性,使得文本分類無法有效評(píng)估文本之間的相似度,限制了概念相似度計(jì)算的可信性。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中本體匹配時(shí)計(jì)算復(fù)雜以及計(jì)算不精確的問題,本發(fā)明將文本分類技術(shù)應(yīng)用于解決輕量級(jí)本體的匹配問題,提出了一種基于多層文本分類器的輕量級(jí)本體匹配方法。根據(jù)本發(fā)明的一方面,一種基于多層文本分類器的輕量級(jí)本體匹配方法,該方法包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體,將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集,利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器;利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類,將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念;判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例,分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度;基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系,由此完成輕量級(jí)本體匹配。利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器的步驟可包括對(duì)第一本體的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇;利用自底向上的策略對(duì)第一本體的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇,直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn),獲得最終的文本特征;使用最終的文本特征構(gòu)造多層文本分類器。對(duì)于第二本體中的一個(gè)概念,如果所述一個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例中的最大值大于或等于預(yù)定義的閾值,則確定第二本體中的一個(gè)概念與比例中的最大值所對(duì)應(yīng)的第一本體的概念相似。所述兩個(gè)本體中的概念之間可構(gòu)成概念對(duì),每個(gè)概念對(duì)的相似度是第二本體的概念的所有文本實(shí)例被歸屬到概念對(duì)中的另一概念的文本實(shí)例在所有文本實(shí)例中的比例。根據(jù)概念對(duì)的相似度的計(jì)算結(jié)果,對(duì)于第二本體中的任一個(gè)概念,在第一本體中尋找與所述任一個(gè)概念的相似度最大的概念,根據(jù)預(yù)定義的閾值確定構(gòu)成概念對(duì)的兩個(gè)概念之間的匹配關(guān)系。當(dāng)最大相似度大于或等于所述預(yù)定義的閾值時(shí),確定構(gòu)成概念對(duì)的所述兩個(gè)概念彼此相似。
通過結(jié)合附圖,從下面的實(shí)施例的描述中,本發(fā)明這些和/或其它方面及優(yōu)點(diǎn)將會(huì)變得清楚,并且更易于理解,其中圖1是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的原理框圖;圖2是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的流程圖;圖3是多層文本分類的類別的示意圖;圖4示出了根據(jù)本發(fā)明的多層文本特征選擇策略的示意圖。
具體實(shí)施例方式以下,參照附圖來詳細(xì)說明本發(fā)明的實(shí)施例。圖1是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的原理框圖,圖2是根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法的流程圖。參照圖1,根據(jù)本發(fā)明實(shí)施例的基于多層文本分類器的輕量級(jí)本體匹配方法包括四個(gè)步驟多層文本分類器的訓(xùn)練(即,構(gòu)造多層文本分類器);文本實(shí)例的預(yù)測分類;概念相似度(概念匹配)的計(jì)算;本體匹配關(guān)系的判定。參照圖1和圖2,在步驟201,選擇待匹配的兩個(gè)本體(第一本體01和第二本體 02)中的一個(gè)本體(例如選擇第一本體01),將選擇的第一本體01的概念分類樹和文本實(shí)例作為訓(xùn)練集,利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器。
圖3是多層文本分類的類別的示意圖。參照圖3,“General Taxonomy”,是根節(jié)點(diǎn), 最下層的矩形是葉節(jié)點(diǎn)(諸如“Animation & Comics”、“Music,Theatre & Dance” 等),第二層都是分支節(jié)點(diǎn)(諸如“ArtW'Business”等)。應(yīng)該理解,雖然圖3中示出了基于英文的多層文本分類,但是本發(fā)明不限于此,也可適用于基于中文的多層文本分類。
在現(xiàn)有技術(shù)中,多層文本分類一般采用bing-Bang或自頂而下兩種策略;前者在分類過程中使用同一個(gè)分類器,將類別層次樹結(jié)構(gòu)中所有頁節(jié)點(diǎn)看成平等的類,本質(zhì)上還是一種單層分類;后者則是為不同類別訓(xùn)練不同的分類器,枝分類器只關(guān)心當(dāng)前的不同分支。在本發(fā)明中,采用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器。具體地,首先對(duì)第一本體01的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇,再采用自底向上的策略對(duì)第一本體01的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇,直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn),獲得最終的文本特征,使用最終的文本特征構(gòu)造多層文本分類器?;谠摬呗缘亩鄬游谋痉诸愔恍枰?xùn)練一個(gè)統(tǒng)一的分類器,具體策略如圖4所示。圖4示出了根據(jù)本發(fā)明的多層文本特征選擇策略的示意圖。在圖4中,A1、A2、A3、 Bl和B2為葉節(jié)點(diǎn),A和B為分支節(jié)點(diǎn),A和B上面的節(jié)點(diǎn)(未示出)為根節(jié)點(diǎn)。當(dāng)然,還可以包含更多的分支節(jié)點(diǎn),圖4中未示出,以省略號(hào)表示。如圖4所示,例如,分支節(jié)點(diǎn)Al對(duì)應(yīng)的文本實(shí)例包含文本特征^、a2、. . . aN,分支節(jié)點(diǎn)A2對(duì)應(yīng)的文本實(shí)例包含文本特征b” b2、. . . bM,分支節(jié)點(diǎn)A3對(duì)應(yīng)的文本實(shí)例包含文本特征ci、c2、. . . q。在對(duì)各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇時(shí),可分別提取各個(gè)葉節(jié)點(diǎn)的文本實(shí)例的前k個(gè)文本特征,例如apay...^,!^ b2、. . . bK,Cl、c2、. . . cK。然后,將提取的文本特征組合,可得到文本特征集合“ai、a2、. . . aK、 b^lv. . .bK、CpCy. . . cK”,如圖 4 右側(cè)所示。返回參照圖2,在步驟202,利用多層文本分類器對(duì)所述兩個(gè)本體01和02中的第二本體02的文本實(shí)例進(jìn)行預(yù)測分類,從而將第二本體02的文本實(shí)例分別歸屬到第一本體 01的多個(gè)概念。即,按照第一本體01的多個(gè)概念來對(duì)第二本體02的文本實(shí)例進(jìn)行分類,將第二本體02的文本實(shí)例分別歸類到第一本體01的多個(gè)概念。例如,假設(shè)第二本體02總共有χ個(gè)文本實(shí)例,χ個(gè)文本實(shí)例分別屬于第二本體02 自身包含的m個(gè)概念,并且第一本體01包含η個(gè)概念?,F(xiàn)在利用構(gòu)造的多層文本分類器對(duì)第二本體02的χ個(gè)文本實(shí)例進(jìn)行預(yù)測分類,將第二本體02的χ個(gè)文本實(shí)例歸屬到第一本體01的每個(gè)概念。如果沒有第二本體02的文本實(shí)例歸屬到第一本體01的某個(gè)概念,則歸屬到第一本體01的這個(gè)概念的文本實(shí)例的數(shù)量為0。在步驟203,判定第二本體02中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例(可稱為歸屬比例或歸屬關(guān)系),分別作為所述兩個(gè)本體中01和02的相應(yīng)概念之間的相似度,其取值范圍為
。例如,假設(shè)第一本體01包含η個(gè)概念,第二本體02自身包含m個(gè)概念,第二本體 02的文本被預(yù)測分類,歸屬到第一本體01的每個(gè)概念。假設(shè)第二本體02中的第1個(gè)概念包含y個(gè)文本實(shí)例,則計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第1個(gè)概念的文本實(shí)例在所有y文本實(shí)例中的比例,計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第2個(gè)概念的文本實(shí)例在所有y個(gè)文本實(shí)例中的比例,依此類推,直到計(jì)算這y個(gè)文本實(shí)例中歸屬到第一本體01中的第η個(gè)概念的文本實(shí)例在所有y個(gè)文本實(shí)例中的比例,由此依次有η個(gè)所得值。類似地,按照上述方式,可計(jì)算第二本體02 中的第2個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所有文本實(shí)例中的比例,直到計(jì)算第二本體02中的第m個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體01中的每個(gè)概念的文本實(shí)例在所有文本實(shí)例中的比例。下面給出第二本體02中一個(gè)概念的文本實(shí)例的歸屬比例的計(jì)算公式。對(duì)于兩個(gè)本體01和02,第一本體01包含概念Cli,第二本體02包含概念C2j,給出概念C”的所有文本實(shí)例中歸屬到概念Cli的文本實(shí)例在所述所有文本實(shí)例中的比例的計(jì)算公式如下
權(quán)利要求
1.一種基于多層文本分類器的輕量級(jí)本體匹配方法,包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體,將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集,利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器;利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類,將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念;判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例,分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度;基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系,由此完成輕量級(jí)本體匹配。
2.根據(jù)權(quán)利要求1所述的輕量級(jí)本體匹配方法,其中,利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器的步驟包括對(duì)第一本體的概念分類樹的各個(gè)葉節(jié)點(diǎn)進(jìn)行文本特征選擇;利用自底向上的策略對(duì)第一本體的概念分類樹的分支節(jié)點(diǎn)進(jìn)行文本特征選擇,直至當(dāng)前分支節(jié)點(diǎn)為根節(jié)點(diǎn),獲得最終的文本特征;使用最終的文本特征構(gòu)造多層文本分類器。
3.根據(jù)權(quán)利要求2所述的輕量級(jí)本體匹配方法,其中,對(duì)于第二本體中的一個(gè)概念,如果所述一個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例中的最大值大于或等于預(yù)定義的閾值,則確定所述第二本體中的所述一個(gè)概念與比例中的最大值所對(duì)應(yīng)的第一本體的概念相似。
4.根據(jù)權(quán)利要求2所述的輕量級(jí)本體匹配方法,其中,所述兩個(gè)本體中的概念之間構(gòu)成概念對(duì),每個(gè)概念對(duì)的相似度是第二本體的概念的所有文本實(shí)例被歸屬到概念對(duì)中的另一概念的文本實(shí)例在所有文本實(shí)例中的比例。
5.根據(jù)權(quán)利要求4所述的輕量級(jí)本體匹配方法,其中,根據(jù)概念對(duì)的相似度的計(jì)算結(jié)果,對(duì)于第二本體中的任一個(gè)概念,在第一本體中尋找與所述任一個(gè)概念的相似度最大的概念,根據(jù)預(yù)定義的閾值確定構(gòu)成概念對(duì)的兩個(gè)概念之間的匹配關(guān)系。
6.根據(jù)權(quán)利要求5所述的輕量級(jí)本體匹配方法,其中,當(dāng)最大相似度大于或等于所述預(yù)定義的閾值時(shí),確定構(gòu)成概念對(duì)的所述兩個(gè)概念彼此相似。
全文摘要
一種基于多層文本分類器的輕量級(jí)本體匹配方法,該方法包括以下步驟選擇待匹配的兩個(gè)本體中的第一本體,將第一本體的概念分類樹和文本實(shí)例作為訓(xùn)練集,利用自底向上的多層文本特征選擇策略構(gòu)造多層文本分類器;利用多層文本分類器對(duì)所述兩個(gè)本體中的第二本體的文本實(shí)例進(jìn)行預(yù)測分類,將第二本體的文本實(shí)例分別歸屬到第一本體的多個(gè)概念;判定第二本體中的每個(gè)概念的所有文本實(shí)例中分別歸屬到第一本體中的每個(gè)概念的文本實(shí)例在所述所有文本實(shí)例中的比例,分別作為所述兩個(gè)本體中的相應(yīng)概念之間的相似度;基于概念之間的相似度得出所述兩個(gè)本體的概念之間的映射關(guān)系,由此完成輕量級(jí)本體匹配。
文檔編號(hào)G06F17/30GK102193928SQ20101012053
公開日2011年9月21日 申請日期2010年3月8日 優(yōu)先權(quán)日2010年3月8日
發(fā)明者劉思培, 姜贏, 彭鴿, 王進(jìn), 胡晨 申請人:三星電子(中國)研發(fā)中心, 三星電子株式會(huì)社