一種面向Web 服務(wù)描述的本體學(xué)習(xí)方法
【專利摘要】本發(fā)明公開了一種面向Web服務(wù)描述的本體學(xué)習(xí)方法,包括以下步驟:1:收集Web服務(wù)描述文檔,得到文檔中的輸入輸出參數(shù),對每個輸入輸出參數(shù)預(yù)處理;2:使用hHDP方法以自下而上的學(xué)習(xí)方法生成主題的層次;3:使用“中國餐館問題”采樣方法估計層級主題;4:獲得代表單詞并構(gòu)造初始本體,使用語義增強規(guī)則增強生成本體的語義形成最終本體。本發(fā)明的有益效果是:1.對使用WSDL描述的Web服務(wù)無監(jiān)督學(xué)習(xí)生成本體,具有較好的通用性;2.既能夠找出隱含的語義層次關(guān)系又能夠利用保證學(xué)習(xí)出的本體語義豐富程度,具有較好的本體學(xué)習(xí)效果。3.學(xué)習(xí)的本體可以用于Web服務(wù)語義標(biāo)注,能夠支撐語義Web服務(wù)發(fā)現(xiàn)和推薦,具有較廣泛的適用性。
【專利說明】—種面向Web服務(wù)描述的本體學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于服務(wù)計算【技術(shù)領(lǐng)域】,特別涉及一種面向Web服務(wù)描述的本體學(xué)習(xí)方法。
【背景技術(shù)】
[0002]伴隨著互聯(lián)網(wǎng)計算環(huán)境和軟件體系結(jié)構(gòu)的變化,基于互聯(lián)網(wǎng)的軟件服務(wù)開發(fā)已經(jīng)日趨流行。軟件服務(wù)環(huán)境下各種計算資源高度分布和自治的本質(zhì)特征對軟件系統(tǒng)的開發(fā)帶來了新挑戰(zhàn)。面向服務(wù)的架構(gòu)能夠應(yīng)對這種動態(tài)、多變和復(fù)雜的問題,因此隨著面向服務(wù)的架構(gòu)和軟件即服務(wù)技術(shù)的發(fā)展,面向服務(wù)的軟件開發(fā)開始蓬勃發(fā)展起來。在這種情況下,互聯(lián)網(wǎng)上Web服務(wù)的規(guī)模開始快速增長,如截止到2013年9月16日,Web服務(wù)編程網(wǎng)站Programmableffeb上發(fā)布的Web服務(wù)數(shù)目已超過9900個,其它服務(wù)門戶網(wǎng)站也發(fā)布了大量的Web服務(wù)。此外,很多企業(yè)也把遺留軟件系統(tǒng)進(jìn)行碎片化拆分和封裝得到的Web服務(wù)部署到網(wǎng)絡(luò)上。這樣,Web服務(wù)規(guī)模的劇增為大眾用戶準(zhǔn)確、高效地發(fā)現(xiàn)Web服務(wù)增加了困難。由于基于關(guān)鍵字查詢的方法的查詢結(jié)果往往不夠準(zhǔn)確,因此基于語義的查詢受到了越來越多的關(guān)注,而語義查詢的關(guān)鍵在于是否有可用的領(lǐng)域本體。手工方式建立本體的效率低下,因此有必要建立一種從已有Web服務(wù)描述中進(jìn)行本體學(xué)習(xí)的方法,從而能夠輔助領(lǐng)域?qū)<医⒏哔|(zhì)量的領(lǐng)域本體。目前基于Web服務(wù)描述做本體學(xué)習(xí)的方法并不是很多,基于關(guān)聯(lián)規(guī)則的方法能夠發(fā)現(xiàn)語義關(guān)系緊密的概念,但是卻難以發(fā)現(xiàn)層次語義關(guān)系?;趯哟尉垲惙椒ǖ膶W(xué)習(xí)方法能夠發(fā)現(xiàn)語義層次關(guān)系,但是在層次關(guān)系建立之后語義的進(jìn)一步增強還有所欠缺。因此,面對互聯(lián)網(wǎng)上Web服務(wù)的規(guī)?;鲩L,針對已有的基于Web服務(wù)描述的本體學(xué)習(xí)方法中存在的不足,如何進(jìn)行準(zhǔn)確、高效的Web服務(wù)本體學(xué)習(xí),便成為服務(wù)計算領(lǐng)域中一個亟待解決的關(guān)鍵技術(shù)問題。
【發(fā)明內(nèi)容】
[0003]為了解決上述技術(shù)問題,本發(fā)明提供了一種基于WSDL的Web服務(wù)描述中學(xué)習(xí)生成本體的方法,本發(fā)明具有良好的通用性。
[0004]本發(fā)明所采用的技術(shù)方案是:一種面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于,包括以下步驟:
[0005]步驟1:收集Web服務(wù)描述文檔,對收集的Web服務(wù)描述文檔進(jìn)行預(yù)處理,得到Web服務(wù)描述文檔中的輸入輸出參數(shù),并對Web服務(wù)描述文檔中每個輸入輸出參數(shù)預(yù)處理,得到一組原型單詞的集合,對所述的原型單詞進(jìn)行進(jìn)一步預(yù)處理,得到詞性標(biāo)注單詞的集合;
[0006]步驟2:使用hHDP方法對步驟I中得到的原型單詞以自下而上的學(xué)習(xí)方法生成原型單詞所屬主題的層次;
[0007]步驟3:使用“中國餐館問題”的HDP采樣模式計算出步驟2中生成的每一層主題層次的概率度量Gi,基準(zhǔn)概率Gtl和主題數(shù)目;[0008]步驟4:計算主題中包含的原型單詞的覆蓋率并排序,覆蓋率最大的單詞對該主題的覆蓋程度最大,將覆蓋率最大的單詞作為代表單詞的候選,采用自下而上的方法抽取每個主題對應(yīng)的代表單詞;對詞性標(biāo)注單詞使用模式分析技術(shù)分析參數(shù)中詞匯之間的關(guān)系,并將這些關(guān)系的組織形式形成語義豐富的規(guī)則,當(dāng)抽取出代表單詞之后按照語義豐富的規(guī)則對生成的本體進(jìn)一步擴充語義。
[0009]作為優(yōu)選,步驟I中所述的Web服務(wù)描述文檔來源于能夠被訪問的Web服務(wù)注冊中心或Web服務(wù)門戶網(wǎng)站。
[0010]作為優(yōu)選,所述的步驟1,其具體實現(xiàn)包括以下子步驟:
[0011]步驟1.1:對Web服務(wù)描述文檔進(jìn)行解析,從中抽取該文檔中的輸入輸出參數(shù),對輸入輸出參數(shù)做預(yù)處理,得到一組原型單詞的集合;所述的預(yù)處理包括按照分隔符對參數(shù)斷詞、擴充縮寫詞;
[0012]步驟1.2:針對步驟1.1的結(jié)果,將所述的原型單詞進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注單詞的集合,為模式分析做準(zhǔn)備。
[0013]作為優(yōu)選,所述的步驟2,其具體實現(xiàn)包括以下子步驟:
[0014]步驟2.1:根據(jù)原型單詞的集合聚類出第一層主題作為目標(biāo)本體結(jié)構(gòu)的葉節(jié)點;
[0015]步驟2.2:所有主題包含詞分布組成估計下一層次的觀測值,即把每個主題看作一個新的文檔,每個主題下面包含的單詞又被當(dāng)成新文檔中的單詞;
[0016]步驟2.3:使用Gibb s采樣不斷的重復(fù)上述的步驟2.1和步驟2.2,從而自動學(xué)習(xí)出主題的層次。
[0017]作為優(yōu)選,所述的步驟3,其具體實現(xiàn)包括以下子步驟:
[0018]步驟3.1:對于收集Web服務(wù)描述文檔,在步驟2的基礎(chǔ)上,輸入第j個文檔的現(xiàn)有主題數(shù)目和參數(shù)α,根據(jù)“中國餐館問題”的采樣模式計算出第j篇文檔中主題z的數(shù)目
Tjz ;
[0019]步驟3.2:根據(jù)文檔j中和主題z相關(guān)的單詞數(shù)目采樣得出;基于因子^采
樣得出該層次的Gtl ;根據(jù)上述計算出的獲得本層次的主題數(shù)目;
[0020]步驟3.3:采用自下而上的方式迭代步驟3.1-3.2,根據(jù)Dirichlet過程“富者更富”的特性,高層的主題數(shù)目逐步減少直至收斂至一個節(jié)點,得到每一層主題層次的主題數(shù)目;
[0021]其中,先驗參數(shù):α,Y,tz是主題ζ的總數(shù),t是主題的總數(shù)。
[0022]作為優(yōu)選,所述的步驟4,其具體實現(xiàn)包括以下子步驟:
[0023]步驟4.1:在執(zhí)行了 HHDP方法的基礎(chǔ)上,計算每個聚類主題中單詞的覆蓋率,并按照覆蓋率的大小倒序排列;
[0024]步驟4.2:采用自底向上的方式抽取代表單詞并構(gòu)造本體的語義層次;
[0025]步驟4.3:利用模式分析技術(shù)分析參數(shù)中詞匯之間的關(guān)系,從而建立語義豐富規(guī)貝U,同時在步驟4.2的基礎(chǔ)上利用語義豐富規(guī)則對構(gòu)造的本體語義進(jìn)一步增強。
[0026]作為優(yōu)選,步驟3中所述的每一層主題層次的主題數(shù)目,其具體計算方法如下:
【權(quán)利要求】
1.一種面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于,包括以下步驟: 步驟1:收集Web服務(wù)描述文檔,對收集的Web服務(wù)描述文檔進(jìn)行預(yù)處理,得到Web服務(wù)描述文檔中的輸入輸出參數(shù),并對Web服務(wù)描述文檔中每個輸入輸出參數(shù)預(yù)處理,得到一組原型單詞的集合,對所述的原型單詞進(jìn)行進(jìn)一步預(yù)處理,得到詞性標(biāo)注單詞的集合; 步驟2:使用hHDP方法對步驟I中得到的原型單詞以自下而上的學(xué)習(xí)方法生成原型單詞所屬主題的層次; 步驟3:使用“中國餐館問題”的HDP采樣模式計算出步驟2中生成的每一層主題層次的概率度量Gi,基準(zhǔn)概率Gtl和主題數(shù)目; 步驟4:計算主題中包含的原型單詞的覆蓋率并排序,覆蓋率最大的單詞對該主題的覆蓋程度最大,將覆蓋率最大的單詞作為代表單詞的候選,采用自下而上的方法抽取每個主題對應(yīng)的代表單詞;對詞性標(biāo)注單詞使用模式分析技術(shù)分析參數(shù)中詞匯之間的關(guān)系,并將這些關(guān)系的組織形式形成語義豐富的規(guī)則,當(dāng)抽取出代表單詞之后按照語義豐富的規(guī)則對生成的本體進(jìn)一步擴充語義。
2.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:步驟I中所述的Web服務(wù)描述文檔來源于能夠被訪問的Web服務(wù)注冊中心或Web服務(wù)門戶網(wǎng)站。
3.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:所述的步驟1,其具體實現(xiàn)包括以下子步驟: 步驟1.1:對Web服務(wù)描述文檔進(jìn)行解析,從中抽取該文檔中的輸入輸出參數(shù),對輸入輸出參數(shù)做預(yù)處理,得到一組原型單詞的集合;所述的預(yù)處理包括按照分隔符對參數(shù)斷詞、擴充縮寫詞; 步驟1.2:針對步驟1.1的結(jié)果,將所述的原型單詞進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注單詞的集合,為模式分析做準(zhǔn)備。
4.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:所述的步驟2,其具體實現(xiàn)包括以下子步驟: 步驟2.1:根據(jù)原型單詞的集合聚類出第一層主題作為目標(biāo)本體結(jié)構(gòu)的葉節(jié)點; 步驟2.2:所有主題包含詞分布組成估計下一層次的觀測值,即把每個主題看作一個新的文檔,每個主題下面包含的單詞又被當(dāng)成新文檔中的單詞; 步驟2.3:使用Gibbs采樣不斷的重復(fù)上述的步驟2.1和步驟2.2,從而自動學(xué)習(xí)出主題的層次。
5.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:所述的步驟3,其具體實現(xiàn)包括以下子步驟: 步驟3.1:對于收集Web服務(wù)描述文檔,在步驟2的基礎(chǔ)上,輸入第j個文檔的現(xiàn)有主題數(shù)目和參數(shù)α,根據(jù)“中國餐館問題”的采樣模式計算出第j篇文檔中主題z的數(shù)目Tjz ;
Ctt 步驟3.2:根據(jù)文檔j中和主題Z相關(guān)的單詞數(shù)目采樣得出;基于因子g采樣得出該層次的Gtl ;根據(jù)上述計算出的Tjz獲得本層次的主題數(shù)目; 步驟3.3:采用自下而上的方式迭代步驟3.1-3.2,根據(jù)Dirichlet過程“富者更富”的特性,高層的主題數(shù)目逐步減少直至收斂至一個節(jié)點,得到每一層主題層次的主題數(shù)目; 其中,先驗參數(shù):a,Y,tz是主題z的總數(shù),t是主題的總數(shù)。
6.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:所述的步驟4,其具體實現(xiàn)包括以下子步驟: 步驟4.1:在執(zhí)行了 HHDP方法的基礎(chǔ)上,計算每個聚類主題中單詞的覆蓋率,并按照覆蓋率的大小倒序排列; 步驟4.2:采用自底向上的方式抽取代表單詞并構(gòu)造本體的語義層次; 步驟4.3:利用模式分析技術(shù)分析參數(shù)中詞匯之間的關(guān)系,從而建立語義豐富規(guī)則,同時在步驟4.2的基礎(chǔ)上利用語義豐富規(guī)則對構(gòu)造的本體語義進(jìn)一步增強。
7.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:步驟3中所述的每一層主題層次的主題數(shù)目,其具體計算方法如下:
8.根據(jù)權(quán)利要求1所述的面向Web服務(wù)描述的本體學(xué)習(xí)方法,其特征在于:步驟4中所述的代表單詞的抽取方法如下: 首先計算主題中包含的原型單詞的覆蓋率:
【文檔編號】G06F17/30GK103530419SQ201310524073
【公開日】2014年1月22日 申請日期:2013年10月29日 優(yōu)先權(quán)日:2013年10月29日
【發(fā)明者】何克清, 田剛, 王健 申請人:武漢大學(xué)