專利名稱:面向自然語言處理的語義Web服務(wù)智能代理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,主要涉及語義Web服務(wù)(Semantic Web Service, SWS)領(lǐng)域,尤其涉及一種面向自然語言處理的Web服務(wù)代理方法和系統(tǒng),具體是一種面向 自然語言處理的語義Web服務(wù)智能代理。
背景技術(shù):
語義Web服務(wù)是互聯(lián)網(wǎng)技術(shù)的新領(lǐng)域,又是語義Web和Web服務(wù)兩個(gè)重要分支相 互結(jié)合的產(chǎn)物。語義Web服務(wù)的主要研究內(nèi)容是使用更加豐富的、分布式的語義描述元素 進(jìn)行動態(tài)分布式計(jì)算。通過使用相關(guān)語義描述信息,能夠得到更加靈活的自動化服務(wù)提供 和使用方式,開發(fā)出更加強(qiáng)大的軟件開發(fā)工具,構(gòu)建語義服務(wù),并創(chuàng)建基于服務(wù)的軟件解決 方案的方法。整個(gè)語義Web服務(wù)的生命周期包括語義Web服務(wù)的標(biāo)注、發(fā)布、發(fā)現(xiàn)、數(shù)據(jù)調(diào) 制、組合、配置、編排和執(zhí)行等步驟。Web服務(wù)代理是實(shí)現(xiàn)語義Web服務(wù)的重要基礎(chǔ)構(gòu)件,其 主要作用是提高語義Web服務(wù)易用性和簡化服務(wù)部署過程。Web服務(wù)代理是Web服務(wù)請求者與Web服務(wù)之間的中間件,遵循代理協(xié)議,實(shí)現(xiàn) 服務(wù)請求解析、服務(wù)發(fā)現(xiàn)、服務(wù)數(shù)據(jù)調(diào)制和服務(wù)執(zhí)行等功能。如“A Broker forOWL-S Web services,,,Technical Report, Stanford University Palo Alto, CA, 2004.M. Paolucci, J. Soudry, N. Srinivasan and K. Sycara.所述,代理協(xié)議涉及3個(gè)參與者請求者、提供者 和代理。請求者通過發(fā)送請求到代理啟動協(xié)議;提供者是服務(wù)庫中最適合解決請求問題的 提供者。代理協(xié)議分為兩個(gè)部分廣告協(xié)議和調(diào)停協(xié)議。廣告協(xié)議代理采集服務(wù)提供者發(fā) 布的服務(wù)廣告(例如服務(wù)wsdl文件),這些服務(wù)廣告將用于選擇滿足服務(wù)請求的最佳服 務(wù)提供者。調(diào)停協(xié)議服務(wù)請求者向代理發(fā)送詢問請求;代理使用其服務(wù)發(fā)現(xiàn)機(jī)制定位能 回答詢問的服務(wù)提供者;代理依據(jù)服務(wù)提供者要求格式化服務(wù)請求并調(diào)用服務(wù);服務(wù)提供 者計(jì)算服務(wù)請求并將計(jì)算結(jié)果返回代理;代理將服務(wù)計(jì)算結(jié)果按服務(wù)請求者要求格式化并 返回請求者。Web服務(wù)代理的核心問題是基于服務(wù)廣告的服務(wù)選擇(搜索)問題?,F(xiàn)有的Web服務(wù)搜索方法分為兩類基于WSDL的方法和基于領(lǐng)域本體的方法。 基于領(lǐng)域本體的方法又細(xì)分為基于0WL_S、基于WSDL_S和WSM0等方法,其中基于WSDL_ S的方法是通過領(lǐng)域本體標(biāo)注標(biāo)準(zhǔn)WSDL實(shí)現(xiàn)?;陬I(lǐng)域本體方法的基本思路是構(gòu)建語 義豐富的 WSDL 文件。文獻(xiàn)"Semantic Web Service, Processes and Applications,,,in Semantic Web and Beyond Computing for HumanExperience, R. Jain and A. Sheth, (Eds.) :Springer,2006.深入總結(jié)了基于領(lǐng)域本體的Web服務(wù)檢索方法。由于領(lǐng)域本體的 缺乏和服務(wù)代理的通用性,所以基于領(lǐng)域本體的方法很難應(yīng)用于服務(wù)代理?;赪SDL的方法又細(xì)分為基于文本和基于語義等方法?;谖谋镜腤eb服務(wù) 發(fā)現(xiàn)方法是最直接的方法,而其最常用方法是UDDI內(nèi)嵌的關(guān)鍵詞匹配方法。UDDIAPI允 許其用戶指定感興趣關(guān)鍵詞集,然后其返回服務(wù)描述包含指定關(guān)鍵詞集的服務(wù)列表。文獻(xiàn) H. H. Do and E.Rahm, "C0MA-A system for flexible combination ofschema matching approaches,,,in 28th VLDB Conference, Hong Kong,China,2002 應(yīng)用各種字符串比較算法(例如前綴、后綴、編輯距離)匹配存在少許拼寫錯(cuò)誤的可交換關(guān)鍵詞集?;谡Z義的服務(wù)搜索方法:C. Platzer and S. Dustdar, "A vector space searchengine for Web Services,,,in Third IEEE European Conference on Web Services,Sweden,2005 采用向量空間模型(Vector Space Model, VSM)構(gòu)建 Web 服務(wù)搜索 弓|擎° 而 A. Saj janhar, J. Hou, and Y. Zhang,"Algorithm for Web Services Matching, ”at APWeb,2004則采用改進(jìn)的VSM模型(LSA)發(fā)現(xiàn)Web服務(wù)。上述方法存在下列問題1、上述 方法都需要依賴現(xiàn)存的UDDI注冊中心。而由于公共UDDI的永久關(guān)閉和服務(wù)自然語言描述 的缺乏和無效,因此這些方法都不能滿足Web服務(wù)代理的需要;2、上述方法基于服務(wù)的自 然語言描述工作,由于自然語言詞匯的同義和多義現(xiàn)象,查準(zhǔn)率(recall)低;3、上述方法 構(gòu)建的Web服務(wù)索引無法解釋,從而用戶難以理解和使用;4、現(xiàn)有的方法都僅關(guān)注了 Web服 務(wù)搜索與文本搜索的共性問題,很少基于Web服務(wù)代理優(yōu)化Web服務(wù)搜索,提高服務(wù)查詢的 查準(zhǔn)率和查全率。本發(fā)明項(xiàng)目組對國內(nèi)外專利文獻(xiàn)和公開發(fā)表的期刊論文檢索,再尚未發(fā)現(xiàn)與本發(fā) 明密切相關(guān)和一樣的報(bào)道或文獻(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的是克服上述方法、技術(shù)或系統(tǒng)存在的缺點(diǎn),提供一種接收自然語言 描述的服務(wù)請求、搜索相關(guān)服務(wù)、執(zhí)行服務(wù)和返回自然語言描述的服務(wù)結(jié)果?;赪SDL的 語義方法,優(yōu)化Web服務(wù)搜索,服務(wù)查詢查準(zhǔn)率和查全率高,遵循Web服務(wù)代理協(xié)議的一種 面向自然語言處理的語義Web服務(wù)智能代理。下面對本發(fā)明進(jìn)行詳細(xì)說明本發(fā)明要解決的主要問題是提高現(xiàn)有服務(wù)查詢的查準(zhǔn)率和查全率不高的技術(shù)問 題;并提供一種查準(zhǔn)率和查全率不高的面向自然語言處理的語義Web的服務(wù)智能代理。本發(fā)明的內(nèi)容包括面向自然語言處理的語義Web服務(wù)搜索方法和面向自然語言 處理的語義Web服務(wù)智能代理系統(tǒng),后者更側(cè)重于結(jié)構(gòu)與設(shè)備,前者是一種語義Web服務(wù)搜 索方法。作為一種面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,包括如下步 驟A、將Web服務(wù)采集子系統(tǒng)采集的所有服務(wù)描述文件(WSDL)匯集為服務(wù)描述文集 C;B、采用信息抽取(Information Extraction, IE)算法,處理服務(wù)描述文集C,獲取 描述服務(wù)語義的關(guān)鍵詞;C、從服務(wù)描述文集C抽取的所有關(guān)鍵詞匯集為服務(wù)原始詞匯集T ;D、采用詞聚類算法,處理服務(wù)原始詞匯集T,構(gòu)造服務(wù)詞匯表D ;E、基于服務(wù)詞匯表D,采用概率隱含語義索引(pLSI)算法,處理服務(wù)描述文集C, 自動構(gòu)建服務(wù)描述文集C的語義索引;F、基于服務(wù)描述文集C的語義索引,采用服務(wù)搜索算法,處理用戶服務(wù)請求,從而 實(shí)現(xiàn)服務(wù)搜索。本發(fā)明首先采用信息抽取方法獲取描述服務(wù)的關(guān)鍵詞集;然后,采用概率隱含語 義索引(PLSI)方法構(gòu)建服務(wù)語義索引;最后,基于服務(wù)描述文件(WSDL)與服務(wù)請求的語
6義相似度搜索與服務(wù)請求相關(guān)服務(wù)。與基于領(lǐng)域本體的方法不同,本發(fā)明不依賴于本體方 法而是采用實(shí)證方法,從而解決了領(lǐng)域本體的缺乏和通用性問題。與基于語義的服務(wù)搜索 方法不同,本發(fā)明不基于Web服務(wù)的自然語言描述工作,而是直接基于WSDL文檔工作,通過 WSDL元素抽取、分析和擴(kuò)展獲取。與自然語言不同,WSDL用詞更加準(zhǔn)確、精煉和專業(yè),因此 直接基于WSDL元素工作可有效避免自然語言的同義和多義現(xiàn)象帶來的問題,提高搜索的 精確度并簡化算法設(shè)計(jì)。本發(fā)明的實(shí)現(xiàn)還在于在步驟B中所述信息抽取算法包括如下步驟B1、基于WSDL文件的DOM (Document Object Model,文檔對象模型),抽取下列 標(biāo)簽白勺 name 屬 j"生:definitions> message> part、portType> operation、input> output、 service,port ;抽取targetNamespace標(biāo)簽的uri屬性捕捉服務(wù)提供者信息;抽取part標(biāo) 簽的element屬性值捕捉服務(wù)發(fā)送和接收的數(shù)據(jù)結(jié)構(gòu);B2、依據(jù)WSDL文件,采用復(fù)寫、排序和添加三個(gè)操作以保存抽取屬性在文件中的
結(jié)構(gòu)信息;B3、由于抽取屬性是一種無分隔符的字符串(例如d0Wnl0adMP3MusiC),采用基 于最大匹配算法(MMA)分割抽取,抽取屬性為詞組。本發(fā)明的實(shí)現(xiàn)還在于在步驟D中所述基于詞匯相似度的詞聚類算法包括如下步 驟D1、使用Word-Net語義知識詞典定義詞匯相似度 …, 、 a x(L+L)
-(從卞噸⑷+ 二叫-“!廠其中“針,^分別所處的層次,a >0是可調(diào)參數(shù);D2、初始化聚類集合為空;D3、從服務(wù)原始詞匯集T中讀入一個(gè)新詞;D4、以這個(gè)詞構(gòu)造一個(gè)新的類;D5、利用D1步驟中定義的詞匯相似度,計(jì)算所讀入新詞與每個(gè)已有類間的距離, 并選擇最小的距離;D6、若最小距離超過給定的閾值,則轉(zhuǎn)步驟D3 ;即在D3-D6步中,若已到服務(wù)原始詞匯集T末尾,則結(jié)束,否則讀入新詞,D7、否則將該詞并入具有最小距離的類中并更新該類的各分類屬性值的統(tǒng)計(jì)頻度 及數(shù)值屬性的質(zhì)心,轉(zhuǎn)步驟D3;D8、以所獲得類的中心詞為詞匯,匯集構(gòu)造服務(wù)詞匯表D。本發(fā)明首先基于Word-Net定義了一種新的詞匯相似度,將主觀性相當(dāng)強(qiáng)的概念 詞匯語義相似度轉(zhuǎn)換為詞語間距離的度量。該相似度與其他定義不同點(diǎn)在于其不但考慮了 詞語所處的節(jié)點(diǎn)深度而且考慮了該深度上節(jié)點(diǎn)的密度對詞匯語義相似度的影響。然后,本 發(fā)明基于詞匯相似度通過最近鄰聚類(NN)算法構(gòu)造Web服務(wù)詞匯表。該算法主要優(yōu)點(diǎn)是 計(jì)算復(fù)雜度低和無需事先指定詞匯表規(guī)模。本發(fā)明的實(shí)現(xiàn)還在于在步驟E中所述概率隱含語義索引(pLSI)算法包括如下步 驟E1、基于服務(wù)詞匯表D,將服務(wù)描述文集C中所有文檔的每一個(gè)關(guān)鍵詞替換為D中相應(yīng)服務(wù)詞匯;E2、設(shè)服務(wù)描述文集C包含N個(gè)文件,服務(wù)詞匯表D包含M個(gè)詞匯,構(gòu)造一個(gè)MXN 矩陣及,其中n(Wi,dj)表示在文件…中詞Wi出現(xiàn)次數(shù);E3、針對矩陣及,采用EM (Expectation-Maximization,期望最大化)算法,估計(jì)參 mp(d),p(d|z)和p(w|z),其中z是隱含語義變量1)目標(biāo)函數(shù)為丄= ZI>(rf,w) W>
deD wsW
,I , 、 p{z)p(d\z)p(w\z)2)E 步計(jì)算?⑷+^^^⑷^^’)^^’)
z'
Y,n(d,w)p{z\d,w) 3) M 步計(jì)算| z)=‘
2^n(d,w')p(z\d,w)
d,w'
Y,n(d,w)p(z\d,w)p(d\z)=-
2_in{d,w')p(z\d,w')
d,w'=R = Y,n{d,w)E4、針對服務(wù)描述文集C中,依據(jù)下式計(jì)算每一個(gè)文檔d的索引(Index)Index = argmaxkp (zk | d)。與基于語義的服務(wù)搜索方法不同,本發(fā)明采用概率隱含語義索引(pLSI)算法構(gòu) 建服務(wù)索引,生成可解釋的語義索引,解決了基于笛卡爾空間聚類(如SVM、LSA)方法構(gòu)建 的Web服務(wù)索引無法解釋和用戶難以理解使用的問題。本發(fā)明的實(shí)現(xiàn)還在于在步驟F中所述服務(wù)搜索算法包括如下步驟F1、基于服務(wù)詞匯表D,將服務(wù)查詢q中每一個(gè)關(guān)鍵詞替換為D中相應(yīng)服務(wù)詞匯;F2、采用EM算法,估計(jì)參數(shù)p(z|q),其中z是隱含語義變量、目標(biāo)函數(shù)改為L = n(q)[ ^logp{w | g) + log p(g)];
wew n{q)F3、依據(jù)下式計(jì)算服務(wù)查詢q的索引(Index) :Index = argmaxj (zk | q),在服務(wù)描述文集C與服務(wù)查詢q具有相同索引的服務(wù)就是用戶請求的服務(wù)。本發(fā)明采用概率隱含語義索引(pLSI)算法自動構(gòu)建服務(wù)索引,生成可解釋的語 義索引,使得服務(wù)查詢得以準(zhǔn)確和快速,解決了 Web服務(wù)索引無法解釋和用戶難以理解使 用的問題,提高了語義Web服務(wù)的效率。本發(fā)明還是一種面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng),或者說是一種 面向自然語言處理的語義Web服務(wù)智能代理裝置,包括Web服務(wù)采集子系統(tǒng)用于采集互聯(lián)網(wǎng)或內(nèi)聯(lián)網(wǎng)上發(fā)布的Web服務(wù)描述文件 (WSDL);并將處理后的數(shù)據(jù)傳送到服務(wù)倉庫;Web服務(wù)搜索引擎會從中搜取所需的數(shù)據(jù)。Web服務(wù)搜索引擎接受自然語言用戶接口傳送的Web服務(wù)語義關(guān)鍵詞,并搜索存 放WSDL文件的服務(wù)倉庫,檢索最大化滿足客戶需求的Web服務(wù)描述文件(WSDL),將結(jié)果傳 遞到Web服務(wù)執(zhí)行引擎;
自然語言用戶接口 接收用戶自然語言輸入,解析并生成精確、標(biāo)準(zhǔn)和簡潔的服務(wù) 請求;向Web服務(wù)搜索引擎?zhèn)鬟f用戶自然語言輸入的Web服務(wù)語義關(guān)鍵詞,同時(shí)接受來自 Web服務(wù)執(zhí)行引擎的信息,分析服務(wù)輸出,并結(jié)合自然語言輸出模板生成自然語言輸出;Web服務(wù)執(zhí)行引擎將搜索到的Web服務(wù)的定義、數(shù)據(jù)準(zhǔn)備、服務(wù)調(diào)用和服務(wù)結(jié)果 綜合處理,將處理結(jié)果傳輸?shù)阶匀徽Z言用戶接口Web服務(wù)采集子系統(tǒng)與Web服務(wù)搜索引擎通過共享服務(wù)倉庫實(shí)現(xiàn)數(shù)據(jù)鏈接;自然 語言用戶接口與Web服務(wù)搜索引擎、自然語言用戶接口與服務(wù)執(zhí)行引擎通過TCP網(wǎng)絡(luò)連接 實(shí)現(xiàn)數(shù)據(jù)交換。與其他Web服務(wù)搜索方法不同,本發(fā)明通過Web服務(wù)采集子系統(tǒng)中的網(wǎng)絡(luò)爬蟲定 時(shí)采集互聯(lián)網(wǎng)或內(nèi)聯(lián)網(wǎng)上發(fā)布的Web服務(wù)描述文件(WSDL)構(gòu)建WSDL文集,從而解決了由 于公共UDDI的永久關(guān)閉和服務(wù)自然語言描述的缺乏和無效,帶來的對UDDI注冊中心的依 賴問題。同時(shí),基于自然語言分析技術(shù)解析用戶輸入,通過生成精確、標(biāo)準(zhǔn)和簡潔的服務(wù)請 求優(yōu)化Web服務(wù)搜索查準(zhǔn)率;并且,將自然語言分析與輸出模板相結(jié)合,過濾Web服務(wù)搜索 結(jié)果生成自然語言輸出,進(jìn)一步了提高查準(zhǔn)率。經(jīng)Web服務(wù)執(zhí)行引擎搜索到的Web服務(wù)的 定義、數(shù)據(jù)準(zhǔn)備、調(diào)用和結(jié)果返回到自然語言用戶,與面向自然語言處理的語義Web服務(wù)搜 索方法聯(lián)合應(yīng)用,實(shí)現(xiàn)了具有實(shí)際意義的面向自然語言處理的語義Web服務(wù)智能代理。本發(fā)明的實(shí)現(xiàn)還在于所述Web服務(wù)采集子系統(tǒng)包括如下模塊URL管理模塊基于商業(yè)搜索引擎和公開UDDI搜索WSDL文件,構(gòu)造初始URL列表; 并將獲取的URL列表作為任務(wù)分配到每個(gè)爬蟲;服務(wù)爬蟲模塊每個(gè)爬蟲實(shí)現(xiàn)為一個(gè)自治工作線程,從URL管理模塊獲取給定URL 的WSDL文件并存儲到鏈接分析模塊所指定位置;鏈接分析模塊將不合法的WSDL分類;基于不同類型的特性執(zhí)行分析,當(dāng)遇到非 法WSDL文件,檢查是否是HTML文件,如果是,則調(diào)用其HTML解析器嘗試發(fā)現(xiàn)真正WSDL文 件的鏈接,將潛在的WSDL鏈接傳送到URL管理模塊,等待下一輪抓取。本發(fā)明的實(shí)現(xiàn)還在于所述自然語言用戶接口包括如下模塊用戶自然語言詢問分析器包括自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè) 模塊,通過自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè)步驟實(shí)現(xiàn)基于用戶自然語言詢 問的應(yīng)答類型確定和標(biāo)識關(guān)鍵詞集的任務(wù);結(jié)果產(chǎn)生器即結(jié)果過濾器依據(jù)應(yīng)答類型選擇應(yīng)答模板,抽取服務(wù)結(jié)果填充應(yīng)答 模板構(gòu)造應(yīng)答,將來自服務(wù)執(zhí)行器即Web服務(wù)執(zhí)行引擎及關(guān)鍵詞集抽取的信息服務(wù)結(jié)果邏 輯綜合后通過自然語言模板輸出。本發(fā)明的實(shí)現(xiàn)還在于所述Web服務(wù)執(zhí)行引擎包括如下模塊數(shù)據(jù)準(zhǔn)備模塊根據(jù)用戶輸入構(gòu)造服務(wù)請求文件,并與用戶交互獲取缺失信息; 最后將服務(wù)請求發(fā)送到服務(wù)定位模塊;服務(wù)定位模塊依據(jù)服務(wù)請求,選擇服務(wù)綁定對應(yīng)的WSDL文件,實(shí)現(xiàn)服務(wù)的定位; 最后將綁定的WSDL文件發(fā)送到服務(wù)調(diào)用模塊;服務(wù)調(diào)用模塊已經(jīng)綁定的WSDL文件,裝載服務(wù)請求數(shù)據(jù),調(diào)用該Web服務(wù);等待 服務(wù)調(diào)用結(jié)果返回并將服務(wù)調(diào)用的結(jié)果發(fā)送到結(jié)果返回模塊;結(jié)果返回模塊將服務(wù)調(diào)用的結(jié)果返回給用戶。
服務(wù)定位模塊和數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)準(zhǔn)備模塊和服務(wù)調(diào)用模塊通過文件系統(tǒng)共享 文件實(shí)現(xiàn)數(shù)據(jù)交換;服務(wù)調(diào)用模塊和結(jié)果返回模塊通過程序調(diào)用實(shí)現(xiàn)數(shù)據(jù)交換。本發(fā)明的代理系統(tǒng)接收自然語言描述的服務(wù)請求、搜索相關(guān)服務(wù)、執(zhí)行服務(wù)和返 回自然語言描述的服務(wù)結(jié)果,系統(tǒng)包括服務(wù)采集子系統(tǒng)、自然語言用戶接口、服務(wù)搜索引 擎和服務(wù)執(zhí)行器。搜索引擎的服務(wù)搜索方法首先,采用信息抽取方法獲取描述服務(wù)的關(guān) 鍵詞集;然后,采用概率隱含語義索引(PLSI)方法構(gòu)建服務(wù)語義索引;最后,基于服務(wù)描述 (WSDL)與服務(wù)請求的語義相似度搜索與服務(wù)請求相關(guān)服務(wù)。提高了語義Web服務(wù)的易用 性,也簡化服務(wù)部署過程。
本發(fā)明解決現(xiàn)有服務(wù)查詢針對自然語言詞匯的同義和多義現(xiàn)象而查準(zhǔn)率 (recall)低的查準(zhǔn)率和查全率不高的技術(shù)問題;同時(shí)本發(fā)明遵循Web服務(wù)代理協(xié)議,實(shí)現(xiàn) 了一種面向自然語言處理的智能代理系統(tǒng)。面向自然語言處理的智能代理是網(wǎng)絡(luò)領(lǐng)域的研 究前沿,本發(fā)明采用基于文本的方法,利用詞匯相似度,尤其基于簽名文本匹配的方法。實(shí) 現(xiàn)了提高服務(wù)查詢的查準(zhǔn)率,提高搜索的精確度并簡化算法設(shè)計(jì),為面向自然語言處理的 智能代理的實(shí)際應(yīng)用解決路徑的問題,對于面向自然語言處理的實(shí)際應(yīng)用是具有突破性的 意義,采用基于WSDL的語義Web服務(wù)搜索方法具有兼容性,易于推廣應(yīng)用,同時(shí)也提高了查 全率。
圖1面向自然語言處理的語義web服務(wù)智能代理部署示意圖;圖2面向自然語言處理的語義web服務(wù)智能代理系統(tǒng)結(jié)構(gòu)示意圖;圖3面向自然語言處理的語義Web服務(wù)搜索方法的流程圖;圖4Web服務(wù)搜索方法查準(zhǔn)率(recall)性能比較曲線圖。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明實(shí)施例1 本發(fā)明是面向自然語言處理的智能代理,是實(shí)現(xiàn)語義Web服務(wù)的重要基礎(chǔ)構(gòu)件, 可廣泛應(yīng)用于電子商務(wù)、電子政務(wù)和數(shù)字企業(yè)等領(lǐng)域,特別適合基于手機(jī)和PDA等手持設(shè) 備的信息系統(tǒng)使用。面向自然語言處理的智能代理具體包含兩大部分內(nèi)容,即面向自然語 言處理的語義Web服務(wù)搜索方法和面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng)。參見圖1,請求者通過智能終端發(fā)送自然語言請求到面向自然語言處理的智能代 理,其中面向自然語言處理的語義Web服務(wù)搜索開始進(jìn)行服務(wù)搜索,作為一種語義Web服務(wù) 搜索方法,見圖3,包括如下步驟A、將Web服務(wù)采集子系統(tǒng)采集的所有服務(wù)描述文件(WSDL)匯集為服務(wù)描述文集 C;B、采用信息抽取(Information Extraction, IE)算法,處理服務(wù)描述文集C,從而 獲取描述服務(wù)語義的關(guān)鍵詞;C、從服務(wù)描述文集C抽取的所有關(guān)鍵詞匯集為服務(wù)原始詞匯集T ;D、采用基于詞匯相似度的詞聚類算法,處理服務(wù)原始詞匯集T,從而構(gòu)造服務(wù)詞匯
10表D;E、基于服務(wù)詞匯表D,采用概率隱含語義索引(pLSI)算法,處理服務(wù)描述文集C, 從而自動構(gòu)建服務(wù)描述文集C的語義索引;F、基于服務(wù)描述文集C的語義索引,采用服務(wù)搜索算法,處理用戶服務(wù)請求,從而 實(shí)現(xiàn)服務(wù)搜索。
Web服務(wù)是一種新的基于XML和HTTP的服務(wù),所提供的服務(wù)是規(guī)范的,所接收的請 求也是規(guī)范的,而當(dāng)面向自然語言的請求,信息的是難以規(guī)范的,有時(shí)甚至是含糊不清的, 即使是一種意思或定義,可能存在有很多的表述。針對自然語言的凌亂信息,本發(fā)明對其進(jìn) 行語言匯集、整理、進(jìn)行規(guī)范化定義,比如針對一個(gè)意思或定義,獲取描述服務(wù)語義的關(guān)鍵 詞集合,自動構(gòu)建服務(wù)描述文集C的語義索引,實(shí)現(xiàn)服務(wù)搜索。本發(fā)明首先獲取描述服務(wù)的關(guān)鍵詞集,進(jìn)而構(gòu)建服務(wù)描述文集C的語義索引,基 于服務(wù)描述(WSDL)與服務(wù)請求的語義相似度搜索與服務(wù)請求相關(guān)服務(wù)。解決了領(lǐng)域本體 的缺乏和通用性問題。有效避免自然語言的同義和多義現(xiàn)象帶來的技術(shù)問題,提高搜索的 精確度并簡化算法設(shè)計(jì)。為面向自然語言處理的智能代理的實(shí)際應(yīng)用開辟了路徑。實(shí)施例2 面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1,基于上述技術(shù)方案,更進(jìn) 一步地,步驟B中所述信息抽取算法包括如下步驟B1、基于WSDL文件的DOM (Document Object Model,文檔對象模型),抽取下列 標(biāo)簽白勺 name 屬 j"生:definitions> message> part、portType> operation、input> output、 service,port ;抽取targetNamespace標(biāo)簽的uri屬性捕捉服務(wù)提供者信息;抽取part標(biāo) 簽的element屬性值捕捉服務(wù)發(fā)送和接收的數(shù)據(jù)結(jié)構(gòu);B2、依據(jù)WSDL文件,采用復(fù)寫、排序和添加三個(gè)操作以保存抽取屬性在文件中的 結(jié)構(gòu)信息;以上三個(gè)操作根據(jù)具體情況,有時(shí)可能三個(gè)操作均需做,有時(shí)可能只進(jìn)行一個(gè)操 作或兩個(gè)操作。保存抽取屬性在文件中的結(jié)構(gòu)信息是加強(qiáng)該詞的重要性。B3、由于抽取屬性是一種無分隔符的字符串,例如d0Wnl0adMP3MusiC,采用基于 MMA(Maximum Matching Algorithm)最大匹配算法,分割抽取,抽取屬性為詞組。實(shí)施例3 面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-2,基于上述技術(shù)方案,更 進(jìn)一步地,步驟D所述基于詞匯相似度的詞聚類算法包括如下步驟D1、使用Word-Net語義知識詞典定義詞匯相似度
-(“、喻一“剛-訓(xùn),其中“針,^分別所處的層次,a >0是可調(diào)參數(shù);D2、初始化聚類集合為空,D3、從服務(wù)原始詞匯集于中讀入一個(gè)新詞;D4、以這個(gè)詞構(gòu)造一個(gè)新的類;D5、若已到服務(wù)原始詞匯集尹末尾,則結(jié)束,否則讀入新詞,利用定義的詞匯相似 度,計(jì)算其與每個(gè)已有類間的距離,并選擇最小的距離;D6、若最小距離超過給定的閾值,則轉(zhuǎn)步驟D3 ;
D7、否則將該詞并入具有最小距離的類中并更新該類的各分類屬性值的統(tǒng)計(jì)頻度 及數(shù)值屬性的質(zhì)心,轉(zhuǎn)步驟D3;D8、以所獲得類的中心詞為詞匯,匯集構(gòu)造服務(wù)詞匯表T。在現(xiàn)有技術(shù)中,還是事先人為對文檔、對搜索元手工標(biāo)注,本發(fā)明對所服務(wù)的原始 詞匯集形成文集,由計(jì)算機(jī)無監(jiān)督地對文集歸類、標(biāo)注、自動生成索引,減小了人工工作量, 提高了工作效率,更重要的是提高了搜索的準(zhǔn)確度。實(shí)施例4:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-3,基于上述技術(shù)方案,更 進(jìn)一步地,步驟E中所述概率隱含語義索引(pLSI)算法包括如下步驟E1、基于服務(wù)詞匯表T,將服務(wù)描述文集C中所有文檔的每一個(gè)關(guān)鍵詞替換為T中 相應(yīng)服務(wù)詞匯;E2、設(shè)服務(wù)描述文集C包含N個(gè)文件,服務(wù)詞匯表T包含M個(gè)詞匯,構(gòu)造一個(gè)MXN 矩陣及,其中n(Wi,dj)表示在文件Clj中詞Wi出現(xiàn)次數(shù);E3、針對矩陣及,采用EM (Expectation-Maximization,期望最大化)算法,估計(jì)參 mp(d),p(d|z)和ρ (w I ζ),其中ζ是隱含語義變量1)目標(biāo)函數(shù)為1 =樹義冰)"^)
deD weW
η( ι , , _ p(z)p(d\z)p(w\z)2) E 步計(jì)算風(fēng)ζ I = Vn(zW!z'W>v!z')3)M 步計(jì)算:p(w\z)="
2^ >νν(ζ| ,>ν’)
d,w'
Yjn(d,w)p{z\d,w)P(d\z) = ^
d,w'i^(^) = ^ Σw^ P^z ^d ^ R 三
八 d,wd,wE4、針對服務(wù)描述文集C中,依據(jù)下式計(jì)算每一個(gè)文檔d的索引(Index) =Index = argmaXkp(Zk|d)。在參數(shù)給定后,自動計(jì)算生成文檔的索引,并存儲結(jié)果。實(shí)施例5:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-4,基于上述技術(shù)方案,更 進(jìn)一步地,步驟F中所述服務(wù)搜索算法包括如下步驟F1、基于服務(wù)詞匯表T,將服務(wù)查詢q中每一個(gè)關(guān)鍵詞替換為T中相應(yīng)服務(wù)詞匯;F2、采用 EM (Expectation-Maximization,期望最大化)算法,估計(jì)參數(shù) ρ (ζ | q),其 中z是隱含語義變量、目標(biāo)函數(shù)改為<formula>formula see original document page 12</formula>F3、依據(jù)下式計(jì)算服務(wù)查詢q的索引(Index) =Index = argmaxj (zk | q),在服務(wù)描 述文集C與服務(wù)查詢q具有相同索引的服務(wù)就是用戶請求的服務(wù)。
在實(shí)施例1-5中可見本發(fā)明采用概率隱含語義索引(pLSI)算法構(gòu)建服務(wù)索引,生 成可解釋的語義索引解決了基于笛卡爾空間聚類(如SVM、LSA)方法構(gòu)建的Web服務(wù)索引 無法解釋和用戶難以理解使用的技術(shù)難題。本發(fā)明還基于Word-Net定義了一種新的詞匯相似度,將主觀性相當(dāng)強(qiáng)的概念詞 匯語義相似度轉(zhuǎn)換為詞語間距離的度量。該相似度與其他定義不同點(diǎn)在于其不但考慮了詞 語所處的節(jié)點(diǎn)深度而且考慮了該深度上節(jié)點(diǎn)的密度對詞匯語義相似度的影響。然后,本發(fā) 明基于詞匯相似度通過最近鄰聚類(NN)算法構(gòu)造Web服務(wù)詞匯表。該算法主要優(yōu)點(diǎn)是計(jì) 算復(fù)雜度低和無需事先指定詞匯表規(guī)模。
基于Web服務(wù)采集子系統(tǒng)構(gòu)建的服務(wù)倉庫,通過實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)繪制的曲線見 圖4,證明本發(fā)明采用的概率隱含語義索引(pLSI)算法的查全率(Recall)和查準(zhǔn)率 (Precision)的綜合性能優(yōu)于SVM和LSI。圖4中虛線表示SVM方法的查全率(Recall)-查 準(zhǔn)率(Precision)曲線;點(diǎn)劃線表示LSI方法的查全率(Recall)-查準(zhǔn)率(Precision)曲 線;實(shí)線表示LSI方法的查全率(Recall)-查準(zhǔn)率(Precision)曲線,也即本發(fā)明的曲線。 本發(fā)明的平均查準(zhǔn)率為82. 高于LSI方法的74. 6%及SVM的59%實(shí)施例6:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-5,本發(fā)明還是面向自然 語言處理的語義Web服務(wù)智能代理系統(tǒng),參見圖2,作為面向自然語言處理的語義Web服務(wù) 智能代理系統(tǒng),包括如下子模塊Web服務(wù)采集子系統(tǒng)用于采集互聯(lián)網(wǎng)或內(nèi)聯(lián)網(wǎng)上發(fā)布的Web服務(wù)描述文件 (WSDL),并將處理后的數(shù)據(jù)傳送到服務(wù)倉庫;Web服務(wù)搜索引擎用于搜索最大化滿足客戶需求的Web服務(wù)描述文件(WSDL),接 受自然語言用戶接口傳送的Web服務(wù)語義關(guān)鍵詞,并搜索存放WSDL文件的服務(wù)倉庫,檢索 最大化滿足客戶需求的Web服務(wù)描述文件,將結(jié)果傳遞到Web服務(wù)執(zhí)行引擎;自然語言用戶接口 接收用戶自然語言輸入,解析并生成精確、標(biāo)準(zhǔn)和簡潔的服務(wù) 請求;向Web服務(wù)搜索引擎?zhèn)鬟f用戶自然語言輸入的Web服務(wù)語義關(guān)鍵詞,同時(shí)接受來自 Web服務(wù)執(zhí)行引擎的信息,分析服務(wù)輸出,并結(jié)合自然語言輸出模板,生成自然語言輸出;Web服務(wù)執(zhí)行引擎用于搜索到的Web服務(wù)的定義、數(shù)據(jù)準(zhǔn)備、調(diào)用和結(jié)果返回;參 見圖2,Web服務(wù)執(zhí)行引擎也就是圖2所示的服務(wù)執(zhí)行器,將搜索到的Web服務(wù)的定義、數(shù)據(jù) 準(zhǔn)備、服務(wù)調(diào)用和服務(wù)結(jié)果綜合處理,將處理結(jié)果傳輸?shù)阶匀徽Z言用戶接口。參見圖2,WSDL_S信號直接送Web服務(wù)采集子系統(tǒng),通過爬蟲、鏈接分析、URL管理 循環(huán)處理后通過鏈接分析模塊傳送信息通過服務(wù)倉庫到搜索引擎,此時(shí)引入來自面向自然 語言處理的語義Web服務(wù)搜索方法中的關(guān)鍵詞集抽取,綜合后結(jié)果發(fā)送到服務(wù)執(zhí)行器,服 務(wù)執(zhí)行器融合服務(wù)結(jié)果后將信息傳送到結(jié)果過濾器,在此又一次將關(guān)鍵詞集抽取信息進(jìn)行 過濾,將過濾后的結(jié)果經(jīng)自然語言模板輸出給請求者。實(shí)施例7:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-5,面向自然語言處理的 語義Web服務(wù)智能代理系統(tǒng)同實(shí)施例6,更進(jìn)一步地,所述Web服務(wù)采集子系統(tǒng)包括如下模 塊URL管理模塊基于商業(yè)搜索引擎和公開UDDI搜索WSDL文件,構(gòu)造初始URL列表;并將獲取的URL列表作為任務(wù)分配到每個(gè)爬蟲;服務(wù)爬蟲模塊每個(gè)爬蟲實(shí)現(xiàn)為一個(gè)自治工作線程,從URL管理模塊獲取給定URL 的WSDL文件并存儲到鏈接分析模塊所指定位置;鏈接分析模塊將不合法的WSDL分類;基于不同類型的特性執(zhí)行分析,當(dāng)遇到非 法WSDL文件,檢查是否是HTML文件,如果是,則調(diào)用其HTML解析器嘗試發(fā)現(xiàn)真正WSDL文 件的鏈接,將潛在的WSDL鏈接傳送到URL管理模塊,等待下一輪抓取?;蛘哒f通過不同類 型的特性執(zhí)行分析,當(dāng)遇到不合法WSDL文件,抓取來自服務(wù)爬蟲模塊的信息,檢查是否是 HTML文件。實(shí)施例8:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-5,面向自然語言處理的 語義Web服務(wù)智能代理系統(tǒng)同實(shí)施例6-7,更進(jìn)一步地,所述自然語言用戶接口包括如下模 塊用戶自然語言詢問分析器包括自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè) 模塊,見圖2,通過自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè)步驟實(shí)現(xiàn)基于用戶自然 語言詢問的應(yīng)答類型確定和標(biāo)識關(guān)鍵詞集的任務(wù);結(jié)果產(chǎn)生器即結(jié)果過濾器依據(jù)應(yīng)答類型選擇應(yīng)答模板,抽取服務(wù)結(jié)果填充應(yīng)答 模板構(gòu)造應(yīng)答,將來自服務(wù)執(zhí)行器即Web服務(wù)執(zhí)行引擎及關(guān)鍵詞集抽取的信息服務(wù)結(jié)果邏 輯綜合后通過自然語言模板輸出。實(shí)施例9:面向自然語言處理的語義Web服務(wù)搜索方法同實(shí)施例1-5,面向自然語言處理的 語義Web服務(wù)智能代理系統(tǒng)同實(shí)施例6-8,基于上述技術(shù)方案,更進(jìn)一步地,所述Web服務(wù)執(zhí) 行引擎包括如下模塊服務(wù)定位模塊根據(jù)選擇服務(wù)綁定到對應(yīng)的WSDL文件,實(shí)現(xiàn)服務(wù)的定位;數(shù)據(jù)準(zhǔn)備模塊根據(jù)綁定的WSDL文件和用戶輸入構(gòu)造服務(wù)請求文件,并與用戶交 互獲取缺失信息;服務(wù)調(diào)用模塊裝載服務(wù)請求文件,調(diào)用該Web服務(wù);結(jié)果返回模塊將服務(wù)調(diào)用的結(jié)果返回給用戶。服務(wù)定位模塊和數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)準(zhǔn)備模塊和服務(wù)調(diào)用模塊通過文件系統(tǒng)共享 文件實(shí)現(xiàn)數(shù)據(jù)交換;服務(wù)調(diào)用模塊和結(jié)果返回模塊通過程序調(diào)用實(shí)現(xiàn)數(shù)據(jù)交換。本發(fā)明將相應(yīng)的模塊有機(jī)組合,在運(yùn)行流程和步驟中精簡與優(yōu)選,采用適當(dāng)?shù)乃?法,提供了一種可以實(shí)際應(yīng)用的面向自然語言處理的語義Web服務(wù)智能代理。
權(quán)利要求
一種面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,包括如下步驟A、將Web服務(wù)采集子系統(tǒng)采集的所有服務(wù)描述文件匯集為服務(wù)描述文集C;B、采用信息抽取算法,處理服務(wù)描述文集C,獲取描述服務(wù)語義的關(guān)鍵詞;C、從服務(wù)描述文集C抽取的所有關(guān)鍵詞匯集為服務(wù)原始詞匯集T;D、采用詞聚類算法,處理服務(wù)原始詞匯集T,構(gòu)造服務(wù)詞匯表D;E、基于服務(wù)詞匯表D,采用概率隱含語義索引算法,處理服務(wù)描述文集C,自動構(gòu)建服務(wù)描述文集C的語義索引;F、基于服務(wù)描述文集C的語義索引,采用服務(wù)搜索算法,處理用戶服務(wù)請求,從而實(shí)現(xiàn)服務(wù)搜索。
2.根據(jù)權(quán)利要求1所述的面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,所 述信息抽取算法包括如下步驟B1、基于WSDL文件的文檔對象模型,抽取下列標(biāo)簽的name屬性definitions、 message>part>portType>operation> input>outputs service>port ;才由取 targetNamespace 標(biāo)簽的uri屬性捕捉服務(wù)提供者信息;抽取part標(biāo)簽的element屬性值捕捉服務(wù)發(fā)送和接 收的數(shù)據(jù)結(jié)構(gòu);B2、依據(jù)WSDL文件,采用復(fù)寫、排序和添加三個(gè)操作以保存抽取屬性在文件中的結(jié)構(gòu) fn息;B3、采用基于最大匹配算法分割抽取,抽取屬性為詞組。
3.根據(jù)權(quán)利要求1所述面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,所述 基于詞匯相似度的詞聚類算法包括如下步驟D1、定義詞匯相似度腦(仏)=(^^rni^r^,其巾12針,t2分別所處的層次,a > 0是可調(diào)參數(shù);D2、初始化聚類集合為空;D3、從服務(wù)原始詞匯集T中讀入一個(gè)新詞;D4、以這個(gè)詞構(gòu)造一個(gè)新的類;D5、若已到服務(wù)原始詞匯集T末尾,則結(jié)束,否則利用D1步驟中定義的詞匯相似度,計(jì) 算所讀入新詞與每個(gè)已有類間的距離,并選擇最小的距離;D6、若最小距離超過給定的閾值,則轉(zhuǎn)步驟D3 ;D7、否則將該詞并入具有最小距離的類中并更新該類的各分類屬性值的統(tǒng)計(jì)頻度及數(shù) 值屬性的質(zhì)心,轉(zhuǎn)步驟D3;D8、以所獲得類的中心詞為詞匯,匯集構(gòu)造服務(wù)詞匯表D。
4.根據(jù)權(quán)利要求1所述面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,所述 概率隱含語義索引算法包括如下步驟E1、基于服務(wù)詞匯表D,將服務(wù)描述文集C中所有文檔的每一個(gè)關(guān)鍵詞替換為D中相應(yīng) 服務(wù)詞匯;E2、設(shè)服務(wù)描述文集C包含N個(gè)文件,服務(wù)詞匯表D包含M個(gè)詞匯,構(gòu)造一個(gè)MXN矩陣N;£3、針對矩陣及,采用期望最大化算法,估計(jì)參數(shù)?((1)4((1|2)和p(w|z);E4、在服務(wù)描述文集C中,依據(jù)下式計(jì)算每一個(gè)文檔d的索引 Index = argmaxkp (zk | d)。
5.根據(jù)權(quán)利要求1所述面向自然語言處理的語義Web服務(wù)搜索方法,其特征在于,所述 服務(wù)搜索算法包括如下步驟F1、基于服務(wù)詞匯表D,將服務(wù)查詢q中每一個(gè)關(guān)鍵詞替換為D中相應(yīng)服務(wù)詞匯; F2、采用期望最大化算法,估計(jì)參數(shù)p (z | q),其中z是隱含語義變量、目標(biāo)函數(shù)改為<formula>formula see original document page 3</formula>F3、依據(jù)下式計(jì)算服務(wù)查詢q的索引Index = argmaxkp (zk | q),在服務(wù)描述文集C與服 務(wù)查詢q具有相同索引的服務(wù)就是用戶請求的服務(wù)。
6.一種面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng),其特征在于,包括Web服務(wù)采集子系統(tǒng)用于采集互聯(lián)網(wǎng)或內(nèi)聯(lián)網(wǎng)上發(fā)布的Web服務(wù)描述文件,并將處理 后的數(shù)據(jù)傳送到服務(wù)倉庫;Web服務(wù)搜索引擎接受自然語言用戶接口傳送的Web服務(wù)語義關(guān)鍵詞,并搜索存放 WSDL文件的服務(wù)倉庫,檢索最大化滿足客戶需求的Web服務(wù)描述文件,將結(jié)果傳遞到Web服 務(wù)執(zhí)行引擎;自然語言用戶接口 接收用戶自然語言輸入,解析并生成精確、標(biāo)準(zhǔn)和簡潔的服務(wù)請 求;向Web服務(wù)搜索引擎?zhèn)鬟f用戶自然語言輸入的Web服務(wù)語義關(guān)鍵詞,同時(shí)接受來自Web 服務(wù)執(zhí)行引擎的信息,分析服務(wù)輸出,并結(jié)合自然語言輸出模板,生成自然語言輸出;Web服務(wù)執(zhí)行引擎將搜索到的Web服務(wù)的定義、數(shù)據(jù)準(zhǔn)備、服務(wù)調(diào)用和服務(wù)結(jié)果綜合 處理,將處理結(jié)果傳輸?shù)阶匀徽Z言用戶接口。
7.根據(jù)權(quán)利要求6所述面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng),其特征在于, 所述Web服務(wù)采集子系統(tǒng)包括如下模塊URL管理模塊基于商業(yè)搜索引擎和公開UDDI搜索WSDL文件,構(gòu)造初始URL列表;并 將獲取的URL列表作為任務(wù)分配到每個(gè)爬蟲;服務(wù)爬蟲模塊每個(gè)爬蟲實(shí)現(xiàn)為一個(gè)自治工作線程,從URL管理模塊獲取給定URL的 WSDL文件并存儲到鏈接分析模塊所指定位置;鏈接分析模塊將不合法的WSDL分類;基于不同類型的特性執(zhí)行分析,當(dāng)遇到非法 WSDL文件,檢查是否是HTML文件,如果是,則調(diào)用其HTML解析器嘗試發(fā)現(xiàn)真正WSDL文件的 鏈接,將潛在的WSDL鏈接傳送到URL管理模塊,等待下一輪抓取。
8.根據(jù)權(quán)利要求6所述面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng),其特征在于, 所述自然語言用戶接口包括如下模塊用戶自然語言詢問分析器包括自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè)模塊, 通過自然語言預(yù)處理、應(yīng)答分類和關(guān)鍵詞集抽取三個(gè)步驟實(shí)現(xiàn)基于用戶自然語言詢問的應(yīng) 答類型確定和標(biāo)識關(guān)鍵詞集的任務(wù);結(jié)果過濾器依據(jù)應(yīng)答類型選擇應(yīng)答模板,抽取服務(wù)結(jié)果填充應(yīng)答模板構(gòu)造應(yīng)答,將來 自Web服務(wù)執(zhí)行引擎及關(guān)鍵詞集抽取的信息服務(wù)結(jié)果邏輯綜合后通過自然語言模板輸出。
9.根據(jù)權(quán)利要求6所述面向自然語言處理的語義Web服務(wù)智能代理系統(tǒng),其特征在于, 所述Web服務(wù)執(zhí)行引擎包括如下模塊服務(wù)定位模塊根據(jù)選擇服務(wù)綁定到對應(yīng)的WSDL文件,實(shí)現(xiàn)服務(wù)的定位; 數(shù)據(jù)準(zhǔn)備模塊根據(jù)用戶輸入構(gòu)造服務(wù)請求文件,并與用戶交互獲取缺失信息; 服務(wù)調(diào)用模塊裝載服務(wù)請求數(shù)據(jù),調(diào)用該Web服務(wù); 結(jié)果返回模塊將服務(wù)調(diào)用的結(jié)果返回給用戶;服務(wù)定位模塊和數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)準(zhǔn)備模塊和服務(wù)調(diào)用模塊通過文件系統(tǒng)共享文件 實(shí)現(xiàn)數(shù)據(jù)交換;服務(wù)調(diào)用模塊和結(jié)果返回模塊通過程序調(diào)用實(shí)現(xiàn)數(shù)據(jù)交換。
全文摘要
本發(fā)明是一種面向自然語言處理的語義Web服務(wù)智能代理,包括面向自然語言處理的語義Web服務(wù)搜索方法和服務(wù)智能代理系統(tǒng),Web服務(wù)采集子系統(tǒng)與Web服務(wù)搜索引擎通過共享服務(wù)倉庫實(shí)現(xiàn)數(shù)據(jù)鏈接;自然語言用戶接口與Web服務(wù)搜索引擎、自然語言用戶接口與服務(wù)執(zhí)行引擎通過TCP網(wǎng)絡(luò)連接實(shí)現(xiàn)數(shù)據(jù)交換。采用信息抽取法獲取描述服務(wù)的關(guān)鍵詞集,以概率隱含語義索引方法構(gòu)建服務(wù)語義索引,基于WSDL的語義Web服務(wù)搜索方法,利用詞匯相似度,基于簽名文本匹配。提高搜索的精確度并簡化算法優(yōu)化設(shè)計(jì),提高了查準(zhǔn)率和查全率,具有兼容性,易于推廣應(yīng)用。為面向自然語言處理的智能代理的實(shí)際應(yīng)用解決路徑的技術(shù)問題,具有突破性的意義。
文檔編號G06F17/30GK101833561SQ20101010965
公開日2010年9月15日 申請日期2010年2月12日 優(yōu)先權(quán)日2010年2月12日
發(fā)明者劉志境, 姚勇, 朱旭東, 楊偉, 王靜 申請人:西安電子科技大學(xué)