欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

詢問應(yīng)答系統(tǒng)及詢問應(yīng)答方法

文檔序號(hào):6381253閱讀:367來源:國(guó)知局
專利名稱:詢問應(yīng)答系統(tǒng)及詢問應(yīng)答方法
技術(shù)領(lǐng)域
本發(fā)明涉及對(duì)用戶輸入的詢問輸出應(yīng)答的詢問應(yīng)答系統(tǒng)。
背景技術(shù)
以因特網(wǎng)的檢索引擎為代表的檢索適合用戶檢索要求的文件并進(jìn)行歸類的文件檢索技術(shù)正廣為普及。但在文件檢索中,“想閱讀有關(guān)……的新聞報(bào)道”、“想查閱有關(guān)……的萬維網(wǎng)頁(yè)”之類的檢索要求雖可滿足,而對(duì)于“○×公司的經(jīng)理是誰(shuí)?”、“富士山高幾許?”、“鯨魚是否將要滅絕?”這類的詢問,則不能應(yīng)答。這就是說,文件檢索不過是對(duì)文件或文件中的一節(jié)作出應(yīng)答,用戶還必須根據(jù)文件檢索的輸出結(jié)果,自己探索應(yīng)答。
作為對(duì)于輸入的詢問輸出應(yīng)答的機(jī)構(gòu)已有詢問應(yīng)答系統(tǒng)。詢問應(yīng)答系統(tǒng),例如對(duì)于“○×公司的經(jīng)理是誰(shuí)?”這類問題并不輸出○×公司主頁(yè)等有關(guān)○×公司的文件,而是輸出○×公司的經(jīng)理姓名的應(yīng)答。此外,對(duì)于“富士山高幾許”這種詢問,則輸出“富士山高3776m”的應(yīng)答。詢問應(yīng)答系統(tǒng)例如非特許文獻(xiàn)1Wendy G.Lehnert“TheProcess of Question Answering-A Computer Simulation ofCognition”,Lawrence Erlbaum Associates,Publishers,HillsdateNew Jersey,1978所示,過去都是作為擴(kuò)展系統(tǒng)的一種進(jìn)行研究,但近年來則作為信息檢索與信息提取等研究的發(fā)展形式重新受到注意。
例如接受日語(yǔ)詢問,應(yīng)用日語(yǔ)知識(shí)源生成應(yīng)答的單語(yǔ)言詢問應(yīng)答系統(tǒng),通過利用已有的信息檢索技術(shù)(探索出包含特定單詞的文本的技術(shù))與信息提取技術(shù)(例如提取出人名、地名、數(shù)值等特定種類信息的技術(shù))的組合,能夠在某種程度上容易實(shí)現(xiàn)。但是在應(yīng)用單語(yǔ)言知識(shí)源生成應(yīng)答的單語(yǔ)言詢問系統(tǒng)中存在下述問題。
第一個(gè)問題是,為了制成對(duì)應(yīng)于詢問的應(yīng)答,必要的信息量不充分,而這將關(guān)系到應(yīng)答覆蓋率與可靠性的降低。例如為了應(yīng)答日語(yǔ)的詢問,有時(shí)必要的信息雖于英語(yǔ)的萬維網(wǎng)頁(yè)上有記載但在日語(yǔ)的萬維網(wǎng)頁(yè)上卻沒有記述,因而不能在實(shí)際中應(yīng)用這種英語(yǔ)信息,而日語(yǔ)單語(yǔ)言詢問系統(tǒng)在構(gòu)成應(yīng)答時(shí)是失敗的。這就是覆蓋率的問題。又例如,對(duì)于“○×社の社長(zhǎng)は誰(shuí)か?”這樣的詢問,對(duì)于從日語(yǔ)知識(shí)源可以檢索到“○×社の社長(zhǎng)はA氏である”與“○×社の社長(zhǎng)はB氏である”這樣兩種應(yīng)答候選而從英語(yǔ)知識(shí)源只能檢索到“The presidentof ○× Corporation is Mr.A”這樣一種應(yīng)答候選的情形,只能有效利用日語(yǔ)知識(shí)源的日語(yǔ)單語(yǔ)言詢問應(yīng)答系統(tǒng),就不能判定應(yīng)答A氏與B氏哪一個(gè)的可靠性高。但在實(shí)際中可以認(rèn)為,作為綜合了日語(yǔ)知識(shí)與英語(yǔ)知識(shí)的A氏的應(yīng)答,其可靠性高。再有,與詢問應(yīng)答系統(tǒng)不同的技術(shù),已知有這樣的信息檢索裝置(例如參考特許文獻(xiàn)1特開平11-219368號(hào)公報(bào)),它能在即使檢索對(duì)象數(shù)據(jù)庫(kù)的描述語(yǔ)言與輸入關(guān)鍵詞的描述語(yǔ)言不同的情形,也可對(duì)于輸入的關(guān)鍵詞獲得確實(shí)的檢索結(jié)果的輸出。
第二個(gè)問題是,為了構(gòu)成對(duì)應(yīng)于詢問的應(yīng)答,所需的信息在本質(zhì)上會(huì)有偏見。例如對(duì)于“鯨魚是否將要滅絕?”的詢問,當(dāng)作為知識(shí)源只利用由進(jìn)行捕鯨的國(guó)家的語(yǔ)言所寫成的萬維網(wǎng)頁(yè)上,就只能得到“鯨魚并非將要滅絕,而是某種鯨魚正在增殖”這樣內(nèi)容的應(yīng)答,相反,當(dāng)只把禁止捕鯨或反對(duì)捕鯨的國(guó)家語(yǔ)言所寫成的萬維網(wǎng)頁(yè)用作知識(shí)源時(shí),則僅僅能獲得“鯨魚由于捕鯨國(guó)的濫捕正處于滅絕中”這樣的內(nèi)容回答。這樣,若將語(yǔ)言限定,就有可能將原本為多樣性的觀點(diǎn)加以限制。
第三個(gè)問題是,每種語(yǔ)言知識(shí)源的充實(shí)度相異。由于知識(shí)源的充實(shí)度不同,在許多情形下,會(huì)對(duì)于某個(gè)特定的詢問最好是利用對(duì)這種詢問的應(yīng)答有充實(shí)性的語(yǔ)言A的知識(shí)源,而對(duì)于另一特定的詢問則最好不利用語(yǔ)言A而利用對(duì)于此詢問的應(yīng)答充實(shí)的語(yǔ)言B的知識(shí)源。例如對(duì)于有關(guān)伊麗莎白女王的詢問,英語(yǔ)的萬維網(wǎng)頁(yè)也許是最充實(shí)的知識(shí)源,而有關(guān)相撲的詢問則日語(yǔ)的萬維網(wǎng)頁(yè)或許是最充實(shí)的知識(shí)源。在這類情形下,不能處理此種充實(shí)度不同的單語(yǔ)言詢問應(yīng)答系統(tǒng),取決于詢問,應(yīng)答在實(shí)質(zhì)上有很大的偏離。

發(fā)明內(nèi)容
本發(fā)明是在考慮到上述問題后而提出的,目的是在對(duì)于用戶輸入的詢問輸出應(yīng)答的詢問應(yīng)答系統(tǒng)中,有效地利用語(yǔ)言不同的許多知識(shí)源,由此來提高應(yīng)答的覆蓋率、可靠性、多樣性與穩(wěn)定性。
本發(fā)明的詢問應(yīng)答系統(tǒng)是包括對(duì)于用戶以第一語(yǔ)言輸入的詢問,應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一知識(shí)數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的第二知識(shí)數(shù)據(jù)庫(kù)求得應(yīng)答的詢問應(yīng)答系統(tǒng),其特征在于此系統(tǒng)具有對(duì)于上述詢問檢索上述第一知識(shí)數(shù)據(jù)庫(kù)求得第一語(yǔ)言的應(yīng)答候選的單元;將上述詢問機(jī)械翻譯成第二語(yǔ)言的單元;對(duì)于翻譯成上述第二語(yǔ)言的詢問,檢索上述第二知識(shí)數(shù)據(jù)庫(kù)求得第二語(yǔ)言的應(yīng)答候選的單元;將上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的單元;以及將上述第一語(yǔ)言的應(yīng)答候選與上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全都依據(jù)預(yù)定基準(zhǔn)排序的單元。
在上述詢問應(yīng)答系統(tǒng)的結(jié)構(gòu)中,還具有基于上述排序從上述應(yīng)答候選中確定其中之一應(yīng)答的單元。
也可以將上述第一與第二數(shù)據(jù)庫(kù)中檢索命中件數(shù)的多少作為上述基準(zhǔn)。
還具備有通過字句處理確定上述各個(gè)應(yīng)答候選的簡(jiǎn)明性或網(wǎng)羅度的單元,而也可將此簡(jiǎn)明性或網(wǎng)羅度作為上述基準(zhǔn)。
本發(fā)明的詢問應(yīng)答方法是包括對(duì)于用戶以第一語(yǔ)言輸入的詢問,應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的第二知識(shí)數(shù)據(jù)庫(kù)求得應(yīng)答的詢問應(yīng)答方法。其特征在于此方法具有對(duì)于上述詢問檢索上述第一知識(shí)數(shù)據(jù)庫(kù)求得第一語(yǔ)言的應(yīng)答候選的步驟;將上述詢問機(jī)械翻譯成第二語(yǔ)言的步驟;對(duì)于翻譯成上述第二語(yǔ)言的詢問,檢查上述第二知識(shí)數(shù)據(jù)庫(kù)求得第二語(yǔ)言的應(yīng)答候選的步驟;將上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的步驟;以及將上述第一語(yǔ)言的應(yīng)答候選與上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全都依據(jù)預(yù)定基準(zhǔn)排列順序的步驟。
在上述詢問應(yīng)答方法中,還具有基于上述順序從上述應(yīng)答候選中確定其中之一應(yīng)答的步驟。
也可以將上述第一與第二數(shù)據(jù)庫(kù)中檢索命中件數(shù)的多少作為上述基準(zhǔn)。
還具備有通過字句處理確定上述各個(gè)應(yīng)答候選簡(jiǎn)明性或網(wǎng)羅度的步驟,而也可將此簡(jiǎn)明性或網(wǎng)羅度作為上述基準(zhǔn)。
本發(fā)明的詢問應(yīng)答程序是包括對(duì)于用戶以第一語(yǔ)言輸入的詢問,應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的第二知識(shí)數(shù)據(jù)庫(kù)求得應(yīng)答的詢問應(yīng)答程序,其特征在于此程序包括對(duì)于上述詢問檢索上述第一知識(shí)數(shù)據(jù)庫(kù)求得第一語(yǔ)言的應(yīng)答候選的過程;將上述詢問機(jī)械翻譯成第二語(yǔ)言的過程;對(duì)于翻譯成上述第二語(yǔ)言的詢問,檢查上述第二知識(shí)數(shù)據(jù)庫(kù)求得第二語(yǔ)言的應(yīng)答候選的過程;將上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的過程;以及將上述第一語(yǔ)言的應(yīng)答候選與上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全都依據(jù)預(yù)定基準(zhǔn)排列順序的過程。
在上述詢問應(yīng)答程序中,還具有基于上述排列順序從上述應(yīng)答候選中確定其中之一應(yīng)答的過程。
還具備有通過字句處理確定上述各個(gè)應(yīng)答候選簡(jiǎn)明性或網(wǎng)羅度的過程,而也可將此簡(jiǎn)明性或網(wǎng)羅度作為上述基準(zhǔn)。
如上所述,根據(jù)本發(fā)明的對(duì)于用戶輸入的詢問而輸出應(yīng)答的詢問應(yīng)答系統(tǒng),可以有效地利用語(yǔ)言不同的多個(gè)知識(shí)源,能夠因此提高應(yīng)答的覆蓋率、可靠性、多樣性與穩(wěn)定性。


圖1是概示本發(fā)明一實(shí)施形式的詢問應(yīng)答系統(tǒng)結(jié)構(gòu)的框圖。
圖2是例示實(shí)施形式的信息提取單元中處理步驟的流程圖。
圖3是例示實(shí)施形式的檢索單元中處理步驟的流程圖。
圖4是例示實(shí)施形式的翻譯單元中處理步驟的流程圖。
圖5是例示實(shí)施形式的應(yīng)答構(gòu)成單元中處理步驟的流程圖。
圖6示明由實(shí)施形式的詢問應(yīng)答系統(tǒng)求得的應(yīng)答候選的輸出方法的一例。
圖7示明由實(shí)施形式的詢問應(yīng)答系統(tǒng)求得的應(yīng)答候選的輸出方法的另一例。
具體實(shí)施形式下面參照

本發(fā)明的實(shí)施形式。
圖1是概示本發(fā)明一實(shí)施形式的詢問應(yīng)答系統(tǒng)結(jié)構(gòu)的框圖。這種詢問應(yīng)答系統(tǒng)例如可用通用計(jì)算機(jī)以及于此計(jì)算機(jī)上工作的軟件實(shí)現(xiàn)。而且包括由輸入單元與輸出單元組成的用戶接口4、檢索單元10、信息提取單元15、應(yīng)答生成單元與翻譯單元19。用戶接口4采用鍵盤或鼠標(biāo)等輸入裝置、顯示器等輸出裝置與硬件、檢索單元10、信息提取單元15、應(yīng)答生成單元18、翻譯單元19能作為在通用操作系統(tǒng)下工作的計(jì)算機(jī)程序模塊實(shí)現(xiàn)。
本發(fā)明雖然包含處理任意多種語(yǔ)言知識(shí)源的情形,但在實(shí)施形式的說明中,為方便起見,設(shè)定處理語(yǔ)言1與語(yǔ)言2組成的兩種語(yǔ)言的知識(shí)源,例如語(yǔ)言1假設(shè)為“日語(yǔ)”,語(yǔ)言2假設(shè)為“英語(yǔ)”。
下面首先說明本系統(tǒng)的整體處理步驟,然后詳述主要模塊的具體處理步驟。
整體處理步驟圖1中以虛線箭頭示明關(guān)于詢問的信息流,以實(shí)線箭頭示明關(guān)于應(yīng)答的信息流。
信息提取單元15首先從以多種語(yǔ)言描述的文件16、17中進(jìn)行信息提取,對(duì)每一種語(yǔ)言形成知識(shí)數(shù)據(jù)庫(kù)13、14。
當(dāng)用戶從輸入單元6輸入語(yǔ)言1(在此為日語(yǔ))的詢問后,此輸入的詢問即轉(zhuǎn)送給輸入單元6檢索單元10與翻譯單元19。翻譯單元19將此詢問翻譯成語(yǔ)言2(在此為英語(yǔ))的詢問,轉(zhuǎn)送給檢索單元10。
檢索單元10對(duì)于輸入單元6轉(zhuǎn)送來的詢問檢索語(yǔ)言1(日語(yǔ))的知識(shí)數(shù)據(jù)庫(kù)(下面稱作“日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)”)13,再對(duì)由翻譯單元19翻譯成英語(yǔ)的詢問檢索語(yǔ)言2(英語(yǔ))的知識(shí)數(shù)據(jù)庫(kù)(下面稱作英語(yǔ)知識(shí)數(shù)據(jù)庫(kù))14。將這樣求得的日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的檢索結(jié)果(語(yǔ)言1的應(yīng)答候選)轉(zhuǎn)送給應(yīng)答生成單元18,而將英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14的檢索結(jié)果(語(yǔ)言2的應(yīng)答候選)轉(zhuǎn)送給翻譯單元19。然后翻譯單元19將語(yǔ)言2的應(yīng)答候選翻譯成語(yǔ)言1轉(zhuǎn)送給應(yīng)答生成單元18。也即將英語(yǔ)描述的應(yīng)答候選譯成日語(yǔ)而轉(zhuǎn)送給應(yīng)答生成單元18。
從以上所述,應(yīng)答生成單元18得到了統(tǒng)一到語(yǔ)言1(日語(yǔ))的應(yīng)答候選。此應(yīng)答生成單元18于應(yīng)答候選間進(jìn)行比較,判定應(yīng)答的順序,將應(yīng)答信息傳送給輸出單元8。在以上處理中,與已有詢問應(yīng)答系統(tǒng)不同的主要之處是,將作為檢索結(jié)果取得的不同語(yǔ)言的回答候選之中至少一種語(yǔ)言的應(yīng)答候選,通過翻譯單元19進(jìn)行機(jī)械翻譯,在應(yīng)答候選統(tǒng)一到另一種語(yǔ)言同時(shí),對(duì)于此進(jìn)行了語(yǔ)言統(tǒng)一的回答候選組,由應(yīng)答生成部18進(jìn)行比較處理。
下面對(duì)于上述問題按照信息提取單元15、檢索單元10、翻譯單元19、生成單元18各個(gè)的處理順序,作詳細(xì)說明。
信息提取單元的處理步驟圖2是例示信息提取單元15的處理的流程圖。
信息提取單元15讀入以語(yǔ)言i(i=1,2,…)寫成的第j文件(j=1,2,…),利用已有的信息提取技術(shù)從該文件提取信息,將其結(jié)果登錄于語(yǔ)言i的知識(shí)數(shù)據(jù)庫(kù)中。
這里,作為信息提取的具體方法例如有語(yǔ)形學(xué)和模式匹配等方法。舉例來說,當(dāng)知識(shí)源為日語(yǔ)而文件16中包括“○×社(社長(zhǎng)○×太郎)”這種表示時(shí),將其進(jìn)行語(yǔ)形學(xué)分析得到以下分析結(jié)果“/○×社<專有名詞>/(<符號(hào)>/社長(zhǎng)<普通名詞>/<符號(hào)>/○×太郎<專有名詞>/)<符號(hào)>”這里的“/”表示詞類的分割。
在此假定,通過采用將“/X<專有名詞>/(<符號(hào)>/社長(zhǎng)<普通名詞>/<符號(hào)>/Y<專有名詞>/)<符號(hào)>”這種語(yǔ)形的排列改寫為“ X[PRESIDENT==Y(jié)]”這樣的知識(shí)表示的信息提取規(guī)則,可以得到
“○×社[PRESIDENT==○×太郎]”這樣的知識(shí)。
又例如通過采用將“/X<專有名詞>/の<助詞>/Y<專有名詞>/社長(zhǎng)<普通名詞>”這種語(yǔ)形的排列改寫為“X[PRESIDENT==Y(jié)]”這樣的知識(shí)表示的信息提取規(guī)則,同樣能從“○×社の○×太郎社長(zhǎng)…”獲得“○×社”PRESIDENT==○×太郎”的知識(shí)。
再有,例如當(dāng)知識(shí)源為英語(yǔ)時(shí),通過進(jìn)行詞類檢測(cè)(Part-of-Speech tagging)來代替語(yǔ)形分析,可以從文件17中的“Taro ○×,president of ○× Corporation,…”這種表示,獲得例如“○×__Corporation[PRESIDENT==Toro__○×]”這樣的表現(xiàn)形式的知識(shí)。
此外,在上述這種表現(xiàn)形識(shí)的知識(shí)中,也可附加作為源的文件的識(shí)別號(hào)。這樣,就能在以后階段掌握能由哪種文件文本獲得各種知識(shí)數(shù)據(jù)。
信息提取單元15將以上求得的各種知識(shí)按每種語(yǔ)言登錄于知識(shí)數(shù)據(jù)庫(kù)13、14中。
檢索單元的處理圖3是例示檢索單元10的處理的流程圖。
檢索單元10首先從輸入單元6接收用戶的詢問(步驟S11),再由翻譯單元19接收該詢問的翻譯結(jié)果(步驟S12)。然后對(duì)于由語(yǔ)言i(i=1,2,…)寫成的各詢問生成檢索條件。例如將“○×社の社長(zhǎng)は?”的日語(yǔ)詢問由檢索單元10變換為“○×社[PRESIDENT==*]”這樣表現(xiàn)形式的檢索條件(步驟13)。這里的符號(hào)“*”表示字分割。檢索單元10應(yīng)用生成的檢索條件檢索日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13(步驟15)。由此,例如進(jìn)行“○×社[PRESIDENT==○×太郎]這種數(shù)據(jù)的匹配,作為應(yīng)答候選能得到”“○×太郎”。一般可以得到多個(gè)應(yīng)答候選。
檢索單元10對(duì)于日語(yǔ)以外的詢問也進(jìn)行同樣的處理。具體地說,例如對(duì)于英語(yǔ)的詢問“Who is the president of ○× Corporation?”,可將其變換為“○×_Corporation[PRESIDENT==*]”這樣的檢索條件(步驟S14),應(yīng)用它檢索英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14(步驟S15),由此作為應(yīng)答候得到“Taro_○×”。
檢索單元10于步驟S16判定現(xiàn)在處理中的詢問的語(yǔ)言是否與用戶輸入的詢問語(yǔ)言相同?根據(jù)此判定結(jié)果將應(yīng)答候選再接轉(zhuǎn)送給應(yīng)答生成單元18(步驟17)或是翻譯單元19(步驟18)。例如用戶詢問的輸入語(yǔ)言是日語(yǔ)時(shí),則通過日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的檢索求得的應(yīng)答候選原樣地轉(zhuǎn)送給應(yīng)答生成單元18,而通過英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14的檢索取得的應(yīng)答候選則傳送給用戶翻譯成日語(yǔ)的翻譯單元19。
翻譯單元的處理圖4(a)例示翻譯單元19的詢問處理程序的流程圖,圖4(b)例示翻譯單元19的應(yīng)答處理程序的流程圖。翻譯單元19對(duì)詢問進(jìn)行機(jī)械翻譯轉(zhuǎn)送給檢索單元10。此外將應(yīng)答候選進(jìn)行機(jī)械翻譯轉(zhuǎn)送給應(yīng)答生成單元18。
例如當(dāng)從輸入單元6接收到“○×社の社長(zhǎng)は?”(步驟S21),翻譯單元即將其機(jī)械翻譯成“Who is the president of ○×Corporation?”(步驟S22),將該機(jī)械翻譯的結(jié)果轉(zhuǎn)送給檢索單元10(步驟S23)。另一方面,當(dāng)從檢索單元10接收到“Taro_○×”這樣的應(yīng)答候選字符串(步驟S24)后,翻譯單元19將其機(jī)械翻譯成“○×太郎”(步驟2 5),并將此翻譯結(jié)果轉(zhuǎn)送給應(yīng)答生成單元18(步驟S26)。
應(yīng)答生成單元的處理步驟圖5是例示本實(shí)施形式的應(yīng)答生成單元18的處理步驟的流程圖。
應(yīng)答生成單元18首先從檢索單元10接收應(yīng)答候選(步驟S27),然后還從翻譯單元19接收應(yīng)答候選(步驟S28)。如上所述,從檢索單元10接收的應(yīng)答候選的語(yǔ)言與從翻譯單元19接收的應(yīng)答候選語(yǔ)言是相同的。例如用戶以日語(yǔ)詢問時(shí),從檢索單元1 0接收的應(yīng)答候選乃是從日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的檢索取得的日語(yǔ)的應(yīng)答候選本身,另一方面由翻譯單元19接收的應(yīng)答候選,則是將檢索單元10檢索英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14所得的英語(yǔ)的應(yīng)答候選翻譯成日語(yǔ)的結(jié)果。這樣,應(yīng)答生成單元18只處理一種語(yǔ)言。
應(yīng)答生成單元18對(duì)應(yīng)答候選進(jìn)行相互比較處理(步驟S29)。由此確定應(yīng)答的順序,將最佳應(yīng)答或附有順序的應(yīng)答轉(zhuǎn)送給輸出部8(步驟30)。下面詳述應(yīng)答的順序的判定方法。
應(yīng)答順序的確定方法再次考慮假設(shè)輸入“○×社の社長(zhǎng)は?”這樣的日語(yǔ)詢問的情形,而在此利用“信息提取單元的處理步驟”所述的,將“/X<專有名詞>/の<助詞>/Y<專有名詞>/社長(zhǎng)<普通名詞>”這樣的語(yǔ)形排列改寫為“X[PRESIPENT==Y(jié)]這樣的知識(shí)表示的信息提取規(guī)則,同時(shí)假定在日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的形成中所用的日語(yǔ)文件16內(nèi)包含有(a)“○×社の○×太郎社長(zhǎng)”(b)“○×社の○×社長(zhǎng)”(c)“○×社は…△△社ヘの出資を決あた。 ○×社の△△社長(zhǎng)に対する期待は大きい?!边@樣的表示。
作為應(yīng)答候選,可得到“○×太郎”、“○×”與“△△”等。這里“△△”的應(yīng)答候選,在上述(c)的“○×社の△△社長(zhǎng)(に対する期待は大きい)”的表示中,雖可由于信息提取規(guī)則的匹配得到,但在實(shí)際中假定其作為應(yīng)答是不妥的(此外,即使信息提取的精度高,但由于還要考慮到在原始文件本身中也會(huì)有寫得不真實(shí)的情形,一般在應(yīng)答候選中混雜有不妥當(dāng)內(nèi)容的可能性不小)。
在此,檢索日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的結(jié)果,假設(shè)得到“○×太郎”這樣的應(yīng)答候補(bǔ)3件,“○×”這樣的應(yīng)答候選1件,“△△”這樣的應(yīng)答候選1件。在把“○×社の社長(zhǎng)は?”這樣的日語(yǔ)詢問翻譯成英語(yǔ),再基于此詢問譯成英語(yǔ)的結(jié)果來檢索英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14時(shí),設(shè)將由此檢索的應(yīng)答候選翻譯成日語(yǔ)的結(jié)果得到了“○×太郎”這樣的應(yīng)答候選2件,“○×”這樣的回答候選1件。在以上情形下,例如可以依據(jù)單純的多數(shù)決定法決定應(yīng)答的順序。
圖6例示由本實(shí)施形式的詢問應(yīng)答系統(tǒng)求得的應(yīng)答候選的輸出方法。這里的多個(gè)應(yīng)答(候選)1~3(“○×太郎”、“○×”、“△△”),在從日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的檢索結(jié)果與從英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14的檢索結(jié)果中,按命中的順序分類(202)。圖6中,由黑圓點(diǎn)“●”所示的標(biāo)記204表示命中的知識(shí)數(shù)據(jù)。此種標(biāo)記204在表203中按知識(shí)源不同進(jìn)行區(qū)分顯示,用戶據(jù)此可判斷知識(shí)數(shù)據(jù)的語(yǔ)言類別。上述這種標(biāo)記顯示只不過是一個(gè)例子。例如取代標(biāo)記204也可示以文件ID等。此外,也可對(duì)標(biāo)記204設(shè)置為可點(diǎn)來,根據(jù)用戶的單擊指示,顯示知識(shí)源文件中的相應(yīng)處所。
在圖6的顯示例中,應(yīng)答2“○×”與應(yīng)答3“△△”的日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13中的命中件數(shù)都是1。在采用已有的單一語(yǔ)言知識(shí)源的詢問應(yīng)答系統(tǒng)中不能判斷采用哪種回答為佳。但在本發(fā)明的實(shí)施形式中,由于應(yīng)答2“○×”不僅能從日語(yǔ)知識(shí)源而且也能從英語(yǔ)知識(shí)源求得,故可判定其比只能從日語(yǔ)知識(shí)源得到的應(yīng)答3“△△”的可靠性高。
在圖6的顯示例中,為使用戶能選擇應(yīng)答候選的輸出方法,設(shè)有復(fù)迭框201,在此選擇的是“多數(shù)決定”。
作為輸出方法的其他選擇方式,與多數(shù)決定的形式相反,有以應(yīng)答候選的獨(dú)特性(珍稀性)為基準(zhǔn)附以順序顯示的“唯一性”,有以應(yīng)答候選的網(wǎng)羅性(詳盡度)為基準(zhǔn)排序顯示的“網(wǎng)羅性”,有以應(yīng)答的簡(jiǎn)明性為基準(zhǔn)附以順序顯示的“簡(jiǎn)明性”等。此外,也可以不以單純地將命中件數(shù)的多寡作為基準(zhǔn)分類,例如可進(jìn)行這樣的排序使日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13與英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14各命中1次(命中數(shù)總計(jì)為2)的應(yīng)答候選,優(yōu)先于于日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13中兩次命中的應(yīng)答候選。
又例如,應(yīng)答候選“○×”是“○×太郎”的部分字符串一事,容易基于字句處理判定。因此也可以將信息量更多的“○×太郎”一方優(yōu)先地顯示。
根據(jù)網(wǎng)羅性或簡(jiǎn)明性觀點(diǎn)來確定應(yīng)答候選順序的另一例子示明于圖7中。這里的詢問“酵素つて何?”是要求把所用詞的定義作為應(yīng)答的日語(yǔ)詢問(300)。在處理上述詢問300的情形,信息提取部15例如將包含“…は…の一種です”這樣的表示的文本(例如語(yǔ)句或段落)視作所用詞的定義,而預(yù)先將其提取出。此外,例如對(duì)于英語(yǔ)的知識(shí)源,則把包含“…is a kind of…”或“…is a type of…”這類慣用表示的文本視作定義,預(yù)先提取出。
如圖7例示,假定對(duì)于日語(yǔ)知識(shí)數(shù)據(jù)庫(kù)13的定義表示的檢索,作為應(yīng)答得到了例如下述的文本A1“酵素は、觸媒の一種です。觸媒とは、化學(xué)反応を速ある…”A2“酵素は觸媒の一種?!痹儆校ㄟ^將日語(yǔ)的“酵素つて何?”作機(jī)械翻譯則得到“What is anenzyme?”這樣的英語(yǔ)詢問,通過對(duì)英語(yǔ)知識(shí)數(shù)據(jù)庫(kù)14的定義表示的檢索,假定作為應(yīng)答得到了“An enzyme is a kind of catalyst”這樣的文本。
將上述英語(yǔ)的應(yīng)答通過機(jī)械翻譯翻譯成日語(yǔ)后,例如得到A2′“酵素は觸媒の一種です。”據(jù)此,應(yīng)答生成單元18從檢索單元18接收到上述應(yīng)答A1與A2而從翻譯單元19接收到A2′。
在上述情形下,應(yīng)答生成部18例如對(duì)A1、A2與A2′的各個(gè)進(jìn)行語(yǔ)形分析,求出單詞的“不同”,以此為基礎(chǔ),進(jìn)行應(yīng)答候選的整理與排定優(yōu)先順序。
具體地說,根據(jù)應(yīng)答A1,得到不同的單詞“酵素、觸媒、一種、化學(xué)、反応”;根據(jù)A2與A2′則得到不同的單詞“酵素、觸媒、一種”。由此可知,A2與A2′作為應(yīng)答是等價(jià)的,而A1比A2與A2′的網(wǎng)羅性(詳細(xì)度)高。將上述結(jié)論示明于圖7中。按照網(wǎng)羅性高的順序排列給用戶以提示。
相反,在用戶追求“簡(jiǎn)潔性”的原則,則可按照?qǐng)D7所示相反的順序進(jìn)行顯示。
在以上的說明中是對(duì)于應(yīng)答候選是排序,將據(jù)此分類的結(jié)果提示給用戶,但也可將上述順序只顯示1件最大的。
通過在文件檢索中利用機(jī)械翻譯等的例如用日語(yǔ)檢索要求來實(shí)現(xiàn)英語(yǔ)文件檢索的交叉語(yǔ)言信息檢索(cross-language informationretrieval)這種技術(shù),已是周知的,但這終究是為了對(duì)文件進(jìn)行排序而來計(jì)算檢索要求與各個(gè)文件的類似度,這同除進(jìn)行機(jī)械翻譯外還進(jìn)行應(yīng)答候選相互間比較以選定最佳應(yīng)答的本發(fā)明的實(shí)施形式是不同的。
權(quán)利要求
1.一種詢問應(yīng)答系統(tǒng),它是對(duì)于用戶以第一語(yǔ)言輸入的詢問應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一知識(shí)數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的第二知識(shí)數(shù)據(jù)庫(kù)求得應(yīng)答的詢問應(yīng)答系統(tǒng),其特征在于此系統(tǒng)具有對(duì)于上述詢問,檢索上述第一知識(shí)數(shù)據(jù)庫(kù),求得第一語(yǔ)言的應(yīng)答候選的單元;將上述詢問機(jī)械翻譯成第二語(yǔ)言的單元;對(duì)于翻譯成上述第二語(yǔ)言的詢問,檢索上述第二知識(shí)數(shù)據(jù)庫(kù),求得第二語(yǔ)言的應(yīng)答候選的單元;將上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的單元;以及將上述第一語(yǔ)言的應(yīng)答候選與上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全都依據(jù)預(yù)定基準(zhǔn)排序的單元。
2.權(quán)利要求1所述的詢問應(yīng)答系統(tǒng),其特征在于,此系統(tǒng)還具有基于上述排序從上述應(yīng)答候選中確定其中之一個(gè)應(yīng)答的單元。
3.權(quán)利要求1所述的詢問應(yīng)答系統(tǒng),其特征在于,以將上述第一與第二數(shù)據(jù)庫(kù)中檢索命中件數(shù)的多少作為上述基準(zhǔn)。
4.權(quán)利要求1所述的詢問應(yīng)答系統(tǒng),其特征在于,它還具備有通過字句處理確定上述各個(gè)應(yīng)答候選的簡(jiǎn)明性或網(wǎng)羅度的單元,并將此簡(jiǎn)明性或網(wǎng)羅度作為上述基準(zhǔn)。
5.一種詢問應(yīng)答方法,它是對(duì)于用戶以第一語(yǔ)言輸入的詢問,應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的第二知識(shí)數(shù)據(jù)庫(kù)求得應(yīng)答的詢問應(yīng)答方法。其特征在于此方法具有對(duì)于上述詢問檢索上述第一知識(shí)數(shù)據(jù)庫(kù)求得第一語(yǔ)言的應(yīng)答候選的步驟;將上述詢問機(jī)械翻譯成第二語(yǔ)言的步驟;對(duì)于翻譯成上述第二語(yǔ)言的詢問,檢查上述第二知識(shí)數(shù)據(jù)庫(kù)求得第二語(yǔ)言的應(yīng)答候選的步驟;將上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的步驟;以及將上述第一語(yǔ)言的應(yīng)答候選與上述第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全都依據(jù)預(yù)定基準(zhǔn)排序的步驟。
6.權(quán)利要求5所述的詢問應(yīng)答方法,其特征在于,此詢問應(yīng)答方法還具有基于上述排序從上述應(yīng)答候選中確定其中之一個(gè)應(yīng)答的步驟。
7.權(quán)利要求5所述的詢問應(yīng)答方法,其特征在于,以將上述第一與第二數(shù)據(jù)庫(kù)中檢索命中件數(shù)的多少作為上述基準(zhǔn)。
8.權(quán)利要求5所述的詢問應(yīng)答方法,其特征在于,它還具備有通過字句處理確定上述各個(gè)應(yīng)答候選的簡(jiǎn)明性或網(wǎng)羅度的步驟,并將此簡(jiǎn)明性或網(wǎng)羅度作為上述基準(zhǔn)。
全文摘要
本發(fā)明提供詢問應(yīng)答系統(tǒng)及詢問應(yīng)答方法。對(duì)于用戶以第一語(yǔ)言輸入的詢問應(yīng)用具有此第一語(yǔ)言知識(shí)源的第一知識(shí)數(shù)據(jù)庫(kù)和具有第二語(yǔ)言知識(shí)源的數(shù)據(jù)庫(kù)而求得應(yīng)答,其中對(duì)于此詢問檢索第一知識(shí)數(shù)據(jù)庫(kù)求得第一語(yǔ)言的應(yīng)答候選,將此詢問機(jī)械翻譯成第二語(yǔ)言檢索第二知識(shí)數(shù)據(jù)庫(kù)得到第二語(yǔ)言的應(yīng)答候選,將第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言,將第一語(yǔ)言的應(yīng)答候選與第二語(yǔ)言的應(yīng)答候選機(jī)械翻譯成第一語(yǔ)言的結(jié)果全按預(yù)定基準(zhǔn)排序提示給用戶。
文檔編號(hào)G06F17/27GK1492367SQ0315987
公開日2004年4月28日 申請(qǐng)日期2003年9月26日 優(yōu)先權(quán)日2002年9月27日
發(fā)明者酒井哲也 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
云林县| 永安市| 南木林县| 潞城市| 神池县| 英吉沙县| 德江县| 盐山县| 海口市| 精河县| 定州市| 潮安县| 工布江达县| 奉新县| 邵阳市| 长葛市| 莱阳市| 峡江县| 阜城县| 西和县| 浪卡子县| 巴东县| 正安县| 江华| 施秉县| 十堰市| 巴楚县| 同江市| 邛崃市| 台湾省| 崇礼县| 龙门县| 碌曲县| 商南县| 新竹县| 柳州市| 新津县| 秦安县| 木兰县| 青铜峡市| 文昌市|