欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別/響應系統、語音/識別響應程序及其記錄介質的制作方法

文檔序號:2822103閱讀:365來源:國知局
專利名稱:語音識別/響應系統、語音/識別響應程序及其記錄介質的制作方法
技術領域
本發(fā)明涉及一種語音識別/響應系統,提供針對用戶發(fā)言的語音響應。
背景技術
眾所周知,語音識別/響應系統和語音交互系統都針對用戶的發(fā)言做出語音響應。針對這種系統,已經提出了一些實現特殊的語音響應例如方言的系統。然而,它們幾乎都有效地使用能夠從對話系統獲得的信息,而不使用來自用戶的發(fā)言信息。以汽車導航為例來說,與上述系統相對應的系統恰當有效地使用了汽車導航裝置發(fā)揮作用所依據的信息,例如,在汽車駕駛期間還有在語音響應中獲得的地區(qū)信息(參見日本公開專利申請2001-227962和日本公開專利申請H8-124092)。具有這種功能的系統給用戶帶來如下優(yōu)點使他/她能夠在聽覺上獲得他/她駕駛車輛所在地區(qū)的地區(qū)信息,這樣可以使駕駛員與/或乘客(們)感到愉快。
然而,如上所述的語音識別/響應系統有可能產生這樣的問題,例如它很難實現用戶感覺熟悉的語音響應。更具體地說,由于各種環(huán)境與/或用戶的精神狀態(tài)的不同,用戶的發(fā)言環(huán)境和發(fā)言內容可以有顯著的改變,因此,即沒有提出過任何一種系統可以應用于如汽車導航裝置的電子設備,也沒有提出任何一種方法,包括上述提及的公開文本所披露的系統,可以完全地處理針對非特定用戶的靈活的響應。

發(fā)明內容
本發(fā)明,鑒于以上問題,目的在于,提供一種語音識別/響應系統,該系統可以實現用戶感覺熟悉的語音響應。
為了獲得上述目的,本發(fā)明的第一個方面的語音識別/響應系統包括發(fā)言識別單元,通過用戶的語音輸入識別用戶的發(fā)言內容,并輸出識別結果;
對話控制處理單元,根據所述識別結果控制與用戶的對話進程,以便確定針對所述用戶的響應內容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產生發(fā)言特征信息;和響應語音產生單元,根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。
為了獲得上述目的,本發(fā)明的第二方面的存儲介質,在其上存儲由計算機執(zhí)行的語音識別/響應程序,其特征在于,所述程序導致所述計算機起到如下單元的作用發(fā)言識別單元,通過用戶的語音輸入識別用戶的發(fā)言內容,并輸出識別結果;對話控制處理單元,根據所述識別結果控制與用戶的對話進程,以便確定針對所述用戶的響應內容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產生發(fā)言特征信息;和響應語音產生單元,根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。
為了獲得上述目的,本發(fā)明的第三方面的語音識別/響應程序,所述程序由計算機執(zhí)行,其特征在于,所述程序致使所述計算機起到如下單元的作用發(fā)言識別單元,通過用戶的語音輸入識別用戶的發(fā)言內容,并輸出識別結果;對話控制處理單元,根據所述識別結果控制與用戶的對話進程,以便確定對所述用戶的響應內容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產生發(fā)言特征信息;和響應語音產生單元,根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。


圖1是說明本發(fā)明實施例的語音識別/響應系統的示意性結構的方框圖;
圖2是本發(fā)明的例子的語音識別/響應系統的方框圖;圖3是發(fā)言特征類別選擇處理的流程圖;圖4是響應語音產生處理的流程圖;圖5是語音產生處理的另一個流程圖;圖6A是說明響應數據庫的讀取數據庫中存儲內容的例1的視圖,圖6B是說明它的例2的視圖;圖7是本發(fā)明第一修改的語音識別/響應處理的流程圖;圖8是說明本發(fā)明第二修改的處理流程的視圖;圖9是本發(fā)明第二修改的語音識別/響應處理的流程圖;具體實施方式
現在,將參考相關附圖對本發(fā)明的最佳實施例進行詳細說明。
圖1說明本發(fā)明實施例的語音識別/響應系統的示意結構。本發(fā)明實施例的語音識別/響應系統1,輸出針對用戶發(fā)言產生的語音輸入的語音響應,從而實現和用戶的語音對話,可以應用于具有各種語音響應功能的裝置或設備,例如汽車導航系統、家用電器和視頻-音頻設備。產生語音識別/響應程序來實現本發(fā)明實施例的語音識別/響應系統,并且通過記錄介質或通信裝置在終端設備上安裝上述程序來執(zhí)行它,使終端設備能夠起到語音識別/響應系統的作用。在這種情況下,上述終端設備可以包括各種信息終端,例如汽車導航系統、家用電器和視頻-音頻設備。
語音識別/響應系統1大致地分成如下結構部件發(fā)言識別單元10、發(fā)言特征分析單元20、響應語音產生單元30和對話控制處理單元40。發(fā)言識別單元10接收用戶發(fā)言產生的語音輸入,執(zhí)行語音識別處理和其它識別所述發(fā)言內容的處理,并且輸出作為識別結果的識別關鍵字S1。在識別用戶發(fā)言的每詞時,所述識別關鍵字S1是作為識別結果獲得的。從發(fā)言識別單元10輸出的識別關鍵字S1被發(fā)送到發(fā)言特征分析單元20和對話控制處理單元40。
發(fā)言特征分析單元20根據識別關鍵字分析用戶的發(fā)言特征。所述發(fā)言特征包括各種特征,例如用戶的地區(qū)性、用戶的當前環(huán)境等等,這些特征也許會影響用戶的發(fā)言。發(fā)言特征分析單元20根據識別關鍵字S1分析發(fā)言特征,產生發(fā)言特征信息S2并且將它發(fā)送到響應語音產生單元30。
對話控制處理單元40根據識別關鍵字S1控制同用戶的對話進程。對話進程的確定應當考慮到如下因素例如,使用了本發(fā)明的語音識別/響應系統設備的系統信息,以便根據預先準備好的對話情景進行控制。對話控制處理單元40確定對話情景(這將要根據系統信息和其它當前環(huán)境信息進展)使對話情景能夠根據相應于用戶發(fā)言內容的識別關鍵字S1進展,從而實現對話。然后,對話控制處理單元40根據對話進度產生響應語音信息S3,通過它來確定隨后要輸出的語音響應,并發(fā)送這樣產生的響應語音信息S3到響應語音產生單元30。
響應語音產生單元30產生這樣的語音響應,該語音響應具有如下模式相應于對話控制處理單元40給出的響應語音信息S3和由發(fā)言特征信息S2所代表的發(fā)言特征,并通過諸如擴音器這樣的語音輸出裝置輸出語音響應。
本發(fā)明實施例的語音識別/響應系統1以這種方式,根據用戶的發(fā)言狀態(tài)輸出基于發(fā)言特征的語音響應。
舉例現在,對最佳實施例進行如下描述。
圖2是根據本發(fā)明的例子的語音識別/響應系統100的方框圖,它可以實現針對用戶發(fā)言的適當的語音響應。如圖2所示,語音識別/響應系統100大致地分成如下結構部件發(fā)言識別單元10、發(fā)言特征分析單元20、響應語音產生單元30和對話控制處理單元40。
發(fā)言識別單元10包括參數轉換部分12和語音識別處理部分14。參數轉換部分12將語音(通過他/她的發(fā)言已經由用戶輸入)轉換成指示語音特征的特征參數。語音識別處理部分14實施由參數轉換部分12獲得的特征參數和關鍵字模型(它們已經預先包括在語音識別引擎中)之間的匹配處理,以便抽取識別關鍵字。在本發(fā)明的例子中,語音識別處理部分14配置為使用每詞中的關鍵字實施匹配處理以便執(zhí)行識別處理。識別關鍵字是包含在用戶發(fā)言中的詞以及這樣的關鍵字,所述關鍵字已經通過語音識別處理加以識別。
發(fā)言特征分析單元20包括發(fā)言特征類別選擇部分22和發(fā)言特征數據庫(DB)24。發(fā)言特征類別選擇部分22使用發(fā)言特征參數來選擇發(fā)言特征類別,該特征參數相應于由語音識別處理部分14抽取的識別關鍵字。
發(fā)言特征參數包括這樣的值,該值是關于被分類為各種元素的特征的出現頻率。在要判斷發(fā)言中的用戶是生于日本關東(Kanto)地區(qū)的人(以下簡稱關東人),還是生于日本關西(Kansai)地區(qū)的人(以下稱為關西人)的情況下,例如,發(fā)言特征參數采用下列多元值的形式存儲在發(fā)言特征數據庫24中p=(關東人發(fā)言頻率值,關西人發(fā)言頻率值)發(fā)言特征類別選擇部分22使用上述發(fā)言特征參數來選擇用戶的發(fā)言特征類別。
對話控制處理單元40控制同用戶的對話。對話控制處理單元40,使用系統信息和識別關鍵字,確定要輸出為語音響應的內容,并且將參考標識符ID(它起到要輸出為語音響應的內容的信息識別的作用)提供給響應語音產生單元30。順便說一下,對話控制處理例如通過引發(fā)預先準備好的對話情景在考慮到用戶發(fā)言內容的情況下進展而被執(zhí)行。對話控制處理本身與本發(fā)明的特征不太相關,因此說明書省略了對它的詳細說明。
響應語音產生單元30,根據發(fā)言特征類別(它已經通過發(fā)言特征類別選擇部分22獲得)為語音響應產生語音信號,并且為語音響應(它已經通過對話控制處理單元40獲得)產生參考標識符ID。然后,通過擴音器將響應語音產生單元30產生的語音以語音響應的形式輸出到用戶。
現在,將對發(fā)言特征參數進行如下詳細描述。發(fā)言特征參數是這樣的參數,它是預先準備的,以便從多個發(fā)言特征類別(它們已經預先通過將用戶發(fā)言的特征分類為各種類型模式而獲得)中選擇用戶發(fā)言落在其中的某個發(fā)言特征類別。發(fā)言特征參數是采用多元值形式表示的,所述值包括發(fā)言特征類別的對應數量的元素。上述每一元素包括這樣的值,該值指示某人落在發(fā)言類別中的頻率,所述發(fā)言類別是通過在使用關鍵字的問題中的元素表示的。
現在,將對獲得發(fā)言特征參數的過程的例子進行如下描述。
為了獲得樣本,以問卷形式進行調查各個用戶通常是否將包括在詞典內的關鍵字當作識別關鍵字使用,按從“0“(零)到“n”的范圍(假定越大的數字意味著越高的使用頻率,請求用戶從“0”到“n”中選擇任意一個數字)。
給出下列等式M=(m(1),m(2),......,m(N)) 其中,I=1,2,......,N)M_all=∑m(i)其中,“N”是識別類別的數量,“m(i)”是參與問卷調查中類別“i”的人數。
編譯問卷調查的結果。
假定所編譯關于關鍵字第“k”個結果值使用如下等式表示Rk=(rk(1),rk(2),......rk(N))其中,rk(i)是關于類別“i”的編譯結果。
元素值“Rk”的“rk(i)”根據下列等式計算rk(i)=∑dk(i,j)(其中,j=1,2,......,N;dk(i,j)=0,.1,......,p1)上述“dk(i,j)”表示來自響應號為“j”的結果,即,歸入揚聲器類別“i”的人使用關鍵字第“k”個的頻率。
為了規(guī)范化組,確定規(guī)范化參數“L=(l(1)......,1(N))”。在類別“i”中的規(guī)范化參數被確定,以便滿足下列等式M_all/p=1(i)*m(i)(其中,I=1,2,......,N)上述標識的等式可以被變換成如下等式l(i)=M_all/(p*m(i))[步驟4]使用規(guī)范化參數按照如下來規(guī)范化編譯結果“Rn”的值,所述規(guī)范化參數已經在步驟3加以確定了rk’(i)=l(i)*rk(i)/∑l(j)*rk(j))[步驟5]
編譯結果的這樣規(guī)范化的值存儲在發(fā)言特征數據庫中,因此值“rk’(i)”是作為關鍵字“k”的發(fā)言特征參數使用的。
<計算例子>
□設計系統這里準備了語音對話系統,其中從用戶發(fā)言中抽取地區(qū)性和帶方言的語音響應,所述系統適合于用戶發(fā)言。
□先決條件A日本方言僅被分為兩種模式關東地區(qū)和關西地區(qū)。
B發(fā)言特征元素參數中的元素按照關東地區(qū)和關西地區(qū)這樣一對一的次序列出。
C關于關鍵字“makudo”(注釋這個字在日語中帶著關西重讀口音,意思是,“Mackers”)的發(fā)言特征參數將被找出。
對于屬于關東人和關西人的任何人,以問卷形式進行一個調查,調查他們是否通常使用識別關鍵字“makudo”。
對任意問卷調查的答復可以是肯定的或否定的。對問卷做出答復的人數“M”通過下列等式表示M=(731,635)因此,獲得下列等式M_all=731+635=1366[步驟2]獲得在步驟1進行的問卷調查的結果的編譯結果“R”。
答復是根據肯定的和否定的范圍1-2而作出的,由此提供項“p=2”。
假定做出肯定答復的人數是“R”值,提供下列等式Rmakudo=(9,613)[步驟3]獲得規(guī)范化參數“L”。
對問卷調查做出答復的人數“M”在步驟1中通過下列等式表示M=(731,635)因此,提供下列等式l(1)=M_all/(p*m(1))=1366/(2*731)=0.93
l(2)=M_all/(p*m(2))=1366/(2*635)=1.08∴L=(0.93,1.08)編譯的結果“值Rmakudo”是按照如下用步驟3獲得的規(guī)范化參數“L”加以規(guī)范化的R_allmakudo=∑rmakudo(i)*l(i))=9*0.93+613*1.08=670.41r’makudo(1)=rmakudo(1)*l(1)/R’_all=9*0.93/670.41=0.012r’makudo(2)=rmakudo(2)*l(2)/R’_all=613*1.08/670.41=0.988∴R’makudo=(0.012,0.988)在步驟4所獲得的編譯結果的這樣規(guī)范化的值“R’makudo”作為‘makudo’的發(fā)言特征參數存儲在發(fā)言特征數據庫中。
圖3表示發(fā)言特征類別選擇處理的流程圖。發(fā)言特征類別選擇處理通過如圖2所示的發(fā)言特征類別選擇部分22執(zhí)行。
發(fā)言特征類別選擇部分22從語音識別處理部分14接收識別關鍵字(步驟S10)。然后,發(fā)言特征類別選擇部分22從發(fā)言特征數據庫24中獲得相應于作為輸入的識別關鍵字的發(fā)言特征參數(步驟S11)。如果存在多個識別關鍵字,各個識別關鍵字都從數據庫中獲得。
然后,發(fā)言特征類別選擇部分22從在步驟S11獲得的發(fā)言特征參數中獲得單一的代表性的發(fā)言特征參數(步驟S12)。更具體地說,單一的識別關鍵字的存在導致單一的發(fā)言特征參數的存在。在存在單一的識別關鍵字的情況下,該單一的發(fā)言特征參數被作為代表性的發(fā)言特征參數加以處理。在存在多個識別關鍵字的情況下,使用相應于多個識別關鍵字的發(fā)言特征參數產生單一的代表性的發(fā)言特征參數。
然后,發(fā)言特征類別選擇部分22使用在步驟S12獲得的代表性的發(fā)言特征參數選擇特征類別(步驟S13)。在步驟S13選擇的特征類別作為用戶的發(fā)言特征類別被輸出。
發(fā)言特征類別選擇部分22將在步驟S13選擇的發(fā)言特征類別輸出到響應語音產生單元30(步驟S14)。由此,完成發(fā)言特征類別選擇處理。
現在,將對發(fā)言特征類別選擇處理的例子進行入下描述。
<例1>在“makudo”(注釋這個字在日文中帶著關西重讀口音,意思是“Mackers”)和“想去”作為識別關鍵字被抽取的情況下。
先決條件□詞“makudo”的發(fā)言特征參數(0.012,0.988)□詞“想去”的發(fā)言特征參數(0.500,0.500)在例1中,發(fā)言特征參數中的元素表示如下(關東人發(fā)言頻率值,關西人發(fā)言頻率值)首先,在步驟S11,詞“makudo”的發(fā)言特征參數“u”和詞“想去”的發(fā)言特征參數“v”從發(fā)言特征數據庫獲得。這里,發(fā)言特征參數“u”和“V”表示如下u=(0.012,0.988),v=(0.500,0.500)然后,在步驟S12,獲得代表性的發(fā)言特征參數。還有許多獲得代表性的發(fā)言特征參數的方法。在這種情況下,采用如下方法在發(fā)言特征參數(它們已經在步驟S11獲得)的元素中,值為最大的元素被確定為代表性的發(fā)言特征元素參數的元素。
發(fā)言特征參數“u”的第一元素是“0.012”,發(fā)言特征參數“v”的第一元素是“0.500”。在這些值中,最大值是“0.500”。同樣,發(fā)言特征參數“u”的第二元素是“0.988”,發(fā)言特征參數“v”的第二元素是“0.500”。在這些值中,最大值是“0.988”。
按照這種步驟,代表性發(fā)言特征參數“w”可以表示如下w=(0.500,0.988)然后,在步驟S13,選擇發(fā)言特征類別。在代表性的發(fā)言特征參數“w”的元素中,值為最大的元素被確定為發(fā)言特征類別。
在這個例子中,在代表性的發(fā)言特征參數“w”中具有最大值的元素是第一元素中的“0.988”,因此“關西人”被選擇作為發(fā)言特征類別。
<例2>在抽取“愉快的”作為識別關鍵字的情況下。
先決條件□詞“愉快的”的發(fā)言特征參數(0.998,0.002)
在例2中,發(fā)言特征參數的元素分別表示下面的特征(愉快,煩悶)首先,在步驟S11中,詞“愉快的”的發(fā)言特征參數“u”從發(fā)言特征數據庫獲得。這里,發(fā)言特征參數“u”可以表示如下u=(0.998,0.002)然后,在步驟S12獲得代表性的發(fā)言特征參數。還有許多獲得代表性的發(fā)言特征參數的方法。在這種情況下,采用如下的方法在發(fā)言特征參數(它們已經在步驟Sl1獲得)的元素中,值為最大的元素被確定為代表性發(fā)言特征參數的元素。
在例2中,存在要處理的單一的發(fā)言特征參數,因此發(fā)言特征參數“u”自己成為代表性發(fā)言特征參數“w”,可以表示如下w=(0.998,0.002)然后,在步驟S13,選擇發(fā)言特征類別。在代表性的發(fā)言特征參數“w”的元素中,值為最大的元素被確定為發(fā)言特征類別。
在這個例子中,在代表性的發(fā)言特征參數“w”中具有最大值的元素是第一元素中的“0.998”,因此“愉快的”被選作言特征類別。所述發(fā)言特征類就是按照這樣的方式加以選擇的。
現在,將對響應語音產生單元進行如下詳細描述。圖4是說明使用發(fā)言特征類別的響應語音產生處理所依據的視圖,示出了語音產生單元結合在執(zhí)行流程圖期間訪問的數據庫執(zhí)行的流程。
如圖4所示,響應語音產生單元30包括響應數據庫結構32和音素數據庫38。響應數據庫結構32包括為各個發(fā)言特征類別構建的多個響應數據庫33,34,...。各個響應數據庫33,34,...包括讀取信息數據庫33a,34a,和韻律信息數據庫33b,34b,......。
如圖4所示的流程圖,響應語音產生單元30從發(fā)言特征類別選擇部分22獲得發(fā)言特征類別(步驟S31),并且選擇相應于以上發(fā)言特征類別的一組響應數據庫(步驟S31)。響應數據庫成對地存儲讀取信息數據庫和用于產生韻律的韻律信息數據庫,例如成對的詞、詞組的拆分和重讀的位置。在所輸入的發(fā)言特征類別是例如“關西人”的情況下,選擇用于關西人的響應數據庫。或者,在所輸入的發(fā)言特征類別是例如“關東人”的情況下,選擇用于關東人的響應數據庫。
然后,響應語音產生單元30使用從對話控制處理單元40所輸入的參考標識符ID,以便獲得用于語音響應的讀取信息和從在步驟S31選擇的響應數據庫獲得相應的韻律信息(步驟S32)。
響應語音產生單元30,使用在步驟S32獲得的讀取信息和韻律信息,以及音素數據庫存儲的用于組成合成語音的音素數據,產生用于語音響應的合成語音(步驟S33),并且以語音響應的形式輸出這樣產生的合成語音(步驟S34)。所述響應語音就是用這樣的方式產生并輸出的。
如圖4所示的處理有這樣的流程,其中響應語音是使用按規(guī)則的語言合成的語音合成方法產生的??梢允褂昧硪恢姓Z音合成方法。在準備了例如已經為語音響應預先記錄的語音的情況下,如圖4所示的讀取信息數據庫由如圖5所示的以上被記錄的語音組成的響應語音數據庫50代替。更具體地說,響應語音產生單元從發(fā)言特征類別選擇部分22接收發(fā)言特征類別(步驟S40),選擇響應語音數據庫50(步驟S41)并獲得響應語音(步驟S42)。對話控制處理單元40和其它裝置實現對話狀態(tài)(步驟S44),并且響應語音產生單元直接輸出已經根據對話狀態(tài)和識別關鍵字選擇的響應語音(步驟S44)。
現在,將對響應語音產生處理的例子進行描述如下。這個例子是以如圖4所示的處理為基礎的。
<例1>在發(fā)言特征類別被判斷是“關西”,值“2”作為響應語音數據庫的參考標識符ID被輸入的情況下。
首先,在步驟S31,響應語音產生單元30作出響應數據庫的選擇?!瓣P西”作為發(fā)言特征類別被輸入。因此,在這一塊中,為使用“關西”,設置響應數據庫。
然后,響應語音產生單元30,在步驟S32接收響應語音數據庫的參考標識符ID,并且獲得相應于以上ID的韻律信息和來自在步驟S31選擇的響應數據庫中的讀取信息。響應數據庫存儲讀取信息,如圖6A所示。在這個例子中,參考標識符ID是“2”,“關西”響應數據庫在步驟S31被選擇,因此,句子“hona,“makudo”ni ikimashou!”(注釋這個句子在日文中,帶著關西重讀口音,意思是,“好,讓我們去Mackers!”)被選擇。同時,獲得韻律信息,例如,詞、詞組的拆分、標點的位置和重讀的位置,所述韻律信息相應于讀取信息。
然后,響應語音產生單元30,使用在步驟S32所輸出的“hona,“makudo”ni ikimashou!”的讀取數據、相應于以上讀取數據的韻律信息和音素讀取數據,以便在步驟33產生用于響應的語音。在步驟S33產生的語音以語音響應的形式被輸出。
在這個例子中,響應數據庫存儲每一單句的數據,因此導致在步驟S32獲得單個參考標識符ID。然而本發(fā)明還可以適用于這樣一個情況,就是響應數據庫存儲每一單個詞的數據,從而實現本發(fā)明的系統。在這種情況下,參考標識符ID的序列是從對話控制處理單元40輸出的。相應于各個參考標識符ID的讀取信息,以及韻律信息是按照參考標識符ID序列的次序獲得的,并且在步驟S33,詞通過語音合成處理組合在一起,然后當組合的詞組成單句時,就輸出語音響應。還可以使用中間語言(其中諸如重音這樣的韻律信息以符號形式被添加到讀取信息)數據庫作為響應數據庫,在所述中間語言數據庫中,韻律信息數據庫和讀取信息數據庫組合在一起。
<例2>在發(fā)言特征類別被判斷是“愉快”,值“3”作為響應語音數據庫的參考標識符ID被輸入的情況下。
首先,在步驟S31,響應語音產生單元30選擇響應數據庫?!坝淇臁弊鳛榘l(fā)言特征類別被輸入。因此,在這一塊中,為使用“愉快”,設置響應數據庫。
然后,響應語音產生單元30,在步驟S32接收響應語音數據庫的參考標識符ID,并且獲得相應于以上ID的韻律信息和來自在步驟S31選擇的響應數據庫中的讀取信息。響應數據庫存儲讀取信息,如圖6B所示。在這個例子中,參考標識符ID是“3”,并且在步驟S31選擇用于“愉快”的響應數據庫,因此,選擇句子“好事情,你看起來很愉快”。同時,獲得韻律信息,例如,詞、詞組的拆分、標點的位置和重讀的位置,所述韻律信息相應于讀取信息。
然后,響應語音產生單元30,使用在步驟S32所輸出的“好事情,你看起來很愉快”的讀取數據、相應于以上讀取數據的韻律信息,和音素數據庫,以便在步驟33產生用于響應的語音。在步驟S33產生的語音以語音響應的形式被輸出。
這個例子中,響應數據庫存儲每一單句的數據,因此導致在步驟S32獲得單個參考標識符ID。然而本發(fā)明還可以適用于這樣一個情況,就是響應數據庫存儲每一單個詞的數據,以便實現本發(fā)明的系統。在這種情況下,參考標識符ID的序列是從對話控制處理單元40輸出的。相應于各個參考標識符ID的讀取信息,以及韻律信息是按照參考標識符ID序列的次序獲得的,并且在步驟S33,詞通過語音合成處理組合在一起,然后當組合的詞組成單句時,輸出語音響應。還可以使用中間語言(其中諸如重音這樣的韻律信息以符號形式被添加到讀取信息)數據庫作為響應數據庫,在所述中間語言數據庫中,韻律信息數據庫和讀取信息數據庫組合在一起。
<修改1>
現在,將對上述說明例子的修改進行如下描述。在這個修改中,不同于關鍵字間隔的語音間隔(即,可有可無的字)也進行發(fā)言特征類別的判斷處理。更具體地說,如圖7所示的流程圖,可以執(zhí)行從從可有可無的詞的發(fā)言數據中抽取這樣的關鍵字的處理,可以采用表達式從所述關鍵字中推出發(fā)言特征(所述關鍵字以下簡稱“特征關鍵字”),與上述一起執(zhí)行的是關鍵字抽取處理(以下簡稱“主關鍵字選取”),這樣就有可能更加顯著地反映用戶發(fā)言的特征。
更具體地說,將執(zhí)行下列處理。
首先,參數轉換部分12將發(fā)言數據(已經輸入)轉換為特征參數(步驟S20)。然后,語音識別處理部分14實施在步驟20所生成的特征參數與主關鍵字模型的匹配處理,以便抽取關鍵字(步驟S21)。語音識別處理部分14還實施在步驟20所生成的特征參數與特征關鍵字模型的匹配處理,以便抽取特征關鍵字(步驟S22)。
然后,發(fā)言特征類別選擇部分22使用發(fā)言特征參數獲得最適當的發(fā)言特征類別,該發(fā)言特征參數相應于在步驟S21獲得的主關鍵字和在步驟S22獲得的特征關鍵字(步驟S23)。在這一階段,利用在主關鍵字這一側所存儲的發(fā)言特征參數和在特征關鍵字這一側所存儲的發(fā)言特征參數的全部,來獲得代表性的發(fā)言特征參數。
響應語音產生單元30,使用在步驟S23獲得的發(fā)言特征類別和在步驟S21和S22獲得的識別關鍵字,產生用于語音響應的語音(步驟S24)。這樣產生的語音以語音響應的形式被輸入給用戶。
現在,對修改1中具體處理例子進行如下描述。
<例>在給出“juutai-jouhou wo tanomu-wa”(注釋這個帶著關西重讀口音,意思是“請給我交通阻塞信息”)的發(fā)言的情況下。
先決條件□主關鍵字是“juutai-jouhou”(即,交通阻塞信息)。
□詞“tanomu-wa”(即,“請給我”)已經作為發(fā)言特征關鍵字被記錄。
□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征參數(0.50,0.50)□詞“tanomu-wa”(即,“請給我”)的發(fā)言特征參數(0.80,0.20)*在這個例子中,發(fā)言特征參數的元素分別表示下面的特征(關西人發(fā)言頻率值,關東人發(fā)言頻率值)在步驟S20,參數轉換部分12獲得發(fā)言數據本身的特征參數。
然后,語音識別處理部分14實施主關鍵字模型同在步驟S20獲得的特征參數進行匹配處理,以便在步驟S21抽取“juutai-jouhou”(即,交通阻塞信息)的主關鍵字。語音識別處理部分14還實施特征關鍵字同特征關鍵字模型和在步驟S20獲得的特征參數進行匹配處理,以便在步驟S22選取“tanomu”(即,“請給我”)的特征關鍵字。
然后,在步驟S23,發(fā)言特征類別選擇部分22抽取發(fā)言特征類別。更具體地說,與“juutai-jouhou”(即,交通阻塞信息)的主關鍵字對應的發(fā)言特征參數“u”是從發(fā)言特征數據庫獲得的。與“tanomu”(即,“請給我”)的特征關鍵字對應的發(fā)言特征參數“v”也是從發(fā)言特征數據庫中獲得的。在這個例子中,發(fā)言特征參數“u”和“v”可以表示如下u=(0.50,0.50),v=(0.80,0.20)然后,發(fā)言特征類別選擇部分22獲得用于作為發(fā)出的整個語音數據的代表性的發(fā)言特征參數。在發(fā)言特征參數被確定為代表性的發(fā)言特征參數的元素。發(fā)言特征參數“u”的第一元素是“0.50”,發(fā)言特征參數“v”的第一元素是“0.80”。在這些值中,最大值是“0.80”。同樣,發(fā)言特征參數“u”的第二元素是“0.50”,發(fā)言特征參數“v”的第二元素“0.20”。在這些值中,最大值是“0.50“。
按照這種步驟,代表性的發(fā)言特征參數“w”可以表示如下w=(0.80,0.50)
然后,在代表性的發(fā)言特征參數“w”的元素中,具有最大值的元素被確定作為發(fā)言特征類別。在代表性的發(fā)言特征參數“w”中具有最大值的元素是第一元素中的“0.80”。因此,發(fā)言特征類別選擇部分22判斷發(fā)言的人是“關西人”,并且將這個判斷結果發(fā)送給響應語音產生單元30。
然后,響應語音產生單元30返回發(fā)言特征類別,并實施語音合成處理以便以語音響應的形式輸出合成語音。
<修改2>
現在,將對上述說明例子的另一個修改描述如下。在這個修改例2中,準備了多個發(fā)言特征數據庫,為每個發(fā)言特征數據庫獲得發(fā)言特征參數,這樣就有可能更詳細地反映語音響應中的用戶發(fā)言的特征。
更具體地說,預先準備了一個發(fā)言特征“A”的數據庫(例如,如圖8所示的表示感情的發(fā)言特征數據庫)和一個發(fā)言特征“B”的數據庫(例如,如圖8所示的地區(qū)性的發(fā)言特征數據庫),因此兩個發(fā)言特征參數,即,任一發(fā)言特征“A”參數和任一發(fā)言特征“B”參數都是為單一關鍵字獲得的(參見圖8)。
預先從全部關鍵字中的發(fā)言特征“A”參數和發(fā)言特征“B”參數獲得代表性的發(fā)言特征參數,有可能獲得這樣的特征,,所述特征已經從發(fā)言的兩個方面加以判斷了。因此,和上述使用單一發(fā)言特征類別參數的情況相比較,有可能提供可以反映模式詳細的發(fā)言情況的語音響應。
不用說,相似的處理可以應用于使用三個或更多發(fā)言特征數據庫的情況。在這種情況下,語音識別/響應系統更詳細地綜合發(fā)言情況,這樣就有可能提供針對所述情況的最適當的語音響應。
現在,將根據如圖1的方框圖和圖9的流程圖描述相各個處理。
<處理例子>
首先,參數轉換部分12將已經輸入的發(fā)言數據轉換成為特征參數(步驟S20)。然后,語音識別處理部分14實施主關鍵字模型同在步驟S20產生的特征參數進行匹配處理,以便抽取關鍵字(步驟S21)。語音識別處理部分14還實施特征關鍵字模型同在步驟S20產生的特征參數進行匹配處理,以便采用步驟S21相同的方式抽取特征關鍵字(步驟S22)。當然,如上所述,發(fā)言特征類別僅用于主關鍵字。在這種情況下,系統結構和圖9所示的流程圖的結構相一致,除了步驟S21被刪除之外。
然后,發(fā)言特征類別選擇部分22,使用發(fā)言特征“A”參數(它們相應于在步驟S21獲得的主關鍵字和在步驟S22獲得的特征關鍵字,以便獲得最適當的發(fā)言特征“A”類別(步驟S231)。在這一階段,利用在主關鍵字這一側所存儲的發(fā)言特征“A”參數和在特征關鍵字這一側所存儲的發(fā)言特征“A”參數的全部,來獲得代表性的發(fā)言特征“A”參數。發(fā)言特征類別選擇部分22,還使用發(fā)言特征參數“B”參數(該參數相應于在步驟S21獲得的主關鍵字和在步驟S22獲得的特征鍵字),以便采用與步驟S231相同的方式獲得最適當的發(fā)言特征“B”類別(步驟S232)。
響應語音產生單元30,使用在步驟S231獲得的發(fā)言特征“A”類別、在步驟S232獲得的發(fā)言特征“B”類別和在步驟S21和S22獲得的識別關鍵字,產生用于語音響應的語音。這樣產生的語音以語音響應的形式輸入給用戶。
現在,對修改2中具體處理例子進行如下描述。
<例子>在給出“akan,juutai-jouhou wo tanomu wa”(注釋帶著關西口音,意思是,“我的天?。≌埥o我交通堵塞信息”)的發(fā)言的情況下。
先決前提□主關鍵字是“juutai-jouhau”(即,交通阻塞信息)。
□詞“tanomu-wa”(即,“請給我”)已經作為發(fā)言特征關鍵字被記錄。
□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征“A”參數(0.50,0.50)□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征“B”參數(0.50,0.50)□詞“tanomu-wa”(即,“請給我”)的發(fā)言特征“A”參數(0.80,0.20)□詞“tanomu-wa”(即,“請給我”)的發(fā)言特征“B”參數(0.50,0.50)□詞“akan”(即,“哦,我的天??!”)的發(fā)言特征“A”參數(0.80,0.20)
□詞“akan”(即,“哦,我的天?。 ?的發(fā)言特征“B”參數(0.10,0.90)*在這個例子中,發(fā)言特征“A”參數的元素的分別表示如下特征(關西人發(fā)言頻率值,關東人發(fā)言頻率的值)和在這個例子中,發(fā)言特征“B”參數的元素的分別表示如下特征(表示愉快的頻率值,表示煩悶的頻率值))在步驟S20,轉換部分12獲得發(fā)言數據本身的特征參數。然后,語音識別處理部分14實施主關鍵字模型同在步驟S20獲得的特征參數的匹配處理,以便在步驟S21抽取“juutai-jouhou”(即,交通阻塞信息)的主關鍵字。
語音識別處理部分14還實施特征關鍵字和在步驟S20獲得的特征關鍵字模型和特征參數的匹配處理,以便在步驟S22抽取“akan”(即,“哦,我的天??!”)和“tanomu”(即,“請給我”)的特征關鍵字。
然后,在步驟S231,發(fā)言特征類別選擇部分22抽取發(fā)言特征“A“類別。更具體地說,與“juutai-jouhou”(即,交通阻塞信息)的主關鍵字對應的發(fā)言特征“A”的參數“ua”是從發(fā)言特征數據庫獲得的。與“tanomu”(即,“請給我”)的特征關鍵字對應的發(fā)言特征“A”的參數“va(1)”,以及與“akan”(即,“哦,我的天啊!”)的特征關鍵字對應的發(fā)言特征“A”的參數“va(2)”,也是從發(fā)言特征數據庫獲得的。
在這個例子中,發(fā)言特征參數“ua”,“va(1)”和“va(2)”可以表示如下ua=(0.50,0.50)va(1)=(0.80,0.20)va(2)=(0.90,0.20)采用與上述同樣的方法,在步驟S232,發(fā)言特征類別選擇部分22抽取發(fā)言特征“B”類別。更具體地說,與“juutai-jouhou”(即,交通阻塞信息)的主關鍵字對應的發(fā)言特征“B”的參數“ub”是從發(fā)言特征數據庫獲得的。與“tanomu”(即,“請給我”)的特征關鍵字對應的發(fā)言特征“B”參數“vb(1),以及“akan”(即,“哦,我的天?。 ?的特征關鍵字對應的發(fā)言特征“B”參數“vb(2)”,也是從發(fā)言特征數據庫獲得的。
在這個例子中,發(fā)言特征“B”的參數“ub”,“vb(1)”和“vb(2)”可以表示如下ub=(0.50,0.50)vb(1)=(0.50,0.50)vb(2)=(0.10,0.90))然后,發(fā)言特征類別選擇部分22獲得用于作為輸出的整個語音數據的代表性發(fā)言特征參數。在發(fā)言特征“A”參數的元素中以及發(fā)言特征“B”參數的元素中(它們已經分別在步驟S231和S232獲得),具有最大值的元素分別被確定為代表性發(fā)言特征“A”參數的元素和代表性的發(fā)言特征“B”參數的元素。
這里,獲得用于特征“A”參數的代表性的發(fā)言特征“A”參數。發(fā)言特征“A”參數“ua”的第一元素是“0.50”,發(fā)言特征“A”參數“va(1)”的第一元素是“0.80”,發(fā)言特征“A”參數“va(2)”的第一元素是“0.90”。在這些值中,最大值是“0.90”。采用同樣的方式,發(fā)言特征“A”參數“ua”的第二元素是“0.50”,發(fā)言特征“A”參數的“va(1)”第二元素是“0.20”,發(fā)言特征“A”參數“va(2)‘的第二元素是“0.20”。在這些值中,最大值是“0.50”。
根據這種步驟,代表性的發(fā)言特征“A”參數“Wa‘可以表示如下wa=(0.90,0.50)用于發(fā)言特征“B”參數的代表性的發(fā)言特征“B”參數“wb”以相似的方法中獲得,可以表示如下wb=(0.50,0.90)然后,在代表性的發(fā)言特征“A”參數“wa”的元素和代表性的發(fā)言特征“B”參數“wb”中,具有最大值的代表性元素被確定為發(fā)言特征類別。在代表性的發(fā)言特征“A”參數“wa‘中具有最大值的元素是第一元素中的“0.90”。因此,發(fā)言特征類別選擇部分22判斷給出發(fā)言的人是“關西人”,并且將判斷結果發(fā)送到響應語音產生單元30。
以同樣方式,在代表性的發(fā)言特征B”參數“wb”中具有最大值的元素是第一元素中的“0.90”。因此,發(fā)言特征類別選擇部分22判斷給出發(fā)言的人是“感覺煩悶”,并且將斷定結果發(fā)送到響應語音產生單元30。
然后,響應語音產生單元30反映兩個發(fā)言特征類別,并且實施語音合成處理以便采用語音響應的形式將合成語音輸出。
根據詳細描述的本發(fā)明,本發(fā)明的語音識別/響應系統,被配置為執(zhí)行用戶發(fā)言的語音識別,根據識別結果選擇用戶發(fā)言的發(fā)言特征類別,并且產生與發(fā)言特征類別一致的響應語音。因此,執(zhí)行語音響應的切換操作,以便根據用戶的發(fā)言提供一個輸出。僅通過所述的語音識別/響應系統獲得的信息,就可以提供對用戶來說感覺熟悉的對話,同時避免用戶由發(fā)言風格例如方言的改變所引起的混淆。
權利要求
1.一種語音識別/響應系統,包括發(fā)言識別單元(10),通過用戶的語音輸入識別用戶的發(fā)言內容,并且輸出識別結果;對話控制處理單元(40),根據所述識別結果控制同用戶的對話進程,以便確定針對所述用戶的響應內容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產生發(fā)言特征信息;和響應語音產生單元(30),根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。
2.根據權利要求1的系統,其中所述發(fā)言特征信息包括多個發(fā)言特征類別,所述發(fā)言特征類別通過將用戶的發(fā)言特征分類為多個組獲得,所述發(fā)言特征分析單元(20)根據所述識別結果從所述多個發(fā)言特征類別中選擇發(fā)言特征類別,以便輸出所述發(fā)言特征類別。
3.根據權利要求2的系統,其中所述多個發(fā)言特征類別包括與所述用戶的地區(qū)性有關的參數。
4.根據權利要求2或3的系統,其中所述發(fā)言特征分析單元(20)包括數據庫(24),用于存儲所述發(fā)言特征參數,它們被用于選擇與所述用戶的發(fā)言有關的所述發(fā)言特征類別;和裝置(22),用于使用相應于所述識別結果的發(fā)言特征參數選擇所述發(fā)言特征類別。
5.一種存儲介質,其上存儲由計算機執(zhí)行的語音識別/響應程序,其中所述程序導致所述計算機起到如下單元的作用發(fā)言識別單元(10),通過用戶的語音輸入識別用戶的發(fā)言內容,并且輸出識別結果;對話控制處理單元(40),根據所述識別結果控制同用戶的對話進程,以便確定針對所述用戶的響應內容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產生發(fā)言特征信息;和響應語音產生單元(30),根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。
6.一種由計算機執(zhí)行的語音識別/響應程序,其中所述程序導致所述計算機起到如下單元的作用發(fā)言識別單元(10),通過用戶的語音輸入識別用戶的發(fā)言內容,并且輸出識別結果;對話控制處理單元(40),根據所述識別結果控制同用戶的對話進程,以便確定針對所述用戶的響應內容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產生發(fā)言特征信息;和響應語音產生單元(30),根據所述響應內容和所述發(fā)言特征信息產生針對所述用戶的響應語音。
全文摘要
一種語音識別響應系統包括發(fā)言識別單元、對話控制處理單元、發(fā)言特征分析單元和響應語音產生單元。發(fā)言識別單元通過用戶的語音輸入識別用戶的發(fā)言內容,并輸出識別結果。對話控制處理單元根據識別結果控制同用戶的對話進程以便確定針對用戶的響應內容。發(fā)言特征分析單元分析用戶的發(fā)言特征以便產生發(fā)言特征信息。響應語音產生單元根據響應內容和發(fā)言特征信息產生針對所述用戶的響應語音。
文檔編號G10L13/00GK1474379SQ03145060
公開日2004年2月11日 申請日期2003年7月2日 優(yōu)先權日2002年7月2日
發(fā)明者小林載, 市原直彥, 小田川智, 彥, 智 申請人:日本先鋒公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
江油市| 辽源市| 深州市| 栾川县| 景谷| 武胜县| 楚雄市| 抚州市| 钟祥市| 香港| 桐城市| 文昌市| 泗阳县| 安宁市| 视频| 吉林省| 瓮安县| 无棣县| 平山县| 玛沁县| 芦溪县| 墨竹工卡县| 康马县| 信丰县| 黎川县| 马边| 香河县| 靖州| 张北县| 菏泽市| 东乌珠穆沁旗| 通许县| 七台河市| 德化县| 嘉兴市| 巴南区| 贵定县| 星子县| 凤庆县| 济源市| 枞阳县|