欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用抽出的聲音數(shù)據(jù)生成應(yīng)答聲音的聲音識別系統(tǒng)的制作方法

文檔序號:2829996閱讀:256來源:國知局
專利名稱:使用抽出的聲音數(shù)據(jù)生成應(yīng)答聲音的聲音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及使用聲音識別技術(shù)進(jìn)行基于通過用戶的聲音的輸入的應(yīng)答的 聲音識別系統(tǒng)、聲音識別裝置以及聲音生成程序。
技術(shù)背景現(xiàn)在的聲音識別技術(shù),學(xué)習(xí)關(guān)于由大量的聲音數(shù)據(jù)構(gòu)成發(fā)音的單位標(biāo)準(zhǔn) 模式的音響模型,與作為識別對象的詞匯組的辭典對照,連接單位標(biāo)準(zhǔn)模式的 音響模型,由此,制作對照用的模式。該單位標(biāo)準(zhǔn)模式,使用使用音節(jié)的方法、或者元音的恒定部、輔音的恒 定部、進(jìn)而由它們的轉(zhuǎn)移狀態(tài)組成的音素片等。另外,作為其表現(xiàn)方法,使用HMM (Hidden Markov Models (隱式馬爾科夫模型))技術(shù)。這樣的方式,換言之,是由大量的數(shù)據(jù)制成的標(biāo)準(zhǔn)模式和輸入信號的模 式匹配技術(shù)。另外,例如在把"放大音量""減小音量"這樣的兩個句子作為識別對象 的場合,公知把各個句子全體作為識別對象的方法、和將構(gòu)成句子的部分在辭 典上作為詞匯登記,把詞匯的組合作為識別對象的方法。另外,聲音識別的結(jié)果,用在畫面上顯示識別結(jié)果字符串的方法、使用 聲音合成把識別結(jié)果字符串變換為合成聲音再生的方法、或者根據(jù)識別結(jié)果再 生預(yù)先錄音的聲音的方法等通知用戶。另外,還公知這樣的方法不是單純地通知聲音識別的結(jié)果,而是用在 識別結(jié)果的單詞或者句子后包含敦促"可以嗎?"這樣的確認(rèn)的句子的文字顯 示或者合成聲音,進(jìn)行和用戶的對話。另外,現(xiàn)在的聲音識別技術(shù), 一般是從作為識別對象詞匯登記的詞匯中 選擇最類似用戶的發(fā)音的詞匯作為識別結(jié)果,同時輸出該識別結(jié)果的可靠性尺 度的可信度。作為計算識別結(jié)果的可信度的方法,例如在特開平4—255900號公報中,
公開了用比較對照部2計算輸入聲音的特征矢量V和預(yù)先登記的多個標(biāo)準(zhǔn)模 式的類似度的技術(shù)。此時,把給出類似度最大值S的標(biāo)準(zhǔn)模式作為識別結(jié)果求 出。并行地,用參照類似度計算部4比較對照特征矢量V和結(jié)合單位標(biāo)準(zhǔn)模 式存儲部3的單位標(biāo)準(zhǔn)模式的標(biāo)準(zhǔn)模式。這里,把類似度的最大值作為參照類 似度R輸出。接著在類似度修正部5中,有使用參照類似度R修正類似度S 的聲音識別裝置。通過該類似度能夠算出可信度。作為可信度的利用方法,公知在識別結(jié)果的可信度低的場合,向用戶通知不能正常識別的方法。另外,在特開平6—110650號公報中,公開了這樣的方法在人名等關(guān) 鍵詞的數(shù)目多、登記全部關(guān)鍵詞模式困難的場合,通過登記不能成為關(guān)鍵詞的 模式,抽出關(guān)鍵詞部分,組合錄音了用戶發(fā)音的聲音的語音中的關(guān)鍵詞部分和 系統(tǒng)預(yù)先準(zhǔn)備的聲音,生成應(yīng)答聲音。
發(fā)明內(nèi)容
』如上所述,在基于辭典和模式匹配技術(shù)的現(xiàn)在的聲音識別系統(tǒng)中,不能 完全防止將用戶的發(fā)音弄錯為辭典中的其他的詞匯的誤識別的發(fā)生。另外,在 把詞匯的組合作為識別對象的方式中,因為也需要包含用戶發(fā)音的哪個部分和 哪個詞匯對應(yīng)進(jìn)行正確識別,所以由于對于一個詞匯與弄4晉的部分對應(yīng)來進(jìn)行 了識別,由于對應(yīng)的偏離的波及有時其他的單詞也會產(chǎn)生誤識別。另外,在發(fā) 音未在辭典上登記的詞匯的場合,原理上不能正確進(jìn)行識別。為有效利用這樣的不完全的識別技術(shù),需要向用戶正確地傳達(dá)能夠正確 識別用戶發(fā)音的哪個部分、不能夠正確識別哪個部分。但是,現(xiàn)有技術(shù)向用戶 用畫面或者聲音通知識別結(jié)果字符串的方法、或者在可信度低的場合僅向用戶 通知不能正常進(jìn)行識別,不能充分滿足該要求。本發(fā)明是鑒于上述問題提出的,其特征在于,根據(jù)構(gòu)成聲音識別結(jié)果的 各詞匯的可信度,可信度高的詞匯使用合成聲音,可信度低的詞匯使用與該詞 匯對應(yīng)的用戶發(fā)音的片斷,生成向用戶通知的反饋聲音。本發(fā)明是根據(jù)用戶發(fā)出的聲音的輸入進(jìn)行應(yīng)答的聲音識別系統(tǒng),其特征 在于,具有把用戶發(fā)出的聲音變換為聲音數(shù)據(jù)的聲音輸入部;識別構(gòu)成聲音 數(shù)據(jù)的單詞的組合、計算每一單詞的識別的可信度的聲音識別部;生成應(yīng)答聲
音的應(yīng)答生成部;和使用應(yīng)答聲音向用戶傳達(dá)信息的聲音輸出部;應(yīng)答生成部, 對于計算出來的可信度滿足規(guī)定條件的單詞,生成該單詞的合成聲音,對于計 算出來的可信度不滿足規(guī)定條件的單詞,從聲音數(shù)據(jù)抽出與該單詞對應(yīng)的部 分,通過合成聲音和/或抽出的聲音數(shù)據(jù)的組合生成應(yīng)答聲音。能夠提供一種聲音識別系統(tǒng),其直覺上可理解用戶發(fā)言的哪個部分能夠 識別、哪個部分不能夠識別。另外,能夠提供一種聲音識別系統(tǒng),其在聲音識 別系統(tǒng)進(jìn)行錯誤地確認(rèn)的場合,因為通知用戶的片斷的用戶自身的發(fā)音,在發(fā) 音的中途被切斷等、直覺上認(rèn)為不正常的形態(tài)下被再生,所以能夠理解未正常 進(jìn)行聲音識別。


圖1是本發(fā)明的實施形態(tài)的聲音識別系統(tǒng)的結(jié)構(gòu)框圖。 圖2是表示本發(fā)明的實施形態(tài)的應(yīng)答生成部的動作的流程圖。 圖3是本發(fā)明的實施形態(tài)的應(yīng)答聲音的一例。 圖4是本發(fā)明的實施形態(tài)的應(yīng)答聲音的多例。
具體實施方式
下面參照

本發(fā)明的實施形態(tài)的聲音識別系統(tǒng)。 圖1是本發(fā)明的實施形態(tài)的聲音識別系統(tǒng)的結(jié)構(gòu)框圖。 本發(fā)明的聲音識別系統(tǒng),由聲音輸入部101、聲音識別部102、應(yīng)答生成部103、聲音輸出部104、音響模型存儲部105、辭典.識別語法存儲部106構(gòu)成。聲音輸入部101,接收用戶發(fā)出的聲音,變換為數(shù)字信號形式的聲音數(shù)據(jù)。 聲音輸入部101,例如由麥克風(fēng)和A/D變換器構(gòu)成,把通過麥克風(fēng)輸入的聲音 信號通過A/D變換器變換為數(shù)字信號。變換后的數(shù)字信號(聲音數(shù)據(jù))向聲 音識別部102或者應(yīng)答生成部103傳送。音響模型存儲部105,作為數(shù)據(jù)庫存儲音響模型。音響模型存儲部105, 例如由硬盤或者ROM構(gòu)成。所謂音響模型,是用統(tǒng)計模型表現(xiàn)用戶的發(fā)音作為什么樣的聲音數(shù)據(jù)得 到的數(shù)據(jù)。該音響模型,模型化為音節(jié)(例如"A"、"。"等的每個單位)。 模型化的單位,除音節(jié)單位外,也可以使用音素片單位。所謂音素片單位,是
把元音、輔音、靜音作為恒定部、4巴從元音到輔音、從輔音到元音那樣在不同 的恒定部之間移動的部分作為轉(zhuǎn)移部模型化了的數(shù)據(jù)。例如,"6 3"這樣的單詞,被分割為"靜音""靜音a,, "a" "ak" "k" "ki" "i" "i 靜音""靜音"。另外,作為統(tǒng)計模型化的方法,可以使用HMM等。辭典.識別語法存儲部106,存儲辭典數(shù)據(jù)以及識別語法數(shù)據(jù)。辭典.識 別語法存儲部106例如通過硬盤或者ROM等構(gòu)成。該辭典數(shù)據(jù)以及識別語法數(shù)據(jù)是關(guān)于多個單詞以及句子的組合的信息。 具體說,是為將上述音響模型化了的單位做成為有效的單詞或者句子指定怎樣 進(jìn)行組合的數(shù)據(jù)。辭典數(shù)據(jù)是指定像上述例子的"&3"那樣的音節(jié)的組合的 數(shù)據(jù)。識別語法數(shù)據(jù)是指定系統(tǒng)接受的單詞的組合的集合的數(shù)據(jù)。例如,為系 統(tǒng)接受"東京駅 行< (去東京站)"這樣的發(fā)音,需要在識別語法數(shù)據(jù)中包 含"東京駅"" ""行〈"這樣的3個單詞的組合。另外,事先給識別語 法數(shù)據(jù)賦予各單詞的分類信息。例如,可以把"東京駅,,這樣的單詞進(jìn)行為"場 所,,這樣的分類,把"行〈"這樣的單詞進(jìn)行"命令"這樣的分類。另夕卜, 給" "這樣的單詞賦予"非關(guān)鍵詞"這樣的分類。"非關(guān)鍵詞"這樣分類的 單詞賦予即使該單詞被識別也不影響系統(tǒng)動作的單詞。反之,通過識別"非 關(guān)鍵詞,,以外的分類的單詞,就成為給與系統(tǒng)某種影響的關(guān)鍵詞。例如,在識 別了分類為"命令,,的單詞的場合,進(jìn)行與所識別的單詞相當(dāng)?shù)墓δ艿恼{(diào)用, 作為"場所"被識別的單詞可以作為調(diào)用功能時的參數(shù)使用。聲音識別部102,根據(jù)通過聲音輸入部變換后的聲音數(shù)據(jù)取得識別結(jié)果, 計算類似度。聲音識別部102,根據(jù)聲音數(shù)據(jù),使用辭典'識別語法存儲部106 的辭典數(shù)據(jù)或者識別語法數(shù)據(jù)、和音響模型存儲部105的音響模型,取得音響 模型的組合指定的單詞或者句子。計算該取得的單詞或者句子和該聲音數(shù)據(jù)的 類似度。然后,輸出類似度高的單詞或者句子的識別結(jié)果。此外,在句子中包含構(gòu)成該句子的多個單詞。于是,給構(gòu)成識別結(jié)果的 各個單詞賦予可信度。合并成識別結(jié)果輸出。該類似度可以通過在特開平4—255900號7>報中記載的方法計算。另夕卜, 在計算類似度時,可以使用Viterbi算法來求構(gòu)成識別結(jié)果的各個單詞和聲音 數(shù)據(jù)的哪一部分對應(yīng)時類似度成為最高。使用這點,把表示各個單詞對應(yīng)的聲
音數(shù)據(jù)的部分的區(qū)間信息與識別結(jié)果合并輸出。具體說,輸出就其在每一規(guī)定區(qū)間(例如10ms)輸入的聲音數(shù)據(jù)(稱為幀)和構(gòu)成單詞的音素片的對應(yīng)而 言能夠使類似度最高時的信息。應(yīng)答生成部103,根據(jù)從聲音識別部102輸出的賦予了可信度的識別結(jié)果 生成應(yīng)答聲音數(shù)據(jù)。該應(yīng)答生成部103的處理后述。聲音輸出部104,把應(yīng)答生成部103生成的數(shù)字信號形式的應(yīng)答聲音數(shù)據(jù) 變換為人可聽到的聲音。聲音輸出部104例如用D/A變換器和揚聲器構(gòu)成。 輸入的聲音數(shù)據(jù)通過D/A變換器變換為模擬信號,變換后的模擬信號(聲音 信號)通過揚聲器向用戶輸出。下面說明應(yīng)答生成部103的動作。圖2是表示應(yīng)答生成部103的處理的流程圖。當(dāng)從聲音識別部102輸出賦予了可信度的識別結(jié)果時,執(zhí)行該處理。首先,選擇在輸入的識別結(jié)果中包含的關(guān)于最初的關(guān)鍵詞的信息(SIOOI)。識別結(jié)果,因為成為根據(jù)區(qū)間信息區(qū)分開來的原來的聲音數(shù)據(jù)的時序順序的單詞單位,所以首先選擇時序開頭的關(guān)鍵詞。分類為非關(guān)鍵詞的單詞,因為也是對應(yīng)答聲音無影響的單詞,所以忽略。另外,在識別結(jié)果中,因為給每一單詞賦予可信度以及區(qū)間信息,所以選擇賦予該單詞的可信度以及區(qū)間信 自接著,判定所選擇的關(guān)鍵詞的可信度是否在規(guī)定的闊值以上(S1002)。 在判定可信度在閾值以上的場合,轉(zhuǎn)移到步驟S1004,在判定不到閾值的場合, 轉(zhuǎn)移到步驟S1003。在判定所選擇的關(guān)鍵詞的可信度在規(guī)定的闊值以上的場合,通過辭典數(shù) 據(jù)或者識別語法數(shù)據(jù)指定的音響模型的組合不差于輸入的聲音數(shù)據(jù)的發(fā)音,是 充分識別了該關(guān)鍵詞的情況。在這一場合,合成識別結(jié)果的關(guān)鍵詞的合成聲音, 變換為聲音數(shù)據(jù)(S1003 )。這里,用本步驟進(jìn)行實際的聲音合成處理,但是也 可以用步驟S1008的應(yīng)答聲音生成處理匯總成系統(tǒng)準(zhǔn)備的應(yīng)答句子來進(jìn)行聲 音合成處理。不管哪種方法,都通過使用相同的聲音合成引擎,以高可信度識 別的關(guān)鍵詞,能夠以和系統(tǒng)準(zhǔn)備的應(yīng)答句子相同的音質(zhì)沒有不諧調(diào)感地進(jìn)行合 成。
另一方面,在判定所選擇的關(guān)鍵詞的可信度比規(guī)定的閾值低的場合,通 過辭典數(shù)據(jù)或者識別語法數(shù)據(jù)指定的音響模型數(shù)據(jù)的組合和輸入的聲音數(shù)據(jù) 的發(fā)音相差甚遠(yuǎn),是不能充分識別該關(guān)鍵詞的場合。在該場合,不生成合成聲 音,把用戶的發(fā)音原樣不變作為聲音數(shù)據(jù)。具體說,使用賦予識別結(jié)果的單詞 的區(qū)間信息,抽出與聲音數(shù)據(jù)的單詞對應(yīng)的部分。把該抽出的聲音數(shù)據(jù)作為輸出的聲音數(shù)據(jù)(S1004)。由此,可信度低的部分,因為成為和系統(tǒng)準(zhǔn)備的應(yīng)答 句子、或者可信度高的部分不同的音質(zhì),所以用戶能夠容易地理解哪一部分是 可信度低的部分。通過步驟S1003以及步驟S1004,可以得到與識別結(jié)果的關(guān)鍵詞對應(yīng)的 聲音數(shù)據(jù)。然后,把該聲音數(shù)據(jù)作為與識別結(jié)果的單詞關(guān)聯(lián)的數(shù)據(jù)保存(s畫)。接著,判定在輸入的識別結(jié)果中是否有下一關(guān)鍵詞(S1006)。因為識別 結(jié)果成為原來的聲音數(shù)據(jù)的時序順序,所以判定是否有通過步驟S1002到步驟 S1005的處理的下一順序的關(guān)鍵詞。在判定為有下一關(guān)鍵詞的場合,選擇該關(guān) 鍵詞(S1007)。然后執(zhí)行上述步驟S1002到步驟S1006的處理。另一方面,在判定不再有下一關(guān)鍵詞的場合,對于在識別結(jié)果中包含的 所有的關(guān)4t詞,結(jié)束對應(yīng)的聲音數(shù)據(jù)的賦予。因此,使用賦予該聲音數(shù)據(jù)的識 別結(jié)果,執(zhí)行應(yīng)答聲音生成處理(S1008)。該應(yīng)答聲音生成處理,使用與在識別結(jié)果中包含的全部關(guān)鍵詞對應(yīng)的聲 音數(shù)據(jù),生成為向用戶通知的應(yīng)答聲音數(shù)據(jù)。在應(yīng)答聲音生成處理中,例如,或者組合與關(guān)鍵詞對應(yīng)的聲音數(shù)據(jù),或 者和另外準(zhǔn)備的聲音數(shù)據(jù)組合,生成向用戶表示聲音識別的結(jié)果或者不能良好 進(jìn)行聲音識別的地方(可信度不到規(guī)定的閾值的關(guān)鍵詞)的應(yīng)答聲音。聲音數(shù)據(jù)的組合方法,因為根據(jù)系統(tǒng)和用戶進(jìn)行怎樣的對話、是什么樣 的狀況而變化,所以需要對應(yīng)狀況使用為變更聲音數(shù)據(jù)的組合的程序或者對話 場景。在本實施例中,使用下面的例子說明聲音應(yīng)答生成處理。(1) 用戶的發(fā)音是"琦玉O大宮公園(琦玉的大宮公園)"。(2) 構(gòu)成識別結(jié)果的單詞是"琦玉""大宮公園,,三個,關(guān)鍵詞
是"跨玉,,"大宮公園,,兩個。(3)比規(guī)定的閾值可信度高的單詞僅是"琦玉"。首先說明第一方法。第一方法是對于用戶表示用戶發(fā)出的聲音的識別結(jié) 果的方法。具體說,生成聯(lián)系與識別結(jié)果的關(guān)鍵詞對應(yīng)的聲音數(shù)據(jù)和或 者"rn、UTTt力、?(可以嗎?),,這樣的系統(tǒng)準(zhǔn)備的確認(rèn)的話語的聲音數(shù)據(jù)的應(yīng)答聲音數(shù)據(jù)(參照圖3 )。在第一方法中,通過用聲音合成制成的聲音數(shù)據(jù)"琦玉,,(圖3中用下劃 線表示)、從用戶的發(fā)音的聲音數(shù)據(jù)中抽出的聲音數(shù)據(jù)"ff多々C (大宮)" (在圖3中用斜體表示)、以及用聲音合成制成的聲音數(shù)據(jù)""Tt、t,TT 卞力、?"(圖3中用下劃線表示)的組合制作應(yīng)答聲音,向用戶應(yīng)答。亦即, 把可信度比規(guī)定的闊值小的、有誤識別的可能性的"朽:^^々C"的部分,以 用戶發(fā)出的聲音原樣不變應(yīng)答。通過這樣做,例如聲音識別部102,即使在把"大宮公園"誤識別為"大 和田公園,,的場合,用戶作為應(yīng)答聲音會聽到自己發(fā)出的"大宮公園,,這樣的 聲音。因此,在識別結(jié)果中,能夠確認(rèn)通過聲音合成生成的單詞,亦即可信度 在規(guī)定的閾值以上的單詞("琦玉")的識別結(jié)果是否正確,而且,能夠確認(rèn)可 信度比規(guī)定的閾值小的單詞("大宮公園,,)是否已由系統(tǒng)正確錄音。例如,在 未正確錄音用戶發(fā)音的后面的部分的場合,用戶就聽到"珅玉""CT, "f f^々C" ""n、。"T卞力、?,,那樣的詢問。因此,用戶能夠理解是否正確 判斷系統(tǒng)判斷的各單詞的區(qū)間信息后進(jìn)行了錄音,可以嘗試再輸入。該方法例如適合于用聲音識別系統(tǒng)進(jìn)行按縣匯總關(guān)于喜歡的公園的口頭 的民意調(diào)查的作業(yè)的場合。在這種場合,聲音識別系統(tǒng),能夠根據(jù)聲音識別結(jié) 果自動匯總按不同縣的件數(shù)。另外,識別結(jié)果的可信度低的"大宮公園"的部 分,通過后來使用操作員聽后輸入等的方法來應(yīng)對。因此,在第一方法中,用戶能夠確認(rèn)用戶的聲音被正確識別的部分,而 且不能被正確識別的聲音,用戶能夠確認(rèn)在系統(tǒng)中已被正確地錄音了 。下面說明第二方法。第二方法是在懷疑識別結(jié)果的場合對于用戶僅詢問 那一部分的方法。具體說,是在識別結(jié)果的可信度低的"大宮公園"上組合"O 部分力《^賣〈聞3取扎法甘/ttTL亡(的部分未清楚地聽到)"這樣的確認(rèn)的 話語聲音數(shù)據(jù)的方法(參照圖4)。在該第二方法中,通過從用戶發(fā)音的聲音數(shù)據(jù)中抽出的聲音數(shù)據(jù)"大宮公園,,(圖4中用斜體表示)、以及用聲音合成制作的聲音數(shù)據(jù)"0部分力《^主 <聞S取扎主甘/tr'L/i"(圖4中用下劃線表示)的組合制作應(yīng)答聲音,向 用戶應(yīng)答。亦即,對可信度比規(guī)定的闊值小的、有誤識別的可能性的"大宮公 園"的部分,用用戶發(fā)出的聲音原樣不變應(yīng)答。并且,對用戶應(yīng)答該聲音的未 很好的進(jìn)行識別。此后,向用戶應(yīng)答再次輸入聲音等的指示。此外,"大宮/>園"的部分的識別結(jié)果作為"大宮"、"^園"兩個單詞3皮 識別,進(jìn)而在僅"公園"的部分的可信度在規(guī)定的閾值以上的場合,有下面那 樣的應(yīng)答方法。亦即,如上述,在應(yīng)答成用戶發(fā)音的聲音數(shù)據(jù)"大宮公園,,以 及聲音合成的聲音數(shù)據(jù)"力《分力、9法廿丄(不明白)"后,通過生成"七、'66 O公園"C,卞力、(哪個公園)?,,"天沼公園。J: 3 (C發(fā)聲L TT下5 。(請像 天沼公園那樣發(fā)音)"等的聲音進(jìn)行應(yīng)答,催促用戶再發(fā)音。此外,在后者的 場合,因為當(dāng)把識別結(jié)果的可信度低的單詞"大宮公園"作為例子用于應(yīng)答時 有給用戶造成混亂的可能性,所以希望避免。因此,在第二方法中,能夠向用戶明確地傳達(dá)用戶發(fā)音中的哪個部分 能被識別、哪個部分不能被識別。另外,在用戶發(fā)音成"琦玉O大宮公園"時, 在"大宮公園"的部分由于周圍的雜音變大而可信度降低的場合,因為在應(yīng)答 聲音的"大宮公園,,的部分周圍的雜音也變大,所以用戶容易理解周圍雜音是 不能識別的原因。在這種場合,用戶通過或者在周圍雜音小的時刻嘗試發(fā)音, 或者向周圍雜音低的場所移動,在乘車的場合或者停車,可以想方設(shè)法降低周圍雜音的影響。另外,在"大宮公園"的部分的發(fā)音過小、不能接收聲音數(shù)據(jù)的場合, 與用戶聽到的應(yīng)答聲音的"大宮公園"對應(yīng)的部分成為無聲,容易理解系統(tǒng) 不能接收"大宮/>園"的部分。在這一場合,用戶通過或者嘗試用大的聲音發(fā) 音,或者把嘴靠近麥克風(fēng)發(fā)音,能夠設(shè)法確實接收聲音。進(jìn)而,在識別結(jié)果的單詞像"琦玉""CO大""宮公園,,那樣誤分割 單詞的場合,因為用戶聽到的應(yīng)答聲音成為"宮公園",用戶容易理解為系 統(tǒng)對應(yīng)失敗了。用戶,即使在聲音識別的結(jié)果錯誤的場合,因為在弄錯為非常
相似的單詞出的場合,即使在人們彼此的會話中也有可能出現(xiàn),所以可能允許 誤識別,但是在誤識別為完全不同的發(fā)音的單詞的場合,對于聲音識別系統(tǒng), 就有可能會產(chǎn)生大的不信任感。如上述,通過讓用戶知道對應(yīng)的失敗,用戶就能夠推定誤識別的理由, 可以期待得到某種程度的理解。另外,在上述的例子中,至少"琦玉,,的部分的單詞可信度在規(guī)定值以上,能夠正確地識別。因此,把聲音識別部102使用的辭典'識別語法存儲部 106的數(shù)據(jù)限定為關(guān)于琦玉縣的公園的內(nèi)容。通過這樣啦文,在下次的聲音輸入 (例如下次用戶的發(fā)音)中,"大宮公園"的部分的識別率會提高。作為使用用戶的發(fā)音的聲音數(shù)據(jù)中、可信度高的被識別的部分,來提高 多個部分的識別率的方法,有以下說明的方法。具體說,在不僅公園的名字,而且關(guān)于所有的設(shè)施的民意調(diào)查中,當(dāng)對 應(yīng)用戶發(fā)音的"xx縣的yy"這樣的發(fā)音時,該組合的數(shù)目龐大,聲音識別的 識別率降低。進(jìn)而,系統(tǒng)的處理量或者需要的存儲器量是不實用的。因此,最 初,不正確識別"yy"的部分,而識別"xx"的部分。然后,使用被識別的"xx 縣",使用該xx縣限定的辭典數(shù)據(jù)以及識別語法數(shù)據(jù),識別"yy"的部分。當(dāng)使用"xx縣"限定的辭典數(shù)據(jù)以及識別語法數(shù)據(jù)時,"yy"的部分的識 別率提高。在這一場合,在用戶發(fā)音的聲音數(shù)據(jù)的全部單詞被正確識別、可信 度在規(guī)定的閾值以上的場合,成為全部通過聲音合成的應(yīng)答聲音。因此,用戶 能夠感覺到系統(tǒng)關(guān)于所有縣的所有設(shè)施能夠識別"xx縣的yy"這樣的發(fā)音。另一方面,在使用"xx縣"限定的辭典數(shù)據(jù)以及識別語法數(shù)據(jù)的"yy" 的部分的識別結(jié)果的可信度比闊值低的場合,如上述,通過抽出用戶發(fā)音的聲 音數(shù)據(jù)生成"yy,, "0部分力《上手〈聞3取扎賣廿HT L亡(的部分未清楚地 聽到)"等的應(yīng)答聲音,能夠催促用戶再發(fā)音。作為僅識別該"xx"的部分的方法,有讓辭典.識別語法存儲部106的 辭典數(shù)據(jù)的一個具有表現(xiàn)所有音節(jié)的組合的記述(無用信息)的方法。亦即, 作為識別語法數(shù)據(jù)的組合使用<都道府縣名><0><力^< 、7 y〉這樣的組合。# 乂 '7 -的部分,假定代替未在辭典中登記的各設(shè)施的名字。另外,在構(gòu)成在日本存在的設(shè)施名的音節(jié)的組合中有某種特征。例如,"無3"這樣的組合,比"扎1>*"這樣的組合出現(xiàn)頻度高。利用這點,從設(shè) 施名的統(tǒng)計求鄰接的音節(jié)的出現(xiàn)頻度,通過提高出現(xiàn)頻度高的音節(jié)的組合的類 似度,能夠提高作為設(shè)施名的替代的精度。如上說明,本發(fā)明的實施形態(tài)的聲音識別系統(tǒng),能夠生成用戶直覺上可 理解能夠識別由用戶輸入的聲音的哪個部分、不能夠識別哪個部分的應(yīng)答聲 音,向用戶應(yīng)答。另外,因為未被正確進(jìn)行聲音識別的部分,包含通知用戶的 用戶自身片斷的發(fā)音,所以在發(fā)音中途被切斷等,直覺上認(rèn)為不正常的形態(tài)下 被再生,所以就能夠理解未正常進(jìn)行聲音識別的情況。
權(quán)利要求
1.一種聲音識別系統(tǒng),其根據(jù)用戶發(fā)出的聲音的輸入進(jìn)行應(yīng)答,其特征在于,具有把用戶發(fā)出的聲音變換為聲音數(shù)據(jù)的聲音輸入部;識別構(gòu)成所述聲音數(shù)據(jù)的單詞的組合,計算每一單詞的識別的可信度的聲音識別部;生成應(yīng)答聲音的應(yīng)答生成部;和使用所述應(yīng)答聲音向用戶傳達(dá)信息的聲音輸出部;所述應(yīng)答生成部,對于計算出來的可信度滿足規(guī)定條件的單詞,生成該單詞的合成聲音,對于計算出來的可信度不滿足規(guī)定條件的單詞,從所述聲音數(shù)據(jù)抽出與該單詞對應(yīng)的部分,通過所述合成聲音和/或所述抽出的聲音數(shù)據(jù)的組合生成所述應(yīng)答聲音。
2. 根據(jù)權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于, 所述應(yīng)答生成部,進(jìn)一步生成催促用戶發(fā)出的聲音的確認(rèn)的合成聲音,生成在所述聲音數(shù)據(jù)的組合上附加了所述生成的合成聲音的所述應(yīng)答聲音。
3. 根據(jù)權(quán)利要求1所述的聲音識別系統(tǒng),其特征在于, 所述應(yīng)答生成部,對于計算出來的可信度不滿足規(guī)定條件的單詞,從所述聲音數(shù)據(jù)抽出與 該單詞對應(yīng)的部分,生成催促該單詞的確認(rèn)的合成聲音,在所述抽出的聲音數(shù)據(jù)上附加該應(yīng)答聲音,生成所述應(yīng)答聲音。
4. 根據(jù)權(quán)利要求1到3中任何一項所述的聲音識別系統(tǒng),其特征在于, 具有保存為識別聲音數(shù)據(jù)的辭典數(shù)據(jù)以及識別語法數(shù)據(jù)的辭典識別語法保存部,所述聲音識別部,優(yōu)先識別構(gòu)成所述聲音數(shù)據(jù)的單詞中的至少一個, 其后,從所述辭典識別語法保存部中,取得關(guān)于該單詞的辭典數(shù)據(jù)以及 識別語法數(shù)據(jù),使用所述取得的辭典數(shù)據(jù)以及識別語法數(shù)據(jù),識別其他的單詞。
5. —種聲音識別裝置,其生成基于聲音的輸入的應(yīng)答聲音,其特征在于, 具有把用戶發(fā)出的聲音變換為聲音數(shù)據(jù)的聲音輸入部; 識別構(gòu)成所述聲音數(shù)據(jù)的單詞的組合,計算每一單詞的識別的可信度的 聲音識別部;和生成應(yīng)答聲音的應(yīng)答生成部; 所述應(yīng)答生成部,對于計算出來的可信度滿足規(guī)定條件的單詞,生成該單詞的合成聲音, 對于計算出來的可信度不滿足規(guī)定條件的單詞,從所述聲音數(shù)據(jù)抽出與該單詞對應(yīng)的部分,通過所述合成聲音和/或所述抽出的聲音數(shù)據(jù)的組合生成所述應(yīng)答聲音。
6. —種聲音生成程序,其具有把用戶發(fā)出的聲音變換為聲音數(shù)據(jù)的聲 音輸入部;識別構(gòu)成所述聲音數(shù)據(jù)的單詞的組合,計算每一單詞的識別的可信 度的聲音識別部;生成應(yīng)答聲音的應(yīng)答生成部;和使用所述應(yīng)答聲音向用戶傳 達(dá)信息的聲音輸出部;根據(jù)用戶發(fā)出的聲音的輸入進(jìn)行應(yīng)答,其特征在于,包 含下述步驟計算出來的可信度滿足規(guī)定條件的單詞,生成該單詞的合成聲音的第一步驟;計算出來的可信度不滿足規(guī)定條件的單詞,從所述聲音數(shù)據(jù)抽出與該單 詞對應(yīng)的部分的第二步驟;和通過所述合成聲音和/或所述抽出的聲音數(shù)據(jù)的組合生成所述應(yīng)答聲音的 第三步驟。
全文摘要
提供使用聲音識別技術(shù)、進(jìn)行基于通過用戶的聲音輸入的應(yīng)答的聲音識別系統(tǒng)、聲音識別裝置以及聲音生成程序。本發(fā)明是根據(jù)用戶發(fā)出的聲音的輸入進(jìn)行應(yīng)答的聲音識別系統(tǒng),具有把用戶發(fā)出的聲音變換為聲音數(shù)據(jù)的聲音輸入部;識別構(gòu)成聲音數(shù)據(jù)的單詞的組合、計算每一單詞的識別的可信度的聲音識別部;生成應(yīng)答聲音的應(yīng)答生成部;和使用應(yīng)答聲音向用戶傳達(dá)信息的聲音輸出部;應(yīng)答生成部,對于計算出來的可信度滿足規(guī)定條件的單詞,生成該單詞的合成聲音,而對于計算出來的可信度不滿足規(guī)定條件的單詞,從聲音數(shù)據(jù)抽出與該單詞對應(yīng)的部分,通過合成聲音和/或抽出的聲音數(shù)據(jù)的組合生成應(yīng)答聲音。
文檔編號G10L15/18GK101111885SQ20068000369
公開日2008年1月23日 申請日期2006年2月3日 優(yōu)先權(quán)日2005年2月4日
發(fā)明者友田孝久, 大野健, 富樫實, 鯨井俊宏 申請人:株式會社查納位資訊情報
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
林周县| 驻马店市| 合作市| 江达县| 伊通| 榆中县| 金坛市| 乐安县| 安图县| 房产| 桃园县| 佛冈县| 桑日县| 山东省| 汾阳市| 兰溪市| 齐齐哈尔市| 通河县| 慈溪市| 广州市| 凌云县| 衡东县| 迁安市| 武城县| 黑山县| 南澳县| 万安县| 通州市| 五峰| 成武县| 武山县| 县级市| 北票市| 涿鹿县| 巴彦淖尔市| 建阳市| SHOW| 皋兰县| 闸北区| 阿坝| 三亚市|