專利名稱:中文人名自動語音辨識輸入方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種自動語音辨識輸入方法及系統(tǒng),尤其涉及一種中文人名自動語音辨識輸入方法及系統(tǒng)。
背景技術:
隨著自動語音辨識技術日漸成熟,提供使用自動語音辨識技術的自動化程序,用以解決慣常繁瑣的例行性工作,便可以達到節(jié)省巨額人力支出成本的效果。
舉例來說,目前全國性的查號臺(例如104和105),是使用人工辨識的方式進行人名查詢的辨識工作,并無提供自動語音辨識的輸入法,而提供104查號臺服務的中國電信,則必須使用上千名人力才能應付龐大的查詢需求,若能將其服務功能自動化,則不管是節(jié)省人力成本方面,甚或是對人力資源做更妥善的運用安排,都能收到顯著的成效。
現(xiàn)行的中文人名自動語音辨識系統(tǒng),所采取的方式皆以一個個中文人名作為詞組單位訓練語言模型,當使用者以語音輸入進行人名辨識時,辨識引擎會參考使用中文人名所訓練出的語言模型進行比對,待辨識完成后系統(tǒng)即可輸出完整的中文人名。然而,此種中文人名自動語音辨識系統(tǒng)卻只適用于小量(約幾千個人名數(shù)據(jù))的中文人名辨識上,一旦遇上大量的人名數(shù)據(jù)(幾萬個甚至到幾百萬個人名數(shù)據(jù)),辨識成功率就會急遽下降,因此現(xiàn)行的中文人名自動語音辨識系統(tǒng)僅適用于一般公司行號的總機系統(tǒng),若要應用在全國性的查號系統(tǒng)上,由于使用者的耐心有限,恐怕無法忍受辨識率極低的系統(tǒng),因此在施行上仍有一定的困難度。
因此,申請人鑒于公知技術的缺陷,乃經(jīng)悉心試驗與研究,終于研發(fā)出一種中文人名自動語音辨識輸入方法及系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的主要構想為提供一種中文人名自動語音辨識輸入方法,其步驟包含(a)由一使用者輸入一第一語音,以描述所欲辨識的一人名,該人名包含多個字符;(b)利用一全人名辨識網(wǎng)絡單元(Name Net Recognizer),對該第一語音進行辨識,以得到一人名辨識結果;(c)傳送該人名辨識結果至一字符確認單元(Character Confirmation Unit);(d)利用該字符確認單元對該人名辨識結果的各該字符分別進行確認;(e)若于步驟(d)中確認各該字符辨識正確,則輸出確認后的該人名辨識結果;(f)若于步驟(d)中確認各該字符其中之一辨識錯誤,則該使用者以一型態(tài)輸入一第二語音描述該辨識錯誤字符;(g)利用對應該型態(tài)的一描述辨識單元對該第二語音進行辨識,且將其辨識結果傳送至該字符確認單元;以及(h)重復步驟(d)-(g)。
根據(jù)上述構想,其中步驟(b)還包含下列步驟(b1)獲取該第一語音的一特征參數(shù);以及(b2)依據(jù)該特征參數(shù),利用該全人名辨識網(wǎng)絡單元對該第一語音進行辨識。
根據(jù)上述構想,其中步驟(b1)還包含下列步驟(b11)對該第一語音進行預處理;以及(b12)獲取該第一語音的該特征參數(shù)。
根據(jù)上述構想,其中步驟(b11)還包含下列步驟放大該第一語音信號;對該第一語音信號正規(guī)化(normalization);對該第一語音信號進行預強調(diào)(pre-emphasis);將該第一語音乘上漢明窗(Hamming Window);以及將該第一語音通過一低通濾波器或一高通濾波器。
根據(jù)上述構想,其中步驟(b12)還包含下列步驟對該第一語音進行快速傅立葉變換(Fast Fourier Transform,F(xiàn)FT)處理;以及求取該第一語音的梅爾倒頻譜參數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)。
根據(jù)上述構想,其中步驟(d)還包含下列步驟逐一輸出相對于各該字符的多個字符假設;以及由該使用者從該多個字符假設中選擇正確的各該字符。
根據(jù)上述構想,其中該輸出是以語音播放各該字符假設的一描述詞句。
根據(jù)上述構想,其中該輸出是以屏幕顯示各該字符假設。
根據(jù)上述構想,其中該使用者是以語音輸入選擇。
根據(jù)上述構想,其中該使用者是以按鍵輸入選擇。
根據(jù)上述構想,其中步驟(g)還包含下列步驟(g1)獲取該第二語音的一特征參數(shù);以及(g2)依據(jù)該特征參數(shù),利用該描述辨識單元對該第二語音進行辨識。
根據(jù)上述構想,其中步驟(g1)還包含下列步驟(g11)對該第二語音進行預處理;以及(g12)獲取該第二語音的該特征參數(shù)。
根據(jù)上述構想,其中步驟(g11)還包含下列步驟放大該第二語音信號;對該第二語音信號正規(guī)化(normalization);對該第二語音信號進行預強調(diào)(pre-emphasis);將該第二語音乘上漢明窗(Hamming Window);以及將該第二語音通過一低通濾波器或一高通濾波器。
根據(jù)上述構想,其中步驟(g12)還包含下列步驟對該第二語音進行快速傅立葉變換(Fast Fourier Transform,F(xiàn)FT)處理;以及求取該第二語音的梅爾倒頻譜參數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)。
根據(jù)上述構想,其中步驟(f)中,該使用者是以一字符詞組型態(tài)描述該辨識錯誤字符。
根據(jù)上述構想,其中對應該字符詞組型態(tài)的描述辨識單元為一字符描述辨識單元(Character Description Recognizer,CDR)。
根據(jù)上述構想,其中步驟(f)中,該使用者是以一音節(jié)詞組方式描述該辨識錯誤字符。
根據(jù)上述構想,其中對應該音節(jié)詞組型態(tài)的描述辨識單元為一音節(jié)描述辨識單元(Syllable Spelling Recognizer,SSR)。
本發(fā)明的另一構想在于提供一種中文人名自動語音辨識輸入系統(tǒng),其包含一語音輸入裝置,其用以使一使用者輸入一語音,該語音用以描述所欲辨識的一人名,該人名包含多個字符;一全人名辨識網(wǎng)絡單元(Name NetRecognizer),其用以辨識該語音而得一人名辨識結果;一字符確認單元(Character Confirmation Unit),用以分別確認該人名辨識結果的各該字符是否正確;一字符描述辨識單元(Character Description Recognizer,CDR),其當該使用者以一字符詞組型態(tài)描述各該字符時,用以辨識各該字符;一音節(jié)描述辨識單元(Syllable Spelling Recognizer,SSR),其當該使用者以一音節(jié)詞組型態(tài)描述各該字符時,用以辨識各該字符;以及一輸出裝置,用以輸出確認后的該人名辨識結果。
根據(jù)上述構想,其中該全人名辨識網(wǎng)絡單元還包含一全人名辨識網(wǎng)絡引擎以及一人名字符序列語言模型。
根據(jù)上述構想,其中該人名字符序列語言模型為根據(jù)一基本詞匯及一已知人名數(shù)據(jù)所訓練出的語言模型。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由1300帶聲調(diào)的音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
根據(jù)上述構想,其中該字符描述辨識單元還包含一字符描述辨識引擎以及一字符描述語言模型。
根據(jù)上述構想,其中該字符描述語言模型為根據(jù)一基本詞匯及一運用字符描述的詞組數(shù)據(jù)所訓練出的語言模型。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由1300帶聲調(diào)的音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
根據(jù)上述構想,其中該音節(jié)描述辨識單元還包含一音節(jié)描述辨識引擎、一音節(jié)描述語言模型以及一音節(jié)對應字符表。
根據(jù)上述構想,其中該音節(jié)描述語言模型為根據(jù)一基本詞匯及一運用音節(jié)描述的詞組數(shù)據(jù)所訓練出的語言模型。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由1300帶聲調(diào)的音節(jié)所組成。
根據(jù)上述構想,其中該基本詞匯由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
本發(fā)明的又一構想在于提供一種全人名辨識網(wǎng)絡單元(Name NetRecognizer),其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其用以描述一中文人名,該全人名辨識網(wǎng)絡單元便可辨識該人名,其包含一人名辨識網(wǎng)絡引擎以及一人名字符序列語言模型,其中該人名字符序列語言模型為根據(jù)一基本詞匯及一已知人名數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由408音節(jié)或1300帶聲調(diào)的音節(jié)或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成,其中該人名辨識網(wǎng)絡引擎參考該人名字符序列語言模型以辨識該語音。
本發(fā)明的又一構想在于提供一種字符描述辨識單元(CharacterDescription Recognizer,CDR),其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其以一字符詞組型態(tài)描述一字符時,該字符描述辨識單元便可辨識該字符,其包含一字符描述辨識引擎以及一字符描述語言模型,其中該字符描述語言模型為根據(jù)一基本詞匯及一運用字符描述的詞組數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由408音節(jié)或1300帶聲調(diào)的音節(jié)或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成,其中該字符描述辨識引擎參考該字符描述語言模型以辨識該語音。
本發(fā)明的又一構想在于提供一種音節(jié)描述辨識單元(Syllable SpellingRecognizer,SSR),其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其以一音節(jié)詞組型態(tài)描述一字符時,該音節(jié)描述辨識單元便可辨識該字符,其包含一音節(jié)描述辨識引擎,一音節(jié)描述語言模型以及一音節(jié)對應字符表,其中該音節(jié)描述語言模型為根據(jù)一基本詞匯及一運用音節(jié)描述的詞組數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由408音節(jié)或1300帶聲調(diào)的音節(jié)或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成,其中該音節(jié)描述辨識引擎參考該音節(jié)描述語言模型以辨識該語音。
本發(fā)明的又一構想在于提供一種包含上述中文人名自動語音辨識輸入系統(tǒng)的人名查詢系統(tǒng)。
根據(jù)上述構想,其中該人名查詢系統(tǒng)用于查號臺。
根據(jù)上述構想,其中該人名查詢系統(tǒng)用于自動總機對話系統(tǒng)。
根據(jù)上述構想,其中該人名查詢系統(tǒng)用于語音入口網(wǎng)站。
本發(fā)明得借助下列附圖與實施例的說明,得一更深入的了解。
圖1所示為本發(fā)明的中文人名自動語音辨識輸入方法的一流程圖。
圖2所示為本發(fā)明的全人名辨識網(wǎng)絡單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。
圖3所示為本發(fā)明的字符描述辨識單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。
圖4所示為本發(fā)明的音節(jié)描述辨識單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。
其中,附圖標記說明如下1中文人名自動語音辨識輸入系統(tǒng)11全人名辨識網(wǎng)絡單元(Name Net Recognizer)12字符確認單元(Character Confirmation Unit)13字符描述辨識單元(Character Description Recognizer,CDR)14音節(jié)描述辨識單元(Syllable Spelling Recognizer,SSR)具體實施方式
本發(fā)明將可由以下的實施例說明而得到充分了解,使得本領域技術人員可以據(jù)以完成,然而本發(fā)明的實施并非可由下列實施例而被限制其實施型態(tài)。
請參閱圖1,其為本發(fā)明的中文人名自動語音辨識輸入方法的一流程圖。該方法借助中文人名自動語音辨識輸入系統(tǒng)1所執(zhí)行,該中文人名自動語音辨識輸入系統(tǒng)1包含語音輸入裝置(圖上未示)、全人名辨識網(wǎng)絡單元(NameNet Recognizer)11、字符確認單元(Character Confirmation Unit)12、字符描述辨識單元(Character Description Recognizer,CDR)13、音節(jié)描述辨識單元(Syllable Spelling Recognizer,SSR)14以及輸出裝置(圖上未示)。
首先,使用者經(jīng)由語音輸入裝置,以語音輸入所欲辨識的中文人名。其后,將所輸入的語音傳送至全人名辨識網(wǎng)絡單元11,以進行人名辨識,全人名辨識網(wǎng)絡單元11的辨識結果為中文人名的每個字符的可能的字符串群,經(jīng)過切割后分成多個單一字符群,并分別傳送給字符確認單元12。字符確認單元12在接收到單一字符群之后,便針對每一字符群,由輸出裝置逐一輸出可能的字符,讓使用者進行分段確認并選擇正確的字符,若每個字符都辨識正確無誤,則由輸出裝置輸出正確的結果,若其中有字符辨識失敗,則系統(tǒng)1會引導使用者做更進一步的辨識動作。
假使有字符辨識失敗,使用者必須針對辨識錯誤的字符,以另一種型態(tài)輸入語音描述辨識錯誤的字符,然后傳給對應該型態(tài)的描述辨識單元進行辨識。若使用者以字符詞組型態(tài)重新描述辨識錯誤的字符時,便利用字符描述辨識單元13對該字符進行辨識,若使用者以音節(jié)詞組型態(tài)重新描述描述辨識錯誤的字符時,則是利用音節(jié)描述辨識單元14對該字符進行辨識,不論采取何種型態(tài)描述該字符,所辨識的結果均是該字符可能的字符群,字符描述辨識單元13及音節(jié)描述辨識單元14隨后會將該字符群傳送至字符確認單元12,由字符確認單元12輔助使用者作更進一步的確認。若有字符再度辨識失敗,則繼續(xù)重復描述該字符的步驟。然而,為了防止一再辨識錯誤會造成使用者感到不耐煩,若字符確認單元12在確認辨識失敗超過一定次數(shù)(例如4次)后,則系統(tǒng)1便會將使用者切換給服務人員,由服務人員提供使用者所需的查詢服務。
在實施細節(jié)方面,該全人名辨識網(wǎng)絡單元11、字符描述辨識單元13以及音節(jié)描述辨識單元14皆必須先對所輸入的語音進行特征參數(shù)獲取的處理。該語音信號先經(jīng)過適當步驟的預處理(例如信號放大、正規(guī)化(normalization)、預強調(diào)(pre-emphasis)、乘上漢明窗(Hamming Window)、通過低通濾波器或高通濾波器等),接著便進入特征參數(shù)獲取處理的步驟。特征參數(shù)獲取處理以數(shù)據(jù)幀為單位,針對每一數(shù)據(jù)幀先進行例如快速傅立葉變換(Fast Fourier Transform,F(xiàn)FT)處理將語音信號轉為頻譜,接著進一步對該頻譜求得梅爾倒頻譜參數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)。各辨識單元(11、13、14)求得語音信號的特征參數(shù)后,便會與各辨識單元(11、13、14)所具備的語言模型比對,以找出每一字符最有可能的字符群,并且依出現(xiàn)頻率排序,再將結果傳送至字符確認單元12。
請參閱圖2,其為本發(fā)明的全人名辨識網(wǎng)絡單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。全人名辨識網(wǎng)絡單元包含全人名辨識網(wǎng)絡引擎以及人名字符序列語言模型,其中該人名字符序列語言模型為根據(jù)一基本詞匯及一已知人名數(shù)據(jù)所訓練出的語言模型,以供全人名辨識網(wǎng)絡引擎參考比對用,其中該基本詞匯可由408音節(jié)、或1300帶聲調(diào)的音節(jié)、或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。當語音輸入后,經(jīng)由上述特征參數(shù)獲取處理,全人名辨識網(wǎng)絡引擎便會參考人名字符序列語言模型,而得出各個字符最有可能的字符群。
請參閱圖3,其為本發(fā)明的字符描述辨識單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。字符描述辨識單元包含一字符描述辨識引擎以及一字符描述語言模型,其中該字符描述語言模型為根據(jù)一基本詞匯及一運用字符描述的詞組數(shù)據(jù)所訓練出的語言模型,以供字符描述辨識引擎參考比對用,其中該基本詞匯可由408音節(jié)、或1300帶聲調(diào)的音節(jié)、或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。當以一字符描述型態(tài)的語音輸入后,經(jīng)由上述特征參數(shù)獲取處理,字符描述辨識引擎便會參考字符描述語言模型,而得出該字符最有可能的字符群。
請參閱圖4,其為本發(fā)明的音節(jié)描述辨識單元應用在中文人名自動語音辨識輸入系統(tǒng)的示意圖。音節(jié)描述辨識單元包含一音節(jié)描述辨識引擎以及一音節(jié)描述語言模型,其中該音節(jié)描述語言模型為根據(jù)一基本詞匯及一運用音節(jié)描述的詞組數(shù)據(jù)所訓練出的語言模型,以供音節(jié)描述辨識引擎參考比對用,其中該基本詞匯可由408音節(jié)、或1300帶聲調(diào)的音節(jié)、或408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。當以一音節(jié)描述型態(tài)的語音輸入后,經(jīng)由上述特征參數(shù)獲取處理,音節(jié)描述辨識引擎便會參考音節(jié)描述語言模型,而辨識出該音節(jié)描述的可能結果,其后再參照音節(jié)對應字符表,而找出對應該音節(jié)的可能字符群。
舉例來說,若使用者今欲辨識“王小明”,則當使用者以語音輸入“王小明”(Wang Xiao Ming)時,全人名辨識網(wǎng)絡單元便會將人名切割成“王”、“小”、“明”分別辨識,隨后將發(fā)音為“王”、“小”、“明”的最有可能字符傳給字符確認單元,由字符確認單元輔助使用者進行確認工作,假設輸出裝置為屏幕,則屏幕會分別顯示發(fā)音為“王”的最有可能字符,例如1.王2.亡,當使用者選擇1之后,再顯示發(fā)音為“小”的最有可能字符,例如1小2.曉3.筱,由使用者再進行確認,以此類推。最有可能字符的顯示是以出現(xiàn)頻率由高往低排序,以方便使用者能更快速的確認,而亦可每隔一段時間便依據(jù)查詢的機率動態(tài)更新出現(xiàn)頻率。若輸出裝置為語音的話(例如電話查詢),則最有可能字符可用常用的詞組型態(tài)描述,例如“2.春曉的曉”,使用者亦可通過電話按鍵進行確認。
若全人名辨識網(wǎng)絡單元辨識無誤,使用者得以據(jù)此選擇正確字符的話,則輸出使用者確認的人名,以繼續(xù)進行使用者所要求的服務(例如連結至數(shù)據(jù)庫找出“王小明”的電話。若其中有字符辨識錯誤的話,則系統(tǒng)會引導使用者以其它方式重新描述該字符。例如全人名辨識網(wǎng)絡單元將“明”辨識成“民”,使用者無正確字符可選擇,因此使用者可采用字符詞組型態(tài)重新描述“明”,例如“明天的明”,此時便由字符描述辨識單元進行辨識,并將最有可能字符群傳送給字符確認單元,讓使用者做進一步確認,使用者亦可采用音節(jié)詞組型態(tài)重新描述“明”,例如“ㄇ一ㄥ明,二聲明”(M-i-n-g),此時便由音節(jié)描述辨識單元進行辨識,并將最有可能字符群傳送給字符確認單元,讓使用者做進一步確認。倘若字符確認的動作超過四次,則服務人員便會接手,以人力提供使用者所需的服務。
綜上所述,本發(fā)明確實提供一種中文人名自動語音辨識輸入方法及系統(tǒng),通過本發(fā)明的中文人名自動語音辨識輸入方法將中文人名“分割并征服”(divide and conquer)的方式,中文人名自動語音辨識輸入系統(tǒng)將不再受限于一定數(shù)量的中文人名,而可以在維持辨識正確率的情形下,辨認無限多的中文人名,不但可以節(jié)省巨額的人力成本,亦可對人力資源做更妥善的安排。
縱使本發(fā)明已由上述的實施例詳細敘述而可由本領域技術人員任施匠思而作一些修飾,然而皆不脫離本發(fā)明所欲保護的范圍。
權利要求
1.一種中文人名自動語音辨識輸入方法,其步驟包含(a)由一使用者輸入一第一語音,以描述所欲辨識的一人名,該人名包含多個字符;(b)利用一全人名辨識網(wǎng)絡單元,對該第一語音進行辨識,以得到一人名辨識結果;(c)傳送該人名辨識結果至一字符確認單元;(d)利用該字符確認單元對該人名辨識結果的各該字符分別進行確認;(e)若于步驟(d)中確認各該字符辨識正確,則輸出確認后的該人名辨識結果;(f)若于步驟(d)中確認各該字符其中之一辨識錯誤,則該使用者以一型態(tài)輸入一第二語音描述該辨識錯誤字符;(g)利用對應該型態(tài)的一描述辨識單元對該第二語音進行辨識,且將其辨識結果傳送至該字符確認單元;以及(h)重復步驟(d)-(g)。
2.根據(jù)權利要求1所述的方法,其中步驟(b)還包含下列步驟(b1)獲取該第一語音的一特征參數(shù);以及(b2)依據(jù)該特征參數(shù),利用該全人名辨識網(wǎng)絡單元對該第一語音進行辨識,其中步驟(b1)可還包含下列步驟(b11)對該第一語音進行預處理;以及(b12)獲取該第一語音的該特征參數(shù),其中步驟(b11)可還包含下列步驟放大該第一語音信號;對該第一語音信號正規(guī)化;對該第一語音信號進行預強調(diào);將該第一語音乘上漢明窗;以及將該第一語音通過一低通濾波器或一高通濾波器,而其中步驟(b12)可還包含下列步驟對該第一語音進行快速傅立葉變換處理;以及求取該第一語音的梅爾倒頻譜參數(shù)。
3.根據(jù)權利要求1所述的方法,其中步驟(d)還包含下列步驟逐一輸出相對于各該字符的多個字符假設;以及由該使用者從該多個字符假設中選擇正確的各該字符,其中;該輸出是以語音播放各該字符假設的一描述詞句,或是以屏幕顯示各該字符假設;及/或該使用者是以語音輸入選擇或是以按鍵輸入選擇。
4.根據(jù)權利要求1所述的方法,其中步驟(g)還包含下列步驟(g1)獲取該第二語音的一特征參數(shù);以及(g2)依據(jù)該特征參數(shù),利用該描述辨識單元對該第二語音進行辨識,其中步驟(g1)還包含下列步驟(g11)對該第二語音進行預處理;以及(g12)獲取該第二語音的該特征參數(shù),其中步驟(g11)可還包含下列步驟放大該第二語音信號;對該第二語音信號正規(guī)化;對該第二語音信號進行預強調(diào);將該第二語音乘上漢明窗;以及將該第二語音通過一低通濾波器或一高通濾波器,而其中步驟(g12)可還包含下列步驟對該第二語音進行快速傅立葉變換處理;以及求取該第二語音的梅爾倒頻譜參數(shù)。
5.根據(jù)權利要求1所述的方法,其中步驟(f)中,該使用者是以一字符詞組型態(tài)描述該辨識錯誤字符,其中對應該字符詞組型態(tài)的描述辨識單元為一字符描述辨識單元。
6.根據(jù)權利要求1所述的方法,其中步驟(f)中,該使用者是以一音節(jié)詞組方式描述該辨識錯誤字符,其中對應該音節(jié)詞組型態(tài)的描述辨識單元為一音節(jié)描述辨識單元。
7.一種中文人名自動語音辨識輸入系統(tǒng),其包含一語音輸入裝置,其用以使一使用者輸入一語音,該語音用以描述所欲辨識的一人名,該人名包含多個字符;一全人名辨識網(wǎng)絡單元,其用以辨識該語音而得一人名辨識結果;一字符確認單元,用以分別確認該人名辨識結果的各該字符是否正確;一字符描述辨識單元,其當該使用者以一字符詞組型態(tài)描述各該字符時,用以辨識各該字符;一音節(jié)描述辨識單元,其當該使用者以一音節(jié)詞組型態(tài)描述各該字符時,用以辨識各該字符;以及一輸出裝置,用以輸出確認后的該人名辨識結果。
8.根據(jù)權利要求7所述的系統(tǒng),其中該全人名辨識網(wǎng)絡單元還包含一全人名辨識網(wǎng)絡引擎以及一人名字符序列語言模型;該人名字符序列語言模型為根據(jù)一基本詞匯及一已知人名數(shù)據(jù)所訓練出的語言模型;及/或該基本詞匯由408音節(jié)所組成、由1300帶聲調(diào)的音節(jié)所組成或由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
9.根據(jù)權利要求7所述的系統(tǒng),其中該字符描述辨識單元還包含一字符描述辨識引擎以及一字符描述語言模型;該字符描述語言模型為根據(jù)一基本詞匯及一運用字符描述的詞組數(shù)據(jù)所訓練出的語言模型;及/或該基本詞匯由408音節(jié)所組成、由1300帶聲調(diào)的音節(jié)所組成或由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
10.根據(jù)權利要求7所述的系統(tǒng),其中該音節(jié)描述辨識單元還包含一音節(jié)描述辨識引擎、一音節(jié)描述語言模型以及一音節(jié)對應字符表;該音節(jié)描述語言模型為根據(jù)一基本詞匯及一運用音節(jié)描述的詞組數(shù)據(jù)所訓練出的語言模型;及/或該基本詞匯由408音節(jié)所組成、由1300帶聲調(diào)的音節(jié)所組成或由408音節(jié)及1300帶聲調(diào)的音節(jié)所組成。
11.一種全人名辨識網(wǎng)絡單元,其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其用以描述一中文人名,該全人名辨識網(wǎng)絡單元便可辨識該人名,其包含一人名辨識網(wǎng)絡引擎;以及一人名字符序列語言模型,其中該人名字符序列語言模型為根據(jù)一基本詞匯及一已知人名數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由一音節(jié)所組成,其中該人名辨識網(wǎng)絡引擎參考該人名字符序列語言模型以辨識該語音。
12.一種字符描述辨識單元,其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其以一字符詞組型態(tài)描述一字符時,該字符描述辨識單元便可辨識該字符,其包含一字符描述辨識引擎;以及一字符描述語言模型,其中該字符描述語言模型為根據(jù)一基本詞匯及一運用字符描述的詞組數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由一音節(jié)所組成,其中該字符描述辨識引擎參考該字符描述語言模型以辨識該語音。
13.一種音節(jié)描述辨識單元,其用于一自動語音辨識輸入系統(tǒng),當一使用者輸入一語音,其以一音節(jié)詞組型態(tài)描述一字符時,該音節(jié)描述辨識單元便可辨識該字符,其包含一音節(jié)描述辨識引擎;一音節(jié)描述語言模型;以及一音節(jié)對應字符表,其中該音節(jié)描述語言模型為根據(jù)一基本詞匯及一運用音節(jié)描述的詞組數(shù)據(jù)所訓練出的語言模型,其中該基本詞匯由一音節(jié)所組成,其中該音節(jié)描述辨識引擎參考該音節(jié)描述語言模型以辨識該語音。
14.一種包含根據(jù)權利要求7所述的系統(tǒng)的人名查詢系統(tǒng),其中該人名查詢系統(tǒng)用于查號臺、自動總機對話系統(tǒng)或語音入口網(wǎng)站。
全文摘要
本發(fā)明涉及一種中文人名自動語音辨識輸入方法,該方法包含(a)由一使用者輸入一第一語音,以描述所欲辨識的一人名,該人名包含多個字符;(b)利用一全人名辨識網(wǎng)絡單元,對該第一語音進行辨識,以得到一人名辨識結果;(c)傳送該人名辨識結果至一字符確認單元;(d)利用該字符確認單元對該人名辨識結果的各該字符分別進行確認;(e)若于步驟(d)中確認各該字符辨識正確,則輸出確認后的該人名辨識結果;(f)若于步驟(d)中確認各該字符其中之一辨識錯誤,則該使用者以一型態(tài)輸入一第二語音描述該辨識錯誤字符;(g)利用對應該型態(tài)的一描述辨識單元對該第二語音進行辨識,且將其辨識結果傳送至該字符確認單元等。
文檔編號G10L15/00GK1835077SQ20051005458
公開日2006年9月20日 申請日期2005年3月14日 優(yōu)先權日2005年3月14日
發(fā)明者王瑞璋, 蔡錦和, 黃良聲, 沈家麟 申請人:臺達電子工業(yè)股份有限公司