專利名稱:一個百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種國語單音與句子辨認(rèn)方法,也特別涉及的是一種在一個 清晰發(fā)音者在數(shù)據(jù)庫中,先對每個單音找K個"最好"樣本求平均值與變異數(shù)代表 所述的單音。使所述的單音的ExP= 144個特征范圍,很明確表現(xiàn)出來,不會和 其它單音范圍重迭。貝式分類法很明確地比對未知單音的特征和已知單音的特征, 提高本發(fā)明辨識能力。詳細地說,本發(fā)明語音辨認(rèn)方法包含E個等長的彈性框, 沒有濾波器,不重迭,框住長短不等的單音音波,將音波正?;⑥D(zhuǎn)換成E個線 性預(yù)估編碼倒頻譜(LPCC )向量。用簡易貝氏分類法(Bayes decision rule )在單 音數(shù)據(jù)庫中,在每個已知單音明確范圍內(nèi),找出和未知單音最相似的已知單音。 語音計算機辨認(rèn)最終目的是能辨認(rèn)一個人所表達的句子或名稱,將句子或名稱切 割成一組(D個)未知單音,然后用上述方法對D個中每一個未知單音找出F個 最相似的已知單音,再從句子或名稱數(shù)據(jù)庫中找出最可能句子或名稱。
背景技術(shù):
單音發(fā)音時,它的發(fā)音是用音波表示。音波是一種隨時間作非線性變化的系 統(tǒng), 一個單音音波內(nèi)含有一種動態(tài)特性,也隨時間作非線性連續(xù)變化。相同單音 發(fā)音時,有一連串相同動態(tài)特性,隨時間作非線性伸展與收縮,但相同動態(tài)特性 依時間排列秩序一樣,但時間不同。相同單音發(fā)音時,將相同的動態(tài)特性排列在 同一時間位置上非常困難。還因相似單音特多,造成辨認(rèn)更難。一個計算機化語言辨認(rèn)系統(tǒng),首先要抽取聲波有關(guān)語言信息,也即動態(tài)特性, 過濾和語言無關(guān)的雜音,如人的音色、音調(diào),說話時心理、生理與情緒和語音辨 認(rèn)無關(guān)先刪去。然后再將相同單音的相同特征排列在相同的時間位置上。此一連 串的特征用一等長是列特征向量表示,稱為一個單音的特征模型。目前語音辨認(rèn) 系統(tǒng)要產(chǎn)生大小一致的特征模型太復(fù)雜,且費時,因為相同單音的相同特征很難 排列在同一時間位置上,導(dǎo)致比對辨認(rèn)困難。一般句子或名稱辨認(rèn)方法有下列一連串五個主要工作抽取特征、特征正?;?特征模型大小一致,且相同單音的相同特征排列在同一時間位置)、未知單 音辨認(rèn)、未知句子或名稱切割成D個未知單音、與在句子或名稱數(shù)據(jù)庫找適合句子或名稱。 一個單音聲波特征常用有下列幾種能量(energy),零橫過點數(shù)(zero crossings ),極值數(shù)目(extreme count),顛峰(formants ),線性預(yù)估編碼倒頻 譜(LPCC )與梅爾頻率倒頻譜(MFCC ),其中以線性預(yù)估編碼倒頻i普(LPCC ) 與梅爾頻率倒頻譜(MFCC)是最有效,并普遍使用。線性預(yù)估編碼倒頻譜(LPCC) 是代表一個單音最可靠,穩(wěn)定又準(zhǔn)確的語言特征。它用線性回歸模式代表單音音 波,以最小平方估計法計算回歸系數(shù),其估計值再轉(zhuǎn)換成倒頻譜,就成為線性預(yù) 估編碼倒頻鐠(LPCC)。而梅爾頻率倒頻譜(MFCC)是將音波用傅氏轉(zhuǎn)換法轉(zhuǎn) 換成頻率。再根據(jù)梅爾頻率比例去估計聽覺系統(tǒng)。根據(jù)學(xué)者S.B.Davis and P.Mermelstein在1980年出版在IEEE Transactions on Acoustics, Speech Signalmonosyllabic word recognition in continuously spoken sentences中用動態(tài)時間扭曲 法(DTW),梅爾頻率倒頻譜(MFCC)特征比線性預(yù)估編碼倒頻譜(LPCC)特 征辨認(rèn)率要高。但經(jīng)過多次語音辨認(rèn)實驗(包含本人前發(fā)明),用貝氏分類法, 線性預(yù)估編碼倒頻譜(LPCC )特征辨認(rèn)率比梅爾頻率倒頻鐠(MFCC )特征要高, 且省時。至于語言辨認(rèn),已有4艮多方法釆用。有動態(tài)時間扭曲法(dynamic time-warping),向量量^1法(vector quantization)與隱藏式馬可夫才莫式法(HMM )。 如果相同的發(fā)音在時間上的變化有差異, 一面比對, 一面將相同特征拉到同一時 間位置。辨認(rèn)率會很好,但將相同特征拉到同一位置很困難并扭曲時間太長,不 能應(yīng)用。向量量化法如辨認(rèn)大量單音,不但不準(zhǔn)確,且費時。最近隱藏式馬可夫 模式法(HMM)辨認(rèn)方法不錯,但方法繁雜,太多未知參數(shù)需估計,計算估計值 與辨認(rèn)費時。最近T.F丄i在2003年出版在Pattern Recognition,vol.36發(fā)表的論文 Speech recognition of mandarin monosyllables中用貝氏分類法,以相同數(shù)據(jù)庫,將 各種長短一序列LPCC向量壓縮成相同大小的分類模型,辨認(rèn)結(jié)果比Y.K.Chen, C.Y丄iu, G.H.Chiang, M.T丄in在1990年出版在Proceedings of Telecommunication Symposium, Taiwan發(fā)表的論文The recognition of mandarin monosyllables based on the discrete hidden Markov model中用隱藏式馬可夫模式法HMM方法要好,但壓 縮過程復(fù)雜費時,且相同單音很難將相同特征壓縮到相同時間位置,對于相似單音,纟艮難辨認(rèn)。本發(fā)明語音辨認(rèn)方法針對上述缺點,從學(xué)理方面,根據(jù)音波有一種語音特征, 隨時間作非線性變化,自然導(dǎo)出一套抽取語音特征方法。將一個單音音波先正常 化再轉(zhuǎn)換成一個足以代表所述的單音的大小相等特征模型,并且相同單音在它們 特征模型內(nèi)相同時間位置有相同特征。不需要人為或?qū)嶒炚{(diào)節(jié)本發(fā)明內(nèi)的未知參 數(shù)與門坎。用筒易貝氏分類法,即可將未知單音分類模型和單音數(shù)據(jù)庫內(nèi)已知單 音標(biāo)準(zhǔn)模型比對,不需要再壓縮,扭曲或?qū)ふ蚁嗤奶卣鱽肀葘?。所以本發(fā)明語 音辨認(rèn)方法,能快速完成特征抽取,特征正?;c辨認(rèn)。本方法為了提高單音辨 認(rèn)率,先將數(shù)據(jù)庫每個單音,用貝式分類法選擇最好K個樣本,來計算所述的單 音特征,大大提高整體國語單音辨識率。辨認(rèn)率高,應(yīng)用廣,用彈性框可以辨認(rèn) 極短或極長單音音波,對英語極短音節(jié)辨認(rèn)也有效。至于對句子與名稱的計算機 辨認(rèn),因單音辨認(rèn)在本發(fā)明的前未曾突破,文獻中很少有句子與名稱辨認(rèn)方法, 但本發(fā)明用3xF窗口(對數(shù)據(jù)庫句中每一已知單音用前后三列相似已知單音比對) 找出所述的未知句子或名稱的方法極為有效。發(fā)明內(nèi)容(1) 本發(fā)明提供一種語音辨認(rèn)方法。它能將不具語音音波刪除。(2) 本發(fā)明提供一種單音音波正常化與抽取特征方法。它使用E個相等彈性框,不重迭,沒有濾波器,能依單音音波長短自由調(diào)節(jié)含蓋全部波長,能將單 音音波內(nèi) 一是列隨時間作非線性變化的動態(tài)特性轉(zhuǎn)換成一個大小相等的特征模 型,并且相同單音音波的特征模型在相同時間位置上有相同特征。可以及時辨認(rèn), 達到計算機實即時辨認(rèn)效果。(3 )本發(fā)明提供一種簡易有效貝氏辨認(rèn)未知單音方法,認(rèn)錯機率達到最小, 計算少、辨認(rèn)快與辨識率高。(4 )本發(fā)明提供一種抽取單音特征方法,單音音波有一種隨時間作非線性變 化的動態(tài)特性。本發(fā)明用隨時間作線性變化的回歸模型估計隨時間作非線性變化 的音波,產(chǎn)生的回歸未知系數(shù)的最小平方估計值(LPC向量)。(5)本發(fā)明使用所有具有語音音波(音波信號點)。用較少數(shù)E-12個相 等彈性框,不重迭含蓋所有信號點特征。不因為一個單音音波太短,刪去所述的 單音,也不因為太長,刪去或壓縮部分信號點。只要人類聽覺能辨別此單音,本發(fā)明即可將所述的單音抽取特征。所以本發(fā)明語音辨認(rèn)方法應(yīng)用每一個具有語音的信號點,可以盡量抽取語音特征。因E= 12個彈性框不重迭,框數(shù)少,大大減 少特征抽取與計算線性預(yù)估編碼倒頻譜(LPCC)時間。(6 )本發(fā)明單音與句子辨認(rèn)方法可以辨認(rèn)講話太快或講話太慢的單音。講話 太快時,單音音波很短,尤其對于英語音節(jié)發(fā)音,本發(fā)明的彈性框長度可以縮小, 仍然用相同數(shù)E個等長的彈性框含蓋短音波。產(chǎn)生E個線性預(yù)估編碼倒頻譜 (LPCC )向量。只要所述的短音人類可辨別,那么所述的E個線性預(yù)估編碼倒頻 語(LPCC)向量可以有效代表所述的短音的特征模型。講太慢所發(fā)出單音音波較 長。彈性框會伸長。所產(chǎn)生E個線性預(yù)估編碼倒頻譜(LPCC)向量也能有效代表 所述的長音。(7) 本發(fā)明包含一套語音辨認(rèn)方法。首先由多人發(fā)出相同的已知單音,產(chǎn)生 多種長短不一的聲波。然后用E個相同的彈性框,沒有濾波器,不重迭,含蓋全 部聲波,產(chǎn)生一個已知單音的E個線性預(yù)估編碼倒頻譜(LPCC)向量多個樣本, 也即有多個特征模型代表所述的已知單音。多個特征模型內(nèi)在相同時間位置上含 有相同特征向量,也即每個樣本的E個線性預(yù)估編碼倒頻譜(LPCC)向量依順序 線性預(yù)估編碼倒頻譜(LPCC)向量大致相同。(8) 本發(fā)明最主要的技術(shù),是先用一個發(fā)音清晰者對所述的已知單音發(fā)音, 用貝式距離(其它距離效果比較差),在所述的單音多個樣本中,找K個最好樣 品。再將特征模型的K個樣本求線性預(yù)估編碼倒頻譜(LPCC)平均值與變異數(shù), 得到大'J、一致含有平均值與變異數(shù)的矩陣,叫做所述的已知單音的標(biāo)準(zhǔn)模型,存 在單音數(shù)據(jù)庫中。再用同樣方法,將一個未知單音的音波,用E個等長彈性框, 沒有濾波器,不重迭包含全部音波,產(chǎn)生E個線性預(yù)估編碼倒頻譜(LPCC)向量。 所述的E個線性預(yù)估編碼倒頻鐠(LPCC)向量稱為一個未知單音的分類模型。當(dāng) 用簡易的貝氏分類法比對未知單音與單音數(shù)據(jù)庫內(nèi)一個已知單音時,將分類模型 內(nèi)所有線性預(yù)估編碼倒頻語(LPCC)假設(shè)為有獨立正常分配的隨機變量,它的平 均值與變異數(shù)用已知單音標(biāo)準(zhǔn)模型內(nèi)的樣本平均數(shù)與樣本變異數(shù)代替。在單音數(shù) 據(jù)庫內(nèi)計算每一個已知單音標(biāo)準(zhǔn)模型內(nèi)的平均數(shù)(用K個最好樣品計算)與未知單音的分類模型內(nèi)的線性預(yù)估編碼倒頻譜(LPCC)距離,再以已知單音的變異數(shù) 調(diào)整。選擇一個已知單音,辨認(rèn)為未知單音。(9) 對于鄉(xiāng)音、口音特殊者發(fā)音的辨認(rèn),最好找一個有相同鄉(xiāng)音或口音發(fā)音清晰者選擇單音數(shù)據(jù)庫內(nèi)每個單音最近的K個樣本計算所述的單音的平均值。經(jīng)過這樣處理后,本發(fā)明也可辨認(rèn)有相同鄉(xiāng)音或口音的未知單音。(10) 辨認(rèn)一個句子或名稱時,先將未知句子或名稱切割成D個未知單音, 本發(fā)明將每個未知單音用貝氏法在單音資料庫,選擇最相似F個已知單音。 一個 句子用DxF個已知單音表示,因切割困難可能切成比較多或比較少未知單音個數(shù), 本發(fā)明以每個未知單音前后三列相似已知單音比對句子或名稱中一個已知單音, 也即在句子與名稱數(shù)據(jù)庫中,對每一句子或名稱用3xF窗口的已知相似單音篩選 一個已知單音,再從句子與名稱數(shù)據(jù)庫找一個最可能句子或名稱,方法簡單,不 用任何計算(機率),成功率可達100% (460句子和名稱)。(11) 本發(fā)明另外一個重要的技術(shù)是提供一個修正單音特征的方法,保證辨 i^成功。
圖1是表示單音和句子與名稱兩個數(shù)據(jù)庫建立流程;圖2表示一個未知句子或名稱辨認(rèn)方法流程;圖3為本發(fā)明辨認(rèn)的單音;圖4A、圖4B為測試的句子與名稱數(shù)據(jù)庫。附圖標(biāo)記說明1-輸入已知單音;10-單音連續(xù)音波;20-接收器;30 -音 波數(shù)字轉(zhuǎn)換器;45-除去雜音;50-彈性框正?;舨?;60-最小平方法計算線 性預(yù)估編碼倒頻譜(LPCC)向量;70-—個發(fā)音清晰者對每個單音發(fā)音一次,在 數(shù)據(jù)庫中,對所述的已知單音用貝式距離為發(fā)音者找K個最接近樣品計算平均值 與變異數(shù);80-單音數(shù)據(jù)庫包含所有平均值與變異數(shù)的標(biāo)準(zhǔn)模型;85-用單音數(shù) 據(jù)庫的單音建立要辨認(rèn)的句子與名稱(任意一組單音)的句子與名稱數(shù)據(jù)庫;2-輸入一未知句子或名稱;11 - 一組未知單音連續(xù)音波;40-將一個句子或名稱 切成D個未知單音;90-D個未知單音的線性預(yù)估編碼倒頻鐠(LPCC)向量代 表D個未知單音分類模型;100 -比較每一個已知單音標(biāo)準(zhǔn)模型與未知單音分類 模型;110-—句子或名稱中每一個未知單音找最相近的F個已知單音, 一句子或 名稱一共有DxF個已知單音表示;120-在句子和名稱數(shù)據(jù)庫中,用3xF窗口篩 選所有句子與名稱中的每個已知單音;130 -在句子與名稱數(shù)據(jù)庫中找一個最可能 的句子或名稱。
具體實施方式
以下結(jié)合附圖,對本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點作更詳細的說明。 用圖1與圖2說明發(fā)明執(zhí)行程序。圖1是表示單音和句子與名稱兩個數(shù)據(jù)庫 建立流程。單音數(shù)據(jù)庫包含所有已知單音的標(biāo)準(zhǔn)模型,表示已知單音的特征。輸入一個已知單音1以一個連續(xù)音波10形式進入接收器20。數(shù)字轉(zhuǎn)換器30將連續(xù) 音波轉(zhuǎn)為一序列音波數(shù)字的信號點。先前處理器45有兩種刪去方法(l)計算 一小時段內(nèi)信號點的變異數(shù)與一般雜音變異數(shù)。如前者小于后者,則所述的小時 段不具語音,應(yīng)刪去。(2)計算一小時段內(nèi)連續(xù)兩信號點距離總和與一般雜音的 總和,如前者小于后者,則所述的小時段不具語音,應(yīng)刪去。經(jīng)過先前處理器45 的后,得到一序列具有所述的已知單音信號點。先將音波正?;俪槿√卣鳎瑢?已知單音的全部信號點分成E等時段,每時段組成一個框。 一個單音一共有E個 等長框50,沒有濾波器,不重迭,根據(jù)單音全部信號點的長度,E個框長度自由 調(diào)整含蓋全部信號點。所以所述的框稱為彈性框,長度自由伸縮,但E個彈性框 長度一樣。不像漢明(Hamming)窗,有濾波器、半重迭、固定長度、不能隨波長 自由調(diào)整。因單音音波隨時間作非線性變化,音波含有一個語音動態(tài)特征,也隨 時間作非線性變化。因為不重迭,所以本發(fā)明使用較少(E二12)個彈性框,涵蓋單 音音波,因信號點可由前面信號點估計,用隨時間作線性變化的回歸模式來密切 估計非線性變化的音波,用最小平方法估計回歸未知系數(shù)。每框內(nèi)產(chǎn)生一組未知 系數(shù)最小平方估計值,叫做線性預(yù)估編碼(LPC向量)。再將線性預(yù)估編碼(LPC) 向量轉(zhuǎn)換為較穩(wěn)定線性預(yù)估編碼倒頻譜(LPCC)。 一個單音音波內(nèi)含有一序列隨 時間作非線性變化的語音動態(tài)特征,在本發(fā)明內(nèi)轉(zhuǎn)換成大小相等E個線性預(yù)估編 碼倒頻謙(LPCC)向量60。為了建立單音數(shù)據(jù)庫, 一個已知單音,由多人發(fā)音, 以同樣轉(zhuǎn)換方法,將多人發(fā)音音波轉(zhuǎn)成大小相等的E個線性預(yù)估編碼倒頻譜 (LPCC)向量多個樣本。多個樣本的E個線性預(yù)估編碼倒頻譜(LPCC)向量代 表一個同樣已知單音,因此E個線性預(yù)估編碼倒頻譜(LPCC)向量依順序,多個 樣本的線性預(yù)估編碼倒頻謙(LPCC)向量應(yīng)大致相同,也即在同一時間位置上, 多個樣本線性預(yù)估編碼倒頻譜(LPCC)向量一樣。本發(fā)明最重要的貢獻為每一個 單音找最好樣本,需一個發(fā)音清晰者對單音發(fā)音一次,在單音所有樣本中找所述 的單音K個最好的樣品,也即K個對發(fā)音者的已知單音最短的K個貝式距離。 再用此K個樣品的線性預(yù)估編碼倒頻語(LPCC)計算平均值與變異數(shù)(用所述的音全部樣品計算變異數(shù)也可),本發(fā)明主要是找最好最真實的平均值,使ExP個的線性預(yù)估編碼倒頻譜(LPCC)平均值真正能代表所述的單音ExP特征。使 單音數(shù)據(jù)庫中每個已知單音有明確位置與范圍,不會互相重迭,為方便貝式分類法辨認(rèn)。這E個線性預(yù)估編碼倒頻譜(LPCC)平均值與變異數(shù)向量代表一個已知 單音的標(biāo)準(zhǔn)特征矩陣,稱為所述的已知單音的標(biāo)準(zhǔn)模型70。此含有樣本平均數(shù)與 變異數(shù)的標(biāo)準(zhǔn)模型代表一個已知單音,儲存在單音數(shù)據(jù)庫中80。再用單音數(shù)據(jù)庫 的單音(394個單音)建立要辨認(rèn)的句子或名稱(任意一組單音)數(shù)據(jù)庫(85)。 圖2表示一個未知句子或名稱辨認(rèn)方法流程。當(dāng)輸入一個未知句子或名稱2 到本發(fā)明語音辨認(rèn)方法后,以一組未知單音連續(xù)音波11進入接收器20,由數(shù)字 轉(zhuǎn)換器30轉(zhuǎn)為一是列音波信號點。將一個句子或名稱的音波切成D個單音的音 波40,再以圖1先前處理器45刪去不具語音的音波。再將每個單音音波正常化, 抽取特征,將句子每個未知單音全部具有語音的信號點分成E等時段,每時段形 成一個彈性框50。每個單音一共有E個彈性框,沒有濾波器,不重迭,自由伸縮 含蓋全部信號點。在每框內(nèi),因信號點可由前面信號估計,用最小平方法求回歸 未知系數(shù)的估計值。每框內(nèi)所產(chǎn)生的一組最小平方估計值叫做線性預(yù)估編碼(LPC)向量,線性預(yù)估編碼(LPC)向量有正常分配,再將線性預(yù)估編碼(LPC) 向量轉(zhuǎn)換較穩(wěn)定線性預(yù)估編碼倒頻譜(LPCC)向量60。 一個未知單音以E個線 性預(yù)估編碼倒頻語(LPCC)向量代表特征模型,稱為分類模型90,和已知單音 標(biāo)準(zhǔn)模型大小一樣。 一個句子一共有D個分類模型代表D個未知單音,如果一個 已知單音是此未知單音,它的標(biāo)準(zhǔn)模型的平均值最靠近未知單音分類模型的線性 預(yù)估編碼倒頻鐠(LPCC)。所以本發(fā)明的簡易貝氏辨認(rèn)法,以未知單音的分類模 型和單音數(shù)據(jù)庫80每一個已知單音的標(biāo)準(zhǔn)模型比較100。如果一個已知單音是所 述的未知單音,為了計算省時,假定未知單音的分類模型內(nèi)所有線性預(yù)估編碼倒 頻譜(LPCC)有獨立正常分配,它們的平均數(shù)與變異數(shù)以已知單音標(biāo)準(zhǔn)模型樣本 平均值與樣本變異數(shù)估計。簡易貝氏法是計算未知單音的線性預(yù)估編碼倒頻譜(LPCC)與已知單音的平均數(shù)的距離,再以已知單音變異數(shù)調(diào)整,所得的值代表 所述的未知單音與一個已知單音相似度。選擇與未知單音F個相似度最高已知單 音辨認(rèn)為未知單音,因此一個未知句子或名稱用DxF個已知單音來表示110。 一 個未知句子或名稱切割成D個未知單音后,因有些單音有子音,很難剛好切成一 個未知句子或名稱所包含的單音與個數(shù),有時一個單音切成兩個,有時兩個單音念的很近,計算機切成一個,因此,D個未知單音并不一定是講話者真正單音數(shù), 所以某一列F個已知相似單音并不一定包含講話者的單音。在辨認(rèn)一個未知句子 或名稱時,在句子和名稱數(shù)據(jù)庫85,測試每一個句子與名稱,在測試一個句子或 名稱是否是講話者的句子或名稱,將所述的句子或名稱從頭一個已知單音比對 DxF矩陣相似音的前后三列相似音(當(dāng)然第一個比對只能比對中后兩列相似單 音),再移動3xF窗口 (前后三列相似音)120找句子第二個單音,直到測試句 子全部單音。在數(shù)據(jù)庫中,以最高機率的句子或名稱為講話者的句子或名稱(用 正確單音數(shù)除以測試句子或名稱中單音數(shù))130。當(dāng)然可在句子與名稱數(shù)據(jù)庫中選 擇和未知句子或名稱(D個未知單音)長度大約相等的句子或名稱比對,節(jié)省時 間。(1) 一個單音輸入語音辨認(rèn)方法后,將單音連續(xù)音波轉(zhuǎn)換一是列數(shù)化音波信號 點(signal sampled points )。再刪去不具語音音波信號點。本發(fā)明提供二種方法 一是計算一小時段內(nèi)信號點的變異數(shù)。二是計算所述的時段內(nèi)相鄰二信號點距離 的總和。理論上,第一種方法比較好,因信號點的變異數(shù)大于雜音變異數(shù),表示 有語音存在。但在本發(fā)明辨認(rèn)單音時,兩種方法辨認(rèn)率一樣,但第二種省時。(2) 不具語音信號點刪去后,剩下信號點代表一個單音全部信號點。先將音波 正?;俪槿√卣鳎瑢⑷啃盘桙c分成E等時段,每時段形成一個框。 一個單音 共有E個等長的彈性框,沒有濾波器、不重迭、自由伸縮,涵蓋全部信號點。彈 性框內(nèi)信號點隨時間作非線性變化,很難用數(shù)學(xué)模型表示。因為J.Markhoul在1975 年出版在Proceedings of IEEE,Vol.63,No.4發(fā)表論文Linear Prediction: A tutorial review中說明信號點與前面信號點有線性關(guān)系,可用隨時間作線性變化的回歸的模型估計此非線性變化的信號點。信號點^")可由前面信號點估計,其估計值s'W 由下列回歸模式表示<formula>formula see original document page 15</formula> (i)Ar=l在(l)式中,a" A^,…,A是回歸未知系數(shù)估計值,P是前面信號點數(shù)目。用 L.Rabiner與B.H.Juang在1993年著作書Fundamentals of Speech Recognition, Prentice Hall PTR, Englewood Cliffs, New Jersey中Durbin的循環(huán)公式求最小平方 估計值,此組估計值叫做線性預(yù)估編碼(LPC)向量。求框內(nèi)信號點的線性預(yù)估 編碼(LPC)向量方法詳述如下以A表示信號點及其估計值之間平方差總和<formula>formula see original document page 16</formula> =0 A:=l求回歸系數(shù)使平方總和^達最小。對每個未知回歸系數(shù)a' 的偏微分,并使偏微分為0,得到P組正常方程式Z S(" — - 0 = S -/), 1" P (3)展開(2)式后,以(3)式代入,得最小總平方差^^ =》2(")-(4)(3)式與(4)式轉(zhuǎn)換為^V ("),), 1化P (5)IX単) (6)在(5)與(6)式中,用N表示框內(nèi)信號點數(shù), 柳+ 。o=U,求(2)式用Durbin's循環(huán)快速計算線性預(yù)估編碼(LPC ) 五o = i (O)&=[及(/)—|>y—"i (/—y)]/£M 乂=1(7)向量如下:(8) (12)(8-12)公式循環(huán)計算,得到回歸系數(shù)最小平方估計值""y = 1"",P,(線性預(yù)估 編碼(LPC)向量)如下(13)再下列公式將LPC向量轉(zhuǎn)換較穩(wěn)定線性預(yù)估編碼倒頻譜(LPCC)向量~,i一l)=1尸</(14)(15)《=Z (丄)",w":,一個彈性框產(chǎn)生一個線性預(yù)估編碼倒頻譜(LPCC)向量(心,…,"'p)。根據(jù)本 發(fā)明語音辨認(rèn)方法,用P=12,因最后的線性預(yù)估編碼倒頻譜(LPCC)幾乎為0。一個單音以E個線性預(yù)估編碼倒頻譜(LPCC)向量表示特征,也即一個含ExP 個線性預(yù)估編碼倒頻語(LPCC)的矩陣表示一個單音特征。(3) —個已知單音由多人發(fā)音,產(chǎn)生多個樣本的ExP矩陣,同時代表所述的已 知單音,求K個最好樣本線性預(yù)估編碼倒頻譜(LPCC)的樣本平均值與變異數(shù), 得到一個ExP矩陣內(nèi)含線性預(yù)估編碼倒頻譜(LPCC)樣本平均值與樣本變異數(shù)。 所述的矩陣稱為所述的已知單音的標(biāo)準(zhǔn)特征,或標(biāo)準(zhǔn)模型。(4) 同樣方法以(8-15)式計算出一個未知單音音波的E個線性預(yù)估編碼倒頻譜(LPCC)向量,有同樣大小ExP個LPCC的矩陣,叫做未知單音的分類模型。(5) 在圖2中,語音辨認(rèn)器100,收到一個未知單音的分類模型, 一個ExPLPCC的矩陣。用1 = {^」,7 = 1,…,五,,=1"."戶,表示未知單音特征模型。在與 一個已知單音c', 1,…,附,比對時。為了快速計算比對值,假定^^有ExP個獨立正常分配,它的平均數(shù)與變異數(shù)(/^,°^),以已知單音標(biāo)準(zhǔn)模型內(nèi)的樣本平均值與樣本變異數(shù)估計。以,(^c')表示I的條件密度函數(shù)。以T.F丄i在2003年 出版在Pattern Recognition,Vol.36發(fā)表論文Speech recognition of mandarin monosyllables中的決策理論說明貝氏分類法如下假設(shè)數(shù)據(jù)庫一共有m個已知單音的標(biāo)準(zhǔn)模型。以《,z'",…^,表示單音c', ^i,…^,出現(xiàn)的機率,也即先前機率,則吝-' = 1。以"表示一個決策方法。定義一個簡單損失函數(shù)(loss function),也即" 的判錯機率(misclassification probability)如下如決策方法^判錯一個未知單音,則損失函數(shù)"。,""))=1。如果"判對一個未知單音,則無損失"。^")) = 0。辨認(rèn)方法如下以r,,"i,…,附,表示義=1矩陣值屬于已知單音6的范圍。也即義在R,"判未知單音屬于已知單音、"判錯平均機率為i (2",力=《J"丄(C,,d(JC))/0 I C,)血/=1 '在(16)中,T二的,…,^),C是^以外范圍。以D表示所有語音辨認(rèn)方法,也即劃分m個已知單音的范圍所有方法。在D中找一個辨認(rèn)方法《使它的平均認(rèn)錯機率(16)達到最小,以及(^《)表示i (r,《)=mz>2i (r,i/) (17)滿足(17)式的辨認(rèn)方法《叫做與先前機率r有關(guān)的貝氏分類法。可用下列表示《(x) = c, 《/(;c|。)>《/(x|。) (18)在(18)式中,/ = 1,.",附,/",也即屬于已知單音^的范圍是對所有yw,r^"i《/(xio〉^/w。"。如所有已知單音出現(xiàn)機率一樣,則貝氏分類法 和最大機率法一樣。貝氏分類法(18)辨認(rèn)一個未知單音時,先計算所有X的條件密度函數(shù)1 二々廣 )22;' ' (19) <formula>formula see original document page 2</formula>貝氏分類法(18)變成對每個已知單音、計算《^值(20), "c')也稱為未知單音和已知單音e'的相似度,或貝氏距離(mis-categorization risk)。在(20)式中, 1 = "^乂 = 1, ',氣£ = 1, "尸,是未知單音分類模型內(nèi)線性預(yù)估編碼倒頻譜(LPCC)值,仏1/《,《}用已知單音的標(biāo)準(zhǔn)模型內(nèi)的樣本平均數(shù)與樣本變異數(shù)估計。本發(fā)明最重要的貢獻是在數(shù)據(jù)庫中,為每一個已知單音^找到真實的中心點。"仏""與明 確不重迭的范圍。(21)這里1 = {~}是表示單音^的ExPLPCC矩陣范圍。先找一個發(fā)音清晰者對每 個單音A發(fā)音,用"^"^表示所述的清晰者對e'的發(fā)音的單音ExPLPCC,用 < ={袼}表示數(shù)據(jù)庫內(nèi)第,個已知單音c'第*個樣品的ExP LPCC矩陣。再以下列 計算,發(fā)音者的單音與第A個樣本貝式距離 <formula>formula see original document page 2</formula>這里"i用已知單音A的全部樣本變異數(shù)取代。用此貝式距離(22)得到在數(shù)據(jù)庫中第z'個單音e'的全部樣本,找K個最接近發(fā)音者發(fā)第z'個單音^的樣品,再用此K個最接近樣品計算單音e'平均值與變異數(shù)(變異數(shù)也可由全部樣品變異數(shù)代替)。叫做單音。的標(biāo)準(zhǔn)模型,此標(biāo)準(zhǔn)模型大大提高本發(fā)明辨認(rèn)率。(經(jīng)實驗結(jié)果,用K^4-8,可提高到百分的百)。貝式分類法辨認(rèn)一個未知單音的分類模 型1 = "^是在數(shù)據(jù)庫內(nèi)選擇一個已知單音《,它的"。值達最小,判為所述的未知單音。(6)為了證實本發(fā)明語音單音辨認(rèn)方法辨識率高,適用范圍廣,抽取特征與辨 認(rèn)方法快速且省時,本發(fā)明執(zhí)行男女三個人語音辨認(rèn)實驗。(a) 首先建立一個日常用的國語單音數(shù)據(jù)庫。本單音數(shù)據(jù)庫是從臺灣之中央 研究院購買。數(shù)據(jù)庫一共有394個單音,全是女性發(fā)音,樣本從6個到99個不等, 很多單字的發(fā)音幾乎一樣。(b) 從(2)節(jié)中方法將所有樣本轉(zhuǎn)成ExPLPCC矩陣, 一共有12464個矩陣。(c) 測試人有三位(發(fā)明人), 一是本人黎自奮,男性,外省籍,雖講國語, 帶有四川口音,第二位是瘳麗娟小姐,女性,本省通過口音,第三位是李臺珍小 姐,外省通過口音。 一人作清晰發(fā)音者,在數(shù)據(jù)庫中用貝式分類法(22)找4-8 個最接近發(fā)音者的樣本,計算成平均值。本發(fā)明主要目的是要ExP-144平均值 真正代表所述的單音特征,為了省時,變異數(shù)仍由全部樣本計算,作為標(biāo)準(zhǔn)模型, 儲存在數(shù)據(jù)庫中。另二人(測試者)發(fā)音作為貝式分類法(20)來辨認(rèn)未知單音。(d) 因相同音字太多。貝式分類法(20)選擇前3位單音,發(fā)音者的未知單 音入圍前3名算成功。例(兩,娘,倆)、(年,連,言)、(陳,冬,成)、(曾,正,尊)、(諾,若,羅)、(贊,鉆,站)等。貝式分類法(20)選擇 前3名已知單音,這3名發(fā)音非常接近,很難判斷測試者未知單音是3個其中哪 一個,因此,只要前3名已知單音有未知單音,算是成功。(e) 黎自奮的發(fā)音去找& = 4到8個最接近樣品作為標(biāo)準(zhǔn)模型,由李臺珍與 瘳麗娟作為測試者。她們均能100 %測試成功。主要數(shù)據(jù)庫全是女性樣本( 一共 有12464個樣本)。瘳麗娟的發(fā)音去找K = 4-8個最接近樣本作為標(biāo)準(zhǔn)模型,由黎 自奮及李臺珍作為測試者,也可達到100 %辨認(rèn)率。辨認(rèn)的單音由表一列出。(f) 如果未知單音不在前三位最相似已知單音內(nèi),假定未知單音叫做甲單音, 前三位最相似已知單音叫做乙、丙、丁三個單音,那么甲單音的最好K個樣本不 在曱單音樣本內(nèi),而在乙、丙、丁的樣本內(nèi)(或乙的單音樣本內(nèi)),再到乙單音 樣本內(nèi)尋找甲單音最好的K個樣本,計算平均值及變異數(shù)稱為甲的標(biāo)準(zhǔn)模型,這 是因為相似音太接近,曱的樣本和乙的樣本非常相似,再測試未知(甲)單音, 一定成功。圖3中394單音中,本方法能辨認(rèn)390個,3個不認(rèn)識,1個音錯誤。本方法 辨認(rèn)率是100% 。(7)對一個講話者的句子或名稱辨認(rèn),我們先建立一個句子與名稱數(shù)據(jù)庫,每個句子或名稱內(nèi)的單音全部由單音數(shù)據(jù)庫內(nèi)390已知單音任意組成,一共組成460 常用的句子和名稱,辨認(rèn)方法如下(a) 切割一個未知句子或名稱成為D個未知單音,每單位時段計算相鄰二 信號點落差距離總和,如太小,所述的時段為雜音或靜音,沒有單音訊號的相鄰 單位時段累積太多,表示全是雜音或靜音,應(yīng)所述的是兩單音分界線就應(yīng)切割, 一共切成D個未知單音,再用圖2中45, 50, 60與90流程轉(zhuǎn)成ExP LPCC矩 陣。(b) 在句子與名稱數(shù)據(jù)庫尋找講話者的句子或名稱,在460句子和名稱中, 挑選長度有(D±l)個已知單音句子和名稱。未知單音)時,那么將D個每列F個相似已知單音和比對句子或名稱的D個已知 單音依順序比對,看看F個相似音有沒有比對句子或名稱內(nèi)的已知單音。如每列 相似音內(nèi)都含一個比對句子或名稱內(nèi)的已知單音,辨認(rèn)正確單音是D個,則所述 的比對的句子或名稱就是講話者的句子或名稱。(d) 如果數(shù)據(jù)庫比對句子和名稱內(nèi)已知單音數(shù)不是D或(c)的辨認(rèn)正確單 音不是D個,本發(fā)明則用3xF窗口篩選。在比對句子或名稱(數(shù)據(jù)庫內(nèi))中,第 z'個已知單音,用DxF矩陣中前后三列相似音(即第z'-l,M + l列)比對第!'個已 知單音,計算DxF矩陣有多少比對句子或名稱內(nèi)的已知單音,再除以總數(shù)D得到 所述的比對句子或名稱的機率,在數(shù)據(jù)庫選擇一個機率最大句子或名稱為講話者 的發(fā)音。(e) 如果DxF矩陣相似音沒有一個數(shù)據(jù)庫的句子或名稱, 一定是講話者的 某單音不在它的F個相似音內(nèi),用6(f)在F個相似單音中,在第一到三順位(或 只用第一順位)的已知單音找該單音K個最好樣品做它的平均值與變異數(shù),作為 該單音的標(biāo)準(zhǔn)模型,下次測試時, 一定成功。(f) 經(jīng)過黎自奮和李臺珍及瘳麗娟三位測試460結(jié)果全部正確,本發(fā)明另外 一個重要技術(shù)是提供一個修正單音特征方法(6(f)),務(wù)使辨認(rèn)成功。注有些句子或名稱的單音并未全部選對,正如人類講話不需全部了解一句 子或名稱的每一個單音也能明了整個句子或名稱。本發(fā)明測試的句子與名稱數(shù)據(jù) 庫在圖4A與圖4B中。圖4B從390單音數(shù)據(jù)庫任意組成460句子與名稱數(shù)據(jù)庫。取最相似的F = 5 已知單音,由黎自奮與李臺3令及瘳麗娟測試全部正確。20200810085532.4說明書第13/14頁個句子或名稱內(nèi)的單音全以上所述僅為本發(fā)明的較佳實施例,對本發(fā)明而言僅僅是說明性的,而非限制性 的。本專業(yè)技術(shù)人員理解,在本發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對其進行 許多改變,修改,甚至等效,但都將落入本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1、一個百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特征在于其步驟包含步驟(1)通過一個先前處理器刪去不具語音音波信號點或雜音;步驟(2)實施一個已知單音音波正?;c抽取特征方法用彈性框?qū)⒁舨ㄕ;⑥D(zhuǎn)換成大小相等的線性預(yù)估編碼倒頻譜LPCC特征矩陣,并將相同單音音波轉(zhuǎn)換成特征相同的矩陣;步驟(3)在數(shù)據(jù)庫中,對每個已知單音,選擇K個最好樣本;步驟(4)一個已知單音特征矩陣的K個最好樣本轉(zhuǎn)換成一個標(biāo)準(zhǔn)模型,儲藏在數(shù)據(jù)庫,標(biāo)準(zhǔn)模型含有所述的已知單音特征矩陣的K個樣本平均數(shù)與變異數(shù);步驟(5)實施一個未知單音音波正?;c抽取特征方法將音波正常化并轉(zhuǎn)換成大小與已知標(biāo)準(zhǔn)模型大小相等的特征矩陣,稱為未知單音分類模型,內(nèi)含有線性預(yù)估編碼倒頻譜LPCC;步驟(6)實施一個簡化貝氏分類法將未知單音分類模型與數(shù)據(jù)庫所有已知單音標(biāo)準(zhǔn)模型比較,找一個已知單音,它和未知單音貝式距離達最小,辨認(rèn)為未知單音;步驟(7)將一個未知句子或名稱切成D個未知單音方法;步驟(8)通過一個簡化貝式分類法,在D個未知單音中,為每一個未知單音選F個最相似的已知單音,一個未知句子或名稱用D×F矩陣已知單音表示;步驟(9)用D×F矩陣的已知單音,比對句子與名稱數(shù)據(jù)庫全部句子與名稱,找尋一個最可能已知句子或名稱;步驟(10)實施一個修正單音特征的方法,使講話者的句子或名稱辨認(rèn)正確。
2、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(l)刪去不具語音的音波或雜音,包含兩種方法(a) 、在一小時段內(nèi)信號點,計算信號點的變異數(shù)與一般雜音的變異數(shù),如信 號點的變異數(shù)小于雜音變異數(shù),則刪去所述的時段;(b) 、在一小時段內(nèi)信號點,計算相鄰兩信號點距離總和和一般雜音相鄰兩信 號點距離總和,如前者小于后者則刪去所述的時段。
3、 根據(jù)權(quán)利要求1所述的國語單音與句子辨認(rèn)方法,其特征在于步驟(2) 包含已知單音音波正?;c抽取大小一致的特征矩陣,步驟如下(a) —個均等分一個已知單音音波信號點方法,為了用線性變化的回歸模式密 切估計非線性變化的音波,將音波全長分成E等時段,每時段形成一個彈性框, 一個單音共有E個彈性框,沒有濾波器,不重迭,'自由伸縮含蓋全長音波,不是 固定長度的漢明窗;(b) 每框內(nèi),用一隨時間作線性變化的回歸模式估計隨時間作非線性變化的音波;(c) 用Durbin's循環(huán)方式"=0<formula>formula see original document page 3</formula>求回歸系數(shù)最小平方估計值,叫做線性預(yù)估編碼LPC向量,再用<formula>formula see original document page 3</formula>轉(zhuǎn)換線性預(yù)估編碼LPC向量為穩(wěn)定的線性預(yù)估編碼倒頻譜LPCC向量; (d)用E個線性預(yù)估編碼倒頻譜LPCC向量表示一個單音的ExP LPCC特征 矩陣。
4、根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(3)又包含一個,在數(shù)據(jù)庫中,對每一個已知單音選擇最好的K個樣 本的方法,步驟如下(a) 找一個發(fā)音清楚者對每個單音c'發(fā)音一次;(b) 在數(shù)據(jù)庫中,對所述的已知單音e'的全部樣本^,用貝式距離對發(fā)音者所 發(fā)的單音^ = {^}計算w z w 這里^"'i以已知單音^全部樣本變異數(shù)代替,而^={《《}表示已知單音&全部樣本;(c)在已知單音^全部樣本中,以K個最小的"O值,來選擇K個對發(fā)音者最 接近的樣本,叫做已知單音e'最好的K個樣本^ 。
5、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(5)又包含一個計算未知單音的分類模型方法,其步驟如下(a) 將未知單音音波分成E等時段,每時段組成一個彈性框, 一個未知單音有 E個等長彈性框,沒有濾波器,不重迭,自由伸縮含蓋全部音波信號點;(b) 每個彈性框內(nèi),用一個隨時間作線性變化的回歸模式估計隨時間作非線性 變化的音波;(c) 用Durbin's循環(huán)方式<formula>formula see original document page 4</formula>計算回歸系數(shù)最小平方估計值LPC向量;(d) 再將LPC向量用公式<formula>formula see original document page 4</formula>轉(zhuǎn)換成穩(wěn)定LPC倒頻語LPCC向量;(e) 用E個LPCC向量ExP LPCC矩陣,作為所述的未知單音的分類模型。
6、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(6)包含一個簡易貝氏辨認(rèn)未知單音方法,其步驟如下(a)—個未知單音的特征是分類模型,用一個ExP LPCC矩陣Z"^^", / = 1,.."£,《=1,.."戶,表示,為了快速辨認(rèn),ExP個LPCC^"假定是ExP個獨立隨機變量,有正常分配,如果未知單音和一個已知單音。,"L…^,比對時,則^乂"的平均數(shù)與變異數(shù)(/^,《)用所述的已知單音標(biāo)準(zhǔn)模型內(nèi)樣本平均數(shù)與樣本變異 數(shù)估計,那么義的條件密度函數(shù)是<formula>formula see original document page 5</formula>義"義J是未知單音的分類模型的線性預(yù)估編碼倒頻譜LPCC,但(^V,"'i)用 已知單音c'標(biāo)準(zhǔn)模型內(nèi)的樣本平均數(shù)與樣本變異數(shù)以K個最好樣本計算估計; (b)簡易貝氏分類法是針對數(shù)據(jù)庫中找一個已知單音&最像此未知單音義,一個已知單音c'對未知單音相似度以下式中/"l。)表示;<formula>formula see original document page 5</formula>(c) 為快速辨認(rèn),用對數(shù)化簡(b)中條件密度函數(shù)y(^c'),并刪去不必計算的常 數(shù),得<formula>formula see original document page 5</formula>(d) 對每一個已知單音A, / = 1"'"附,計算((0式中*')值;(e) 在數(shù)據(jù)庫中,選擇一個已知單音^',它的《A值是最小,判為所述的未知 單音;(f) 如果選擇已知單音不是未知單音,假定未知單音是甲單音,而選擇的已知 單音是乙單音,那么甲單音最好K個樣本不是在曱單音樣本內(nèi),而是在乙單音樣 本內(nèi),再從乙單音樣本內(nèi)為甲單音選擇K個最好樣本作為甲單音的標(biāo)準(zhǔn)模型,下 次辨認(rèn)該未知單音 一 定辨認(rèn)正確;(g) 由辨認(rèn)測試結(jié)果,E=12,P=12,K=4-8為最好,這是因為彈性框不重迭,E=12 彈性框能充分抽取一個單音特征。
7、根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(7)還包含下列每單位時段計算相鄰兩個信號點落差距離總和,如太小,所述的時段則是靜 音或雜音,沒有單音訊號;靜音或雜音相鄰單位時段累積太多,所述的時段應(yīng)是兩單音分界線,應(yīng)切割, 一個未知句子或名稱切割成D個未知單音;再將每個未知單音除去靜音與雜音,彈性框正?;?,最小平方計算線性預(yù)估 編碼LPC倒頻譜向量,代表一個未知單音, 一句子或名稱一共有D個線性預(yù)估編碼倒頻謙LPCC矩陣表示。
8、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特征在于步驟(8)還包含下列(a) —個未知句子或名稱切割成D個未知單音后,每一個未知單音用簡化 貝式分類法,在單音數(shù)據(jù)庫中,計算每個已知單音A和所述的未知單音^J貝式 距離"。,<formula>formula see original document page 6</formula>找最近的F個已知單音, 一個未知單音用所述的F個相似音表示; (b)因此一個未知句子或名稱有D列F個相似音表示,也即所述的句子或名稱 在DxF矩陣的已知單音機率非常高。
9、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其特 征在于步驟(9)還包含下列 一個句子與名稱辨認(rèn)方法(a) 在句子與名稱數(shù)據(jù)庫中,挑選和講話者的句子或名稱長度大約相等的句子 或名稱,也即D±l個已知單音的句子和名稱;(b) 如果在句子與名稱數(shù)據(jù)庫中,挑選比對的句子或名稱,它的長度剛好和講 話者的句子或名稱等長(D個未知單音)時,那么將D個每列F個相似已知單音 和被挑選的比對句子或名稱的D個已知單音依順序比對,看看F個相似單音中有 沒有比對句子或名稱內(nèi)的已知單音,如每列相似單音依次都包含比對句子或名稱 內(nèi)一個已知單音, 一共會有全部D個未知單音辨認(rèn)正確,所述的比對句子或名稱 就是講話者的句子或名稱;(c) 如果句子與名稱數(shù)據(jù)庫中的比對句子或名稱有D個已知單音,但比對講話 者,D個單音沒有完全辨認(rèn)正確,不在F個相似音內(nèi)或比對句子或名稱不是D個 長度,本發(fā)明則用3xF窗口篩選,用DxF矩陣相似音中前后三列相似已知單音依 順序比對數(shù)據(jù)庫,有D個或D±l個已知單音的比對句子或名稱中每一個已知單音, 在數(shù)據(jù)庫中選擇一個機率最大的比對句子或名稱為講話者的句子或名稱,機率以 單音正確辨認(rèn)數(shù)除以全長D或D± 1 。
10、 根據(jù)權(quán)利要求1所述的百分之百辨認(rèn)率的國語單音與句子辨認(rèn)方法,其 特征在于步驟(10)還包含一個修正單音特征方法,使句子與名稱辨認(rèn)正確(a)不能辨認(rèn)講話者的句子或名稱一定是句子或名稱中某一個未知單音不在 它的F個相似音中,需要調(diào)整所述的未知單音的標(biāo)準(zhǔn)模型矩陣內(nèi)K個LPCC的平均值與變異數(shù);(b) 假如所述的未知單音是A,本發(fā)明用4(b)中簡化的貝式分類法,計算所 述的未知單音W對單音數(shù)據(jù)庫中已知單音c'全部樣本《-^^的貝式距離<formula>formula see original document page 7</formula>取K個最好的樣本做為平均值^《與變異數(shù)"^,調(diào)整后再辨認(rèn)所述的句子或 名稱;(c) 再測試該未知句子或名稱,如句子或名稱中某一未知單音不在它的F個相 似已知單音中,假定未知單音叫做曱單音,用它的F個相似已知單音中第一到三 順位的相似已知單音叫做乙、丙、丁單音,曱單音最好K樣本不在曱單音樣本中, 而在前三順位的乙、丙、丁單音樣本中或乙單音中,再從乙單音全部樣本選擇曱 單音的K個最好樣本求曱單音特征模型,再測試該未知句子或名稱,保證成功。
全文摘要
本發(fā)明是一種應(yīng)用廣泛國語單音與句子的辨認(rèn)方法,其是找一個發(fā)音清晰者對每一單音發(fā)音,再以數(shù)據(jù)庫對所述的單音找K個樣品,使K個樣品對發(fā)音者的已知單音,貝式距離最短的樣品,也即對發(fā)音者的已知單音取K個貝式距離最短的樣品,叫做所述的單音的最好樣本,再對K個最好樣本抽取特征代表所述的單音,放在數(shù)據(jù)庫中。因每單音都有自己的K個最好樣品計算特征,大大提高本發(fā)明單音辨識能力,然后將要辨認(rèn)的句子和任何名稱建立一個句子與名稱數(shù)據(jù)庫,經(jīng)過三位男女測試390單音與460個句子和名稱,辨認(rèn)率可達100%,并可隨時增加句子數(shù)據(jù)庫的句子或名稱,即刻從句子數(shù)據(jù)庫中辨認(rèn),最重要的是本發(fā)明提供一修正單音特征的方法保證辨認(rèn)成功。
文檔編號G10L15/00GK101281746SQ20081008553
公開日2008年10月8日 申請日期2008年3月17日 優(yōu)先權(quán)日2008年3月17日
發(fā)明者廖麗娟, 李臺珍, 黎自奮 申請人:黎自奮;李臺珍;廖麗娟