專利名稱:中文電腦的漢語(yǔ)語(yǔ)音輸入系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種智慧型漢語(yǔ)語(yǔ)音輸入方法及漢語(yǔ)聽寫機(jī)。本發(fā)明是同一發(fā)明人的臺(tái)灣專利申請(qǐng)案第78105818號(hào)的改良,利用此改良方法,或使得利用漢語(yǔ)語(yǔ)音輸入中文文字的方法更為精確。
目前中文電腦的輸入方法百家爭(zhēng)鳴,或用注音,或用字根,或用劃筆,但沒有一種是眾所公認(rèn)最好的(因?yàn)闆]有一種真正最方便)。這是因?yàn)橛械妮斎胨俣容^慢,有的需要特別訓(xùn)練,有的方法特別要背口訣,久了不用會(huì)忘掉等,而人人都會(huì)、不需訓(xùn)練的注音符號(hào)法,則因其速度太慢,而無(wú)法通行。在眾多中文輸入法中,速度最快的是倉(cāng)頡法、大易法或類似的方法,但此方法卻只有專業(yè)人員在長(zhǎng)期訓(xùn)練下才會(huì)用,一般人不常用就會(huì)忘掉。事實(shí)上,這是現(xiàn)階段我國(guó)社會(huì)信息化最大的障礙,因?yàn)椤爸形妮斎搿弊兂梢环N專門職業(yè),一般人自然不會(huì)常用它。這些方法不方便的基本原因,是嘗試把漢字轉(zhuǎn)成幾個(gè)按鍵,由鍵盤輸入;但事實(shí)上鍵盤是西方拼音文字下的產(chǎn)物,漢字不是拼音文字,所以由鍵盤輸入就自然不方便了。
既然鍵盤輸入不方便,還有什么其他方法可用呢?很多人很早就想到了可用聲音輸入。只是用聲音輸入的技術(shù)困難太多,幾乎是不太可能的事,所以一直沒有這方面的方便產(chǎn)品問世。技術(shù)上困難的原因有三點(diǎn)(1)需要辨識(shí)的詞匯太多了,中文常用字至少五千個(gè),常用詞至少十萬(wàn)個(gè),這種數(shù)字已超出技術(shù)可行的范圍;(2)中文字的同音字太多,即使知道是什么音,又如何能方便而快速無(wú)誤地知道是什么字呢?(3)要能“即時(shí)”聽寫漢語(yǔ),就必須在極短時(shí)間內(nèi)解決如此困難的問題,更是不容易。
本發(fā)明人的美國(guó)專利第5,220,639號(hào)專利申請(qǐng)案基本上已可以解決上述困難,這是因?yàn)?1)選用漢語(yǔ)單音節(jié)為單位中文字、詞的數(shù)目雖大,不同的單音節(jié)卻只有1300個(gè),是語(yǔ)音辨認(rèn)技術(shù)上可以接受的范圍;知道是什么音節(jié)以后,可以再由其前后的音節(jié)去判斷可能構(gòu)成什么詞、什么句。(2)藉助以中文字為基礎(chǔ)的馬可夫模型建立中文的語(yǔ)言模型,可以靠大量的訓(xùn)練文字,統(tǒng)計(jì)出每一個(gè)字的前后與其他不同的字銜接的機(jī)率,由這些機(jī)率可以算出當(dāng)一個(gè)音節(jié)前后與其他音節(jié)銜接時(shí),這些音節(jié)最可能是代表什么字,這種方法可以大部分解決同音字的問題,不能解決的再在熒光屏上予以更正。(3)制作特殊設(shè)計(jì)的硬件,以便在最短時(shí)間內(nèi)完成復(fù)雜的工作。
然而,前項(xiàng)申請(qǐng)案的發(fā)明基本上雖已可決上述困難,但有其先天上的限制(1)所需運(yùn)算量極大,為了要達(dá)到“即時(shí)”聽寫漢語(yǔ)的目的,亦即在很短時(shí)間內(nèi)完成極大量運(yùn)算,必須制作特殊設(shè)計(jì)的硬件,使得該發(fā)明代價(jià)昂貴,(2)正確率仍不夠高(約89%),使用者仍需一再更正錯(cuò)字。這兩項(xiàng)限制是至今它并沒有成為產(chǎn)品大量上市的原因。
本發(fā)明中,就是考慮到前項(xiàng)專利案的上述限制,便在原有的構(gòu)想下發(fā)展出兩項(xiàng)重要的新技術(shù)(1)專門針對(duì)漢語(yǔ)單音節(jié)的特性,發(fā)展出專門作漢語(yǔ)單音節(jié)辨識(shí)的“段落統(tǒng)計(jì)模型”及(2)專門針對(duì)中文的語(yǔ)言結(jié)構(gòu),發(fā)展出“詞類雙連中文語(yǔ)言模型”。這兩項(xiàng)技術(shù)都是針對(duì)中文及漢語(yǔ)的特性發(fā)展出來(lái),結(jié)合起來(lái)以后,所需的運(yùn)算量大為減小,而正確率卻可大為提高。于是不再需要特殊硬件來(lái)達(dá)到“即時(shí)”輸入,同時(shí),所有技術(shù)可以用軟件完成,并輕易寫入任何裝有一片“數(shù)字信號(hào)處理芯片”(DSP Chip)的“數(shù)字信號(hào)處理電路板(DSP Board)”(這類芯片及電路板市面上產(chǎn)品很多,故很容易在不同的電路板或芯片上發(fā)展出不同的產(chǎn)品),只要芯片的運(yùn)算速度足夠快,電路板上的存儲(chǔ)容量足夠大,它就能“即時(shí)”輸入。這塊電路板可以插入任何一臺(tái)AT級(jí)以上的個(gè)人電腦上,故使用方便,價(jià)格亦可大為降低。以上述的基本技術(shù)及功能為基礎(chǔ),本發(fā)明又進(jìn)一步發(fā)展出諸如“智慧型學(xué)習(xí)技術(shù)”,使得這套聽寫機(jī)更具備不時(shí)“學(xué)習(xí)”的“智慧”。這包括自動(dòng)學(xué)習(xí)新使用者的聲音,從而使得新使用者可以很快開始使用;自動(dòng)學(xué)習(xí)使用者的環(huán)境噪音并適應(yīng)該噪音;不斷聯(lián)機(jī)學(xué)習(xí)使用者的聲音、用字、用詞、構(gòu)句等,使得正確率可以繼續(xù)上升等等。所有這些都將在以下詳細(xì)說(shuō)明。
本發(fā)明系關(guān)于中文電腦的漢語(yǔ)語(yǔ)音輸入系統(tǒng)及方法,該系統(tǒng)利用語(yǔ)音處理技術(shù)的方法及根據(jù)此方法研制而成的機(jī)器,可以“聽寫”任意文句的漢語(yǔ),亦即使用者對(duì)著機(jī)器說(shuō)任意文句的漢語(yǔ),機(jī)器可以將其辨識(shí)出來(lái),把語(yǔ)句轉(zhuǎn)換成文字,顯示在熒光屏上(以中文文字)。其主要應(yīng)用是作為中文電腦的輸入。這就好比有一個(gè)“聽寫員”,收聽了使用者的語(yǔ)句,并將之輸入電腦。當(dāng)然,在輸入電腦之后,就可以加以任何處理、修改、編排、儲(chǔ)存、打印輸出、傳遞到遠(yuǎn)方等應(yīng)用。簡(jiǎn)言之,這種機(jī)器使中文電腦“會(huì)聽漢語(yǔ)”。這種“漢語(yǔ)聽寫機(jī)”和一般看到的能辨識(shí)漢語(yǔ)語(yǔ)音的機(jī)器系統(tǒng)最大的不同有二(1)它必須能“聽寫”由極大詞匯量(中文常用詞至少10萬(wàn)以上,常用字至少5千以上)組成的任意文句,因?yàn)橐话汶娔X要輸入的中文可以是任意的文字;(2)它必須快到可以“即時(shí)”(Real-time)辨識(shí),完成聽寫,亦即使用者不能在說(shuō)完話后慢慢等中文字顯示,因?yàn)橐话汶娔X輸入的應(yīng)用都是即時(shí)的,這兩個(gè)不同點(diǎn)使得“漢語(yǔ)聽寫機(jī)”在技術(shù)上不易做到,故到目前止尚沒有真正可以有效使用的產(chǎn)品出現(xiàn)。目前各研究單位所發(fā)展的“漢語(yǔ)語(yǔ)音辨認(rèn)系統(tǒng)”,或者只能辨識(shí)少數(shù)的有限詞匯(例如100個(gè)地名等),或者正確率仍很低尚不便于使用等,均與本發(fā)明不同。
因?yàn)樯鲜觥皣?guó)語(yǔ)聽寫機(jī)”在技術(shù)上十分困難,本申請(qǐng)案的發(fā)明人在78年提出前項(xiàng)申請(qǐng)案的發(fā)明時(shí)系將上述構(gòu)想再壇加一些條件,使上述構(gòu)想在以下三個(gè)條件下在技術(shù)上變成可行,可以確實(shí)作到(1)特定語(yǔ)者亦即一架機(jī)器一次只聽一個(gè)使用者的聲音,每個(gè)使用者在購(gòu)買機(jī)器時(shí)可以對(duì)機(jī)器說(shuō)一番話作成“訓(xùn)練資料”,輸入機(jī)器后機(jī)器即可以聽懂他的話,換使用者時(shí)只要換一套“訓(xùn)練資料”即可,并不構(gòu)成太大困難,因?yàn)檫@種機(jī)器一次只有一個(gè)人在用。發(fā)音不正確的人也可以用其不正確的發(fā)音去訓(xùn)練機(jī)器,機(jī)器基本上也可以一樣聽不正確的發(fā)音;(2)輸入以斷開的單音節(jié)為單位漢語(yǔ)每一個(gè)字構(gòu)成一個(gè)單音節(jié),但構(gòu)成連續(xù)語(yǔ)句后整句信號(hào)連在一起,前后音互相影響使辨識(shí)困難;事實(shí)上使用者可以把輸入語(yǔ)句每一個(gè)字的單音節(jié)斷開來(lái)念,仍然十分方便而且仍然可以很快地輸入大量中文;(3)輸入的文字可以允許有少量的錯(cuò)誤事實(shí)上任何輸入法均可能輸入錯(cuò)誤的字,只要輸入的文字可以先顯示在熒光屏上,使用者看到有錯(cuò)時(shí),可以用簡(jiǎn)單的方法,借助方便的軟件予以更正。在這樣的條件下,使用前項(xiàng)申請(qǐng)案中的發(fā)明,每分鐘約可輸入150字,其中約有17字需要更正;由于更正的軟件十分方便,每分鐘的“凈輸入”可達(dá)約110字。若使用本發(fā)明,則效果會(huì)更好。需要說(shuō)明的是,目前中文輸入法中最快的方法也可達(dá)到約每分鐘110字以上,不過(guò)全臺(tái)灣只有少數(shù)專業(yè)人員在長(zhǎng)期練習(xí)下才能達(dá)到。使用本發(fā)明則任何人均可隨時(shí)達(dá)到這個(gè)數(shù)字。
因此本發(fā)明的主要目的,就是使任何會(huì)說(shuō)漢語(yǔ)之人,在不需訓(xùn)練及永不忘掉的情況下,方便又快速使用本發(fā)明所述的中文語(yǔ)音輸入方法及根據(jù)此方法所制成的漢語(yǔ)聽寫機(jī)來(lái)輸入中文。
本發(fā)明的其它目的和優(yōu)點(diǎn)可由下列較佳實(shí)施例配合附圖的說(shuō)明敘述如下,其中
圖1為本發(fā)明的基本原理與結(jié)構(gòu);
圖2為“段落統(tǒng)計(jì)模型”的基本原理及其訓(xùn)練方式;
圖3為“段落統(tǒng)計(jì)模型”的辨識(shí)單音節(jié)的方式;
圖4為前項(xiàng)申請(qǐng)案中的“詞類雙連中文語(yǔ)言模型”;
圖5說(shuō)明本發(fā)明的“詞類雙連中文語(yǔ)言模型”;
圖6說(shuō)明機(jī)器聯(lián)機(jī)學(xué)習(xí)使用者用字、用詞、構(gòu)句習(xí)慣及用短期記憶保留的技術(shù);
圖7說(shuō)明用電腦自動(dòng)選取“學(xué)習(xí)例句”的方法;
圖8為本發(fā)明的一個(gè)較佳具體實(shí)施例。
本發(fā)明的基本原理及結(jié)構(gòu),請(qǐng)見圖1,分為“聲音處理器”以及“語(yǔ)言解碼器”兩個(gè)部分,每一部份針對(duì)輸入的音節(jié),以聲音處理的方式負(fù)責(zé)辨識(shí)出是哪一個(gè)單音節(jié);第二部分則針對(duì)辨識(shí)出來(lái)的一系列單音節(jié),以語(yǔ)言解碼的方式負(fù)責(zé)找出各是哪一個(gè)字。在第一部份“聲音處理器”中,則先對(duì)每一輸入單音節(jié)檢測(cè)出其端點(diǎn),再分別進(jìn)行“基本單音節(jié)辨認(rèn)”(“基本單音節(jié)”是指不考慮聲語(yǔ)者,例如辨識(shí)出為“ ”)及“聲調(diào)辨認(rèn)”(例如辨識(shí)出其為“第四聲”),則可知其為哪一個(gè)音節(jié)(例如“ 、”)。這些辨識(shí)出來(lái)的音節(jié)就都被送到“語(yǔ)言解碼器”之中去找出正確的同音字。首先先由“字形假設(shè)”部分把每一個(gè)音的同音字都找出來(lái)。再藉助“中文語(yǔ)言模型”找出機(jī)率最大的(或最可能的)同音字作為輸出。如果輸出不正確,使用者可以在熒光屏上予以更正。
首先說(shuō)明本發(fā)明在圖1中第一部分“聲音處理器”的第一步工作,也就是端點(diǎn)檢測(cè)法。這是作語(yǔ)音辨識(shí)的人所熟知的技術(shù)?;旧纤新曇粢惠斎?,先由取樣器對(duì)其波型取樣,變成一串?dāng)?shù)據(jù),即可輸入電腦。電腦即可根據(jù)這些數(shù)據(jù)計(jì)算其“瞬間能置”(即短瞬間能量有多大)及“過(guò)零率”(即單位時(shí)間內(nèi)波形由正變到負(fù)通過(guò)“零”的次數(shù)),根據(jù)這兩種數(shù)據(jù),電腦即可判斷聲音由哪里開始到哪里結(jié)束,其余是噪音,可以去除。例如韻母的能量比噪音高很多,聲母有時(shí)能量不高,但過(guò)零率比噪音高很多,故根據(jù)這兩者即可把噪音和聲音分開來(lái),再就聲音部分加以辨識(shí)。其次說(shuō)明“聲音處理器”中的“基本單音節(jié)辨認(rèn)”部份,漢語(yǔ)單音節(jié)共約1300個(gè),如果扣除四聲變化,則只有約四百多個(gè)基本單音節(jié)(例如 、當(dāng)成5個(gè)單音節(jié),則共有約1300個(gè);當(dāng)成1個(gè)基本單音節(jié),則共有約四百多個(gè))。本發(fā)明系將四聲分出來(lái)單獨(dú)考慮,故先當(dāng)成共有四百多個(gè)基本單音節(jié)來(lái)辨識(shí);經(jīng)多年來(lái)深入研究,發(fā)現(xiàn)以本發(fā)明所發(fā)展出來(lái)針對(duì)漢語(yǔ)音節(jié)特性的“段落統(tǒng)計(jì)模型”,可以比前項(xiàng)申請(qǐng)案的“連續(xù)式隱藏式馬可夫模型”(Continuous Hidden Markov Models)獲得更理想結(jié)果。這是因?yàn)闈h語(yǔ)單音節(jié)中混淆音組極多(例如 、……都非常接近),正確無(wú)誤的辨識(shí)將十分困難;上述特殊方法為本發(fā)明在臺(tái)大發(fā)展出來(lái),針對(duì)漢語(yǔ)音節(jié)特性所找出的方法。
圖2 簡(jiǎn)要說(shuō)明“段落統(tǒng)計(jì)模型”的基本原理及其訓(xùn)練方式。在圖2(a)中說(shuō)明,若某一音節(jié)α的總長(zhǎng)度為T個(gè)音框,則將其分成N段,每一段有T/N個(gè)音框,分別由一個(gè)狀態(tài)代表。在圖2(b)中說(shuō)明“段落統(tǒng)計(jì)模型”的訓(xùn)練方式。假設(shè)使用者把音節(jié)α念了好幾次,每次念的長(zhǎng)短都不盡相同,但都一樣等分成N段,所有音的第一段的音框的特征向量合在一起訓(xùn)練成第一段的狀態(tài),所有音的第二段音框的特征向量合在一起訓(xùn)練成第二段的狀態(tài)等等,每個(gè)狀態(tài)則用M個(gè)高斯機(jī)率混合(Mixtures of Gaussian Probabilites)來(lái)描述,其參數(shù)就由這些音框的特征向量訓(xùn)練出來(lái)。這M個(gè)狀態(tài)就構(gòu)成這音節(jié)α的“段落統(tǒng)計(jì)模型”。
圖3 簡(jiǎn)要說(shuō)明“段落統(tǒng)計(jì)模型”的辨識(shí)方式。未知的音β進(jìn)入電腦也一樣等分作N段,每一段中的每一個(gè)音框的特征向量分別代到某個(gè)音節(jié)的“段落統(tǒng)計(jì)模型”的該段狀態(tài)的M個(gè)高斯機(jī)率混合中去計(jì)算機(jī)率。各段的機(jī)率相乘就是這個(gè)未知音β相對(duì)于這個(gè)音節(jié)的“段落統(tǒng)計(jì)模型”的機(jī)率?,F(xiàn)在把所有的408基本單音節(jié)都訓(xùn)練成“段落統(tǒng)計(jì)模型”,當(dāng)一個(gè)未知的音β進(jìn)來(lái),就拿它來(lái)計(jì)算相對(duì)于這408個(gè)基本單音節(jié)的“段落統(tǒng)計(jì)模型”的機(jī)率,機(jī)率最高的那個(gè)“段落統(tǒng)計(jì)模型”所相對(duì)應(yīng)的基本單音節(jié),就是辨識(shí)結(jié)果。
再其次說(shuō)明圖1的“聲音處理器”中的“聲調(diào)辨認(rèn)”部分,基本上其功能是要辨識(shí)該音節(jié)是第幾聲(包括四聲及輕聲,共有5種選擇)。其所用的方法仍是上述的“段落統(tǒng)計(jì)模型”,亦即為五種聲調(diào)建立五個(gè)“段落統(tǒng)計(jì)模型”,未知音節(jié)分別對(duì)這五個(gè)模型計(jì)算機(jī)率,機(jī)率最高者就是辨識(shí)結(jié)果。只是所選用的聲音特征必須選擇基頻(決定聲音高低的特征,事實(shí)上就是聲帶振動(dòng)的頻率,可以由聲音數(shù)據(jù)中算出來(lái))、能量及音長(zhǎng)。需要說(shuō)明的是,辨別四聲的方法早已由許多人發(fā)明過(guò),只不過(guò)從沒有人用過(guò)“段落統(tǒng)計(jì)模型”,在本發(fā)明中發(fā)現(xiàn),基本單音節(jié)與聲調(diào)的辨識(shí)都可以用“段落統(tǒng)計(jì)模型”,簡(jiǎn)單又方便。此外,使用能量及音長(zhǎng)的原因,是為了幫助分辨輕聲。
其次說(shuō)明圖1的原理中的第二部分“語(yǔ)言解碼器”的原理,前項(xiàng)申請(qǐng)案中所用的方法如圖4所示。當(dāng)“聲音處理器”送來(lái)一系列辨識(shí)出來(lái)的音節(jié)(注音符號(hào))后,“字形假設(shè)”的部分首先將每一個(gè)音節(jié)的可能的同音字都假設(shè)出來(lái),這是靠機(jī)器中存的一套字典來(lái)查出來(lái)。需要說(shuō)明的是,有時(shí)有些音節(jié)有些混淆,不能確定,例如圖4中的 很象,“聲音處理器”如果沒有把握它一定是哪一個(gè),可以把兩個(gè)一起送過(guò)來(lái),“字形假設(shè)”的部分會(huì)把可能的“ ”的同音字和“ -丶”的同音字都一起列出來(lái),然后送進(jìn)“馬可夫中文語(yǔ)言模型”去計(jì)算機(jī)率。
關(guān)于前項(xiàng)專利案所提的基于中文字的“馬可夫中文語(yǔ)言模型”(第4圖)的訓(xùn)練方式如下。例如把20,000,000字的報(bào)紙新聞資料(電腦檔案)輸入電腦,電腦的程序會(huì)去計(jì)算里面的字和詞出現(xiàn)的次數(shù),例如“中”字共出現(xiàn)150個(gè),但“中央”出現(xiàn)32個(gè),“中國(guó)”出現(xiàn)28個(gè)……等,電腦的程序根據(jù)一定的公式,即可算出各個(gè)字出現(xiàn)及組合的機(jī)率。當(dāng)“聲音處理器”送來(lái)一串音節(jié)(注音符號(hào))時(shí),這個(gè)語(yǔ)言模型中的程序就會(huì)有一定的公式去計(jì)算每一組可能的同音字會(huì)組合成一組句子的機(jī)率。例如在圖4中 各有很多同音字,但“增進(jìn)”兩字相連的可能性最大,而 各有很多同音字,但“記憶”兩字相連的可能性最大,而當(dāng)整句輸入是 時(shí),相對(duì)于“增進(jìn)記憶力”的機(jī)率是多少,相對(duì)于“曾近寄義立”的機(jī)率是多少等,最后會(huì)發(fā)現(xiàn)“增進(jìn)記憶力”的機(jī)率最高,并把機(jī)率最高的句子輸出。又例如可以將國(guó)小的國(guó)語(yǔ)課本的文字,或是報(bào)章雜志的文字(轉(zhuǎn)成電腦檔案后)等當(dāng)作“訓(xùn)練文字”直接輸入電腦,電腦就去計(jì)算在這些文字中各種不同的字前后相連出現(xiàn)的次數(shù),來(lái)建立相當(dāng)于國(guó)小國(guó)語(yǔ)課本或某些報(bào)章雜志的語(yǔ)言模型。事實(shí)上,每一個(gè)使用者可以用他自己最適合的訓(xùn)練文字去訓(xùn)練他自己的語(yǔ)言模型;例如財(cái)經(jīng)記者可以用報(bào)紙的財(cái)經(jīng)新聞去訓(xùn)練機(jī)器,則這機(jī)器特別適合聽寫財(cái)經(jīng)新聞,而作家可以用他過(guò)去的作品去訓(xùn)練機(jī)器,機(jī)器則可以適應(yīng)作家所習(xí)用的用語(yǔ)及句語(yǔ),可用來(lái)寫稿,錯(cuò)誤率可以更低。
上述“中文語(yǔ)言模型”還有一個(gè)好處,就是可以部分更正“聲音處理器”的錯(cuò)誤,因?yàn)楫?dāng)兩個(gè)音十分混淆時(shí),可以一起送給“中文語(yǔ)言模型”去選。例如圖4中“ ”的機(jī)率最高,“ ”的機(jī)率第二,故應(yīng)辨識(shí)為“ ”;但因二者機(jī)率接近,可以暫不決定而將兩個(gè)音 一起送到后面的語(yǔ)言模型去算前后文的機(jī)率,因?yàn)橄乱粋€(gè)音是“-丶”或“ -丶”,“語(yǔ)言模型”會(huì)算出來(lái)“記憶”的機(jī)率遠(yuǎn)比“汽細(xì)”高,故最后仍選擇了“記憶”,錯(cuò)誤就被更正了。這種情形和人聽漢語(yǔ)很像,有些人耳聽不清的音,我們會(huì)自動(dòng)根據(jù)前后文判斷出來(lái)是什么音。
這樣的“聽寫機(jī)”能聽寫的字?jǐn)?shù)及詞匯數(shù)視輸入的字典及訓(xùn)練文字的字?jǐn)?shù)及詞匯而定。只要輸入更多字的字典及訓(xùn)練資料,就可將這些數(shù)字增大。
以上所說(shuō)明的是前項(xiàng)申請(qǐng)案中的“中文語(yǔ)言模型”,那事實(shí)上是以“字”為基礎(chǔ),亦即計(jì)算“字”與“字”相連的機(jī)率為最主要的選字參考。但事實(shí)上中文文句是以“詞”構(gòu)成,每個(gè)“詞”是包含了一個(gè)到數(shù)個(gè)“字”,事實(shí)上“詞”才是中國(guó)人造句的基本單位。以圖5(a)中的句子為例,該句子可以看成是13個(gè)“字”構(gòu)成的,但是更理想的看法是看成由5個(gè)“詞”構(gòu)成。以此推想,以“詞”為基礎(chǔ)的“中文語(yǔ)言模型”,亦即計(jì)算“詞”與“詞”相連的機(jī)率為最主要的選字參考,效果一定更好;這也是本發(fā)明的基本構(gòu)想,把上次申請(qǐng)案中以“字”為基礎(chǔ)的“中文語(yǔ)言模型”改為以“詞”為基礎(chǔ),實(shí)驗(yàn)也顯示這樣的想法是正確的,效果會(huì)更好。但“中文語(yǔ)言模型”要以“詞”為基礎(chǔ),作起來(lái)比以“字”為基礎(chǔ)要難得多,主要是“常用詞”比“常用字”多很多。例如以“字”為基礎(chǔ),常用字如果有5千,兩兩相連共有5千×5千種組合,故共需5千×5千個(gè)機(jī)率值;但常用詞是10萬(wàn)以上,兩兩相連共有10萬(wàn)×10萬(wàn)種組合,故需10萬(wàn)×10萬(wàn)個(gè)機(jī)率值,那是實(shí)際上做不到的。本發(fā)明乃發(fā)展出一種“詞類雙連中文語(yǔ)言模型”,其說(shuō)明如圖5(b)的例句所示?!白蛱焱砩闲iT口前面人山人海”的例句中共有“昨天”“晚上”“校門口”“前面”“人山人?!?個(gè)詞,原應(yīng)依兩兩相連計(jì)算機(jī)率,亦即“昨天”接“晚上”,“早上”接“校門口”,“校門口”接“前面”,“前面”接“人山人海”等,但本發(fā)明發(fā)展的“詞類雙連中文語(yǔ)言模型”的方式,亦即只計(jì)算兩兩相連的詞之間相連的字,例如“天”接“晚”,“上”接“?!保翱凇苯印扒啊?,“面”接“人”等。這是因?yàn)槔缥覀兛梢园阉幸浴疤臁苯Y(jié)尾的詞合成一類,包括“昨天”“明天”等;把所有以“晚”開頭的詞合成一類,包括“晚上”“晚自習(xí)”等,則它們這兩類的詞兩兩相連可以都用“天”接“晚”來(lái)代表,例如“今天晚上”“明天晚自習(xí)”等等,故“天”接“晚”的機(jī)率在此所代表的,事實(shí)上是兩類更大的詞類相連的關(guān)系,不僅僅是“晚天”和“晚上”相連而已。這么一來(lái)“詞尾字”和“詞頭字”兩兩相連的組合仍然只有5千×5千(如果常用字是5千),故所需的機(jī)率值仍然是5千×5千個(gè),和原來(lái)以字為基礎(chǔ)的語(yǔ)言模型相同;但實(shí)驗(yàn)顯示它的效果要好很多。此外,當(dāng)“中文語(yǔ)言模型”是以“詞”為基礎(chǔ)時(shí),很容易再加入“詞頻”的信息,也就是越是常用的詞越優(yōu)先選出,這更可進(jìn)一步提高正確率。
以上是說(shuō)明了“段落統(tǒng)計(jì)模型”和“詞類雙連中文語(yǔ)言模型”,這兩項(xiàng)是本發(fā)明兩項(xiàng)最基本的技術(shù)。這兩項(xiàng)基本技術(shù)使得本發(fā)明所需的運(yùn)算大為減少,而正確率大為提高。以下再說(shuō)明本發(fā)明進(jìn)一步發(fā)展出來(lái)的諸如“智慧型學(xué)習(xí)技術(shù)”,使得本發(fā)明的聽寫機(jī)具備不時(shí)“學(xué)習(xí)”的“智慧”。
第一項(xiàng)學(xué)習(xí)技術(shù)是自動(dòng)學(xué)習(xí)使用者的聲音。由于新機(jī)器已先用許多人的聲音訓(xùn)練過(guò),一開始新的使用者還沒有開始訓(xùn)練機(jī)器,已有約平均55%的正確率。本發(fā)明的學(xué)習(xí)方法是用一套特別設(shè)計(jì)的“學(xué)習(xí)例句”。新的使用者只要念最前面的24句(共188字,約費(fèi)時(shí)5分鐘),即可使機(jī)器初步學(xué)習(xí)會(huì)聽使用者的聲音,正確率約在80%左右。這是因?yàn)檫@188字共包含了漢語(yǔ)的所有22個(gè)聲母,38個(gè)韻母及一百多種聲韻母相連的變化。例如念了一個(gè)“ ”音,機(jī)器也會(huì)同時(shí)學(xué)到 等音的聲母, 等音的韻母等;故這24句下來(lái)已可學(xué)到所有可能的聲音。同時(shí)這24句中也讓越常出現(xiàn)的音出現(xiàn)次數(shù)越多,所以訓(xùn)練得越正確。這是為什么只要24句就可以初步學(xué)會(huì)使用。在第二階段中,若新使用者愿再多念24句(共149字,約再費(fèi)時(shí)4分鐘),就可以把正確率提高到72%左右。這是因?yàn)檫@24句中把最常用的200個(gè)漢語(yǔ)基本單音節(jié)全部納入,并讓越常用的單音節(jié)出現(xiàn)次數(shù)越多,訓(xùn)練得越好。例如“ ”是一個(gè)常用的音,在最前面的24句中,這個(gè)音是靠“ ”的聲母和“ ”的韻母訓(xùn)練的,所以不是很精確,但在這第二階段的24句中,“ ”會(huì)多出現(xiàn)幾次,所以會(huì)訓(xùn)練得不錯(cuò),正確率也大幅提高。在第三階段中若新使用者愿意再多念57句(共516字,約費(fèi)時(shí)13分鐘),則正確率可以提高到80%,其原因與上述相同,只是此時(shí)包含了所有漢語(yǔ)中可以出現(xiàn)的408個(gè)基本單音節(jié)(但不計(jì)聲調(diào)),且常出現(xiàn)的也多念幾次。在第4階段中,若新使用者愿意再多念280句(共2501字,約費(fèi)時(shí)65分鐘),即可把正確率提高到89%,這是因?yàn)樵谶@280句中,所有漢語(yǔ)的1300個(gè)單音節(jié)包括不同的聲調(diào)(例如“ ”事實(shí)上有5種變化 都會(huì)念到一次以上,且越常用的出現(xiàn)次數(shù)越多。
第二項(xiàng)學(xué)習(xí)技術(shù)是機(jī)器自動(dòng)“聯(lián)機(jī)”學(xué)習(xí)使用者的聲音。使用者事實(shí)上不必做完上述的四個(gè)階段的學(xué)習(xí)才開始使用機(jī)器,而是可以在作完上述第一階段的訓(xùn)練(24句188字)以后的任何時(shí)候開始使用,只是正確率較低而已。不論是用上述例句訓(xùn)練機(jī)器,或是在真正使用中,只要隨時(shí)更正錯(cuò)誤,機(jī)器立刻作“聯(lián)機(jī)學(xué)習(xí)”,亦一面使用中一面把所有辨別過(guò)的聲音全部學(xué)習(xí)進(jìn)去,因此只要使用者繼續(xù)使用并讓機(jī)器學(xué)習(xí),正確率可以逐步達(dá)到95%-97%左右,亦即約每20-35字才須修正一個(gè)錯(cuò)字。
第三項(xiàng)學(xué)習(xí)技術(shù)是聯(lián)機(jī)自動(dòng)學(xué)習(xí)環(huán)境噪音。每一個(gè)使用者的環(huán)境都有他自己的噪音,這些噪音都會(huì)對(duì)機(jī)器的使用正確率造成傷害。在本發(fā)明的上述第二項(xiàng)“聯(lián)機(jī)學(xué)習(xí)使用者的聲音”的過(guò)程中,事實(shí)上機(jī)器還可以自動(dòng)學(xué)習(xí)使用者的環(huán)境噪音的特性,并適應(yīng)之。因此學(xué)習(xí)一段時(shí)間以后,機(jī)器就可以在環(huán)境噪音下工作得很好。
上述三項(xiàng)學(xué)習(xí)功能使用的技術(shù)事實(shí)上是相同的。首先先用很多位不同的語(yǔ)者所發(fā)的聲音,來(lái)訓(xùn)練漢語(yǔ)每一個(gè)單音的“段落統(tǒng)計(jì)模型”。因?yàn)楹芏辔徊煌恼Z(yǔ)者聲音一定不同,即使是發(fā)同一個(gè)單音節(jié),也會(huì)有相當(dāng)大的不同,故這樣多語(yǔ)者的“段落統(tǒng)計(jì)模型”中,常常需要相相當(dāng)多數(shù)目的高斯機(jī)率混合,才可以涵蓋不同的語(yǔ)者發(fā)這一個(gè)單音的各種不同的聲音特性。當(dāng)新使用者念這一個(gè)單音節(jié)的時(shí)候,就用一套演算法去在許多語(yǔ)者的“段落統(tǒng)計(jì)模型”的許多高斯機(jī)率混合中找出最接近新使用者聲音的那幾個(gè)高斯機(jī)率混合,而把其他的高斯機(jī)率混合拋棄,這時(shí)的“段落統(tǒng)計(jì)模型”的許多高斯機(jī)率混合中找出最接近新使用者聲音的那幾個(gè)高斯機(jī)率混合,而把其他的高斯機(jī)率混合拋棄,這時(shí)的“段落統(tǒng)計(jì)模型”就會(huì)變成新使用者的“段落統(tǒng)計(jì)模型”了。以后新使用者的聲音繼續(xù)進(jìn)來(lái),可以再把新的聲音加進(jìn)去一起平均算出新的高斯機(jī)率混合,于是新使用者聲音的成份越來(lái)越多,這個(gè)“段落統(tǒng)計(jì)模型”就越來(lái)越能精確地描述新使用者的聲音,正確率也就越來(lái)越高。當(dāng)使用者的環(huán)境有噪音時(shí),噪音夾著新使用者的聲音一起進(jìn)來(lái),也會(huì)一起把噪音的特性平均進(jìn)去,因此所算出的高斯機(jī)率混合就自動(dòng)帶著噪音特性作為背景了。因此所訓(xùn)練出來(lái)的“段落統(tǒng)計(jì)模型”就自動(dòng)能適應(yīng)該種特性的噪音了。值得一提的是“段落統(tǒng)計(jì)模型”本身的數(shù)學(xué)結(jié)構(gòu)很簡(jiǎn)單,演算十分方便快速,因此才可以作“聯(lián)機(jī)”學(xué)習(xí);也就是使用者一面使用,一面聲音就被平均進(jìn)去,下一次念的時(shí)候就是用新的模型來(lái)辨識(shí),因此“聯(lián)機(jī)”的效果可以很快而顯著。
第四種學(xué)習(xí)技術(shù)是聯(lián)機(jī)自動(dòng)學(xué)習(xí)使用者的用字、用詞及構(gòu)句習(xí)慣,每一個(gè)使用者基本上都會(huì)有他自己特別的用字、用詞及構(gòu)句習(xí)慣,事實(shí)上很多錯(cuò)誤發(fā)生是因?yàn)闄C(jī)器不能學(xué)習(xí)使用者的這些習(xí)慣。因此當(dāng)使用者一面使用機(jī)器,并將錯(cuò)誤作聯(lián)機(jī)更正后,機(jī)器立刻把使用者用過(guò)的文句,包括里面的用字、用詞及構(gòu)句學(xué)習(xí)進(jìn)去,也就是把諸如詞頻、兩兩相連的機(jī)率等語(yǔ)言模型的重要參數(shù)重新計(jì)算一次并調(diào)整之,于是機(jī)器就學(xué)到了使用者的用字、用詞及構(gòu)句習(xí)慣。
第五種學(xué)習(xí)技術(shù)是短期記憶保留。在輸入一段文字時(shí),當(dāng)這段文字在討論某一事物,若干特別的用詞、構(gòu)句常會(huì)重覆出現(xiàn),此時(shí)經(jīng)聯(lián)機(jī)更正后,機(jī)器可以把這些特別的信息包括詞頻、兩兩相連的機(jī)率等保留在短期記憶中優(yōu)先參考使用,因此越用到后來(lái)正確率會(huì)越高。當(dāng)改輸入其他主題的文字時(shí),這些短期記憶中的信息可以全部消除。
以上第四、五兩種學(xué)習(xí)技術(shù)詳細(xì)情形請(qǐng)見圖6。當(dāng)“聲音處理器”送過(guò)來(lái)一串辨識(shí)出來(lái)的音節(jié)時(shí),先藉助詞典查出所有可能的詞,再用“詞類雙連中文語(yǔ)言模型”及“詞頻”找出最可能的句子輸出。使用者可以作聯(lián)機(jī)更正,機(jī)器就會(huì)立刻學(xué)習(xí),也就是算出新的詞頻及馬可夫模型的詞兩兩相連的機(jī)率等,也包括可以建立一個(gè)臨時(shí)新詞典存放一些新詞并包括這些新詞的詞頻。這個(gè)新詞典及新詞頻在輸入這篇文章結(jié)束以后,使用者可以決定并入整個(gè)詞典及詞頻信息中,也可以將之取消。此外,也常有一些用詞或構(gòu)句是這一篇文章在討論某一事物時(shí)特別會(huì)重覆出現(xiàn)。若僅學(xué)習(xí)進(jìn)入整體詞典及整體語(yǔ)言模型中,學(xué)習(xí)效果并不明顯,因?yàn)檫@些用詞或構(gòu)句也不過(guò)多出現(xiàn)幾次,對(duì)整體的詞頻及兩兩相連的機(jī)率影響不大。因此在本發(fā)明中另外建立一個(gè)短期記憶,如圖6下方,里面存有為這篇文章所特別計(jì)算的詞頻及兩兩相連的機(jī)率等;機(jī)器在尋找句子時(shí),優(yōu)先在短期記憶中找尋答案,找不到時(shí)才訴諸整體模型及整體詞典詞頻。這樣這篇文章特有的用詞、構(gòu)句就會(huì)被學(xué)會(huì),因此越輸入到后面,正確率會(huì)越高。但等到下次輸入主題不同的另一篇文章時(shí),此一短期記憶可以全部清洗掉,故不致干擾后面的輸入工作。
本發(fā)明中尚有幾項(xiàng)技術(shù)需補(bǔ)充說(shuō)明。第一項(xiàng)是用計(jì)算機(jī)程序來(lái)自動(dòng)選取“學(xué)習(xí)例句”的技術(shù)。如前所述,本發(fā)明有一套特別設(shè)計(jì)的“學(xué)習(xí)例句”,新的使用者因此只需念最少的句子就可以訓(xùn)練機(jī)器聽他的聲音。這些特別的“學(xué)習(xí)例句”事實(shí)上是由電腦在一大堆文章檔案中搜尋出來(lái)的。圖7是這樣一個(gè)電腦自動(dòng)選句的演算法的流程圖。其基本原理是把所有想要的基本單位音(聲母、韻母、聲韻母相連、單音節(jié)、基本單音節(jié)等),都可以給定分?jǐn)?shù);而文章檔案中的每一句子也可根據(jù)句中所包含的基本單位音的分?jǐn)?shù)算出句子的分?jǐn)?shù);當(dāng)然同一句中若含越多不同的基本單位者,就分?jǐn)?shù)越高,因此就越優(yōu)先被挑出來(lái);可是一個(gè)句子一旦被挑出,它所有包含的基本單位音的分?jǐn)?shù)就自動(dòng)歸零,也就是下次不再優(yōu)先選出包含這些已出現(xiàn)過(guò)的基本單位音的句子了。此外,為了讓平常出現(xiàn)越多(也就是越常用)的基本單位音在“訓(xùn)練例句”中也出現(xiàn)越多次,以便訓(xùn)練得更精確,因此利用一個(gè)參數(shù)來(lái)描述各個(gè)基本單位音出現(xiàn)的頻率分布和它們?cè)谡S谜Z(yǔ)中真正的頻率分布接近的程度,故可用這個(gè)參數(shù)來(lái)選句,以致于只用很少的句子就可以使得越常用的音出現(xiàn)越多,也就是頻率分布越接近真實(shí)情形。
另一項(xiàng)技術(shù)是“段落統(tǒng)計(jì)模型”的“段落共用法”。正如前所述,當(dāng)新使用者念了一個(gè)“ ”的單音節(jié)時(shí),這個(gè)音分成N段,事實(shí)上前面幾段描述聲母“ ”,后面幾段描述韻母“ ”;因此前面幾段可以同時(shí)用來(lái)訓(xùn)練 等單音節(jié)的聲母,而后面幾段可以同時(shí)用來(lái)訓(xùn)練 等單音節(jié)的韻母,這才使得可以用最少的聲音(24句,188個(gè)字)就可以訓(xùn)練機(jī)器聽新使用者的全部聲音。此外,這里所說(shuō)的聲母必須根據(jù)其后面所接的韻母來(lái)分類,例如這里的 的聲母是同一個(gè),因?yàn)?音開頭,故它們的聲母其實(shí)都是“接 ”;但 等單音節(jié)的聲母是另一個(gè) 不相同,等等。這就是“段落統(tǒng)計(jì)模型”的“段落共用法”。
另一項(xiàng)技術(shù)是“動(dòng)態(tài)詞典結(jié)構(gòu)”。由于詞典中詞的數(shù)目極為龐大,每次搜尋耗費(fèi)時(shí)間甚多;其中尤其單字詞、雙字詞特別多。因此本發(fā)明設(shè)計(jì)出“動(dòng)態(tài)詞典結(jié)構(gòu)”,也就是把最常用的雙字詞、單字詞找出來(lái),加上其他的三字以上的長(zhǎng)詞,構(gòu)成一個(gè)“常用詞典”,其他的詞則于在另一個(gè)“罕用詞典”中。機(jī)器操作時(shí)原則上只在“常用詞典”中找詞,找不到詞無(wú)法構(gòu)成理想句子時(shí)才去“罕用詞典”找。在“罕用詞典”中找出來(lái)而正確的詞學(xué)習(xí)后就放入“常用詞典”中,而“常用詞典”中的詞若久不使用,也可移入“罕用詞典”。如此在詞典中找詞所費(fèi)的時(shí)間,可以縮減到約1/10。
圖8為本發(fā)明的一個(gè)較佳具體實(shí)施例。主機(jī)是一臺(tái)個(gè)人電腦,而整個(gè)漢語(yǔ)聽寫機(jī)的技術(shù)則可完全以軟件完成,寫入一片Ariel DSP 96003D數(shù)字信號(hào)處理電路板上,包括所有基本單音節(jié)、聲調(diào)的“段落統(tǒng)計(jì)模型”、“詞類雙連中文語(yǔ)言模型”以及上述的諸多智慧型學(xué)習(xí)技術(shù)作業(yè),全部寫在這片電路板上。所有的運(yùn)算只靠電路板上的一片數(shù)字信號(hào)處理芯片Motorolla DSP-9600即可完成。事實(shí)上市面上可以選用的數(shù)字信號(hào)處理芯片及電路板很多,本較佳具體實(shí)施例所用的只是本發(fā)明在臺(tái)大實(shí)際制作時(shí)所用的例子而已。使用者的聲音由麥克風(fēng)輸入電路板,聽寫機(jī)完成聽寫程序后,把中文字顯示在個(gè)人電腦的熒光屏上。
上述的實(shí)施例只是用以說(shuō)明本發(fā)明的原理,并不能用此限制本發(fā)明。任何人依據(jù)本發(fā)明原理所做的修改皆應(yīng)仍隸屬于本發(fā)明的精神。本發(fā)明的范疇?wèi)?yīng)如后列的權(quán)利要求范圍所列。
權(quán)利要求
1.一種漢語(yǔ)語(yǔ)音輸入方法,用以將任意文句的漢語(yǔ)語(yǔ)音直接轉(zhuǎn)換成相對(duì)應(yīng)的中文文字,該方法包括聲音處理過(guò)程以及語(yǔ)言解碼過(guò)程兩大部分,其特征在于,該聲音處理過(guò)程利用“段落統(tǒng)計(jì)模型”計(jì)算輸入漢語(yǔ)語(yǔ)音的每一音節(jié)以及聲調(diào)的機(jī)率,進(jìn)而辨識(shí)之;該語(yǔ)言解碼過(guò)程針對(duì)該聲音處理過(guò)程送來(lái)的一連串音節(jié),以“馬可夫中文語(yǔ)言模型”找出所對(duì)應(yīng)的中文字。
2.根據(jù)權(quán)利要求1的方法,其特征在于,其中該“馬可夫中文語(yǔ)言模型”是以“詞”為基礎(chǔ),但以“字”來(lái)計(jì)算機(jī)率的“馬可夫中文語(yǔ)言模型”。
3.根據(jù)權(quán)利要求1的方法,其特征在于,其中該以“詞”為基礎(chǔ),以“字”來(lái)計(jì)算機(jī)率的“馬可夫中文語(yǔ)言模型”系將輸入的音節(jié)串所對(duì)應(yīng)的同音字一一分割為若干個(gè)詞,但根據(jù)兩兩相連的詞之間相連的詞頭字及詞尾字相連出現(xiàn)的機(jī)率,并比較每一個(gè)詞出現(xiàn)的頻率及前后文關(guān)系判斷該音節(jié)的字。
4.根據(jù)權(quán)利要求1的方法,其特征在于,其中該“段落統(tǒng)計(jì)模型”的訓(xùn)練方式包含下列步驟(1)若某一單音節(jié)α的總長(zhǎng)度為T個(gè)音框,則將該單音節(jié)分為N段,每一段含有T/N個(gè)音框;(2)使用者重覆念該單音節(jié)數(shù)次,長(zhǎng)度雖不盡相同,但同樣等分成N段;(3)將所有上述單音節(jié)的第一段音框的特征向量合在一起,訓(xùn)練成第一段的狀態(tài);(4)將所有上述單音節(jié)的第二段音框的特征向量混合在一起,訓(xùn)練成第二段的狀態(tài),依此類推,訓(xùn)練出N個(gè)狀態(tài);(5)上述每個(gè)狀態(tài)以M個(gè)高斯機(jī)率混合來(lái)描述,以上述音框的特征向量訓(xùn)練各個(gè)高斯機(jī)率的參數(shù);和(6)上述M個(gè)狀態(tài)即構(gòu)成該音節(jié)α的“段落統(tǒng)計(jì)模型”。
5.根據(jù)權(quán)利要求4的方法,其特征在于,其中該“段落統(tǒng)計(jì)模型”訓(xùn)練法尚包含“分段共用”訓(xùn)練法,該方法系將輸入之單音節(jié)分為N段,該N段的前面幾段描述聲母部分,后面幾段描述韻母部分,因此可利用此兩部份分別訓(xùn)練其他有相同聲母或韻母的單音節(jié)的相關(guān)聲母與韻母各段的狀態(tài)。
6.根據(jù)權(quán)利要求4的方法,其特征在于,其中該“段落統(tǒng)計(jì)模型”的辨認(rèn)方法包含下列步驟(1)使所有的408個(gè)基本單音節(jié)都訓(xùn)練成“段落統(tǒng)計(jì)模型”;(2)將輸入的未知音β分成N段;(3)該N段中的每一段的每一個(gè)音框的特征向量分別代入某個(gè)音節(jié)的“段落統(tǒng)計(jì)模型”的該段狀態(tài)的M個(gè)高斯機(jī)率混合中,以計(jì)算機(jī)率;(4)將各段的機(jī)率相乘,即得到該未知音β相對(duì)于上述音節(jié)的“段落統(tǒng)計(jì)模型”的機(jī)率;和(5)依上述方法計(jì)算該未知音β相對(duì)于所有408個(gè)基本單音節(jié)的“段落統(tǒng)計(jì)模型”的機(jī)率,比較后機(jī)率最高的“段落統(tǒng)計(jì)模型”所對(duì)應(yīng)的基本單音節(jié),即是辨識(shí)結(jié)果。
7.根據(jù)權(quán)利要求1的方法,其特征在于,其中該“中文語(yǔ)言模型”尚可用于部份更正聲音處理部分的錯(cuò)誤。
8.一種訓(xùn)練漢語(yǔ)語(yǔ)音辨認(rèn)系統(tǒng)迅速學(xué)習(xí)新使用者的聲音的訓(xùn)練方法,用以訓(xùn)練一漢語(yǔ)語(yǔ)音聽寫機(jī),以辨認(rèn)新使用者輸入的漢語(yǔ)語(yǔ)音,該方法須先以很多位不同的語(yǔ)者所發(fā)語(yǔ)音來(lái)訓(xùn)練每一個(gè)單音節(jié)的涵蓋各種不同語(yǔ)者的可能的聲音特性的“段落統(tǒng)計(jì)模型”;其步驟包括(1)以“段落統(tǒng)計(jì)模型”訓(xùn)練法建立很多不同的語(yǔ)者發(fā)出某一單音節(jié)的“段落統(tǒng)計(jì)模型”,因許多位語(yǔ)者聲音特性各不相同,故常需很多個(gè)高斯機(jī)率混合才能描述每一個(gè)狀態(tài);(2)以某一個(gè)新使用者發(fā)出同一單音節(jié),然后自上述很多位使用者的“段落統(tǒng)計(jì)模型”的許多高斯機(jī)率混合中找出最接近該某一新使用者聲音的那幾個(gè)高斯機(jī)率混合,而把其他的高斯機(jī)率混合拋棄,即建立出此一新使用者的“段落統(tǒng)計(jì)模型”;(3)當(dāng)新使用者繼續(xù)發(fā)出同一單節(jié)時(shí),此一新發(fā)的單音節(jié)的分段特征向量就可以再平均進(jìn)入在步驟(2)所求的新使用者的“段落統(tǒng)計(jì)模型”中,算出新的高斯機(jī)率混合,而得到新的“段落統(tǒng)計(jì)模型”;和(4)重覆步驟(3)的方法,新使用者的聲音在“段落統(tǒng)計(jì)模型”中的成份于是越來(lái)越多,即可得更精密的描述新使用者聲音的“段落統(tǒng)計(jì)模型”。
9.根據(jù)權(quán)利要求8的方法,其特征在于,該方法還包括隨時(shí)于電腦屏幕上聯(lián)機(jī)更正電腦辨別錯(cuò)誤的聲音的步驟,并將此結(jié)果立即送入一存儲(chǔ)器中,并當(dāng)場(chǎng)重復(fù)所述的步驟(3)(4),使得機(jī)器亦即學(xué)到新的聲音,下次再辨認(rèn)就用新的模型,從而正確率達(dá)到不斷提高。
10.一種用以聽寫漢語(yǔ)文句的漢語(yǔ)聽寫機(jī),其特征在于包括一濾波及模/數(shù)轉(zhuǎn)換器,以將語(yǔ)音輸入信號(hào)濾波及轉(zhuǎn)換為數(shù)字信號(hào);一個(gè)人電腦及附加數(shù)字信號(hào)處理電路板,用以接收該轉(zhuǎn)換器送來(lái)的數(shù)字信號(hào)而加以處理;一特征求取器及一基頻檢測(cè)器與該個(gè)人電腦相連接,用以檢測(cè)及計(jì)算由該個(gè)人電腦所收到的數(shù)字信號(hào)的基頻及其他多種特征;一段落統(tǒng)計(jì)模型處理器,配合高斯機(jī)率混合處理器,以計(jì)算每一音節(jié)的端點(diǎn),并辨認(rèn)其基本單音節(jié)及聲調(diào);一以“詞”為基礎(chǔ),但以“字”來(lái)計(jì)算機(jī)率的馬可夫中文語(yǔ)言模型處理器,以計(jì)算輸入語(yǔ)音音節(jié)的各個(gè)同音字、詞的機(jī)率,并將辨認(rèn)結(jié)果送回該個(gè)人電腦;一訓(xùn)練裝置用以訓(xùn)練出所有基本單音節(jié)及聲調(diào)的“段落統(tǒng)計(jì)模型”的機(jī)率數(shù)值以及“馬可夫中文語(yǔ)言模型”的機(jī)率數(shù)值,然后將此數(shù)值送入該個(gè)人電腦。
11.根據(jù)權(quán)利要求10的漢語(yǔ)聽寫機(jī),其特征在于,其中語(yǔ)音輸入系以斷開的單音節(jié)為單位。
12.根據(jù)權(quán)利要求10的漢語(yǔ)聽寫機(jī),其特征在于包括一熒光屏,用以顯示輸入的注音符號(hào)及中文文字以及方便的改正錯(cuò)誤的軟件,以便使用者可以直接用鼠標(biāo)器在熒光屏上改正錯(cuò)誤,完全不需用到鍵盤。
13.根據(jù)權(quán)利要求10的漢語(yǔ)聽寫機(jī),其特征在于包括一動(dòng)態(tài)存儲(chǔ)裝置,用以暫存使用者之語(yǔ)詞和習(xí)慣用語(yǔ)或所輸入的某一段文字中反覆出現(xiàn)的特別語(yǔ)詞,并根據(jù)該語(yǔ)詞的出現(xiàn)頻率,存儲(chǔ)于不同的存儲(chǔ)器中,這些語(yǔ)詞及其信息可以并入聽寫機(jī)的整體中文語(yǔ)言模型中,也可以在事后清洗掉。
14.根據(jù)權(quán)利要求13的漢語(yǔ)寫機(jī),其特征在于,其中該動(dòng)態(tài)存儲(chǔ)裝置還包括一常用詞存儲(chǔ)器和一罕用詞存儲(chǔ)器,該聽寫機(jī)操作時(shí)原則上只在該常用詞存儲(chǔ)器內(nèi)找詞,找不到時(shí)才到該罕用詞存儲(chǔ)器內(nèi)尋找,并將找到之罕用詞存入該常用詞存儲(chǔ)器內(nèi);該常用詞存儲(chǔ)器內(nèi)存儲(chǔ)之常用詞若久不使用,即移入該罕用詞存儲(chǔ)器中。
15.一種訓(xùn)練漢語(yǔ)聽寫機(jī)學(xué)習(xí)新使用者聲音的方法,其特征在于包括數(shù)段學(xué)習(xí)步驟,每一段步驟須由新使用者各念一段經(jīng)特別設(shè)計(jì)的例句,該組例句不但以最少的字句包含所有漢語(yǔ)語(yǔ)音的基本單位音(例如聲母、韻母、單音節(jié)等),并使常出現(xiàn)的單位音多出現(xiàn)幾次故多念幾次,可以把“段落統(tǒng)計(jì)模型”訓(xùn)練得更精確,通過(guò)反覆練習(xí)該組例句,而使該漢語(yǔ)聽寫機(jī)習(xí)慣新使用者的各種發(fā)音方式,并將該發(fā)音方式記錄起來(lái)。
16.根據(jù)權(quán)利要求15的方法,其特征在于還包括一聯(lián)機(jī)學(xué)習(xí)步驟,該步驟可在做學(xué)習(xí)訓(xùn)練時(shí)或正式使用漢語(yǔ)聽寫機(jī)期間進(jìn)行,使用者隨時(shí)更正該漢語(yǔ)聽寫機(jī)所顯示辨認(rèn)錯(cuò)誤的聲音或文字,使該聽寫機(jī)隨時(shí)學(xué)習(xí)正確的語(yǔ)音及語(yǔ)詞,并將更正的語(yǔ)音對(duì)應(yīng)文字內(nèi)容存儲(chǔ)起來(lái)。
17.根據(jù)權(quán)利要求15的方法,其特征在于還包括一自動(dòng)學(xué)習(xí)環(huán)境噪音的步驟,此步驟系與權(quán)利要求8的(3)、(4)兩步驟所描述的學(xué)習(xí)新使用者的聲音的步驟同時(shí)進(jìn)行,讓新使用者的環(huán)境噪音也自動(dòng)被平均進(jìn)去成為“段落統(tǒng)計(jì)模型”的成份,以使該漢語(yǔ)聽寫機(jī)熟悉學(xué)習(xí)環(huán)境的噪音。
18.根據(jù)權(quán)利要求15的方法,其特征在于,漢語(yǔ)聽寫機(jī)學(xué)習(xí)新使用者聲音的例句,系由電腦由語(yǔ)料庫(kù)中選出,系先將所有的漢語(yǔ)基本單位音給予不同的分?jǐn)?shù),同一句子中所包含的不同基本單位音愈多,則其分?jǐn)?shù)愈高,愈會(huì)優(yōu)先選出,并利用一參數(shù)描述各個(gè)基本單位音出現(xiàn)的頻率分布,從而使用此參數(shù)作為選句的基礎(chǔ)。
全文摘要
一種漢語(yǔ)語(yǔ)音輸入系統(tǒng)及其方法,用以將任意文句的漢語(yǔ)語(yǔ)音直接轉(zhuǎn)換成相應(yīng)的中文文字,該系統(tǒng)及其方法包括聲音處理過(guò)程及語(yǔ)言解碼過(guò)程兩大部分。其特征在于聲音處理過(guò)程利用“段落統(tǒng)計(jì)模型”計(jì)算輸入漢語(yǔ)語(yǔ)音的各單音節(jié)及聲調(diào)的機(jī)率,進(jìn)而辨識(shí)之;語(yǔ)言解碼過(guò)程針對(duì)聲音處理過(guò)程送來(lái)的一連串音節(jié)利用“詞類雙連中文語(yǔ)言模型”找出對(duì)應(yīng)的中文字。一種包含“智慧型學(xué)習(xí)技術(shù)”的漢語(yǔ)聽寫機(jī),用本方法將語(yǔ)音輸入轉(zhuǎn)換成文字顯示。
文檔編號(hào)G06F3/023GK1107981SQ94102358
公開日1995年9月6日 申請(qǐng)日期1994年3月3日 優(yōu)先權(quán)日1994年3月3日
發(fā)明者李琳山 申請(qǐng)人:李琳山