專利名稱:一種便攜式數(shù)字移動通訊設備及其語音控制方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種數(shù)字通信設備及其控制方法和系統(tǒng),尤其是涉及一種可通過語音控制的便攜式數(shù)字移動設備及其語音控制方法和系統(tǒng)。
背景技術:
語音識別與合成技術在近十年來,特別是在實用系統(tǒng)方面的進展十分迅速。經(jīng)過幾十華的研究積累和實踐經(jīng)驗,語音識別系統(tǒng)的主流算法在建模、訓練、搜索、自適應等領域已趨近統(tǒng)一,大多采用基于統(tǒng)計的連續(xù)概率密度隱馬爾可夫模型和Viterbi搜索算法;而語音合成系統(tǒng)為了得到較高的自然度,大多采用波形拼接加上大規(guī)模音庫的方法,通過找到最大長度的匹配音段來提高自然度。這些方法的采用對當前桌面?zhèn)€人計算機的CPU處理能力、內(nèi)存和其他資源的配置來講當然是不成問題的。但是,對于當前的主流便攜式數(shù)字通信設備,比如手機和PDA來說,要完成同樣的任務幾乎是不可能的。目前,一些語音應用也可依賴于后端服務器的支持存在,也有一種基于分布式語音識別<DistributeSpeech Recognition>模式的應用系統(tǒng),但直接運行在手持設備上的語音控制技術目前尚沒有完整的技術方案。
語音識別與合成的應用對于手持設備來說,目前公知技術還存在瓶頸,主要表現(xiàn)在對CPU處理能力的要求和內(nèi)存空間的大小上,還無法支持完整的語音操作系統(tǒng)的安裝和運行。既使具有足夠的資源,一般出于成本的考慮,在滿足應用程序需求的前提下手持設備的廠商也都希望用最少的資源來獲得最好的性能。
在現(xiàn)有的語音識別系統(tǒng)中,聲學模型通常采用連續(xù)密度分布的隱含馬爾可夫模型(CDHMM)來描述,但CDHMM的聲學模型需占用大量的存儲空間,現(xiàn)有的非特定人漢語單音節(jié)語音識別系統(tǒng)中的聲學模型占據(jù)了4M字節(jié)的空間,既使是最新的嵌入式語音合成系統(tǒng),其音庫也需要大約1.2M到2M字節(jié)的空間,此外,在CDHMM中,在某一狀態(tài)下特征矢量的概率分布函數(shù)是有多個高斯分布函數(shù)的加權和來描述,但在大詞表語音識別系統(tǒng)中如果采用CDHMM,那么在解碼過程中需要多次計算高斯概率,計算量很大,會導致語音識別系統(tǒng)反應速度很慢,現(xiàn)有的僅能識別命令式詞條的嵌入式識別系統(tǒng)就需要在約100MIPS以上的CPU上運行。這在資源有限的嵌入式硬件平臺上幾乎不可實現(xiàn),無法滿足實際使用的需要。
通常,在當今手機(包含SIM卡,下文均同)或其它手持設備(如PDA等)上的語音操作系統(tǒng)采用的都是基于特定人命令控制的語音識別技術,并且所能識別的詞條或命令的數(shù)目非常有限,也就是說,用戶需要在使用前訓練一遍或幾遍所有要識別的詞條或命令才能使用,并且不能任意改變命令的說法,如果想要改變就必須重新訓練。而對于非特定人且不限定發(fā)音內(nèi)容的語音識別技術在手機或其它手持設備上的使用尚無先例,同時,現(xiàn)有手機中沒有漢語全音節(jié)的聲學模型,無法實現(xiàn)漢字的語音輸入功能。
在中國專利申請文件CN1346566A中,美國高通公司提出了一種在手機上實現(xiàn)語音識別的方案,這種方案從根本上仍未擺脫前面所說的局限性,即,它仍然使用的是特定人的命令詞條式的語音識別技術,使用前需要用戶訓練所有今后可能用到的命令。而且,對于數(shù)字的輸入只能一個一個的讀,不能連續(xù)讀出。同時,它實現(xiàn)的功能非常簡單,只能控制與撥號有關的操作,也只能給出非常有限的幾種提示語音。
當今主流的語音合成技術,大多采用波形拼接的算法并配合預先建立好的大規(guī)模音庫,通過分析,找到音庫中最大長度的匹配音段,再結合一些韻律調(diào)整的算法來提高合成系統(tǒng)的自然度。最終系統(tǒng)的自然度很大程度上取決于音庫的大小和覆蓋程度,因此合成系統(tǒng)往往需要很大的音庫。目前已經(jīng)開發(fā)的嵌入式語音合成系統(tǒng)的音庫最少也需要1M以上的空間,對于當前主流的手持設備來說仍然是非常大的開銷。
因而,語音合成技術在手機或其它手持設備上的應用目前也未見先例。由于受手機內(nèi)系統(tǒng)資源的限制,現(xiàn)有的手機雖然有的具有有限的操作提示功能,但它是通過把語音直接錄制到手機中,在相應的操作點上再播放出來。并不具有真正的語音合成功能,例如,不能以語音方式讀出接收的短信的內(nèi)容,不能讀出電話號碼薄里的姓名,以及備忘錄里的內(nèi)容等等,這使得現(xiàn)有手機在語音輸出上功能非常有限。
此外,現(xiàn)有手持設備上的文字輸入方法非常有限,通常是通過鍵盤<或虛擬鍵盤>采用某種輸入法完成,或是需要輔助設備比如筆,通過手寫識別軟件完成。后者顯然增加了產(chǎn)品本身的成本,因為當前采用手寫體識別技術的手持設備都需要另外配備用于輸入的手寫筆和特殊屏幕才能完成輸入功能;而通過鍵盤則會帶來諸多不便,特別是和用語音輸入的方法相比,利用鍵盤輸入漢字是一個很繁瑣和緩慢的過程,當一個人在手機上輸入漢字“張”時,如果用拼音“zhang”,在無任何失誤的情況下仍需擊鍵盤10次左右。那么,隨著手機變得越來越小及功能越來越多,可以想象手機上的文字輸入及功能設置會變得多么困難和復雜。本發(fā)明所涉及的語音漢字輸入方法同現(xiàn)有的手持設備上最常用的拼音輸入法和筆劃輸入法相比具有明顯的優(yōu)勢,即它的按鍵次數(shù)非常的少,平均每個漢字約1.6次,而用其他輸入法每個漢字最少也需要則3次,平均起來每個漢字至少也要5、6次。
由上可知,現(xiàn)有手機在語音識別、合成、語音漢字輸入等方面功能非常有限,并不具有真正意義上的用戶與手機間的語音交互功能。
在本申請人的申請?zhí)枮?2148683.2,名稱為“語音識別系統(tǒng)及用于語音識別系統(tǒng)的特征矢量集的壓縮方法”的中國專利申請中公開了一種語音識別系統(tǒng),由模數(shù)變換單元、特征提取單元、特征碼本、量化編碼單元、解碼運算單元、概率表、語言模型組成。在語音識別過程中,由模數(shù)變換單元將輸入的語音模擬信號變換為數(shù)字信號,在特征提取單元對該數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù),得到輸入語音的特征矢量序列,然后利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列;最后進行解碼運算,從詞典樹中找到與該特征碼字序列具有最大匹配概率的識別結果。,運算中對該特征碼字序列中的各個碼字,只需從概率表中直接查找與高斯碼本中高斯碼字的匹配概率。
其中,特征碼本和高斯碼本較佳采用了該申請中公開的改進的K-means聚類算法對特征矢量集和聲學模型進行壓縮,該聚類方法可以從M維子空間得到表述該空間的碼本。假設該空間共有N個矢量,要將這N個矢量聚類到K比特碼本,K值要以預先設定,最終得到的碼本包含2K個碼字,每個碼字由M維的中心矢量構成。其步驟包括步驟100,令k=0,將M維的子空間所有矢量劃分為一個子集合,計算該子集合的中心矢量,得以初始化碼本;步驟110,如果k=K,聚類結束,否則執(zhí)行下一步;步驟120,令k=k+1,將所有子集合一分為二,拆分的方法是先對每一子集合中的所有矢量,計算出其相對于該子集合中心矢量的平均方差值,將子集合中心矢量分別加減平均方差值的一半,生成兩個新的中心矢量,將所有中心矢量合在一起生成k-bits碼本;步驟130,找到與該子空間各矢量距離度量最小的中心矢量,將各適量分配到該中心矢量對應的子集合中;步驟140,計算出該子空間所有矢量的總距離度量變化率,先給定一個總距離度量的初始化值;步驟150,將該變化率與一預設的總距離度量變化率門限值作比較,如果不超過門限值,將新算出的總距離度量代替原來的總距離度量,并回到步驟110,如果超過門限值,執(zhí)行下一步;步驟160,基于每一個子集合中的矢量個數(shù)和每一個子集合的總距離度量,如果矢量個數(shù)小于一預先定義的矢量個數(shù)門限值,將該子集合合并,在碼本中刪除其中心矢量,如果有一個子集合被合并,那么需要選擇一個子集合做分裂,根據(jù)子集合中所有矢量與中心矢量的總距離度量除以該子集合包含的矢量數(shù),得到每一個子集合的平均距離度量,再將平均距離度量最大的子集合進行分裂,按與步驟120相同的方法計算出分裂出的新集合的中心矢量,與原有的中心矢量一起構成新的碼本,將新算出的總距離度量代替原來的總距離度量,再回到步驟130。上述方法在原有的K-means方法中增加了根據(jù)子集合中矢量數(shù)和矢量的總距離度量來動態(tài)合并和分裂子集合的步驟,減小了聚類后集合中矢量與其對應的碼字的距離度量總和,提高了聚類的精度,將該方法壓縮后的碼本應用語音識別中,可在保證語音系統(tǒng)識別性能的同時,大大降低系統(tǒng)的存儲量。
其中,量化編碼將輸入語音的特征矢量序列轉(zhuǎn)換為特征碼字序列的步驟為將所述特征矢量序列劃分為與所述特征碼本相同數(shù)量的子空間,每一個子空間對應于一個碼本;計算各子空間中所有特征矢量與相應碼本中的各碼字之間的距離度量,將與該特征矢量具有最小距離度量的碼字作為所述特征碼字序列中對應該特征矢量的碼字;將所述特征矢量序列各個子空間所有矢量所對應的碼字按原矢量順序組合起來,即得到對應的特征碼本的碼字序列。
其中,所述概率表是通過以下步驟生成的計算高斯碼本中各碼字對應的均值矢量和方差矢量;利用上述均值矢量和方差矢量,計算所述特征碼本中各個碼字與高斯碼本中的所有碼字相匹配的對數(shù)概率值;將特征碼本中的所有碼字與高斯碼本中的所有碼字相匹配的概率值儲存起來即可得到概率表。
這種語音識別系統(tǒng),可以用412K大小的特征碼本和概率表代替了現(xiàn)有系統(tǒng)中的4M的聲學模型,從而大大地降低了對設備存儲空間的要求。同時,由于在解碼運算中不需要計算高斯概率,大大減少了解碼運算量,可提高識別速度50%以上。
在本申請人的申請?zhí)?2146655.6,名稱為“一種嵌入式語音合成方法及系統(tǒng)”的中國專利申請中公開了一種新的語音合成系統(tǒng)和方法,該語音合成系統(tǒng)包括依次相連的輸入模塊、文本分析模塊及多音字處理模塊、碼字序列生成模塊、語音解碼模塊、波形拼接合成模塊、數(shù)字語音信號輸出模塊,以及與文本分析及多音字處理模塊連接的多音字詞表模塊,與碼字序列生成模塊連接的一個壓縮語音庫。壓縮語音庫中存放有按一定規(guī)則包裝的經(jīng)過編碼壓縮后的語音數(shù)據(jù)(碼字),是由存儲有所有漢語音節(jié)以及一些特殊的文字、數(shù)字及符號的原始語音庫經(jīng)過一定的壓縮算法(如碼激勵線性預測算法)得到壓縮碼字,再加上索引標記組合成一個文件形式而構成的。
其語音合成方法是輸入模塊產(chǎn)生要進行語音輸出的文本信息;文本分析及多音字處理模塊接收文本形式的輸入,通過分析輸入文本的格式和內(nèi)容將輸入漢字轉(zhuǎn)換成相應的拼音符號;碼字序列生成模塊根據(jù)這些拼音符號序列,通過檢索壓縮語音庫模塊,得到對應的壓縮語音的碼字序列;語音解碼模塊接收上述壓縮過的碼字序列,通過與編碼壓縮方法相應的解壓縮算法還原出未經(jīng)壓縮的原始語音的數(shù)字信號,并輸出到波形拼接合成模塊拼接,最后通過數(shù)字語音信號輸出模塊將得到的數(shù)字信號轉(zhuǎn)換為最終給用戶聽的聲音信號。其中,文本分析及多音字處理模塊會根據(jù)多音字詞表模塊所提供的信息查找所要分析的輸入文本中有無多音字,并根據(jù)文本分析的結果為輸入文本中具有多音字的漢字確定一個正確發(fā)音。
該語音合成系統(tǒng)采用高壓縮率和低失真的語音編解碼算法,大大降低了音庫所需的存儲空間,其占用的總資源(包括音庫和系統(tǒng)動態(tài)內(nèi)存)不到500K字節(jié),由于采用的是字運算,計算復雜度小于5MIPS,因而能夠運行在當前主流的手機之中。
由上可知,現(xiàn)有手機并不具有真正意義上的用戶與手機間的語音交互功能。而本申請人的上述專利申請中公開的語音識別和合成技術,使得在保證識別性能的同時,在資源有限的便攜式數(shù)字移動通訊設備中進行非特定人及漢字全音節(jié)的語音識別和合成變得可能。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是提供一種具有語音操作系統(tǒng)的便攜式數(shù)字通信設備,可以實現(xiàn)對非特定人的語音識別,及用語音命令實現(xiàn)控制操作。
本發(fā)明所要解決的又一技術問題是提供一種具有語音操作系統(tǒng)的便攜式數(shù)字通信設備,可以實現(xiàn)漢字全音節(jié)的語音輸入。
本發(fā)明所要解決的再一技術問題是提供一種具有語音操作系統(tǒng)的便攜式數(shù)字通信設備,可以實現(xiàn)對設備中任意結合的文本信息的語音提示。
為了實現(xiàn)上述目的,本發(fā)提供了一種具有語音操作系統(tǒng)的便攜式數(shù)字移動通訊設備,在所述操作系統(tǒng)中還包括一嵌入式語音識別裝置,所述裝置進一步包括一語音輸入模塊,用于將輸入的東方語言的語音模擬信號變換為數(shù)字信號;一特征提取/壓縮模塊,用于對該數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù)得到特征適量序列,利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列;一語音識別模塊,用于接收上述特征碼字序列,進行解碼運算找到最匹配的語音模型,再輸出該模型對應的識別結果;
一意圖分析模塊,用于對輸入信息的意圖進行分析,將其表示為程序內(nèi)部的一種語義符號,并輸出至對話管理/控制模塊;一對話管理/控制模塊,用于接收所述意圖分析模塊輸出的語義符號,結合所述設備當前狀態(tài),判斷出所述設備應采取的控制動作,并予以執(zhí)行。
上述設備中,其特點是還包括一音字轉(zhuǎn)換和輸入選擇模塊,用于將拼音形式的識別結果轉(zhuǎn)換成備選漢字,通過所述設備顯示,根據(jù)用戶輸入選擇所需的漢字。
上述設備中,其特點是還包括一語言生成模塊,用于接收所述對話管理/控制模塊輸出的信息,自動調(diào)用提示詞表中要提示給用戶的文字信息,輸出到語音合成模塊;一語音合成模塊,用于根據(jù)接收所述文字信息,通過處理得到該文字所對應語音信號的數(shù)字表示并輸出;一語音輸出模塊,用于接收所述語音合成模塊輸出的語音信號的數(shù)字表示,并通過所述設備上的語音輸出裝置將聲音傳到用戶。
上述設備中,其特點是所述嵌入式語音識別與合成裝置是在30MIPS以內(nèi)和1M內(nèi)存空間中實現(xiàn)的。
上述設備中,其特點是所述語音識別模塊,進一步包括一概率表,用于存儲特征碼本中每一個特征碼字對應于高斯碼本中每個碼字的概率值;一識別單元,用于將所述碼字序列通過解碼運算找到與其最為匹配的語音模型,最終輸出與所述輸入語音最相似的識別結果,運算中對有效語音特征碼字矢量序列的各個碼字,直接從概率表中查到其在搜索路徑上的觀察概率;以及若干詞典樹。
上述設備中,其特點是所述特征碼本和高斯碼本采用的壓縮算法是在K-means聚類算法中增加了對包含矢量數(shù)小于某預設值的子集合的中心矢量刪除,再將平均距離度量最大的子集合分裂成兩個新的子集合的步驟。
上述設備中,其特點是所述解碼運算部件進一步包括一碼字序列過濾部件,用于去掉輸入碼序列中對解碼運算冗余的碼字,從而加速解碼運算的速度;一搜索路徑自適應剪校部件,用于根據(jù)局部搜索路徑的最大似然概率,動態(tài)調(diào)整剪枝閥值,以便有效去掉對解碼運算無用的搜索路徑,從而加速解碼速度。
上述設備中,其特點是所述詞典樹包括主要由東方語言單字所組成的詞典樹,用于用語音實現(xiàn)東方語言的輸入時,在解碼運算中使用;以及主要由命令詞條、存儲信息及/或常用短詞組成的詞典樹,用于非語言輸入時,在解碼運算中使用。
上述設備中,其特點是所述音字轉(zhuǎn)換和輸入選擇模塊在所述設備屏幕上顯示的備選的文字是漢字,所述漢字顯示次序是按照漢字使用頻率的高低排列的;或者所述屏幕上備選的文字是日文假名,所述假名顯示次序是按照其識別結果的匹配概率的高低排列的。
上述設備中,其特點是進一步包括一聲調(diào)識別模塊,用于從來自所述語音輸入模塊的語音數(shù)據(jù)中提取所述語音信號的基頻,根據(jù)整段語音的基頻變化識別出音調(diào),并將所述音調(diào)輸出到所述音字轉(zhuǎn)換和輸入選擇模塊。
上述設備中,其特點是所述語義分析模塊連接一識別詞表,所述語言生成模塊連接一提示詞表,該兩詞表均可通過一詞條定制模塊對其進行個性化的定制。
上述設備中,其特點是所述語音合成模塊采用了文本和多音字處理單元和句音停頓技術來提高合成語音的可懂度和自然性。
為了解決上述問題,本發(fā)明還提供了一種數(shù)字移動通訊設備的語音操作控制方法,包括以下步驟語音輸入步驟,將輸入的東方語言的語音模擬信號變換為數(shù)字信號;語音識別步驟,對所述數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù)得到特征矢量序列,利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列,再進行解碼運算查找最匹配的語音模型,輸出該模型對應的識別結果;語義分析步驟,對識別結果的意圖進行分析,將其表示為程序內(nèi)部的一種語義符號并輸出;以及對話管理/控制步驟,接收所述語義符號,結合設備當前狀態(tài)判斷出所述設備應采取的控制動作,并予以執(zhí)行。
上述方法中,其特點是還進一步包括,音字轉(zhuǎn)換和輸入選擇步驟當對話管理/控制步驟中判斷的結果為文字輸入時,將拼音形式的識別結果轉(zhuǎn)換成備選漢字,通過所述設備顯示,并根據(jù)用戶輸入選擇所需的漢字。
上述方法中,其特點是在對話管理/控制步驟中,系統(tǒng)進一步生成提示用戶的信息文本,并對生成的信息文本合成出要提示用戶的語音信號的數(shù)字表示,通過語音輸出裝置播放給用戶。
上述方法中,其特點是所述語音識別步驟中,在查找與所述特征碼字序列最為匹配的語音模型時,對有效語音特征碼字矢量序列的各個碼字,是直接從概率表中查到其在搜索路徑上的觀察概率。
上述方法中,其特點是所述音字轉(zhuǎn)換和輸入選擇步驟中,在所述屏幕上是按照漢字使用頻率的高低排列的;或者是在所述屏幕上按照識別結果的匹配概率的高低顯示備選日文假名。
上述方法中,其特點是所述語音識別步驟中,還從所述數(shù)字信號中提取所述語音信號的基頻,根據(jù)整段語音的基頻變化識別出音調(diào),并在所述屏幕上顯示備選漢字的步驟中,采用音調(diào)識別結果和漢字使用頻率/常用詞詞頻相結合的排序方法。
上述方法中,其特點是在語音合成時采用了波形拼接和語音壓縮算法,并采用了文本和漢字多音字處理和句音停頓技術。
上述方法中,其特點是通過設備進行文字輸入時,所述語音操作系統(tǒng)采用單音節(jié)識別模式,解碼時啟用單字詞典樹,得到拼音識別結果進行音字轉(zhuǎn)換后顯示在設備屏幕上供用戶選擇;不進行文字輸入時,所述語音操作系統(tǒng)采用詞條識別模式,解碼時啟用詞條詞典樹,結合識別結果的語義和系統(tǒng)當前狀態(tài)控制所述設備完成相應的控制動作。
上述方法中,其特點是在所述語音識別步驟中啟動連續(xù)識別引擎,完成一次識別后如果還有未識別的語音幀,則重新開始一次識別過程。
上述方法中,其特點是所述語音操作和按鍵操作可以并存,并且按鍵操作優(yōu)先。
采用上述方案的通訊設備及其語音操作控制方法,可以在對系統(tǒng)資源的苛刻要求下,采用的非特定人的語音識別技術,并且不限制詞表內(nèi)容和條數(shù),用戶可以隨意增加、刪除、修改以及自己定制命令內(nèi)容,無需訓練即可識別;而且用戶可以通過語音控制設備所有功能菜單,因此用戶界面更友好、更靈活。同時,系統(tǒng)具有語義分析、對話管理和語言生成模塊,可以處理復雜的對話過程并產(chǎn)生靈活的提示信息反饋給用戶。采用上述方案的通訊設備不僅可以具有非特定人語音輸入功能、語音提示功能、漢字全音節(jié)的輸入功能,而且本發(fā)明提供的語音輸入方法是一種最快捷、最經(jīng)濟的輸入方法。
下面結合附圖和具體實施例對本發(fā)明進一步說明,通過結合附圖對系統(tǒng)各組成部件的詳細說明將會更好地描述實現(xiàn)本發(fā)明的步驟和過程。
圖1是本發(fā)明第一實施例手機語音操作系統(tǒng)的功能模塊示意圖;圖2a是本發(fā)明第一實施例手機語音操作系統(tǒng)啟用語音手機過程的流程圖;
圖2b是本發(fā)明第一實施例手機語音操作系統(tǒng)狀態(tài)轉(zhuǎn)移控制過程的流程圖;圖3是本發(fā)明第一實施例手機語音操作系統(tǒng)完成發(fā)出一個新短信過程的操作流程圖;圖4是本發(fā)明第一實施例手機語音操作系統(tǒng)收到一個新短信后的操作流程圖;圖5是本發(fā)明第一實施例手機語音操作系統(tǒng)完成電話簿操作中修改功能的操作流程圖;圖6是本發(fā)明第一實施例手機語音操作系統(tǒng)將手機設為震動模式的操作流程圖;圖7是本發(fā)明第一實施例手機語音操作系統(tǒng)寫備忘錄的操作流程圖;圖8是本發(fā)明第一實施例手機語音操作系統(tǒng)查看備忘錄的操作流程圖。
具體實施例方式
雖然背景技術中提到的語音識別和合成技術為在手機上進行真正意義上的語音交互提供了可能,但是要在手機中實現(xiàn)上述功能,還需要對上述語音識別和合成系統(tǒng)進行適應性的調(diào)整,增加進行語音操作管理的部分,并且將三個部分有機地結合起來。采用適當?shù)姆绞桨惭b在現(xiàn)有的手機中。此外,必須針對于該新系統(tǒng),提供一種語音操作管理的方法,能與現(xiàn)有手機的操作方法有效地結合起來。下面結合實施例和附圖對本發(fā)明作詳細說明。
實施例一本實施例具有語音交互功能的操作系統(tǒng)(以下簡稱為語音操作系統(tǒng))由語音識別部分、語音操作管理部分和語音合成部分組成。針對手機1的硬件資源條件,該嵌入式語音識別與合成模塊一般控制在30MIPS以內(nèi)和1M內(nèi)存空間中。如圖1所示。
本實施例語音操作系統(tǒng)的語音識別部分包括語音輸入模塊10、特征提取/壓縮模塊20和語音識別模塊30。和專利申請02148683.2中的語音識別系統(tǒng)相比,其中的語音輸入模塊10對應于該申請中的模數(shù)變換單元,用于將輸入的語音模擬信號變換為數(shù)字信號;特征提取/壓縮模塊20對應于該申請中的特征提取單元、特征碼本及量化編碼單元,用于對該數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù),利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列;語音識別模塊30對應于該申請中的解碼運算單元、詞典樹及概率表,用于接收上述特征碼字序列,進行解碼運算找到最匹配的語音模型,再輸出該模型對應的識別結果。
其中,為了進一步提高識別精度,本實施例中與概率表對應的特征碼本和高斯碼本采用中國專利申請02148683.2中改進的K-means壓縮方法,分別對語音特征集和通用的聲學模型壓縮得到。而為了進一步提高解碼運算的速度,上述解碼運算單元較佳采用中國專利申請02148682.4中公開的快速解碼方法。該解碼方法包括以下步驟(1)對語音識別系統(tǒng)中的解碼運算單元進行初始化;(2)從輸入解碼運算單元中的長度為T的語音特征碼字序列中依次取出下一個語音幀的特征碼字矢量,置其為當前語音幀;(3)對當前語音幀進行過濾,若當前語音幀被過濾掉,則轉(zhuǎn)到步驟(2)執(zhí)行,否則置當前語音幀為當前有效語音幀;(4)基于當前有效語音幀,對t時刻詞典樹令牌資源的每一層I的令牌中的每一個活動節(jié)點進行判斷,并對判斷屬于可擴展的令牌則擴展該節(jié)點令牌資源表中的令牌,并將新產(chǎn)生的令牌鏈入目標節(jié)點的令牌資源表中,其中I為索引變量;(5)處理處于詞典樹節(jié)點的令牌;(6)根據(jù)t時刻的局部路徑最大概率以及前一有效語音幀對應的時刻的局部路徑最大概率,對與剪枝相關的閾值做自適應調(diào)整;(7)重復上述(2)~(6)步得到輸入語音結束時刻T的具有最佳分值令牌的全局路徑,結束令牌擴展,輸出此刻已生成的與聲學模型和語言模型有最佳匹配的文本串,產(chǎn)生語音識別結果。其中,在步驟(4)中,計算令牌從一個狀態(tài)音素到達另一個狀態(tài)音素的分值時,所采用的后一狀態(tài)音素(對應于一高斯碼字序列)對于當前語音幀(對應于一特征碼字序列)的觀察概率是從申請?zhí)枮?2148683.2的專利申請中所述的概率表中做查表操作得到的。
上述解碼運算方法和傳統(tǒng)的方法相比,進行了以下改進增加了基于局部路徑最大概率的自適應剪枝策略;增加了基于特征碼字矢量的語音幀過濾策略。前者有效地降低了解碼過程中的平均令牌數(shù)M(10%~20%),后者可去除所述語音特征碼字矢量序列中20%~30%的無效語音幀。因而,采用上述解碼算法后,進一步地提高了語音識別的速度。
在本實施例中,上述語音識別部分的詞典樹包含詞條的詞典樹和漢字單字的詞典樹,對應于運行時采用的兩種識別模式詞條識別模式,單音節(jié)識別模式。在單音節(jié)識別模式中,解碼運算時所用的詞典樹中的詞表是由所有漢字單字組成的,用于漢字語音輸入的識別;而在詞條識別模式中,解碼運算時所用的詞典樹中的詞表是由系統(tǒng)預置的詞條、用戶2定制的詞條以及一些存儲的信息(如人名)等組成的,也包括一些單字詞。通過識別模式的劃分,將各自的詞典樹分開,可以提高識別的速度和準確率。
現(xiàn)有手機的語音操作系統(tǒng)也具有有限的對命令式詞條的語音識別功能,比如,用戶2可以通過說“發(fā)短信”而直接調(diào)出發(fā)短信的操作菜單。這種語音識別和本發(fā)明的語音識別系統(tǒng)具有很大的差別,最根本的,由于存儲空間及運算速度的限制,在現(xiàn)有手機的語音識別系統(tǒng)中沒有一個通用的漢字全音節(jié)的聲學模型,用戶2必須對某一詞條進行訓練,由手機在訓練過程中建立對應于該詞條的聲學模型,以后再利用該模型對用戶發(fā)出的語音進行識別。這樣,使得現(xiàn)有手機的語音識別只能在訓練后對特定人發(fā)生作用,對于用戶來說很不方便。而且由于對每一詞條都需要重新建模,占用一定的存儲空間,使得詞條數(shù)受到限制,用戶不能對詞條進行個性化的定制。
而由于本發(fā)明實施例的手機內(nèi)存儲了漢字全音節(jié)的聲學模型,本發(fā)明實施例的識別部分不僅可以對用戶隨意說出的單個漢字進行識別,不必在識別前進行訓練就能對非特定人的語音進行識別,而且使得對命令式詞條的個性化定制十分自由。這將在語音操作管理部分中詳細說明。
本實施例的語音合成部分包括語音合成模塊70和語音輸出模塊80。和專利申請02146655.6相比,其中語音合成模塊70對應于該申請的文本分析及多音字處理模塊,碼字序列生成模塊、語音解碼模塊、波形拼接合成模塊、多音字詞表模塊及壓縮語音庫模塊,用于根據(jù)接收到的文字信息,通過文本及多音字處理得到該文字對應的拼音,通過檢索壓縮語音庫得到該拼音序列所對應的碼字序列,用解壓縮算法從碼字序列還原出該拼音所對應的語音數(shù)字信號,進行波形拼接后得到整句文字信息的語音數(shù)字信號;語音輸出模塊80對應于該申請中的數(shù)字語音信號輸出模塊,用于將語音合成模塊輸出的數(shù)字語音信號轉(zhuǎn)換為聲音信號后傳送給用戶。其中的壓縮語音庫是在離線時,對包括所有漢字音節(jié)的原始語音庫,采用碼激勵線性預測或者其它高壓縮率和低失真的語音壓縮算法/編解碼算法進行壓縮得到的,只要其運算復雜度和存儲要求能夠在手機中運行。為了使一句話聽起來更有節(jié)奏、更自然,在該壓縮語音庫中還包括一些特殊的符號,比如標點,以及自定義的表示語音停頓、疑問等含義的標記所對應的發(fā)音壓縮后的碼字。相應的,在文本分析及多音字處理模塊還進一步包括對輸入文本中數(shù)字和符號的處理。
如背景技術中所述的,現(xiàn)有手機的語音提示功能是通過對語音提示的簡單錄制實現(xiàn)的,并非真正的合成系統(tǒng),其語音輸出的功能十分有限。本發(fā)明的語音合成部分與其具有很大的差別,最根本的,是具有漢字全音節(jié)的壓縮語音庫,因而將隨意組成的詞或句子按其組成漢字的發(fā)音分解為拼音序列后,就能從壓縮語音庫中找到對應的碼字序列,經(jīng)解壓縮還原和拼接后就可得到對應的語音信號。因此,在本發(fā)明中,只要是以文字形式存儲于手機中的信息,就能夠用語音方式讀出,如接收的短信的內(nèi)容,電話號碼薄里的姓名,以及備忘錄里的內(nèi)容等等。
上述的語音識別和合成模塊大大擴展了手機與用戶之間語音交互的可能。但在手機的實際語音操作中,必須結合語音操作管理部分,在原有交互手段的基礎上增加語音交互的功能,才能真正在手機上利用語音識別和合成實現(xiàn)人機之間的語音交互。
在本實施例中,語音操作管理部分包括與識別詞表100相連的意圖分析模塊40、對話管理/控制模塊50、與提示詞表110相連的語言生成模塊60以及音字轉(zhuǎn)換和輸入選擇模塊90。
其中,意圖分析模塊40用于對輸入信息的意圖進行分析,將其表示為程序內(nèi)部的一種語義符號,以確定用戶的意圖,并輸出至對話管理/控制模塊。信息輸入主要有按鍵、語音以及來電來信等方式。在語音輸入時,該模塊是對語音輸入進行語義分析,這時需要用到識別詞表100。在其它輸入方式下,處理方式和手機的現(xiàn)有系統(tǒng)相同。
其中,識別詞表100是一個包含內(nèi)部語義符號和詞條關聯(lián)信息的列表,在列表中每一語義符號均與若干的詞條相關聯(lián),但本文所指的語義符號并非與語音識別得到的詞條相關聯(lián),而應做廣義的理解,按鍵、手寫等各種方式的輸入信息,均可理解為用戶的一種語言。所述詞條可以包括命令詞條(可以自己定制)、電話簿里的聯(lián)系人姓名等存儲信息、一些常短語等等。
如果識別結果是命令詞條,如“震動模式”,通過查表,可找到“震動模式”詞條對應的語義符號并輸出到對話管理/控制模塊,觸發(fā)執(zhí)行切換到“震動模式”的操作;有的識別結果是一種信息式的詞條,并不直接對應于一種操作,譬如在發(fā)短信時,手機提示用戶說出接收方的姓名,用戶說“xxx”后,它并不是一個命令詞條,而只是執(zhí)行某一操作中所需的一種信息,它對應的語義符號主要是由系統(tǒng)當前狀態(tài)決定的,此處是用于觸發(fā)完成將該信息附加到短信上;而在單音節(jié)識別模式下,語音識別結果對應的語義符號也是由系統(tǒng)當前狀態(tài)決定的,識別出的漢字單字,均觸發(fā)將其送到音字轉(zhuǎn)換模塊處理的流程,等等。
本實施例中還包括一個與識別詞表100和提示詞表關聯(lián)的詞條定制模塊(圖中未示出),由定制菜單和定制處理單元組成,用于在兩個詞表中加入定制的詞條。因為不需要重新建模,本發(fā)明允許進行任意多的詞條的定制,從而使得用戶手機更具個人特色。
進行詞條定制操作時,采用專門的定制菜單將相同的控制操作定義成不同的命令表示方式。用戶進入該菜單后可以看到列出的所有預置的標準命令詞條,這些標準命令詞條一一對應于系統(tǒng)定義的某一語義符號,一般由系統(tǒng)預置。對每一標準命令詞條對應的定制詞條可以執(zhí)行編輯、增加、刪除等操作,增加定制詞條時,如在“震動模式”標準詞條下增加一個“開會了”的詞條,只需輸入相應的漢字,然后按確定即可。定制處理單元將根據(jù)該詞條的漢字將其分解為一系列音素,如對應于隱馬爾科夫模型(HMM)的TRIPHONE音素,增加到命令式詞條詞典樹的相應位置,同時在命令式識別詞表100中將該詞條與“震動模式”詞條對應的語義符號加以關聯(lián),這樣,手機即可識別該語音命令,確認其真實語義,并執(zhí)行相應的操作了。
同樣,用戶也可以利用詞條定制模塊對提示信息進行個性化定制,例如,想要將來信的提示改為“快點看xx的信”或“你有信了”等等,或者將某些較長的提示定制成用戶喜歡的短語。其定制菜單的操作和命令式詞條的定制類似,但定制處理單元只需將信息存儲而無需對詞典樹進行處理,只是有時需利用定制處理單元將某一詞條設定默定詞條。
其中,對話管理/控制模塊50用于接收所述意圖分析模塊輸出的語義符號,根據(jù)所述設備所處的狀態(tài)和/或指令信息,判斷出所述設備應采取的控制動作,并予以執(zhí)行。例如調(diào)出用戶所要的菜單或者下一級菜單;用語音提示下一步的操作;直接執(zhí)行用戶的語音命令進行呼叫、發(fā)短信、開關語音功能等等?,F(xiàn)有手機的輸入一般是通過按鍵來完成,根據(jù)按下的鍵位和當前和之前手機所處的狀態(tài)(從程序上講,即運行的當前位置)來確定應采取的控制動作。在本發(fā)明的交互操作中,增加了漢字全音節(jié)的語音輸入和輸出的管理。
在啟用語音輸入后,對話管理/控制模塊50接收意圖分析模塊40輸出的對應于語音輸入的語義符號,結合當前和之前手機所處的狀態(tài),判斷出當前手機應當采取的控制動作,并加以執(zhí)行。以短信編輯完成后進行保存的操作為例,在現(xiàn)有手機上完成短信編輯并輸入號碼后會彈出一個選單,列有“發(fā)送/保存/保存并發(fā)送”等內(nèi)容,用戶按特定鍵選中“保存”菜單后即執(zhí)行保存操作,該操作是由用戶在上述狀態(tài)下選中特定鍵而觸發(fā)的。同理,采用本發(fā)明語音輸入方法時,在手機屏幕上彈出列有“發(fā)送/保存/保存并發(fā)送”選單后,用戶說“保存”,語音識別部分對用戶的語音命令進行識別,得到“保存”詞條,在識別詞表100中可以找到相應的語義符號輸出到對話管理/控制模塊50,對話管理/控制模塊50接收到該語義符號后即可觸發(fā)對短信的保存操作,對信息式詞條和漢字語音輸入的處理上面已經(jīng)提及。
一個語義符號在不同的狀態(tài)下可能對應于不同的操作,如在短信編輯完畢或者錄入新的聯(lián)系人姓名和電話后都可以用“保存”的語音指令,前者會將短信保存在發(fā)件箱中,而后者會將新的聯(lián)系人姓名和電話保存在電話薄中。對這種一個語義符號可能對應于多種操作的情況,對話管理/控制模塊50是結合當前狀態(tài)來判斷要執(zhí)行的操作,如上例中,對話管理/控制模塊50接收到“保存”詞條對應的語義符號后,再結合手機當前狀態(tài),即是在短信的編輯過程中,因而執(zhí)行保存短信的操作。為了更精確,下文中將語音命令實際要執(zhí)行的操作稱為該語音命令的真實語義。
這種語音命令的輸入方式為用戶帶來了一個極大的便利,即可實現(xiàn)底層菜單之間的跳轉(zhuǎn),不必用按鍵從一個底層菜單一級級地返回主菜單,再一級級地進入另一個分支上的底層菜單。這是語音命令的特有的優(yōu)點,因為不同的命令詞條對應于不同的語義符號,系統(tǒng)通過語義符號(有的需結合當前狀態(tài))即可知道用戶的真實語義,從而執(zhí)行相應的操作。譬如,用戶處于震動模式的設置狀態(tài)下時,可以說“查電話”而直接進入電話薄查詢的菜單。大大提高了操作的效率和便利性。
可以將當前手機1所處的狀態(tài)分為兩類,一類是文字輸入狀態(tài),一類是非文字輸入狀態(tài),分別對應于單音節(jié)識別模式和詞條識別模式。在文字輸入狀態(tài)下,對話管理/控制模塊50將語音識別部分得到的語音識別結果輸出給音字轉(zhuǎn)換和輸入選擇模塊90;在非文字輸入狀態(tài)下,語音識別結果用于控制設備相應部件完成用戶的指令或者提供所需信息,并在必要時,將相應指令完成情況和/或當前手機所處狀態(tài)的提示信息輸出到語言生成模塊60中。
其中,音字轉(zhuǎn)換和輸入選擇模塊90用于在手機處于文字輸入狀態(tài)時接收到來自對話管理/控制模塊50輸入的單音節(jié)識別結果一拼音,通過音字轉(zhuǎn)換單元將備選漢字按漢字的使用頻率高低依次輸出到手機1的顯示屏幕上,然后用戶2可以通過手機所指定的不同的按鍵或其他附件選擇所要輸入的正確漢字,輸入選擇單元會將用戶選擇的每個漢字記錄下來并保存,直到本次文字信息全部輸入完畢(如用戶按“確認”鍵)后,再通過手機將全部內(nèi)容發(fā)送到意圖分析模塊40。在需要連續(xù)輸入漢字的情況下,漢字輸入選擇控制邏輯具有根據(jù)常用詞匯統(tǒng)計得到的詞頻顯示出下一個漢字候選輸入列表的“聯(lián)想漢字”的功能,從而使得漢字的輸入更快捷、更準確。另外,為提高該系統(tǒng)的識別率,該系統(tǒng)將同時顯示相近音對應的漢字以解決說話人發(fā)音可能不準的情況。上述通過語音進行漢字輸入的方法中,除了拼音是通過對語音輸入的識別得到的以外,和現(xiàn)有通過鍵盤進行的拼音輸入方法的處理過程是相同的。
其中,語言生成模塊60用于根據(jù)來自對話管理/控制模塊50的信息,自動生成所要提示給用戶的文字信息,輸出到語音合成模塊。這些提示詞條存放在提示詞表110中,當對話管理/控制模塊50判斷出需要的語音提示時,由語言生成模塊60調(diào)出提示詞表110中的提示詞條,并輸出到語音合成模塊,再通過語音輸出模塊80將語音信號播放給用戶。例如,在手機收到短信后,對話管理/控制模塊50根據(jù)系統(tǒng)設定判斷需要進行語音提示,則在提示詞表110中找到相應的提示詞條,如“xxx(來信人的姓名,由系統(tǒng)實時提取該信息)來信了”,輸出到語言生成模塊60,再經(jīng)語音合成70、輸出模塊80發(fā)出提示語音。
由上可知,本實施例的語音操作系統(tǒng)是按照人機對話模式進行設計和工作的,該系統(tǒng)對流程的控制是通過意圖分析模塊40、對話管理/控制模塊50、音字轉(zhuǎn)換和輸入選擇模塊及語言生成模塊60來完成的。意圖分析模塊40根據(jù)語音識別模塊30給出的結果,或者來自于手機的其它輸入信息判斷用戶意圖;對話管理/控制模塊50根據(jù)判斷得到的用戶意圖,結合手機當前狀態(tài)采取相應的動作,必要時通過語言生成模塊60生成要提示給用戶的信息文字表述,由語音合成模塊70完成提示聲音的生成,通過語音輸出模塊播放給用戶;當用戶進行漢字語音輸入時由音字轉(zhuǎn)換和輸入選擇模塊完成漢字的編輯。
在本實施例中所描述的所有方法及使用模式都可以直接利用已有手機的資源,并在已有手機的基礎上以添加/整合的方式為已有設備增添了強大的“語音操作”功能,極大地擴展了原有手機的使用模式和方法。這與其它一些為了體現(xiàn)與之類似的使用模式而需要定義一種新的手機的方法或裝置明顯不同,它所具有的優(yōu)點是非常顯而易見的。
在本實施例中,上述所有模塊都以軟件嵌入的形式存在于手機的操作系統(tǒng)之中,如Palm OS操作系統(tǒng)、Microsoft Windows CE操作系統(tǒng)、EPOC操作系統(tǒng)、Symbian操作系統(tǒng)或Linux操作系統(tǒng),當然也可以作為操作系統(tǒng)的一部分和/或其上的一個應用程序而運行在手機之上。在本發(fā)明的語音合成模塊中,所采用的語音解壓縮算法既可以通過軟件實現(xiàn),也可以通過芯片實現(xiàn)。也就是說可以利用手機上已有的DSP芯片。當然也可以使用新增的芯片,但這樣會增加手機制造成本。
基于本發(fā)明實施例的語音系統(tǒng),本發(fā)明還提供了一種語音手機的操作控制方法,給出了語音識別與合成方法在手機上的應用模式。它是一種通過語音控制在手機上輸入漢字并控制手機的操作使用,以及通過語音輸出使用戶無需看手機的顯示屏幕就能知道手機當前狀態(tài)和信息的方法。
本發(fā)明語音手機操作控制方法的總體流程可以分為啟用語音手機過程和狀態(tài)控制轉(zhuǎn)移過程。下面主要從操作和狀態(tài)控制角度描述,關于語音識別和合成過程中的具體方法前面的系統(tǒng)中已經(jīng)介紹,不再重復。
圖2a是圖1中啟用語音手機部分的流程圖。當手機開機后,首先進行操作系統(tǒng)初始化,手機操作系統(tǒng)自動加載語音識別部分和合成部分的相應模塊,手機電話簿中所有人名、各菜單控制命令等等,為進行語音識別與合成做好準備,步驟200;等到手機進入開機等待畫面,步驟210;通過預先定義的按鍵或是菜單選擇啟用“語音手機”,當然,也可以采用一個特殊的語音命令作為啟用該系統(tǒng)的另一種實現(xiàn)方法,其中的語音命令可以由用戶自己設定,比如“啟用語音手機通/語音秘書”、“關閉語音手機通”等,步驟220;啟用后,系統(tǒng)提示用戶“歡迎使用語音手機,請您說出指令”,步驟230;然后進入等待輸入狀態(tài)A,等待信息輸入,如果沒有啟用語音用機,則將該等待狀態(tài)表示為A*。用戶可以通過語音、按鍵或者別的方式輸入來對手機進行操作控制,手機收到新短信或來電也視為一種輸入方式。
圖2b是圖2中狀態(tài)控制轉(zhuǎn)移部分的流程圖。在狀態(tài)A,如果有信息輸入,步驟300;系統(tǒng)對語音、按鍵或其它方式的輸入信息進行識別,得到識別結果,步驟310;確定操作意圖,即對識別結果進行語義分析以確定用戶的操作意圖,步驟320;系統(tǒng)判斷用戶是想禁用手機嗎?步驟330;如果不是,執(zhí)行步驟340;如果用戶確實要關閉“語音手機”,則該系統(tǒng)提示用戶“語音手機”已被關閉,如想啟用請按鍵或從菜單選擇,步驟340a,并返回狀態(tài)A*,即沒有啟用語音手機時的等待輸入狀態(tài)。
步驟340,判斷系統(tǒng)是否在進行漢字(包含數(shù)字)輸入?如輸入短信內(nèi)容、備忘錄內(nèi)容或在電話簿新增加人名等,若是,執(zhí)行步驟350a,若否,執(zhí)行步驟350;在步驟350a中,音字轉(zhuǎn)換單元根據(jù)識別出的拼音候選結果,將所對應的備選漢字顯示到手機屏幕上,然后回到等待輸入狀態(tài)A,再執(zhí)行步驟1020~1023的流程,在該過程中,用戶從手機屏幕上選擇剛說出的那個漢字,該選擇過程可以通過手機上不同的按鍵組合來獲得,系統(tǒng)將該字選定后,再回到狀態(tài)A;然后用戶說出下一個字,再依次進行語音識別,語義分析、音字轉(zhuǎn)換和輸入選擇步驟如此循環(huán),直到全部信息輸入完畢,用戶通過預先指定的一個特殊鍵,比如“確認”鍵,來表明全部信息輸入完畢,此時,系統(tǒng)對該按鍵輸入進行語義分析時,將結束漢字輸入過程,并執(zhí)行下一步的操作。手機按鍵控制漢字輸入的一種實施方法是用上、下、左、右四個鍵加上確認鍵和取消鍵等六個鍵。其中,按上鍵表示選中當前光標所對應的漢字,并將其輸入到手機屏幕上方;按下鍵表示整屏翻動漢字候選列表;按左鍵表示切換不同的拼音候選;按右鍵表示光標在漢字候選結果上逐個向后<右>移動;按確認鍵表示當本次漢字編輯已經(jīng)全部結束,即短信內(nèi)容已經(jīng)全部輸入完畢時,按下此鍵,該系統(tǒng)會退出單音節(jié)識別狀態(tài),繼續(xù)對話過程;按取消鍵表示當選中了一個錯誤的漢字后,每按此鍵一次可去掉一個已輸入的漢字,或者本次識別結果中挑不出要選的漢字時,用戶按此鍵后可重新發(fā)音。在另一種實施方案中,可以用*號鍵完成左鍵的功能,#號鍵完成右鍵的功能,它會更適合于某些型號的手機按鍵配置情況,例如,特別是在某些手機型號的正面沒有左鍵/右鍵的設置時。
如果用戶不在進行漢字輸入,則系統(tǒng)執(zhí)行相應的操作,步驟350,該操作是多種多樣的,如發(fā)短信、修改相應設置、調(diào)用下一級菜單等等,其中與狀態(tài)轉(zhuǎn)移有關的,是在用戶按“確認”鍵后將識別模式切換到詞條模式,相應系統(tǒng)轉(zhuǎn)移到非文字輸入狀態(tài);或者在系統(tǒng)進入到漢字輸入狀態(tài)時,將識別模式切換到單音節(jié)模式。觸發(fā)系統(tǒng)進入漢字輸入狀態(tài)的輸入信息,可以從后面的示例中了解到。
為了清楚說明語音輸出的流程,這里把語音提示獨立于步驟350外進行說明。首先根據(jù)系統(tǒng)設定判斷是否需要進行語音提示?步驟360,如果需要,生成提示信息文本,合成出提示語音并輸出給用戶,步驟370;如果不需要,按系統(tǒng)原有方式進行處理,即將信息通過手機屏幕、鈴聲/音樂或震動形式通知用戶,或者直接回到狀態(tài)A,步驟360a。本實施例的語音提示功能也可以設置為禁用。
通過以上流程,本發(fā)明的語音功能可以隨時在手機上啟用或關閉。在沒有啟用語音功能時,原手機的各種功能將不受任何影響。
利用上述語音手機的操作控制方法,用戶可以通過語音與手機交互,無需事先訓練,就可以完成各功能菜單之間的切換和一些常用菜單的下層管理,例如對電話簿的管理<增加/修改/刪除>功能、來電以及收到新短信時的語音提示功能、收/發(fā)短信、記錄和讀取備忘錄、設定鬧鐘、控制手機狀態(tài)等手機菜單支持的所有功能。還可以通過語音在手機上進行漢字的輸入。
在圖3-圖9中,描述了依據(jù)本發(fā)明的一種語音操作系統(tǒng)在手機上的應用,在該語音手機的一些應用模式和人機交互過程中,給出了一種以語音識別與合成技術為基礎的人機界面技術運用在手機上而產(chǎn)生的新型交互方式,但原有的人機交互的處理流程也仍然保留,手機屏幕的輸入界面或選擇界面的調(diào)用與現(xiàn)有手機相同,用戶可以使用語音模式、按鍵模式或其它模式輸入,所有的語音輸入步驟均可以用手機按鍵來替代執(zhí)行,語音功能并不與原手機的操作沖突,而是自然地“共存”。
圖3示出了本發(fā)明語音手機上中文短信發(fā)送過程的流程圖。開始時手機處于狀態(tài)A,發(fā)短信時,手機用戶首先說“發(fā)短信”,步驟400;系統(tǒng)通過語音識別和語義分析明白用戶想要發(fā)出新的短信后,采用語音提示“請問發(fā)給誰?”,同時進入要求用戶輸入收信人電話號碼的菜單界面,步驟410;此時,用戶可口述收信人姓名(如該人電話已存入手機電話薄)或者鍵入/說出收信入電話號碼,當然也可以直接按鍵輸入電話號碼,步驟420;該系統(tǒng)在完成識別步驟后自動轉(zhuǎn)入短信編輯界面,提示“請按說出內(nèi)容”,并切換到單音節(jié)識別模式,步驟430;判斷用戶是否按下“確認”鍵,步驟440,如果是,表明短信內(nèi)容已經(jīng)全部輸入完畢,執(zhí)行步驟450,否則執(zhí)行下一步;用戶說出想輸入的一個漢字的音節(jié),步驟450;系統(tǒng)得到音節(jié)識別結果,并發(fā)消息給音字轉(zhuǎn)換和輸入選擇模塊,將該音節(jié)所對應的候選漢字按字頻高低顯示在手機的屏幕上,用戶可用手機已有界面選擇所需漢字,每選中一個漢字后,該系統(tǒng)會自動回到等待單音節(jié)輸入狀態(tài),步驟460;在步驟470中,系統(tǒng)提示“短信輸入完畢,發(fā)送還是保存?”,并進入發(fā)送/保存/發(fā)送并保存的菜單界面;如果用戶說“發(fā)送”,步驟480,該系統(tǒng)就會將短信立即發(fā)送,并將發(fā)送成功與否的狀態(tài)提示給用戶,步驟490,或者是用戶回答“保存”,步驟480,該系統(tǒng)就會將短信保存,并提示用戶,步驟490;最后,該系統(tǒng)返回到狀態(tài)A。
圖4示出了本發(fā)明語音手機上中文短信接收過程的流程圖。開始時手機處于狀態(tài)A,如果手機收到新短信,步驟500;系統(tǒng)提示“收到新信件,來自xxx”(xxx是電話薄中的人名或電話號碼),步驟510;用戶說“查看內(nèi)容”,步驟520;系統(tǒng)對該指令時行識別分析后,利用語音合成功能朗讀短信內(nèi)容,步驟530;用戶聽完短信內(nèi)容后可以進行不同的操作刪除、保存或轉(zhuǎn)發(fā),如果用戶說出指令“刪除”,步驟540a,系統(tǒng)提示“要刪除短信嗎?”,步驟550a,用戶說“是的”,則系統(tǒng)執(zhí)行刪除短信的操作,步驟560a,并提示“短信已刪除”,步驟570a,再回到狀態(tài)A,而用戶說“不是”,則回到狀態(tài)A;如果用戶說出指令“轉(zhuǎn)發(fā)”,步驟540b,系統(tǒng)會詢問“請問轉(zhuǎn)發(fā)給誰?”,步驟550b,用戶說出想要發(fā)送的人名或電話,步驟560b,系統(tǒng)執(zhí)行轉(zhuǎn)發(fā)短信的操作,步驟570b,然后進入狀態(tài)A;如果用戶說出指令“保存”,步驟540c,系統(tǒng)執(zhí)行保存短信的操作,提示“短信已保存”,步驟550c,然后進入狀態(tài)A;在這個操作實例中,用戶可以完全通過語音來完成短信接收的處理過程,和原有交互方式相比,借助語音提示與用戶交流,實現(xiàn)了免提免視。在用戶開車或類似情況下,該功能就顯得十分方便和有用。
圖5顯示了用語音交互實現(xiàn)在手機中修改電話簿的實例。開始時手機處于狀態(tài)A,如果用戶說出“修改電話”指令,步驟600;系統(tǒng)提示“請說姓名”,步驟610;用戶說“xx”,步驟620;系統(tǒng)切換到單呼音節(jié)識別模式,查找到該人的電話號碼,并提示“xx的原電話號碼是xxxxxxxx,請說出新的號碼”,步驟630;用戶說出(或通過按鍵輸入)新的電話號碼“xxxxxxxx”,步驟640;系統(tǒng)進行識別后,切換回命令詞條識別模式,并詢問“要修改xx的電話為xxxxxxxx嗎?”,步驟650;如果用戶說“是的”步驟660,系統(tǒng)執(zhí)行修改電話的操作,提示“xx的電話已修改”,步驟670,然后進入狀態(tài)A;如果用戶說“不是”,步驟660,系統(tǒng)直接返回狀態(tài)A。很明顯,查詢、增添、刪除電話號碼的操作也可以通過語音交互模式來完成。除了增加的語音提示和識別功能外,原有的處理流程并沒有變化。
圖6中,開始時手機處于狀態(tài)A,用戶說“震動模式”或“鈴聲模式”,步驟700;系統(tǒng)識別出指令后即執(zhí)行模式切換操作,步驟710;在手機屏幕上顯示模式切換狀態(tài),并通過語音提示用戶“手機已切換到震動/鈴聲模式”,步驟720。對于該操作,用戶可在語音手機的任何狀態(tài)下說出想要的模式,口語系統(tǒng)將對用戶請求進行理解,判定為鈴聲或震動并將其設置成相應的模式。
圖7示出了用語音交互實現(xiàn)寫備忘錄的操作實例。開始時手機處于狀態(tài)A,用戶說“打開日歷”指令,步驟800;系統(tǒng)顯示日歷功能相應菜單,步驟810;用戶說“寫備忘錄”指令,步驟820,值得注意的是,也可以跳過前面的步驟而直接說“寫備忘錄”;系統(tǒng)切換到單音節(jié)識別模式,進入備忘錄編輯界面并提示“請說出內(nèi)容”,步驟830;步驟840~860與圖3中的步驟440~460相同,此處不再重復;但用戶輸入備忘錄內(nèi)容并按下“確認”鍵后,系統(tǒng)會提示“請設定時間”,步驟870;用戶設定為“下午3點10分”,步驟880;系統(tǒng)執(zhí)行設定操作,并提示“時間設定在15點10分”,步驟890,返回狀態(tài)A。此時用戶仍可以通過手機的按鍵來修改設定的時間。
圖8顯示了用語音交互實現(xiàn)查看備忘錄操作的實例。用戶說“查看備忘錄”,步驟900;系統(tǒng)查找當前有無記錄,步驟910;如果無記錄,則系統(tǒng)提示“今天無事件”,步驟920a;如果有記錄,系統(tǒng)讀出“今天有事件有1、15點10分電話會議,……”等備忘錄上的內(nèi)容,步驟920b。該操作實際上是用戶要求查看當天行程安排,系統(tǒng)則將已存信息朗讀并顯示出來。
對于其它的控制操作就不再一一詳細,本發(fā)明適用于控制手機的所有操作。此外,在上述人機交互過程中,本實施例中采用按鍵優(yōu)先的方式。語音提示功能可以用后續(xù)的按鍵操作來中斷。因為在可以看到手機屏幕時,語音提示太長可能會使用戶感到厭煩。
語音輸入的引入將大大簡化手機控制操作的流程。通過對識別結果的理解,系統(tǒng)可以自動從一個狀態(tài)轉(zhuǎn)入另一個狀態(tài)而不需層層菜單的轉(zhuǎn)移。例如系統(tǒng)在日歷的狀態(tài)下,用戶可直接說“震動模式”,系統(tǒng)將自動理解該命令從而直接執(zhí)行該操作。
此外,本發(fā)明采用漢字全音節(jié)的識別技術,結合音字轉(zhuǎn)換和輸入選擇模塊控制漢字的輸入,整個過程是串行完成的。這與同時利用其它一些方法輔助識別的手段是不同的,那些方法一般同時采用其它的輸入方式,比如手寫,再通過某種信息融合的方式,多種方式并行采用并輸出最后的漢字,顯然需要利用更多的系統(tǒng)資源,增添了額外的成本。而本發(fā)明的語音手機具有在現(xiàn)有資源下就能直接應用的便利。此外,在語音識別時,用戶完全可以直接說出想要輸入的漢字的音節(jié),而不需要其它的輔助方法。
實施例二本實施例中的手機語音操作系統(tǒng),不具有語音合成的功能,但能實現(xiàn)全音節(jié)的語音識別,接受非特定人的語音命令,并能用語音實現(xiàn)東方語言全音節(jié)的輸入。在系統(tǒng)構成上,是將圖1中的語言生成模式和語音合成模塊去掉,只通過普通手機現(xiàn)有的方式輸出,如鈴聲、音樂、震動等方式。在控制方法上,相對于圖2b,要取消其中與語音提示相關的控制。
此外,本實施例的語音識別部分還包括一個聲調(diào)識別模塊,用于在單音節(jié)識別模式下,接收語音輸入模塊10的數(shù)據(jù),分幀處理后提取出語音信號的基頻,并根據(jù)整段語音的基頻變化識別出音調(diào),然后將音調(diào)的識別結果輸出到音字轉(zhuǎn)換和選擇輸入模塊90中。在進行音字轉(zhuǎn)換和輸入選擇控制時,對于同一聲調(diào)的漢字,出現(xiàn)在手機屏幕上的次序仍是按照漢字使用頻率的高低排列的。對于其他聲調(diào),即非識別出的那個聲調(diào),則按照漢字使用頻率統(tǒng)一排序,列在該識別出的音調(diào)所對應的所有漢字之后。例如,用戶說第1音的“cai”時,如果沒有音調(diào)識別模塊,那么在手機屏幕上顯示的漢字是才菜蔡采彩財材踩猜裁睬,而在本實施例中,給出的識別結果是1聲,那么這時的手機屏幕上出現(xiàn)的漢字是“猜才菜蔡采彩財材踩裁睬”。
也可以根據(jù)音調(diào)識別的混淆度按照音調(diào)識別候選結果進行漢字出現(xiàn)次序的排序,同一聲調(diào)內(nèi)部仍按照漢字使用頻率排序。假設給出的音調(diào)候選結果依次是1聲,4聲,3聲,2聲,那么在上述實例中,屏幕上漢字的次序?qū)⑹恰安虏瞬滩刹什炔遣咆敳牟谩保窗匆粽{(diào)識別結果排序,同一音調(diào)對應有多個漢字時該音調(diào)內(nèi)部按漢字出現(xiàn)頻率排序。聲調(diào)識別模塊的引入可以大大提高漢字在備選列表中出現(xiàn)順序的準確度,從而使?jié)h字的輸入更快速。
此外,為了進一步提高語音識別的精度,針對特定人識別的語音進行識別總會獲得更好的精度。因此,本實施例在語音識別部分增加了一個語音自適應模塊,用于不斷自動學習手機使用者的話音的功能,從而使得語音操作系統(tǒng)的性能越來越好。該語音自適應模塊可以采用最大似然線性回歸<MLLR>方法、或最大后驗概率<MAP>方法,或是其它任何一種語音模型自適應方法。
本發(fā)明所提出的語音操作系統(tǒng)及其控制方法并不限于的中文語音手機的應用,而且適用于任何一種東方語言,比如日文、韓/朝鮮、蒙文等等,這類語言的特點是它無法通過鍵盤上的ASC字符直接表示,即它的輸入無法用現(xiàn)有的“qwert”鍵盤直接輸入,必須通過某種輸入法轉(zhuǎn)換完成;另外,均屬于單音節(jié)發(fā)音,對應于某一種或幾種文字表示符號,且發(fā)音種類有限。
本實施例中,是一種以日文語音作為操作系統(tǒng)的手機實施方案,其中所涉及的各模塊的組成與圖1中所述的模塊組成完全相同,只是其中的音字轉(zhuǎn)換和輸入選擇模塊90更為簡單,反映在控制過程上,其主要區(qū)別在于日文語音的輸入步驟,以及日文字的顯示步驟。由于日文的發(fā)音有五十音圖,其中每個發(fā)音對應于一個日文假名,因此日文假名輸入法不必選字,即音字可以一一對應,因此在手機屏幕上顯示識別結果的時候,將語音識別模塊的輸出日文字與其匹配概率高低依次顯示即可,而且通過一個鍵,例如“右鍵”就可以選擇到正確的日文假名,同時“左鍵”在輸入漢字時的功能也可以省去。另外有一點要說明的是,日文假名分為″平假名″和″片假名″兩種,區(qū)分它們可以通過類似于區(qū)分大小寫字母的方法加以實現(xiàn),即通過單鍵即可實現(xiàn)兩種假名之間的切換。
此外,本實施例在漢字單字的詞典樹中加入“下一屏”、“第2個”等在漢字輸入狀態(tài)需要用到的一些簡單詞條,同時在漢字單音節(jié)識別模式中啟用連續(xù)識別引擎,即如果識別出第一個結果后,還有余下的語音幀,則重新啟動一次新的識別過程,這樣就可以識別出“下一屏”,“第2個”等詞條,并執(zhí)行相應的動作了,用戶可以通過這些指令,對屏幕上的漢字進行選擇或執(zhí)行翻屏操作,而不必通過按鍵進行,實現(xiàn)了漢字輸入的免提功能,對于手持電話不便的殘疾人尤其方便。同時,也可以一次讀出電話號碼的所有位,系統(tǒng)也可以完成識別。
本實施例的新增模塊和功能也可以用在第一實施例中。
實施例三本實施例中的手機語音操作系統(tǒng),不具有東方語言語音輸入功能,但能實現(xiàn)對非特定人的命令詞條的語音識別以及語音提示功能。在系統(tǒng)構成上,是將圖1中的音字轉(zhuǎn)換和輸入選擇模塊改為普通的用鍵盤或其它方法實現(xiàn)東方語言輸入的模塊。在控制方法上,相對于圖2b,取消其中關于漢字輸入和識別模式切換的相關控制即可。其它部分的組成和控制與實施例一相同。
該實施例也可以利用語音來發(fā)送短信,短信的內(nèi)容直接采用拼音而不轉(zhuǎn)換成漢(或其它東方語言)字,對方雖然從屏幕上看不到內(nèi)容,但通過提示語音可以了解。這就好象兩個人說話時并不需要寫字,這種功能對于盲人來說是十分有益的。
實施例四本實施例中的手機語音操作系統(tǒng),不具有東方語言語音輸入功能和語音提示功能,但能實現(xiàn)漢字全音節(jié)的識別,識別對非特定人的語音命令。在系統(tǒng)構成上,是將圖1中的音字轉(zhuǎn)換和輸入選擇模塊改為普通的用鍵盤或其它方法實現(xiàn)東方語言輸入的模塊,并取消了語言生成和語音合成模塊。在控制方法上,相對于圖2b,要取消其中的東方語言語音輸入和語音提示的相關控制。其它部分的組成和控制與實施例一相同。
實施例五本實施例中的手機語音操作系統(tǒng),不具有東方語言語音輸入功能和漢字全音節(jié)識別的功能,但能夠進行全音節(jié)的語音提示。在系統(tǒng)構成上,將圖1中的語音識別部分取消,將音字轉(zhuǎn)換和輸入選擇模塊改為普通的用鍵盤或其它方法實現(xiàn)東方語言輸入的模塊。在控制方法上,相對于圖2b,要取消其中的語音識別和漢字語音輸入的相關控制。其它部分的組成和控制與實施例一相同。
當然,本發(fā)明的應用并非僅僅限于此,根據(jù)本發(fā)明的主要構思,本領域普通技術人員可以產(chǎn)生多種相類似的或等價的變化,例如,本發(fā)明不僅可以應有于手機,對于所有的便攜式數(shù)字移動通訊設備,如PDA等,均具有突出的應用效果。除了本發(fā)明第一實施例的二種詞典樹外,詞典樹可以根據(jù)需要組成若干種,以有利于識別的速度和精度。本發(fā)明的各模塊間的組合方式也不限于以上幾種,因此本發(fā)明的保護范圍應以權利要求書所示的內(nèi)容為準。
權利要求
1.一種具有語音操作系統(tǒng)的便攜式數(shù)字移動通訊設備,其特征在于在所述操作系統(tǒng)中還包括一嵌入式語音識別裝置,所述裝置進一步包括一語音輸入模塊,用于將輸入的東方語言的語音模擬信號變換為數(shù)字信號;一特征提取/壓縮模塊,用于對該數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù)得到特征適量序列,利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列;一語音識別模塊,用于接收上述特征碼字序列,進行解碼運算找到最匹配的語音模型,再輸出該模型對應的識別結果;一意圖分析模塊,用于對輸入信息的意圖進行分析,將其表示為程序內(nèi)部的一種語義符號,并輸出至對話管理/控制模塊;一對話管理/控制模塊,用于接收所述意圖分析模塊輸出的語義符號,結合所述設備當前狀態(tài),判斷出所述設備應采取的控制動作,并予以執(zhí)行。
2.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特點在于進一步包括一音字轉(zhuǎn)換和輸入選擇模塊,用于將拼音形式的識別結果轉(zhuǎn)換成備選漢字,通過所述設備顯示,根據(jù)用戶輸入選擇所需的漢字。
3.如權利要求1或2所述的便攜式數(shù)字移動通訊設備,其特征在于進一步包括一語言生成模塊,用于接收所述對話管理/控制模塊輸出的信息,自動調(diào)用提示詞表中要提示給用戶的文字信息,輸出到語音合成模塊;一語音合成模塊,用于根據(jù)接收所述文字信息,通過處理得到該文字所對應語音信號的數(shù)字表示并輸出;一語音輸出模塊,用于接收所述語音合成模塊輸出的語音信號的數(shù)字表示,并通過所述設備上的語音輸出裝置將聲音傳到用戶。
4.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于所述嵌入式語音識別與合成裝置是在30MIPS以內(nèi)和1M內(nèi)存空間中實現(xiàn)的。
5.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于所述語音識別模塊,進一步包括一概率表,用于存儲特征碼本中每一個特征碼字對應于高斯碼本中每個碼字的概率值;一識別單元,用于將所述碼字序列通過解碼運算找到與其最為匹配的語音模型,最終輸出與所述輸入語音最相似的識別結果,運算中對有效語音特征碼字矢量序列的各個碼字,直接從概率表中查到其在搜索路徑上的觀察概率以及若干詞典樹。
6.如權利要求5所述的便攜式數(shù)字移動通訊設備,其特征在于所述特征碼本和高斯碼本采用的壓縮算法是在K-means聚類算法中增加了對包含矢量數(shù)小于某預設值的子集合的中心矢量刪除,再將平均距離度量最大的子集合分裂成兩個新的子集合的步驟。
7.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于所述解碼運算部件進一步包括一碼字序列過濾部件,用于去掉輸入碼序列中對解碼運算冗余的碼字,從而加速解碼運算的速度;一搜索路徑自適應剪校部件,用于根據(jù)局部搜索路徑的最大似然概率,動態(tài)調(diào)整剪枝閥值,以便有效去掉對解碼運算無用的搜索路徑,從而加速解碼速度。
8.如權利要求5所述的便攜式數(shù)字移動通訊設備,其特征在于所述詞典樹包括主要由東方語言單字所組成的詞典樹,用于用語音實現(xiàn)東方語言的輸入時,在解碼運算中使用;以及主要由命令詞條、存儲信息及/或常用短詞組成的詞典樹,用于非語言輸入時,在解碼運算中使用。
9.如權利要求2所述的便攜式數(shù)字移動通訊設備,其特征在于所述音字轉(zhuǎn)換和輸入選擇模塊在所述設備屏幕上顯示的備選的文字是漢字,所述漢字顯示次序是按照漢字使用頻率的高低排列的;或者所述屏幕上備選的文字是日文假名,所述假名顯示次序是按照其識別結果的匹配概率的高低排列的。
10.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于進一步包括一聲調(diào)識別模塊,用于從來自所述語音輸入模塊的語音數(shù)據(jù)中提取所述語音信號的基頻,根據(jù)整段語音的基頻變化識別出音調(diào),并將所述音調(diào)輸出到所述音字轉(zhuǎn)換和輸入選擇模塊。
11.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于所述語義分析模塊連接一識別詞表,所述語言生成模塊連接一提示詞表,該兩詞表均可通過一詞條定制模塊對其進行個性化的定制。
12.如權利要求1所述的便攜式數(shù)字移動通訊設備,其特征在于所述語音合成模塊采用了文本和多音字處理單元和句音停頓技術來提高合成語音的可懂度和自然性。
13.一種數(shù)字移動通訊設備的語音操作控制方法,包括以下步驟語音輸入步驟,將輸入的東方語言的語音模擬信號變換為數(shù)字信號;語音識別步驟,對所述數(shù)字信號進行分幀處理,提取每一幀語音的特征參數(shù)得到特征矢量序列,利用特征碼本對所述特征矢量序列進行量化編碼,得到相應的特征碼字序列,再進行解碼運算查找最匹配的語音模型,輸出該模型對應的識別結果;語義分析步驟,對識別結果的意圖進行分析,將其表示為程序內(nèi)部的一種語義符號并輸出;以及對話管理/控制步驟,接收所述語義符號,結合設備當前狀態(tài)判斷出所述設備應采取的控制動作,并予以執(zhí)行。
14.如權利要求13所述的控制方法,其特征在于還進一步包括,音字轉(zhuǎn)換和輸入選擇步驟當對話管理/控制步驟中判斷的結果為文字輸入時,將拼音形式的識別結果轉(zhuǎn)換成備選漢字,通過所述設備顯示,并根據(jù)用戶輸入選擇所需的漢字。
15.如權利要求13或14所述的控制方法,其特征在于在對話管理/控制步驟中,系統(tǒng)進一步生成提示用戶的信息文本,并對生成的信息文本合成出要提示用戶的語音信號的數(shù)字表示,通過語音輸出裝置播放給用戶。
16.如權利要求13所述的控制方法,其特征在于,所述語音識別步驟中,在查找與所述特征碼字序列最為匹配的語音模型時,對有效語音特征碼字矢量序列的各個碼字,是直接從概率表中查到其在搜索路徑上的觀察概率。
17.如權利要求14所述的控制方法,其特征在于所述音字轉(zhuǎn)換和輸入選擇步驟中,在所述屏幕上是按照漢字使用頻率的高低排列的;或者是在所述屏幕上按照識別結果的匹配概率的高低顯示備選日文假名。
18.如權利要求13或14上述的控制方法,其特征在于所述語音識別步驟中,還從所述數(shù)字信號中提取所述語音信號的基頻,根據(jù)整段語音的基頻變化識別出音調(diào),并在所述屏幕上顯示備選漢字的步驟中,采用音調(diào)識別結果和漢字使用頻率/常用詞詞頻相結合的排序方法。
19.如權利要求13或14所述的控制方法,其特征在于在語音合成時采用了波形拼接和語音壓縮算法,并采用了文本和漢字多音字處理和句音停頓技術。
20.如權利要求13或14所述的控制方法,其特征在于,通過設備進行文字輸入時,所述語音操作系統(tǒng)采用單音節(jié)識別模式,解碼時啟用單字詞典樹,得到拼音識別結果進行音字轉(zhuǎn)換后顯示在設備屏幕上供用戶選擇;不進行文字輸入時,所述語音操作系統(tǒng)采用詞條識別模式,解碼時啟用詞條詞典樹,結合識別結果的語義和系統(tǒng)當前狀態(tài)控制所述設備完成相應的控制動作。
21.如權利要求13或14所述的控制方法,其特征在于在所述語音識別步驟中啟動連續(xù)識別引擎,完成一次識別后如果還有未識別的語音幀,則重新開始一次識別過程。
22.如權利要求13或14所述的控制方法,其特征在于所述語音操作和按鍵操作可以并存,并且按鍵操作優(yōu)先。
全文摘要
本發(fā)明公開一種具有語音操作系統(tǒng)的便攜式數(shù)字移動通訊設備及語音操作控制方法,在進行語音識別時是利用特征碼本對語音的特征矢量序列進行量化編碼,而在解碼運算中對有效語音特征碼字矢量序列的各個碼字,是直接從概率表中查到其在搜索路徑上的觀察概率;采用本發(fā)明,可以在手機中實現(xiàn)全音節(jié)的語音識別,無需訓練,并可實現(xiàn)漢字語音輸入和全音節(jié)的語音提示,系統(tǒng)具有語義分析、對話管理和語言生成模塊,可以處理復雜的對話過程并產(chǎn)生靈活的提示信息反饋給用戶,本發(fā)明還可由用戶進行語音命令和提示內(nèi)容的定制。
文檔編號G10L15/00GK1703923SQ200380101122
公開日2005年11月30日 申請日期2003年10月17日 優(yōu)先權日2002年10月18日
發(fā)明者劉建, 顏永紅, 庹凌云, 孫寶海, 潘接林, 韓疆, 苗路廣 申請人:中國科學院聲學研究所, 北京中科信利技術有限公司