具有語音識別功能的提詞裝置的制造方法
【專利說明】
[0001]技術領域:
本發(fā)明屬于信號處理領域,特別涉及一種具有語音識別功能的提詞裝置。
[0002]【背景技術】:
20世紀80年代,隨著HMM模型和人工神經元網絡(ANN)等技術在語音識別中的成功應用,人們終于在實驗室突破了非特定人、大量詞匯和連續(xù)語音這三大語音識別障礙。2013年9月12日,科大訊飛推出了支持普通話的離線語音輸入軟件一一訊飛輸入法。離線語音會直接嵌入在訊飛輸入法中,用戶通過下載一個15.39M的離線語音包,即可在不聯網的狀態(tài)下使用語音輸入。訊飛輸入法是第一款支持離線語音的輸入法。離線語音的識別率比基于云的訊飛輸入法95%的識別率略低,大概在90%以上。
[0003]根據國際會議的調查發(fā)現,由于報告的內容過多,大部分演講者會采取有稿件的宣讀演講。經統(tǒng)計發(fā)現,其中低頭看稿件的時間約占總演講時間的70%。這會因缺少與聽眾的眼神交流而使演講效果不佳。對于演講者而言,當視線從聽眾再次回到演講稿時,會出現在密密麻麻的演講稿中難以迅速找到下文的問題。倘若不能迅速找到,勢必會使演講效果大打折扣。
[0004]據了解,電視臺播音員前方有提詞器的顯示屏,上面顯示有稿子的內容。對于電視播音員,由于距離比較遠,所以顯示屏上所容納的字數有限,這就需要頻繁的字幕滾動或者頻繁的切換屏幕內容。據悉,中央電視臺新聞播音員語速雖然沒有精確規(guī)定每分鐘多少字,但大致播音速度在每分鐘300字左右。由此可知,對于不同的播音員(例如,張宏民的語速是350字/min,李瑞英265字/min),由于存在語速的差別,在字幕滾動速度或者屏幕內容切換頻率上就會需要人工設置。在使用過程中不僅繁瑣,更會影響播音質量。而采用其他人工方法(用腳踩踏板)去切換字幕,會使播音員精力分散,同樣不利于播音。
[0005]專利CN101505397A的專利名稱為“一種語音和視頻字幕同步呈現的方法及系統(tǒng)”,在該方法中采用的是模式匹配的方式去實現特定人的語音識別。對這種語音信號的處理只適用于特定人,而且識別效果容易受到情緒、身體狀況等因素的影響,系統(tǒng)的魯棒性差。這個語音識別系統(tǒng)在給某個人使用前必須進行大量的語音采集工作,然后制成語音模型。這樣就極大地限制了該系統(tǒng)的使用范圍,而且按照文意是大量詞匯、連續(xù)語音的語音識別系統(tǒng),所以從語音采集到制成模型庫需要大量時間。
【發(fā)明內容】
[0006]發(fā)明目的:本發(fā)明提出了一種提詞裝置,首先它是基于非特定人、大量詞匯、連續(xù)語音的語音識別,這使該裝置的使用具有廣泛性,克服了特定人語音識別系統(tǒng)需要針對每個用戶建模的缺點。其次它能使演講者有更多的時間去面對聽眾,當視線返回演講稿時也能迅速、準確地看見所要讀的下文內容。最后在電視播音領域,它也能消除,因不同語速的播音員而需要人工設置字幕滾動速度或者屏幕切換頻率給播音帶來的不便。由于顯示器上的內容總是會與演講或播音的內容自動同步,所以無需預先設定字幕滾動速度、屏幕切換頻率或采取其他方式進行字幕切換。
[0007]技術方案如下:
具有語音識別功能的提詞裝置,包含主控制器5、顯示器6、無線話筒1、無線語音接收識別模塊2、用戶設置按鈕電路7、預置文本存取電路4和USB接口電路3。
[0008]主控制器5作為中央處理單元分別與無線語音接受識別模塊2、預置文本存取電路4、顯示器6、用戶設置按鈕電路7及USB接口電路3以硬件相連。無線話筒與無線語音接受模塊以自由空間為傳輸媒介相連,無線話筒I接受語音信號并調制該信號,調制完成后以特定頻率的無線電波發(fā)送到空間中。無線語音接受模塊從空間中接受這個特定頻率的無線電波,然后經過解調,提取出語音信號。無線語音接受模塊與語音識別模塊以硬件相連,在主控制器5的作用下,使解調出的語音信號與語音模板庫進行匹配,最后將匹配的結果轉化為文字并與預置文本存取電路4中的文本內容進行匹配。達到設定的匹配條件后,在主控制器5的控制下,顯示器6按設置要求顯示預置文本中的該句,并按設置的要求顯示該句下文部分內容。當有外部存儲設備通過USB接口與USB接口電路3相連時,可以在文件目錄中選擇文本復制到預置文本存取電路3中,作為語音識別結果的匹配依據。用戶設置按鈕電路7與主控制器5的某些I/O 口相連,通過改變對應I/O 口的電平使程序運行參數(字體、大小、顏色等)得到改變,從而改變顯示效果。
[0009]以下就每一個模塊作詳細的介紹:
無線話筒用于接收語音信號,語音信號經處理后會以無線電波的方式發(fā)送到空間環(huán)境中。
[0010]無線語音接收、識別模塊2,包含兩個方面,一個是語音接收模塊,另一個是語音識別模塊。語音接收模塊的作用是接收無線話筒產生的復合信號,通過解調電路從載波中提取出語音信號。語音識別模塊的作用是將解調出的語音信號進行語音的識別,將語音信號轉化為文字傳遞給主控制器5處理。
[0011]USB接口電路3,用于在主控制器的控制下向預置文本存取電路導入預置文本文件。所謂預置文本文件就是我們的演講稿或新聞稿的電子文檔,它需要事先導入到提詞裝置系統(tǒng)中,為顯示提供模板,同時也為語音識別的結果提供對比的依據。此電路還可以用于語音包的更新,具體做法是在主控制器的控制下將移動存儲設備里的新語音包去覆蓋掉原有無線語音接收、識別模塊的語音包,達到更新語音包以提高識別率的目的。
[0012]預置文本存取電路,用于保存預置文本信息。
[0013]主控制器,用于處理各個模塊的信息。具體包括將無線語音接收、識別模塊所識別出的文字信息與預置文本相比較,找到符合相似度的文字。并且還控制顯示器按照用戶設置的參數來顯示。
[0014]顯示器,用于顯示演講稿或新聞稿的部分內容,讓演講人和播音員在醒目放大字體的突出下直觀、清晰地看到他們要讀的下文。
[0015]用戶設置按鈕電路,用于用戶的輸入??紤]到不同的用戶有不同的喜好或習慣,不同用戶可以自己設定一些參數。這些參數有字體、文字大小、文字顏色、背景、顯示下文的句子數目等。
[0016]有益效果
在這種提詞裝置的幫助下,演講者能夠有更多的時間去面對聽眾。當視線返回演講稿時也能迅速、準確的看見所要讀的下文內容,這些都有利于增強演講效果。對于電視播音員,在該提詞裝置的幫助下,能消除因不同語速的播音員而需要人工設置字幕滾動速度或者屏幕切換頻率給播音帶來的不便,同時也能避免采用其他人工方法去切換字幕。這都能使播音員集中精力去播音,有利于播音質量的提高。
[0017]
【附圖說明】
[0018]圖1是該提詞裝置系統(tǒng)的示意圖。I是無線話筒;2是無線語音接受、識別模塊;3是USB接口電路;4是預置文本存取電路;5是主控制器;6是顯示器;7是USB母口。
[0019]圖2是該提詞裝置顯示器的結構示意圖;按鈕21是電源開關;按鈕22是開始/暫停鍵;按鈕23是設置鍵;按鈕24是上移鍵;按鈕25是下移鍵;按鈕26是確認鍵;插口 27是USB母口 ;28是顯示屏主窗口,用于顯示文本內容。
[0020]
【具體實施方式】
[0021]下面將結合實例和附圖對該發(fā)明的技術方案進行具體描述。
[0022]圖1是該提詞裝置系統(tǒng)的示意圖。如圖1所示,此系統(tǒng)包含主控制器、顯示器、無線話筒、無線語音接收識別模塊、用戶設置按鈕電路、預置文本存取電路和USB接口電路。下面對各部分的功能以及各部分之間的關系做詳細說明。
[0023]無線話筒1,也叫無線麥克風,能用于接收語音信號,語音信號經處理后會以無線的方式發(fā)送到空間環(huán)境中。具體過程為,無線麥克風的麥頭使用電容柱集體,接受到聲壓時將使麥頭的電容量發(fā)生改變。麥頭接在震蕩器回路中,由于麥頭電容量的變化,其震蕩器頻率將發(fā)生相應的改變,這個頻率就包含了語音信號。電路中還包含一個固定頻率的載波,用來承載這個語音信號。經過調制電路后,載波會與語音信號復合形成一個復合信號,然后復合信號通過無線發(fā)射電路發(fā)送到空間環(huán)境中。這里采用無線話筒是因為其移動性強、與音源近,可以接收到比較原始的語音信號,有利于后續(xù)的語音識別的準確性。
[0024]無線語音接收、識別模塊2,包含兩個方面,一個是語音接收模塊,另一個是語音識別模塊。語音接收模塊的作用是接收I產生的復合信號,通過解調電路從載波中提取出I中的語音信號。語音識別模塊的作用是將解調出的語音信號進行語音的識別,將語音信號轉化為文字傳遞給主控制器5處理。
[0025]以下介