本發(fā)明涉及終端顯示控制技術領域,尤其涉及一種基于語音識別的演講提示方法及裝置。
背景技術:
在演講過程中記臺詞是一件非常重要又困難的事情,尤其地,長篇的演講稿對人的記憶是巨大的考驗,如果在演講過程中還要分神去想臺詞,連臺詞都無法說順會影響演講質(zhì)量,無法完成一場生動的演講。如何幫助演講者免去記臺詞對演講的影響成為一大難題,目前比較普遍的方案是使用演講臺詞提示器,其由液晶平板顯示器,專業(yè)光學反射玻璃,VGA分配器,專業(yè)提詞器軟件等構成,從而實現(xiàn)導讀功能,方便使用者進行讀稿。
雖然上述演講臺詞提示器可以實現(xiàn)導讀功能,已幫助使用者進行讀稿,但是其仍存在以下技術問題:
該類演講臺詞提示器需要手動或定時自動滾屏,其中,手動滾屏方式需要使用者分神進行滾屏且需時常留意提示器,而定時自動滾屏方式無法正確跟隨使用者的演講進度進行提示。
技術實現(xiàn)要素:
本發(fā)明提供一種基于語音識別的演講提示方法及裝置,能夠通過語音識別對演講進度進行智能定位,實現(xiàn)演講臺詞的智能顯示。
一方面,本發(fā)明提供一種基于語音識別的演講提示方法,包括:
對演講者發(fā)出的語音數(shù)據(jù)進行實時采集;
對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容;
將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度;
在所述演講稿中對所述當前的演講進度進行提示。
另一方面,本發(fā)明提供一種基于語音識別的演講提示裝置,所述裝置包括 錄音模塊、識別模塊、處理模塊和顯示模塊,其中,
所述采集模塊,用于對演講者發(fā)出的語音數(shù)據(jù)進行實時采集;
所述識別模塊,用于對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容;
所述匹配模塊,用于將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度;
所述提示模塊,用于在所述演講稿中對所述當前的演講進度進行提示。
本發(fā)明提供的基于語音識別的演講提示方法及裝置,對演講者發(fā)出的語音數(shù)據(jù)進行實時采集;對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容;將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度;在所述演講稿中對所述當前的演講進度進行提示。與現(xiàn)有技術相比,其能夠通過語音識別對演講進度進行智能定位,從而實現(xiàn)對演講臺詞的智能顯示,以達到智能地協(xié)助使用者進行流利演講的目的。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1為本發(fā)明基于語音識別的演講提示方法一實施例的流程示意圖;
圖2為本發(fā)明基于語音識別的演講提示方法另一實施例的流程圖;
圖3為本發(fā)明基于語音識別的演講提示裝置一實施例的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,本發(fā)明實施例提供一種基于語音識別的演講提示方法,所述方法包括:
S11、對演講者發(fā)出的語音數(shù)據(jù)進行實時采集。
S12、對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容。
S13、將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度。
S14、在所述演講稿中對所述當前的演講進度進行提示。
本發(fā)明提供的基于語音識別的演講提示方法,對演講者發(fā)出的語音數(shù)據(jù)進行實時采集;對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容;將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度;在所述演講稿中對所述當前的演講進度進行提示。與現(xiàn)有技術相比,其能夠通過語音識別對演講進度進行智能定位,從而實現(xiàn)對演講臺詞的智能顯示,以達到智能地協(xié)助使用者進行流利演講的目的。
如圖2所示,本發(fā)明實施例提供一種基于語音識別的演講提示方法,所述方法包括:
S21、對演講者發(fā)出的語音數(shù)據(jù)進行實時采集。
當前網(wǎng)絡狀態(tài)為不可用時,觸發(fā)步驟S22;當前網(wǎng)絡狀態(tài)為可用時,觸發(fā)步驟S23~S25。
S22、對采集到的語音數(shù)據(jù)進行離線語音識別。
其中,所述離線語音識別為根據(jù)本地語音識別庫將采集到的語音數(shù)據(jù)轉(zhuǎn)換為相應的文字內(nèi)容。
具體地,所述本地語音識別庫可以為第三方語音識別引擎,利用本地安裝的所述第三方語音識別引擎進行語音識別,引擎內(nèi)部的識別算法各不相同,例如,可以是對聲音數(shù)據(jù)進行特征提取再使用適當?shù)钠ヅ渌惴ㄟM行模型匹配。
并且,所述第三方語音識別引擎會根據(jù)最終的匹配結果返回一個置信度來標識這個識別結果的可信程度,可以根據(jù)這個置信度來判斷當前得到的結果是否有效。具體地,可以將返回的所述置信度與預定閾值進行比較,當所述置信度大于預定閾值時,認為其語音識別結果有效。
S23、對采集到的語音數(shù)據(jù)同時進行離線語音識別和在線語音識別。
其中,所述離線語音識別為通過本地語音識別庫將采集到的語音數(shù)據(jù)轉(zhuǎn)換 為相應的文字內(nèi)容,所述在線語音識別為通過遠程服務器將采集到的語音數(shù)據(jù)轉(zhuǎn)換為相應的文字內(nèi)容。
S24、獲取所述離線語音識別的識別結果的置信度。
具體地,可以從所述本地語音識別庫中獲取所述離線語音識別的識別結果的置信度。
S25、若所述離線語音識別的識別結果的置信度大于預定閾值,則將所述離線語音識別的識別結果作為語音識別得到的文字內(nèi)容,并結束在線語音識別,否則,將所述在線語音識別的識別結果作為語音識別得到的文字內(nèi)容。
具體地,所述本地語音識別庫可以為第三方語音識別引擎,利用本地安裝的所述第三方語音識別引擎進行語音識別,引擎內(nèi)部的識別算法各不相同,例如,可以是對聲音數(shù)據(jù)進行特征提取再使用適當?shù)钠ヅ渌惴ㄟM行模型匹配。
另外,所述第三方語音識別引擎會根據(jù)最終的匹配結果返回一個置信度來標識這個識別結果的可信程度,可以根據(jù)這個置信度來判斷當前得到的結果是否有效,具體地,當所述第三方語音識別引擎返回的置信度大于預定閾值時,可以優(yōu)選離線語音識別結果,并結束在線語音識別,否則,選擇在線語音識別結果。
可見,離線識別能夠快速的進行識別和響應,但是由于本地機器硬件的運算能力和存儲空間的限制會將模型數(shù)據(jù)進行壓縮,所以識別度會降低。遠程服務器的模型數(shù)據(jù)不需要壓縮所以識別度較高但識別速度較離線識別慢。因此,在當前網(wǎng)絡狀態(tài)可用時,通過兼顧離線識別和在線識別的各自優(yōu)點,提供快速、準確的語音識別結果,從而更好地實現(xiàn)演講臺詞的智能顯示。
S26、通過模糊比較的方式將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度。
具體地,所述模糊比較為當將所述文字內(nèi)容在所述演講者的演講稿中進行匹配時,不需要語音識別得到的文字內(nèi)容與所述演講稿中的相應文字內(nèi)容完全相同而是允許二者存在個別字不同,并將計算出的相同字數(shù)作為匹配度,匹配度達到某一預定閾值則認為匹配成功。
這里主要是基于演講者的演講內(nèi)容不一定與演講稿完全一致,可能會有個 別字的出入,所以采用模糊比較能更準確智能地找到演講位置。另外匹配過程不會非常耗時,因為采用實時識別,所以匹配的范圍不會很大,且能夠?qū)崟r給予提示。
S27、根據(jù)所述當前的演講進度,對所述演講稿中已演講的文字內(nèi)容進行特別顯示,例如高亮顯示。
其中,當已演講內(nèi)容超出本屏了則跳轉(zhuǎn)至下一屏的相應位置,并從所述相關位置開始顯示演講稿內(nèi)容
本發(fā)明提供的基于語音識別的演講提示方法,與現(xiàn)有技術相比,一方面,其能夠通過語音識別對演講進度進行智能定位,從而實現(xiàn)對演講臺詞的智能顯示,以達到智能地協(xié)助使用者進行流利演講的目的;另一方面,通過在網(wǎng)絡可用時兼顧離線語音識別和在線語音識別的各自優(yōu)點,提供快速、準確的語音識別結果,從而更好地實現(xiàn)演講臺詞的智能顯示;再一方面,通過采用模糊比較的方式進行演講臺詞的提示能夠?qū)崟r且更準確智能地定位到演講位置。
如圖3所示,本發(fā)明實施例提供一種基于語音識別的演講提示裝置,所述裝置包括采集模塊31、識別模塊32、匹配模塊33和提示模塊34。
所述采集模塊31,用于對演講者發(fā)出的語音數(shù)據(jù)進行實時采集。
所述識別模塊32,用于對采集到的語音數(shù)據(jù)進行語音識別,得到相應的文字內(nèi)容。
優(yōu)選地,所述識別模塊31,用于在當前網(wǎng)絡不可用時,對采集到的語音數(shù)據(jù)進行離線語音識別。
具體地,所述本地語音識別庫可以為第三方語音識別引擎,利用本地安裝的所述第三方語音識別引擎進行語音識別,引擎內(nèi)部的識別算法各不相同,例如,可以是對聲音數(shù)據(jù)進行特征提取再使用適當?shù)钠ヅ渌惴ㄟM行模型匹配。
并且,所述第三方語音識別引擎會根據(jù)最終的匹配結果返回一個置信度來標識這個識別結果的可信程度,可以根據(jù)這個置信度來判斷當前得到的結果是否有效。具體地,可以將返回的所述置信度與預定閾值進行比較,當所述置信度大于預定閾值時,認為其語音識別結果有效。
優(yōu)選地,所述識別模塊31,用于在當前網(wǎng)絡可用時,對采集到的語音數(shù)據(jù) 同時進行離線語音識別和在線語音識別;獲取所述離線語音識別的識別結果的置信度;當所述離線語音識別的識別結果的置信度大于預定閾值時,將所述離線語音識別的識別結果作為語音識別得到的文字內(nèi)容,并結束在線語音識別,否則,將所述在線語音識別的識別結果作為語音識別得到的文字內(nèi)容。
其中,所述離線語音識別為通過本地語音識別庫將采集到的語音數(shù)據(jù)轉(zhuǎn)換為相應的文字內(nèi)容,所述在線語音識別為通過遠程服務器將采集到的語音數(shù)據(jù)轉(zhuǎn)換為相應的文字內(nèi)容。
具體地,所述本地語音識別庫可以為第三方語音識別引擎,利用本地安裝的所述第三方語音識別引擎進行語音識別,引擎內(nèi)部的識別算法各不相同,例如,可以是對聲音數(shù)據(jù)進行特征提取再使用適當?shù)钠ヅ渌惴ㄟM行模型匹配。
另外,所述第三方語音識別引擎會根據(jù)最終的匹配結果返回一個置信度來標識這個識別結果的可信程度,可以根據(jù)這個置信度來判斷當前得到的結果是否有效,具體地,當所述第三方語音識別引擎返回的置信度大于預定閾值時,可以優(yōu)選離線語音識別結果,并結束在線語音識別,否則,選擇在線語音識別結果。
可見,離線識別能夠快速的進行識別和響應,但是由于本地機器硬件的運算能力和存儲空間的限制會將模型數(shù)據(jù)進行壓縮,所以識別度會降低。遠程服務器的模型數(shù)據(jù)不需要壓縮所以識別度較高但識別速度較離線識別慢。因此,在當前網(wǎng)絡狀態(tài)可用時,通過兼顧離線識別和在線識別的各自優(yōu)點,提供快速、準確的語音識別結果,從而更好地實現(xiàn)演講臺詞的智能顯示。
所述匹配模塊33,用于將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度。
優(yōu)選地,所述匹配模塊33,用于通過模糊比較的方式將所述文字內(nèi)容在所述演講者的演講稿中進行匹配,定位出當前的演講進度。
具體地,所述模糊比較為當將所述文字內(nèi)容在所述演講者的演講稿中進行匹配時,不需要語音識別得到的文字內(nèi)容與所述演講稿中的相應文字內(nèi)容完全相同而是允許二者存在個別字不同,并將計算出的相同字數(shù)作為匹配度,匹配度達到某一預定閾值則認為匹配成功。
這里主要是基于演講者的演講內(nèi)容不一定與演講稿完全一致,可能會有個別字的出入,所以采用模糊比較能更準確智能地找到演講位置。另外匹配過程不會非常耗時,因為采用實時識別,所以匹配的范圍不會很大,且能夠?qū)崟r給予提示。
所述提示模塊34,用于在所述演講稿中對所述當前的演講進度進行提示。
優(yōu)選地,所述提示模塊34,用于根據(jù)所述當前的演講進度,對所述演講稿中已演講的文字內(nèi)容進行特別顯示,例如高亮顯示。
其中,當已演講內(nèi)容超出本屏了則跳轉(zhuǎn)至下一屏的相應位置,并從所述相關位置開始顯示演講稿內(nèi)容。
本發(fā)明提供的基于語音識別的演講提示裝置,與現(xiàn)有技術相比,其能夠通過語音識別對演講進度進行智能定位,從而實現(xiàn)對演講臺詞的智能顯示,以達到智能地協(xié)助使用者進行流利演講的目的。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍為準。