網(wǎng)絡(luò)教學(xué)實(shí)時語音分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音分析技術(shù)領(lǐng)域,具體涉及網(wǎng)絡(luò)教學(xué)實(shí)時語音分析的方法。
【背景技術(shù)】
[0002]語音是我們?nèi)粘I畹牟豢苫蛉钡囊徊糠?。?zhǔn)確的語音(例如,發(fā)音、語法等)在高效通信中起著重要作用。能夠有效地說話可以使人容易被理解,聽起來信心十足,并且明確地表達(dá)出重點(diǎn)。
[0003]糾正和改進(jìn)語音的常規(guī)設(shè)備和技術(shù)包括人為指導(dǎo)以及計算機(jī)輔助工具。在常規(guī)的人為指導(dǎo)方法中,雇用教師(即,語音-語言培訓(xùn)師、語言學(xué)家等)幫助糾正和改進(jìn)語音。例如,可以參加現(xiàn)場講習(xí)班或完成在線課程。但是,使用現(xiàn)場老師會需要大量時間。此外,成本通常非常高昂。另外,使用這種方法缺少迫切需要的靈活性。
[0004]在常規(guī)的計算機(jī)輔助工具中,用戶打開軟件并且閱讀軟件顯示的文本(預(yù)先選擇或隨機(jī)選擇)。計算機(jī)分析用戶的聲道并標(biāo)識錯誤。計算機(jī)例如可以根據(jù)語音與所需發(fā)音的接近程度分析語音,或者使用語音識別組件將語音輸入轉(zhuǎn)換為文本,然后測量轉(zhuǎn)換的文本與原始文本的接近程度。
[0005]但是,這種計算機(jī)輔助工具不提供個人觸覺。進(jìn)一步,計算機(jī)難以表示用戶的實(shí)際、真實(shí)的語音內(nèi)容。此外,用戶通常仍然需要花費(fèi)大量時間使用工具。
[0006]常規(guī)工具的語音識別組件經(jīng)過預(yù)先訓(xùn)練,因此高度地非個人化。實(shí)際上,常規(guī)計算機(jī)輔助工具不能動態(tài)適應(yīng)用戶語音或者用戶與他人對話中的內(nèi)容。常規(guī)方法還需要主動練習(xí)。預(yù)先選擇的文本可能不對應(yīng)于用戶最常說的單詞和詞組。使用常規(guī)技術(shù),可能難以涵蓋用戶習(xí)慣性說的某些事物,例如某些術(shù)語。
【發(fā)明內(nèi)容】
[0007]針對上述常規(guī)方法和結(jié)構(gòu)的缺點(diǎn)和劣勢,本發(fā)明提供了一種實(shí)時語音分析的方法,其中以高度個性化、具有時效性的方式在網(wǎng)絡(luò)教學(xué)中實(shí)時糾正和改進(jìn)用戶語音。
[0008]本發(fā)明采用如下方案來實(shí)現(xiàn)上述目的:一種為用戶提供網(wǎng)絡(luò)教學(xué)實(shí)時語音分析的方法,其特征在于,所述方法包括如下步驟:
[0009]a)捕獲語音輸入;
[0010]b)執(zhí)行所述語音輸入的實(shí)時識別;
[0011]c)分析所識別的語音輸入以標(biāo)識所述用戶的語音中的可能錯誤;
[0012]d)處理所述文本以提取上下文對話提示;
[0013]其中,所述語音輸入包括來自所述用戶以及至少一個其他說話者的語音;所述實(shí)時識別包括使用自動語音識別ASR將所述語音輸入轉(zhuǎn)換為文本。
[0014]所述上下文對話提示用來檢測候選聲音、候選單詞和候選詞組中的至少一個以便糾正。
[0015]優(yōu)化的,所述可能錯誤包括發(fā)音錯誤、句法錯誤和語法錯誤中的至少一個。
[0016]優(yōu)化的,其特征在于,所述分析包括常規(guī)語義分析。
[0017]優(yōu)化的,其特征在于,執(zhí)行實(shí)時識別包括使用來自至少一個其他說話者的語音提不O
[0018]優(yōu)化的,其特征在于,通過使用上下文對話提示標(biāo)識所述可能錯誤。
[0019]優(yōu)化的,還包括:實(shí)時為所述用戶提供建議的錯誤糾正。
[0020]優(yōu)化的,還包括:創(chuàng)建定制的用戶學(xué)習(xí)會話,其中所述學(xué)習(xí)會話包括交互式學(xué)習(xí)會話,以及其中所述學(xué)習(xí)會話基于常見錯誤模式。
[0021 ]優(yōu)化的,還包括:將所標(biāo)識的錯誤、可視糾正、可聽糾正和建議的同義詞中的至少一個輸出給所述用戶。
[0022]優(yōu)化的,還包括:提取所述用戶產(chǎn)生的錯誤;在機(jī)器學(xué)習(xí)算法的幫助下,匯總常見錯誤模式;以及將所述用戶產(chǎn)生的所述錯誤和所述常見錯誤模式中的至少一個存儲在用戶簡檔中。
[0023]優(yōu)化的,所述用戶簡檔包括用戶國籍、用戶口音和用戶歷史中的至少一個,所述用戶歷史包括所分析的用戶語音、對所標(biāo)識的錯誤的先前響應(yīng)、先前用戶反饋和用戶容錯偏好中的至少一個。
[0024]本發(fā)明的優(yōu)點(diǎn)在于:運(yùn)用本發(fā)明的網(wǎng)絡(luò)教學(xué)實(shí)時語音分析方法,可以提供用戶語音的實(shí)時、被動監(jiān)視,這不需要用戶的主動參與。這種方法高度交互,可以利用上下文和對話語義,并且高度個性化。
【附圖說明】
[0025]圖1是本發(fā)明實(shí)施例中網(wǎng)絡(luò)教學(xué)實(shí)時語音分析系統(tǒng)架構(gòu)示意圖;
[0026]圖2本發(fā)明的步驟框圖;
【具體實(shí)施方式】
[0027]現(xiàn)在參考附圖,更具體地說參考圖1-2,其中示出根據(jù)本發(fā)明的方法和結(jié)構(gòu)的各示例性實(shí)施例。
[0028]在當(dāng)今忙碌的世界中,時間非常珍貴。本發(fā)明不需要主動練習(xí)。相反,它提供用戶語音的實(shí)時、被動監(jiān)視。
[0029]進(jìn)一步,每個人都是獨(dú)特的。至于語音,一個人的弱點(diǎn)可能是另一個人的強(qiáng)項(xiàng)。使用預(yù)設(shè)單詞和詞組糾正和改進(jìn)語音只能到此為止。通過分析來自用戶日常生活的實(shí)際語音而不是選定文本,本發(fā)明涵蓋一組代表性并且完整的用戶高頻詞匯。
[0030]本發(fā)明還支持高度個性化的發(fā)音錯誤簡檔和語音識別組件。提供的定制、交互式課程可以針對獨(dú)特地常見于用戶的錯誤,并且專注于用戶獨(dú)有的問題。
[0031]本發(fā)明部署交互式用戶接口,其不僅可以利用用戶反饋分析語音錯誤,而且還可以向用戶建議糾正。
[0032]本發(fā)明能夠利用對話上下文信息幫助標(biāo)識錯誤。通過使用上下文信息、對話語義、主題識別等,可以更容易地標(biāo)識錯誤。即,本發(fā)明可以依賴于用戶語音中和/或用戶與一個或多個其他說話者之間的交流中的上下文信息。這種上下文信息通常可以稱為上下文對話提不。
[0033]在一個示例性實(shí)施例中,本發(fā)明實(shí)時監(jiān)視日常生活中的用戶語音(例如,對話、電話、會議)。
[0034]本發(fā)明可以使用語音識別技術(shù)將語音轉(zhuǎn)換為文本,并且通過某些度量標(biāo)識有問題的單詞/詞組,這些度量可以包括但不限于以下一個或多個:語音識別中的置信度得分、詞法上下文分析(例如,使用文本挖掘技術(shù)標(biāo)識很少與上下文其余部分同時出現(xiàn)的單詞),以及語義上下文分析(例如,識別其他方問題和重復(fù)/糾正)。
[0035]本發(fā)明可以在不涉及用戶的情況下糾正有問題的文本,并且它可以可選地在用戶接口中突出顯示有問題的文本,并要求用戶糾正或確認(rèn)自動糾正(以口頭方式或以圖形方式)。
[0036]本發(fā)明可以比較正確文本的標(biāo)準(zhǔn)發(fā)音與原始語音中的用戶發(fā)音,標(biāo)識錯誤并且將它們存儲在用戶簡檔中。
[0037]本發(fā)明可以經(jīng)由音頻以及經(jīng)由具有語音的圖形接口為用戶實(shí)時提供糾正。
[0038]本發(fā)明可以匯總用戶的常見錯誤模式并向用戶顯示它們,并且自動安排旨在糾正這些錯誤的課程。本發(fā)明可以維護(hù)用戶錯誤模式的直方圖。
[0039]例如可以通過下載應(yīng)用將本發(fā)明安裝在便攜式設(shè)備(例如智能電話)上,或者可以通過因特網(wǎng)或者以可以提供程序和應(yīng)用的各種其他方式,將本發(fā)明提供為服務(wù)。
[0040]在一個示例性實(shí)施例中,要求保護(hù)的本發(fā)明可以提供發(fā)音糾正和訓(xùn)練。實(shí)際上,通常發(fā)音錯誤是用戶語音的一個主要問題。因此,本發(fā)明可以在提供發(fā)音糾正和改進(jìn)方面尤其有用。
[0041]在一個示例性實(shí)施例中,本公開的方法可以通過使用母語說話者訓(xùn)練自動語音識別系統(tǒng)(ASR)來實(shí)現(xiàn)。然后,本發(fā)明持續(xù)將來自用戶的口語樣本接收到ASR中。接收ASR輸出(例如,文本)以及與每個單詞關(guān)聯(lián)的置信度水平。本發(fā)明然后在文本中標(biāo)識可能不是用戶所表達(dá)含義的一個或多個單詞或詞組(這可以稱為“有問題的”文本)。
[0042]可以通過挑選具有低置信度得分的單詞標(biāo)識有問題的文本。進(jìn)一步,本發(fā)明可以挑選出未在上下文中出現(xiàn)的單詞。本發(fā)明還可以使用對話語義標(biāo)識有問題的單詞。
[0043]例如可以基于測試結(jié)果設(shè)置有關(guān)用于查找有問題文本的置信度得分的閾值,并且可以調(diào)整和調(diào)優(yōu)該閾值。閾值的調(diào)整和調(diào)優(yōu)可以有助于防止閾值設(shè)置過高,因此過于嚴(yán)格,從而導(dǎo)致偶爾報告假警報。相反,調(diào)優(yōu)和調(diào)整可以有助于防止閾值設(shè)置過低,因此閾值可能缺少所需的敏感性,從而導(dǎo)致有時忽略某些錯誤。
[0044]然后可以使用各種技術(shù)糾正有問題的單詞、詞組等。這些技術(shù)例如可以包括查詢用戶簡檔中的常見錯誤模式,選擇發(fā)音類似的單詞(多個),但更優(yōu)選的是在上下文和統(tǒng)計語言模型中,要求用戶經(jīng)由音頻或圖形接口糾正或確認(rèn)自動糾正。可以以各種方式完成提取用戶產(chǎn)生的錯誤。這些方式例如包括比較正確文本的語音與用戶原始發(fā)音的語音,并且通過自動語音生成系統(tǒng)(ASG)發(fā)送真實(shí)(正確)文本,然后比較來自ASG的語音輸出與用戶的原始發(fā)首。
[0045]本發(fā)明還可以經(jīng)由音頻或圖形接口為用戶提供可選、實(shí)時的反饋/糾正。這種反饋和糾正可以包括將錯誤存儲到用戶簡檔中,將用戶錯誤匯總成常見模式,并且將這些模式存儲到用戶簡檔中。進(jìn)一步,本發(fā)明可以以用戶發(fā)音錯誤模式的直方圖的形式創(chuàng)建有用的圖形數(shù)據(jù)。
[0046]本發(fā)明可以用作移動設(shè)備上的獨(dú)立應(yīng)用,或者通過因特網(wǎng)用作服務(wù)。本發(fā)明還可以用作用于訓(xùn)練語言之間的翻譯的工具、用于幼兒學(xué)習(xí)說話的工具,或者其中用戶有理由監(jiān)視和糾正語音和/或發(fā)音的任何其他應(yīng)用。