本申請案主張2014年10月22日申請的名稱為“用于產(chǎn)生聲音檢測模型的聲音樣本驗證(SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL)”的第62/067,322號美國臨時專利申請案和2015年4月8日申請的名稱為“用于產(chǎn)生聲音檢測模型的聲音樣本驗證(SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL)”的第14/682,009號美國專利申請案的優(yōu)先權(quán),所述申請案的完整內(nèi)容以引用的方式并入本文中。
技術(shù)領(lǐng)域
本發(fā)明大體上涉及在電子裝置中驗證聲音樣本,且更確切地說,涉及在電子裝置中驗證用于產(chǎn)生聲音檢測模型的聲音樣本。
背景技術(shù):
近年來,例如智能電話、平板計算機、可穿戴式電子裝置等電子裝置正在消費者當(dāng)中變得越來越流行。這些裝置常常通過無線或有線網(wǎng)絡(luò)提供話音和/或數(shù)據(jù)通信功能性。另外,這些電子裝置常常包含用于從用戶接收并識別話音命令的語音識別功能。此功能允許電子裝置在從接收并識別來自用戶的話音命令時執(zhí)行與話音命令(例如,關(guān)鍵詞)相關(guān)聯(lián)的功能。舉例來說,電子裝置可響應(yīng)于來自用戶的話音命令而啟動話音輔助應(yīng)用、播放音頻文件、或拍攝照片。
在具有語音識別特征的電子裝置中,制造商或運營商常常為裝置配備有預(yù)定關(guān)鍵詞和相關(guān)聯(lián)聲音模型,聲音模型可用于檢測輸入聲音中的關(guān)鍵詞。常?;趤碜愿鞣N聲音環(huán)境中的不同說話者的關(guān)鍵詞的大量聲音記錄(例如,數(shù)千個語音樣本或更多個)而產(chǎn)生這些聲音模型。制造商或運營商提供的這些聲音模型可由電子裝置的用戶改進。舉例來說,電子裝置可從用戶的預(yù)定關(guān)鍵詞接收若干話語,且使用話語訓(xùn)練與預(yù)定關(guān)鍵詞相關(guān)聯(lián)的預(yù)存儲聲音模型。一些電子裝置還可允許用戶指定關(guān)鍵詞作為話音命令。在此狀況下,電子裝置可從用戶接收所指定關(guān)鍵詞的若干話語,且從話語產(chǎn)生所指定關(guān)鍵詞的聲音模型。
一般來說,聲音模型的檢測性能涉及從其產(chǎn)生或訓(xùn)練聲音模型的話語的數(shù)目和質(zhì)量。聲音模型的檢測性能可隨著話語的數(shù)目增大而改善。然而,對于關(guān)鍵詞的給定數(shù)目個話語,話語的質(zhì)量可能在說話者之間或在話語之間變化。舉例來說,如果從非預(yù)期用戶接收話語,那么從話語產(chǎn)生的關(guān)鍵詞模型的檢測性能可能在從預(yù)期用戶檢測輸入聲音中的關(guān)鍵詞的過程中降級。另一方面,如果用戶在兩個話語中以不同方式發(fā)音關(guān)鍵詞,那么不可從從話語產(chǎn)生的聲音模型正確地檢測到關(guān)鍵詞。此外,可能在吵雜聲音環(huán)境中接收一些話語,且所述話語因此不可提供產(chǎn)生聲音模型的足夠質(zhì)量。因此,從這些話語所產(chǎn)生或訓(xùn)練的聲音模型不可產(chǎn)生充分的檢測性能。
技術(shù)實現(xiàn)要素:
本發(fā)明涉及在電子裝置中驗證用于產(chǎn)生聲音檢測模型的聲音樣本。
根據(jù)本發(fā)明的一個方面,揭示一種用于驗證待用于產(chǎn)生聲音檢測模型的至少一個聲音樣本的方法??稍陔娮友b置中執(zhí)行所述方法。在此方法中,可接收第一聲音樣本。可從所述第一聲音樣本提取第一聲學(xué)特征。此外,可接收第二聲音樣本??蓮乃龅诙曇魳颖咎崛〉诙晫W(xué)特征。確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征。本發(fā)明還描述與此方法相關(guān)的設(shè)備、裝置、系統(tǒng)、裝置組合和計算機可讀媒體。
根據(jù)本發(fā)明的另一方面,揭示一種用于驗證待用于產(chǎn)生聲音檢測模型的至少一個聲音樣本的電子裝置。所述電子裝置可包含聲音傳感器和聲音樣本驗證單元。所述聲音傳感器可經(jīng)配置以接收第一聲音樣本和第二聲音樣本。所述聲音樣本驗證單元可經(jīng)配置以:從所述第一聲音樣本提取第一聲學(xué)特征;從所述第二聲音樣本提取第二聲學(xué)特征;以及確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征。
附圖說明
當(dāng)結(jié)合附圖理解時,將通過參考以下詳細(xì)描述理解本發(fā)明的發(fā)明性方面的實施例。
圖1說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的電子裝置。
圖2說明根據(jù)本發(fā)明的另一實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的電子裝置。
圖3說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的電子裝置的框圖。
圖4說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以確定一或多個聲音樣本是否可用于產(chǎn)生聲音檢測模型的電子裝置中的聲音樣本驗證單元的框圖。
圖5為根據(jù)本發(fā)明的一個實施例的在電子裝置中執(zhí)行的用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的示范性方法的流程圖。
圖6為根據(jù)本發(fā)明的一個實施例的在電子裝置中執(zhí)行的用于確定組合式聲學(xué)特征的示范性方法的流程圖。
圖7為根據(jù)本發(fā)明的另一實施例的在電子裝置中執(zhí)行的用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的示范性方法的流程圖。
圖8為根據(jù)本發(fā)明的另一實施例的在電子裝置中執(zhí)行的用于在批處理模式中驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的示范性方法的流程圖。
圖9為根據(jù)本發(fā)明的另一實施例的在電子裝置中執(zhí)行的用于確定一或多個聲音樣本的聲學(xué)特征是否類似的示范性方法的流程圖。
圖10說明根據(jù)本發(fā)明的一些實施例的可實施用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的方法和設(shè)備的電子裝置的框圖。
圖11說明說明服務(wù)器系統(tǒng)的框圖,服務(wù)器系統(tǒng)可以是先前描述為根據(jù)一些實施例所實施的服務(wù)器中的任一者。
具體實施方式
現(xiàn)在將詳細(xì)參考各種實施例,在附圖中說明所述實施例的實例。在以下詳細(xì)描述中,陳述眾多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。然而,對于所屬領(lǐng)域的一般技術(shù)人員將顯而易見的是,可在沒有這些具體細(xì)節(jié)的情況下實踐本發(fā)明。在其它情況下,未詳細(xì)描述眾所周知的方法、過程、系統(tǒng)和組件,以便不會不必要地混淆各種實施例的方面。
圖1說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的多個聲音樣本S1、S2、S3、S4和S5的電子裝置100。電子裝置100可以是裝備有聲音俘獲和處理能力的任何合適裝置,例如智能電話、蜂窩電話、個人計算機、膝上型計算機、平板計算機、智能電視、游戲裝置、多媒體播放器等。電子裝置100可從用戶120接收聲音樣本S1、S2、S3、S4和S5供用于產(chǎn)生聲音檢測模型。
雖然電子裝置100說明為接收五個聲音樣本S1、S2、S3、S4和S5,但是可接收且處理用于產(chǎn)生聲音檢測模型的任何合適數(shù)目個聲音樣本,且可基于數(shù)個因素(例如用戶的方便、喜好、性能要求等)而預(yù)先確定聲音樣本的數(shù)目。在一個實施例中,可依次接收聲音樣本S1、S2、S3、S4和S5且接著在批處理模式中加以處理。在另一實施例中,可一次一個地接收并處理聲音樣本S1、S2、S3、S4和S5,如將在下文參考圖2更詳細(xì)地描述。
如本文中所使用,術(shù)語“聲音檢測模型”可指用于檢測由電子裝置100接收的輸入聲音的聲音信號或數(shù)據(jù)中的關(guān)鍵詞及/或特定用戶的模型或數(shù)據(jù)庫,且可包含指示關(guān)鍵詞及/或用戶的一或多個聲學(xué)特征或特性。舉例來說,聲音檢測模型可以是與關(guān)鍵詞相關(guān)聯(lián)或指示關(guān)鍵詞且經(jīng)調(diào)適以檢測從用戶接收的輸入語音中的關(guān)鍵詞的關(guān)鍵詞檢測模型。術(shù)語“關(guān)鍵詞”可指可用以在電子裝置100中啟動、操作或控制功能或應(yīng)用的一或多個詞的任何數(shù)字或類比聲音表示。另外或替代地,聲音檢測模型可以是經(jīng)調(diào)適以從輸入聲音識別用戶的說話者驗證模型。
在一個實施例中,聲學(xué)特征可包含可指示關(guān)鍵詞或特定用戶的頻譜特征、時域特征等。頻譜特征可包含梅爾頻率倒譜系數(shù)(MFCC)、倒譜差異系數(shù)(差異MFCC)、線譜對(LSP)系數(shù)等。時域特征可包含過零率、幀能量等。聲學(xué)特征還可包含頻譜特征或時域特征的統(tǒng)計量度,例如均值、中值、最頻值、方差、標(biāo)準(zhǔn)差、共變數(shù)、協(xié)方差、最大值、最小值、峰態(tài)、高階動量等,以上各者可指示關(guān)鍵詞或特定用戶。在另一實施例中,聲學(xué)特征可包含可指示關(guān)鍵詞或特定用戶的子字的序列。如本文中所使用,術(shù)語“子字”或“子字單元”可指基本聲音單元,例如音素、音位、三音素、音節(jié)等。另外或替代地,聲學(xué)特征可包含聲強等級、信噪比(SNR)或混響時間(RT),以上各者可指示音質(zhì)。
電子裝置100可經(jīng)配置以存儲一或多個關(guān)鍵詞用于在電子裝置100中啟動或執(zhí)行一或多個相關(guān)聯(lián)功能或應(yīng)用。關(guān)鍵詞可以是一或多個預(yù)定關(guān)鍵詞(例如,由制造商分配的關(guān)鍵詞)及/或一或多個用戶定義關(guān)鍵詞。預(yù)定關(guān)鍵詞的關(guān)鍵詞檢測模型可用于檢測由電子裝置100接收的輸入聲音中的預(yù)定關(guān)鍵詞。根據(jù)一個實施例,多個預(yù)定關(guān)鍵詞的多個關(guān)鍵詞檢測模型可由第三方提供商或電子裝置100的制造商產(chǎn)生,且預(yù)存儲于電子裝置100中及/或從外部服務(wù)器或裝置(未展示)下載。
在所說明實施例中,電子裝置100可從用戶120接收指示預(yù)定關(guān)鍵詞“你好,驍龍”130的聲音樣本S1、S2、S3、S4和S5。與預(yù)定關(guān)鍵詞相關(guān)聯(lián)的經(jīng)預(yù)存儲關(guān)鍵詞檢測模型可通過基于來自用戶120的聲音樣本S1、S2、S3、S4和S5而訓(xùn)練關(guān)鍵詞檢測模型來適應(yīng)于用戶120。電子裝置100可接著使用適應(yīng)于用戶120的經(jīng)訓(xùn)練關(guān)鍵詞檢測模型用于檢測輸入聲音中的預(yù)定關(guān)鍵詞。
在額外或替代性實施例中,用戶120還可定義與待在電子裝置100中啟動或執(zhí)行的一或多個功能或應(yīng)用相關(guān)聯(lián)的一或多個用戶定義關(guān)鍵詞。舉例來說,電子裝置100可從用戶120接收聲音樣本S1、S2、S3、S4和S5作為指示用戶定義關(guān)鍵詞的聲音樣本。如本文中所使用,術(shù)語“用戶定義關(guān)鍵詞”可指可由用戶120定義或指定用于啟動或執(zhí)行電子裝置100的功能或應(yīng)用的關(guān)鍵詞?;谒邮章曇魳颖維1、S2、S3、S4和S5,電子裝置100可產(chǎn)生適應(yīng)于用戶120的用戶定義關(guān)鍵詞的關(guān)鍵詞檢測模型。電子裝置100可接著適應(yīng)于用戶120的使用所產(chǎn)生的關(guān)鍵詞檢測模型用于檢測輸入聲音中的用戶定義關(guān)鍵詞。
另外或替代地,聲音檢測模型可包含經(jīng)調(diào)適以從輸入聲音識別用戶120的說話者驗證模型。為了產(chǎn)生用于識別用戶120的說話者驗證模型,電子裝置100可請求用戶120說出關(guān)鍵詞,例如預(yù)定關(guān)鍵詞或用戶定義關(guān)鍵詞、指定次數(shù),以上各者可預(yù)定。當(dāng)用戶120提供所請求數(shù)目個聲音樣本(例如,聲音樣本S1、S2、S3、S4和S5)時,電子裝置100可基于所提供聲音樣本而產(chǎn)生用戶120的說話者驗證模型。電子裝置100可接著使用適應(yīng)于用戶120的所產(chǎn)生的說話者驗證模型用于將輸入聲音認(rèn)識為與用戶120相關(guān)聯(lián)。
一旦接收用于產(chǎn)生聲音檢測模型的聲音樣本S1、S2、S3、S4和S5,那么電子裝置100可確定所接收聲音樣本S1、S2、S3、S4和S5中的每一者是否可用于產(chǎn)生聲音檢測模型。在此過程中,可從聲音樣本S1、S2、S3、S4和S5中的每一者提取一或多個聲學(xué)特征。在一個實施例中,電子裝置100可通過比較相關(guān)聯(lián)所提取聲學(xué)特征來確定聲音樣本S1、S2、S3、S4和S5中的每一對的聲學(xué)特征是否類似。如果確定至少兩個聲音樣本的聲學(xué)特征彼此類似,那么電子裝置100可確定至少兩個聲音樣本類似且可用于產(chǎn)生聲音檢測模型。另一方面,如果確定聲音樣本的聲學(xué)特征不類似于至少兩個其它聲音樣本的聲學(xué)特征,那么聲音樣本不可用于產(chǎn)生聲音檢測模型。
在一些實施例中,可從聲音樣本S1、S2、S3、S4和S5選擇一對聲音樣本,且可從所選擇的聲音樣本中的每一者提取聲學(xué)特征。電子裝置100可接著確定所選擇的聲音樣本的聲學(xué)特征是否彼此類似。舉例來說,電子裝置100可選擇聲音樣本S1和S2,且確定聲音樣本S1的聲學(xué)特征于聲音樣本S2的聲學(xué)特征是否彼此類似。如果聲音樣本S1的聲學(xué)特征于聲音樣本S2的聲學(xué)特征彼此類似,那么電子裝置100可確定聲音樣本S1與S2類似且可用于產(chǎn)生聲音檢測模型。
在一個實施例中,電子裝置100可基于聲音樣本S1和S2的聲學(xué)特征而確定剩余聲音樣本S3、S4和S5中的每一者是否可用于產(chǎn)生聲音檢測模型。舉例來說,可組合聲音樣本S1與S2的聲學(xué)特征以產(chǎn)生聲音樣本S1與S2的組合式聲學(xué)特征。電子裝置100可選擇聲音樣本S3且從聲音樣本S3提取聲學(xué)特征??山又容^聲音樣本S1與S2的組合式聲學(xué)特征與從聲音樣本S3提取的聲學(xué)特征。如果確定組合式聲學(xué)特征與聲音樣本S3的聲學(xué)特征類似,那么電子裝置100可確定聲音樣本S3可用于產(chǎn)生聲音檢測模型。電子裝置100可基于兩個或兩個以上聲音樣本的組合式聲學(xué)特征而確定聲音樣本S4和S5是否可用于產(chǎn)生聲音檢測模型。舉例來說,可基于聲音樣本S1與S2的組合式聲學(xué)特征或聲音樣本S1、S2與S3的組合式聲學(xué)特征而處理聲音樣本S4。
如本文中所使用,術(shù)語“類似聲學(xué)特征”或其等效變體可意味著聲學(xué)特征相同或在特征值或參數(shù)(例如頻譜特征、時域特征、統(tǒng)計量度、子字等)方面在指定公差或閾值或百分比內(nèi)而大體上相同。舉例來說,在聲學(xué)特征中的兩個序列的子字的狀況下,如果所述序列中的相同子字的百分比超出閾值,那么電子裝置100可確定兩個序列類似。在一個實施例中,兩個聲學(xué)特征可在其按小于30%變化時經(jīng)確定為類似。
在一個實施例中,電子裝置100可將聲音樣本S1、S2、S3、S4和S5中的每一者的聲強等級(例如,平均聲強值)確定為聲學(xué)特征。如果確定聲音樣本的聲強等級小于閾值聲級,那么其可指示所述聲音樣本不是良好聲音樣本。因此,電子裝置100可確定聲音樣本不可用于產(chǎn)生聲音檢測模型。
另外或替代地,電子裝置100可將聲音樣本S1、S2、S3、S4和S5中的每一者的SNR確定為聲學(xué)特征。如果確定聲音樣本的SNR小于閾值SNR,那么其可指示聲音樣本具有過多噪聲。因此,電子裝置100可確定聲音樣本不可用于產(chǎn)生聲音檢測模型。
在確定聲音樣本S1、S2、S3、S4和S5是否可用于產(chǎn)生聲音檢測模型之后,電子裝置100即可輸出聲音樣本S1、S2、S3、S4和S5是否可用于產(chǎn)生聲音檢測模型的指示。在所說明實施例中,對于預(yù)定關(guān)鍵詞“你好,驍龍”130,電子裝置100可從用戶120接收關(guān)鍵詞的五個聲音樣本S1、S2、S3、S4和S5。對于聲音樣本S1、S2、S3、S4和S5中的每一者,電子裝置100可確定聲音樣本是否可用于產(chǎn)生聲音檢測模型。舉例來說,電子裝置100可確定聲音樣本S1、S2、S4和S5可用于產(chǎn)生如圖1中所展示的聲音檢測模型。
另一方面,電子裝置100可確定聲音樣本S3不可用于產(chǎn)生聲音檢測模型。舉例來說,在確定聲音樣本S3的多個頻譜特征不類似于聲音樣本S1、S2、S4和S5中的每一者的對應(yīng)頻譜特征之后,電子裝置100即可確定與聲音樣本S3相關(guān)聯(lián)的用戶與與聲音樣本S1、S2、S4和S5相關(guān)聯(lián)的用戶不同,且因此可確定聲音樣本S3不可用于產(chǎn)生聲音檢測模型。
在一個實施例中,電子裝置100可顯示聲音樣本S1、S2、S3、S4和S5的列表136,其在顯示屏幕110上指示聲音樣本S1、S2、S3、S4和S5中的每一者是否可用于產(chǎn)生聲音檢測模型。舉例來說,列表136可通過借由核選標(biāo)記在方框中顯示樣本S1、S2、S4和S5中的每一者來指示聲音樣本S1、S2、S4和S5為可用于產(chǎn)生聲音檢測模型的良好聲音樣本。另一方面,聲音樣本S3,其可能不是良好聲音樣本,可在列表136中以圓圈顯示。此外,可在顯示屏幕110上顯示指示聲音樣本S3與不同用戶相關(guān)聯(lián)的消息138。另外或替代地,指示聲音樣本S3不是良好聲音樣本且因此不可用于產(chǎn)生聲音檢測模型的皺眉臉132可連同請求用戶120輸入聲音樣本S3的額外聲音樣本的消息134顯示于顯示屏幕110上。
在一些實施例中,消息138可包含對聲音樣本不可用于產(chǎn)生聲音檢測模型的一或多個原因的簡要描述。舉例來說,消息138可包含指示聲音樣本的說話者特性不同于其它聲音樣本的說話者特性、聲音樣本的經(jīng)識別關(guān)鍵詞不同于其它聲音樣本的經(jīng)識別關(guān)鍵詞、聲音樣本的聲強等級低于閾值聲強等級、聲音樣本的SNR低于閾值SNR等的一或多個原因。
電子裝置100還可經(jīng)配置以基于相關(guān)聯(lián)聲學(xué)特征而確定聲音樣本S1、S2、S3、S4和S5當(dāng)中的最高質(zhì)量聲音樣本。最高質(zhì)量聲音樣本可用以產(chǎn)生聲音檢測模型的子字的序列。在此實施例中,圖標(biāo)140(例如,可點擊條)可與播放最高質(zhì)量聲音樣本作為最佳聲音樣本的命令相關(guān)聯(lián)且顯示于顯示屏幕110上。當(dāng)用戶120按壓圖標(biāo)140時,電子裝置100可播放最佳聲音樣本,最佳聲音樣本可由用戶120引用用于輸入一或多個額外聲音樣本。另外或替代地,電子裝置100可從用戶120接收將聲音樣本S1、S2、S3、S4和S5中的一者識別為最佳聲音樣本的輸入,且基于所識別聲音樣本而產(chǎn)生聲音檢測模型的子字的序列。雖然電子裝置100經(jīng)配置以顯示圖標(biāo)140用于播放最佳聲音樣本,但是其還可經(jīng)配置以允許用戶120在列表136中的聲音樣本S1到S5當(dāng)中選擇任何聲音樣本且播放所選擇的聲音樣本。
在一個實施例中,電子裝置100可顯示多個圖標(biāo)142和144用于輸入一或多個取代或額外聲音樣本。圖標(biāo)“重復(fù)前一者”142可以是用戶120指示再鍵入先前所接收的聲音樣本。當(dāng)用戶120按壓圖標(biāo)142時,電子裝置100可丟棄先前所接收的聲音樣本,且從用戶120接收新聲音樣本作為經(jīng)丟棄聲音樣本的替換樣本。另一方面,圖標(biāo)“重新開始”144可指示鍵入可經(jīng)丟棄的聲音樣本S1到S5的新聲音樣本。舉例來說,如果確定聲音樣本S1到S5中沒有一者將用于產(chǎn)生聲音檢測模型或如果用戶120想要鍵入聲音樣本S1到S5的新聲音樣本,那么用戶120可通過按壓圖標(biāo)144來輸入新聲音樣本。在接收新聲音樣本之后,電子裝置100即可確定新聲音樣本是否可用于產(chǎn)生聲音檢測模型且在顯示屏幕110上顯示新聲音樣本的結(jié)果。
根據(jù)一些實施例,電子裝置100還可經(jīng)配置以從用戶120接收選擇可用于產(chǎn)生聲音檢測模型的一或多個聲音樣本S1、S2、S3、S4和S5的輸入。舉例來說,用戶120可選擇聲音樣本S1、S2和S4供用于產(chǎn)生聲音檢測模型。另外或替代地,電子裝置100可從用戶120接收選擇待被新聲音樣本替換的一或多個聲音樣本的輸入。舉例來說,用戶120可選擇聲音樣本S4(其可能已經(jīng)確定由電子裝置100用于產(chǎn)生聲音檢測模型)以新聲音樣本被替換。以此方式,電子裝置100可基于用戶120的選擇而接收并處理聲音樣本S1、S2、S3、S4和S5的一或多個新聲音樣本。
當(dāng)確定聲音樣本S1、S2、S3、S4和S5用于產(chǎn)生聲音檢測模型時,電子裝置100可基于聲音樣本S1、S2、S3、S4或S5中的至少一者而產(chǎn)生聲音檢測模型。舉例來說,電子裝置100可基于聲音樣本S1、S2、S3、S4和S5的聲學(xué)特征而產(chǎn)生聲音檢測模型。在此狀況下,聲學(xué)特征可以是與已用于確定聲音樣本是否可用于產(chǎn)生聲音檢測模型的聲學(xué)特征相同的聲學(xué)特征。另外或替代地,電子裝置100可從聲音樣本提取適應(yīng)于或合適于產(chǎn)生聲音檢測模型的聲學(xué)特征。
在一個實施例中,電子裝置100可在調(diào)整或修改所產(chǎn)生的聲音檢測模型的過程中將至少一個聲音樣本(其可能已被拒絕或丟棄,或由于低SNR而被新聲音樣本替換)用作嵌入有噪聲的聲音樣本。舉例來說,除了使用產(chǎn)生的噪聲樣本以外或作為其替代,可能已被拒絕或丟棄的聲音樣本還可在調(diào)整所產(chǎn)生的聲音檢測模型的過程中用作嵌入有噪聲的聲音樣本。使用一或多個這些聲音樣本可在各種聲音環(huán)境(包含大體上無噪聲的環(huán)境和有噪聲的環(huán)境)中改善聲音檢測模型的檢測性能。
另外或替代地,電子裝置100可使用至少一個聲音樣本(其可能已由于低SNR、低聲強等級等而被丟棄)以調(diào)整聲音檢測模型的閾值(例如,檢測或類似性閾值)。舉例來說,當(dāng)接收指示關(guān)鍵詞的輸入聲音時,可接入存儲于電子裝置100中的多個聲音檢測模型以基于閾值而識別與關(guān)鍵詞相關(guān)聯(lián)的聲音檢測模型。為了識別聲音檢測模型,可確定輸入聲音與多個聲音檢測模型中的關(guān)鍵詞中的每一者之間的類似性程度。電子裝置100可接著將具有最大類似性且其類似性程度大于或等于閾值的聲音檢測模型識別為關(guān)鍵詞的聲音檢測模型。在一個實施例中,可基于已經(jīng)確定用于產(chǎn)生聲音檢測模型的聲音樣本中的至少一者而確定聲音檢測模型的閾值。為了增強聲音檢測模型的檢測準(zhǔn)確性,可基于至少一個聲音樣本而調(diào)整聲音檢測模型的閾值,所述聲音樣本可能已由于低SNR、低聲強等級等而被丟棄。舉例來說,電子裝置100可使用可具有不同于聲音樣本S1、S2、S3、S4和S5的說話者特性的說話者特性、低于預(yù)定閾值SNR的SNR等來調(diào)整聲音檢測模型的閾值。
圖2說明根據(jù)本發(fā)明的另一實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的一或多個聲音樣本S1、S2、S3、S4和S5的電子裝置100。在此實施例中,可一次一個地依序接收并處理聲音樣本S1、S2、S3、S4和S5。在一個實施例中,電子裝置100可在接收聲音樣本時從每一聲音樣本提取聲學(xué)特征,且基于指示音質(zhì)的聲學(xué)特征而驗證聲音樣本的音質(zhì)是否大于或等于供用于產(chǎn)生聲音檢測模型的閥值質(zhì)量。如果確定聲音樣本的音質(zhì)小于臨限值質(zhì)量,那么電子裝置100可從用戶120接收新聲音樣本作為替換聲音樣本,直到確定聲音樣本的音質(zhì)大于或等于閾值質(zhì)量為止。電子裝置100可接著前進以基于聲音樣本的聲學(xué)特征是否與一或多個其它聲音樣本的聲學(xué)特征類似而確定聲音樣本是否可用于產(chǎn)生聲音檢測模型。
電子裝置100可首先從用戶120接收聲音樣本S1且從聲音樣本S1提取聲學(xué)特征。電子裝置100可基于指示音質(zhì)的聲學(xué)特征(例如SNR、聲強等級等)而確定聲音樣本S1的音質(zhì)是否大于或等于供用于產(chǎn)生聲音檢測模型的閾值質(zhì)量。如果電子裝置100聲音樣本S1的音質(zhì)小于閾值質(zhì)量,那么其可顯示提示用戶120再鍵入聲音樣本S1的消息134,直到確定聲音樣本S1音質(zhì)大于或等于供用于產(chǎn)生聲音檢測模型的閾值質(zhì)量為止。
當(dāng)電子裝置100確定聲音樣本S1的音質(zhì)大于或等于供用于產(chǎn)生聲音檢測模型的閾值質(zhì)量時,其可從用戶120接收下一聲音樣本S2并從聲音樣本S2提取聲學(xué)特征。電子裝置100可確定聲音樣本S1的聲學(xué)特征與聲音樣本S2的聲學(xué)特征是否類似供用于產(chǎn)生聲音檢測模型且在顯示屏幕110上輸出結(jié)果。如果確定聲音樣本S1的聲學(xué)特征與聲音樣本S2的聲學(xué)特征類似,那么電子裝置100可基于聲音樣本S1和S2的聲學(xué)特征而產(chǎn)生組合式聲學(xué)特征。如果確定聲音樣本S1的聲學(xué)特征與聲音樣本S2的聲學(xué)特征不類似,那么電子裝置100可請求用戶120輸入新聲音樣本作為聲音樣本S1及/或S2的替換聲音樣本,直到確定聲音樣本S1的聲學(xué)特征與聲音樣本S2的聲學(xué)特征類似為止。
在確定聲音樣本S1的聲學(xué)特征與聲音樣本S2的聲學(xué)特征類似之后,電子裝置100即可從用戶120接收下一聲音樣本S3并從聲音樣本S3提取聲學(xué)特征。電子裝置100可接著確定聲音樣本S3的聲學(xué)特征是否類似于聲音樣本S1與S2的組合式聲學(xué)特征。另外或替代地,電子裝置100可確定聲音樣本S1、S2和S3中的每一對的聲學(xué)特征是否類似。舉例來說,電子裝置100可確定聲音樣本S1的聲學(xué)特征是否與聲音樣本S3的聲學(xué)特征類似,及/或確定聲音樣本S2的聲學(xué)特征是否與聲音樣本S3的聲學(xué)特征類似。聲音樣本S1、S2和S3的結(jié)果可顯示于如圖2中所展示的顯示屏幕110上。以此方式,電子裝置100還可前進以依序地接收聲音樣本S4和S5,且基于聲學(xué)特征或與先前所接收的聲音樣本相關(guān)聯(lián)的聲學(xué)特征的組合而確定聲音樣本S4和S5中的每一者是否可用于產(chǎn)生聲音檢測模型。
如所說明實施例中所展示,電子裝置100可顯示聲音樣本S1、S2和S3的列表200,其在顯示屏幕110上指示聲音樣本S1、S2和S3中的每一者是否可用于產(chǎn)生聲音檢測模型。舉例來說,列表200可通過借由核選標(biāo)記在方框中顯示樣本S1和S2中的每一者來指示聲音樣本S1和S2為可用于產(chǎn)生聲音檢測模型的良好聲音樣本。另一方面,聲音樣本S3,其可能不是良好聲音樣本,可在列表200中以圓圈顯示。此外,還可在顯示屏幕110上顯示指示聲音樣本S3與不同用戶相關(guān)聯(lián)的消息138。另外或替代地,指示聲音樣本S3不是良好聲音樣本且因此不可用于產(chǎn)生聲音檢測模型的皺眉臉132可連同提示用戶120輸入聲音樣本S3的另一聲音樣本的消息134顯示于顯示屏幕110上。此外,顯示屏幕110上的圖標(biāo)202可與播放可選自聲音樣本S1、S2和S3的聲音樣本的命令相關(guān)聯(lián)。當(dāng)用戶120在選擇聲音樣本S3時按壓圖標(biāo)202時,電子裝置100可播放聲音樣本S3。
電子裝置100還可顯示器用于輸入一或多個取代或額外聲音樣本的多個圖標(biāo)142和144。圖標(biāo)“重復(fù)前一者”142可指示再鍵入先前所接收的聲音樣本(例如,聲音樣本S3)。當(dāng)用戶120按壓圖標(biāo)142時,電子裝置100可接收新聲音樣本作為被丟棄聲音樣本的替換樣本。另一方面,圖標(biāo)“重新開始”144可指示鍵入已接收的聲音樣本S1、S2和S3的新聲音樣本。舉例來說,如果確定聲音樣本S1、S2和S3中沒有一者將用于產(chǎn)生聲音檢測模型或如果用戶120想要鍵入聲音樣本S1、S2和S3的新聲音樣本,那么用戶120可通過按壓圖標(biāo)144來輸入新聲音樣本。在依序地接收新聲音樣本S1、S2、S3、S4和S5中的每一者之后,電子裝置即可確定每一新聲音樣本是否可用于產(chǎn)生聲音檢測模型且在顯示屏幕110上顯示新聲音樣本的確定結(jié)果。
在所說明實施例中,可通過虛線圓圈說明聲音樣本S4和S5以指示其尚未被接收到。雖然參考聲音樣本S3描述電子裝置100,但是電子裝置100還可處理聲音樣本S1、S2、S4和S5中的每一者用于以上文參考圖1所描述的方式產(chǎn)生聲音檢測模型,且累積地顯示聲音樣本和先前所接收的聲音樣本的信息。
電子裝置100可接收后續(xù)聲音樣本S4和S5,且確定聲音樣本S1、S2、S3、S4和S5中的每一者可用于產(chǎn)生聲音檢測模型。可在顯示屏幕110上累積地顯示聲音樣本S1到S5的結(jié)果。當(dāng)確定聲音樣本S1、S2、S3、S4和S5可用于產(chǎn)生聲音檢測模型時,電子裝置100可基于聲音樣本S1、S2、S3、S4或S5中的至少一者而產(chǎn)生聲音檢測模型。舉例來說,電子裝置100可基于聲音樣本S1、S2、S3、S4和S5的聲學(xué)特征而產(chǎn)生聲音檢測模型。在此狀況下,聲學(xué)特征可以是與已用于確定聲音樣本是否可用于產(chǎn)生聲音檢測模型的聲學(xué)特征相同的聲學(xué)特征。另外或替代地,電子裝置100可從聲音樣本提取適應(yīng)于或合適于產(chǎn)生聲音檢測模型的聲學(xué)特征。根據(jù)一些實施例,電子裝置100還可經(jīng)配置以從用戶120接收指示聲音樣本中的每一者是否可用于產(chǎn)生聲音檢測模型的輸入。在此狀況下,由用戶120選擇的一或多個聲音樣本可用于產(chǎn)生聲音檢測模型,即使電子裝置100已確定聲音樣本不可用于產(chǎn)生聲音檢測模型時也如此。
圖3說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以驗證用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的電子裝置100的框圖。電子裝置100可包含聲音傳感器300、輸入/輸出(I/O)單元310、通信單元320和存儲單元330和處理器340。I/O單元310可包含顯示屏幕110和揚聲器(未展示)。顯示屏幕110可以是經(jīng)配置以接收來自用戶的觸摸輸入的觸摸顯示器屏幕。處理器340可包含聲音樣本驗證單元342、聲音檢測模型產(chǎn)生單元344、聲音檢測單元346和話音輔助單元348。可使用任何合適的處理單元(例如可執(zhí)行指令或?qū)嵭袑﹄娮友b置100的操作的中央處理單元(CPU)、應(yīng)用處理器、微處理器等)來實施處理器340。
聲音傳感器300可經(jīng)配置以從用戶接收輸入聲音流。如本文中所使用,術(shù)語“聲音流”可指一或多個聲音信號或聲音數(shù)據(jù)的序列。聲音傳感器300可包含一或多個麥克風(fēng)或可用以接收、俘獲、傳感及/或檢測到電子裝置100的聲音輸入的任何其它類型的聲音感測器。另外,聲音傳感器300可使用任何合適的軟體及/或硬體用于執(zhí)行這些功能。用戶的所接收輸入聲音流可存儲于存儲單元330中。聲音傳感器300可將用戶的所接收輸入聲音流提供到處理器340以用于處理。
在一個實施例中,聲音傳感器300可從用戶接收包含一或多個聲音樣本的輸入聲音流。在接收輸入聲音流之后,聲音傳感器300即可通過使用任何合適的端點檢測算法檢測輸入聲音流中的聲音樣本或孤立話語中的每一者的起點和端點來檢測來自輸入聲音流的聲音樣本中的每一者。可提取所檢測聲音樣本并將其存儲于存儲單元330中。可將所提取聲音樣本提供到處理器340以用于處理。
存儲單元330可經(jīng)配置以存儲數(shù)據(jù)和指令用于操作聲音傳感器300、I/O單元310、通信單元320和處理器340。存儲單元330還可存儲由聲音傳感器300接收的輸入聲音流或從輸入聲音流提取的一或多個聲音樣本。存儲單元330可使用任何合適的存儲裝置或存儲器裝置實施,例如,隨機接入存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃存儲器、固態(tài)驅(qū)動器(SSD)。
存儲單元330還可存儲可預(yù)存儲于存儲單元330中及/或經(jīng)由通信單元320從外部服務(wù)器或裝置(未展示)下載的至少一個子字模型。在一些實施例中,子字模型可以根據(jù)由子字模型表示的子字的類型而為(但不限于)基于音素的模型、基于音位的模型、基于三音素的模型、基于音節(jié)的模型等,且可包含子字單元的列表和每一子字單元的一或多個聲學(xué)特征。
存儲單元330還可存儲用于檢測輸入聲音中的聲音信號或數(shù)據(jù)中的關(guān)鍵詞及/或特定用戶的一或多個聲音檢測模型。舉例來說,聲音檢測模型可包含經(jīng)調(diào)適以從輸入聲音識別用戶的說話者驗證模型。另外或替代地,聲音檢測模型可包含用于檢測預(yù)定關(guān)鍵詞的一或多個關(guān)鍵詞檢測模型及/或用于檢測用戶定義關(guān)鍵詞的一或多個關(guān)鍵詞檢測模型。用于檢測預(yù)定關(guān)鍵詞的關(guān)鍵詞檢測模型可預(yù)存儲于存儲單元330中或經(jīng)由通信單元320從外部服務(wù)器或裝置(未展示)下載。在一個實施例中,關(guān)鍵詞檢測模型可包含包含多個部分(即,多個子字或子字單元)的子字的序列,可從指示關(guān)鍵詞的一或多個聲音樣本確定事實部分。關(guān)鍵詞檢測模型還可包含與所述子字序列中的多個子字中的每一者相關(guān)聯(lián)的模型參數(shù)和用于檢測關(guān)鍵詞的閾值。
在另一實施例中,關(guān)鍵詞檢測模型可包含子字網(wǎng)絡(luò)。子字網(wǎng)絡(luò)可包含多個節(jié)點和可連接多個節(jié)點中的至少兩個節(jié)點的多個線。關(guān)鍵詞檢測模型還可包含至少一個圖形模型,例如隱式馬爾可夫模型(HMM)、半馬爾可夫模型(SMM)等,圖形模型對應(yīng)于子字網(wǎng)絡(luò)的節(jié)點。圖形模型可包含數(shù)個狀態(tài)和參數(shù),例如躍遷概率、狀態(tài)輸出等。
處理器340中的聲音樣本驗證單元342可經(jīng)配置以從聲音傳感器300或存儲單元330接收一或多個聲音樣本且確定所接收聲音樣本中的每一者是否可用于產(chǎn)生聲音檢測模型。另外或替代地,聲音樣本驗證單元342可從聲音傳感器300或存儲單元330接收包含一或多個聲音樣本的輸入聲音流,且使用任何合適的端點檢測算法從輸入聲音流提取聲音樣本中的每一者。在此狀況下,聲音樣本驗證單元342可將所提取聲音樣本存儲于存儲單元330中。
一旦接收或提取聲音樣本,那么聲音樣本驗證單元342可從聲音樣本中的每一者提取一或多個聲學(xué)特征以確定聲音樣本中的每一者是否可用于產(chǎn)生聲音檢測模型。在一個實施例中,聲音樣本驗證單元342可確定聲音樣本的聲學(xué)特征是否類似供用于產(chǎn)生聲音檢測模型。在另一實施例中,聲音樣本驗證單元342可基于指示音質(zhì)的聲學(xué)特征(例如,SNR、聲強等級等)而確定聲音樣本中的每一者的音質(zhì)是否大于或等于供用于產(chǎn)生聲音檢測模型的閥值質(zhì)量。在一些實施例中,聲音樣本驗證單元342可經(jīng)配置以基于相關(guān)聯(lián)聲學(xué)特征而確定聲音樣本當(dāng)中的最高質(zhì)量聲音樣本??蓪⑺_定最高質(zhì)量聲音樣本提供到聲音檢測模型產(chǎn)生單元344用于產(chǎn)生聲音檢測模型的子字的序列。
另外或替代地,聲音樣本驗證單元342可從用戶接收經(jīng)由I/O單元310將聲音樣本中的一者識別為最佳聲音樣本的輸入。在此狀況下,可將經(jīng)識別聲音樣本提供到聲音檢測模型產(chǎn)生單元344用于產(chǎn)生聲音檢測模型的子字的序列。在一些實施例中,聲音樣本驗證單元342可發(fā)指令給I/O單元310通過I/O單元310的揚聲器播放最佳聲音樣本。另外或替代地,聲音樣本驗證單元342可從用戶接收識別待通過I/O單元310播放的一或多個聲音樣本的輸入,且發(fā)指令給I/O單元310經(jīng)由I/O單元310的說話者播放經(jīng)識別聲音樣本。
在一些實施例中,聲音樣本驗證單元342可從聲音傳感器300或存儲單元330接收一或多個取代或額外聲音樣本。舉例來說,如果聲音樣本驗證單元342確定一或多個所先前接收聲音樣本不可用于產(chǎn)生聲音檢測模型,那么其可丟棄一或多個所先前接收聲音樣本并經(jīng)由聲音傳感器300接收經(jīng)丟棄聲音樣本的一或多個新聲音樣本。另外或替代地,如果所先前接收聲音樣本中沒有一者確定為用于產(chǎn)生聲音檢測模型,那么聲音樣本驗證單元342可丟棄所先前接收聲音樣本且經(jīng)由聲音傳感器300接收一或多個新聲音樣本。
根據(jù)一個實施例,聲音樣本驗證單元342可依次接收聲音樣本,且接著在批處理模式中處理所接收聲音樣本。舉例來說,當(dāng)接收五個聲音樣本時,聲音樣本驗證單元342可確定所有五個聲音樣本是否可用于產(chǎn)生聲音檢測模型,且發(fā)指令給I/O單元310輸出關(guān)于所有五個聲音樣本的確定結(jié)果的指示。在另一實施例中,聲音樣本驗證單元342可一次一個地接收并處理聲音樣本。
聲音檢測模型產(chǎn)生單元344可經(jīng)配置以從聲音樣本驗證單元342接收已經(jīng)確定用于產(chǎn)生聲音檢測模型的一或多個聲音樣本。聲音檢測模型產(chǎn)生單元344可接著基于所接收聲音樣本中的至少一者而產(chǎn)生聲音檢測模型。聲音檢測模型可包含說話者驗證模型、預(yù)定關(guān)鍵詞或用戶定義關(guān)鍵詞的關(guān)鍵詞檢測模型等。聲音檢測模型產(chǎn)生單元344可基于已經(jīng)確定用于產(chǎn)生聲音檢測模型的所接收聲音樣本中的至少一者而確定聲音檢測模型的閾值。在一個實施例中,聲音檢測模型產(chǎn)生單元344可從聲音樣本驗證單元342接收至少一個聲音樣本(聲音樣本可能已由于低SNR而被丟棄或被新聲音樣本替換)以在調(diào)整所產(chǎn)生的聲音檢測模型的過程中將聲音樣本用作嵌入有噪聲的聲音樣本。另外或替代地,聲音檢測模型產(chǎn)生單元344可從聲音樣本驗證單元342接收至少一個聲音樣本(聲音樣本可能已由于低SNR、低聲強等級等而被丟棄),且在調(diào)整聲音檢測模型在閾值的過程中使用聲音樣本。聲音檢測模型產(chǎn)生單元344可將所產(chǎn)生的聲音檢測模型存儲于存儲單元330中。
聲音檢測單元346可經(jīng)配置以從聲音傳感器300或存儲單元330接收輸入聲音流,和基于存儲于存儲單元330中的至少一個聲音檢測模型而檢測輸入聲音流的聲音信號或數(shù)據(jù)中的關(guān)鍵詞及/或特定用戶。舉例來說,在接收指示關(guān)鍵詞的輸入聲音流之后,聲音檢測單元346即可從輸入聲音流依序地提取多個聲學(xué)特征,且確定與至少一個關(guān)鍵詞檢測模型相關(guān)聯(lián)的至少一個關(guān)鍵詞(包含至少一個用戶定義關(guān)鍵詞和至少一個預(yù)定關(guān)鍵詞)的匹配得分。聲音檢測單元346可接著識別具有最大匹配得分且其匹配得分大于或等于閾值的關(guān)鍵詞檢測模型作為輸入聲音流的所匹配關(guān)鍵詞檢測模型。
在識別與關(guān)鍵詞相關(guān)聯(lián)的所匹配關(guān)鍵詞檢測模型之后,聲音檢測單元346即可執(zhí)行與關(guān)鍵詞相關(guān)聯(lián)的功能或啟動、控制或操作與關(guān)鍵詞相關(guān)聯(lián)的應(yīng)用。另外或替代地,聲音檢測單元346可產(chǎn)生并發(fā)射啟動信號以開啟話音輔助單元348,話音輔助單元348可與關(guān)鍵詞相關(guān)聯(lián)??身憫?yīng)于來自聲音檢測單元346的啟動信號而啟動話音輔助單元348。一旦啟動,那么話音輔助單元348可通過在顯示屏幕110上及/或通過I/O單元310的揚聲器輸出消息(例如“我可以幫助你嗎?”)來執(zhí)行話音輔助功能。作為響應(yīng),用戶可說出話音命令以啟動電子裝置100的各種相關(guān)聯(lián)功能。舉例來說,當(dāng)接收用于因特網(wǎng)搜索的話音命令時,話音輔助單元348可將話音命令識別為搜索命令且經(jīng)由通信單元320執(zhí)行網(wǎng)頁搜索。
圖4說明根據(jù)本發(fā)明的一個實施例的經(jīng)配置以確定一或多個聲音樣本是否可用于產(chǎn)生聲音檢測模型的聲音樣本驗證單元342的框圖。聲音樣本驗證單元342可包含特征提取器400、特征緩沖器410和類似性確定單元420。特征提取器400可經(jīng)配置以從聲音傳感器300或存儲單元330接收一或多個聲音樣本,和從所接收聲音樣本中的每一者提取一或多個聲學(xué)特征。舉例來說,特征提取器400可從所接收聲音樣本中的每一者提取頻譜特征、時域特征等。在一個實施例中,特征提取器400可對所接收聲音樣本中的每一者執(zhí)行子字識別以產(chǎn)生每一聲音樣本的子字的序列作為聲學(xué)特征。在另一實施例中,特征提取器400可從所接收聲音樣本中的每一者提取聲強等級(例如,平均聲強等級)或SNR。
在一些實施例中,特征提取器400可計算所接收聲音樣本中的每一者的RT。在此過程中,特征提取器400可將聲音樣本中的每一者劃分成相等時間段的多個依序幀,且從所述幀提取一或多個聲學(xué)特征(例如,頻譜特征)。基于幀中的聲學(xué)特征,可將多個幀當(dāng)中的一個或多個聲學(xué)特征中的類似性確定為相關(guān)性值?;谙嚓P(guān)性值,特征提取器400可確定具有大于或等于閥值相關(guān)性值的相關(guān)性值的聲音樣本的兩個幀之間的最長時間段作為聲音樣本的RT。
在從聲音樣本中的每一者提取一或多個聲學(xué)特征之后,特征提取器400即可將所提取聲學(xué)特征存儲于特征緩沖器410中。特征緩沖器410可經(jīng)配置以從特征提取器400接收所提取聲學(xué)特征,且將其發(fā)射到類似性確定單元420。所提取聲學(xué)特征還可存儲于存儲單元330中。
類似性確定單元420可從特征緩沖器410或存儲單元330接收所提取聲學(xué)特征,且確定聲音樣本的所提取聲學(xué)特征是否類似。在一個實施例中,類似性確定單元420可通過比較相關(guān)聯(lián)聲學(xué)特征來確定聲音樣本中的每一對的聲學(xué)特征是否類似。如果確定至少兩個聲音樣本的聲學(xué)特征類似,那么類似性確定單元420可確定至少兩個聲音樣本類似且可用于產(chǎn)生聲音檢測模型。另一方面,如果類似性確定單元420確定聲音樣本的聲學(xué)特征不類似于至少兩個其它聲音樣本的聲學(xué)特征,那么可確定聲音樣本不可用于產(chǎn)生聲音檢測模型。
在另一實施例中,類似性確定單元420可確定兩個或兩個以上聲音樣本的組合式聲學(xué)特征,且確定聲音樣本的聲學(xué)特征是否類似于組合式聲學(xué)特征。組合式聲學(xué)特征可存儲于特征緩沖器410或存儲單元330中。舉例來說,如果確定第一聲音樣本的聲學(xué)特征與第二聲音樣本的聲學(xué)特征類似,那么類似性確定單元420可基于第一聲音樣本和第二聲音樣本的聲學(xué)特征而確定組合式聲學(xué)特征。在此狀況下,如果確定第三聲音樣本的聲學(xué)特征類似于組合式聲學(xué)特征,那么類似性確定單元420可確定第一、第二與第三聲音樣本類似且可用于產(chǎn)生聲音檢測模型。另一方面,如果類似性確定單元420確定第三聲音樣本的聲學(xué)特征不類似于組合式聲學(xué)特征,那么可確定第三聲音樣本不可用于產(chǎn)生聲音檢測模型。
圖5為根據(jù)本發(fā)明的一個實施例的在電子裝置100中執(zhí)行的用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的方法500的流程圖。首先,電子裝置100可在510處接收用于產(chǎn)生聲音檢測模型的第一聲音樣本。電子裝置100可在520處從第一聲音樣本提取第一聲學(xué)特征。電子裝置100可在530處接收用于產(chǎn)生聲音檢測模型的第二聲音樣本。電子裝置100可在540處從第二聲音樣本提取第二聲學(xué)特征。電子裝置100可在550處確定第二聲學(xué)特征是否類似于第一聲學(xué)特征。
圖6為根據(jù)本發(fā)明的一個實施例的在電子裝置100中執(zhí)行的用于確定組合式聲學(xué)特征的方法600的流程圖。首先,電子裝置100可在610處接收第一聲音樣本并從第一聲音樣本提取第一聲學(xué)特征。電子裝置100可在620處接收第二聲音樣本并從第二聲音樣本提取第二聲學(xué)特征。電子裝置100可在630處確定第二聲學(xué)特征是否類似于第一聲學(xué)特征。如果確定第一聲學(xué)特征與第二聲學(xué)特征類似(即,在640處為是),那么電子裝置100可在650處基于第一聲學(xué)特征和第二聲學(xué)特征而確定組合式聲學(xué)特征。如果確定第一聲學(xué)特征與第二聲學(xué)特征不類似(即,在640處為否),那么方法600可前進到610以接收第一聲音樣本,且從第一聲音樣本提取第一聲學(xué)特征。
圖7為根據(jù)本發(fā)明的另一實施例的在電子裝置100中執(zhí)行的用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的方法700的流程圖。如圖6中所說明,電子裝置100可基于第一聲學(xué)特征和第二聲學(xué)特征而確定組合式聲學(xué)特征。電子裝置100可在710處接收用于產(chǎn)生聲音檢測模型的第三聲音樣本。電子裝置100可在720處從第三聲音樣本提取第三聲學(xué)特征。電子裝置100可在730處確定第三聲學(xué)特征是否類似于第一與第二聲學(xué)特征的組合式聲學(xué)特征。如果確定第三聲學(xué)特征類似于組合式聲學(xué)特征(即,在740處為是),那么電子裝置100可在750處基于第一聲音樣本、第二聲音樣本或第三聲音樣本中的至少一者而產(chǎn)生聲音檢測模型。如果確定第三聲學(xué)特征不類似于組合式聲學(xué)特征(即,在740處為否),那么方法700可前進到710用于接收第三聲音樣本。
圖8為根據(jù)本發(fā)明的另一實施例的在電子裝置100中執(zhí)行的用于在批處理模式中驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的方法800的流程圖。電子裝置100可在810處接收用于產(chǎn)生聲音檢測模型的多個聲音樣本。電子裝置100可在820處確定所接收聲音樣本是否類似。如果確定聲音樣本類似(即,在830處為是),那么電子裝置100可在850處基于聲音樣本中的至少一者而產(chǎn)生聲音檢測模型。如果確定聲音樣本不類似(即,在830處為否),那么電子裝置100可在840處接收至少一個新聲音樣本作為已經(jīng)確定為不類似于其它聲音樣本的至少一個聲音樣本的替換聲音樣本,且方法800可前進到820用于確定所接收聲音樣本是否類似。
圖9為根據(jù)本發(fā)明的另一實施例的在電子裝置100中執(zhí)行的用于確定一或多個聲音樣本的聲學(xué)特征是否類似的方法820的流程圖。電子裝置100可在900處從聲音樣本中的每一者提取一或多個聲學(xué)特征。電子裝置100可在910處確定聲音樣本中的每一對的聲學(xué)特征是否類似。電子裝置100可在920處基于確定聲音樣本中的每一對的聲學(xué)特征是否類似而輸出關(guān)于聲音樣本是否類似的指示。
圖10說明根據(jù)本發(fā)明的一些實施例的無線通信系統(tǒng)中的可實施用于驗證待用于產(chǎn)生聲音檢測模型的一或多個聲音樣本的方法和設(shè)備的示范性電子裝置1000的框圖。示范性電子裝置1000可以是蜂窩電話、智能電話、可穿戴式計算機、智能手表、智能眼鏡、平板個人計算機、終端機、手持機、個人數(shù)字助理(PDA)、無線調(diào)制解調(diào)器、無繩電話、平板計算機等。無線通信系統(tǒng)可以是CDMA系統(tǒng)、GSM系統(tǒng)、W-CDMA系統(tǒng)、LTE系統(tǒng)、LTE高級系統(tǒng)等。
示范性電子裝置1000可能夠經(jīng)由接收路徑和發(fā)射路徑提供雙向通信。在接收路徑上,由基站發(fā)射的信號可由天線1012接收,且可提供到接收器(RCVR)1014。接收器1014可調(diào)節(jié)并數(shù)字化所接收信號,且將經(jīng)調(diào)節(jié)且經(jīng)數(shù)字化在數(shù)字信號提供到數(shù)字區(qū)段以供進一步處理。在發(fā)射路徑上,發(fā)射器(TMTR)1016可從數(shù)字區(qū)段1020接收待發(fā)射的數(shù)據(jù),處理并調(diào)節(jié)數(shù)據(jù),且產(chǎn)生經(jīng)調(diào)制信號,經(jīng)調(diào)制信號經(jīng)由天線1012發(fā)射到基站。接收器1014和發(fā)射器1016可以是可支持CDMA、GSM、W-CDMA、LTE、高級LTE等等收發(fā)器的部分。
數(shù)字區(qū)段1020可包含各種處理、接口和存儲器單元,例如調(diào)制解調(diào)器處理器1022、精簡指令集計算機/數(shù)字信號處理器(RISC/DSP)1024、控制器/處理器1026、內(nèi)部存儲器1028、通用音頻/視頻編碼器1032、通用音頻解碼器1034、圖形/顯示處理器1036,和/或外部總線接口(EBI)1038。調(diào)制解調(diào)器處理器1022可執(zhí)行用于數(shù)據(jù)發(fā)射和接收的處理,例如,編碼、調(diào)制、解調(diào)和解碼。RISC/DSP 1024可對示范性電子裝置1000執(zhí)行通用和專用處理。控制器/處理器1026可執(zhí)行數(shù)字區(qū)段1020內(nèi)的各種處理和接口單元的操作。內(nèi)部存儲器1028可存儲用于數(shù)字區(qū)段1020內(nèi)的各種單元的數(shù)據(jù)和/或指令。
通用音頻/視頻編碼器1032可對來自音頻/視頻源1042、麥克風(fēng)1044、圖像傳感器1046等的輸入信號執(zhí)行編碼。通用音頻解碼器1034可執(zhí)行對經(jīng)譯碼音頻數(shù)據(jù)的解碼,且可將輸出信號提供到揚聲器/頭戴式耳機1048。圖形/顯示處理器1036可對可呈現(xiàn)給顯示單元1050的圖形、視頻、圖像和文本執(zhí)行處理。EBI 1038可促進數(shù)字區(qū)段1020與主存儲器1052之間的數(shù)據(jù)傳送。
可借由一或多個處理器、DSP、微處理器、RISC等來實施數(shù)字區(qū)段1020。數(shù)字區(qū)段1020還可制造于一或多個專用集成電路(ASIC)和/或某一其它類型的集成電路(IC)上。
圖11為說明服務(wù)器系統(tǒng)1100的框圖,服務(wù)器系統(tǒng)1100可以是先前描述為根據(jù)一些實施例所實施的服務(wù)器中的任一者。服務(wù)器系統(tǒng)1100可包含一或多個處理單元(例如,CPU)1102、一或多個網(wǎng)絡(luò)或其它通信網(wǎng)絡(luò)接口、存儲器1112,和用于互連這些組件的一或多個通信總線1114。服務(wù)器系統(tǒng)1100還可包含具有顯示裝置和鍵盤的用戶接口(未展示)。
存儲器1112可以是任何合適的存儲器,例如高速隨機接入存儲器,(例如DRAM、SRAM、DDR RAM或其它隨機接入固態(tài)存儲器裝置)。存儲器1112可包含或可替代地為非易失性存儲器(例如,一或多個磁盤存儲器裝置、光盤存儲裝置裝置、快閃存儲器裝置或其它非易失性固態(tài)存儲裝置)。在一些實施例中,存儲器1112可包含從CPU 1102遠(yuǎn)程定位和/或遠(yuǎn)程定位于多處中的一或多個存儲裝置。
由存儲器1112表示的上述存儲器裝置中的任一者可存儲對應(yīng)于用于執(zhí)行和/或?qū)嵭邢惹八枋龅倪M程、操作和方法中的任一者的一組指令的任何數(shù)目個模組或程序。舉例來說,存儲器1112可包含操作系統(tǒng)1116,其經(jīng)配置以存儲包含用于處置各種基本系統(tǒng)服務(wù)且用于執(zhí)行硬件相關(guān)任務(wù)的程序的指令。存儲器1112的網(wǎng)絡(luò)通信模塊1118可用于經(jīng)由一或多個通信網(wǎng)絡(luò)接口1110(有線或無線)和一或多個通信網(wǎng)絡(luò)(例如因特網(wǎng)、其它廣域網(wǎng)、局域網(wǎng)、城域網(wǎng)等)將服務(wù)器系統(tǒng)1100連接到其它計算機。
存儲器1112還可包含數(shù)據(jù)庫1120,數(shù)據(jù)庫1120經(jīng)配置以包含具有一或多個對象(例如,文本對象和非文本對象)的多個圖像的圖像數(shù)據(jù)庫、分類器數(shù)據(jù)庫、字符信息數(shù)據(jù)庫、詞典數(shù)據(jù)庫等。操作系統(tǒng)1116可通過不同圖像更新圖像數(shù)據(jù)庫,可通過網(wǎng)絡(luò)通信模塊1118來接收和/或捕俘獲所述圖像。操作系統(tǒng)1116還可以經(jīng)由網(wǎng)絡(luò)通信模塊1118將圖像提供到多個電子裝置。此外,可將分類器數(shù)據(jù)庫、字符信息數(shù)據(jù)庫、詞典數(shù)據(jù)庫提供到多個電子裝置以用于檢測圖像的至少一個文本區(qū)域和/或識別至少一個文本區(qū)域中的一或多個字符串。
一般來說,本文中所描述的任何裝置可表示各種類型的裝置,例如無線電話、蜂窩電話、膝上型計算機、無線多媒體裝置、無線通信個人計算機(PC)卡、PDA、外部或內(nèi)部調(diào)制解調(diào)器、通過無線信道通信的裝置等。裝置可具有各種名稱,例如接入終端(AT)、接入單元、訂戶單元、移動臺、移動裝置、移動單元、移動電話、移動設(shè)備、遠(yuǎn)程站、遠(yuǎn)程終端、遠(yuǎn)程單元、用戶裝置、用戶設(shè)備、手持式裝置等。本文中所描述的任何裝置可具有用于存儲指令和數(shù)據(jù)的存儲器以及硬件、軟件、固件或其組合。
可通過各種裝置實施本文中所描述的技術(shù)。舉例來說,這些技術(shù)可以硬件、固件、軟件或其組合來實施。所屬領(lǐng)域的技術(shù)人員將進一步了解,結(jié)合本文中的揭示內(nèi)容描述的各種說明性邏輯塊、模塊、電路和算法步驟可實施為電子硬件、計算機軟件或兩者的組合。為了清楚地說明硬件與軟件的此可互換性,上文已大體上關(guān)于其功能性描述了各種說明性組件、塊、模塊、電路和步驟。此功能性是實施為硬件還是軟件取決于特定應(yīng)用和施加于整個系統(tǒng)的設(shè)計約束。熟練的技術(shù)人員可針對每一特定應(yīng)用以不同方式實施所描述的功能性,但此類實施決策不應(yīng)被解釋為引起偏離本發(fā)明的范圍。
對于硬件實施方案,用以執(zhí)行所述技術(shù)的處理單元可實施在以下各者內(nèi):一或多個ASIC、DSP、數(shù)字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、電子裝置、經(jīng)設(shè)計以執(zhí)行本文中所描述的功能的其它電子單元、計算機,或其組合。
因而,結(jié)合本文中的揭示內(nèi)容描述的各種說明性邏輯塊、模塊和電路可用通用處理器、DSP、ASIC、FPGA或經(jīng)設(shè)計以執(zhí)行本文中所描述的功能的其它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件或其任何組合來實施或執(zhí)行。通用處理器可以是微處理器,但在替代方案中,處理器可以是任何常規(guī)處理器、控制器、微控制器或狀態(tài)機。處理器還可實施為計算裝置的組合,例如,DSP與微處理器的組合、多個微處理器、一或多個微處理器結(jié)合DSP核心,或任何其它此類配置。
如果以軟件實施,那么功能可存儲在計算機可讀媒體處。計算機可讀媒體包含計算機存儲媒體與通信媒體兩者,所述通信媒體包含促進將計算機程序從一處傳送到另一處的任何媒體。存儲媒體可以是可由計算機接入的任何可用媒體。借助于實例而非限制,這些計算機可讀媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置,或可用以攜載或存儲呈指令或數(shù)據(jù)結(jié)構(gòu)形式的所要程序代碼且可由計算機接入的任何其它媒體。如本文中所使用,磁盤和光盤包含壓縮光盤(CD)、激光光盤、光學(xué)光盤、數(shù)字多功能光盤(DVD)、軟性磁盤和藍(lán)光光盤,其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù),而光盤利用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。以上各項的組合也應(yīng)包含在計算機可讀媒體的范圍內(nèi)。舉例來說,計算機可讀存儲媒體可以是包含可由處理器實行的指令的非暫時性計算機可讀存儲裝置。因此,計算機可讀存儲媒體可能不是信號。
提供本發(fā)明的先前描述以使所屬領(lǐng)域的技術(shù)人員能夠制造或使用本發(fā)明。對本發(fā)明的各種修改所屬領(lǐng)域的技術(shù)人員將顯而易見,且本文中所定義的一般原理在不脫離本發(fā)明的精神或范圍的情況下應(yīng)用于其它變體。因此,本發(fā)明并不既定限于本文中所描述的實例,而應(yīng)符合與本文中所揭示的原理和新穎特征相一致的最廣泛范圍。
雖然稱示范性實施方案利用在一或多個獨立計算機系統(tǒng)的背景下的當(dāng)前揭示的標(biāo)的物的方面,但是所述標(biāo)的物不受如此限制,而是可結(jié)合任何計算環(huán)境(例如網(wǎng)絡(luò)或分布式計算環(huán)境)來予以實施。此外,當(dāng)前揭示的標(biāo)的物的方面可以在多個處理芯片或裝置中或跨越多個處理芯片或裝置予以實施,且可類似地跨越多個裝置實現(xiàn)存儲。這些裝置可包含PC、網(wǎng)絡(luò)服務(wù)器和手持式裝置。
雖然已經(jīng)以特定地針對結(jié)構(gòu)特征和/或方法動作的語言來描述標(biāo)的物,但是應(yīng)理解,所附權(quán)利要求書中所定義的標(biāo)的物未必限于上文所描述的具體特征或動作。事實上,揭示上文所描述的特定特征和動作作為實施權(quán)利要求書的實例形式。
應(yīng)了解,不必將上述所識別模塊或程序(即,指令集)實施為單獨軟件程序、程序或模塊,且因此可在各種實施例中組合或以其它方式重新布置這些模塊的各種子集。另外,存儲器1112可存儲上文未描述的額外模塊和數(shù)據(jù)結(jié)構(gòu)。
<本發(fā)明的方面>
在下文中,將另外陳述本發(fā)明的一些方面。
(實例1)根據(jù)本發(fā)明的一方面,提供一種用于驗證待用于產(chǎn)生聲音檢測模型的至少一個聲音樣本的方法,所述方法包括:接收第一聲音樣本;從所述第一聲音樣本提取第一聲學(xué)特征;接收第二聲音樣本;從所述第二聲音樣本提取第二聲學(xué)特征;以及確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例2)實例1的所述方法進一步包括響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲音樣本或所述第二聲音樣本中的至少一者而產(chǎn)生所述聲音檢測模型。
(實例3)實例1或2的所述方法進一步包括:確定所述第一聲音樣本的信噪比(SNR);確定所述第二聲音樣本的SNR;基于所述第一聲音樣本和第二聲音樣本的所述SNR而選擇所述第一聲音樣本或所述第二聲音樣本中的至少一者;在確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征之后,即基于所述所選擇的至少一個聲音樣本而產(chǎn)生所述聲音檢測模型;以及基于所述未選擇的聲音樣本而調(diào)整所述所產(chǎn)生的聲音檢測模型。
(實例4)實例1到3中任一項的所述方法進一步包括:響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲學(xué)特征和所述第二聲學(xué)特征而確定一組合式聲學(xué)特征。
(實例5)實例1到4中任一項的所述方法進一步包括:接收第三聲音樣本;從所述第三聲音樣本提取第三聲學(xué)特征;以及確定所述第三聲學(xué)特征是否類似于所述組合式聲學(xué)特征。
(實例6)在實例1到5中任一項的所述方法中,所述第一聲學(xué)特征和所述第二聲學(xué)特征中的每一者包含頻譜特征或時域特征中的至少一者。
(實例7)在實例1到6中任一項的所述方法中,所述第一聲學(xué)特征和所述第二聲學(xué)特征中的每一者包含子字的序列。
(實例8)在實例1到7中任一項的所述方法中,所述子字包含音素、音位、三音素或音節(jié)中的至少一者。
(實例9)實例1到8中任一項的所述方法進一步包括:響應(yīng)于確定所述第二聲學(xué)特征不類似于所述第一聲學(xué)特征而接收新聲音樣本;從所述新聲音樣本提取新聲學(xué)特征;以及確定所述新聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例10)實例1到9中任一項的所述方法進一步包括:響應(yīng)于確定所述新聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲音樣本或所述新聲音樣本中的至少一者而產(chǎn)生所述聲音檢測模型。
(實例11)在實例1到10中任一項的所述方法中,產(chǎn)生所述聲音檢測模型包括:基于所述第一聲音樣本或所述新聲音樣本中的至少一者而確定所述聲音檢測模型的閾值;以及基于所述第二聲音樣本而調(diào)整所述閾值。
(實例12)實例1到11中任一項的所述方法進一步包括:基于確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征而輸出關(guān)于所述第二聲音樣本是否類似于所述第一聲音樣本的指示;以及接收指示待用于產(chǎn)生所述聲音檢測模型的所述第一聲音樣本或所述第二聲音樣本中的至少一者的輸入。
(實例13)在實例1到12中任一項的所述方法中,所述第一聲音樣本和所述第二聲音樣本中的每一者指示用以啟動所述電子裝置的命令或用以控制所述電子裝置中的應(yīng)用或功能的命令中的至少一者。
(實例14)實例1到13中任一項的所述方法進一步包括:接收語音輸入;以及基于所述聲音檢測模型而從所述語音輸入識別關(guān)鍵詞或用戶中的至少一者。
(實例15)根據(jù)本發(fā)明的另一方面,提供一種用于驗證待用于產(chǎn)生聲音檢測模型的至少一個聲音樣本的電子裝置,所述電子裝置包括:聲音傳感器,其經(jīng)配置以接收第一聲音樣本和第二聲音樣本;以及聲音樣本驗證單元,其經(jīng)配置以從所述第一聲音樣本提取第一聲學(xué)特征、從所述第二聲音樣本提取第二聲學(xué)特征,且確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例16)實例15的所述電子裝置進一步包括聲音檢測模型產(chǎn)生單元,所述聲音檢測模型產(chǎn)生單元經(jīng)配置以響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲音樣本或所述第二聲音樣本中的至少一者而產(chǎn)生所述聲音檢測模型。
(實例17)在實例15或16的所述電子裝置中,所述聲音樣本驗證單元經(jīng)配置以響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲學(xué)特征和所述第二聲學(xué)特征而確定一組合式聲學(xué)特征。
(實例18)在實例15到17中任一項的所述電子裝置中,所述聲音傳感器經(jīng)配置以接收第三聲音樣本;且所述聲音樣本驗證單元經(jīng)配置以從所述第三聲音樣本提取第三聲學(xué)特征且確定所述第三聲學(xué)特征是否類似于所述組合式聲學(xué)特征。
(實例19)在實例15到18中任一項的所述電子裝置中,所述聲音傳感器經(jīng)配置以響應(yīng)于確定所述第二聲學(xué)特征不類似于所述第一聲學(xué)特征而接收新聲音樣本,且所述聲音樣本驗證單元經(jīng)配置以從所述新聲音樣本提取新聲學(xué)特征且確定所述新聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例20)根據(jù)本發(fā)明的再一方面,提供一種非暫時性計算機可讀存儲媒體,其包括致使電子裝置的至少一個處理器執(zhí)行以下操作的指令:接收第一聲音樣本;從所述第一聲音樣本提取第一聲學(xué)特征;接收第二聲音樣本;從所述第二聲音樣本提取第二聲學(xué)特征;以及確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例21)實例20的所述非暫時性計算機可讀存儲媒體進一步包括致使所述電子裝置的所述至少一個處理器執(zhí)行以下操作的指令:響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲音樣本或所述第二聲音樣本中的至少一者而產(chǎn)生所述聲音檢測模型。
(實例22)實例20或21的所述非暫時性計算機可讀存儲媒體進一步包括致使所述電子裝置的所述至少一個處理器執(zhí)行以下操作的指令:響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲學(xué)特征和所述第二聲學(xué)特征而確定一組合式聲學(xué)特征。
(實例23)實例20到22中任一項的所述非暫時性計算機可讀存儲媒體進一步包括致使所述電子裝置的所述至少一個處理器執(zhí)行以下操作的指令:接收第三聲音樣本;從所述第三聲音樣本提取第三聲學(xué)特征;以及確定所述第三聲學(xué)特征是否類似于所述組合式聲學(xué)特征。
(實例24)實例20到23中任一項的所述非暫時性計算機可讀存儲媒體進一步包括致使所述電子裝置的所述至少一個處理器執(zhí)行以下操作的指令:響應(yīng)于確定所述第二聲學(xué)特征不類似于所述第一聲學(xué)特征而接收新聲音樣本;從所述新聲音樣本提取新聲學(xué)特征;以及確定所述新聲學(xué)特征是否類似于所述第一聲學(xué)特征。
(實例25)根據(jù)本發(fā)明的又另一方面,提供一種用于驗證待用于產(chǎn)生聲音檢測模型的至少一個聲音樣本的電子裝置,所述電子裝置包括:用于接收第一聲音樣本的裝置;用于從所述第一聲音樣本提取第一聲學(xué)特征的裝置;用于接收第二聲音樣本的裝置;用于從所述第二聲音樣本提取第二聲學(xué)特征的裝置;以及用于確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征的裝置。
(實例26)實例25的所述電子裝置進一步包括用于響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲音樣本或所述第二聲音樣本中的至少一者而產(chǎn)生所述聲音檢測模型的裝置。
(實例27)實例25或26的所述電子裝置進一步包括用于響應(yīng)于確定所述第二聲學(xué)特征類似于所述第一聲學(xué)特征而基于所述第一聲學(xué)特征和所述第二聲學(xué)特征而確定一組合式聲學(xué)特征的裝置。
(實例28)實例25到27中任一項的所述電子裝置進一步包括:用于接收第三聲音樣本的裝置;用于從所述第三聲音樣本提取第三聲學(xué)特征的裝置;以及用于確定所述第三聲學(xué)特征是否類似于所述組合式聲學(xué)特征的裝置。
(實例29)實例25到28中任一項的所述電子裝置進一步包括:用于響應(yīng)于確定所述第二聲學(xué)特征不類似于所述第一聲學(xué)特征而接收新聲音樣本的裝置;用于從所述新聲音樣本提取新聲學(xué)特征的裝置;以及用于確定所述新聲學(xué)特征是否類似于所述第一聲學(xué)特征的裝置。
(實例30)實例25到29中任一項的所述電子裝置進一步包括:用于基于確定所述第二聲學(xué)特征是否類似于所述第一聲學(xué)特征而輸出關(guān)于所述第二聲音樣本是否類似于所述第一聲音樣本的指示的裝置;以及用于接收指示待用于產(chǎn)生所述聲音檢測模型的所述第一聲音樣本或所述第二聲音樣本中的至少一者的輸入的裝置。