用于聲學(xué)變換的系統(tǒng)和方法
【專利摘要】本發(fā)明公開了聲學(xué)變換的系統(tǒng)和方法。一個具體的實施例是:變換由具有語音障礙的說話者產(chǎn)生的聲學(xué)言語信號以使得他們的話語更易于普通聽眾理解。這些改變包括:語速或節(jié)奏的修正、響音中的共振峰頻率的調(diào)整、異常發(fā)聲的去除或調(diào)整、音素插入錯誤的刪除、以及錯誤丟棄音素的替換。這些方法還可以被應(yīng)用于音樂序列或聲學(xué)序列的一般修正。
【專利說明】用于聲學(xué)變換的系統(tǒng)和方法
[0001]交叉引用
[0002]本申請要求于2011年7月25日提交的美國專利申請第61/511,275號的優(yōu)先權(quán),其全部內(nèi)容通過引用合并于此。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明一般涉及聲學(xué)變換,更具體地,本發(fā)明涉及用于改善說話者或聲音的可理解性的聲學(xué)變換。
【背景技術(shù)】
[0004]目前存在一些聲音被不準(zhǔn)確地產(chǎn)生的例子,結(jié)果是所聽到的聲音不是想要的聲音。具有構(gòu)音障礙的說話者通常不準(zhǔn)確地發(fā)出言語聲。
[0005]構(gòu)音障礙是損害物理產(chǎn)生語音的一組神經(jīng)運動失調(diào)。這些損害降低了對主要發(fā)聲器官的正??刂?,但是不影響對有意義的、語法正確的語言的常規(guī)理解或產(chǎn)生。例如,對喉返神經(jīng)的損傷降低了對聲壁振動(即,發(fā)聲)的控制,這會引起異常地發(fā)聲。由迷走神經(jīng)的損傷引起的對軟腭移動的控制不足可能導(dǎo)致在說話期間不成比例的空氣量通過鼻子被釋放(gp,鼻音重)。還已觀察到的是,發(fā)音控制的不足還導(dǎo)致各種不自主的非言語聲,包括腭咽或聲門雜音。更普遍地,已表明的是,舌頭和嘴唇靈活性的不足常常產(chǎn)生嚴(yán)重的口齒不清以及更加啰嗦以及更不可區(qū)分的元音目標(biāo)空間。
[0006]導(dǎo)致構(gòu)音障礙的神經(jīng)損傷通常也影響其它的身體活動,這會對運動性或者計算機交互產(chǎn)生極大的不良影響。例如,已經(jīng)表明的是,在鍵盤交互中,嚴(yán)重的構(gòu)音障礙的說話者比普通的用戶慢150至300倍。然而,因為構(gòu)音障礙性言語被觀察到通常僅比普通說話者的語音慢10至17倍,所以言語被認定是用于計算機輔助互動的一種可行的輸入模式。
[0007]例如,必須使用公共交通前往城市的構(gòu)音障礙的個人可能要購買車票、問路、或者向同行的乘客表明意圖,所有這些都發(fā)生在嘈雜和擁擠的環(huán)境中。因此,一些提出的方案已涉及個人便攜式通信裝置(手持式的或連接到輪椅上的),該通信裝置在通過一組揚聲器進行播放之前對講入麥克風(fēng)的相對難以理解的語音進行變換以使其更易于理解。這些提出的裝置中的一些導(dǎo)致說話者包括個人做作的或者自然的表達的任意個人方面的損失,這是由于這些裝置輸出的是機器人的發(fā)聲語音。使用韻律來表達諸如個人的情緒狀態(tài)之類的個人信息通常不被這類系統(tǒng)支持,盡管如此,使用韻律仍被認為對一般的交際能力來說是很重要的。
[0008]此外,自然語言處理軟件的使用日益增長,特別是在面向消費者的應(yīng)用。隨著對這類軟件的使用和依賴的增加,對于受言語狀況折磨的人的限制變得更加顯著。
[0009]本發(fā)明的目標(biāo)是克服或消除上述缺點中的至少一個。
【發(fā)明內(nèi)容】
[0010]本發(fā)明提供了用于聲學(xué)變換的系統(tǒng)和方法。
[0011]在一方面,提供了一種用于變換聲學(xué)信號的系統(tǒng),該系統(tǒng)包括聲學(xué)變換引擎,其用于根據(jù)一個或多個變換規(guī)則將一個或多個變換施加至所述聲學(xué)信號,所述一個或多個變換規(guī)則被配置為確定所述聲學(xué)信號的一個或多個時間片段中的各時間片段的正確性。
[0012]在另一方面,提供了一種用于變換聲學(xué)信號的方法,該方法包括:(a)配置一個或多個變換規(guī)則以確定所述聲學(xué)信號的一個或多個時間片段中的各時間片段的正確性;(b)由聲學(xué)變換引擎根據(jù)所述一個或多個變換規(guī)則將一個或多個變換施加至所述聲學(xué)信號。
【專利附圖】
【附圖說明】
[0013]在以下結(jié)合附圖所給出的詳細說明中,本發(fā)明的特征將變得更加明顯,其中:
[0014]圖1是提供有聲學(xué)變換引擎的系統(tǒng)的示例的框圖;
[0015]圖2是示出了聲學(xué)變換方法的示例的流程圖;
[0016]圖3是獲取的構(gòu)音障礙的說話者和對照說話者的聲學(xué)信號的圖形化表示;和
[0017]圖4是示出獲取的聲學(xué)信號(a)和相應(yīng)的變換后的信號(b)的聲譜圖。
【具體實施方式】
[0018]本發(fā)明提供了聲學(xué)變換的系統(tǒng)和方法。本發(fā)明包括聲學(xué)變換引擎,其用于通過根據(jù)一個或多個變換規(guī)則對聲學(xué)信號施加一個或多個變換來變換該聲學(xué)信號。所述變換規(guī)則被配置為使所述聲學(xué)變換引擎能夠確定所述聲學(xué)信號的一個或多個時間片段中的各時間片段的正確性。
[0019]確定為不正確的片段可以被變形、變換、替換或刪除??梢詫⒁粋€片段插入到具有確定為不正確地相鄰的片段的聲學(xué)信號中。不正確可定義為感知與期望的不同。
[0020]參考圖1,示出了提供有聲學(xué)變換引擎(2)的系統(tǒng)。聲學(xué)變換引擎(2)包括輸入裝置(4)、濾波工具(8)、拼接工具(10)、時間變換工具(12)、頻率變換工具(14)和輸出裝置
(16)。該聲學(xué)變換引擎進一步包括聲學(xué)規(guī)則引擎(18)和聲學(xué)樣本數(shù)據(jù)庫(20)。該聲學(xué)變換引擎可進一步包括降噪工具(6)、聲學(xué)樣本合成器(22)和合并工具(46)。
[0021]輸入裝置可操作用于獲取將要進行變換的聲學(xué)信號。該輸入裝置可以是麥克風(fēng)
(24)或其它聲音源(26),或者可以是與麥克風(fēng)(28)或其它聲音源(30)以可通信方式鏈接的輸入裝置。例如,聲音源可以是存儲在存儲器中的聲音文件或者是發(fā)聲裝置的輸出。
[0022]例如,降噪工具可以通過應(yīng)用諸如譜減法之類的降噪算法對聲學(xué)信號施加降噪。之后,濾波工具、拼接工具、時間變換工具和頻率變換工具對該聲學(xué)信號施加變換。之后變換后的信號可以通過輸出裝置輸出。該輸出裝置可以是揚聲器(32)或配置為存儲變換后的信號的存儲器(34),或者可以是與揚聲器(36)、配置為存儲變換后的信號的存儲器(38)或?qū)⒆儞Q后的信號作為輸入接收的另一裝置(40)以可通信方式鏈接的輸出裝置。
[0023]聲學(xué)變換引擎可以通過計算機化裝置實現(xiàn),這些裝置例如為桌面型計算機、膝上型計算機、平板電腦、移動裝置或具有存儲器(42)和一個或多個計算機處理器(44)的其它裝置。存儲器具有已存儲于其上的計算機指令,當(dāng)這些指令被一個或多個處理器執(zhí)行時,其提供了在本文中描述的功能。
[0024]聲學(xué)變換引擎可包括在聲學(xué)變換裝置。聲學(xué)變換裝置可以是,例如手持式計算機化裝置,其包括:作為輸入裝置的麥克風(fēng)、作為輸出裝置的揚聲器、以及一個或多個處理器、控制器和/或?qū)崿F(xiàn)濾波工具、拼接工具、時間變換工具以及頻率變換工具的電路。
[0025]這種聲學(xué)變換裝置的一個特定的示例是可嵌入到輪椅中的移動裝置。這種聲學(xué)變換裝置的另一個示例是可植入式或可佩戴式的裝置(優(yōu)選的是基于芯片或其他的小型化)。這種聲學(xué)變換裝置的又一個示例是可由聲學(xué)信號的收聽者佩戴的頭戴式耳機。
[0026]聲學(xué)變換引擎可以應(yīng)用于任何由聲學(xué)信號表不的聲音以變換、標(biāo)準(zhǔn)化或調(diào)整該聲音。在一個示例中,聲音可以是個人的言語。例如,聲學(xué)變換引擎可以應(yīng)用于具有語音障礙的個人的言語以糾正他們的發(fā)音、語速和語調(diào)。
[0027]在另一個示例中,聲音可能來自樂器。在該示例中,聲音變換引擎可操作用于糾正未調(diào)諧的樂器的音高或者修改不正確的音符與和弦,此外其還可以分別插入漏掉的聲音或者去除意外的聲音,并且及時校正那些聲音的長度。
[0028]在又一個不例中,聲音可以是被合成為類似自然聲音的預(yù)先錄制的聲音。例如,車載計算機可以被編程以輸出類似引擎聲音的特殊聲音。適時地,輸出的聲音會受外部因素影響。聲學(xué)變換引擎可以應(yīng)用于糾正車載計算機的輸出聲音。
[0029]聲學(xué)變換引擎還可以應(yīng)用于特定人聲的合成模仿。例如,通過改變配音演員的語音特征以更類似另一個人,能夠使前者聽起來更像后者。
[0030]盡管存在大量的針對聲學(xué)變換引擎的應(yīng)用的其它示例,但為了簡化起見,本公開描述言語的變換。本公開更具體地描述構(gòu)音障礙性言語的變換。應(yīng)當(dāng)理解,可以使用基本上類似于本文所描述的技術(shù)來提供其它語音和其它聲音的變換。
[0031]聲學(xué)變換引擎可以保留個人言語的自然韻律(包括音高和強音),以保留諸如情緒之類的詞匯外(extra-lexical)信息。
[0032]聲學(xué)樣本數(shù)據(jù)庫可以填入由聲學(xué)樣本合成器產(chǎn)生的一組合成樣本聲音。聲學(xué)樣本合成器可以由第三方(例如,文本轉(zhuǎn)語音引擎)提供或者可以包括在聲學(xué)變換引擎中。這可能涉及,例如,使用具有低通濾波的多相濾波器對合成言語重新采樣以避免與原始所講的源言語混疊。
[0033]在另一個示例中,聲學(xué)變換引擎的管理員或用戶可以將一組樣本聲音記錄填入聲學(xué)樣本數(shù)據(jù)庫。在將聲學(xué)變換引擎應(yīng)用于言語的示例中,樣本聲音與諸如預(yù)先錄制的詞匯之類的適當(dāng)或期望的言語版本對應(yīng)。
[0034]在構(gòu)音障礙性言語的示例中,文本轉(zhuǎn)語音算法可以使用基于線性預(yù)測編碼的方法來利用發(fā)音詞典和幫助語調(diào)參數(shù)選擇的詞性標(biāo)注器來合成音素。在該示例中,對于構(gòu)音障礙的說話者說出的文本或語言,聲學(xué)樣本數(shù)據(jù)庫填入了期望的語音。因為離散的音素序列本身可以不同,所以可以通過萊文斯坦算法在兩者之間找到理想的校準(zhǔn),該算法提供了插入、刪除和替換錯誤的總數(shù)。
[0035]聲學(xué)規(guī)則引擎可以配置有與不適當(dāng)輸入聲學(xué)信號的實驗發(fā)現(xiàn)相關(guān)的規(guī)則。例如,在將聲學(xué)變換引擎應(yīng)用于由構(gòu)音障礙的講話者發(fā)出的言語的情況下,聲學(xué)規(guī)則引擎可以配置有與針對構(gòu)音障礙的講話者的普遍言語問題相關(guān)的規(guī)則。此外,聲學(xué)規(guī)則引擎可以包括學(xué)習(xí)算法或啟發(fā)法以使這些規(guī)則適應(yīng)于聲學(xué)變換引擎的特定用戶,這向用戶提供了定制化。
[0036]在構(gòu)音障礙性言語的示例中,聲學(xué)規(guī)則引擎可以配置有與聲學(xué)的各種變換相對應(yīng)的一個或多個變換規(guī)則。各規(guī)則用以糾正如經(jīng)驗觀察所確定的可能由構(gòu)音障礙引起的特定類型的錯誤。這種觀察的源的一個示例是構(gòu)音障礙性言語的TORGO數(shù)據(jù)庫。
[0037]聲學(xué)變換引擎根據(jù)這些規(guī)則對通過輸入裝置提供的聲學(xué)信號施加變換。
[0038]聲學(xué)規(guī)則引擎可以應(yīng)用源言語的自動或半自動的注釋以能夠進行更精確的詞匯識別。這通過類似于在自動言語識別中使用但是用于受限制任務(wù)的高級分類技術(shù)來實現(xiàn)。目前存在很多能夠應(yīng)用的自動注釋技術(shù),包括,例如,根據(jù)停止間隙的出現(xiàn)、元音延長、以及不正確的音節(jié)重復(fù)將各種神經(jīng)網(wǎng)絡(luò)和粗糙集應(yīng)用于分類言語片段的任務(wù)。在各種情況中,輸入包括源波形和檢測到的共振峰頻率。使用粗糙集方法,可以高精確度(約97.2%)檢測到停止間隙和元音延長,并且可以高精確度(高達約90%)檢測到元音重復(fù)。使用更傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)精確度可能是相似的。即使對源言語進行頻率改變,這些結(jié)果通常也是不變的。例如,通過使用音高、持續(xù)時間和停頓檢測,能夠可靠地識別出不流利的重復(fù)(具有高達約93%的精確度)。如果實施更傳統(tǒng)的用于識別元音的言語識別模型,則它們產(chǎn)生猜測詞匯的概率可以用于權(quán)衡進行聲學(xué)變換的方式。如果將結(jié)合詞匯預(yù)測,則能夠?qū)⒄f出的句子片段的預(yù)測延續(xù)部分合成而不需要聲學(xué)輸入。
[0039]現(xiàn)在參考圖2,其示出了由聲學(xué)變換引擎提供的聲學(xué)變換的示例方法。輸入裝置獲取聲學(xué)信號;該聲學(xué)信號可以包括同時在多個通道上的聲學(xué)錄音,稍后會重新合并這些聲學(xué)信號,如在波束形成中一樣。在應(yīng)用變換之前,聲學(xué)變換引擎可以應(yīng)用降噪或增強(例如,采用譜減法),以及自動音位、音素、或詞匯的注釋。聲學(xué)變換引擎應(yīng)用的變換可以由提供發(fā)音方式、元音片段的識別、和/或其它的抽象言語和語言表示的知識的注釋來輔助以處理聲學(xué)信號。
[0040]聲學(xué)信號的聲譜圖或其它基于頻率或頻率導(dǎo)出的(例如,倒譜)表示可以用快速傅里葉變換(FFT)、線性預(yù)測編碼、或其它的這類方法(典型地通過分析時間信號的短窗口)來獲取。這通常(但非必須)涉及這樣的基于頻率或頻率導(dǎo)出的表示,在該表示中域由值的向量(例如,頻帶)進行編碼。這通常涉及針對該域的限制范圍(例如,頻域中的O到8kHz)。發(fā)聲邊界可以從與聲譜圖對齊的一維向量中提取;例如,這可以通過使用高斯混合模型(GMMs)或用過零率、振幅、能量和/或頻譜作為輸入?yún)?shù)進行訓(xùn)練的其它概率函數(shù)來實現(xiàn)。音高(基于基本頻率Ftl)升降曲線可以通過采用由倒譜和時序特征描述的Ftl軌跡的維特比類(Viterb1-1ike)電勢解碼的方法從聲譜圖中提取??梢员砻鞯氖牵c同時被記錄的舌動電流描記器的數(shù)據(jù)相比,在預(yù)估Ftl曲線時可以實現(xiàn)小于約0.14%的錯誤率。優(yōu)選地,這些曲線不會由于變換而被改變,這是因為在聲學(xué)變換引擎的一些應(yīng)用中,使用原始Ftl導(dǎo)致了盡可能高的理解度。
[0041]變換可以包括濾波、拼接、時間變形和頻率變形。在對構(gòu)音障礙性言語施加聲學(xué)變換的一個示例中,可以施加這些變換中的每一個。在其它應(yīng)用中,這些變換中的一個或多個可能不需要被施加。要施加的這些變換能夠基于聲學(xué)信號的預(yù)期問題來選擇,其可以是聲學(xué)信號所表示的內(nèi)容的結(jié)果。
[0042]此外,這些變換可以按照任意的順序來施加。施加這些變換的順序可以是聲學(xué)變換引擎的實施或?qū)嵤├械慕Y(jié)果。例如,當(dāng)按照特定的順序、是否基于處理器的特定指令集、在處理器中使用流水線的效率等來施加各變換時,可以更有效地利用實施聲學(xué)變換引擎的特定處理器。
[0043]此外,可以獨立地施加某些變換,其中包括以并行方式來施加。這些獨立變換的信號能夠之后被合并以產(chǎn)生變換后的信號。例如,當(dāng)并行地執(zhí)行丟棄或插入音素的糾正時,詞匯中元音的共振峰頻率能夠可以被改變,并且這些能夠在之后通過,例如,時域基音同步疊加(TD-PSOLA)由合并工具合并??梢源械厥┘悠渌儞Q(例如,在某些示例中,聲學(xué)噪聲的去除與共振峰的改變的并行應(yīng)用可能不會提供最優(yōu)的輸出)。
[0044]濾波工具施加濾波變換。在將聲學(xué)變換引擎應(yīng)用于構(gòu)音障礙性言語的一個示例中,濾波工具可以被配置為基于由注釋源提供的信息施加濾波。
[0045]例如,TORGO數(shù)據(jù)庫表明,在構(gòu)音障礙性言語中清輔音被不適當(dāng)?shù)氐臐峄癁槎噙_
18.7%的爆破音(例如,/d/發(fā)/t/的音)和多達8.5%的摩擦音(例如,M發(fā)/f/的音)。濁輔音一般通過濁音橫杠(voice bar)的存在而與它們的對應(yīng)清輔音相區(qū)分,濁音橫杠是表示通常持續(xù)整個輔音或爆破音之前的閉合期間的聲襞振動的低于150hz的能量集中。TORGO數(shù)據(jù)庫還表明對于至少兩個男性構(gòu)音障礙的說話者來說,濁音橫杠延伸得相當(dāng)高,高達 250Hz。
[0046]為了糾正這些錯誤發(fā)音,濾波工具濾除所有注釋為清輔音的聲學(xué)子序列的濁音橫杠。在該示例中,濾波器可以是高通巴特沃斯濾波器,其通帶最平滑并且頻域中振幅單一。巴特沃斯濾波器可以配置為在關(guān)于奈奎斯特頻率的歸一化頻率范圍上使用,使得如果波形的采樣率是16kHz,則針對巴特沃斯濾波器的歸一化截止頻率是八=250/(1.6xl04/2) = 3.125xl0—2。該巴特沃斯濾波器是信號之間的全極點傳遞函數(shù)。濾波工具可以應(yīng)用10階的低通巴特沃斯濾波器,其振幅響應(yīng)是
【權(quán)利要求】
1.一種用于變換聲學(xué)信號的系統(tǒng),包括:聲學(xué)變換引擎,其用于根據(jù)一個或多個變換規(guī)則對所述聲學(xué)信號施加一個或多個變換,所述一個或多個變換規(guī)則被配置為確定所述聲學(xué)信號的一個或多個時間片段中的各時間片段的正確性。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聲學(xué)變換引擎用于對被確定為不正確的片段進行變形或變換。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聲學(xué)變換引擎用于將被確定為不正確的片段替換為樣本聲音。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聲學(xué)變換引擎用于刪除被確定為不正確的片段。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聲學(xué)變換引擎用于在被確定為不正確地相鄰的兩個片段之間插入樣本聲音或合成聲音。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述變換包括濾波、拼接、時間變換和頻率變換中的一個或多個。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述變換規(guī)則與不當(dāng)聲學(xué)信號的實驗發(fā)現(xiàn)相關(guān)。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述變換規(guī)則應(yīng)用所述聲學(xué)信號的自動或半自動的注釋以識別所述片段。
9.根據(jù)權(quán)利要求 1所述的系統(tǒng),其中施加所述變換包括從聲學(xué)樣本數(shù)據(jù)庫獲取基準(zhǔn)信號或基準(zhǔn)參數(shù)。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述聲學(xué)變換引擎并行地施加所述變換并合并經(jīng)變換的各聲學(xué)信號以產(chǎn)生變換后的信號。
11.一種用于變換聲學(xué)信號的方法,所述方法包括: (a)配置一個或多個變換規(guī)則以確定所述聲學(xué)信號的一個或多個時間片段中的各時間片段的正確性;以及 (b)根據(jù)所述一個或多個變換規(guī)則由聲學(xué)變換引擎將一個或多個變換施加至所述聲學(xué)信號。
12.根據(jù)權(quán)利要求11所述的方法,還包括對被確定為不正確的片段進行變形或變換。
13.根據(jù)權(quán)利要求11所述的方法,還包括將被確定為不正確的片段替換為樣本聲音。
14.根據(jù)權(quán)利要求11所述的方法,還包括刪除被確定為不正確的片段。
15.根據(jù)權(quán)利要求11所述的方法,還包括在被確定為不正確地相鄰的兩個片段之間插入樣本聲音或合成聲音。
16.根據(jù)權(quán)利要求11所述的方法,其中所述變換包括濾波、拼接、時間變換和頻率變換中的一個或多個。
17.根據(jù)權(quán)利要求11所述的方法,其中所述變換規(guī)則與不當(dāng)聲學(xué)信號的實驗發(fā)現(xiàn)相關(guān)。
18.根據(jù)權(quán)利要求11所述的方法,其中所述變換規(guī)則應(yīng)用所述聲學(xué)信號的自動的或半自動的注釋以識別所述片段。
19.根據(jù)權(quán)利要求11所述的方法,其中施加所述變換包括從聲學(xué)樣本數(shù)據(jù)庫獲取基準(zhǔn)信號或基準(zhǔn)參數(shù)。
20.根據(jù)權(quán)利要求11所述的方法,還包括并行地施加所述變換并合并經(jīng)變換的各聲學(xué)信號以 產(chǎn)生變換后的信號。
【文檔編號】G10H1/36GK104081453SQ201280037282
【公開日】2014年10月1日 申請日期:2012年7月25日 優(yōu)先權(quán)日:2011年7月25日
【發(fā)明者】弗蘭克·魯?shù)缕嫫? 格雷姆·約翰·赫斯特, 帕斯卡爾·胡貝特·亨利·瑪麗·范利斯豪特, 杰拉爾德·布拉德利·佩恩, 格雷厄姆·弗雷澤·沙因 申請人:索拉公司