用于語音轉(zhuǎn)換的自動(dòng)施主分級(jí)和選擇系統(tǒng)及方法

文檔序號(hào)：2830033閱讀：357來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于語音轉(zhuǎn)換的自動(dòng)施主分級(jí)和選擇系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音處理領(lǐng)域，尤其涉及為語音轉(zhuǎn)換過程選擇施主發(fā)音人的技術(shù)。
背景技術(shù)：
語音轉(zhuǎn)換的目的在于將源(即，施主)發(fā)音人的語音變換為目標(biāo)發(fā)音人的語音。雖然出于此目的已提出了多種算法，但是沒有一種能夠確保不同施主-目標(biāo)發(fā) 音人對(duì)的等效性能。
語音轉(zhuǎn)換性能對(duì)施主-目標(biāo)發(fā)音人對(duì)的依賴性對(duì)于實(shí)際應(yīng)用是不利的。然而，在大多數(shù)情形中，目標(biāo)發(fā)音人是固定的，即語音轉(zhuǎn)換應(yīng)用旨在生成特定目標(biāo)發(fā)音人的語音，而施主發(fā)音人可以從一組候選人中選擇。作為一個(gè)示例，考慮涉及在例如計(jì)算機(jī)游戲應(yīng)用中將普通語音變換為名人語音的配音應(yīng)用。不是使用該實(shí)際的名人來記錄聲軌——這可能非常昂貴或不可行，而是使用語音轉(zhuǎn)換系統(tǒng)將普通人的語音 (即，施主的語音)轉(zhuǎn)換成聽起來與該名人相同的語音。在這種情形中，在一組施主候選人即可利用的人中選擇最合適的施主發(fā)音人從而顯著地提高了輸出質(zhì)量。例如，來自女性羅馬語發(fā)音人的語音在一特定應(yīng)用中可能比來自男性德語發(fā)音人的語音更適合作為施主語音。然而，從所有可能的候選人當(dāng)中收集整個(gè)訓(xùn)練數(shù)據(jù)庫、為每個(gè)可能的候選人執(zhí)行適當(dāng)?shù)霓D(zhuǎn)換、在各轉(zhuǎn)換之間進(jìn)行比較、以及獲得一個(gè)或多個(gè) 收聽人對(duì)每個(gè)候選人的輸出質(zhì)量或適用性的主觀決策。

發(fā)明內(nèi)容
本發(fā)明通過提供用于從一組施主候選人當(dāng)中自動(dòng)地評(píng)估和選擇合適的施主發(fā) 音人用于轉(zhuǎn)換到給定目標(biāo)發(fā)音人的施主選擇系統(tǒng)克服了現(xiàn)有技術(shù)的這些和其它缺陷。具體地，本發(fā)明尤其在通過比較從若干施主獲得的聲學(xué)特征與目標(biāo)發(fā)聲而無需實(shí)際執(zhí)行語音轉(zhuǎn)換的選擇過程中采用了客觀準(zhǔn)則?？陀^準(zhǔn)則與輸出質(zhì)量之間的某種關(guān)系使得能夠選擇最佳施主候選人。這種系統(tǒng)尤其避免了轉(zhuǎn)換大量語音并且用一組人主觀地收聽轉(zhuǎn)換質(zhì)量的需要。
在本發(fā)明的一個(gè)實(shí)施例中，用于將施主分級(jí)的系統(tǒng)包括聲學(xué)特征提取器，從施主語音樣本和目標(biāo)發(fā)音人語音樣本提取聲學(xué)特征；以及自適應(yīng)系統(tǒng)，根據(jù)所提取的聲學(xué)特征生成語音轉(zhuǎn)換質(zhì)量的預(yù)測(cè)。語音轉(zhuǎn)換質(zhì)量可以依據(jù)轉(zhuǎn)換的整體質(zhì)量以及所轉(zhuǎn)換的語音與目標(biāo)發(fā)音人的聲音特性的相似性。聲學(xué)特征可包括諸如線譜頻率 (LSF)距離、音高、音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、詞間靜默持續(xù)時(shí)間、能量、頻譜傾斜、頻率微擾、開商、幅度微擾、以及電聲門圖(EGG) 形狀值。
在另一實(shí)施例中，一種為目標(biāo)發(fā)音人選擇合適施主的系統(tǒng)采用施主分級(jí)系統(tǒng) 并基于該分級(jí)結(jié)果選擇施主。
在另一實(shí)施例中，一種用于將施主分級(jí)的方法包括提取一種或多種聲學(xué)特征并使用自適應(yīng)系統(tǒng)根據(jù)該聲學(xué)特征預(yù)測(cè)語音轉(zhuǎn)換質(zhì)量。
在又一實(shí)施例中，一種用于訓(xùn)練施主分級(jí)系統(tǒng)的方法包括以下步驟從語音樣本的訓(xùn)練數(shù)據(jù)庫選擇施主和目標(biāo)發(fā)音人；獲取主觀質(zhì)量值；從施主聲音語音樣本和目標(biāo)發(fā)音人聲音語音樣本提取一種或多種聲學(xué)特征；將該聲學(xué)特征提供給自適應(yīng) 系統(tǒng)；使用該自適應(yīng)系統(tǒng)預(yù)測(cè)質(zhì)量值；計(jì)算所預(yù)測(cè)的質(zhì)量值與主觀質(zhì)量值之間的誤差；以及根據(jù)該誤差調(diào)整改自適應(yīng)系統(tǒng)。此外，主觀質(zhì)量值可通過將施主聲音語音樣本轉(zhuǎn)換為轉(zhuǎn)換后具有目標(biāo)發(fā)音人的聲音特性的聲音語音樣本、將轉(zhuǎn)換后的聲音語音樣本和目標(biāo)發(fā)音人聲音語音樣本兩者都提供給一個(gè)或多個(gè)主觀收聽者、以及從主觀聽收者接收主觀質(zhì)量值。該主觀質(zhì)量值可以是從每個(gè)主觀收聽者獲得的單個(gè)主觀質(zhì)量值的統(tǒng)計(jì)組合。
根據(jù)以下本發(fā)明的優(yōu)選實(shí)施例的更為具體的說明、附圖、以及權(quán)利要求，本發(fā)明的上述和其它特征及優(yōu)點(diǎn)將是顯而易見的。

為了更加完整地理解本發(fā)明及其目的和優(yōu)點(diǎn)，現(xiàn)在結(jié)合附圖參照以下說明，其中
圖l示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)施主分級(jí)系統(tǒng)；
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例由特征提取器實(shí)現(xiàn)的用以從給定語音樣
本提取一組聲學(xué)特征的過程；
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的來自示例性男性發(fā)音人的EGG記錄的
開商評(píng)估。
圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的表征示例性男性發(fā)音人的EGG信號(hào)的一個(gè)周期的EGG形狀。
圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的示例性女性到女性語音轉(zhuǎn)換的不同聲學(xué)特征的示例性直方圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的包括多層感知器(MLP)的自適應(yīng)系統(tǒng)。
圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在訓(xùn)練期間配置的自動(dòng)施主分級(jí)系統(tǒng)。圖8示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的生成訓(xùn)練集的方法。圖9和10示出了列有根據(jù)實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的S分?jǐn)?shù)的表；圖11和12示出了列有根據(jù)實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的Q分?jǐn)?shù)的表；以及圖13示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的IO重交叉效度確認(rèn)和測(cè)試基于MLP 的自動(dòng)施主選擇算法的結(jié)果。
具體實(shí)施例方式
以下參照其中相同附圖標(biāo)記表示相同要素的附圖1-13對(duì)本發(fā)明的進(jìn)一步特征和優(yōu)點(diǎn)以及本發(fā)明各種實(shí)施例的結(jié)構(gòu)和操作進(jìn)行了說明。本發(fā)明的實(shí)施例是在語音轉(zhuǎn)換系統(tǒng)的語境中說明的。盡管如此，本發(fā)明的普通技術(shù)人員很容易認(rèn)識(shí)到在此公開的本發(fā)明及其特征還適用于需要施主語音選擇的任何語音處理系統(tǒng)或可提高轉(zhuǎn) 換質(zhì)量。
在諸如電影配音等許多語音轉(zhuǎn)換應(yīng)用中，配音演員的聲音被轉(zhuǎn)換為特征演員的聲音。在這樣的應(yīng)用中，由諸如配音演員等源(施主)發(fā)音人記錄的語音被轉(zhuǎn)換為具有諸如特征演員等目標(biāo)發(fā)音人的聲音特性的聲道。例如，電影會(huì)從英語被配音
為西班牙語同時(shí)希望在西班牙語聲軌中保持原始英語演員聲音的聲音特性。在這樣的應(yīng)用中，目標(biāo)發(fā)音人(即，英語演員)的聲音特性是固定的，但是有一群具有對(duì) 配音過程起作用的各種聲音特性的施主(即，西班牙語發(fā)音人)。一些施主在總體聲音質(zhì)量和與目標(biāo)發(fā)音人的相似性上比其它施主產(chǎn)生較佳的轉(zhuǎn)換。
傳統(tǒng)地，通過將語音樣本轉(zhuǎn)換為目標(biāo)發(fā)音人的聲音特性、以及隨后主觀地將每個(gè)經(jīng)過轉(zhuǎn)換的樣本與目標(biāo)發(fā)音人的樣本進(jìn)行比較來評(píng)價(jià)施主。換言之，一個(gè)或多個(gè)人必須介涉其中并在收聽所有轉(zhuǎn)換的基礎(chǔ)上來決定哪一特定施主是最適合的。在電影配音情景中，必須針對(duì)每個(gè)目標(biāo)發(fā)音人和每組施主重復(fù)該過程。
相反，本發(fā)明提供了一種自動(dòng)施主分級(jí)和選擇系統(tǒng)，并且只需要目標(biāo)發(fā)音人
樣本以及一個(gè)或多個(gè)施主發(fā)音人樣本?？陀^分?jǐn)?shù)根據(jù)多個(gè)聲學(xué)特性被記算以預(yù)測(cè)給定施主將產(chǎn)生優(yōu)質(zhì)轉(zhuǎn)換的似然性而不需要轉(zhuǎn)換所有施主語音樣本這一高成本步驟。自動(dòng)施主分級(jí)系統(tǒng)包括使用關(guān)鍵聲學(xué)特征針對(duì)到給定目標(biāo)發(fā)音人的聲音的轉(zhuǎn) 換評(píng)價(jià)給定施主的質(zhì)量的自適應(yīng)系統(tǒng)。在自動(dòng)施主分級(jí)系統(tǒng)可被用于評(píng)價(jià)施主之前，訓(xùn)練該自適應(yīng)系統(tǒng)。在該訓(xùn)練過程中，向自適應(yīng)系統(tǒng)提供從來自多個(gè)發(fā)音人的示例性語音樣本得到的訓(xùn)練集。從這多個(gè)發(fā)音人得到多個(gè)施主-目標(biāo)發(fā)音人對(duì)。首先，在施主語音被轉(zhuǎn)換為目標(biāo)發(fā)音人的聲音特性并由一人或多人進(jìn)行評(píng)價(jià)時(shí)得到主觀質(zhì)量分?jǐn)?shù)。雖然在訓(xùn)練該自適應(yīng)系統(tǒng)時(shí)執(zhí)行了一些量的轉(zhuǎn)換，但是一旦經(jīng)過訓(xùn)練，該自動(dòng)施主分級(jí)系統(tǒng)就不需要任何其它的語音轉(zhuǎn)換。
圖1示出了根據(jù)本發(fā)明的自動(dòng)施主分級(jí)系統(tǒng)100。施主語音樣本102和目標(biāo)語音樣本104被送進(jìn)聲學(xué)特征提取器106——其實(shí)現(xiàn)對(duì)本領(lǐng)域的普通技術(shù)人員是顯而易見的——以從施主語音樣本102和目標(biāo)語音樣本104提取聲學(xué)特征。這些聲學(xué)特征然后被提供給生成Q分?jǐn)?shù)輸出IIO和S分?jǐn)?shù)輸出112的自適應(yīng)系統(tǒng)108。Q分?jǐn)?shù) 輸出110是所預(yù)測(cè)的從施主聲音到目標(biāo)聲音的語音轉(zhuǎn)換的平均意見等級(jí)(MOS) 聲音質(zhì)量，其對(duì)應(yīng)于聲音質(zhì)量的標(biāo)準(zhǔn)MOS等級(jí)1=差，2=較差，3=較好，4=好， 5=優(yōu)。S輸出112是所預(yù)測(cè)的從施主聲音到目標(biāo)聲音的語音轉(zhuǎn)換的相似性，分級(jí)為從1=差到10=優(yōu)。在以下所述的自適應(yīng)系統(tǒng)的訓(xùn)練過程中，訓(xùn)練集114被提供給聲學(xué)特征提取器106并由自適應(yīng)系統(tǒng)108處理。訓(xùn)練集包括伴有Q分?jǐn)?shù)和S分?jǐn)?shù) 的多個(gè)施主-目標(biāo)發(fā)音人對(duì)。對(duì)于每個(gè)施主-目標(biāo)發(fā)音人對(duì)，聲學(xué)特征提取器106從施主語音和目標(biāo)發(fā)音人語音提取聲學(xué)特征并將結(jié)果提供給計(jì)算和提供Q分?jǐn)?shù)輸出 IIO和S分?jǐn)?shù)輸出112自適應(yīng)信號(hào)。來自訓(xùn)練集施主-目標(biāo)發(fā)音人對(duì)的Q分?jǐn)?shù)和S 分?jǐn)?shù)被提供給將它們與Q分?jǐn)?shù)輸出110和S分?jǐn)?shù)輸出112相比的自適應(yīng)系統(tǒng)。自適應(yīng)系統(tǒng)108然后被修改以使所生成的Q分?jǐn)?shù)和S分?jǐn)?shù)與訓(xùn)練集中的Q分?jǐn)?shù)和S 分?jǐn)?shù)之間的差異最小化。
對(duì)于任意給定目標(biāo)發(fā)音人，如果有多個(gè)施主聲道可為系統(tǒng)100所用，則得到的Q分?jǐn)?shù)輸出110和S分?jǐn)?shù)輸出112的值分別指示在轉(zhuǎn)換后的聲音與目標(biāo)發(fā)音人的聲音的相似性以及轉(zhuǎn)換后的聲音的總體聲音質(zhì)量這兩者上這多個(gè)施主中哪個(gè)施主可能得到較高質(zhì)量的語音轉(zhuǎn)換。
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的由特征提取器106實(shí)現(xiàn)的用以從給定語音樣本即聲道提取一組聲學(xué)特征的過程200。在步驟202，每個(gè)樣本作為電聲門圖(EGG)記錄被接收。EGG記錄將器官聲門(聲襞)出口處的體積速度作為電
信號(hào)給出。它顯示了在講話發(fā)聲期間人的激勵(lì)特性。在步驟204，每個(gè)樣本由例如隱式馬爾可夫模型工具包(HTK)來語音地貼加標(biāo)簽，其實(shí)現(xiàn)對(duì)本領(lǐng)域的普通技術(shù)人員是顯而易見的。在步驟206，分析持續(xù)元音/aa/的EGG信號(hào)并確定音高標(biāo)記。使用/aa/音是因?yàn)閷?duì)于/aa/音，在聲道上的任意一點(diǎn)沒有施加收縮，因此它是比較源和目標(biāo)發(fā)音人激勵(lì)特性的一個(gè)良好基準(zhǔn)，而對(duì)于其它音的產(chǎn)生，口音或方言可能會(huì) 強(qiáng)加其它的可變性。在步驟208，提取音高和能量輪廓線。在步驟210，根據(jù)語音標(biāo)簽確定每個(gè)源和目標(biāo)發(fā)聲之間的對(duì)應(yīng)幀。在步驟212，提取各個(gè)聲學(xué)特征。
在本發(fā)明的一個(gè)實(shí)施例中，所提取的各個(gè)聲學(xué)特征包括以下特征中的一個(gè)或多個(gè)線譜頻率(LSF)距離、音高、持續(xù)時(shí)間、能量、頻譜傾斜、開商(OQ)、頻率微擾、振幅微擾、軟發(fā)聲索引(SPI) 、 Hl-H2、以及EGG形狀。以下更加具體地說明這些特征。
具體地，在本發(fā)明的一個(gè)實(shí)施例中，使用16KHz上20的線性預(yù)測(cè)階數(shù)在逐幀的基礎(chǔ)上計(jì)算LSF。兩個(gè)LSF向量之間的距離d使用下式計(jì)算
<formula>formula see original document page 10</formula><formula>formula see original document page 10</formula>
其中，w化是第一LSF向量的第k項(xiàng)，Wa是第二LSF向量的第k項(xiàng)，P是預(yù)測(cè)階數(shù)，以及hk是對(duì)應(yīng)于第一LSF向量的第k項(xiàng)的加權(quán)。
音高(fo)值是使用基于標(biāo)準(zhǔn)自相關(guān)的音高檢測(cè)算法來計(jì)算的，其標(biāo)識(shí)和實(shí)現(xiàn) 對(duì)于本領(lǐng)域的普通技術(shù)人員是顯而易見的。
對(duì)于持續(xù)時(shí)間特征，音素、單詞、發(fā)聲、以及詞間靜默持續(xù)時(shí)間從語音標(biāo)簽來計(jì)算。
對(duì)于能量特征，計(jì)算逐幀的能量。
對(duì)于頻譜傾斜，使用全局(global)頻譜峰值的dB振幅值與4KHz上的dB振幅值之間LP頻譜的最小二乘線擬合(預(yù)測(cè)階數(shù)為2)的斜率。
對(duì)于EGG信號(hào)的每個(gè)周期，如圖3中針對(duì)一示例性男性發(fā)音人所示的，OQ 作為信號(hào)的正的部分相對(duì)于信號(hào)長度的比率被估計(jì)。
頻率微擾是排除持續(xù)元音/aa/中未發(fā)聲部分的基本音高周期T。的平均周期間變化，使用下式計(jì)算
振幅微擾是排除持續(xù)元音/aa/中未發(fā)聲部分的峰-峰振幅A的平均周期間變化, 使用下式計(jì)算
<formula>formula see original document page 11</formula>
軟發(fā)聲索引(SPI)是70-1600Hz范圍中低頻諧波能量與1600-4500Hz范圍中
諧波能量的平均比率。
Hl-H2是從功率頻譜估計(jì)得到的頻譜中第一與第二諧波之間逐幀的振幅差異。
如圖4中針對(duì)示例性男性發(fā)音人所示的，EGG形狀是用以表征EGG信號(hào)的一個(gè)周期的簡(jiǎn)單的三參數(shù)模型，其中a是從聲門閉合瞬間到EGG信號(hào)峰值的最小二乘(LS)線擬合的斜率，(3是聲襞開啟時(shí)的EGG信號(hào)部分的LS線擬合的斜率，以及是聲襞關(guān)閉時(shí)信號(hào)部分的LS線擬合的斜率。
與生成單個(gè)值的LSF距離不同，上述提取的所有其它特征都是分布式狀態(tài)。
圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的兩個(gè)示例性女性的不同聲學(xué)特征的示例性直方圖。在這些直方圖中，y軸對(duì)應(yīng)于x軸中參數(shù)值出現(xiàn)的歸一化頻率。具體地，圖5(a)示出了兩個(gè)女性的音高分布。圖5(b)示出了兩個(gè)女性的頻譜傾斜。圖5(c) 示出了這兩個(gè)女性的開商。圖5(d)-(f)示出了她們的EGG形狀，具體分別是a、 p、 Y。圖5中所示的時(shí)間和譜特征是依賴于發(fā)音人的，從而可被用于對(duì)發(fā)音人之間的差異進(jìn)行分析和建模。在本發(fā)明的實(shí)施例中，以上所列的一組聲學(xué)特征被用來對(duì)源 -目標(biāo)發(fā)音人對(duì)之間的差異進(jìn)行建模。
在本發(fā)明的一個(gè)實(shí)施例中，使用例如比較分布的常規(guī)統(tǒng)計(jì)學(xué)方法的Wilcoxon 分級(jí)和(腦k-sum)測(cè)試來計(jì)算兩個(gè)發(fā)音人之間的聲學(xué)特征距離。該分級(jí)和測(cè)試是 Wild和Seber所述的雙樣本t測(cè)試的非參數(shù)替換，并且對(duì)來自任何分布的數(shù)據(jù)都有效且相比于雙樣本t測(cè)試對(duì)于離群值不敏感得多。它不僅對(duì)分布的平均值之間的差異起作用，而且還對(duì)分布的形狀之間的差異起作用。分級(jí)和值越低，比較下的兩個(gè) 分布越接近。
在本發(fā)明的一個(gè)實(shí)施例中，上述一個(gè)或多個(gè)聲學(xué)特征作為輸入被提供給自適
應(yīng)系統(tǒng)108。在使用自適應(yīng)系統(tǒng)108對(duì)施主分級(jí)之前，必須經(jīng)過訓(xùn)練階段。具體地，包括一組施主-目標(biāo)發(fā)音人對(duì)的訓(xùn)練集114與其S和Q分?jǐn)?shù)一起被提供。以下對(duì)獲得或觀察用以發(fā)展訓(xùn)練集的數(shù)據(jù)的示例進(jìn)行說明。另外，具有S和Q分?jǐn)?shù)的一組施主-目標(biāo)對(duì)作為測(cè)試集被保存。在訓(xùn)練階段，每個(gè)施主-目標(biāo)對(duì)具有諸如上述一個(gè) 或多個(gè)特征的由聲學(xué)特征提取器106所提取的聲學(xué)特征。這些特征被送進(jìn)自適應(yīng)系統(tǒng)108，由其生成預(yù)測(cè)的S和Q分?jǐn)?shù)。將這些預(yù)測(cè)的分?jǐn)?shù)與作為訓(xùn)練集114的一部分被提供的S和Q分?jǐn)?shù)相比較。將差異作為其誤差提供給自適應(yīng)系統(tǒng)108。自適應(yīng) 系統(tǒng)108然后進(jìn)行調(diào)整以最小化其誤差。有許多種本領(lǐng)域內(nèi)已知的用于誤差最小化的方法，具體示例在以下示出。在一段訓(xùn)練之后，測(cè)試集中施主-目標(biāo)發(fā)音人對(duì)的聲學(xué)特征被提取。自適應(yīng)系統(tǒng)108產(chǎn)生預(yù)測(cè)的S和Q分?jǐn)?shù)。這些值被與作為測(cè)試值的一部分被提供的S和Q分?jǐn)?shù)相比較。如果所預(yù)測(cè)的與實(shí)際S和Q分?jǐn)?shù)之間的差異在可接受的閾值之內(nèi)，則自適應(yīng)系統(tǒng)108已經(jīng)過訓(xùn)練并準(zhǔn)備好可以使用。例如，當(dāng)誤差在實(shí)際值的±5%之內(nèi)時(shí)。否則，過程返回訓(xùn)練。
在本發(fā)明的至少一個(gè)實(shí)施例中，自適應(yīng)系統(tǒng)108包括多層感知器(MLP)網(wǎng) 絡(luò)或后向傳播網(wǎng)絡(luò)。圖6示出了 MLP網(wǎng)絡(luò)的一個(gè)示例。它包括輸入層602，接收聲學(xué)特征；一個(gè)或多個(gè)隱式層604，被耦合至輸入層；以及輸出層606，分別生成所預(yù)測(cè)的Q和S輸出608和610。每層包括具有與每個(gè)輸入相耦合的可在訓(xùn)練中調(diào)整的加權(quán)的一個(gè)或多個(gè)感知器。用于構(gòu)造、訓(xùn)練、以及使用MLP網(wǎng)絡(luò)的方法是本領(lǐng)域中公知的(參照例如，R. Hecht-Nielsen的Neurocomputing, pp. 124-138， 1987)。這樣一種訓(xùn)練MLP網(wǎng)絡(luò)的方法是誤差最小化的梯度下降法，其實(shí)現(xiàn)對(duì)本領(lǐng)域的普通技術(shù)人員是顯而易見的。
圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在訓(xùn)練期間配置時(shí)的自動(dòng)施主分級(jí)系統(tǒng)IOO。在訓(xùn)練期間，訓(xùn)練數(shù)據(jù)庫702設(shè)有許多發(fā)音人的樣本發(fā)生記錄，并且形成外加有該訓(xùn)練數(shù)據(jù)庫702中記錄的施主-目標(biāo)發(fā)音人對(duì)的Q和S分?jǐn)?shù)的訓(xùn)練集114。為了生成Q和S分?jǐn)?shù)708，每個(gè)可能的施主-目標(biāo)發(fā)音人對(duì)將施主語音進(jìn)行轉(zhuǎn)換以模仿目標(biāo)發(fā)音人704的聲音特性。開始應(yīng)用主觀收聽準(zhǔn)則以比較轉(zhuǎn)換后的語音和目標(biāo)發(fā)音人語音706。例如，收聽的人可對(duì)感知的每個(gè)轉(zhuǎn)換的質(zhì)量評(píng)定等級(jí)。需要注意的是，該主觀收聽只是開始在訓(xùn)練期間執(zhí)行一次。隨后的感知分析由系統(tǒng)100 客觀地執(zhí)行。
可以體現(xiàn)為硬件和/或軟件的語音轉(zhuǎn)換元件704應(yīng)該實(shí)現(xiàn)系統(tǒng)100針對(duì)其被設(shè) 計(jì)用以評(píng)估施主質(zhì)量的轉(zhuǎn)換方法相同的方法。例如，如果系統(tǒng)IOO被用于使用使用
分段碼本的發(fā)音人變換算法(STASC)確定語音轉(zhuǎn)換的最佳施主，則應(yīng)使用STASC 轉(zhuǎn)換。然而，如果施主被選擇用于另一種語音轉(zhuǎn)換技術(shù)，例如Tur等人于2006年 3月8日提交的題為"Codebook-less Speech Conversion Method and System (少量碼本語音轉(zhuǎn)換方法和系統(tǒng))"、其全部公開內(nèi)容通過援引包括于此的共同所有的美國專利申請(qǐng)No. 11/370,682中公開的Codebook-less技術(shù)，則語音轉(zhuǎn)換704應(yīng)使用相同的語音轉(zhuǎn)換技術(shù)。
在訓(xùn)練過程中，施主-目標(biāo)發(fā)音人對(duì)被提供給提取特征的特征提取器106，自適應(yīng)系統(tǒng)108使用這些特征如上所述地預(yù)測(cè)Q分?jǐn)?shù)和S分?jǐn)?shù)。另外，實(shí)際Q分?jǐn)?shù) 710和S分?jǐn)?shù)712被提供給自適應(yīng)系統(tǒng)108?；谒褂玫木唧w訓(xùn)練算法，自適應(yīng) 系統(tǒng)108修改以最小化所預(yù)測(cè)的與實(shí)際Q分?jǐn)?shù)和S分?jǐn)?shù)之間的誤差。
圖8示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例生成訓(xùn)練集的方法800。具體地，在步驟 802，記錄測(cè)試發(fā)音人預(yù)定的一組發(fā)聲。在步驟804，記錄其余測(cè)試發(fā)音人相同的預(yù)定的一組發(fā)聲并被要求盡可能接近地模仿第一測(cè)試發(fā)音人定時(shí)，這有助于改善自動(dòng)對(duì)準(zhǔn)性能。在步驟806，對(duì)于每個(gè)預(yù)選的施主-目標(biāo)發(fā)音人對(duì)，施主的發(fā)聲被轉(zhuǎn) 換為目標(biāo)發(fā)音人的聲音特性。如上所述，如果系統(tǒng)IOO被用于使用STASC確定語音轉(zhuǎn)換的最佳施主，則在步驟S806應(yīng)使用STASC轉(zhuǎn)換。然而，如果施主被選擇用于另一種語音轉(zhuǎn)換技術(shù)，則步驟806的語音轉(zhuǎn)換應(yīng)該使用相同的語音轉(zhuǎn)換技術(shù)。
因?yàn)槁曇糁械牟町惡陀涗涃|(zhì)量是非常主觀的，諸如上述的Q和S值，所以訓(xùn) 練和測(cè)試數(shù)據(jù)的獲取開始應(yīng)該基于主觀測(cè)試。相應(yīng)地，在步驟808，一個(gè)或多個(gè)受實(shí)驗(yàn)者被呈現(xiàn)源發(fā)聲、目標(biāo)發(fā)聲以及經(jīng)轉(zhuǎn)換的發(fā)聲，并被要求使用上述評(píng)分范圍為每個(gè)變換提供兩個(gè)主觀分?jǐn)?shù)變換輸出到目標(biāo)發(fā)音人聲音的相似性(S分?jǐn)?shù))以及語音轉(zhuǎn)換輸出的MOS質(zhì)量(Q分?jǐn)?shù))。在步驟810，諸如使用某些形式的統(tǒng)計(jì)學(xué) 組合可以確定Q分?jǐn)?shù)和S分?jǐn)?shù)的代表性分?jǐn)?shù)。例如，可使用該組中每個(gè)人的所有S 分?jǐn)?shù)和所有Q分?jǐn)?shù)的平均值。在另一實(shí)施例中，可以使用在剔除最高和最低分?jǐn)?shù) 之后該組中每個(gè)人的所有S分?jǐn)?shù)和所有Q分?jǐn)?shù)的平均值。在另一示例中，可使用該組中每個(gè)人的S分?jǐn)?shù)和所有Q分?jǐn)?shù)的中值。
作為發(fā)展訓(xùn)練集的一個(gè)示例，以下說明了一個(gè)實(shí)驗(yàn)研究。對(duì)于該示例，STASC 被用作語音轉(zhuǎn)換技術(shù)，它是在L. M. Arslan等人的"Speaker transformation algorithm using segmental codebooks (使用分段碼本的發(fā)音人變換算法)"(Speec/z Comm,/ca"o" 28,卯211-226, 1999)中提出的基于碼本映射的算法。STASC采用自適應(yīng)變換平滑濾波器來降低不連續(xù)性，從而產(chǎn)生自然的聲音和高質(zhì)量的輸出。
STASC是基于兩級(jí)碼本映射的算法。在STASC算法的訓(xùn)練級(jí)，源聲學(xué)參數(shù)與目標(biāo) 聲學(xué)參數(shù)之間的映射被建模。在STASC算法的變換級(jí)，源發(fā)音人聲學(xué)參數(shù)在逐幀的基礎(chǔ)上與源發(fā)音人碼本條目相匹配并且目標(biāo)聲學(xué)參數(shù)作為目標(biāo)碼本條目的加權(quán) 平均被估計(jì)。加權(quán)算法顯著地降低了不連續(xù)性?，F(xiàn)在它正被使用在商業(yè)應(yīng)用中以用于國際配音、歌聲語音轉(zhuǎn)換、以及創(chuàng)造新的文本到語音(TTS)聲音。
實(shí)驗(yàn)結(jié)果
以下實(shí)驗(yàn)研究被用于生成施主-目標(biāo)發(fā)音人對(duì)的訓(xùn)練集180。首先，語音轉(zhuǎn)換數(shù)據(jù)庫由IO位男性和IO位女性本土土耳其語發(fā)音人在聲學(xué)隔離的房間中被記錄的 20個(gè)發(fā)聲(18個(gè)訓(xùn)練，2個(gè)測(cè)試)。這些發(fā)聲是描述房間的自然句子，例如"地板上有塊灰色的毯子"。同時(shí)采集EGG記錄。男性發(fā)音人中的一個(gè)被選為基準(zhǔn)發(fā) 音人，而其余發(fā)音人被要求盡可能接近地模仿該基準(zhǔn)發(fā)音人的定時(shí)。
為了避免由于性別間轉(zhuǎn)換所需的大量音高縮放而造成的質(zhì)量下降，所以單獨(dú) 考慮男性到男性以及女性到女性轉(zhuǎn)換。將每個(gè)發(fā)音人考慮為目標(biāo)并執(zhí)行從相同性別的其余9名發(fā)音人到該目標(biāo)發(fā)音人的轉(zhuǎn)換。因此，源-目標(biāo)對(duì)的總數(shù)為180 (90對(duì) 男性到男性，90對(duì)女性到女性)。
十二位受實(shí)驗(yàn)者被呈現(xiàn)源記錄、目標(biāo)記錄、以及經(jīng)經(jīng)變換的記錄，并被要求為每個(gè)變換提供兩個(gè)主觀分?jǐn)?shù)，S分?jǐn)?shù)和Q分?jǐn)?shù)。
圖9和10示出了列有根據(jù)本實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的平均S分?jǐn)?shù)的表格。具體地，圖9列出了所有男性源-目標(biāo)對(duì)的評(píng)估S分?jǐn)?shù)，而圖10列出了所有女性源-目標(biāo)對(duì)的平均S分?jǐn)?shù)。對(duì)于男性對(duì)，當(dāng)基準(zhǔn)發(fā)音人是源發(fā)音人時(shí)獲得最高的 S分?jǐn)?shù)。因此，當(dāng)源定時(shí)更好地匹配訓(xùn)練集中的目標(biāo)定時(shí)時(shí)，語音轉(zhuǎn)換的性能得到改善。排除基準(zhǔn)發(fā)音人，產(chǎn)生最佳語音轉(zhuǎn)換性能的源發(fā)音人隨目標(biāo)發(fā)音人而變換。因此，語音轉(zhuǎn)換算法的性能取決于所選的具體源-目標(biāo)對(duì)。表的最后一行顯示一些源發(fā)音人與其他人相比不適合語音轉(zhuǎn)換，例如男性源發(fā)音人4號(hào)和女性源發(fā)音人4 號(hào)。表中的最后一列指示較難生成某些目標(biāo)發(fā)音人的聲音，即，男性目標(biāo)發(fā)音人6 號(hào)和女性目標(biāo)發(fā)音人l號(hào)。
圖11和12示出了列有根據(jù)本實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的平均Q分?jǐn)?shù)的表。具體地，圖ll列出了所有男性源-目標(biāo)對(duì)的平均Q分?jǐn)?shù)，而圖12列出了所有女性源-目標(biāo)對(duì)的平均S分?jǐn)?shù)。
在本發(fā)明的一個(gè)實(shí)施例中，在如上所述地創(chuàng)建訓(xùn)練集之后系統(tǒng)100被訓(xùn)練。使用IO重交叉效度確認(rèn)分析來評(píng)估系統(tǒng)IOO預(yù)測(cè)主觀測(cè)試值的性能。為此，2位
男性和2位女性發(fā)音人被預(yù)留作為測(cè)試集。2位男性和2位女性發(fā)音人被預(yù)留作為效度確認(rèn)集。其余男性-男性對(duì)和女性-女性對(duì)之間的客觀距離被用作對(duì)系統(tǒng)100的
輸入，而相應(yīng)的主觀分?jǐn)?shù)作為輸出。在訓(xùn)練后，估計(jì)效度確認(rèn)集中目標(biāo)發(fā)音人的主
觀分?jǐn)?shù)并計(jì)算S分?jǐn)?shù)和Q分?jǐn)?shù)的誤差。
圖13示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的10重交叉效度確認(rèn)分析以及測(cè)試基于MLP自動(dòng)施主選擇算法的結(jié)果。每次交叉效度確認(rèn)步驟上的誤差被定義為系統(tǒng) IOO決策與主觀測(cè)試結(jié)果之間的絕對(duì)差，其中
<formula>formula see original document page 15</formula>以及
<formula>formula see original document page 15</formula>
其中，T是測(cè)試中源-目標(biāo)對(duì)的總數(shù)，SsuB(i)是第i對(duì)的主觀S分?jǐn)?shù)，S亂p(i)是第i 對(duì)由MLP估計(jì)的S分?jǐn)?shù)，QsuB(i)是第i對(duì)的主觀Q分?jǐn)?shù)，QMLP(i)是第i對(duì)由MLP
估計(jì)的Q分?jǐn)?shù)。Es標(biāo)示S分?jǐn)?shù)中的誤差而Eg標(biāo)示Q分?jǐn)?shù)中的誤差。通過使用效度確認(rèn)集中不同發(fā)音人將上述兩個(gè)步驟重復(fù)10次。將平均交叉效度確認(rèn)誤差計(jì)算作為各步驟中誤差的平均。最終，使用除測(cè)試集中發(fā)音人之外的所有發(fā)音人訓(xùn)練 MLP并關(guān)于測(cè)試集評(píng)價(jià)其性能。
此外，可用研究主觀測(cè)試結(jié)果與聲學(xué)特征距離之間的關(guān)系的ID3算法訓(xùn)練決策樹。在實(shí)驗(yàn)結(jié)果中，使用來自所有源-目標(biāo)發(fā)音人對(duì)的數(shù)據(jù)訓(xùn)練的決策樹僅通過使用Hl-H2特性將男性源發(fā)音人3號(hào)與其他人區(qū)分開來。當(dāng)其被用作目標(biāo)發(fā)音人時(shí)所得到的低主觀分?jǐn)?shù)指示使用語音轉(zhuǎn)換很難生成該發(fā)音人的聲音。如決策樹正確標(biāo)識(shí)的，該發(fā)音人與其余發(fā)音人相比具有顯著較低的Hl-H2和fo。
上述系統(tǒng)基于給定施主預(yù)測(cè)轉(zhuǎn)換質(zhì)量?？梢愿鶕?jù)所預(yù)測(cè)的Q分?jǐn)?shù)和S分?jǐn)?shù)從多個(gè)施主中選擇一個(gè)施主用于所分派的語音轉(zhuǎn)換。Q和S分?jǐn)?shù)的相對(duì)重要性取決于應(yīng)用。例如，在電影配音示例中，音頻質(zhì)量非常重要，所以高Q分?jǐn)?shù)是優(yōu)選的，即使這樣會(huì)犧牲對(duì)目標(biāo)發(fā)音人的一定相似性。相反，在應(yīng)用于環(huán)境可能嘈雜的電話系統(tǒng)的語音響應(yīng)的TTS系統(tǒng)中，諸如路旁的援助呼叫中心，Q分?jǐn)?shù)并不重要，所以在施主選擇過程中可能更多地偏重S分?jǐn)?shù)。因此在施主選擇系統(tǒng)中，使用Q分數(shù)和S分?jǐn)?shù)將來自多個(gè)施主的各施主分級(jí)并根據(jù)Q分?jǐn)?shù)和S分?jǐn)?shù)選取最佳選擇，其中Q和S分?jǐn)?shù)之間的關(guān)系根據(jù)具體應(yīng)用來確定。
在此僅出于說明目的使用具體實(shí)施例對(duì)本發(fā)明進(jìn)行了說明。然而，對(duì)于本領(lǐng) 域的普通技術(shù)人員顯而易見的是還可以其它方式體現(xiàn)本發(fā)明的原理。因此，本發(fā)明不應(yīng)該被理解為被限制于在此所公開的具體實(shí)施例的范圍中，而應(yīng)完全與所附權(quán)利要求的范圍相匹配。
權(quán)利要求
1.一種施主分級(jí)系統(tǒng)，包括聲學(xué)特征提取器，用于從施主語音樣本和目標(biāo)發(fā)音人語音樣本提取一個(gè)或多個(gè)聲學(xué)特征；以及自適應(yīng)系統(tǒng)，用于根據(jù)所述聲學(xué)特征生成語音轉(zhuǎn)換質(zhì)量值的預(yù)測(cè)。
2. 如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述自適應(yīng)系統(tǒng)是根據(jù)包括施主語音樣本、目標(biāo)發(fā)音人語音樣本、以及實(shí)際語音轉(zhuǎn)換質(zhì)量值在內(nèi)的訓(xùn)練數(shù) 據(jù)集來訓(xùn)練的。
3. 如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述語音轉(zhuǎn)換質(zhì)量值包括對(duì) 從所述施主語音樣本得到的經(jīng)過變換的語音樣本與所述目標(biāo)發(fā)音人樣本之間的相似性的主觀分級(jí)。
4. 如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述語音轉(zhuǎn)換質(zhì)量值包括MOS 質(zhì)量值。
5. 如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述一個(gè)或多個(gè)聲學(xué)特征是從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分布的分級(jí)和、包括多個(gè)逐幀能量值的能量分布的分級(jí)和、頻譜傾斜值分布的分級(jí) 和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布的分級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一與第二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和，及其組合。
6. 如權(quán)利要求5所述的系統(tǒng)，其特征在于，所述持續(xù)時(shí)間分布包括來自包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間的組中的持續(xù)時(shí)間特征。
7. 如權(quán)利要求5所述的系統(tǒng)，其特征在于，所述一個(gè)周期的EGG形狀值是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述EGG 信號(hào)部分、以及聲襞閉合時(shí)的部分的組中部分的最小二乘擬合線的斜率。
8. —種包括如權(quán)利要求1所述的施主分級(jí)系統(tǒng)的施主選擇系統(tǒng)，其特征在于，來自多個(gè)施主的多個(gè)語音樣本被與所述目標(biāo)語音樣本配對(duì)，并且根據(jù)所述多個(gè)語音樣本中每一個(gè)的預(yù)測(cè)從所述多個(gè)施主當(dāng)中選擇一個(gè)施主。
9. 一種用于將施主分級(jí)的方法，包括從來自施主語音樣本和目標(biāo)發(fā)音人語音樣本的特征當(dāng)中提取一個(gè)或多個(gè) 聲學(xué)特征；以及使用經(jīng)過訓(xùn)練的自適應(yīng)系統(tǒng)，根據(jù)所述聲學(xué)特征對(duì)語音轉(zhuǎn)換質(zhì)量值進(jìn)行預(yù)
10. 如權(quán)利要求9所述的方法，其特征在于，所述自適應(yīng)系統(tǒng)是根據(jù)包括施主語音樣本、目標(biāo)發(fā)音人語音樣本、以及實(shí)際語音轉(zhuǎn)換質(zhì)量值在內(nèi)的訓(xùn)練數(shù) 據(jù)集來訓(xùn)練的。
11. 如權(quán)利要求9所述的方法，其特征在于，所述語音轉(zhuǎn)換質(zhì)量值包括對(duì) 從所述事主語音樣本得到的經(jīng)過變換的語音樣本與所述目標(biāo)發(fā)音人樣本之間的相似性的主觀分級(jí)。
12. 如權(quán)利要求9所述的方法，其特征在于，所述語音轉(zhuǎn)換質(zhì)量值包括MOS質(zhì)量值。
13. 如權(quán)利要求9所述的方法，其特征在于，所述一個(gè)或多個(gè)聲學(xué)特征是從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分布的分級(jí)和、包括多個(gè)逐幀的能量值的能量分布的分級(jí)和、頻譜傾斜值分布的分級(jí)和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布的分級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一與第二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和、及其組合。
14. 如權(quán)利要求13所述的方法，其特征在于，所述持續(xù)時(shí)間分布包括來自包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間的組中的持續(xù)時(shí)間特征。
15. 如權(quán)利要求13所述的方法，其特征在于，所述一個(gè)周期的EGG形狀值是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述 EGG信號(hào)部分、以及聲襞閉合時(shí)的部分的組中的部分的最小二乘擬合線的斜率。
16. —種用于訓(xùn)練施主分級(jí)系統(tǒng)的方法，包括從語音樣本訓(xùn)練數(shù)據(jù)庫選擇具有聲學(xué)特性的施主和目標(biāo)發(fā)音人；獲取實(shí)際主觀質(zhì)量值；從施主聲音語音樣本和目標(biāo)發(fā)音人聲音語音樣本提取一個(gè)或多個(gè)聲學(xué)特征；將所述一個(gè)或多個(gè)聲學(xué)特征提供給自適應(yīng)系統(tǒng)；使用所述自適應(yīng)系統(tǒng)預(yù)測(cè)所預(yù)測(cè)的主觀質(zhì)量值；計(jì)算所預(yù)測(cè)的主觀質(zhì)量值與所述實(shí)際主觀質(zhì)量值之間的誤差值；以及根據(jù)所述誤差值調(diào)整所述自適應(yīng)系統(tǒng)。
17. 如權(quán)利要求16所述的方法，其特征在于，所述獲取實(shí)際主觀質(zhì)量值包括將所述施主聲音語音樣本轉(zhuǎn)換為具有所述目標(biāo)發(fā)音人的聲音特性的轉(zhuǎn)換后的聲音語音樣本；將所述轉(zhuǎn)換后的聲音語音樣本和所述目標(biāo)發(fā)音人聲音語音樣本提供給主觀收聽者；以及從所述主觀收聽者接收所述實(shí)際主觀質(zhì)量值。
18. 如權(quán)利要求17所述的方法，其特征在于，所述主觀收聽者包括多個(gè) 投票收聽者，并且所述實(shí)際主觀質(zhì)量值是從所述投票收聽者中的每個(gè)人接收到的投票質(zhì)量值的統(tǒng)計(jì)學(xué)組合。
19. 如權(quán)利要求18所述的方法，其特征在于，所述統(tǒng)計(jì)學(xué)組合是平均值。
20. 如權(quán)利要求17所述的方法，其特征在于，所述一個(gè)或多個(gè)聲學(xué)特征是從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分布的分級(jí)和、包括多個(gè)逐幀的能量值的能量分布的分級(jí)和、頻譜傾斜值分布的分級(jí)和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布的分級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一與第二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和，及其組合。
21. 如權(quán)利要求20所述的方法，其特征在于，所述持續(xù)時(shí)間分布包括來自包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間的組中的持續(xù)時(shí)間特征。
22.如權(quán)利要求20所述的方法，其特征在于，所述一個(gè)周期的EGG形狀是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述EGG 信號(hào)部分、以及聲襞閉合時(shí)的部分的組中的部分的最小二乘擬合線的斜率。
全文摘要
一種自動(dòng)施主選擇算法根據(jù)源發(fā)音人和目標(biāo)發(fā)音人的聲學(xué)特征之間的一組客觀距離度量估計(jì)主觀語音轉(zhuǎn)換輸出質(zhì)量。該算法用MLP通過非線性回歸學(xué)習(xí)主觀分?jǐn)?shù)與客觀距離度量之間的關(guān)系。一旦MLP經(jīng)過訓(xùn)練，該算法可被用于根據(jù)所期望的對(duì)特定目標(biāo)聲音的變換的輸出質(zhì)量對(duì)一組源發(fā)音人進(jìn)行選擇和分級(jí)。
文檔編號(hào)G10L17/00GK101375329SQ200680012892
公開日2009年2月25日申請(qǐng)日期2006年3月14日優(yōu)先權(quán)日2005年3月14日
發(fā)明者F·杜特弛, L·阿斯蘭, O·特克申請(qǐng)人:沃克索尼克股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：O.特克;L.阿斯蘭;F.杜特弛
技術(shù)所有人：沃克索尼克股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

hmm用于語音識(shí)別相關(guān)技術(shù)

老和尚熊抱女施主相關(guān)技術(shù)

施主快醒醒相關(guān)技術(shù)

施主請(qǐng)自重相關(guān)技術(shù)

施主相關(guān)技術(shù)

施主雜質(zhì)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音轉(zhuǎn)換的自動(dòng)施主分級(jí)和選擇系統(tǒng)及方法