欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音轉(zhuǎn)換的自動(dòng)施主分級(jí)和選擇系統(tǒng)及方法

文檔序號(hào):2830033閱讀:357來源:國知局
專利名稱:用于語音轉(zhuǎn)換的自動(dòng)施主分級(jí)和選擇系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理領(lǐng)域,尤其涉及為語音轉(zhuǎn)換過程選擇施主發(fā)音人的技術(shù)。
背景技術(shù)
語音轉(zhuǎn)換的目的在于將源(即,施主)發(fā)音人的語音變換為目標(biāo)發(fā)音人的語 音。雖然出于此目的已提出了多種算法,但是沒有一種能夠確保不同施主-目標(biāo)發(fā) 音人對(duì)的等效性能。
語音轉(zhuǎn)換性能對(duì)施主-目標(biāo)發(fā)音人對(duì)的依賴性對(duì)于實(shí)際應(yīng)用是不利的。然而, 在大多數(shù)情形中,目標(biāo)發(fā)音人是固定的,即語音轉(zhuǎn)換應(yīng)用旨在生成特定目標(biāo)發(fā)音人 的語音,而施主發(fā)音人可以從一組候選人中選擇。作為一個(gè)示例,考慮涉及在例如 計(jì)算機(jī)游戲應(yīng)用中將普通語音變換為名人語音的配音應(yīng)用。不是使用該實(shí)際的名人 來記錄聲軌——這可能非常昂貴或不可行,而是使用語音轉(zhuǎn)換系統(tǒng)將普通人的語音 (即,施主的語音)轉(zhuǎn)換成聽起來與該名人相同的語音。在這種情形中,在一組施 主候選人即可利用的人中選擇最合適的施主發(fā)音人從而顯著地提高了輸出質(zhì)量。例 如,來自女性羅馬語發(fā)音人的語音在一特定應(yīng)用中可能比來自男性德語發(fā)音人的語 音更適合作為施主語音。然而,從所有可能的候選人當(dāng)中收集整個(gè)訓(xùn)練數(shù)據(jù)庫、為 每個(gè)可能的候選人執(zhí)行適當(dāng)?shù)霓D(zhuǎn)換、在各轉(zhuǎn)換之間進(jìn)行比較、以及獲得一個(gè)或多個(gè) 收聽人對(duì)每個(gè)候選人的輸出質(zhì)量或適用性的主觀決策。

發(fā)明內(nèi)容
本發(fā)明通過提供用于從一組施主候選人當(dāng)中自動(dòng)地評(píng)估和選擇合適的施主發(fā) 音人用于轉(zhuǎn)換到給定目標(biāo)發(fā)音人的施主選擇系統(tǒng)克服了現(xiàn)有技術(shù)的這些和其它缺 陷。具體地,本發(fā)明尤其在通過比較從若干施主獲得的聲學(xué)特征與目標(biāo)發(fā)聲而無需 實(shí)際執(zhí)行語音轉(zhuǎn)換的選擇過程中采用了客觀準(zhǔn)則??陀^準(zhǔn)則與輸出質(zhì)量之間的某種 關(guān)系使得能夠選擇最佳施主候選人。這種系統(tǒng)尤其避免了轉(zhuǎn)換大量語音并且用一組 人主觀地收聽轉(zhuǎn)換質(zhì)量的需要。
在本發(fā)明的一個(gè)實(shí)施例中,用于將施主分級(jí)的系統(tǒng)包括聲學(xué)特征提取器, 從施主語音樣本和目標(biāo)發(fā)音人語音樣本提取聲學(xué)特征;以及自適應(yīng)系統(tǒng),根據(jù)所提 取的聲學(xué)特征生成語音轉(zhuǎn)換質(zhì)量的預(yù)測(cè)。語音轉(zhuǎn)換質(zhì)量可以依據(jù)轉(zhuǎn)換的整體質(zhì)量以 及所轉(zhuǎn)換的語音與目標(biāo)發(fā)音人的聲音特性的相似性。聲學(xué)特征可包括諸如線譜頻率 (LSF)距離、音高、音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、詞間靜默持 續(xù)時(shí)間、能量、頻譜傾斜、頻率微擾、開商、幅度微擾、以及電聲門圖(EGG) 形狀值。
在另一實(shí)施例中, 一種為目標(biāo)發(fā)音人選擇合適施主的系統(tǒng)采用施主分級(jí)系統(tǒng) 并基于該分級(jí)結(jié)果選擇施主。
在另一實(shí)施例中, 一種用于將施主分級(jí)的方法包括提取一種或多種聲學(xué)特征 并使用自適應(yīng)系統(tǒng)根據(jù)該聲學(xué)特征預(yù)測(cè)語音轉(zhuǎn)換質(zhì)量。
在又一實(shí)施例中, 一種用于訓(xùn)練施主分級(jí)系統(tǒng)的方法包括以下步驟從語音 樣本的訓(xùn)練數(shù)據(jù)庫選擇施主和目標(biāo)發(fā)音人;獲取主觀質(zhì)量值;從施主聲音語音樣本 和目標(biāo)發(fā)音人聲音語音樣本提取一種或多種聲學(xué)特征;將該聲學(xué)特征提供給自適應(yīng) 系統(tǒng);使用該自適應(yīng)系統(tǒng)預(yù)測(cè)質(zhì)量值;計(jì)算所預(yù)測(cè)的質(zhì)量值與主觀質(zhì)量值之間的誤 差;以及根據(jù)該誤差調(diào)整改自適應(yīng)系統(tǒng)。此外,主觀質(zhì)量值可通過將施主聲音語音 樣本轉(zhuǎn)換為轉(zhuǎn)換后具有目標(biāo)發(fā)音人的聲音特性的聲音語音樣本、將轉(zhuǎn)換后的聲音語 音樣本和目標(biāo)發(fā)音人聲音語音樣本兩者都提供給一個(gè)或多個(gè)主觀收聽者、以及從主 觀聽收者接收主觀質(zhì)量值。該主觀質(zhì)量值可以是從每個(gè)主觀收聽者獲得的單個(gè)主觀 質(zhì)量值的統(tǒng)計(jì)組合。
根據(jù)以下本發(fā)明的優(yōu)選實(shí)施例的更為具體的說明、附圖、以及權(quán)利要求,本 發(fā)明的上述和其它特征及優(yōu)點(diǎn)將是顯而易見的。


為了更加完整地理解本發(fā)明及其目的和優(yōu)點(diǎn),現(xiàn)在結(jié)合附圖參照以下說明, 其中
圖l示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的自動(dòng)施主分級(jí)系統(tǒng);
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例由特征提取器實(shí)現(xiàn)的用以從給定語音樣
本提取一組聲學(xué)特征的過程;
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的來自示例性男性發(fā)音人的EGG記錄的
開商評(píng)估。
圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的表征示例性男性發(fā)音人的EGG信號(hào)的 一個(gè)周期的EGG形狀。
圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的示例性女性到女性語音轉(zhuǎn)換的不同聲 學(xué)特征的示例性直方圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的包括多層感知器(MLP)的自適應(yīng)系統(tǒng)。
圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在訓(xùn)練期間配置的自動(dòng)施主分級(jí)系統(tǒng)。 圖8示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的生成訓(xùn)練集的方法。 圖9和10示出了列有根據(jù)實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的S分?jǐn)?shù)的表; 圖11和12示出了列有根據(jù)實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的Q分?jǐn)?shù)的表;以及 圖13示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的IO重交叉效度確認(rèn)和測(cè)試基于MLP 的自動(dòng)施主選擇算法的結(jié)果。
具體實(shí)施例方式
以下參照其中相同附圖標(biāo)記表示相同要素的附圖1-13對(duì)本發(fā)明的進(jìn)一步特征 和優(yōu)點(diǎn)以及本發(fā)明各種實(shí)施例的結(jié)構(gòu)和操作進(jìn)行了說明。本發(fā)明的實(shí)施例是在語音 轉(zhuǎn)換系統(tǒng)的語境中說明的。盡管如此,本發(fā)明的普通技術(shù)人員很容易認(rèn)識(shí)到在此公 開的本發(fā)明及其特征還適用于需要施主語音選擇的任何語音處理系統(tǒng)或可提高轉(zhuǎn) 換質(zhì)量。
在諸如電影配音等許多語音轉(zhuǎn)換應(yīng)用中,配音演員的聲音被轉(zhuǎn)換為特征演員 的聲音。在這樣的應(yīng)用中,由諸如配音演員等源(施主)發(fā)音人記錄的語音被轉(zhuǎn)換 為具有諸如特征演員等目標(biāo)發(fā)音人的聲音特性的聲道。例如,電影會(huì)從英語被配音
為西班牙語同時(shí)希望在西班牙語聲軌中保持原始英語演員聲音的聲音特性。在這樣 的應(yīng)用中,目標(biāo)發(fā)音人(即,英語演員)的聲音特性是固定的,但是有一群具有對(duì) 配音過程起作用的各種聲音特性的施主(即,西班牙語發(fā)音人)。 一些施主在總體 聲音質(zhì)量和與目標(biāo)發(fā)音人的相似性上比其它施主產(chǎn)生較佳的轉(zhuǎn)換。
傳統(tǒng)地,通過將語音樣本轉(zhuǎn)換為目標(biāo)發(fā)音人的聲音特性、以及隨后主觀地將 每個(gè)經(jīng)過轉(zhuǎn)換的樣本與目標(biāo)發(fā)音人的樣本進(jìn)行比較來評(píng)價(jià)施主。換言之, 一個(gè)或多 個(gè)人必須介涉其中并在收聽所有轉(zhuǎn)換的基礎(chǔ)上來決定哪一特定施主是最適合的。在 電影配音情景中,必須針對(duì)每個(gè)目標(biāo)發(fā)音人和每組施主重復(fù)該過程。
相反,本發(fā)明提供了一種自動(dòng)施主分級(jí)和選擇系統(tǒng),并且只需要目標(biāo)發(fā)音人
樣本以及一個(gè)或多個(gè)施主發(fā)音人樣本??陀^分?jǐn)?shù)根據(jù)多個(gè)聲學(xué)特性被記算以預(yù)測(cè)給 定施主將產(chǎn)生優(yōu)質(zhì)轉(zhuǎn)換的似然性而不需要轉(zhuǎn)換所有施主語音樣本這一高成本步驟。 自動(dòng)施主分級(jí)系統(tǒng)包括使用關(guān)鍵聲學(xué)特征針對(duì)到給定目標(biāo)發(fā)音人的聲音的轉(zhuǎn) 換評(píng)價(jià)給定施主的質(zhì)量的自適應(yīng)系統(tǒng)。在自動(dòng)施主分級(jí)系統(tǒng)可被用于評(píng)價(jià)施主之 前,訓(xùn)練該自適應(yīng)系統(tǒng)。在該訓(xùn)練過程中,向自適應(yīng)系統(tǒng)提供從來自多個(gè)發(fā)音人的 示例性語音樣本得到的訓(xùn)練集。從這多個(gè)發(fā)音人得到多個(gè)施主-目標(biāo)發(fā)音人對(duì)。首 先,在施主語音被轉(zhuǎn)換為目標(biāo)發(fā)音人的聲音特性并由一人或多人進(jìn)行評(píng)價(jià)時(shí)得到主 觀質(zhì)量分?jǐn)?shù)。雖然在訓(xùn)練該自適應(yīng)系統(tǒng)時(shí)執(zhí)行了一些量的轉(zhuǎn)換,但是一旦經(jīng)過訓(xùn)練, 該自動(dòng)施主分級(jí)系統(tǒng)就不需要任何其它的語音轉(zhuǎn)換。
圖1示出了根據(jù)本發(fā)明的自動(dòng)施主分級(jí)系統(tǒng)100。施主語音樣本102和目標(biāo)語 音樣本104被送進(jìn)聲學(xué)特征提取器106——其實(shí)現(xiàn)對(duì)本領(lǐng)域的普通技術(shù)人員是顯而 易見的——以從施主語音樣本102和目標(biāo)語音樣本104提取聲學(xué)特征。這些聲學(xué)特 征然后被提供給生成Q分?jǐn)?shù)輸出IIO和S分?jǐn)?shù)輸出112的自適應(yīng)系統(tǒng)108。Q分?jǐn)?shù) 輸出110是所預(yù)測(cè)的從施主聲音到目標(biāo)聲音的語音轉(zhuǎn)換的平均意見等級(jí)(MOS) 聲音質(zhì)量,其對(duì)應(yīng)于聲音質(zhì)量的標(biāo)準(zhǔn)MOS等級(jí)1=差,2=較差,3=較好,4=好, 5=優(yōu)。S輸出112是所預(yù)測(cè)的從施主聲音到目標(biāo)聲音的語音轉(zhuǎn)換的相似性,分級(jí)為 從1=差到10=優(yōu)。在以下所述的自適應(yīng)系統(tǒng)的訓(xùn)練過程中,訓(xùn)練集114被提供給 聲學(xué)特征提取器106并由自適應(yīng)系統(tǒng)108處理。訓(xùn)練集包括伴有Q分?jǐn)?shù)和S分?jǐn)?shù) 的多個(gè)施主-目標(biāo)發(fā)音人對(duì)。對(duì)于每個(gè)施主-目標(biāo)發(fā)音人對(duì),聲學(xué)特征提取器106從 施主語音和目標(biāo)發(fā)音人語音提取聲學(xué)特征并將結(jié)果提供給計(jì)算和提供Q分?jǐn)?shù)輸出 IIO和S分?jǐn)?shù)輸出112自適應(yīng)信號(hào)。來自訓(xùn)練集施主-目標(biāo)發(fā)音人對(duì)的Q分?jǐn)?shù)和S 分?jǐn)?shù)被提供給將它們與Q分?jǐn)?shù)輸出110和S分?jǐn)?shù)輸出112相比的自適應(yīng)系統(tǒng)。自 適應(yīng)系統(tǒng)108然后被修改以使所生成的Q分?jǐn)?shù)和S分?jǐn)?shù)與訓(xùn)練集中的Q分?jǐn)?shù)和S 分?jǐn)?shù)之間的差異最小化。
對(duì)于任意給定目標(biāo)發(fā)音人,如果有多個(gè)施主聲道可為系統(tǒng)100所用,則得到 的Q分?jǐn)?shù)輸出110和S分?jǐn)?shù)輸出112的值分別指示在轉(zhuǎn)換后的聲音與目標(biāo)發(fā)音人 的聲音的相似性以及轉(zhuǎn)換后的聲音的總體聲音質(zhì)量這兩者上這多個(gè)施主中哪個(gè)施 主可能得到較高質(zhì)量的語音轉(zhuǎn)換。
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的由特征提取器106實(shí)現(xiàn)的用以從給定 語音樣本即聲道提取一組聲學(xué)特征的過程200。在步驟202,每個(gè)樣本作為電聲門 圖(EGG)記錄被接收。EGG記錄將器官聲門(聲襞)出口處的體積速度作為電
信號(hào)給出。它顯示了在講話發(fā)聲期間人的激勵(lì)特性。在步驟204,每個(gè)樣本由例如 隱式馬爾可夫模型工具包(HTK)來語音地貼加標(biāo)簽,其實(shí)現(xiàn)對(duì)本領(lǐng)域的普通技 術(shù)人員是顯而易見的。在步驟206,分析持續(xù)元音/aa/的EGG信號(hào)并確定音高標(biāo)記。 使用/aa/音是因?yàn)閷?duì)于/aa/音,在聲道上的任意一點(diǎn)沒有施加收縮,因此它是比較源 和目標(biāo)發(fā)音人激勵(lì)特性的一個(gè)良好基準(zhǔn),而對(duì)于其它音的產(chǎn)生,口音或方言可能會(huì) 強(qiáng)加其它的可變性。在步驟208,提取音高和能量輪廓線。在步驟210,根據(jù)語音 標(biāo)簽確定每個(gè)源和目標(biāo)發(fā)聲之間的對(duì)應(yīng)幀。在步驟212,提取各個(gè)聲學(xué)特征。
在本發(fā)明的一個(gè)實(shí)施例中,所提取的各個(gè)聲學(xué)特征包括以下特征中的一個(gè)或 多個(gè)線譜頻率(LSF)距離、音高、持續(xù)時(shí)間、能量、頻譜傾斜、開商(OQ)、 頻率微擾、振幅微擾、軟發(fā)聲索引(SPI) 、 Hl-H2、以及EGG形狀。以下更加具 體地說明這些特征。
具體地,在本發(fā)明的一個(gè)實(shí)施例中,使用16KHz上20的線性預(yù)測(cè)階數(shù)在逐 幀的基礎(chǔ)上計(jì)算LSF。兩個(gè)LSF向量之間的距離d使用下式計(jì)算
<formula>formula see original document page 10</formula><formula>formula see original document page 10</formula>
其中,w化是第一LSF向量的第k項(xiàng),Wa是第二LSF向量的第k項(xiàng),P是預(yù)測(cè)階 數(shù),以及hk是對(duì)應(yīng)于第一LSF向量的第k項(xiàng)的加權(quán)。
音高(fo)值是使用基于標(biāo)準(zhǔn)自相關(guān)的音高檢測(cè)算法來計(jì)算的,其標(biāo)識(shí)和實(shí)現(xiàn) 對(duì)于本領(lǐng)域的普通技術(shù)人員是顯而易見的。
對(duì)于持續(xù)時(shí)間特征,音素、單詞、發(fā)聲、以及詞間靜默持續(xù)時(shí)間從語音標(biāo)簽 來計(jì)算。
對(duì)于能量特征,計(jì)算逐幀的能量。
對(duì)于頻譜傾斜,使用全局(global)頻譜峰值的dB振幅值與4KHz上的dB振 幅值之間LP頻譜的最小二乘線擬合(預(yù)測(cè)階數(shù)為2)的斜率。
對(duì)于EGG信號(hào)的每個(gè)周期,如圖3中針對(duì)一示例性男性發(fā)音人所示的,OQ 作為信號(hào)的正的部分相對(duì)于信號(hào)長度的比率被估計(jì)。
頻率微擾是排除持續(xù)元音/aa/中未發(fā)聲部分的基本音高周期T。的平均周期間 變化,使用下式計(jì)算
振幅微擾是排除持續(xù)元音/aa/中未發(fā)聲部分的峰-峰振幅A的平均周期間變化, 使用下式計(jì)算
<formula>formula see original document page 11</formula>
軟發(fā)聲索引(SPI)是70-1600Hz范圍中低頻諧波能量與1600-4500Hz范圍中
諧波能量的平均比率。
Hl-H2是從功率頻譜估計(jì)得到的頻譜中第一與第二諧波之間逐幀的振幅差異。
如圖4中針對(duì)示例性男性發(fā)音人所示的,EGG形狀是用以表征EGG信號(hào)的一 個(gè)周期的簡(jiǎn)單的三參數(shù)模型,其中a是從聲門閉合瞬間到EGG信號(hào)峰值的最小二 乘(LS)線擬合的斜率,(3是聲襞開啟時(shí)的EGG信號(hào)部分的LS線擬合的斜率, 以及是聲襞關(guān)閉時(shí)信號(hào)部分的LS線擬合的斜率。
與生成單個(gè)值的LSF距離不同,上述提取的所有其它特征都是分布式狀態(tài)。
圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的兩個(gè)示例性女性的不同聲學(xué)特征的示 例性直方圖。在這些直方圖中,y軸對(duì)應(yīng)于x軸中參數(shù)值出現(xiàn)的歸一化頻率。具體 地,圖5(a)示出了兩個(gè)女性的音高分布。圖5(b)示出了兩個(gè)女性的頻譜傾斜。圖5(c) 示出了這兩個(gè)女性的開商。圖5(d)-(f)示出了她們的EGG形狀,具體分別是a、 p、 Y。圖5中所示的時(shí)間和譜特征是依賴于發(fā)音人的,從而可被用于對(duì)發(fā)音人之間的 差異進(jìn)行分析和建模。在本發(fā)明的實(shí)施例中,以上所列的一組聲學(xué)特征被用來對(duì)源 -目標(biāo)發(fā)音人對(duì)之間的差異進(jìn)行建模。
在本發(fā)明的一個(gè)實(shí)施例中,使用例如比較分布的常規(guī)統(tǒng)計(jì)學(xué)方法的Wilcoxon 分級(jí)和(腦k-sum)測(cè)試來計(jì)算兩個(gè)發(fā)音人之間的聲學(xué)特征距離。該分級(jí)和測(cè)試是 Wild和Seber所述的雙樣本t測(cè)試的非參數(shù)替換,并且對(duì)來自任何分布的數(shù)據(jù)都有 效且相比于雙樣本t測(cè)試對(duì)于離群值不敏感得多。它不僅對(duì)分布的平均值之間的差 異起作用,而且還對(duì)分布的形狀之間的差異起作用。分級(jí)和值越低,比較下的兩個(gè) 分布越接近。
在本發(fā)明的一個(gè)實(shí)施例中,上述一個(gè)或多個(gè)聲學(xué)特征作為輸入被提供給自適
應(yīng)系統(tǒng)108。在使用自適應(yīng)系統(tǒng)108對(duì)施主分級(jí)之前,必須經(jīng)過訓(xùn)練階段。具體地, 包括一組施主-目標(biāo)發(fā)音人對(duì)的訓(xùn)練集114與其S和Q分?jǐn)?shù)一起被提供。以下對(duì)獲 得或觀察用以發(fā)展訓(xùn)練集的數(shù)據(jù)的示例進(jìn)行說明。另外,具有S和Q分?jǐn)?shù)的一組 施主-目標(biāo)對(duì)作為測(cè)試集被保存。在訓(xùn)練階段,每個(gè)施主-目標(biāo)對(duì)具有諸如上述一個(gè) 或多個(gè)特征的由聲學(xué)特征提取器106所提取的聲學(xué)特征。這些特征被送進(jìn)自適應(yīng)系 統(tǒng)108,由其生成預(yù)測(cè)的S和Q分?jǐn)?shù)。將這些預(yù)測(cè)的分?jǐn)?shù)與作為訓(xùn)練集114的一部 分被提供的S和Q分?jǐn)?shù)相比較。將差異作為其誤差提供給自適應(yīng)系統(tǒng)108。自適應(yīng) 系統(tǒng)108然后進(jìn)行調(diào)整以最小化其誤差。有許多種本領(lǐng)域內(nèi)已知的用于誤差最小化 的方法,具體示例在以下示出。在一段訓(xùn)練之后,測(cè)試集中施主-目標(biāo)發(fā)音人對(duì)的 聲學(xué)特征被提取。自適應(yīng)系統(tǒng)108產(chǎn)生預(yù)測(cè)的S和Q分?jǐn)?shù)。這些值被與作為測(cè)試 值的一部分被提供的S和Q分?jǐn)?shù)相比較。如果所預(yù)測(cè)的與實(shí)際S和Q分?jǐn)?shù)之間的 差異在可接受的閾值之內(nèi),則自適應(yīng)系統(tǒng)108已經(jīng)過訓(xùn)練并準(zhǔn)備好可以使用。例如, 當(dāng)誤差在實(shí)際值的±5%之內(nèi)時(shí)。否則,過程返回訓(xùn)練。
在本發(fā)明的至少一個(gè)實(shí)施例中,自適應(yīng)系統(tǒng)108包括多層感知器(MLP)網(wǎng) 絡(luò)或后向傳播網(wǎng)絡(luò)。圖6示出了 MLP網(wǎng)絡(luò)的一個(gè)示例。它包括輸入層602,接 收聲學(xué)特征; 一個(gè)或多個(gè)隱式層604,被耦合至輸入層;以及輸出層606,分別生 成所預(yù)測(cè)的Q和S輸出608和610。每層包括具有與每個(gè)輸入相耦合的可在訓(xùn)練中 調(diào)整的加權(quán)的一個(gè)或多個(gè)感知器。用于構(gòu)造、訓(xùn)練、以及使用MLP網(wǎng)絡(luò)的方法是 本領(lǐng)域中公知的(參照例如,R. Hecht-Nielsen的Neurocomputing, pp. 124-138, 1987)。這樣一種訓(xùn)練MLP網(wǎng)絡(luò)的方法是誤差最小化的梯度下降法,其實(shí)現(xiàn)對(duì)本 領(lǐng)域的普通技術(shù)人員是顯而易見的。
圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在訓(xùn)練期間配置時(shí)的自動(dòng)施主分級(jí)系 統(tǒng)IOO。在訓(xùn)練期間,訓(xùn)練數(shù)據(jù)庫702設(shè)有許多發(fā)音人的樣本發(fā)生記錄,并且形成 外加有該訓(xùn)練數(shù)據(jù)庫702中記錄的施主-目標(biāo)發(fā)音人對(duì)的Q和S分?jǐn)?shù)的訓(xùn)練集114。 為了生成Q和S分?jǐn)?shù)708,每個(gè)可能的施主-目標(biāo)發(fā)音人對(duì)將施主語音進(jìn)行轉(zhuǎn)換以 模仿目標(biāo)發(fā)音人704的聲音特性。開始應(yīng)用主觀收聽準(zhǔn)則以比較轉(zhuǎn)換后的語音和目 標(biāo)發(fā)音人語音706。例如,收聽的人可對(duì)感知的每個(gè)轉(zhuǎn)換的質(zhì)量評(píng)定等級(jí)。需要注 意的是,該主觀收聽只是開始在訓(xùn)練期間執(zhí)行一次。隨后的感知分析由系統(tǒng)100 客觀地執(zhí)行。
可以體現(xiàn)為硬件和/或軟件的語音轉(zhuǎn)換元件704應(yīng)該實(shí)現(xiàn)系統(tǒng)100針對(duì)其被設(shè) 計(jì)用以評(píng)估施主質(zhì)量的轉(zhuǎn)換方法相同的方法。例如,如果系統(tǒng)IOO被用于使用使用
分段碼本的發(fā)音人變換算法(STASC)確定語音轉(zhuǎn)換的最佳施主,則應(yīng)使用STASC 轉(zhuǎn)換。然而,如果施主被選擇用于另一種語音轉(zhuǎn)換技術(shù),例如Tur等人于2006年 3月8日提交的題為"Codebook-less Speech Conversion Method and System (少量碼 本語音轉(zhuǎn)換方法和系統(tǒng))"、其全部公開內(nèi)容通過援引包括于此的共同所有的美國 專利申請(qǐng)No. 11/370,682中公開的Codebook-less技術(shù),則語音轉(zhuǎn)換704應(yīng)使用相 同的語音轉(zhuǎn)換技術(shù)。
在訓(xùn)練過程中,施主-目標(biāo)發(fā)音人對(duì)被提供給提取特征的特征提取器106,自 適應(yīng)系統(tǒng)108使用這些特征如上所述地預(yù)測(cè)Q分?jǐn)?shù)和S分?jǐn)?shù)。另外,實(shí)際Q分?jǐn)?shù) 710和S分?jǐn)?shù)712被提供給自適應(yīng)系統(tǒng)108?;谒褂玫木唧w訓(xùn)練算法,自適應(yīng) 系統(tǒng)108修改以最小化所預(yù)測(cè)的與實(shí)際Q分?jǐn)?shù)和S分?jǐn)?shù)之間的誤差。
圖8示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例生成訓(xùn)練集的方法800。具體地,在步驟 802,記錄測(cè)試發(fā)音人預(yù)定的一組發(fā)聲。在步驟804,記錄其余測(cè)試發(fā)音人相同的 預(yù)定的一組發(fā)聲并被要求盡可能接近地模仿第一測(cè)試發(fā)音人定時(shí),這有助于改善自 動(dòng)對(duì)準(zhǔn)性能。在步驟806,對(duì)于每個(gè)預(yù)選的施主-目標(biāo)發(fā)音人對(duì),施主的發(fā)聲被轉(zhuǎn) 換為目標(biāo)發(fā)音人的聲音特性。如上所述,如果系統(tǒng)IOO被用于使用STASC確定語 音轉(zhuǎn)換的最佳施主,則在步驟S806應(yīng)使用STASC轉(zhuǎn)換。然而,如果施主被選擇 用于另一種語音轉(zhuǎn)換技術(shù),則步驟806的語音轉(zhuǎn)換應(yīng)該使用相同的語音轉(zhuǎn)換技術(shù)。
因?yàn)槁曇糁械牟町惡陀涗涃|(zhì)量是非常主觀的,諸如上述的Q和S值,所以訓(xùn) 練和測(cè)試數(shù)據(jù)的獲取開始應(yīng)該基于主觀測(cè)試。相應(yīng)地,在步驟808, 一個(gè)或多個(gè)受 實(shí)驗(yàn)者被呈現(xiàn)源發(fā)聲、目標(biāo)發(fā)聲以及經(jīng)轉(zhuǎn)換的發(fā)聲,并被要求使用上述評(píng)分范圍為 每個(gè)變換提供兩個(gè)主觀分?jǐn)?shù)變換輸出到目標(biāo)發(fā)音人聲音的相似性(S分?jǐn)?shù))以及 語音轉(zhuǎn)換輸出的MOS質(zhì)量(Q分?jǐn)?shù))。在步驟810,諸如使用某些形式的統(tǒng)計(jì)學(xué) 組合可以確定Q分?jǐn)?shù)和S分?jǐn)?shù)的代表性分?jǐn)?shù)。例如,可使用該組中每個(gè)人的所有S 分?jǐn)?shù)和所有Q分?jǐn)?shù)的平均值。在另一實(shí)施例中,可以使用在剔除最高和最低分?jǐn)?shù) 之后該組中每個(gè)人的所有S分?jǐn)?shù)和所有Q分?jǐn)?shù)的平均值。在另一示例中,可使用 該組中每個(gè)人的S分?jǐn)?shù)和所有Q分?jǐn)?shù)的中值。
作為發(fā)展訓(xùn)練集的一個(gè)示例,以下說明了一個(gè)實(shí)驗(yàn)研究。對(duì)于該示例,STASC 被用作語音轉(zhuǎn)換技術(shù),它是在L. M. Arslan等人的"Speaker transformation algorithm using segmental codebooks (使用分段碼本的發(fā)音人變換算法)"(Speec/z Comm,/ca"o" 28,卯211-226, 1999)中提出的基于碼本映射的算法。STASC采用 自適應(yīng)變換平滑濾波器來降低不連續(xù)性,從而產(chǎn)生自然的聲音和高質(zhì)量的輸出。
STASC是基于兩級(jí)碼本映射的算法。在STASC算法的訓(xùn)練級(jí),源聲學(xué)參數(shù)與目標(biāo) 聲學(xué)參數(shù)之間的映射被建模。在STASC算法的變換級(jí),源發(fā)音人聲學(xué)參數(shù)在逐幀 的基礎(chǔ)上與源發(fā)音人碼本條目相匹配并且目標(biāo)聲學(xué)參數(shù)作為目標(biāo)碼本條目的加權(quán) 平均被估計(jì)。加權(quán)算法顯著地降低了不連續(xù)性?,F(xiàn)在它正被使用在商業(yè)應(yīng)用中以用 于國際配音、歌聲語音轉(zhuǎn)換、以及創(chuàng)造新的文本到語音(TTS)聲音。
實(shí)驗(yàn)結(jié)果
以下實(shí)驗(yàn)研究被用于生成施主-目標(biāo)發(fā)音人對(duì)的訓(xùn)練集180。首先,語音轉(zhuǎn)換 數(shù)據(jù)庫由IO位男性和IO位女性本土土耳其語發(fā)音人在聲學(xué)隔離的房間中被記錄的 20個(gè)發(fā)聲(18個(gè)訓(xùn)練,2個(gè)測(cè)試)。這些發(fā)聲是描述房間的自然句子,例如"地 板上有塊灰色的毯子"。同時(shí)采集EGG記錄。男性發(fā)音人中的一個(gè)被選為基準(zhǔn)發(fā) 音人,而其余發(fā)音人被要求盡可能接近地模仿該基準(zhǔn)發(fā)音人的定時(shí)。
為了避免由于性別間轉(zhuǎn)換所需的大量音高縮放而造成的質(zhì)量下降,所以單獨(dú) 考慮男性到男性以及女性到女性轉(zhuǎn)換。將每個(gè)發(fā)音人考慮為目標(biāo)并執(zhí)行從相同性別 的其余9名發(fā)音人到該目標(biāo)發(fā)音人的轉(zhuǎn)換。因此,源-目標(biāo)對(duì)的總數(shù)為180 (90對(duì) 男性到男性,90對(duì)女性到女性)。
十二位受實(shí)驗(yàn)者被呈現(xiàn)源記錄、目標(biāo)記錄、以及經(jīng)經(jīng)變換的記錄,并被要求 為每個(gè)變換提供兩個(gè)主觀分?jǐn)?shù),S分?jǐn)?shù)和Q分?jǐn)?shù)。
圖9和10示出了列有根據(jù)本實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的平均S分?jǐn)?shù)的表 格。具體地,圖9列出了所有男性源-目標(biāo)對(duì)的評(píng)估S分?jǐn)?shù),而圖10列出了所有女 性源-目標(biāo)對(duì)的平均S分?jǐn)?shù)。對(duì)于男性對(duì),當(dāng)基準(zhǔn)發(fā)音人是源發(fā)音人時(shí)獲得最高的 S分?jǐn)?shù)。因此,當(dāng)源定時(shí)更好地匹配訓(xùn)練集中的目標(biāo)定時(shí)時(shí),語音轉(zhuǎn)換的性能得到 改善。排除基準(zhǔn)發(fā)音人,產(chǎn)生最佳語音轉(zhuǎn)換性能的源發(fā)音人隨目標(biāo)發(fā)音人而變換。 因此,語音轉(zhuǎn)換算法的性能取決于所選的具體源-目標(biāo)對(duì)。表的最后一行顯示一些 源發(fā)音人與其他人相比不適合語音轉(zhuǎn)換,例如男性源發(fā)音人4號(hào)和女性源發(fā)音人4 號(hào)。表中的最后一列指示較難生成某些目標(biāo)發(fā)音人的聲音,即,男性目標(biāo)發(fā)音人6 號(hào)和女性目標(biāo)發(fā)音人l號(hào)。
圖11和12示出了列有根據(jù)本實(shí)驗(yàn)的所有源-目標(biāo)發(fā)音人對(duì)的平均Q分?jǐn)?shù)的表。 具體地,圖ll列出了所有男性源-目標(biāo)對(duì)的平均Q分?jǐn)?shù),而圖12列出了所有女性 源-目標(biāo)對(duì)的平均S分?jǐn)?shù)。
在本發(fā)明的一個(gè)實(shí)施例中,在如上所述地創(chuàng)建訓(xùn)練集之后系統(tǒng)100被訓(xùn)練。 使用IO重交叉效度確認(rèn)分析來評(píng)估系統(tǒng)IOO預(yù)測(cè)主觀測(cè)試值的性能。為此,2位
男性和2位女性發(fā)音人被預(yù)留作為測(cè)試集。2位男性和2位女性發(fā)音人被預(yù)留作為 效度確認(rèn)集。其余男性-男性對(duì)和女性-女性對(duì)之間的客觀距離被用作對(duì)系統(tǒng)100的
輸入,而相應(yīng)的主觀分?jǐn)?shù)作為輸出。在訓(xùn)練后,估計(jì)效度確認(rèn)集中目標(biāo)發(fā)音人的主
觀分?jǐn)?shù)并計(jì)算S分?jǐn)?shù)和Q分?jǐn)?shù)的誤差。
圖13示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的10重交叉效度確認(rèn)分析以及測(cè)試基 于MLP自動(dòng)施主選擇算法的結(jié)果。每次交叉效度確認(rèn)步驟上的誤差被定義為系統(tǒng) IOO決策與主觀測(cè)試結(jié)果之間的絕對(duì)差,其中
<formula>formula see original document page 15</formula>以及
<formula>formula see original document page 15</formula>
其中,T是測(cè)試中源-目標(biāo)對(duì)的總數(shù),SsuB(i)是第i對(duì)的主觀S分?jǐn)?shù),S亂p(i)是第i 對(duì)由MLP估計(jì)的S分?jǐn)?shù),QsuB(i)是第i對(duì)的主觀Q分?jǐn)?shù),QMLP(i)是第i對(duì)由MLP
估計(jì)的Q分?jǐn)?shù)。Es標(biāo)示S分?jǐn)?shù)中的誤差而Eg標(biāo)示Q分?jǐn)?shù)中的誤差。通過使用效 度確認(rèn)集中不同發(fā)音人將上述兩個(gè)步驟重復(fù)10次。將平均交叉效度確認(rèn)誤差計(jì)算 作為各步驟中誤差的平均。最終,使用除測(cè)試集中發(fā)音人之外的所有發(fā)音人訓(xùn)練 MLP并關(guān)于測(cè)試集評(píng)價(jià)其性能。
此外,可用研究主觀測(cè)試結(jié)果與聲學(xué)特征距離之間的關(guān)系的ID3算法訓(xùn)練決 策樹。在實(shí)驗(yàn)結(jié)果中,使用來自所有源-目標(biāo)發(fā)音人對(duì)的數(shù)據(jù)訓(xùn)練的決策樹僅通過 使用Hl-H2特性將男性源發(fā)音人3號(hào)與其他人區(qū)分開來。當(dāng)其被用作目標(biāo)發(fā)音人 時(shí)所得到的低主觀分?jǐn)?shù)指示使用語音轉(zhuǎn)換很難生成該發(fā)音人的聲音。如決策樹正確 標(biāo)識(shí)的,該發(fā)音人與其余發(fā)音人相比具有顯著較低的Hl-H2和fo。
上述系統(tǒng)基于給定施主預(yù)測(cè)轉(zhuǎn)換質(zhì)量??梢愿鶕?jù)所預(yù)測(cè)的Q分?jǐn)?shù)和S分?jǐn)?shù)從 多個(gè)施主中選擇一個(gè)施主用于所分派的語音轉(zhuǎn)換。Q和S分?jǐn)?shù)的相對(duì)重要性取決于 應(yīng)用。例如,在電影配音示例中,音頻質(zhì)量非常重要,所以高Q分?jǐn)?shù)是優(yōu)選的, 即使這樣會(huì)犧牲對(duì)目標(biāo)發(fā)音人的一定相似性。相反,在應(yīng)用于環(huán)境可能嘈雜的電話 系統(tǒng)的語音響應(yīng)的TTS系統(tǒng)中,諸如路旁的援助呼叫中心,Q分?jǐn)?shù)并不重要,所 以在施主選擇過程中可能更多地偏重S分?jǐn)?shù)。因此在施主選擇系統(tǒng)中,使用Q分 數(shù)和S分?jǐn)?shù)將來自多個(gè)施主的各施主分級(jí)并根據(jù)Q分?jǐn)?shù)和S分?jǐn)?shù)選取最佳選擇, 其中Q和S分?jǐn)?shù)之間的關(guān)系根據(jù)具體應(yīng)用來確定。
在此僅出于說明目的使用具體實(shí)施例對(duì)本發(fā)明進(jìn)行了說明。然而,對(duì)于本領(lǐng) 域的普通技術(shù)人員顯而易見的是還可以其它方式體現(xiàn)本發(fā)明的原理。因此,本發(fā)明 不應(yīng)該被理解為被限制于在此所公開的具體實(shí)施例的范圍中,而應(yīng)完全與所附權(quán)利 要求的范圍相匹配。
權(quán)利要求
1.一種施主分級(jí)系統(tǒng),包括聲學(xué)特征提取器,用于從施主語音樣本和目標(biāo)發(fā)音人語音樣本提取一個(gè)或多個(gè)聲學(xué)特征;以及自適應(yīng)系統(tǒng),用于根據(jù)所述聲學(xué)特征生成語音轉(zhuǎn)換質(zhì)量值的預(yù)測(cè)。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述自適應(yīng)系統(tǒng)是根據(jù)包括 施主語音樣本、目標(biāo)發(fā)音人語音樣本、以及實(shí)際語音轉(zhuǎn)換質(zhì)量值在內(nèi)的訓(xùn)練數(shù) 據(jù)集來訓(xùn)練的。
3. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述語音轉(zhuǎn)換質(zhì)量值包括對(duì) 從所述施主語音樣本得到的經(jīng)過變換的語音樣本與所述目標(biāo)發(fā)音人樣本之間 的相似性的主觀分級(jí)。
4. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述語音轉(zhuǎn)換質(zhì)量值包括MOS 質(zhì)量值。
5. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述一個(gè)或多個(gè)聲學(xué)特征是 從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分布 的分級(jí)和、包括多個(gè)逐幀能量值的能量分布的分級(jí)和、頻譜傾斜值分布的分級(jí) 和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布的分 級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一與第 二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和,及 其組合。
6. 如權(quán)利要求5所述的系統(tǒng),其特征在于,所述持續(xù)時(shí)間分布包括來自 包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間的 組中的持續(xù)時(shí)間特征。
7. 如權(quán)利要求5所述的系統(tǒng),其特征在于,所述一個(gè)周期的EGG形狀值 是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述EGG 信號(hào)部分、以及聲襞閉合時(shí)的部分的組中部分的最小二乘擬合線的斜率。
8. —種包括如權(quán)利要求1所述的施主分級(jí)系統(tǒng)的施主選擇系統(tǒng),其特征 在于,來自多個(gè)施主的多個(gè)語音樣本被與所述目標(biāo)語音樣本配對(duì),并且根據(jù)所 述多個(gè)語音樣本中每一個(gè)的預(yù)測(cè)從所述多個(gè)施主當(dāng)中選擇一個(gè)施主。
9. 一種用于將施主分級(jí)的方法,包括從來自施主語音樣本和目標(biāo)發(fā)音人語音樣本的特征當(dāng)中提取一個(gè)或多個(gè) 聲學(xué)特征;以及使用經(jīng)過訓(xùn)練的自適應(yīng)系統(tǒng),根據(jù)所述聲學(xué)特征對(duì)語音轉(zhuǎn)換質(zhì)量值進(jìn)行預(yù)
10. 如權(quán)利要求9所述的方法,其特征在于,所述自適應(yīng)系統(tǒng)是根據(jù)包括 施主語音樣本、目標(biāo)發(fā)音人語音樣本、以及實(shí)際語音轉(zhuǎn)換質(zhì)量值在內(nèi)的訓(xùn)練數(shù) 據(jù)集來訓(xùn)練的。
11. 如權(quán)利要求9所述的方法,其特征在于,所述語音轉(zhuǎn)換質(zhì)量值包括對(duì) 從所述事主語音樣本得到的經(jīng)過變換的語音樣本與所述目標(biāo)發(fā)音人樣本之間 的相似性的主觀分級(jí)。
12. 如權(quán)利要求9所述的方法,其特征在于,所述語音轉(zhuǎn)換質(zhì)量值包括MOS質(zhì)量值。
13. 如權(quán)利要求9所述的方法,其特征在于,所述一個(gè)或多個(gè)聲學(xué)特征是 從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分布 的分級(jí)和、包括多個(gè)逐幀的能量值的能量分布的分級(jí)和、頻譜傾斜值分布的分 級(jí)和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布的 分級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一與 第二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和、 及其組合。
14. 如權(quán)利要求13所述的方法,其特征在于,所述持續(xù)時(shí)間分布包括來 自包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間 的組中的持續(xù)時(shí)間特征。
15. 如權(quán)利要求13所述的方法,其特征在于,所述一個(gè)周期的EGG形狀 值是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述 EGG信號(hào)部分、以及聲襞閉合時(shí)的部分的組中的部分的最小二乘擬合線的斜 率。
16. —種用于訓(xùn)練施主分級(jí)系統(tǒng)的方法,包括 從語音樣本訓(xùn)練數(shù)據(jù)庫選擇具有聲學(xué)特性的施主和目標(biāo)發(fā)音人;獲取實(shí)際主觀質(zhì)量值;從施主聲音語音樣本和目標(biāo)發(fā)音人聲音語音樣本提取一個(gè)或多個(gè)聲學(xué)特征;將所述一個(gè)或多個(gè)聲學(xué)特征提供給自適應(yīng)系統(tǒng); 使用所述自適應(yīng)系統(tǒng)預(yù)測(cè)所預(yù)測(cè)的主觀質(zhì)量值;計(jì)算所預(yù)測(cè)的主觀質(zhì)量值與所述實(shí)際主觀質(zhì)量值之間的誤差值;以及 根據(jù)所述誤差值調(diào)整所述自適應(yīng)系統(tǒng)。
17. 如權(quán)利要求16所述的方法,其特征在于,所述獲取實(shí)際主觀質(zhì)量值包括將所述施主聲音語音樣本轉(zhuǎn)換為具有所述目標(biāo)發(fā)音人的聲音特性的轉(zhuǎn)換 后的聲音語音樣本;將所述轉(zhuǎn)換后的聲音語音樣本和所述目標(biāo)發(fā)音人聲音語音樣本提供給主 觀收聽者;以及從所述主觀收聽者接收所述實(shí)際主觀質(zhì)量值。
18. 如權(quán)利要求17所述的方法,其特征在于,所述主觀收聽者包括多個(gè) 投票收聽者,并且所述實(shí)際主觀質(zhì)量值是從所述投票收聽者中的每個(gè)人接收到 的投票質(zhì)量值的統(tǒng)計(jì)學(xué)組合。
19. 如權(quán)利要求18所述的方法,其特征在于,所述統(tǒng)計(jì)學(xué)組合是平均值。
20. 如權(quán)利要求17所述的方法,其特征在于,所述一個(gè)或多個(gè)聲學(xué)特征 是從包括以下特征的組中選擇的LSF距離、持續(xù)時(shí)間分布的分級(jí)和、音高分 布的分級(jí)和、包括多個(gè)逐幀的能量值的能量分布的分級(jí)和、頻譜傾斜值分布的 分級(jí)和、EGG信號(hào)周期的每周期開商值分布的分級(jí)和、周期間頻率微擾值分布 的分級(jí)和、周期間振幅微擾值分布的分級(jí)和、軟發(fā)聲索引分布的分級(jí)和、第一 與第二諧波之間逐幀振幅差分布的分級(jí)和、逐周期EGG形狀值分布的分級(jí)和, 及其組合。
21. 如權(quán)利要求20所述的方法,其特征在于,所述持續(xù)時(shí)間分布包括來 自包含音素持續(xù)時(shí)間、單詞持續(xù)時(shí)間、發(fā)聲持續(xù)時(shí)間、以及詞間靜默持續(xù)時(shí)間 的組中的持續(xù)時(shí)間特征。
22.如權(quán)利要求20所述的方法,其特征在于,所述一個(gè)周期的EGG形狀 是包括聲門閉合瞬間到所述周期的最大值之間的部分、聲襞打開時(shí)的所述EGG 信號(hào)部分、以及聲襞閉合時(shí)的部分的組中的部分的最小二乘擬合線的斜率。
全文摘要
一種自動(dòng)施主選擇算法根據(jù)源發(fā)音人和目標(biāo)發(fā)音人的聲學(xué)特征之間的一組客觀距離度量估計(jì)主觀語音轉(zhuǎn)換輸出質(zhì)量。該算法用MLP通過非線性回歸學(xué)習(xí)主觀分?jǐn)?shù)與客觀距離度量之間的關(guān)系。一旦MLP經(jīng)過訓(xùn)練,該算法可被用于根據(jù)所期望的對(duì)特定目標(biāo)聲音的變換的輸出質(zhì)量對(duì)一組源發(fā)音人進(jìn)行選擇和分級(jí)。
文檔編號(hào)G10L17/00GK101375329SQ200680012892
公開日2009年2月25日 申請(qǐng)日期2006年3月14日 優(yōu)先權(quán)日2005年3月14日
發(fā)明者F·杜特弛, L·阿斯蘭, O·特克 申請(qǐng)人:沃克索尼克股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
隆安县| 枣庄市| 乐安县| 荔波县| 马山县| 东宁县| 三穗县| 伊宁县| 闽侯县| 高州市| 康保县| 遵义市| 东至县| 扎赉特旗| 分宜县| 大名县| 泾源县| 申扎县| 增城市| 温泉县| 磐安县| 新化县| 潼关县| 中超| 石楼县| 壶关县| 三河市| 乐都县| 旺苍县| 渝中区| 正定县| 资源县| 鞍山市| 广平县| 霍山县| 邯郸市| 江北区| 清河县| 宁乡县| 镇江市| 绥德县|