基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法
【專利摘要】本發(fā)明公開(kāi)了一種基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,對(duì)源語(yǔ)音碼書(shū)與目標(biāo)語(yǔ)音碼書(shū)的一對(duì)多映射關(guān)系的建立,從平行數(shù)據(jù)庫(kù)中隨機(jī)提取一部分語(yǔ)音,對(duì)齊并提取聲道參數(shù)后快速建立源與目標(biāo)語(yǔ)音碼書(shū);估算用于訓(xùn)練的數(shù)據(jù)中源與目標(biāo)特征參數(shù)對(duì)應(yīng)于其各自碼書(shū)的權(quán)重,通過(guò)統(tǒng)計(jì)與分析二者的關(guān)系來(lái)建立源與目標(biāo)語(yǔ)音的權(quán)重映射關(guān)系,進(jìn)而掌握個(gè)性特征的映射規(guī)則,實(shí)現(xiàn)高質(zhì)量、快速的語(yǔ)音轉(zhuǎn)換,能夠解決實(shí)際環(huán)境中語(yǔ)音轉(zhuǎn)換系統(tǒng)的實(shí)時(shí)性、轉(zhuǎn)換后相似度的問(wèn)題,最終在對(duì)語(yǔ)音轉(zhuǎn)換實(shí)時(shí)性追求的過(guò)程中減小轉(zhuǎn)換效果的代價(jià),從而提高轉(zhuǎn)換結(jié)果與目標(biāo)語(yǔ)音的相似度,具有良好的應(yīng)用前景。
【專利說(shuō)明】基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,屬于語(yǔ)音轉(zhuǎn)換【技術(shù)領(lǐng)域】?!颈尘凹夹g(shù)】
[0002]語(yǔ)音轉(zhuǎn)換技術(shù)是將某人(稱之為源)的語(yǔ)音作為輸入,對(duì)其進(jìn)行特征參數(shù)的修改,使其輸出語(yǔ)義相同但具有另一說(shuō)話人(稱之為目標(biāo))聲音個(gè)性的語(yǔ)音的技術(shù)。簡(jiǎn)單地說(shuō)就是將一個(gè)說(shuō)話人的聲音,通過(guò)某種手段進(jìn)行變換,使其聽(tīng)起來(lái)仿佛是另一個(gè)說(shuō)話人說(shuō)的話,語(yǔ)音轉(zhuǎn)換是音信號(hào)處理領(lǐng)域一個(gè)較新的分支,屬于交叉性的學(xué)科分支,其內(nèi)容既涵蓋語(yǔ)音的分析與合成、說(shuō)話人識(shí)別、語(yǔ)音編碼和增強(qiáng)等語(yǔ)音處理領(lǐng)域的各方面又涉及到語(yǔ)音學(xué)、語(yǔ)義學(xué)及心理聲學(xué)等領(lǐng)域的知識(shí)。
[0003]近年來(lái),語(yǔ)音轉(zhuǎn)換技術(shù)在許多語(yǔ)音研究者的努力下已經(jīng)初成一些體系,如隱馬爾可夫模型、人工神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)映射法等,早年,Stylianou等人通過(guò)高斯混合模型實(shí)現(xiàn)了對(duì)特征參數(shù)的映射,繼而該方法也成為了當(dāng)前較為主流的方法之一,語(yǔ)音轉(zhuǎn)換的最終目標(biāo)是實(shí)時(shí)化、智能化,因此轉(zhuǎn)換速度與轉(zhuǎn)換效果是語(yǔ)音轉(zhuǎn)換技術(shù)最主要的追求目標(biāo)。然而,以高斯混合模型訓(xùn)練為代表的現(xiàn)階段的轉(zhuǎn)換技術(shù)需要對(duì)每一段輸入的語(yǔ)音進(jìn)行進(jìn)行映射規(guī)則的訓(xùn)練,其計(jì)算量大、消耗時(shí)間較多,很難滿足語(yǔ)音轉(zhuǎn)換的實(shí)時(shí)性要求。
[0004]針對(duì)上述問(wèn)題,目前已存在一些應(yīng)對(duì)方案,例如,針對(duì)“訓(xùn)練過(guò)程的時(shí)間消耗”問(wèn)題,早期有學(xué)者提出矢量量化算法:先對(duì)用于訓(xùn)練的平行數(shù)據(jù)進(jìn)行線性預(yù)測(cè)分析,利用矢量量化運(yùn)算將平行數(shù)據(jù)的的聲道包絡(luò)參數(shù)劃分為若干碼本,然后對(duì)數(shù)據(jù)進(jìn)行動(dòng)態(tài)時(shí)間規(guī)整對(duì)齊并計(jì)算統(tǒng)計(jì)直方圖,最后將統(tǒng)計(jì)的直方圖作為加權(quán)因子建立轉(zhuǎn)換規(guī)則。針對(duì)矢量量化算法的轉(zhuǎn)換結(jié)果兩幀之間有間斷性的缺點(diǎn),Shikano等人提出模糊矢量量化算法,該算法在轉(zhuǎn)換時(shí)考慮到了所有源和目標(biāo)碼字之間的關(guān)系,然后將其加權(quán)疊加,以達(dá)到對(duì)參數(shù)進(jìn)行平滑的效果,但是語(yǔ)音轉(zhuǎn)換后相似度低。除此之外,Arslan等人提出基于分段碼書(shū)的說(shuō)話人映射算法,他們對(duì)輸入的語(yǔ)音幀首先按照所屬的音素類別進(jìn)行分類,并采用了線性譜頻率作為特征參數(shù)建立源與目標(biāo)語(yǔ)音一對(duì)一映射的碼書(shū),但此過(guò)程復(fù)雜,處理時(shí)間長(zhǎng)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是克服現(xiàn)有技術(shù)存在的不足,本發(fā)明的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,能夠解決實(shí)際環(huán)境中語(yǔ)音轉(zhuǎn)換系統(tǒng)的實(shí)時(shí)性、轉(zhuǎn)換后相似度的問(wèn)題,最終在對(duì)語(yǔ)音轉(zhuǎn)換實(shí)時(shí)性追求的過(guò)程中減小轉(zhuǎn)換效果的代價(jià),從而提高轉(zhuǎn)換結(jié)果與目標(biāo)語(yǔ)音的相似度,具有良好的應(yīng)用前景。
[0006]為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:
[0007]基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:包括以下步驟,
[0008]步驟(1),訓(xùn)練階段,用于建立源碼書(shū)與目標(biāo)碼書(shū)的一對(duì)多關(guān)系,包括以下步驟,
[0009](A)對(duì)平行的語(yǔ)音數(shù)據(jù)采用諧波隨機(jī)模型進(jìn)行語(yǔ)音分析;
[0010](B)從語(yǔ)音分析得到的模型參數(shù)中提取聲道特征參數(shù)和基音頻率;[0011](C)利用動(dòng)態(tài)時(shí)間規(guī)整算法將源和目標(biāo)的聲道特征參數(shù)進(jìn)行對(duì)齊;
[0012](D)從對(duì)齊的特征參數(shù)中隨機(jī)提取部分?jǐn)?shù)據(jù)作為碼書(shū),碼書(shū)包括源語(yǔ)音碼書(shū)和目標(biāo)碼書(shū);
[0013](E)將剩余與碼書(shū)不重疊的對(duì)齊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別估算并統(tǒng)計(jì)源與目標(biāo)的聲道特征參數(shù)在各自目標(biāo)碼書(shū)中對(duì)應(yīng)的權(quán)重,分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映身寸關(guān)系;
[0014](F)通過(guò)分析統(tǒng)計(jì)的權(quán)重關(guān)系,建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系;
[0015]步驟(2),轉(zhuǎn)換階段,用于實(shí)現(xiàn)語(yǔ)音特征的映射,合成轉(zhuǎn)換后的語(yǔ)音,以下步驟,
[0016](H)根據(jù)建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系,實(shí)現(xiàn)對(duì)語(yǔ)音特征的映射;
[0017](G)進(jìn)行參數(shù)內(nèi)插和相位補(bǔ)償,合成轉(zhuǎn)換后的語(yǔ)音。
[0018]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(A)對(duì)平行的語(yǔ)音數(shù)據(jù)采用諧波隨機(jī)模型進(jìn)行語(yǔ)音分析的方法,包括如下步驟,
[0019](Al),對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行固定時(shí)長(zhǎng)的分幀,用互相關(guān)法對(duì)基音頻率進(jìn)行估計(jì)并根據(jù)基音頻率劃分清音信號(hào)幀與濁音信號(hào)幀;
[0020](A2),在濁音信號(hào)幀部分設(shè)置一個(gè)最大濁音頻率分量,用來(lái)劃分諧波成分和隨機(jī)成分的主能量區(qū)域,再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值;
[0021](A3),在清音信號(hào)幀部分,利用經(jīng)典的線性預(yù)測(cè)分析法對(duì)其進(jìn)行分析,得到線性預(yù)測(cè)系數(shù)。
[0022]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(B)從語(yǔ)音分析得到的模型參數(shù)中提取聲道特征參數(shù)和基音頻率的方法,包括以下步驟,
[0023](BI),對(duì)(A2)得到的離散的諧波幅度值求取平方;
[0024](B2),根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對(duì)應(yīng)關(guān)系,得到(A3)線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程,求解該方程,將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換為線性譜頻率系數(shù)。
[0025]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(C)利用動(dòng)態(tài)時(shí)間規(guī)整算法將源和目標(biāo)的聲道特征參數(shù)進(jìn)行對(duì)齊,對(duì)齊準(zhǔn)則為:對(duì)于兩個(gè)不等長(zhǎng)的特征參數(shù)序列,利用動(dòng)態(tài)時(shí)間規(guī)整算法將其中一者的時(shí)間軸非線性的映射到另一者的時(shí)間軸上,實(shí)現(xiàn)一一對(duì)應(yīng)的匹配關(guān)系;在現(xiàn)參數(shù)集合的對(duì)齊過(guò)程中,通過(guò)迭代優(yōu)化,最終獲得時(shí)間匹配函數(shù)。
[0026]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(D)從對(duì)齊的特征參數(shù)中隨機(jī)提取部分?jǐn)?shù)據(jù)作為目標(biāo)碼書(shū)的過(guò)程是從對(duì)齊后的特征參數(shù)對(duì)中隨機(jī)提取出特征參數(shù)對(duì),將其中每一個(gè)源語(yǔ)音特征參數(shù)的矢量作為一個(gè)源語(yǔ)音碼字,組合成源語(yǔ)音碼書(shū);其對(duì)應(yīng)的目標(biāo)語(yǔ)音特征參數(shù)組合成目標(biāo)碼書(shū)。
[0027]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(E)將剩余與碼書(shū)不重疊的對(duì)齊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別估算并統(tǒng)計(jì)源與目標(biāo)的聲道特征參數(shù)在各自目標(biāo)碼書(shū)中對(duì)應(yīng)的權(quán)重,分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系的方法,包括以下步驟,
[0028](E1),分別估算源語(yǔ)音與目標(biāo)語(yǔ)音的線性譜頻率參數(shù)矢量與其對(duì)應(yīng)碼書(shū)中每個(gè)碼字的距離;
[0029](E2),根據(jù)其與碼書(shū)中每個(gè)碼字的距離,計(jì)算出其對(duì)應(yīng)于碼書(shū)中各碼字的權(quán)重;
[0030](E3),分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系。[0031]前述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(G)進(jìn)行參數(shù)內(nèi)插和相位補(bǔ)償,合成轉(zhuǎn)換后的語(yǔ)音的方法,包括以下步驟,
[0032](G1),根據(jù)濁音信號(hào)幀部分轉(zhuǎn)換后的線性譜頻率參數(shù)估算其諧波參數(shù);
[0033](G2),將濁音信號(hào)幀部分的離散諧波幅度值和相位值用作正弦信號(hào)的幅度值和相位值,并進(jìn)行疊加,運(yùn)用內(nèi)插和相位進(jìn)行補(bǔ)償,得到補(bǔ)償后濁音信號(hào)幀部分;
[0034](G3),將清音信號(hào)幀部分的白噪聲信號(hào)通過(guò)全極點(diǎn)濾波器,得到濾波后清音信號(hào)中貞部分;
[0035](G4),將補(bǔ)償后濁音信號(hào)幀部分和濾波后清音信號(hào)幀部分進(jìn)行疊加,得到合成轉(zhuǎn)換的重構(gòu)語(yǔ)音信號(hào)。
[0036]本發(fā)明的有益效果是:本發(fā)明的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,對(duì)源語(yǔ)音碼書(shū)與目標(biāo)語(yǔ)音碼書(shū)的一對(duì)多映射關(guān)系的建立,從平行數(shù)據(jù)庫(kù)中隨機(jī)提取一部分語(yǔ)音,對(duì)齊并提取聲道參數(shù)后快速建立源與目標(biāo)語(yǔ)音碼書(shū);然后,估算用于訓(xùn)練的數(shù)據(jù)中源與目標(biāo)特征參數(shù)對(duì)應(yīng)于其各自碼書(shū)的權(quán)重,通過(guò)統(tǒng)計(jì)與分析二者的關(guān)系來(lái)建立源與目標(biāo)語(yǔ)音的權(quán)重映射關(guān)系,進(jìn)而掌握個(gè)性特征的映射規(guī)則,實(shí)現(xiàn)高質(zhì)量、快速的語(yǔ)音轉(zhuǎn)換,能夠解決實(shí)際環(huán)境中語(yǔ)音轉(zhuǎn)換系統(tǒng)的實(shí)時(shí)性、轉(zhuǎn)換后相似度的問(wèn)題,最終在對(duì)語(yǔ)音轉(zhuǎn)換實(shí)時(shí)性追求的過(guò)程中減小轉(zhuǎn)換效果的代價(jià),從而提高轉(zhuǎn)換結(jié)果與目標(biāo)語(yǔ)音的相似度,具有良好的應(yīng)用前景。
【專利附圖】
【附圖說(shuō)明】
[0037]圖1是本發(fā)明的訓(xùn)練階段的流程示意圖。
[0038]圖2是本發(fā)明的轉(zhuǎn)換階段的流程示意圖。
【具體實(shí)施方式】
[0039]下面將結(jié)合說(shuō)明書(shū)附圖,對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
[0040]本發(fā)明的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,訓(xùn)練階段,首先,利用已建立的源與目標(biāo)碼書(shū)對(duì)平行數(shù)據(jù)分別進(jìn)行權(quán)重估算并統(tǒng)計(jì)分析,然后通過(guò)源與目標(biāo)的權(quán)重關(guān)系建立源碼書(shū)與目標(biāo)碼書(shū)的一對(duì)多關(guān)系。轉(zhuǎn)換階段,首先,獲得待轉(zhuǎn)換的源語(yǔ)音的權(quán)重,然后由源語(yǔ)音碼書(shū)與目標(biāo)碼書(shū)的一對(duì)多關(guān)系獲得映射的特征參數(shù),具體包括如下步驟:
[0041]步驟(1),如圖1所示,訓(xùn)練階段,用于建立源碼書(shū)與目標(biāo)碼書(shū)的一對(duì)多關(guān)系,包括以下步驟,
[0042](A)對(duì)平行的語(yǔ)音數(shù)據(jù)采用諧波隨機(jī)模型進(jìn)行語(yǔ)音分析,包括如下步驟,
[0043]Al),對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行固定時(shí)長(zhǎng)的分幀,用互相關(guān)法對(duì)基音頻率進(jìn)行估計(jì)并根據(jù)基音頻率劃分清音信號(hào)幀與濁音信號(hào)幀;
[0044]A2),在濁音信號(hào)幀部分設(shè)置一個(gè)最大濁音頻率分量,用來(lái)劃分諧波成分和隨機(jī)成分的主能量區(qū)域,再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值;
[0045]A3),在清音信號(hào)幀部分,利用經(jīng)典的線性預(yù)測(cè)分析法對(duì)其進(jìn)行分析,得到線性預(yù)測(cè)系數(shù);
[0046](B)從語(yǔ)音分析得到的模型參數(shù)中提取聲道特征參數(shù)和基音頻率,包括如下步驟,;[0047]BI),對(duì)A2)得到的離散的諧波幅度值求取平方;
[0048]B2),根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對(duì)應(yīng)關(guān)系,得到A3)線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程,求解該方程,將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換為線性譜頻率系數(shù);
[0049]C)利用動(dòng)態(tài)時(shí)間規(guī)整算法將源和目標(biāo)的聲道特征參數(shù)進(jìn)行對(duì)齊,對(duì)齊準(zhǔn)則為:對(duì)于兩個(gè)不等長(zhǎng)的特征參數(shù)序列,利用動(dòng)態(tài)時(shí)間規(guī)整算法將其中一者的時(shí)間軸非線性的映射到另一者的時(shí)間軸上,實(shí)現(xiàn)一一對(duì)應(yīng)的匹配關(guān)系;在現(xiàn)參數(shù)集合的對(duì)齊過(guò)程中,通過(guò)迭代優(yōu)化一個(gè)預(yù)設(shè)的累積失真函數(shù),并限制搜索區(qū)域,最終獲得時(shí)間匹配函數(shù);
[0050](D)從對(duì)齊的特征參數(shù)中隨機(jī)提取部分?jǐn)?shù)據(jù)作為碼書(shū),碼書(shū)包括源語(yǔ)音碼書(shū)和目標(biāo)碼書(shū),過(guò)程是從對(duì)齊后的特征參數(shù)對(duì)中隨機(jī)提取出特征參數(shù)對(duì),將其中每一個(gè)源語(yǔ)音特征參數(shù)的矢量作為一個(gè)源語(yǔ)音碼字,組合成源語(yǔ)音碼書(shū);其對(duì)應(yīng)的目標(biāo)語(yǔ)音特征參數(shù)組合成目標(biāo)碼書(shū);
[0051](E)將剩余與碼書(shū)不重疊的對(duì)齊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別估算并統(tǒng)計(jì)源與目標(biāo)的聲道特征參數(shù)在各自目標(biāo)碼書(shū)中對(duì)應(yīng)的權(quán)重,分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系,包括以下步驟,
[0052]E1),分別估算源語(yǔ)音與目標(biāo)語(yǔ)音的線性譜頻率參數(shù)矢量與其對(duì)應(yīng)碼書(shū)中每個(gè)碼字的距離;
[0053]E2),根據(jù)其與碼書(shū)中每個(gè)碼字的距離,計(jì)算出其對(duì)應(yīng)于碼書(shū)中各碼字的權(quán)重;
[0054]E3),分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系;
[0055](F)通過(guò)分析統(tǒng)計(jì)的權(quán)重關(guān)系,建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系;
[0056]步驟(2),如圖2所示,轉(zhuǎn)換階段,用于實(shí)現(xiàn)語(yǔ)音特征的映射,合成轉(zhuǎn)換后的語(yǔ)音,以下步驟,
[0057](H)根據(jù)建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系,實(shí)現(xiàn)對(duì)語(yǔ)音特征的映射;
[0058](G)進(jìn)行參數(shù)內(nèi)插和相位補(bǔ)償,合成轉(zhuǎn)換后的語(yǔ)音,包括以下步驟,
[0059]G1),根據(jù)濁音信號(hào)幀部分轉(zhuǎn)換后的線性譜頻率參數(shù)估算其諧波參數(shù);
[0060]G2),將濁音信號(hào)幀部分的離散諧波幅度值和相位值用作正弦信號(hào)的幅度值和相位值,并進(jìn)行疊加,運(yùn)用內(nèi)插和相位進(jìn)行補(bǔ)償,得到補(bǔ)償后濁音信號(hào)幀部分;
[0061]G3),將清音信號(hào)幀部分的白噪聲信號(hào)通過(guò)全極點(diǎn)濾波器,得到濾波后清音信號(hào)幀部分;
[0062]G4),將補(bǔ)償后濁音信號(hào)幀部分和濾波后清音信號(hào)幀部分進(jìn)行疊加,得到合成轉(zhuǎn)換的重構(gòu)語(yǔ)音信號(hào)。
[0063]下面介紹按照本發(fā)明的語(yǔ)音轉(zhuǎn)換方法的一具體實(shí)施例,具體如下,
[0064]步驟(I ),訓(xùn)練階段:
[0065](A)源和目標(biāo)人的語(yǔ)音通過(guò)諧波加隨機(jī)模型進(jìn)行分解,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值。具體細(xì)節(jié)描述如下:
[0066]Al)對(duì)語(yǔ)音信號(hào)進(jìn)行分巾貞,巾貞長(zhǎng)20ms,巾貞重疊間隔IOms,在每巾貞中,用自相關(guān)法估計(jì)基頻,若該幀為清音幀,則設(shè)置基頻等于零;
[0067]A2)對(duì)于濁音幀(即基頻不為零的幀),假設(shè)語(yǔ)音信號(hào)Sh(η)可以由一系列的正弦波疊加而成:[0068]
【權(quán)利要求】
1.基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:包括以下步驟, 步驟(1),訓(xùn)練階段,用于建立源碼書(shū)與目標(biāo)碼書(shū)的一對(duì)多關(guān)系,包括以下步驟, (A)對(duì)平行的語(yǔ)音數(shù)據(jù)采用諧波隨機(jī)模型進(jìn)行語(yǔ)音分析; (B)從語(yǔ)音分析得到的模型參數(shù)中提取聲道特征參數(shù)和基音頻率; (C)利用動(dòng)態(tài)時(shí)間規(guī)整算法將源和目標(biāo)的聲道特征參數(shù)進(jìn)行對(duì)齊; (D)從對(duì)齊的特征參數(shù)中隨機(jī)提取部分?jǐn)?shù)據(jù)作為碼書(shū),碼書(shū)包括源語(yǔ)音碼書(shū)和目標(biāo)碼書(shū); (E)將剩余與碼書(shū)不重疊的對(duì)齊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別估算并統(tǒng)計(jì)源與目標(biāo)的聲道特征參數(shù)在各自目標(biāo)碼書(shū)中對(duì)應(yīng)的權(quán)重,分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系; (F)通過(guò)分析統(tǒng)計(jì)的權(quán)重關(guān)系,建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系; 步驟(2),轉(zhuǎn)換階段,用于實(shí)現(xiàn)語(yǔ)音特征的映射,合成轉(zhuǎn)換后的語(yǔ)音,以下步驟, (H)根據(jù)建立源語(yǔ)音與目標(biāo)碼書(shū)的一對(duì)多映射關(guān)系,實(shí)現(xiàn)對(duì)語(yǔ)音特征的映射; (G)進(jìn)行參數(shù)內(nèi)插和相位補(bǔ)償,合成轉(zhuǎn)換后的語(yǔ)音。
2.根據(jù)權(quán)利要求1所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(A)對(duì)平行的語(yǔ)音數(shù)據(jù)采用諧波隨機(jī)模型進(jìn)行語(yǔ)音分析的方法,包括如下步驟, (Al),對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行固定時(shí)`長(zhǎng)的分幀,用互相關(guān)法對(duì)基音頻率進(jìn)行估計(jì)并根據(jù)基音頻率劃分清音信號(hào)幀與濁音信號(hào)幀; (A2),在濁音信號(hào)幀部分設(shè)置一個(gè)最大濁音頻率分量,用來(lái)劃分諧波成分和隨機(jī)成分的主能量區(qū)域,再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值; (A3),在清音信號(hào)幀部分,利用經(jīng)典的線性預(yù)測(cè)分析法對(duì)其進(jìn)行分析,得到線性預(yù)測(cè)系數(shù)。
3.根據(jù)權(quán)利要求1或2所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(B)從語(yǔ)音分析得到的模型參數(shù)中提取聲道特征參數(shù)和基音頻率的方法,包括以下步驟, (BI),對(duì)(A2)得到的離散的諧波幅度值求取平方; (B2),根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對(duì)應(yīng)關(guān)系,得到(A3)線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程,求解該方程,將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換為線性譜頻率系數(shù)。
4.根據(jù)權(quán)利要求1所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(C)利用動(dòng)態(tài)時(shí)間規(guī)整算法將源和目標(biāo)的聲道特征參數(shù)進(jìn)行對(duì)齊,對(duì)齊準(zhǔn)則為:對(duì)于兩個(gè)不等長(zhǎng)的特征參數(shù)序列,利用動(dòng)態(tài)時(shí)間規(guī)整算法將其中一者的時(shí)間軸非線性的映射到另一者的時(shí)間軸上,實(shí)現(xiàn)一一對(duì)應(yīng)的匹配關(guān)系;在現(xiàn)參數(shù)集合的對(duì)齊過(guò)程中,通過(guò)迭代優(yōu)化,最終獲得時(shí)間匹配函數(shù)。
5.根據(jù)權(quán)利要求1所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(D)從對(duì)齊的特征參數(shù)中隨機(jī)提取部分?jǐn)?shù)據(jù)作為目標(biāo)碼書(shū)的過(guò)程是從對(duì)齊后的特征參數(shù)對(duì)中隨機(jī)提取出特征參數(shù)對(duì),將其中每一個(gè)源語(yǔ)音特征參數(shù)的矢量作為一個(gè)源語(yǔ)音碼字,組合成源語(yǔ)音碼書(shū);其對(duì)應(yīng)的目標(biāo)語(yǔ)音特征參數(shù)組合成目標(biāo)碼書(shū)。
6.根據(jù)權(quán)利要求1所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(E)將剩余與碼書(shū)不重疊的對(duì)齊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別估算并統(tǒng)計(jì)源與目標(biāo)的聲道特征參數(shù)在各自目標(biāo)碼書(shū)中對(duì)應(yīng)的權(quán)重,分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系的方法,包括以下步驟, (E1),分別估算源語(yǔ)音與目標(biāo)語(yǔ)音的線性譜頻率參數(shù)矢量與其對(duì)應(yīng)碼書(shū)中每個(gè)碼字的距離; (E2),根據(jù)其與碼書(shū)中每個(gè)碼字的距離,計(jì)算出其對(duì)應(yīng)于碼書(shū)中各碼字的權(quán)重; (E3),分析統(tǒng)計(jì)源語(yǔ)音與對(duì)應(yīng)目標(biāo)語(yǔ)音的權(quán)重的映射關(guān)系。
7.根據(jù)權(quán)利要求1所述的基于一對(duì)多碼書(shū)映射的語(yǔ)音轉(zhuǎn)換方法,其特征在于:(G)進(jìn)行參數(shù)內(nèi)插和相位補(bǔ)償,合成轉(zhuǎn)換后的語(yǔ)音的方法,包括以下步驟, (G1),根據(jù)濁音信號(hào)幀部分轉(zhuǎn)換后的線性譜頻率參數(shù)估算其諧波參數(shù); (G2),將濁音信號(hào)幀部分的離散諧波幅度值和相位值用作正弦信號(hào)的幅度值和相位值,并進(jìn)行疊加,運(yùn)用內(nèi)插和相位進(jìn)行補(bǔ)償,得到補(bǔ)償后濁音信號(hào)幀部分; (G3),將清音信號(hào)幀部分的白噪聲信號(hào)通過(guò)全極點(diǎn)濾波器,得到濾波后清音信號(hào)幀部分; (G4),將補(bǔ)償后濁音信號(hào)幀部分和濾波后清音信號(hào)幀部分進(jìn)行疊加,得到合成轉(zhuǎn)換的重構(gòu)語(yǔ)音信號(hào)。`
【文檔編號(hào)】G10L25/93GK103886859SQ201410050758
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2014年2月14日 優(yōu)先權(quán)日:2014年2月14日
【發(fā)明者】徐寧, 胡芳, 鮑靜益, 劉小峰, 湯一彬, 蔣愛(ài)民 申請(qǐng)人:河海大學(xué)常州校區(qū)