專利名稱:基于高斯混合模型的變換中的軟校準(zhǔn)的制作方法
基于高斯混合模型的變換中的軟校準(zhǔn)
背景技術(shù):
本公開涉及例如使用基于高斯混合模型(GMM)技術(shù)的標(biāo)量變換 或矢量變換,以用于生成聲音轉(zhuǎn)換函數(shù)。聲音轉(zhuǎn)換是源說話者的聲音(例 如,音調(diào)、發(fā)音)到目標(biāo)說話者的聲音的自適應(yīng)特性。近年來,對(duì)高效 地生成其它相關(guān)轉(zhuǎn)換模型的聲音轉(zhuǎn)換系統(tǒng)和應(yīng)用的興趣顯著提高。這種 系統(tǒng)的一個(gè)應(yīng)用涉及個(gè)性化文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng)中的聲音轉(zhuǎn)換的用 戶。如果沒有聲音轉(zhuǎn)換技術(shù)和對(duì)來自不同說話者的語(yǔ)音矢量的有效變 換,則只能通過耗時(shí)、昂貴的過程(諸如,大量的錄音和人工注解)來 創(chuàng)建新的聲音。
公知的基于GMM的矢量變換可以用在聲音轉(zhuǎn)換和其它變換應(yīng)用 中,這是通過根據(jù)源說話者和目標(biāo)說話者的特征矢量來生成聯(lián)合特征 矢量,接著通過使用該聯(lián)合矢量來訓(xùn)練GMM參數(shù),并且最終創(chuàng)建源聲 音和目標(biāo)聲音之間的轉(zhuǎn)換函數(shù)。典型的聲音轉(zhuǎn)換系統(tǒng)包括三個(gè)主要步 驟特征提取、源說話者和目標(biāo)說話者的已提取特征之間的校準(zhǔn)、以及 對(duì)經(jīng)校準(zhǔn)的源矢量和目標(biāo)矢量的GMM訓(xùn)練。在典型的系統(tǒng)中,源矢量 序列和目標(biāo)矢量序列之間的矢量校準(zhǔn)必須在訓(xùn)練GMM參數(shù)之前或創(chuàng)建 轉(zhuǎn)換函數(shù)之前執(zhí)行。例如,如果錄制了來自兩個(gè)不同說話者的一組相同 的講話,則在試圖建立轉(zhuǎn)換函數(shù)之前,必須在兩個(gè)錄音中識(shí)別相應(yīng)的講 話。這個(gè)概念被稱為源矢量和目標(biāo)矢量的校準(zhǔn)。
傳統(tǒng)的矢量校準(zhǔn)技術(shù)通常是例如通過專家來人工執(zhí)行,或者通過動(dòng) 態(tài)時(shí)間彎曲(DTW)過程來自動(dòng)地執(zhí)行。然而,人工和DTW二者都具 有明顯的缺點(diǎn),這些缺點(diǎn)對(duì)矢量變換的整體質(zhì)量和效率可能具有負(fù)面影 響。例如,這兩種方案都依賴于"硬校準(zhǔn)"的概念。也即,對(duì)于每個(gè)目 標(biāo)矢量,將每個(gè)源矢量確定為精確地與一個(gè)目標(biāo)矢量完全校準(zhǔn),或者確定為根本沒有被校準(zhǔn),反之亦然。
參考圖1,在源矢量序列110和目標(biāo)矢量序列120之間示出了傳統(tǒng) 硬校準(zhǔn)方案的例子。矢量序列110和120分別包含特征矢量集合Xi - x16
和y廣y16,其中每個(gè)特征矢量(語(yǔ)音矢量)可以表示例如較大聲音片段
中的基本語(yǔ)音聲音。這些矢量序列IIO和120可以是等價(jià)的(也即,包
含許多相同語(yǔ)音特征),例如對(duì)說著相同單詞或短語(yǔ)兩個(gè)不同的人進(jìn)行 錄音所形成的矢量序列。如圖1中所示,即使是等價(jià)的矢量序列也常常 包含不同數(shù)量的矢量,并且也可能在序列中的不同位置具有等價(jià)的語(yǔ)音
特征(例如xw和y12)。例如,源說話者對(duì)某些聲音發(fā)音可能比目標(biāo)說 話者要慢,或者在聲音之間停頓的比目標(biāo)說話者稍長(zhǎng),等等。因此,在 源矢量和目標(biāo)矢量之間的一對(duì)一的硬校準(zhǔn)常常結(jié)果導(dǎo)致丟棄某些特征 矢量(例如,x4、 x5、 x1()...),或者導(dǎo)致對(duì)特征矢量的復(fù)制或插值以為校 準(zhǔn)匹配創(chuàng)建額外配對(duì)。其結(jié)果是,小的校準(zhǔn)錯(cuò)誤可能被放大成更大的錯(cuò) 誤,并且整個(gè)校準(zhǔn)過程可能變得更加復(fù)雜和高代價(jià)。最后,在許多情況 下硬校準(zhǔn)可能是完全不可能的。即使是最好的專家或任何DTW自動(dòng)裝 置常常也不能將從話音中提取的特征矢量完全校準(zhǔn)。因此,硬校準(zhǔn)意味 著即使其被完美無缺地執(zhí)行也仍然存在某種程度的錯(cuò)誤。
作為由硬校準(zhǔn)方案引起的校準(zhǔn)錯(cuò)誤放大的例子,圖2示出將要為了 矢量變換而進(jìn)行;歐準(zhǔn)的源序列210和目標(biāo)序列220的框圖。在這個(gè)例子 中,序列210和220雖然是相同的,但是在不同的奇偶位上被兩取一地 抽取。因此,就像在許多現(xiàn)實(shí)世界情景中一樣,完美的一對(duì)一的特征矢 量匹配是不可能的,因?yàn)楸煌昝赖匦?zhǔn)的源矢量-目標(biāo)矢量配對(duì)是不可 獲得的。使用硬校準(zhǔn)方案,每個(gè)目標(biāo)矢量與其最近的源矢量配對(duì),并且 在此后將該配對(duì)假設(shè)為完全、完美地校準(zhǔn)。因此,可能無法檢測(cè)到或者 考慮校準(zhǔn)錯(cuò)誤,因?yàn)樵谛?zhǔn)過程中沒有考慮其它附近的矢量。結(jié)果,硬 校準(zhǔn)方案可以生成引入噪聲到數(shù)據(jù)模型中,增加校準(zhǔn)誤差,并且導(dǎo)致校 準(zhǔn)過程的更大的復(fù)雜性。
因此,需要一種對(duì)數(shù)據(jù)序列進(jìn)行校準(zhǔn)以用于矢量變換(諸如用于聲 音轉(zhuǎn)換的、基于GMM的變換)的方法和系統(tǒng)。
發(fā)明內(nèi)容
根據(jù)前述背景知識(shí),下面給出本發(fā)明的簡(jiǎn)化概要,目的是提供對(duì)本 發(fā)明的某些方面的基本理解。該概要不是對(duì)本發(fā)明的詳盡的縱覽,并非 意在標(biāo)識(shí)本發(fā)明的關(guān)鍵和重要元素或者描繪本發(fā)明的范圍。以下概要僅 僅以筒化形式提供本發(fā)明的某些概念,以作為下文^是供的更詳細(xì)描述的前序。
根據(jù)本發(fā)明的一個(gè)方面,源矢量和目標(biāo)矢量之間的校準(zhǔn)可以在變換 過程期間執(zhí)行,所述變換例如是在源說話者和目標(biāo)說話者之間的基于高
斯混合模型(GMM)的語(yǔ)音矢量變換。在生成變換模型和轉(zhuǎn)換函數(shù)之 前,通過使用軟校準(zhǔn)方案對(duì)源矢量和目標(biāo)矢量進(jìn)行校準(zhǔn),使每個(gè)源矢量 -目標(biāo)矢量配對(duì)無需一對(duì)一地完全校準(zhǔn)。反之,可以標(biāo)識(shí)包括單個(gè)源矢 量或目標(biāo)矢量的多個(gè)矢量配對(duì)以及針對(duì)每個(gè)配對(duì)的校準(zhǔn)概率。可以基于 該矢量配對(duì)和相關(guān)聯(lián)的概率來生成聯(lián)合特征矢量的序列。
根據(jù)本發(fā)明的另 一方面,諸如GMM模型和矢量轉(zhuǎn)換函數(shù)之類的變 換模型可以基于源矢量和目標(biāo)矢量以及所估計(jì)的校準(zhǔn)概率來計(jì)算。變換 模型參數(shù)可以通過估計(jì)算法(例如,最大期望算法)來確定。根據(jù)這些 參數(shù),可以生成模型訓(xùn)練和轉(zhuǎn)換特征,以及用于變換后續(xù)源矢量和目標(biāo) 矢量的轉(zhuǎn)換函數(shù)。
因此,根據(jù)本發(fā)明公開的一些方面,例如,在聲音轉(zhuǎn)換中使用的基 于GMM的變換中,可通過使用軟校準(zhǔn)來改進(jìn)自動(dòng)矢量校準(zhǔn)。所公開的 軟校準(zhǔn)技術(shù)可以降低校準(zhǔn)誤差,并且在執(zhí)行矢量變換時(shí)可以提高效率和 質(zhì)量。
在總體上概括描述了本發(fā)明之后,現(xiàn)在將參考附圖(附圖未必是按 比例繪制的),其中
圖1是說明用于在矢量變換中使用的傳統(tǒng)硬校準(zhǔn)方案的線框圖; 圖2是說明用于在矢量變換中使用的傳統(tǒng)硬校準(zhǔn)方案的方框圖;圖2說明了跟蹤設(shè)備的方框圖3是根據(jù)本發(fā)明的方面說明計(jì)算設(shè)備的方框圖4是根據(jù)本發(fā)明的方面示出用于在源矢量序列和目標(biāo)矢量序列之
間執(zhí)行軟校準(zhǔn)的說明性步驟的流程圖5是根據(jù)本發(fā)明的方面說明用于在矢量變換中使用的軟校準(zhǔn)方案
的線框圖;以及
圖6是根據(jù)本發(fā)明的方面說明用于在矢量變換中使用的軟校準(zhǔn)方案 的方框圖。
具體實(shí)施例方式
在對(duì)各種實(shí)施例的以下描述中,對(duì)附圖進(jìn)行了參考,這些附圖構(gòu)成 了描述的 一部分,并且在附圖中通過說明的方式示出了可以實(shí)踐本發(fā)明 的各種實(shí)施例。應(yīng)當(dāng)理解,可以使用其它實(shí)施例,并且在不偏離本發(fā)明 的范圍和精神的情況下,可以做出結(jié)構(gòu)上和功能上的修改。
圖3說明了根據(jù)本發(fā)明說明性實(shí)施例的、可以使用的通用計(jì)算設(shè)備 301的方框圖。設(shè)備301可具有處理器303,用于控制計(jì)算設(shè)備及其關(guān) 聯(lián)部件(包括RAM305、 ROM 307、輸入/輸出模塊309和存儲(chǔ)器315 ) 的整體操作。
I/O 309可包括設(shè)備301的用戶可用來提供輸入的麥克風(fēng)、鍵盤、 觸摸屏、以及/或者觸筆,并且還可包括用于提供音頻輸出的一個(gè)或多個(gè) 揚(yáng)聲器,以及用于提供文本、音頻視頻和/或圖形輸出的視頻顯示設(shè)備。
存儲(chǔ)器315可存儲(chǔ)由設(shè)備301使用的軟件,諸如操作系統(tǒng)317、應(yīng) 用程序319以及相關(guān)聯(lián)的數(shù)據(jù)321。例如,根據(jù)本發(fā)明的說明性實(shí)施例, 由設(shè)備301使用的一個(gè)應(yīng)用程序321可包括計(jì)算機(jī)可執(zhí)行指令,該指令 用于執(zhí)行此處所描述的矢量校準(zhǔn)方案和聲音轉(zhuǎn)換算法。
參考圖4,示出了描述生成在例如GMM矢量變換中所使用的轉(zhuǎn)換 函數(shù)的流程圖。在這個(gè)例子中,函數(shù)可以與聲音轉(zhuǎn)換/語(yǔ)音轉(zhuǎn)換相關(guān),并 且可涉及表示源說話者和目標(biāo)說話者語(yǔ)音特性的矢量變換。然而,本公 開不限于這種使用。例如,任何基于高斯混合模型(GMM)的變換,或者需要標(biāo)量校準(zhǔn)或矢量校準(zhǔn)的其它數(shù)據(jù)變換均可與本公開結(jié)合使用。
除了基于GMM的技術(shù)之外,本公開還可涉及使用其它技術(shù)的矢量變換
和數(shù)據(jù)轉(zhuǎn)換,例如基于碼本的矢量變換和/或聲音轉(zhuǎn)換。
在步驟401中,接收源特征矢量和目標(biāo)特征矢量。在這個(gè)例子中, 特征矢量可對(duì)應(yīng)于由源說話者和目標(biāo)說話者所產(chǎn)生的相同講話,該講話 被錄音并被劃分為數(shù)字化表示的數(shù)據(jù)矢量。更具體地,源矢量和目標(biāo)矢 量每個(gè)都可以基于說話者聲音的某個(gè)特性,諸如音調(diào)或線性頻譜(LSF )。 在這個(gè)例子中,與源說話者相關(guān)聯(lián)的特征矢量可以由變量
X呵XhX2,X3.,.Xt…XnJ來表示,而與目標(biāo)說話者相關(guān)聯(lián)的特征矢量可由變
量y呵yi,y2,y3…yt…yn]來表示,其中xt和》是時(shí)刻t處的語(yǔ)音矢量。
在步驟402中,例如通過計(jì)算設(shè)備301來估計(jì)不同源矢量-目標(biāo)矢
量配對(duì)的校準(zhǔn)概率。在這個(gè)例子中,可以通過使用與隱式馬爾可夫模型
(HMM)相關(guān)的技術(shù)來估計(jì)校準(zhǔn)概率,其中,隱式馬爾可夫模型是一
種統(tǒng)計(jì)模型,涉及從數(shù)據(jù)分布模型中的可觀察參數(shù)中提取未知的或者隱 式的參數(shù)。例如,源矢量序列和目標(biāo)矢量序列中的每個(gè)不同的矢量都可 以由從左到右的有限狀態(tài)機(jī)來生成,該狀態(tài)機(jī)每個(gè)時(shí)間單元改變一次狀 態(tài)。這種有限狀態(tài)機(jī)可稱為馬爾可夫模型。另外,校準(zhǔn)概率還可以是訓(xùn)
練權(quán)重,例如表示用以生成用于基于GMM的變換的訓(xùn)練參數(shù)的值。因 此,校準(zhǔn)概率無需表示成某概率范圍(例如,0到1,或者O到100)內(nèi) 的值,而可以是對(duì)應(yīng)于在轉(zhuǎn)換中使用的訓(xùn)練權(quán)重方案中的某個(gè)權(quán)重的值。
在源矢量序列和目標(biāo)矢量序列中較小的矢量集合可以表示或?qū)儆?音素(phoneme)或語(yǔ)音的基本單位。音素可以對(duì)應(yīng)于實(shí)現(xiàn)單詞意思的 最小聲音單位。例如,與單詞"took"中的音素't,或者單詞"hook" 中的音素'h,相對(duì),單詞"book"中的音素'b,實(shí)現(xiàn)所說單詞的意思。 因此來自源矢量序列和目標(biāo)矢量序列的短矢量序列或者甚至是單個(gè)矢 量(也稱為"特征矢量")可對(duì)應(yīng)于這些'b,、 't,和'h,聲音,或者對(duì) 應(yīng)于其它的基本語(yǔ)音聲音。特征矢量甚至可表示諸如音幀之類的比音素 更小的聲音單元,從而使在變換中所捕獲的時(shí)間和發(fā)音信息甚至可以更為精確。在一個(gè)例子中,單個(gè)特征矢量可表示短的語(yǔ)音段,例如10毫 秒的語(yǔ)音段。接著,類似大小的特征矢量結(jié)合可以一起表示一個(gè)音素。 特征矢量還可表示語(yǔ)音的邊界段,諸如在較大語(yǔ)音段中的兩個(gè)音素之間 的過渡。
每個(gè)HMM子單詞可以由一個(gè)或多個(gè)狀態(tài)來表示,并且HMM子單 詞模型的整個(gè)集合可以級(jí)聯(lián)以形成復(fù)合HMM模型,其包括聯(lián)合特征矢 量的狀態(tài)序列M或多個(gè)狀態(tài)。例如,可以通過級(jí)聯(lián)一組用于語(yǔ)內(nèi)
(intra-lingual)語(yǔ)言語(yǔ)音轉(zhuǎn)換的、基于獨(dú)立于說話者的音素的HMM來 生成復(fù)合HMM模型。作為另一例子,甚至可以通過級(jí)聯(lián)用于進(jìn)行語(yǔ)間
(cross-lingual)語(yǔ)言聲音轉(zhuǎn)換的、基于一組獨(dú)立于語(yǔ)言的音素的HMM 來生成復(fù)合HMM模型。在狀態(tài)序列M的每個(gè)狀態(tài)j中,源在時(shí)刻t處 的第j個(gè)狀態(tài)占用的概率可以標(biāo)記為L(zhǎng)Sj (t),而在相同時(shí)刻t處相同狀 態(tài)j的目標(biāo)占用概率可以標(biāo)記為L(zhǎng)Tj(t)。這些值中的每個(gè)都可以例如由計(jì) 算設(shè)備301通過使用前后(forward-backward)算法來計(jì)算,該算法對(duì) 于本領(lǐng)域的普通技術(shù)人員來說是公知的,其用于計(jì)算被觀察事件序列的 概率(特別是在HMM模型的上下文中)。在這個(gè)例子中,可通過以下 公式來計(jì)算源的第j個(gè)狀態(tài)占用的前向概率
aj(t"P(Xi,.."xt,x(t)"!M) = n i(")* a" * bj(x。(公式工)
并且可通過以下公式來計(jì)算源的第j個(gè)狀態(tài)占用的反向概率
pj(t) -P (xw, .," xn I x(t) =v.,M) = WS,2 ay * bj (xw) * Pi(t + !)(公式2 )
因此,源在時(shí)刻t處的第j個(gè)狀態(tài)占用的總概率可以用以下公式來
計(jì)算
LSj(Xt),(tPPj(t))/P(xlM)(公式3)
可以類似地計(jì)算源序列和目標(biāo)序列中的各個(gè)時(shí)刻和狀態(tài)處的占用 概率。也即,可將對(duì)應(yīng)于上面公式l-公式3的公式應(yīng)用于目標(biāo)說話者的 特征矢量。另外,可以使用這些值來計(jì)算源矢量-目標(biāo)矢量配對(duì)被校準(zhǔn)的概率。在這個(gè)例子中,對(duì)于被潛在地校準(zhǔn)了的源矢量-目標(biāo)矢量配對(duì)
(例如,x/和yqT,其中Xp是時(shí)刻p處來自源說話者的特征矢量,而yq 是時(shí)刻q處來自目標(biāo)說話者的特征矢量),可以通過使用以下公式來計(jì) 算校準(zhǔn)概率(PApq ),其表示特征矢量xp和yq被校準(zhǔn)的概率
PA (Xp, yq)
=PA(Xp, yq I x(p) = /, y(q) - /)
=(P A(xp I x(p) = /) * PA(yq i y(q) = /))
=L2/=1 LS; (Xp) * LT/ (yq) (公式4 )
在步驟403中,基于源矢量-目標(biāo)矢量以及基于源矢量和目標(biāo)矢量 配對(duì)的校準(zhǔn)概率來生成聯(lián)合特征矢量。在這個(gè)例子中,聯(lián)合矢量可定義 為zk = Zpq = [xpT, yqT, PApjT。因?yàn)樵诒景l(fā)明中所描述的聯(lián)合特征矢量可
以被軟校準(zhǔn),所以聯(lián)合概率PApq不需要像在其它校準(zhǔn)方案中那樣只能是
0或1。相反,在軟校準(zhǔn)方案中,校準(zhǔn)概率PApq可以是任何值,而不僅 僅是表示非校準(zhǔn)或校準(zhǔn)的布爾值(例如O或1)。因此,可以使用非布爾 概率值(例如在0到1之間連續(xù)范圍中的非整數(shù)值)以及布爾值來表示 源矢量和目標(biāo)矢量配對(duì)之間的校準(zhǔn)似然性。另外,如上所述,校準(zhǔn)概率 還可表示諸如訓(xùn)練權(quán)重之類的權(quán)重,而不是映射為特定概率。
在步驟404中,基于在步驟403中所確定的聯(lián)合特征矢量,例如由 計(jì)算設(shè)備301來計(jì)算轉(zhuǎn)換模型參數(shù)。在混合模型的上下文中,確定模型 函數(shù)或轉(zhuǎn)換函數(shù)的恰當(dāng)參數(shù)常常被稱為"估計(jì)"或者類似的"缺失數(shù)據(jù)" 問題。也即,可將在該模型中所觀察到的數(shù)據(jù)點(diǎn)(也即,源矢量序列和 目標(biāo)矢量序列)假設(shè)為具有用于對(duì)數(shù)據(jù)進(jìn)行建^f莫的分布的成員身份。雖 然這種成員身份開始是未知的,但是結(jié)合被表示為所選轉(zhuǎn)換函數(shù)在各個(gè) 模型分布中的成員身份的數(shù)據(jù)點(diǎn),可以通過選擇該所選轉(zhuǎn)換函數(shù)的合適 參數(shù)來進(jìn)行計(jì)算。這些參數(shù)可以是例如用于基于GMM變換的訓(xùn)練參數(shù)。
在這個(gè)例子中,可以使用最大期望算法來計(jì)算GMM訓(xùn)練參數(shù)。在 這個(gè)兩步算法中,可以用以下公式在期望步驟中估量先驗(yàn)概率T/,w = PA (Xp, yq) * P/,pg (公式5 )
在這個(gè)例子中,可通過以下公式來計(jì)算最大化步驟 Ap(/) = (1 /m * n) * %m %=i 'P/,w
= n2p=i mS『i APj^ */ "12^4 Pf,w
、- %^ %^ AP,'W * (- 、) * (- 、)T /
^"1 "^一 (公式6 )
注意,在某些實(shí)施例中,在步驟404中,可以生成用于GMM訓(xùn)練 和轉(zhuǎn)換的不同特征集合。也即,軟校準(zhǔn)特征矢量無需與GMM訓(xùn)練和轉(zhuǎn) 換特征相同。
最后,在步驟405中,生成轉(zhuǎn)換模型(例如轉(zhuǎn)換函數(shù)),其可以將 特征從源模型x轉(zhuǎn)換到標(biāo)模型y。在這個(gè)例子中的轉(zhuǎn)換函數(shù)可以通過以 下/>式來表示
F(x) = E (y I x) = P/(x) * (W + T嚴(yán)(2嚴(yán))4 (x -、。)(公式7 )
現(xiàn)在,可以使用該轉(zhuǎn)換函數(shù)或建模函數(shù)來將其它的源矢量(例如, 來自說話者的語(yǔ)音信號(hào))變換成目標(biāo)矢量。在應(yīng)用于聲音轉(zhuǎn)換時(shí),基于 軟校準(zhǔn)GMM的矢量變換可以用來將語(yǔ)音矢量變換到相應(yīng)的個(gè)性化目標(biāo) 說話者,例如作為文本轉(zhuǎn)語(yǔ)音(TTS)應(yīng)用的一部分。參考圖5,所示 框圖示出了與生成源矢量序列和目標(biāo)矢量序列的校準(zhǔn)概率估計(jì)相關(guān)的 本公開的方面。源特征矢量序列510包括五個(gè)語(yǔ)音矢量511-515,而目 標(biāo)特征矢量序列520只包括三個(gè)語(yǔ)音矢量521-523。如上所述,這個(gè)例 子可說明源和目標(biāo)具有不同數(shù)量的特征矢量的其它常見矢量變換情形。 在這種情況下,許多傳統(tǒng)方法在矢量校準(zhǔn)期間可能需要對(duì)特征矢量進(jìn)行丟棄、復(fù)制或插值,從而使兩個(gè)序列都包含相同數(shù)量的矢量并且可以一 對(duì)一地配對(duì)。
然而,如上所述,本發(fā)明的方面描述了源矢量和目標(biāo)矢量的軟校準(zhǔn),
而不是需要硬性的一對(duì)一的匹配。在這個(gè)例子中,狀態(tài)矢量530包含三 個(gè)狀態(tài)531-533。將源序列矢量511-515連接到狀態(tài)序列531的每個(gè)線 可以表示在時(shí)刻t處源矢量511-515對(duì)狀態(tài)531的占用概率。當(dāng)根據(jù)隱 式馬爾可夫模型(HMM)或類似的建模系統(tǒng)來生成狀態(tài)序列時(shí),狀態(tài) 序列530可具有對(duì)應(yīng)于每個(gè)時(shí)間單位t的狀態(tài)531-533。如圖5所示, 源特征矢量511-515以及目標(biāo)特征矢量521-523 二者中的一個(gè)或多個(gè)可 以某個(gè)校準(zhǔn)概率占用狀態(tài)531。在這個(gè)例子中,可通過級(jí)聯(lián)狀態(tài)序列530 中的所有狀態(tài)來生成復(fù)合HMM模型。
因此,如上面參考圖4所描述的,雖然可以在單個(gè)已校準(zhǔn)配對(duì)上來 形成狀態(tài)序列530中的狀態(tài),諸如[XpT, yqT, PAqjT,但是本公開不限于單 個(gè)已校準(zhǔn)配對(duì)以及狀態(tài)的概率估計(jì)。例如,狀態(tài)序列530中的狀態(tài)531 形成自5個(gè)源序列511-515、 3個(gè)目標(biāo)矢量521-523、以及每個(gè)潛在校準(zhǔn) 的源矢量-目標(biāo)矢量配對(duì)的概率估計(jì)。
參考圖6,示出的方框圖描述與源矢量序列和目標(biāo)矢量序列相關(guān)的 本公開的方面。在這個(gè)例子中,選擇了簡(jiǎn)化的源矢量序列610和目標(biāo)矢 量序列620來說明本公開相比于傳統(tǒng)硬校準(zhǔn)方法(諸如圖2所示方法) 的潛在優(yōu)點(diǎn)。在這個(gè)例子中,源矢量序列610和目標(biāo)矢量序列620是相 同的,不同之處在于已經(jīng)對(duì)不同序列610和620上的不同奇偶位應(yīng)用 了兩取一抽取。例如可以這樣來進(jìn)行這種抽取減少來自源和目標(biāo)的語(yǔ) 音信號(hào)的輸出采樣率,從而使采樣值需要較少的存儲(chǔ)空間。
回想?yún)⒖紙D2所描述的傳統(tǒng)硬校準(zhǔn)。在該傳統(tǒng)一對(duì)一映射中,每個(gè) 目標(biāo)特征矢量?jī)H與其最近的源特征矢量進(jìn)行校準(zhǔn)。該傳統(tǒng)系統(tǒng)假設(shè)完 全且完美地對(duì)附近的配對(duì)進(jìn)行了校準(zhǔn),因此,可能無法檢測(cè)到或者考慮 較小的校準(zhǔn)誤差,因?yàn)闆]有考慮其它附近的矢量。結(jié)果,硬校準(zhǔn)最終可 能不太準(zhǔn)確并且更易受校準(zhǔn)誤差的影響。
返回圖6,在這個(gè)簡(jiǎn)單的例子中,以相等的概率(0.5)將每個(gè)目標(biāo)數(shù)量采樣與源矢量序列中距其最近的兩個(gè)特征矢量進(jìn)行配對(duì)。并非總是 對(duì)通過軟校準(zhǔn)生成的轉(zhuǎn)換特征進(jìn)行一對(duì)一配對(duì),而且還可考慮其它相關(guān) 的特征矢量。因此,使用軟校準(zhǔn)的轉(zhuǎn)換可以更為準(zhǔn)確并且更不易受初始 校準(zhǔn)誤差的影響。
根據(jù)本公開的另一方面,可使用諸如圖2和圖6中的并行測(cè)試數(shù)據(jù)
來比較經(jīng)過硬校準(zhǔn)/軟校準(zhǔn)的GMM性能。例如,可以使用均方誤差 (MSE)計(jì)算來相對(duì)于目標(biāo)特征對(duì)并行數(shù)據(jù)的硬校準(zhǔn)和軟校準(zhǔn)之后的轉(zhuǎn) 換特征進(jìn)行基準(zhǔn)測(cè)試(benchmark)或求值。作為公知的誤差計(jì)算方法, MSE是標(biāo)準(zhǔn)誤差平方和偏差平方的和的平方根。MSE提供了對(duì)于采樣 估計(jì)的所有所期望誤差的測(cè)量。例如,在聲音轉(zhuǎn)換的上下文中,可以計(jì) 算諸如音素或線頻譜(LSF)之類的不同語(yǔ)音特性的MSE,并且可對(duì)其 進(jìn)行比較,以便相對(duì)于基于軟校準(zhǔn)的GMM變換來確定硬校準(zhǔn)的整體 GMM性能。通過針對(duì)音素特性而單獨(dú)地對(duì)每個(gè)語(yǔ)音段執(zhí)行十取一抽取 和配對(duì)過程從而避免段間配對(duì),可以使比較更為魯棒。。相反,LSF比 較可能僅需要針對(duì)整個(gè)數(shù)據(jù)集應(yīng)用一次十取一抽取和配對(duì)過程,因?yàn)?LSF在數(shù)據(jù)集中的語(yǔ)音和非語(yǔ)音段上是連續(xù)的。
除了在這個(gè)例子中通過使用軟校準(zhǔn)所獲得的潛在優(yōu)點(diǎn)之外,在更為 復(fù)雜的現(xiàn)實(shí)世界特征矢量變換中,還可以實(shí)現(xiàn)其它優(yōu)點(diǎn)。當(dāng)使用較為復(fù) 雜的矢量數(shù)據(jù)時(shí)(例如,具有較大初始校準(zhǔn)誤差以及不同數(shù)量的源特征 矢量和目標(biāo)特征矢量),硬校準(zhǔn)技術(shù)常常需要在校準(zhǔn)期間對(duì)矢量進(jìn)行丟 棄、復(fù)制或插值。這種操作可以增加變換的復(fù)雜度和成本,并且還有可 能放大初始校準(zhǔn)誤差從而對(duì)變換質(zhì)量產(chǎn)生負(fù)面影響。相反,軟校準(zhǔn)技術(shù) 在校準(zhǔn)期間可以不需要對(duì)矢量進(jìn)行丟棄、復(fù)制或插值,其可以提高變換 質(zhì)量和效率。
盡管示出了具體化本發(fā)明各種方面的、在此描述的說明性系統(tǒng)和方 法,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明不限于這些實(shí)施例。本領(lǐng) 域的普通技術(shù)人員可以進(jìn)行修改,特別是按照上述教導(dǎo)進(jìn)行修改。例如, 上述實(shí)施例中的組件中的每個(gè)可以單獨(dú)地或結(jié)合起來或者與其它實(shí)施 例中的組件進(jìn)行子結(jié)合來進(jìn)行使用。還應(yīng)當(dāng)意識(shí)到并理解,在不偏離本發(fā)明的真正精神和范圍的情況下,可以進(jìn)行修改。因此,本描述被認(rèn)為 對(duì)本發(fā)明是說明性而不是限制性的。
權(quán)利要求
1. 一種用于將第一序列的特征矢量與第二序列的特征矢量進(jìn)行時(shí)間校準(zhǔn)的方法,其包括步驟接收與源相關(guān)聯(lián)的第一序列的特征矢量;接收與目標(biāo)相關(guān)聯(lián)的第二序列的特征矢量;以及生成第三序列的聯(lián)合特征矢量,其中每個(gè)聯(lián)合特征矢量的生成是基于來自所述第一序列的第一矢量;來自所述第二序列的第一矢量;以及第一概率值,所述第一概率值表示來自所述第一序列的所述第一矢量與來自所述第二序列的所述第一矢量被校準(zhǔn)到其各自序列中的相同特征的概率。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述第一序列與所述第二序 列包含不同數(shù)量的特征矢量。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述第一序列對(duì)應(yīng)于由第一 說話者產(chǎn)生的多個(gè)講話,而所述第二序列對(duì)應(yīng)于由第二說話者產(chǎn)生的相 同的多個(gè)講話。
4. 根據(jù)權(quán)利要求1所述的方法,其中所述第三序列的聯(lián)合矢量包 括隱式馬爾可夫模型。
5. 根據(jù)權(quán)利要求1所述的方法,其中所述概率是非布爾值。
6. 根據(jù)權(quán)利要求1所述的方法,其中為了生成所述第三序列的聯(lián) 合特征矢量,對(duì)于所述第三序列中的每個(gè)聯(lián)合特征矢量而言,來自所述 第一序列的所述矢量和來自所述第二序列的所述矢量是不同的矢量。
7. 根據(jù)權(quán)利要求1所述的方法,其中至少一個(gè)所述聯(lián)合特征矢量 的生成還基于來自所述第一序列的第二矢量; 來自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示來自所述第 一序列的所述第二矢 量和來自所述第二序列的所述第二矢量被校準(zhǔn)到其各自序列中的相同 特征的概率。
8. 存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),當(dāng)所 述指令在計(jì)算機(jī)系統(tǒng)上被執(zhí)行時(shí),其執(zhí)行一種方法,所述方法包括接收與源相關(guān)聯(lián)的第 一序列的特征矢量; 接收與目標(biāo)相關(guān)聯(lián)的第二序列的特征矢量;以及 生成第三序列的聯(lián)合特征矢量,其中每個(gè)聯(lián)合特征矢量是基于來自所述第一序列的第一矢量;來自所述第二序列的第二矢量;以及概率值,所述概率值表示所述第一矢量和所述第二矢量被 校準(zhǔn)到其各自序列中的相同特征的概率。
9. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中所述第一序列與 所述第二序列包含不同數(shù)量的特征矢量。
10. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中所述第一序列對(duì) 應(yīng)于由第一說話者產(chǎn)生的多個(gè)講話,而所述第二序列對(duì)應(yīng)于由第二說話 者產(chǎn)生的相同的多個(gè)講話。
11. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中所述第三序列的 聯(lián)合矢量包括隱式馬爾可夫模型。
12. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中所述概率是非布 爾值。
13. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中為了生成所述第 三序列的聯(lián)合特征矢量,對(duì)于所述第三序列中的每個(gè)聯(lián)合特征矢量而 言,來自所述第一序列的所述矢量和來自所述第二序列的所述矢量是不 同的矢量。
14. 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其中至少一個(gè)所述聯(lián) 合特征矢量的生成還基于來自所述第一序列的第二矢量; 來自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示來自所述第一序列的所述第二矢 量和來自所述第二序列的所述第二矢量被校準(zhǔn)到其各自序列中的相同 特征的概率。
15. —種數(shù)據(jù)變換方法,其包括 接收與第 一 源相關(guān)聯(lián)的第 一數(shù)據(jù)序列; 接收與第二源相關(guān)聯(lián)的第二數(shù)據(jù)序列;識(shí)別多個(gè)數(shù)據(jù)配對(duì),每個(gè)數(shù)據(jù)配對(duì)包括來自所述第一數(shù)據(jù)序列的項(xiàng) 和來自所述第二數(shù)據(jù)序列的項(xiàng);確定多個(gè)校準(zhǔn)概率,每個(gè)校準(zhǔn)概率與所述多個(gè)數(shù)據(jù)配對(duì)中的一個(gè)配 對(duì)相關(guān)聯(lián);以及基于所述多個(gè)數(shù)據(jù)配對(duì)和所述相關(guān)聯(lián)的多個(gè)校準(zhǔn)概率來確定數(shù)據(jù) 變換函數(shù)。
16. 根據(jù)權(quán)利要求15所述的方法,其中確定所述數(shù)據(jù)變換函數(shù)包 括根據(jù)高斯混合模型(GMM)和基于碼本的技術(shù)之一來計(jì)算參數(shù),所 述參數(shù)與所述數(shù)據(jù)變換相關(guān)聯(lián)。
17. 根據(jù)權(quán)利要求16所述的方法,其中對(duì)所述參數(shù)的估計(jì)包括執(zhí) 行最大期望算法。
18. 根據(jù)權(quán)利要求15所述的方法,其中所述多個(gè)校準(zhǔn)概率中的至 少一個(gè)是非布爾值。
19. 根據(jù)權(quán)利要求15所述的方法,其中所述第一數(shù)據(jù)序列對(duì)應(yīng)于 由第 一源說話者產(chǎn)生的多個(gè)講話,所述第二數(shù)據(jù)序列對(duì)應(yīng)于由第二源說 話者產(chǎn)生的多個(gè)講話,并且數(shù)據(jù)變換函數(shù)包括聲音轉(zhuǎn)換函數(shù)。
20. 根據(jù)權(quán)利要求19所述的方法,還包括接收與所述第一源相關(guān)聯(lián)的第三數(shù)據(jù)序列,所述第三數(shù)據(jù)序列對(duì)應(yīng) 于由所述第一源說話者產(chǎn)生的語(yǔ)音矢量;以及將所述聲音轉(zhuǎn)換函數(shù)應(yīng)用于所述第三數(shù)據(jù)序列。
全文摘要
提供了用于在基于高斯混合模型(GMM)的矢量變換以及其它矢量變換中執(zhí)行軟校準(zhǔn)的系統(tǒng)和方法。軟校準(zhǔn)可以針對(duì)源特征矢量和目標(biāo)特征矢量配對(duì)來指派校準(zhǔn)概率。繼而使用矢量配對(duì)以及相關(guān)聯(lián)的概率來計(jì)算轉(zhuǎn)換函數(shù),這例如是通過根據(jù)聯(lián)合矢量和校準(zhǔn)概率來計(jì)算GMM訓(xùn)練參數(shù),以創(chuàng)建用于將語(yǔ)音從源說話者轉(zhuǎn)換到目標(biāo)說話者的聲音轉(zhuǎn)換函數(shù)。
文檔編號(hào)G10L17/00GK101432799SQ200780014971
公開日2009年5月13日 申請(qǐng)日期2007年4月4日 優(yōu)先權(quán)日2006年4月26日
發(fā)明者J·尼爾米南, J·蒂安, V·博帕 申請(qǐng)人:諾基亞公司