專利名稱:生成聲音模型的方法、裝置和生成聲音模型的計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生成聲音識(shí)別中使用的聲音模型的方法、裝置、計(jì)算機(jī)程序。更具體地說(shuō),涉及生成適合于利用聲音識(shí)別的人的聲音和利用聲音識(shí)別的環(huán)境的聲音模型的方法、裝置、計(jì)算機(jī)程序。
背景技術(shù):
近年來(lái),在移動(dòng)電話、便攜式終端、汽車(chē)導(dǎo)航系統(tǒng)、個(gè)人計(jì)算機(jī)以及家用電器等數(shù)字信息儀器中,希望使用聲音識(shí)別技術(shù)來(lái)進(jìn)一步方便使用者。
當(dāng)聲音識(shí)別系統(tǒng)中使用的聲音模型不適合于使用者時(shí),該使用者就不能利用聲音識(shí)別系統(tǒng)。因此,在聲音識(shí)別系統(tǒng)中,有必要使用適合于使用者的聲音的聲音模型。如圖1所示,作為使聲音模型適合于利用聲音識(shí)別系統(tǒng)的人的聲音的技術(shù)(適應(yīng)說(shuō)話者技術(shù)),存在各種各樣的技術(shù)。在圖1中,與用于實(shí)現(xiàn)適應(yīng)說(shuō)話者技術(shù)所必要的系統(tǒng)的計(jì)算機(jī)能力和硬盤(pán)容量對(duì)應(yīng),描繪了各種各樣的適應(yīng)說(shuō)話者技術(shù)。而且,關(guān)于各種各樣的適應(yīng)說(shuō)話者技術(shù),并記了“為了進(jìn)行適應(yīng)化而使用者必須發(fā)聲的文章的數(shù)量”、“通過(guò)該適應(yīng)技術(shù)能對(duì)應(yīng)的變動(dòng)要素(說(shuō)話者性別、聲音的聲調(diào)”、“識(shí)別性能(用星標(biāo)記的大小來(lái)表示。星標(biāo)記越大則性能越好?!币酝?,信息儀器的計(jì)算機(jī)能力和可搭載的硬盤(pán)容量較小,象“聲道長(zhǎng)度標(biāo)準(zhǔn)化”、“MLLR+固有聲音空間”那樣,只能利用識(shí)別性能較低的適應(yīng)說(shuō)話者技術(shù)。伴隨著信息儀器的計(jì)算機(jī)能力的增大,利用該計(jì)算機(jī)能力就能利用獲得了高識(shí)別性能的適應(yīng)說(shuō)話者技術(shù)“MLLR”、“CAT”。但是,在這些適應(yīng)說(shuō)話者技術(shù)中,為了使聲音模型合適,使用者必須發(fā)聲的文章的數(shù)量比較多。因此,使用者的負(fù)擔(dān)較大,另外,不適用于頻繁更換使用者的信息儀器(例如電視遙控)。而且,也不適用于象家用電器或移動(dòng)電話那樣的計(jì)算機(jī)能力較小的儀器。
近年來(lái),硬盤(pán)容量的增大化和低價(jià)格化不斷發(fā)展,與此同時(shí),象“基于群集的方法”、“基于充分統(tǒng)計(jì)量的方法”那樣,出現(xiàn)了利用容量比較大的硬盤(pán),并且用比較小的計(jì)算機(jī)能力就能完成的適應(yīng)說(shuō)話者技術(shù)。這些適應(yīng)說(shuō)話者技術(shù)適用于所搭載的硬盤(pán)容量不斷增大的汽車(chē)導(dǎo)航系統(tǒng)、電視等家用電器和移動(dòng)電話那樣的計(jì)算機(jī)能力比較小的儀器。雖然無(wú)法在小型家用電器和移動(dòng)電話中搭載大容量的硬盤(pán),但是,因?yàn)榻陙?lái)能通過(guò)網(wǎng)絡(luò)與大容量的服務(wù)器進(jìn)行通信,所以沒(méi)有問(wèn)題。另外,在這些適應(yīng)說(shuō)話者技術(shù)中,因?yàn)闉榱耸孤曇裟P瓦m合,使用者必須發(fā)聲的文章數(shù)量較少(大約一篇文章),所以使用者的負(fù)擔(dān)較少,在更換使用者時(shí)也能瞬間加以利用。但是,在“基于群集的方法”中,選擇一個(gè)與使用者接近的HMM,并把它作為適合的模型加以利用,所以當(dāng)沒(méi)有接近使用者、利用環(huán)境的HMM時(shí),其識(shí)別性能會(huì)大大降低。
鑒于以上所述的問(wèn)題,可以認(rèn)為最適合于移動(dòng)電話和家用電器的適應(yīng)說(shuō)話者技術(shù)是“基于充分統(tǒng)計(jì)量的方法”(芳澤伸一、馬場(chǎng)朗、松浪加奈子、米良佑一郎、山田實(shí)一、鹿野清宏,“使用了充足統(tǒng)計(jì)量和說(shuō)話者距離的聲韻模型的無(wú)教師學(xué)習(xí)”,信學(xué)技報(bào),SP2000-89,pp.83-88,2000)。據(jù)此,利用使用者的一次發(fā)聲,就能瞬時(shí)獲得高精度的適合模型(適合使用者聲音的聲音模型)。
下面,參照?qǐng)D2和圖3,說(shuō)明利用“使用了充分統(tǒng)計(jì)量的方法”來(lái)生成(制作)適合模型的步驟。
~選擇模型和充分統(tǒng)計(jì)量的生成(ST200)~預(yù)先在聲音數(shù)據(jù)庫(kù)310(圖3)中存儲(chǔ)在安靜的環(huán)境中收錄的各種各樣的說(shuō)話者(例如約300人)的聲音數(shù)據(jù)。
使用存儲(chǔ)在聲音數(shù)據(jù)庫(kù)310中的聲音數(shù)據(jù),針對(duì)每一位說(shuō)話者生成選擇模型(在此,用混合高斯分布(Gaussian Mixture Model)來(lái)表現(xiàn)。)和充分統(tǒng)計(jì)量(在此,用隱馬爾科夫模型(HMM)來(lái)表現(xiàn)。),并把它們存儲(chǔ)在充分統(tǒng)計(jì)量文件320(圖3)中。所謂“充分統(tǒng)計(jì)量”是指表現(xiàn)數(shù)據(jù)庫(kù)性質(zhì)的充分統(tǒng)計(jì)量,在此,是HMM的聲音模型的平均、分散、EM計(jì)數(shù)。通過(guò)使用EM算法,從不特定的說(shuō)話者模型學(xué)習(xí)一次,據(jù)此來(lái)計(jì)算充分統(tǒng)計(jì)量。不用區(qū)分音韻,通過(guò)1個(gè)狀態(tài)的64混合的高斯混合模型(Gausian Mixture Model)來(lái)生成選擇模型。
下面,參照?qǐng)D4來(lái)詳細(xì)說(shuō)明充分統(tǒng)計(jì)量的生成步驟。
<ST201>
首先,生成不特定的說(shuō)話者的充分統(tǒng)計(jì)量。在此,使用EM算法,根據(jù)所有的說(shuō)話者的數(shù)據(jù),通過(guò)學(xué)習(xí)來(lái)生成。充分統(tǒng)計(jì)量由隱馬爾科夫模型來(lái)表現(xiàn),各狀態(tài)由混合高斯分布來(lái)表現(xiàn)。為生成的不特定的說(shuō)話者的充分統(tǒng)計(jì)量的高斯分布分配編號(hào)。
<ST202>
以生成的不特定的說(shuō)話者的充分統(tǒng)計(jì)量為初始值,生成對(duì)于各說(shuō)話者的充分統(tǒng)計(jì)量。在此,使用EM算法,根據(jù)各說(shuō)話者的數(shù)據(jù),通過(guò)學(xué)習(xí)生成。對(duì)于各說(shuō)話者的充分統(tǒng)計(jì)量的高斯分布,保存與分配給不特定的說(shuō)話者的充分統(tǒng)計(jì)量的編號(hào)對(duì)應(yīng)的編號(hào)。
~適用的聲音數(shù)據(jù)的輸入(ST210)~輸入使用者的聲音。
~基于選擇模型的充分統(tǒng)計(jì)量的選擇(ST220)~根據(jù)所輸入的聲音和選擇模型,來(lái)選擇與使用者的聲音“接近”的多個(gè)充分統(tǒng)計(jì)量(關(guān)于在聲音上接近使用者的聲音的聲音模型)。在此所說(shuō)的“接近”是指從把輸入的聲音輸入選擇模型中而得到的概率值大的開(kāi)始,與前N個(gè)選擇模型對(duì)應(yīng)的說(shuō)話者的充分統(tǒng)計(jì)量。以上所述的選擇處理在圖3所示的適合模型生成部330中進(jìn)行。圖5表示了它的情況。
~適合模型的生成(ST230)~使用所選擇的充分統(tǒng)計(jì)量來(lái)生成適合模型。具體地說(shuō),對(duì)于所選擇的充分統(tǒng)計(jì)量,用具有相同編號(hào)的高斯分布進(jìn)行新的統(tǒng)計(jì)計(jì)算(表達(dá)式1~表達(dá)式3),算出一個(gè)高斯分布。適合模型的生成處理在圖3所示的適合模型生成部330中進(jìn)行。圖5表示了它的情形。
μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...,Nmix)]]>[表達(dá)式2]viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...,Nmix)]]>[表達(dá)式3]aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...,Nstate)]]>在此,適合模型的HMM的各狀態(tài)的正態(tài)分布的平均、分散分別為μiadp(i=1、2···、Nmix)、viadp(i=1、2···、Nmix)。Nmix是混合分布數(shù)。另外,狀態(tài)轉(zhuǎn)變概率為aadp[i][j](i、j=1、2···、Nstate)。Nstate是狀態(tài)數(shù),aadp[i][j]表示從狀態(tài)i向狀態(tài)j的轉(zhuǎn)變概率。Nsel是所選擇的聲音模型的數(shù),μij(i=1、2···、Nmix,j=1、2、···Nsel)、vij(i=1、2···、Nmix,j=1、2、···Nsel)分別是各個(gè)聲音模型的平均、分散。Cmixj(j=1、2、···Nsel)、Cstatek[i][j](k=1、2、···Nsel,i、j=1、2、···Nstate)分別是正態(tài)分布的EM計(jì)數(shù)(頻數(shù))、關(guān)于狀態(tài)轉(zhuǎn)變的EM計(jì)數(shù)。
~識(shí)別(ST240)~聲音識(shí)別系統(tǒng)300(圖3)使用按如以上所述而生成的適合模型來(lái)識(shí)別使用者的聲音。
在以上說(shuō)明的“使用了充分統(tǒng)計(jì)量的方法”中,把不特定的說(shuō)話者(初始值)的充分統(tǒng)計(jì)量的高斯分布的位置關(guān)系和各說(shuō)話者的充分統(tǒng)計(jì)量的高斯分布的位置關(guān)系近似為同等的。即假設(shè)即使從充分統(tǒng)計(jì)量的初始值計(jì)算各聲音數(shù)據(jù)的充分統(tǒng)計(jì)量,也能在維持了高斯分布的位置關(guān)系的狀態(tài)下,只學(xué)習(xí)混合加權(quán)、平均值、分散。具體地說(shuō),假設(shè)充分統(tǒng)計(jì)量的初始值的高斯分布中與各聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的高斯分布在KL距離等分布距離上最近的高斯分布的編號(hào)與該聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的高斯分布的編號(hào)相同。因?yàn)樵诎察o的環(huán)境下所述假設(shè)是成立的(參照?qǐng)D4),所以所述方法作為“安靜的環(huán)境下的”適合模型的生成方法是有效的。但是,如果考慮到實(shí)用性,就必須考慮到“雜音環(huán)境下的”適合模型的生成。此時(shí),如圖6所示,所述假設(shè)不成立,適合模型的精度下降。
發(fā)明內(nèi)容
鑒于以上所述問(wèn)題的存在,本發(fā)明的目的在于提供能防止雜音環(huán)境中的適合模型的精度下降的聲音模型生成方法、聲音模型生成裝置以及聲音模型的生成程序。
本發(fā)明的方法是生成用于聲音識(shí)別的聲音模型的方法,具有以下所述的步驟(a)~(e)。在步驟(a)中,根據(jù)聲音的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組化。在步驟(b)中,關(guān)于由步驟(a)獲得的各組,使用包含在該組中的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量。在步驟(c)中,從由步驟(a)獲得的各組中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的組。在步驟(d)中,從關(guān)于由步驟(c)選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量。在步驟(e)中,使用由步驟(d)選擇的充分統(tǒng)計(jì)量來(lái)生成聲音模型。
最好在所述使用者利用聲音識(shí)別的時(shí)刻之前,脫機(jī)進(jìn)行所述步驟(a)和(b)。
在所述步驟(a)中,最好根據(jù)雜音的種類來(lái)進(jìn)行分組。
在所述步驟(a)中,最好根據(jù)疊加有雜音的聲音數(shù)據(jù)的SN比來(lái)進(jìn)行分組。
在所述步驟(a)中,最好按聲音上接近的各說(shuō)話者來(lái)進(jìn)行分組。
在所述步驟(b)中,最好針對(duì)各說(shuō)話者來(lái)生成充分統(tǒng)計(jì)量。
在所述步驟(b)中,最好按說(shuō)話者聲音的各聲調(diào)來(lái)生成充分統(tǒng)計(jì)量。
在所述步驟(b)中,最好按雜音的每一種類來(lái)生成充分統(tǒng)計(jì)量。
在所述步驟(b)中,最好按照所述各組中包含的聲音數(shù)據(jù)的S/N比來(lái)生成充分統(tǒng)計(jì)量。
本發(fā)明的裝置是生成用于聲音識(shí)別的聲音模型的裝置,具有存儲(chǔ)部、第一選擇部、第二選擇部、模型生成部。存儲(chǔ)部關(guān)于通過(guò)根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組而得到的多個(gè)組,存儲(chǔ)了使用該組中包含的聲音數(shù)據(jù)而生成的充分統(tǒng)計(jì)量。第一選擇部從所述多個(gè)組中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的組。第二選擇部從關(guān)于由所述第一選擇部選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近所述使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量。模型生成部使用由所述第二選擇部選擇的充分統(tǒng)計(jì)量,生成聲音模型。
所述裝置最好還包含分組生成部、充分統(tǒng)計(jì)量生成部。分組生成部根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組。充分統(tǒng)計(jì)量生成部關(guān)于由所述分組生成部獲得的各組,使用該組中包含的聲音數(shù)據(jù)生成充分統(tǒng)計(jì)量。所述存儲(chǔ)部存儲(chǔ)由充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量。
本發(fā)明的程序是用于生成聲音識(shí)別中使用的聲音模型的計(jì)算機(jī)程序,使計(jì)算機(jī)具有如下功能。功能(a)關(guān)于通過(guò)根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組而得到的多個(gè)組,存儲(chǔ)了使用該組中包含的聲音數(shù)據(jù)而生成的充分統(tǒng)計(jì)量。功能(b)從所述多個(gè)組中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的組。功能(c)從關(guān)于由功能(b)選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近所述使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量。功能(d)使用由功能(c)選擇的充分統(tǒng)計(jì)量,生成聲音模型。
最好使所述計(jì)算機(jī)還能具有以下的功能(e)~(f)。功能(e)根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組。功能(f)關(guān)于由功能(e)獲得的各組,使用該組中包含的聲音數(shù)據(jù)生成充分統(tǒng)計(jì)量。所述功能(a)存儲(chǔ)由功能(f)生成的充分統(tǒng)計(jì)量。
所述方法、裝置、程序中,在雜音的種類、SN比、說(shuō)話者等的變化中,把聲音上接近的分組,在該組中進(jìn)行充分統(tǒng)計(jì)量的生成和適合模型(聲音模型)的生成。這樣,通過(guò)分組能使以上所述的假設(shè)成立。結(jié)果,能防止雜音環(huán)境中的適合模型的精度的下降,能生成高精度的適合模型。
本發(fā)明的又一個(gè)方法是生成用于聲音識(shí)別的聲音模型的方法,包含以下的步驟(a)~(d)。在步驟(a)中,從基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的聲音數(shù)據(jù)。在步驟(b)中,在由步驟(a)選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境中的雜音。在步驟(c)中,使用由步驟(b)疊加有雜音的聲音數(shù)據(jù),生成充分統(tǒng)計(jì)量。在步驟(d)中,使用由步驟(c)生成的充分統(tǒng)計(jì)量,生成聲音模型。
所述方法最好還包含步驟(e)~(f)。在步驟(e)中,在基于所述多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中疊加預(yù)測(cè)為要利用聲音識(shí)別的環(huán)境的雜音。在步驟(f)中,生成關(guān)于由所述步驟(e)而疊加了雜音的聲音數(shù)據(jù)的標(biāo)簽信息。在步驟(c)中,使用由步驟(b)疊加有雜音的聲音數(shù)據(jù)和步驟(f)中生成的標(biāo)簽信息中的關(guān)于由步驟(a)中選擇的聲音數(shù)據(jù)的標(biāo)簽信息,生成充分統(tǒng)計(jì)量。
在所述步驟(f)中,最好還生成關(guān)于由所述步驟(e)而疊加了雜音的聲音數(shù)據(jù)的聲音模型的狀態(tài)轉(zhuǎn)變的信息;在所述步驟(c)中,還使用在步驟(f)中生成的關(guān)于聲音模型的狀態(tài)轉(zhuǎn)變的信息中的關(guān)于由步驟(a)選擇的聲音數(shù)據(jù)的聲音模型的狀態(tài)轉(zhuǎn)變的信息,生成充分統(tǒng)計(jì)量。
在所述步驟(e)中,把多種雜音分別疊加到基于所述多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中;在所述步驟(f)中,關(guān)于所述多種雜音,分別生成標(biāo)簽信息;在所述步驟(c)中,從關(guān)于由步驟(a)選擇的聲音數(shù)據(jù)的多個(gè)標(biāo)簽信息中選擇適合于利用聲音識(shí)別的環(huán)境的標(biāo)簽信息,使用選擇的標(biāo)簽信息生成充分統(tǒng)計(jì)量。
本發(fā)明的又一種裝置是生成用于聲音識(shí)別的聲音模型的裝置,具有存儲(chǔ)部、選擇部、雜音疊加部、充分統(tǒng)計(jì)量生成部、模型生成部。存儲(chǔ)部存儲(chǔ)基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)。選擇部從存儲(chǔ)在存儲(chǔ)部中的聲音數(shù)據(jù)中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的聲音數(shù)據(jù)。雜音疊加部在由所述選擇部選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境的雜音。充分統(tǒng)計(jì)量生成部使用由雜音疊加部疊加有雜音的聲音數(shù)據(jù),生成充分統(tǒng)計(jì)量。模型生成部使用由充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量,生成聲音模型。
本發(fā)明的又一程序是用于生成聲音識(shí)別中使用的聲音模型的計(jì)算機(jī)程序,能使計(jì)算機(jī)具有以下的功能(a)~(e)。功能(a)存儲(chǔ)基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)。功能(b)從存儲(chǔ)在功能(a)中的聲音數(shù)據(jù)中選擇在聲音上接近利用聲音識(shí)別的人(使用者)的聲音數(shù)據(jù)的聲音數(shù)據(jù)。功能(c)在由功能(b)選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境的雜音。功能(d)使用由所述功能(c)疊加有雜音的聲音數(shù)據(jù),生成充分統(tǒng)計(jì)量。功能(e)使用由功能(d)生成的充分統(tǒng)計(jì)量,生成聲音模型。
在所述方法、裝置、程序中,因?yàn)橛迷诼曇羯辖咏穆曇魯?shù)據(jù)進(jìn)行處理,所以能生成高精度的聲音模型。另外,因?yàn)檫x擇了在聲音上接近的聲音數(shù)據(jù)后,進(jìn)行充分統(tǒng)計(jì)量的計(jì)算,所以能快速進(jìn)行用于生成充分統(tǒng)計(jì)量的處理。
本發(fā)明的適合模型生成裝置是生成用于聲音識(shí)別的聲音模型的裝置,具有存儲(chǔ)部、記憶部、模型生成部。存儲(chǔ)部中存儲(chǔ)了根據(jù)聲音的接近程度而分組的多個(gè)組。所述多個(gè)組分別包含多個(gè)充分統(tǒng)計(jì)量。記憶部中存儲(chǔ)了表示所述多個(gè)組中的至少一組的組ID。模型生成部從存儲(chǔ)在記憶部中的組ID所對(duì)應(yīng)的組中選擇一個(gè)在聲音上接近使用者的聲音的組。模型生成部使用選擇的組中包含的充分統(tǒng)計(jì)量中的在聲音上接近使用者的聲音的至少兩個(gè)充分統(tǒng)計(jì)量,生成聲音模型。
所述模型生成部最好至少?gòu)乃龆鄠€(gè)組中選擇一個(gè)在聲音上接近使用者的聲音的組,把表示選擇的組的組ID記憶在所述記憶部中。
所述記憶部最好把利用聲音識(shí)別的環(huán)境中的雜音的種類和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶部最好把表示使用者的使用者ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶部最好把用于識(shí)別所述適合模型生成裝置的裝置ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
本發(fā)明的又一種適合模型生成裝置是生成用于聲音識(shí)別的聲音模型的裝置,具有存儲(chǔ)部、模型生成部。在存儲(chǔ)部中存儲(chǔ)了根據(jù)聲音的接近程度而分組的多個(gè)組。所述多個(gè)組分別包含多個(gè)充分統(tǒng)計(jì)量。模型生成部接收表示所述多個(gè)組中的至少一組的組ID。模型生成部從接收的組ID所對(duì)應(yīng)的組中選擇一個(gè)在聲音上接近使用者的聲音的組。模型生成部使用選擇的組中包含的充分統(tǒng)計(jì)量中的在聲音上接近使用者的聲音的至少兩個(gè)充分統(tǒng)計(jì)量,生成聲音模型。
所述模型生成部最好從外部的記憶裝置接收所述組ID。所述模型生成部從所述多個(gè)組中至少選擇一個(gè)在聲音上接近使用者的聲音的組,把表示選擇的組的組ID存儲(chǔ)在所述記憶裝置中。
所述記憶裝置最好把利用聲音識(shí)別的環(huán)境中的雜音種類和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶裝置最好把表示使用者的使用者ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶裝置最好把用于識(shí)別所述適合模型生成裝置的裝置ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
本發(fā)明的又一種適合模型生成裝置是生成用于聲音識(shí)別的聲音模型的裝置,具有選擇部、模型生成部。選擇部接收表示多個(gè)組中的至少一個(gè)組的組ID。根據(jù)聲音的接近程度把所述多個(gè)組分組。所述多個(gè)組分別包含多個(gè)充分統(tǒng)計(jì)量。選擇部從接收的組ID所對(duì)應(yīng)的組中選擇一個(gè)在聲音上接近使用者的聲音的組。模型生成部接收由選擇部選擇的組中包含的充分統(tǒng)計(jì)量中的在聲音上接近所述使用者的聲音的至少兩個(gè)充分統(tǒng)計(jì)量。模型生成部使用接收的充分統(tǒng)計(jì)量生成聲音模型。
所述選擇部最好從外部的記憶裝置接收所述組ID。所述選擇部從所述多個(gè)組中至少選擇一個(gè)在聲音上接近使用者的聲音的組,把表示選擇的組的組ID存儲(chǔ)在所述記憶裝置中。
所述記憶裝置最好把利用聲音識(shí)別的環(huán)境中的雜音種類和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶裝置最好把表示使用者的使用者ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
所述記憶裝置最好把用于識(shí)別所述適合模型生成裝置的裝置ID和所述組ID對(duì)應(yīng)存儲(chǔ)。
下面簡(jiǎn)要說(shuō)明附圖。
圖1是表示各種各樣的適應(yīng)說(shuō)話者技術(shù)的圖。
圖2是表示利用“使用了充分統(tǒng)計(jì)量的方法”來(lái)生成適合模型的步驟的程序框圖。
圖3是用于說(shuō)明利用“使用了充分統(tǒng)計(jì)量的方法”來(lái)生成適合模型的步驟的框圖。
圖4是用于說(shuō)明充分統(tǒng)計(jì)量的生成處理的圖。
圖5是用于說(shuō)明適合模型的生成處理的圖。
圖6是用于說(shuō)明以往技術(shù)的“使用了充分統(tǒng)計(jì)量的方法”中的課題的圖。
圖7是表示實(shí)施例1的適合模型生成裝置的結(jié)構(gòu)的框圖。
圖8是表示圖7所示的組生成部中的組生成處理的流程的圖。
圖9是表示生成圖7所示的充分統(tǒng)計(jì)量存儲(chǔ)部中存儲(chǔ)的充分統(tǒng)計(jì)量的處理的流程的圖。
圖10是表示生成圖7所示的選擇模型存儲(chǔ)部中存儲(chǔ)的選擇模型的處理的流程的圖。
圖11是表示圖7所示的充分統(tǒng)計(jì)量存儲(chǔ)部中存儲(chǔ)的充分統(tǒng)計(jì)量的一個(gè)例子的圖。
圖12是表示圖7所示的選擇模型存儲(chǔ)部中存儲(chǔ)的選擇模型的一個(gè)例子的圖。
圖13是表示在圖7所示的適合模型生成部中,決定在聲音上接近使用者的聲音的組的處理流程的圖。
圖14是表示在圖7所示的適合模型生成部中,決定接近使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的處理流程的圖。
圖15是表示識(shí)別實(shí)驗(yàn)的結(jié)果的圖。
圖16是表示圖7所示的充分統(tǒng)計(jì)量存儲(chǔ)部中存儲(chǔ)的充分統(tǒng)計(jì)量的一個(gè)例子的圖。
圖17是表示由組生成部所生成的組的例子的圖。
圖18~圖28是表示具體的商品形象和分組的例子的圖。
圖29是表示實(shí)施例2的適合模型生成裝置的結(jié)構(gòu)的框圖。
圖30是表示生成圖29所示的選擇模型存儲(chǔ)部中存儲(chǔ)的選擇模型的處理的流程的圖。
圖31是表示生成雜音疊加數(shù)據(jù)的處理的流程的圖。
圖32是表示圖9所示的充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量的一個(gè)例子的圖。
圖33是把實(shí)施例2的適合模型生成裝置應(yīng)用于實(shí)際產(chǎn)品的形象的圖。
圖34是表示實(shí)施例3的適合模型生成裝置結(jié)構(gòu)的框圖。
圖35是表示生成選擇模型存儲(chǔ)部中存儲(chǔ)的選擇模型的處理流程的圖。
圖36~圖37是表示生成標(biāo)簽信息的處理流程的圖。
圖38是表示標(biāo)簽信息存儲(chǔ)部中存儲(chǔ)的標(biāo)簽信息的一個(gè)例子的圖。
圖39是表示生成充分統(tǒng)計(jì)量的處理流程的圖。
圖40是表示實(shí)施例4的適合模型生成裝置結(jié)構(gòu)的框圖。
圖41~圖42是表示生成標(biāo)簽信息的處理流程的圖。
圖43是表示生成標(biāo)簽信息選擇模型的處理流程的圖。
具體實(shí)施例方式
下面,參照
本發(fā)明的實(shí)施例。須指出的是,圖中對(duì)相同或相當(dāng)部分采用了相同的符號(hào),并不再重復(fù)其說(shuō)明。
(實(shí)施例1)<適合模型生成裝置的結(jié)構(gòu)>
圖7是表示實(shí)施例1的聲音識(shí)別用適合模型生成裝置的整體結(jié)構(gòu)的框圖。圖7所示的裝置具有充分統(tǒng)計(jì)量生成部1、選擇模型生成部2、充分統(tǒng)計(jì)量存儲(chǔ)部3、選擇模型存儲(chǔ)部4、適合模型生成部5和組生成部6。
組生成部6把在安靜的環(huán)境中的聲音數(shù)據(jù)83中疊加雜音數(shù)據(jù)82而生成的雜音疊加聲音數(shù)據(jù)84根據(jù)“聲音上的接近程度”分組。
充分統(tǒng)計(jì)量生成部1使用組生成部6分組的聲音數(shù)據(jù)84,對(duì)組生成部6生成的各組生成充分統(tǒng)計(jì)量71。
充分統(tǒng)計(jì)量存儲(chǔ)部3存儲(chǔ)充分統(tǒng)計(jì)量生成部1生成的充分統(tǒng)計(jì)量。
選擇模型生成部2生成選擇模型73。選擇模型73是用于從存儲(chǔ)部3中存儲(chǔ)的充分統(tǒng)計(jì)量71中選擇接近使用者的聲音數(shù)據(jù)81的充分統(tǒng)計(jì)量72的模型。
選擇模型存儲(chǔ)部4存儲(chǔ)選擇模型生成部2生成的選擇模型73。
適合模型生成部5使用存儲(chǔ)在存儲(chǔ)部4中的選擇模型73,從存儲(chǔ)在存儲(chǔ)部3中的充分統(tǒng)計(jì)量71中選擇“在聲音上接近”使用者的聲音數(shù)據(jù)81的充分統(tǒng)計(jì)量72,使用選擇的充分統(tǒng)計(jì)量72生成適合模型74。
<適合模型的生成步驟>
下面,說(shuō)明采用了以上結(jié)構(gòu)的裝置的適合模型的生成步驟。在此,以使用者在室內(nèi)進(jìn)行聲音識(shí)別時(shí)的情形為例進(jìn)行說(shuō)明。
首先,描述充分統(tǒng)計(jì)量71和選擇模型73的生成方法。在此,說(shuō)明在使用者要求獲得適合模型之前,脫機(jī)進(jìn)行充分統(tǒng)計(jì)量71和選擇模型73的生成時(shí)的情形。
在安靜的環(huán)境中,收錄多個(gè)說(shuō)話者的聲音數(shù)據(jù)83。在此,收錄約300人的聲音數(shù)據(jù)。
收錄使用者要利用聲音識(shí)別的環(huán)境的雜音數(shù)據(jù)82。在此,收錄室內(nèi)雜音。
在聲音數(shù)據(jù)83中以使用者要利用聲音識(shí)別的環(huán)境的SN比疊加雜音數(shù)據(jù)82,生成聲音數(shù)據(jù)84。在此,以15dB、20dB、25dB的SN比疊加雜音數(shù)據(jù)82。
組生成部6根據(jù)“聲音上的接近程度”把生成的聲音數(shù)據(jù)84分組。在此,如圖8所示,按SN比,分組為15dB的組A、20dB的組B、25dB的組C。
生成充分統(tǒng)計(jì)量71。如圖9所示,充分統(tǒng)計(jì)量生成部1對(duì)于組生成部6生成的各組,使用雜音疊加聲音數(shù)據(jù)84A~84C,生成各不特定說(shuō)話者模型A~C。接著,關(guān)于組生成部6生成的各組,使用各說(shuō)話者的雜音疊加聲音數(shù)據(jù)84,通過(guò)對(duì)各說(shuō)話者根據(jù)EM算法從各組的不特定說(shuō)話者模型學(xué)習(xí)一次,生成充分統(tǒng)計(jì)量71A~71C。在此,對(duì)各組約生成了300個(gè)充分統(tǒng)計(jì)量。
生成選擇模型73。作為一個(gè)例子,如圖10所示,組生成部6生成的各組,使用雜音疊加聲音數(shù)據(jù)84A~84C,通過(guò)對(duì)各說(shuō)話者,不區(qū)別音韻,根據(jù)1狀態(tài)64混合的高斯混合模型(Gaussian Mixture Model),生成選擇模型73A~73C。在此,對(duì)各組約生成了300個(gè)充分統(tǒng)計(jì)量選擇模型。
生成充分統(tǒng)計(jì)量71A~71C(圖9)時(shí)使用的聲音數(shù)據(jù)84A~84C(圖9)和據(jù)此生成的選擇模型73A~73C(圖10)成對(duì),根據(jù)對(duì)應(yīng)的選擇模型,選擇了接近使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量。
充分統(tǒng)計(jì)量存儲(chǔ)部3存儲(chǔ)充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量71A~71C。選擇模型存儲(chǔ)部4存儲(chǔ)選擇模型生成部2生成的選擇模型73A~73C。圖11和圖16表示存儲(chǔ)在充分統(tǒng)計(jì)量存儲(chǔ)部3中存儲(chǔ)的充分統(tǒng)計(jì)量71的一個(gè)例子。另外,圖12表示了存儲(chǔ)在選擇模型存儲(chǔ)部4中的選擇模型73的一個(gè)例子。在此,各組(A~C)的各說(shuō)話者(A某~Z某)的充分統(tǒng)計(jì)量和選擇模型成對(duì)。
下面,說(shuō)明適合模型生成部5的適合模型74的生成步驟。
使用圖11、圖12所示的例子,說(shuō)明作為充分統(tǒng)計(jì)量71和適合模型74的一個(gè)例子。
使用者要求適合模型74的生成。
使用者利用聲音識(shí)別用的話筒,把利用聲音識(shí)別的環(huán)境下的聲音數(shù)據(jù)81輸入適合模型生成部5中。在聲音數(shù)據(jù)81中疊加了利用聲音識(shí)別的環(huán)境的雜音。
在此,說(shuō)明使用者在室內(nèi),在SN比為20dB的環(huán)境下利用聲音識(shí)別時(shí)的情形。
適合模型生成部5把聲音數(shù)據(jù)81發(fā)送給選擇模型存儲(chǔ)部4,輸入到選擇模型73中。即聲音數(shù)據(jù)81被輸入到圖12的組A~C的A某~Z某的充分統(tǒng)計(jì)量選擇模型中。
從組生成部6生成的組中決定“在聲音上接近”使用者的聲音數(shù)據(jù)81的組。
計(jì)算把聲音數(shù)據(jù)81輸入到選擇模型73中時(shí)的選擇模型73的似然,按似然大的順序排列。即計(jì)算圖12的組A~C的A某~Z某的選擇模型對(duì)于聲音數(shù)據(jù)81的似然,按從大到小的順序排列。圖13表示了計(jì)算選擇模型73的似然,按照似然大的順序排列的一個(gè)例子。
按照似然大的順序,選擇前N個(gè)(圖13的例子中為100個(gè))選擇模型,決定最多選擇的組(室內(nèi)雜音的SN比)。在圖12的例子中,最多選擇的組是組B(室內(nèi)雜音20dB)。即組B是″在聲音上接近″使用者的聲音數(shù)據(jù)81的組。
使用″在聲音上接近″聲音數(shù)據(jù)81的組(組B)的充分統(tǒng)計(jì)量,生成適合模型74。從″在聲音上接近″聲音數(shù)據(jù)81的組(組B)的選擇模型73,按照似然從大到小的順序,選擇前L個(gè)(圖14的例子中為20個(gè))。然后,使用與選擇的選擇模型成對(duì)的充分統(tǒng)計(jì)量72,生成適合模型74。具體地說(shuō),通過(guò)以下的統(tǒng)計(jì)處理計(jì)算(表達(dá)式4~表達(dá)式6),生成適合模型74。適合模型74的HMM的各狀態(tài)的正態(tài)分布的平均、分散分別為μiadp(i=1、2···、Nmix)、vjadp(i=1、2···、Nmix)。Nmix是混合分布數(shù)。另外,狀態(tài)轉(zhuǎn)變概率為aadp[i][j](i、j=1、2···、Nstate)。Nstate是狀態(tài)數(shù),aadp[i][j]表示從狀態(tài)i向狀態(tài)j的轉(zhuǎn)變概率。
μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...,Nmix)]]>[表達(dá)式5]viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...,Nmix)]]>[表達(dá)式6]aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...,Nstate)]]>在此,Nsel是所選擇的聲音模型的數(shù),μij(i=1、2···、Nmix,j=1、2、···Nsel)、vij(i=1、2···、Nmix,j=1、2、···Nsel)是各個(gè)HMM的平均、分散。Cmixj(j=1、2、···Nsel)、Cstatek[i][j](k=1、2、···Nsel,i、j=1、2、···Nstate)分別是正態(tài)分布的EM計(jì)數(shù)(頻數(shù))、關(guān)于狀態(tài)轉(zhuǎn)變的EM計(jì)數(shù)。
適合模型生成部5準(zhǔn)備使用者的下一個(gè)生成適合模型的要求。
<實(shí)驗(yàn)結(jié)果>
下面,就使用適合模型進(jìn)行的識(shí)別實(shí)驗(yàn)的結(jié)果加以說(shuō)明。
下面,說(shuō)明識(shí)別實(shí)驗(yàn)的條件。數(shù)據(jù)庫(kù)由306人的說(shuō)話者數(shù)據(jù)構(gòu)成,各說(shuō)話者具有200段文章的發(fā)聲數(shù)據(jù)。是采樣頻率16kHz、16位的數(shù)據(jù)。作為特征量,使用以窗口移動(dòng)長(zhǎng)度10ms分析而得的12元的MFCC(Mel-frequency cepstrum coefficient)和三角對(duì)數(shù)倒頻譜、三角功率。在特征量的抽出中,進(jìn)行了CMN(cepstrum mean normalization)處理。使用由20k的報(bào)紙報(bào)道構(gòu)成的語(yǔ)言模型。評(píng)價(jià)說(shuō)話者為46人。作為評(píng)價(jià)文章,使用了各說(shuō)話者的4~5段文章,合計(jì)200段文章。作為雜音的種類,使用了室內(nèi)雜音。
圖15表示了識(shí)別實(shí)驗(yàn)結(jié)果。在圖15中,也一起表示了使用充分統(tǒng)計(jì)量生成適合模型的以往技術(shù)的識(shí)別結(jié)果。
如果觀察圖15所示的結(jié)果,則根據(jù)本發(fā)明生成的適合模型的性能與根據(jù)現(xiàn)有技術(shù)生成的相比是極高的。
<效果>
如以上所述,在實(shí)施例1中,以“在聲音上接近的”聲音數(shù)據(jù)群集(分組),在各組中,進(jìn)行選擇模型、充分統(tǒng)計(jì)量的生成和適合模型的生成。通過(guò)這樣進(jìn)行群集(分組),就能使以往的技術(shù)中說(shuō)明的假設(shè)成立。結(jié)果,能防止雜音環(huán)境中的適合模型的精度下降,能生成高精度的適合模型。在在此,分組的″在聲音上接近″的聲音數(shù)據(jù)是指在以往的技術(shù)的欄目中說(shuō)明的“基于充分統(tǒng)計(jì)量”的方法中的假設(shè)成立的范圍中存在的聲音數(shù)據(jù)群。具體地說(shuō),即使從充分統(tǒng)計(jì)量的初始值計(jì)算各聲音數(shù)據(jù)的充分統(tǒng)計(jì)量,也能在維持了高斯分布的位置關(guān)系的狀態(tài)下,只學(xué)習(xí)混合加權(quán)、平均值、分散的聲音數(shù)據(jù)群(參照?qǐng)D16)。換句話說(shuō),與各聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的高斯分布在KL距離等分布距離上最近的初始值的充分統(tǒng)計(jì)量的高斯分布的編號(hào)與所述聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的高斯分布的編號(hào)相同(參照?qǐng)D16)。
作為能使這樣的假設(shè)成立的分組的例子,有·針對(duì)每一雜音種類生成組。
·針對(duì)每一SN比生成組。
·使用各聲音數(shù)據(jù)來(lái)生成聲音模型(用混合高斯分布來(lái)表現(xiàn)),把KL距離等的分布距離近的作為相同的組。圖17表示了一個(gè)例子。
另外,根據(jù)實(shí)施例1還能獲得以下所述的效果。
作為用于生成適合于雜音/說(shuō)話者的適合模型的聲音數(shù)據(jù),因?yàn)槔昧嗣摼€收錄的聲音數(shù)據(jù)83,所以沒(méi)必要進(jìn)行大量的發(fā)聲,從而減少了使用者的負(fù)擔(dān)。
因?yàn)槭褂秒s音疊加聲音數(shù)據(jù)84生成充分統(tǒng)計(jì)量71,來(lái)生成適合模型74,所以能生成適合于利用環(huán)境的適合模型。因此,能在雜音環(huán)境中利用適合模型。
因?yàn)槊摼€生成充分統(tǒng)計(jì)量71,所以在適應(yīng)時(shí),能在瞬間生成適合模型74。因此,當(dāng)所利用的環(huán)境發(fā)生變化時(shí),也能立即利用適合模型。
因?yàn)獒槍?duì)由組生成部6生成的每一組來(lái)生成充分統(tǒng)計(jì)量,從而生成適合模型74,所以能生成更適合于使用者的聲音數(shù)據(jù)81的適合模型74。因此,更多的使用者能在各種雜音環(huán)境下利用適合模型。
須指出的是,作為雜音疊加聲音數(shù)據(jù)84,也可以代替用計(jì)算處理疊加了雜音數(shù)據(jù)的聲音數(shù)據(jù),而使用收錄的在雜音環(huán)境下發(fā)聲的聲音數(shù)據(jù)。
組生成部6可以按雜音的種類,對(duì)各說(shuō)話者生成組。
作為雜音疊加聲音數(shù)據(jù)84,也可以使用室內(nèi)雜音、車(chē)內(nèi)雜音、會(huì)場(chǎng)噪音以及吸塵器的聲音等各種各樣的雜音環(huán)境下的聲音數(shù)據(jù)。
生成適合模型74的定時(shí)可以是適合模型生成部自動(dòng)地進(jìn)行。
充分統(tǒng)計(jì)量選擇模型73并不局限于高斯混合模型。
作為雜音數(shù)據(jù)82,還可以使用所利用環(huán)境的雜音。
實(shí)施例1的適合模型生成裝置既可以由硬件來(lái)實(shí)現(xiàn),也可以由軟件來(lái)實(shí)現(xiàn)。
<具體的商品形象和分組例>
使用了實(shí)施例1的適應(yīng)說(shuō)話者技術(shù)的聲音識(shí)別系統(tǒng)例如能搭載到以下所述的商品(信息儀器)中。有移動(dòng)電話、便攜式終端(PDA)、汽車(chē)導(dǎo)航系統(tǒng)、個(gè)人計(jì)算機(jī)、電視遙控器、語(yǔ)音翻譯裝置、寵物機(jī)器人、對(duì)話工具(圖形)等。下面,與分組例一起,表示它們中的幾個(gè)。
針對(duì)雜音的種類×各SN比生成組,在組內(nèi)存儲(chǔ)各說(shuō)話者×說(shuō)話者的聲調(diào)變化的充分統(tǒng)計(jì)量。
<多種雜音下,多個(gè)說(shuō)話者利用的儀器(例電視的操作)>
·組的選擇方法1(參照?qǐng)D18)圖18A表示了基于本例子的系統(tǒng)的結(jié)構(gòu)。本系統(tǒng)具有服務(wù)器1800、數(shù)字TV系統(tǒng)1810、聲音遙控器1820。服務(wù)器1800包含組生成部6、選擇模型生成部2和充分統(tǒng)計(jì)量生成部1。如圖18B所示,組生成部6把疊加有雜音的聲音數(shù)據(jù)84按雜音的種類(吸塵器的聲音、洗衣機(jī)的聲音等)×SN比(10dB、20dB等)來(lái)進(jìn)行分組。充分統(tǒng)計(jì)量生成部1關(guān)于由組生成部6生成的各組,針對(duì)各說(shuō)話者(說(shuō)話者A、說(shuō)話者B等)×說(shuō)話者的聲調(diào)(鼻音、普通的聲音、說(shuō)話速度快的人的聲音等),來(lái)生成充分統(tǒng)計(jì)量。選擇模型生成部2關(guān)于由充分統(tǒng)計(jì)量生成部1生成的各充分統(tǒng)計(jì)量,生成對(duì)應(yīng)的選擇模型。聲音遙控器1820包含話筒1821。由話筒1821把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù)。由話筒1821變換的聲音數(shù)據(jù)發(fā)送給數(shù)字TV系統(tǒng)1810。數(shù)字TV系統(tǒng)1810包含硬盤(pán)(HDD)1811、適合模型生成部5、聲音識(shí)別系統(tǒng)300(參照?qǐng)D3)、處理部1812。通過(guò)通信網(wǎng),把由服務(wù)器1800的選擇模型生成部2所生成的選擇模型和由充分統(tǒng)計(jì)量生成部1生成的充分統(tǒng)計(jì)量下載到HDD1811。適合模型生成部5利用來(lái)自聲音遙控器1820的聲音數(shù)據(jù)和存儲(chǔ)在HDD1811中的選擇模型以及充分統(tǒng)計(jì)量來(lái)生成適合模型。聲音識(shí)別系統(tǒng)300使用由適合模型生成部5生成的適合模型,識(shí)別來(lái)自聲音遙控器1820的聲音數(shù)據(jù)。處理部1812按照基于聲音識(shí)別系統(tǒng)300的識(shí)別結(jié)果,進(jìn)行各種處理。在具有以上所述結(jié)構(gòu)的系統(tǒng)中,進(jìn)行以下所述的處理。
使用者對(duì)著聲音遙控器1820的話筒1821發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),發(fā)送給數(shù)字TV系統(tǒng)1810。
適合模型生成部5把來(lái)自聲音遙控器1820的聲音數(shù)據(jù)輸入到HDD1811內(nèi)的選擇模型中,計(jì)算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
·組的選擇方法2(參照?qǐng)D19、圖20)圖19A表示了本例子的顯示系統(tǒng)的結(jié)構(gòu)。本系統(tǒng)具有服務(wù)器1900、數(shù)字TV系統(tǒng)1910和聲音遙控器1920。服務(wù)器1900包含組生成部6、選擇模型生成部2、充分統(tǒng)計(jì)量生成部1、選擇模型存儲(chǔ)部4、充分統(tǒng)計(jì)量存儲(chǔ)部3。如圖19B所示,組生成部6把疊加有雜音的聲音數(shù)據(jù)84按雜音的種類(吸塵器A的聲音、洗衣機(jī)B的聲音等)×SN比(10dB、20dB等)分組。充分統(tǒng)計(jì)量生成部1關(guān)于由組生成部6生成的各組,對(duì)各說(shuō)話者×說(shuō)話者的聲調(diào)(鼻音、普通的聲音、說(shuō)得快時(shí)的聲音),生成充分統(tǒng)計(jì)量。選擇模型生成部2關(guān)于由充分統(tǒng)計(jì)量生成部1生成的各充分統(tǒng)計(jì)量,生成對(duì)應(yīng)的選擇模型。聲音遙控器1820包含話筒1821和存儲(chǔ)器1922。存儲(chǔ)器1922中,把表示雜音的種類的ID(雜音ID)和表示組的ID(組ID)對(duì)應(yīng)存儲(chǔ)。數(shù)字TV系統(tǒng)1910包含適合模型生成部5、聲音識(shí)別系統(tǒng)300(參照?qǐng)D3)、處理部1812。適合模型生成部5利用來(lái)自聲音遙控器1920的聲音數(shù)據(jù)和存儲(chǔ)在服務(wù)器1900的選擇模型存儲(chǔ)部4中的選擇模型以及存儲(chǔ)在充分統(tǒng)計(jì)量存儲(chǔ)部3中的充分統(tǒng)計(jì)量,生成適合模型。在具有以上的結(jié)構(gòu)的系統(tǒng)中,進(jìn)行以下所述的處理。
數(shù)字TV系統(tǒng)1910催促使用者通過(guò)遙控器1920的按鈕操作選擇利用環(huán)境中的雜音的種類。例如,象“1.洗衣機(jī)、2.吸塵器、3.空調(diào)、···”那樣,在畫(huà)面上表示選擇分支。使用者通過(guò)按鈕操作,選擇利用環(huán)境中的雜音的種類。在此為在使用吸塵器的環(huán)境中使用者進(jìn)行按鈕操作。使用者通過(guò)按鈕操作選擇“2.吸塵器”作為雜音的種類。
使用者對(duì)著聲音遙控器1920的話筒1821發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),發(fā)送給數(shù)字TV系統(tǒng)1910。
適合模型生成部5把來(lái)自聲音遙控器1920的聲音數(shù)據(jù)輸入到服務(wù)器1900的選擇模型存儲(chǔ)部4內(nèi)的選擇模型中,計(jì)算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
適合模型生成部5把表示步驟ST3-a中選擇的組的ID(組ID)和表示與該組雜音種類相同的組的ID(組ID)發(fā)送給聲音遙控器1920。把這些組ID與表示步驟ST1-a中選擇的雜音種類的ID(雜音ID)對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器1922中。在此,在步驟ST3-a中選擇了組1(參照?qǐng)D19B)。組1的雜音種類為“吸塵器A的聲音”。雜音種類為“吸塵器A的聲音”的組是組1和組2(參照?qǐng)D19B)。如圖20所示,適合模型生成部5把雜音種類為“吸塵器A的聲音”的組(組1、組2)的組ID向聲音遙控器1920發(fā)送。把這些組ID與表示在步驟ST1-a中選擇的雜音種類“2.吸塵器”的雜音ID對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器1922中(參照?qǐng)D20)。
使用者再次在使用了吸塵器的環(huán)境中進(jìn)行遙控器操作。使用者通過(guò)按鈕操作選擇“2.吸塵器”作為雜音種類。聲音遙控器1920把與選擇的雜音種類“2.吸塵器”對(duì)應(yīng)而存儲(chǔ)在存儲(chǔ)器1922中的組ID(組1、組2的組ID)發(fā)送給數(shù)字TV系統(tǒng)1910(參照?qǐng)D20)。
使用者對(duì)著聲音遙控器1920的話筒1821發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),發(fā)送給數(shù)字TV系統(tǒng)1910。
適合模型生成部5在來(lái)自服務(wù)器1900的選擇模型存儲(chǔ)部4內(nèi)的選擇模型中的來(lái)自聲音遙控器1920的組ID表示的組(組1和組2)的選擇模型中輸入來(lái)自聲音遙控器1920的聲音數(shù)據(jù),計(jì)算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
返返回適應(yīng)處理(ST1-b)。另外,按照需要,返返回(ST1-a)(例如,當(dāng)把吸塵器換成了其他種類的吸塵器時(shí)、在與吸塵器的聲音不同的雜音環(huán)境下利用聲音識(shí)別時(shí)等)<在多種雜音下,多個(gè)說(shuō)話者利用的儀器(例如PDA的操作)>·組的選擇方法1從用通信網(wǎng)連接的服務(wù)器中存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)GPS的位置信息自動(dòng)選擇了雜音種類后,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM)選擇充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
使用GPS的位置信息,自動(dòng)選擇雜音種類(ST1)。(例如如果是站臺(tái),就是電車(chē)內(nèi)的雜音,如果是施工現(xiàn)場(chǎng),就是施工現(xiàn)場(chǎng)的雜音)輸入使用者的聲音(ST2)。
在所選擇的雜音的組中,選擇把使用者的聲音輸入選擇模型中時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的SN比的組。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST4)。
·組的選擇方法2從用通信網(wǎng)連接的服務(wù)器中存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)PDA中的日程表和時(shí)間信息自動(dòng)選擇了雜音種類后,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM)選擇充分統(tǒng)計(jì)量,進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
使用日程表和時(shí)間信息來(lái)自動(dòng)地選擇雜音種類(ST1)。
(例如在日程表中,在10點(diǎn)用電車(chē)移動(dòng),如果現(xiàn)在的時(shí)刻是10點(diǎn)55分,就選擇電車(chē)內(nèi)的雜音。)輸入使用者的聲音(ST2)。
在所選擇的雜音的組中,選擇把使用者的聲音輸入選擇模型中時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的SN比的組(ST3)。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST4)。
<在特定的雜音下利用的儀器(例子汽車(chē)導(dǎo)航系統(tǒng))>
·組的選擇方法(參照?qǐng)D21、圖22)圖21A表示了根據(jù)本例子的信息檢索系統(tǒng)的結(jié)構(gòu)。本系統(tǒng)具有服務(wù)器2100、汽車(chē)導(dǎo)航系統(tǒng)2110。服務(wù)器2100包含組生成部6、選擇模型生成部2、充分統(tǒng)計(jì)量生成部1、選擇模型存儲(chǔ)部4、充分統(tǒng)計(jì)量存儲(chǔ)部3、適合模型生成部5、存儲(chǔ)器2101。如圖21所示,組生成部6把疊加有雜音的聲音數(shù)據(jù)84按雜音的種類(卡羅列的聲音、馬克III的聲音等)×SN比(10dB、20dB等)分組。在存儲(chǔ)器2101中,把用于識(shí)別汽車(chē)導(dǎo)航系統(tǒng)的儀器ID(例如產(chǎn)品編號(hào))和表示組的ID(組ID)對(duì)應(yīng)存儲(chǔ)。汽車(chē)導(dǎo)航系統(tǒng)2110包含話筒2111、數(shù)據(jù)通信模塊2112、聲音識(shí)別系統(tǒng)300(參照?qǐng)D3)、處理部2113。采用了以上結(jié)構(gòu)的系統(tǒng)中,進(jìn)行以下所述的處理。
使用者對(duì)著汽車(chē)導(dǎo)航系統(tǒng)2110的話筒2111發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),通過(guò)數(shù)據(jù)通信模塊2112發(fā)送給服務(wù)器2100。另外,數(shù)據(jù)通信模塊2112把表示汽車(chē)導(dǎo)航系統(tǒng)2110的產(chǎn)品編號(hào)“100”的數(shù)據(jù)(儀器ID)發(fā)送給服務(wù)器2100。
選擇模型生成部5把來(lái)自汽車(chē)導(dǎo)航系統(tǒng)2110的聲音數(shù)據(jù)輸入選擇模型存儲(chǔ)部4內(nèi)的選擇模型中,算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
適合模型生成部5把表示在步驟ST2-a中選擇的組的ID(組ID)、表示與該組雜音種類相同的組的ID(組ID)與來(lái)自汽車(chē)導(dǎo)航系統(tǒng)2110的產(chǎn)品編碼“100”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2101中。在此,在步驟ST2-a中選擇了組1(參照?qǐng)D21B)。組1的雜音的種類為“卡羅列的聲音”。雜音種類為“卡羅列的聲音”的組為組1和組2(參照?qǐng)D21B)。如圖22所示,適合模型生成部5把雜音種類為“卡羅列的聲音”的組(組1和組2)的組ID與產(chǎn)品編碼“100”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2101中。
使用者再次對(duì)著汽車(chē)導(dǎo)航系統(tǒng)2110的話筒2111發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),通過(guò)數(shù)據(jù)通信模塊2112發(fā)送給服務(wù)器2100。另外,數(shù)據(jù)通信模塊2112把表示汽車(chē)導(dǎo)航系統(tǒng)2110的產(chǎn)品編號(hào)“100”的數(shù)據(jù)(儀器ID)發(fā)送給服務(wù)器2100。
選擇模型生成部5在選擇模型存儲(chǔ)部4內(nèi)的選擇模型中的與來(lái)自汽車(chē)導(dǎo)航系統(tǒng)2110的產(chǎn)品編號(hào)“100”對(duì)應(yīng)而存儲(chǔ)在存儲(chǔ)器2101中的組ID表示的組(組1和組2)的選擇模型中,輸入來(lái)自汽車(chē)導(dǎo)航系統(tǒng)2110的聲音數(shù)據(jù),算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
返返回適應(yīng)處理(ST1-b)。另外,按照需要,返返回(ST1-a)(例如,當(dāng)把汽車(chē)導(dǎo)航系統(tǒng)2110安裝到其他種類的車(chē)(例如馬克III)上時(shí))。
對(duì)雜音的種類×SN比×接近的說(shuō)話者,生成組。在組內(nèi),在接近的說(shuō)話者中,存儲(chǔ)對(duì)聲調(diào)的各變化(鼻音、說(shuō)得快時(shí)的聲音、回聲等)的充分統(tǒng)計(jì)量。
<多種雜音下,多個(gè)說(shuō)話者利用的儀器(例電視的操作)>
·組的選擇方法1(參照?qǐng)D23、圖24)圖23A表示了基于本例子的系統(tǒng)的結(jié)構(gòu)。本系統(tǒng)具有服務(wù)器2300、數(shù)字TV系統(tǒng)2310、聲音遙控器2320。服務(wù)器1800包含組生成部6、選擇模型生成部2、充分統(tǒng)計(jì)量生成部1、選擇模型存儲(chǔ)部4、充分統(tǒng)計(jì)量存儲(chǔ)部3、適合模型生成部5、存儲(chǔ)器2301。如圖23B所示,組生成部6把疊加有雜音的聲音數(shù)據(jù)84按雜音的種類(吸塵器的聲音、空調(diào)的聲音等)×SN比(10dB、20dB等)分組。存儲(chǔ)器2301中,把用于識(shí)別使用者的ID(使用者ID)和表示組的ID(組ID)對(duì)應(yīng)存儲(chǔ)。數(shù)字TV系統(tǒng)2310包含數(shù)據(jù)通信模塊2312、聲音識(shí)別系統(tǒng)300(參照?qǐng)D3)、處理部1812。聲音遙控器2320包含話筒1821。在采用了以上所述結(jié)構(gòu)的系統(tǒng)中,進(jìn)行以下所述的處理。
使用者對(duì)著聲音遙控器2320的話筒1821發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),發(fā)送給數(shù)字TV系統(tǒng)2310。另外,使用者通過(guò)聲音遙控器2320的按鈕操作,輸入用于識(shí)別姓名和密碼的信息(使用者ID)。輸入的使用者ID(在此為“100”)發(fā)送給數(shù)字TV系統(tǒng)2310。來(lái)自聲音遙控器2320的聲音數(shù)據(jù)和使用者ID“100”由數(shù)據(jù)通信模塊2112發(fā)送給服務(wù)器2300。
適合模型生成部5把來(lái)自數(shù)字TV系統(tǒng)2310的聲音數(shù)據(jù)輸入到選擇模型存儲(chǔ)部4內(nèi)的選擇模型中,計(jì)算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
適合模型生成部5把表示在步驟ST2-a中選擇的組的ID(組ID)、表示與該組接近的說(shuō)話者為相同的組的ID(組ID)與來(lái)自數(shù)字TV系統(tǒng)2310的使用者ID“100”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2301中。在此,在步驟ST2-a中選擇了組2(參照?qǐng)D23B)。接近組2的說(shuō)話者為“說(shuō)話者C、D”。接近的說(shuō)話者為“說(shuō)話者C、D”的組是組2、組(K-1)和組K(參照?qǐng)D23B)。如圖24所示,把接近的說(shuō)話者為“說(shuō)話者C、D”的組(組2、組(K-1)和組K)的組ID與使用者ID“100”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2301中。
使用者再次對(duì)著聲音遙控器2320的話筒1821發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),發(fā)送給數(shù)字TV系統(tǒng)2310。另外,使用者通過(guò)聲音遙控器2320的按鈕操作,輸入使用者ID“100”。輸入的使用者ID“100”發(fā)送給數(shù)字TV系統(tǒng)2310。來(lái)自聲音遙控器2320的聲音數(shù)據(jù)和使用者ID“100”由數(shù)據(jù)通信模塊2312發(fā)送給服務(wù)器2300。
適合模型生成部5在選擇模型存儲(chǔ)部4內(nèi)的選擇模型中的與來(lái)自數(shù)字TV系統(tǒng)2310的使用者ID“100”對(duì)應(yīng)而存儲(chǔ)在存儲(chǔ)器2301中的組ID表示的組(組2、組(K-1)、組K)的選擇模型中,輸入來(lái)自數(shù)字TV系統(tǒng)2310的聲音數(shù)據(jù),計(jì)算出似然(參照?qǐng)D24)。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
返返回適應(yīng)處理(ST1-b)。另外,按照需要,返返回(ST1-a)(例如,當(dāng)使用者改變了時(shí)等)<特定的說(shuō)話者利用的儀器(例如移動(dòng)電路的操作)>
·組的選擇方法(參照?qǐng)D25、圖26)圖25A表示本例子的系統(tǒng)的結(jié)構(gòu)。本系統(tǒng)具有服務(wù)器2500、移動(dòng)電話2510。服務(wù)器2500包含組生成部6、選擇模型生成部2、充分統(tǒng)計(jì)量生成部1、選擇模型存儲(chǔ)部4、充分統(tǒng)計(jì)量存儲(chǔ)部3、適合模型生成部5、存儲(chǔ)器2501、聲音識(shí)別系統(tǒng)300。如圖25所示,組生成部6把疊加有雜音的聲音數(shù)據(jù)84按雜音的種類(電車(chē)的聲音、公共汽車(chē)的聲音等)×SN比(10dB、20dB等)×接近的說(shuō)話者分組。在存儲(chǔ)器2501中,把用于識(shí)別移動(dòng)電話的儀器ID(例如產(chǎn)品編號(hào))和表示組的ID(組ID)對(duì)應(yīng)存儲(chǔ)。把基于聲音識(shí)別系統(tǒng)300的識(shí)別結(jié)果通過(guò)通信網(wǎng)發(fā)送給移動(dòng)電話2510。移動(dòng)電話2510包含話筒2511、數(shù)據(jù)通信模塊、處理部2513。采用了以上的結(jié)構(gòu)的系統(tǒng)中,進(jìn)行以下所述的處理。
使用者對(duì)著移動(dòng)電話2510的話筒2511發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),通過(guò)數(shù)據(jù)通信模塊2512發(fā)送給服務(wù)器2500。另外,數(shù)據(jù)通信模塊2512把表示移動(dòng)電話2510的產(chǎn)品編號(hào)“200”的數(shù)據(jù)(儀器ID)發(fā)送給服務(wù)器2500。
選擇模型生成部5把來(lái)移動(dòng)電話2510的聲音數(shù)據(jù)輸入選擇模型存儲(chǔ)部4內(nèi)的選擇模型中,算出似然。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
適合模型生成部5把表示在步驟ST2-a中選擇的組的ID(組ID)、表示與該組接近的說(shuō)話者為相同的組的ID(組ID)與來(lái)自移動(dòng)電話2510的使用者ID“200”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2501中。在此,在步驟ST2-a中選擇了組2(參照?qǐng)D25B)。組2的接近的說(shuō)話者為“說(shuō)話者C、D”。接近的說(shuō)話者為“說(shuō)話者C、D”的組是組2、組(K-1)和組K(參照?qǐng)D25B)。如圖26所示,把接近的說(shuō)話者為“說(shuō)話者C、D”的組(組2、組(K-1)和組K)的組ID與使用者ID“200”對(duì)應(yīng),存儲(chǔ)在存儲(chǔ)器2501中。
使用者再次對(duì)著移動(dòng)電話2510的話筒2511發(fā)聲。把使用者發(fā)出的聲音變換為給定的聲音數(shù)據(jù),通過(guò)數(shù)據(jù)通信模塊發(fā)送給服務(wù)器2500。另外,數(shù)據(jù)通信模塊把表示移動(dòng)電話2510的產(chǎn)品編號(hào)“200”的數(shù)據(jù)(儀器ID)發(fā)送給服務(wù)器2500。
適合模型生成部5在選擇模型存儲(chǔ)部4內(nèi)的選擇模型中的與來(lái)自移動(dòng)電話2510的產(chǎn)品編號(hào)“200”對(duì)應(yīng)而存儲(chǔ)在存儲(chǔ)器2501中的組ID表示的組(組2、組(K-1)、組K)的選擇模型中,輸入來(lái)自移動(dòng)電話2510的聲音數(shù)據(jù),計(jì)算出似然(參照?qǐng)D26)。適合模型生成部5從算出的似然中的大的中選擇N個(gè)。適合模型生成部5從這N個(gè)所屬的組中選擇所屬的選擇模型數(shù)最多的組。
適合模型生成部5在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量。適合模型生成部5使用選擇的M個(gè)充分統(tǒng)計(jì)量生成適合模型。
返返回適應(yīng)處理(ST1-b)。另外,按照需要,返返回(ST1-a)(例如,當(dāng)使用者改變了時(shí)等)[組的生成方法3]對(duì)接近的各說(shuō)話者,生成組,在組內(nèi)存儲(chǔ)雜音種類×SN比的充分統(tǒng)計(jì)量。
<多種雜音下,多個(gè)說(shuō)話者利用的儀器(例如電視的操作>
組的選擇方法(參照?qǐng)D27、圖28)從家庭內(nèi)的機(jī)頂盒或用通信網(wǎng)連接的家庭外的服務(wù)器上存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM)選擇充分統(tǒng)計(jì)量,進(jìn)行適應(yīng)。此時(shí),把選擇的組和使用者的說(shuō)話者ID(姓名和密碼等)對(duì)應(yīng)。當(dāng)進(jìn)行適應(yīng)時(shí),輸入說(shuō)話者ID,選擇組來(lái)進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
輸入使用者的聲音(ST1-a)。
選擇把使用者的聲音輸入選擇模型時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的說(shuō)話者的組(ST2-a)。
在選擇的組中,選擇(從各種雜音種類、SN比中)似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST3-a)。
把選擇的組和說(shuō)話者ID對(duì)應(yīng)(存儲(chǔ)對(duì)應(yīng)關(guān)系)(ST4-a)。
輸入說(shuō)話者ID,選擇組(ST1-b)。
輸入使用者的聲音(ST2-b)。
在選擇的組(接近使用者的組)中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST3-b)。
按照各適應(yīng)處理,返回(ST1-b)。另外,根據(jù)需要,返回(ST1-a)。
<特定的說(shuō)話者利用的儀器(例如移動(dòng)電路的操作)>
·組的選擇方法從用通信網(wǎng)連接的家庭外的服務(wù)器中存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM)選擇充分統(tǒng)計(jì)量,進(jìn)行適應(yīng)。此時(shí),把選擇的組合利用的儀器ID對(duì)應(yīng)。在適應(yīng)時(shí),根據(jù)儀器ID自動(dòng)地選擇組,進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
輸入使用者的聲音(ST1-a)。
選擇把使用者的聲音輸入選擇模型時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的說(shuō)話者的組(ST2-a)。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST3-a)。
把選擇的組和儀器ID對(duì)應(yīng)(存儲(chǔ)對(duì)應(yīng)關(guān)系)(ST4-a)。
輸入使用者的聲音(ST1-b)。
根據(jù)儀器ID自動(dòng)選擇組(ST2-b)。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST2-b)。
按照各適應(yīng)處理,返回(ST1-b)。另外,根據(jù)需要,返回(ST1-a)(例如,使用者改變的時(shí)候)。
在特定的雜音種類中,針對(duì)各SN比來(lái)生成組,并在組內(nèi)存儲(chǔ)各說(shuō)話者的充分統(tǒng)計(jì)量。
<在特定的雜音下利用的儀器(例如電梯的操作)>
·組的選擇方法從安裝在電梯上的服務(wù)器中存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM),選擇充分統(tǒng)計(jì)量進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
輸入使用者的聲音(ST1)。
選擇把使用者的聲音輸入選擇模型時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的SN比的組(ST2)。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST3)。
在特定的說(shuō)話者中,對(duì)于各SN比生成組,在組內(nèi)存儲(chǔ)特定的說(shuō)話者的聲調(diào)的各變化(鼻音、普通的聲音、說(shuō)得快時(shí)的聲音)的充分統(tǒng)計(jì)量。<關(guān)于特定的說(shuō)話者在雜音下利用的儀器(例如汽車(chē)導(dǎo)航系統(tǒng))>
·組的選擇方法安裝在車(chē)內(nèi)的服務(wù)器(汽車(chē)導(dǎo)航系統(tǒng))中存儲(chǔ)的充分統(tǒng)計(jì)量,根據(jù)附加了雜音的使用者的聲音,使用選擇模型(GMM),選擇充分統(tǒng)計(jì)量進(jìn)行適應(yīng)。具體地說(shuō),進(jìn)行以下所述的處理。
輸入使用者的聲音(ST1)。
選擇把使用者的聲音輸入選擇模型時(shí)的似然大的N個(gè),選擇其中個(gè)數(shù)最多的SN比的組(ST2)。
在選擇的組中,選擇似然大的M個(gè)充分統(tǒng)計(jì)量來(lái)進(jìn)行適應(yīng)(ST3)。
須指出的是,可以對(duì)各組生成組選擇模型,選擇組(例如當(dāng)對(duì)各雜音種類生成組時(shí),雜音選擇模型成為組選擇模型,當(dāng)用GMM生成時(shí),把雜音輸入雜音選擇模型中,選擇似然最大的組。)。
(實(shí)施例2)<適合模型生成裝置的結(jié)構(gòu)>
圖29是表示了實(shí)施例2的聲音處理用適合模型生成裝置的整體結(jié)構(gòu)的框圖。圖29所示的裝置具有選擇模型生成部21、選擇模型存儲(chǔ)部41、充分統(tǒng)計(jì)量生成部11、適合模型生成部51。選擇模型生成部21生成用于選擇接近使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的選擇模型75。選擇模型存儲(chǔ)部41存儲(chǔ)選擇模型生成部21生成的選擇模型75。充分統(tǒng)計(jì)量生成部11使用選擇模型存儲(chǔ)部41存儲(chǔ)的選擇模型75,從聲音數(shù)據(jù)83中選擇接近使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù),使用在選擇的聲音數(shù)據(jù)中疊加有雜音的聲音數(shù)據(jù)生成充分統(tǒng)計(jì)量72。適合模型生成部51使用充分統(tǒng)計(jì)量生成部11生成的充分統(tǒng)計(jì)量72,生成適合模型74。
<適合模型的生成處理>
下面,說(shuō)明采用了以上結(jié)構(gòu)的裝置的聲音識(shí)別用的適合模型的生成處理。
首先,描述選擇模型75的生成方法。在此,說(shuō)明在使用者要求獲得適合模型之前,脫機(jī)進(jìn)行選擇模型75的生成時(shí)的情形。
在安靜的環(huán)境中,收錄多個(gè)說(shuō)話者的聲音數(shù)據(jù)83。在此,收錄約300人的聲音數(shù)據(jù)。
選擇模型生成部21使用聲音數(shù)據(jù)83,對(duì)各說(shuō)話者,不區(qū)別音韻,根據(jù)1狀態(tài)64混合的高斯混合模型(GMM),生成選擇模型75。
如圖30所示,作為一個(gè)例子,使用聲音數(shù)據(jù)83的功率大的幀,生成選擇模型75。如果使用該方法,就能生成抗雜音的聲音數(shù)據(jù)選擇模型。
選擇模型存儲(chǔ)部41存儲(chǔ)選擇模型生成部21生成的選擇模型75。圖30表示了存儲(chǔ)在選擇模型存儲(chǔ)部41中的選擇模型75的一個(gè)例子。
下面,就充分統(tǒng)計(jì)量72的生成方法加以描述。
使用者要求適合模型74的生成。
使用者利用聲音識(shí)別用的話筒,把利用聲音識(shí)別的環(huán)境的雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部11中。
另外,使用者利用聲音識(shí)別用的話筒,把利用聲音識(shí)別的環(huán)境下的聲音數(shù)據(jù)81輸入充分統(tǒng)計(jì)量生成部11中。在聲音數(shù)據(jù)81中疊加了利用聲音識(shí)別的環(huán)境的雜音。
接著,充分統(tǒng)計(jì)量生成部11把聲音數(shù)據(jù)81輸入到選擇模型存儲(chǔ)部41存儲(chǔ)的選擇模型75中,計(jì)算似然。在此,把聲音數(shù)據(jù)81的功率大的幀部分輸入到圖30所示的選擇模型75中,計(jì)算似然。然后,選擇似然大的前L人(例如前20人)的說(shuō)話者,作為接近使用者的聲音數(shù)據(jù)的說(shuō)話者。
充分統(tǒng)計(jì)量生成部11從安靜的環(huán)境中的聲音數(shù)據(jù)83中,在接近使用者的聲音數(shù)據(jù)的說(shuō)話者的聲音數(shù)據(jù)上疊加雜音數(shù)據(jù)85,生成雜音疊加聲音數(shù)據(jù)86。此時(shí)根據(jù)聲音數(shù)據(jù)81和雜音數(shù)據(jù)85計(jì)算SN比,以計(jì)算的SN比生成雜音疊加聲音數(shù)據(jù)86。圖31表示了雜音疊加聲音數(shù)據(jù)86的一個(gè)例子。
充分統(tǒng)計(jì)量生成部11使用雜音疊加聲音數(shù)據(jù)86生成充分統(tǒng)計(jì)量72。圖32表示了充分統(tǒng)計(jì)量生成部11生成的充分統(tǒng)計(jì)量72的一個(gè)例子。
下面,說(shuō)明適合模型生成部51的適合模型74的生成處理。
適合模型生成部51使用充分統(tǒng)計(jì)量生成部11生成的充分統(tǒng)計(jì)量72生成適合模型74。具體地說(shuō),通過(guò)以下的統(tǒng)計(jì)計(jì)算處理(表達(dá)式7~表達(dá)式9)生成適合模型74。適合模型74的HMM的各狀態(tài)的正態(tài)分布的平均、分散分別為μiadp(i=1、2···、Nmix)、viadp(i=1、2···、Nmix)。Nmix是混合分布數(shù)。另外,狀態(tài)轉(zhuǎn)變概率為aadp[i][j](i、j=1、2···、Nstate)。Nstate是狀態(tài)數(shù),aadp[i][j]表示從狀態(tài)i向狀態(tài)j的轉(zhuǎn)變概率。
μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...,Nmix)]]>[表達(dá)式8]viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...,Nmix)]]>[表達(dá)式9]aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...,Nstate)]]>在此,Nsel是選擇的聲音模型的數(shù),μij(i=1、2···、Nmix,j=1、2、···Nsel)、vij(i=1、2···、Nmix,j=1、2、···Nsel)是各HMM的平均、分散。Cmixj(j=1、2、···Nsel)、Cstatek[i][j](k=1、2、···Nsel,i、j=1、2、···Nstate)分別是正態(tài)分布的EM計(jì)數(shù)(頻數(shù))、關(guān)于狀態(tài)轉(zhuǎn)變的EM計(jì)數(shù)。
適合模型生成部51準(zhǔn)備使用者的下一個(gè)生成適合模型的要求。
<效果>
如以上所述,因?yàn)樵趯?shí)施例2中,使用疊加了利用環(huán)境的雜音數(shù)據(jù)85的聲音數(shù)據(jù)86生成充分統(tǒng)計(jì)量72,生成適合模型74,所以能生成適應(yīng)利用環(huán)境的適合模型74。因此,能在各種雜音環(huán)境下利用適合模型。
另外,使用在聲音上接近使用者的說(shuō)話者的聲音數(shù)據(jù)中疊加有雜音的聲音數(shù)據(jù)86,生成充分統(tǒng)計(jì)量72,所以瞬間就能生成充分統(tǒng)計(jì)量72,生成適合模型74。因此,利用環(huán)境做各種變化時(shí),能立刻利用適合模型。
須指出的是,可以在使用者要求獲得適合模型之前,脫線地把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部11中,脫線地生成充分統(tǒng)計(jì)量72。
把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部11中的定時(shí)可以由充分統(tǒng)計(jì)量生成部11自動(dòng)決定。
生成適合模型74的定時(shí)可以是適合模型生成部51自動(dòng)地決定。
選擇模型75并不局限于高斯混合模型(Gaussian Mixture Model)。
可以把與HMM的各狀態(tài)對(duì)應(yīng)的標(biāo)簽存儲(chǔ)在數(shù)據(jù)庫(kù)中,使用存儲(chǔ)的標(biāo)簽信息,生成雜音疊加聲音數(shù)據(jù)86的充分統(tǒng)計(jì)量72。
<具體的商品形象>
圖33表示了把實(shí)施例2的適合模型生成裝置應(yīng)用于實(shí)際的產(chǎn)品中的形象。該系統(tǒng)由輸入聲音的便攜式終端(PDA)、生成適合模型并且進(jìn)行識(shí)別的服務(wù)器構(gòu)成。使用者向服務(wù)中心(服務(wù)器)打電話,按照來(lái)自中心的語(yǔ)音指南,通過(guò)語(yǔ)音發(fā)送指示。在服務(wù)中心(服務(wù)器)一側(cè),接收使用者的聲音和雜音,通過(guò)以上所述的方法生成適合模型。使用生成的適合模型識(shí)別使用者的聲音,把指南(識(shí)別結(jié)果)發(fā)送給PDA。
(實(shí)施例3)<聲音識(shí)別用的適合模型生成裝置的結(jié)構(gòu)>
圖34是表示實(shí)施例3的適合模型生成裝置的整體結(jié)構(gòu)的框圖。圖34所示的裝置具有選擇模型生成部1507、選擇模型存儲(chǔ)部1508、充分統(tǒng)計(jì)量生成部1506、適合模型生成部51、標(biāo)簽信息生成部1501、標(biāo)簽信息存儲(chǔ)部1502、存儲(chǔ)器1512。選擇模型生成部1507生成用于選擇接近使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的選擇模型1510。選擇模型存儲(chǔ)部1508存儲(chǔ)選擇模型生成部1507生成的選擇模型1510。標(biāo)簽信息生成部1501使用把預(yù)測(cè)為利用環(huán)境的雜音的雜音數(shù)據(jù)以預(yù)測(cè)的SN比疊加到安靜的環(huán)境中的聲音數(shù)據(jù)83上而得到的聲音數(shù)據(jù)1505,生成標(biāo)簽信息1504。標(biāo)簽信息存儲(chǔ)部1502存儲(chǔ)標(biāo)簽信息生成部1501生成的標(biāo)簽信息1504。充分統(tǒng)計(jì)量生成部1506使用選擇模型存儲(chǔ)部1508存儲(chǔ)的選擇模型1510和存儲(chǔ)器1512中存儲(chǔ)的安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513,從聲音數(shù)據(jù)83中選擇在聲音上接近使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù),使用在選擇的聲音數(shù)據(jù)中疊加了雜音數(shù)據(jù)85的聲音數(shù)據(jù)和標(biāo)簽信息存儲(chǔ)部1502存儲(chǔ)的標(biāo)簽信息1504,生成充分統(tǒng)計(jì)量1509。適合模型生成部51使用充分統(tǒng)計(jì)量生成部1506生成的充分統(tǒng)計(jì)量1509,生成適合模型1511。
<適合模型生成裝置的動(dòng)作>
下面,說(shuō)明采用以上的結(jié)構(gòu)的適合模型生成裝置的動(dòng)作。
首先,就選擇模型1510的生成方法加以說(shuō)明。在此,說(shuō)明在使用者要求獲得適合模型之前,脫線地進(jìn)行選擇模型1510的生成時(shí)的情形。
在安靜的環(huán)境中,收錄多個(gè)說(shuō)話者的聲音數(shù)據(jù)83。在此,收錄約300人的聲音數(shù)據(jù)。
如圖35所示,選擇模型生成部1507使用聲音數(shù)據(jù)83,對(duì)各說(shuō)話者,不區(qū)別音韻,根據(jù)1狀態(tài)64混合的高斯混合模型(Gaussian MixtureModel),生成選擇模型1510。
選擇模型存儲(chǔ)部1508存儲(chǔ)選擇模型生成部1507生成的選擇模型1510。
下面,說(shuō)明標(biāo)簽信息1504和關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514的生成方法。在此,說(shuō)明在使用者要求獲得適合模型之前,脫線地進(jìn)行標(biāo)簽信息1504和關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514的生成時(shí)的情形。作為一個(gè)例子,使用圖36、圖37、圖38說(shuō)明在車(chē)內(nèi)利用聲音識(shí)別時(shí)的情形。在此,考慮汽車(chē)導(dǎo)航系統(tǒng)的聲音識(shí)別。
如圖36所示,在安靜環(huán)境中的聲音數(shù)據(jù)83上疊加預(yù)測(cè)為利用環(huán)境的雜音數(shù)據(jù)(一般的車(chē)種A的車(chē)內(nèi)雜音數(shù)據(jù))1601,生成車(chē)內(nèi)雜音10dB下的聲音數(shù)據(jù)1602。在此,車(chē)種A的車(chē)內(nèi)雜音數(shù)據(jù)1601利用事先用車(chē)種A在市內(nèi)行駛時(shí)收錄的雜音。接著,使用生成的聲音數(shù)據(jù)1602,根據(jù)EM算法計(jì)算車(chē)內(nèi)雜音10dB的充分統(tǒng)計(jì)量1603。在此,對(duì)各音韻,使用HMM生成不特定的說(shuō)話者的充分統(tǒng)計(jì)量。在此,關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514是各音韻的HMM的狀態(tài)轉(zhuǎn)變概率。接著,如圖37所示,車(chē)內(nèi)雜音10dB的雜音疊加聲音數(shù)據(jù)1602對(duì)各聲音數(shù)據(jù)(某說(shuō)話者的某發(fā)聲數(shù)據(jù)),輸入到車(chē)內(nèi)雜音10dB的充分統(tǒng)計(jì)量1603中,使用bitabi算法,對(duì)各聲音數(shù)據(jù)(某說(shuō)話者的某發(fā)聲數(shù)據(jù))生成標(biāo)簽信息1504。圖38表示了標(biāo)簽信息1504的一個(gè)例子。在此,與幀編號(hào)對(duì)應(yīng)的音韻名和HMM的狀態(tài)編號(hào)為標(biāo)簽信息1504。
標(biāo)簽信息存儲(chǔ)部1502存儲(chǔ)標(biāo)簽信息1504和關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514。
下面,說(shuō)明充分統(tǒng)計(jì)量1509的生成方法。
使用者預(yù)先把安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513存儲(chǔ)在存儲(chǔ)器1512中。
使用者要求適合模型生成適合模型1511。
充分統(tǒng)計(jì)量生成部1506接收存儲(chǔ)在存儲(chǔ)器1512中的安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513。另外,充分統(tǒng)計(jì)量生成部1506接收利用聲音識(shí)別的環(huán)境中的雜音數(shù)據(jù)85。
充分統(tǒng)計(jì)量生成部1506把安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513輸入到存儲(chǔ)在選擇模型存儲(chǔ)部1508中的選擇模型1510中,計(jì)算似然。然后,選擇似然大的前L人(例如前40人)的說(shuō)話者,作為接近使用者的聲音數(shù)據(jù)的說(shuō)話者。
充分統(tǒng)計(jì)量生成部1506從安靜環(huán)境中的聲音數(shù)據(jù)83中,在接近使用者的聲音數(shù)據(jù)的說(shuō)話者的聲音數(shù)據(jù)中疊加雜音數(shù)據(jù)85,生成雜音疊加聲音數(shù)據(jù)86。圖31表示了雜音疊加聲音數(shù)據(jù)86的生成方法的一個(gè)例子。
充分統(tǒng)計(jì)量生成部1506使用雜音疊加聲音數(shù)據(jù)86和存儲(chǔ)在標(biāo)簽信息存儲(chǔ)部1502中的標(biāo)簽信息1504和關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514,生成充分統(tǒng)計(jì)量1509。如圖39所示,把與雜音疊加聲音數(shù)據(jù)86對(duì)應(yīng)的音韻名和HMM的狀態(tài)編號(hào)與標(biāo)簽信息1504中所記載的雜音疊加聲音數(shù)據(jù)1505的音韻名和HMM的狀態(tài)編號(hào)視為相同。同樣,各音韻的HMM的狀態(tài)轉(zhuǎn)變概率也視為相同。即不進(jìn)行關(guān)于HMM的狀態(tài)編號(hào)、狀態(tài)轉(zhuǎn)變概率的計(jì)算處理。然后,在HMM的相同狀態(tài)中,進(jìn)行平均值、分散、混合加權(quán)等的充分統(tǒng)計(jì)量的計(jì)算。
下面,說(shuō)明在適合模型生成部51中生成適合模型1511的方法。
適合模型生成部51使用充分統(tǒng)計(jì)量生成部1506生成的充分統(tǒng)計(jì)量1509生成適合模型1511。具體地說(shuō),通過(guò)以下的統(tǒng)計(jì)計(jì)算處理(表達(dá)式10~表達(dá)式12)生成適合模型1511。適合模型1511的HMM的各狀態(tài)的正態(tài)分布的平均、分散分別為μiadp(i=1、2···、Nmix)、viadp(i=1、2···、Nmix)。Nmix是混合分布數(shù)。另外,狀態(tài)轉(zhuǎn)變概率為aadp[i][j](i、j=1、2···、Nstate)。Nstate是狀態(tài)數(shù),aaap[i][j]表示從狀態(tài)i向狀態(tài)j的轉(zhuǎn)變概率。
μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...,Nmix)]]>[表達(dá)式11]viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...,Nmix)]]>[表達(dá)式12]aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...,Nstate)]]>在此,Nsel是選擇的聲音模型的數(shù),μij(i=1、2···、Nmix,j=1、2、···Nsel)、vij(i=1、2···、Nmix,j=1、2、···Nsel)是各HMM的平均、分散。Cmixj(j=1、2、···Nsel)、Cstatek[i][j](k=1、2、···Nsel,i、j=1、2、···Nstate)分別是正態(tài)分布的EM計(jì)數(shù)(頻數(shù))、關(guān)于狀態(tài)轉(zhuǎn)變的EM計(jì)數(shù)。
適合模型生成部51準(zhǔn)備使用者的下一個(gè)生成適合模型的要求。
<效果>
如以上所說(shuō)明的那樣,在實(shí)施例3中,因?yàn)槭褂脴?biāo)簽信息1504來(lái)計(jì)算充分統(tǒng)計(jì)量1509,所以能在短時(shí)間內(nèi)生成充分統(tǒng)計(jì)量1509,能在短時(shí)間內(nèi)生成適合模型1511。因此,能在利用環(huán)境做各種變化時(shí),立刻利用適合模型。
另外,使用接近利用環(huán)境雜音疊加聲音數(shù)據(jù)1505,生成標(biāo)簽信息1504,所以能在短時(shí)間內(nèi)生成精度高的充分統(tǒng)計(jì)量1509。因此,利用環(huán)境做各種變化時(shí),能立刻利用更高精度的適合模型。
另外,因?yàn)槭褂脴?biāo)簽信息1504和關(guān)于音韻模型的狀態(tài)轉(zhuǎn)變的信息1514,計(jì)算充分統(tǒng)計(jì)量1509,所以能在更短時(shí)間內(nèi)生成充分統(tǒng)計(jì)量1509,能在短時(shí)間內(nèi)生成適合模型1511。因此,能在利用環(huán)境做各種變化時(shí),立刻利用適合模型。
須指出的是,也可以在使用者要求獲得適合模型之前,脫線地把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部1506中,脫線地生成充分統(tǒng)計(jì)量1509。
把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部1506中的定時(shí)可以由充分統(tǒng)計(jì)量生成部1506自動(dòng)決定。
生成適合模型1511的定時(shí)可以是適合模型生成部51自動(dòng)地決定。
選擇模型1510并不局限于高斯混合模型(GMM)。
存儲(chǔ)器1512中存儲(chǔ)的聲音數(shù)據(jù)1513可以重疊利用環(huán)境或預(yù)測(cè)為利用環(huán)境的環(huán)境的雜音。
可以使用雜音數(shù)據(jù)85作為預(yù)測(cè)雜音數(shù)據(jù)1503。
(實(shí)施例4)<聲音識(shí)別用的適合模型生成裝置的結(jié)構(gòu)>
圖40是表示實(shí)施例4的適合模型生成裝置的整體結(jié)構(gòu)的框圖。圖40所示的適合模型生成裝置具有選擇模型生成部1507、選擇模型存儲(chǔ)部1508、充分統(tǒng)計(jì)量生成部2107、適合模型生成部51、標(biāo)簽信息生成部2104、標(biāo)簽信息存儲(chǔ)部2106、標(biāo)簽信息選擇模型生成部2101、標(biāo)簽信息選擇模型存儲(chǔ)部2102、存儲(chǔ)器1512。選擇模型生成部1507生成用于選擇接近使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的選擇模型1510。選擇模型存儲(chǔ)部1508存儲(chǔ)選擇模型生成部1507生成的選擇模型1510。標(biāo)簽信息生成部2104使用把預(yù)測(cè)為利用環(huán)境的雜音的預(yù)測(cè)雜音數(shù)據(jù)1503以預(yù)測(cè)的SN比疊加到安靜的環(huán)境中的聲音數(shù)據(jù)83上而得到的雜音疊加聲音數(shù)據(jù),生成兩種以上的標(biāo)簽信息2105。標(biāo)簽信息存儲(chǔ)部2106存儲(chǔ)標(biāo)簽信息生成部2104生成的兩種以上的標(biāo)簽信息2105。標(biāo)簽信息選擇模型生成部2101使用預(yù)測(cè)為利用環(huán)境的雜音的雜音數(shù)據(jù)1503,生成標(biāo)簽信息選擇模型2103。標(biāo)簽信息選擇模型存儲(chǔ)部2102存儲(chǔ)標(biāo)簽信息選擇模型生成部2101生成的標(biāo)簽信息選擇模型2103。充分統(tǒng)計(jì)量生成部2107使用選擇模型存儲(chǔ)部1508存儲(chǔ)的選擇模型1510和存儲(chǔ)器1512中存儲(chǔ)的安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513,從聲音數(shù)據(jù)83中選擇接近使用者的聲音數(shù)據(jù)。另外,充分統(tǒng)計(jì)量生成部2107使用標(biāo)簽信息選擇模型存儲(chǔ)部2102存儲(chǔ)的標(biāo)簽信息選擇模型2103和利用環(huán)境的雜音數(shù)據(jù)85,從存儲(chǔ)在標(biāo)簽信息存儲(chǔ)部2106中的標(biāo)簽信息2105中,選擇適合于利用環(huán)境的標(biāo)簽信息。然后,充分統(tǒng)計(jì)量生成部2107使用在選擇的聲音數(shù)據(jù)中疊加了雜音數(shù)據(jù)85的聲音數(shù)據(jù)和選擇的適合于利用環(huán)境的標(biāo)簽信息2105,生成充分統(tǒng)計(jì)量2108。適合模型生成部51使用充分統(tǒng)計(jì)量生成部2107生成的充分統(tǒng)計(jì)量2108,生成適合模型2109。
<適合模型生成裝置的動(dòng)作>
下面,說(shuō)明采用以上的結(jié)構(gòu)的適合模型生成裝置的動(dòng)作。
首先,就選擇模型1510的生成方法加以說(shuō)明。在此,說(shuō)明在使用者要求獲得適合模型之前,脫線地進(jìn)行選擇模型1510的生成時(shí)的情形。
在安靜的環(huán)境中,收錄多個(gè)說(shuō)話者的聲音數(shù)據(jù)83。在此,收錄約300人的聲音數(shù)據(jù)。
如圖35所示,選擇模型生成部1507使用聲音數(shù)據(jù)83,對(duì)各說(shuō)話者,不區(qū)別音韻,根據(jù)1狀態(tài)64混合的高斯混合模型(Gaussian MixtureModel),生成選擇模型1510。
選擇模型存儲(chǔ)部1508存儲(chǔ)選擇模型生成部1507生成的選擇模型1510。
下面,說(shuō)明標(biāo)簽信息2105的生成方法。在此,說(shuō)明在使用者要求獲得適合模型之前,脫線地進(jìn)行標(biāo)簽信息2105的生成時(shí)的情形。作為一個(gè)例子,使用圖41和圖42說(shuō)明在展覽會(huì)場(chǎng)中利用聲音識(shí)別時(shí)的情形。
從使用者的行動(dòng)經(jīng)歷可知經(jīng)常在車(chē)內(nèi)、展覽會(huì)場(chǎng)、家庭內(nèi)利用聲音識(shí)別。因此,分別預(yù)先收錄在車(chē)內(nèi)、展覽會(huì)場(chǎng)、家庭內(nèi)的一般的雜音。如圖41所示,在安靜環(huán)境中的聲音數(shù)據(jù)83中疊加預(yù)測(cè)為利用環(huán)境的三種雜音數(shù)據(jù)(車(chē)內(nèi)雜音數(shù)據(jù)1503A、展覽會(huì)場(chǎng)雜音數(shù)據(jù)1503B、家庭內(nèi)雜音數(shù)據(jù)1503C),生成車(chē)內(nèi)雜音10dB的雜音疊加聲音數(shù)據(jù)1505A、展覽會(huì)場(chǎng)雜音20dB的雜音疊加聲音數(shù)據(jù)1505B、家庭內(nèi)雜音20dB的雜音疊加聲音數(shù)據(jù)1505。接著,使用生成的雜音疊加聲音數(shù)據(jù),根據(jù)EM算法,對(duì)各雜音種類分別生成充分統(tǒng)計(jì)量1603A、1603B、1603C。在此,對(duì)各音韻,使用HMM生成不特定說(shuō)話者的充分統(tǒng)計(jì)量。接著,如圖42所示,對(duì)于各聲音數(shù)據(jù)(某種雜音數(shù)據(jù)的某說(shuō)話者的某發(fā)聲數(shù)據(jù)),把三種雜音數(shù)據(jù)1505A、1505B、1505C分別輸入到充分統(tǒng)計(jì)量1603A、1603B、1603C中,使用bitabi算法,對(duì)于各聲音數(shù)據(jù)(某說(shuō)話者的某發(fā)聲數(shù)據(jù))的標(biāo)簽信息2105A、2105B、2105C。
下面,使用圖43來(lái)說(shuō)明標(biāo)簽信息選擇模型2103的生成方法。在此,作為一個(gè)例子,生成與雜音種類對(duì)應(yīng)的GMM。使用在標(biāo)簽信息2105的生成中使用的預(yù)測(cè)雜音數(shù)據(jù)1505A、1505B、1505C,生成標(biāo)簽信息選擇模型2103A、2103B、2103C。
下面,說(shuō)明充分統(tǒng)計(jì)量2108的生成方法。
使用者預(yù)先把安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513存儲(chǔ)在存儲(chǔ)器1512中。
使用者要求適合模型生成適合模型2109。
充分統(tǒng)計(jì)量生成部2107接收存儲(chǔ)在存儲(chǔ)器1512中的安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513。另外,充分統(tǒng)計(jì)量生成部2107接收利用聲音識(shí)別的環(huán)境中的雜音數(shù)據(jù)85。
充分統(tǒng)計(jì)量生成部2107把安靜環(huán)境中的使用者的聲音數(shù)據(jù)1513輸入到存儲(chǔ)在選擇模型存儲(chǔ)部1508中的選擇模型1510中,計(jì)算似然。然后,選擇似然大的前L人(例如前40人)的說(shuō)話者,作為接近使用者的聲音數(shù)據(jù)的說(shuō)話者。
充分統(tǒng)計(jì)量生成部2107從安靜環(huán)境中的聲音數(shù)據(jù)83中,在接近使用者的聲音數(shù)據(jù)的說(shuō)話者的聲音數(shù)據(jù)中疊加雜音數(shù)據(jù)85,生成雜音疊加聲音數(shù)據(jù)86。圖31表示了雜音疊加聲音數(shù)據(jù)86的生成方法的一個(gè)例子。
充分統(tǒng)計(jì)量生成部2107在存儲(chǔ)在存儲(chǔ)部2102中的標(biāo)簽信息選擇模型2103中輸入雜音數(shù)據(jù)85,從標(biāo)簽信息存儲(chǔ)部2106取出與具有最大的似然的標(biāo)簽信息選擇模型2103對(duì)應(yīng)的標(biāo)簽信息2105。在此,因?yàn)槔铆h(huán)境為展覽會(huì)場(chǎng),所以取出了展覽會(huì)場(chǎng)雜音20dB的標(biāo)簽信息2105B。
充分統(tǒng)計(jì)量生成部2107使用雜音疊加聲音數(shù)據(jù)86和從標(biāo)簽信息存儲(chǔ)部2106取出的展覽會(huì)場(chǎng)雜音20dB的標(biāo)簽信息2105B,生成充分統(tǒng)計(jì)量2108。
下面,說(shuō)明在適合模型生成部51中生成適合模型2109的方法。
適合模型生成部51使用充分統(tǒng)計(jì)量生成部2107生成的充分統(tǒng)計(jì)量2108來(lái)生成適合模型2109。具體地說(shuō),通過(guò)以下的統(tǒng)計(jì)處理計(jì)算(表達(dá)式13~表達(dá)式15)生成適合模型2109。適合模型2109的HMM的各狀態(tài)的正態(tài)分布的平均、分散分別為μiadp(i=1、2···、Nmix)、viadp(i=1、2···、Nmix)。Nmix是混合分布數(shù)。另外,狀態(tài)轉(zhuǎn)變概率為aadp[i][j(i、j=1、2···、Nstate)。Nstate是狀態(tài)數(shù),aadp[i][j]表示從狀態(tài)i向狀態(tài)j的轉(zhuǎn)變概率。
μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...,Nmix)]]>[表達(dá)式14]viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...,Nmix)]]>[表達(dá)式15]aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i[j](i,j=1,2,...,Nstate)]]>
在此,Nsel是所選擇的聲音模型的數(shù),μij(i=1、2···、Nmix,j=1、2、···Nsel)、vij(i=1、2···、Nmix,j=1、2、···Nsel)是各HMM的平均、分散。Cmixj(j=1、2、···Nsel)、Cstatek[i][j](k=1、2、···Nsel,i、j=1、2、···Nstate)分別是正態(tài)分布的EM計(jì)數(shù)(頻數(shù))、關(guān)于狀態(tài)轉(zhuǎn)變的EM計(jì)數(shù)。
適合模型生成部51準(zhǔn)備使用者的下一個(gè)生成適合模型的要求。
<效果>
如以上所述,在實(shí)施例4中,因?yàn)槭褂酶鶕?jù)標(biāo)簽信息選擇模型2103而選擇的適合于利用環(huán)境的標(biāo)簽信息2105,計(jì)算充分統(tǒng)計(jì)量2108,所以能生成精度更高的充分統(tǒng)計(jì)量。因此,能在利用環(huán)境做各種變化時(shí),立刻利用精度更高的適合模型。
須指出的是,可以在使用者要求獲得適合模型之前,脫線地把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部2107中,脫線地生成充分統(tǒng)計(jì)量2108。
把雜音數(shù)據(jù)85輸入充分統(tǒng)計(jì)量生成部2107中的定時(shí)可以由充分統(tǒng)計(jì)量生成部2107自動(dòng)決定。
生成適合模型2109的定時(shí)可以是適合模型生成部51自動(dòng)地決定。
選擇模型1510并不局限于高斯混合模型。
存儲(chǔ)器1512中存儲(chǔ)的聲音數(shù)據(jù)1513可以重疊利用環(huán)境或預(yù)測(cè)為利用環(huán)境的環(huán)境的雜音。
標(biāo)簽信息2105的種類數(shù)和標(biāo)簽信息選擇模型2103的數(shù)并不局限為同數(shù)。
可以使用雜音數(shù)據(jù)85作為預(yù)測(cè)雜音數(shù)據(jù)1503。
實(shí)施例2的適合模型生成裝置既可以由硬件來(lái)實(shí)現(xiàn),也可以由軟件(計(jì)算機(jī)程序)來(lái)實(shí)現(xiàn)。
權(quán)利要求
1.一種方法,生成用于聲音識(shí)別的聲音模型,其特征在于包括根據(jù)聲音的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組的步驟(a);關(guān)于由所述步驟(a)獲得的各組,使用包含在該組中的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的步驟(b);從由所述步驟(a)獲得的各組中,選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的組的步驟(c);從關(guān)于由所述步驟(c)選擇的組的充分統(tǒng)計(jì)量中,選擇在聲音上接近所述使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的步驟(d);使用由所述步驟(d)選擇的充分統(tǒng)計(jì)量來(lái)生成聲音模型的步驟(e)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述使用者利用聲音識(shí)別的時(shí)刻之前,脫機(jī)進(jìn)行所述步驟(a)和(b)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(a)中,根據(jù)所述雜音的種類來(lái)進(jìn)行分組。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(a)中,根據(jù)疊加有所述雜音的聲音數(shù)據(jù)的SN比來(lái)進(jìn)行分組。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(a)中,按照聲音上接近的各說(shuō)話者來(lái)進(jìn)行分組。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(b)中,針對(duì)每一說(shuō)話者來(lái)生成充分統(tǒng)計(jì)量。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于在所述步驟(b)中,按照說(shuō)話者聲音的各聲調(diào)來(lái)生成充分統(tǒng)計(jì)量。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(b)中,按照所述雜音的各種類來(lái)生成充分統(tǒng)計(jì)量。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述步驟(b)中,按照所述各組中包含的聲音數(shù)據(jù)的各S/N比來(lái)生成充分統(tǒng)計(jì)量。
10.一種方法,生成用于聲音識(shí)別的聲音模型,其特征在于包括從基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中,選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的步驟(a);在由所述步驟(a)選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境中的雜音的步驟(b);使用由所述步驟(b)而疊加了雜音的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的步驟(c);使用由所述步驟(c)生成的充分統(tǒng)計(jì)量,來(lái)生成聲音模型的步驟(d)。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于還包括在基于所述多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中疊加預(yù)測(cè)為要利用聲音識(shí)別的環(huán)境中的雜音的步驟(e);生成關(guān)于由所述步驟(e)而疊加了雜音的聲音數(shù)據(jù)的標(biāo)簽信息的步驟(f);在所述步驟(c)中,使用由所述步驟(b)而疊加了雜音的聲音數(shù)據(jù)和在所述步驟(f)中生成的標(biāo)簽信息中的關(guān)于由所述步驟(a)選擇的聲音數(shù)據(jù)的標(biāo)簽信息,來(lái)生成充分統(tǒng)計(jì)量。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于在所述步驟(f)中,還生成關(guān)于由所述步驟(e)而疊加了雜音的聲音數(shù)據(jù)的聲音模型的狀態(tài)轉(zhuǎn)變的信息;在所述步驟(c)中,還使用在所述步驟(f)中生成的關(guān)于聲音模型的狀態(tài)轉(zhuǎn)變的信息中的關(guān)于由所述步驟(a)選擇的聲音數(shù)據(jù)的聲音模型的狀態(tài)轉(zhuǎn)變的信息,來(lái)生成充分統(tǒng)計(jì)量。
13.根據(jù)權(quán)利要求11所述的方法,其特征在于在所述步驟(e)中,把多種雜音分別疊加到基于所述多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)中;在所述步驟(f)中,關(guān)于所述多種雜音,分別生成標(biāo)簽信息;在所述步驟(c)中,從關(guān)于由所述步驟(a)選擇的聲音數(shù)據(jù)的多個(gè)標(biāo)簽信息中選擇適合于利用聲音識(shí)別的環(huán)境的標(biāo)簽信息,使用選擇的標(biāo)簽信息來(lái)生成充分統(tǒng)計(jì)量。
14.一種裝置,生成用于聲音識(shí)別的聲音模型,其特征在于包括關(guān)于通過(guò)根據(jù)聲音上的接近程度來(lái)把疊加有雜音的聲音數(shù)據(jù)分組而得到的多個(gè)組,分別存儲(chǔ)使用該組中包含的聲音數(shù)據(jù)而生成的充分統(tǒng)計(jì)量的存儲(chǔ)部;從所述多個(gè)組中選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的組的第一選擇部;從關(guān)于由所述第一選擇部選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近所述使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的第二選擇部;使用由所述第二選擇部選擇的充分統(tǒng)計(jì)量來(lái)生成聲音模型的模型生成部。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于還包括根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組的分組生成部;關(guān)于由所述分組生成部獲得的各組,使用該組中包含的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的充分統(tǒng)計(jì)量生成部;所述存儲(chǔ)部存儲(chǔ)由所述充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量。
16.一種裝置,生成用于聲音識(shí)別的聲音模型,其特征在于包括存儲(chǔ)基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)的存儲(chǔ)部;從存儲(chǔ)在所述存儲(chǔ)部中的聲音數(shù)據(jù)中,選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的選擇部;在由所述選擇部選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境中的雜音的雜音疊加部;使用由所述雜音疊加部疊加了雜音的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的充分統(tǒng)計(jì)量生成部;使用由所述充分統(tǒng)計(jì)量生成部生成的充分統(tǒng)計(jì)量來(lái)生成聲音模型的聲音模型生成部。
17.一種程序,是用于生成聲音識(shí)別中使用的聲音模型的計(jì)算機(jī)程序,其特征在于使計(jì)算機(jī)具有以下所述的功能關(guān)于通過(guò)根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組而得到的多個(gè)組,存儲(chǔ)使用該組中包含的聲音數(shù)據(jù)而生成的充分統(tǒng)計(jì)量的功能(a);從所述多個(gè)組中選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的組的功能(b);從關(guān)于由所述功能(b)選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近所述使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量的功能(c);使用由所述功能(c)所選擇的充分統(tǒng)計(jì)量來(lái)生成聲音模型的功能(d)。
18.根據(jù)權(quán)利要求17所述的程序,其特征在于還能使所述計(jì)算機(jī)具有以下所述的功能根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組的功能(e);關(guān)于由所述功能(e)獲得的各組,使用該組中包含的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的功能(f);所述功能(a)存儲(chǔ)由所述功能(f)生成的充分統(tǒng)計(jì)量。
19.一種程序,是用于生成聲音識(shí)別中使用的聲音模型的計(jì)算機(jī)程序,其特征在于使計(jì)算機(jī)具有以下所述的功能存儲(chǔ)基于多個(gè)說(shuō)話者的多種聲音數(shù)據(jù)的功能(a);從存儲(chǔ)在功能(a)中的聲音數(shù)據(jù)中選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的聲音數(shù)據(jù)的功能(b);在由所述功能(b)選擇的聲音數(shù)據(jù)中疊加利用聲音識(shí)別的環(huán)境中的雜音的功能(c);使用由所述功能(c)疊加了雜音的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量的功能(d);使用由所述功能(d)生成的充分統(tǒng)計(jì)量來(lái)生成聲音模型的功能(e)。
全文摘要
本發(fā)明提供能防止雜音環(huán)境中的適合模型的精度下降的聲音模型生成方法。根據(jù)聲音上的接近程度,把疊加有雜音的聲音數(shù)據(jù)分組。使用各組中包含的聲音數(shù)據(jù)來(lái)生成充分統(tǒng)計(jì)量。選擇在聲音上接近利用聲音識(shí)別的人即使用者的聲音數(shù)據(jù)的組。從關(guān)于選擇的組的充分統(tǒng)計(jì)量中選擇在聲音上接近使用者的聲音數(shù)據(jù)的充分統(tǒng)計(jì)量。使用選擇的充分統(tǒng)計(jì)量來(lái)生成聲音模型。
文檔編號(hào)G10L15/065GK1482595SQ0215747
公開(kāi)日2004年3月17日 申請(qǐng)日期2002年12月20日 優(yōu)先權(quán)日2001年12月20日
發(fā)明者芳澤伸一, 宏, 鹿野清宏 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社