欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方法

文檔序號:2823337閱讀:286來源:國知局
專利名稱:聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方法
技術(shù)領(lǐng)域
本發(fā)明涉及聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方法。
背景技術(shù)
以往,例如專利文獻(xiàn)1所公開的那樣公知有如下的技術(shù)在對用戶發(fā)出的聲音進(jìn) 行聲音識別的情況下,根據(jù)電話號碼來切換聲音識別用的詞典。另外,例如非專利文獻(xiàn)1 所公開的那樣,開展了可以在一臺終端利用多個電話號碼及郵件地址的服務(wù)(所謂二合一 (2inl)服務(wù))。專利文獻(xiàn)1日本特開2000-10590號公報非專利文獻(xiàn)12inl寸一 m co -〉《于厶開発(二合一服務(wù)的系統(tǒng)開發(fā)),ntt DoCoMo于夕二力;l 夕Y — f ;、 vol. 15No. 3, PI 1—19 在采用了上述現(xiàn)有技術(shù)的服務(wù)中,當(dāng)在相同的終端使用多個號碼、并針對各個號 碼準(zhǔn)備不同的語言模型及聲學(xué)模型時,存在以下問題。即,盡管來自相同終端的發(fā)聲通常是 同一用戶的聲音,但是針對各個不同號碼按照不同的模型來進(jìn)行聲音識別,并且對各個不 同的模型單獨(dú)地進(jìn)行更新,從而有可能使模型的精度變低,聲音識別的性能降低。

發(fā)明內(nèi)容
因此,本發(fā)明是鑒于上述問題而完成的,其目的在于,提供聲音識別服務(wù)器、電話 機(jī)、聲音識別系統(tǒng)以及聲音識別方法,它們能在一臺終端中利用多個電話號碼的服務(wù)中可 提高模型的精度、提高聲音識別性能。 為了解決上述課題,本發(fā)明的聲音識別服務(wù)器與能在一臺終端中利用多個電話號
碼的電話機(jī)連接,且將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符,該聲音識別服務(wù)器具備聲音接
收單元,其接收來自上述電話機(jī)的聲音;模型存儲單元,其存儲用于將上述聲音接收單元所
接收的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以上的語言模型;號碼判定單元,
其判定上述電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除
上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼
以及上述其它號碼,選擇上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼,
選擇上述模型存儲單元中存儲的語言模型;和聲音識別單元,其根據(jù)上述模型選擇單元所
選擇的聲學(xué)模型以及語言模型,將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符。 另外,本發(fā)明的電話機(jī)與將聲音轉(zhuǎn)換為字符的聲音識別服務(wù)器連接,且能在一臺
終端中利用多個電話號碼,該電話機(jī)具備聲音發(fā)送單元,其將來自用戶的聲音發(fā)送至上述
聲音識別服務(wù)器;號碼檢知單元,其檢知該電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、
以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;和號碼通知
單元,其將上述當(dāng)前呼出號碼以及上述其它號碼通知給上述聲音識別服務(wù)器。 另外,本發(fā)明的聲音識別系統(tǒng)具有能在一臺終端中利用多個電話號碼的電話機(jī)、
以及將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符的聲音識別服務(wù)器,其中,上述電話機(jī)具備聲音發(fā)送單元,其將來自用戶的聲音發(fā)送至上述聲音識別服務(wù)器;號碼檢知單元,其檢知該電話 機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號 碼以外的電話號碼即其它號碼;和號碼通知單元,其將上述當(dāng)前呼出號碼以及上述其它號 碼通知給上述聲音識別服務(wù)器,上述聲音識別服務(wù)器具備聲音接收單元,其接收來自上述 電話機(jī)的聲音;模型存儲單元,其存儲用于將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符 的一個以上的聲學(xué)模型以及一個以上的語言模型;號碼判定單元,其判定上述電話機(jī)的當(dāng) 前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外 的電話號碼即其它號碼;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼,選擇 上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼,選擇上述模型存儲單元 中存儲的語言模型;和聲音識別單元,其根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語 言模型,將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符。 另外,本發(fā)明的聲音識別方法應(yīng)用于聲音識別服務(wù)器中,該聲音識別服務(wù)器與能
在一臺終端中利用多個電話號碼的電話機(jī)連接,且將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符,
該聲音識別方法的特征在于,具有以下步驟模型存儲步驟,上述聲音識別服務(wù)器的模型存
儲單元存儲用于將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以
上的語言模型;聲音接收步驟,上述聲音識別服務(wù)器的聲音接收單元接收來自上述電話機(jī) 的聲音;號碼判定步驟,上述聲音識別服務(wù)器的號碼判定單元判定上述電話機(jī)的當(dāng)前的呼
出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話 號碼即其它號碼;模型選擇步驟,上述聲音識別服務(wù)器的模型選擇單元根據(jù)上述當(dāng)前呼出 號碼以及上述其它號碼來選擇上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出 號碼來選擇上述模型存儲單元中存儲的語言模型;和聲音識別步驟,上述聲音識別服務(wù)器 的聲音識別單元根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型,將上述聲音接收 單元所接收的聲音轉(zhuǎn)換為字符。 此時,在本發(fā)明的聲音識別服務(wù)器中優(yōu)選,上述模型存儲單元存儲對于一個電話 機(jī)所能利用的全部電話號碼通用的聲學(xué)模型,上述模型選擇單元也根據(jù)上述一個電話機(jī)中 任意的上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述通用的聲學(xué)模型。
根據(jù)本發(fā)明的聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方法,聲音識 別服務(wù)器的模型選擇單元根據(jù)當(dāng)前呼出號碼以及其它號碼雙方來選擇聲學(xué)模型。即,選擇 對于當(dāng)前呼出號碼以及其它號碼雙方通用的聲學(xué)模型。這是因?yàn)楸景l(fā)明以一個用戶在一臺 終端中利用多個電話號碼的電話機(jī)中的聲音識別為前提。即,雖然電話號碼不同但用戶是 同一個,因此可以通過采用通用的聲學(xué)模型來提高聲音識別的性能。采用通用的聲學(xué)模型, 尤其在對來自同一終端的新號碼的聲音進(jìn)行聲音識別時起到良好的效果。即,在現(xiàn)有技術(shù) 中,如果是新號碼,則很可能沒有充分地對可利用的聲學(xué)模型進(jìn)行更新,因此導(dǎo)致對新號碼 的聲音識別性能必然變低,但在本發(fā)明中,可以對來自新號碼的聲音使用與現(xiàn)有號碼對應(yīng) 的聲學(xué)模型,所以提高了對來自新號碼的聲音的識別精度。另外,通過采用通用的聲學(xué)模 型,可以減少要存儲在聲音識別服務(wù)器的模型存儲單元中的聲學(xué)模型的數(shù)量,由此可以減 少用于存儲聲學(xué)模型的容量。另一方面,對于語言模型,雖然假定為一個用戶,但有可能每 個電話號碼的話題不同,因此本發(fā)明的聲音識別服務(wù)器的模型選擇單元僅根據(jù)當(dāng)前呼出號 碼來選擇語言模型。即,選擇專門針對當(dāng)前呼出號碼的語言模型。
6
另外,本發(fā)明的聲音識別服務(wù)器優(yōu)選還具有聲學(xué)模型更新單元,其利用來自上述 一個電話機(jī)的全部聲音來更新上述通用的聲學(xué)模型。 利用來自一個電話機(jī)的全部聲音來更新通用的聲學(xué)模型,由此能夠高精度地進(jìn)行 聲學(xué)模型的更新。這是因?yàn)榕c按照每個號碼來更新聲學(xué)模型的情況相比,增加了用于更新 的學(xué)習(xí)量。 另外,本發(fā)明的聲音識別服務(wù)器優(yōu)選還具有語言模型更新單元,其利用對來自上 述一個電話機(jī)的全部聲音中的、針對每個上述電話號碼的聲音的識別結(jié)果,更新每個相應(yīng) 電話號碼的語言模型。 利用針對每個電話號碼的聲音的識別結(jié)果來更新每個電話號碼的語言模型,由此
在每個電話號碼的話題不同的情況下,能夠?qū)iT針對該話題來更新語言模型。 另外,本發(fā)明的聲音識別服務(wù)器還具有數(shù)據(jù)存儲單元,其將上述一個電話機(jī)可利
用的上述多個電話號碼、與該電話機(jī)的用戶識別信息相關(guān)聯(lián)地存儲,上述模型選擇單元可
根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述數(shù)據(jù)存儲單元所存儲的用戶識別信
息,且根據(jù)該選擇的用戶識別信息來選擇上述模型存儲單元所存儲的聲學(xué)模型。 在此情況下,模型選擇單元可針對每個用戶選擇不同的聲學(xué)模型。 另外,本發(fā)明的聲音識別服務(wù)器還具有對應(yīng)關(guān)系控制單元,其在上述數(shù)據(jù)存儲單
元所存儲的上述多個電話號碼與上述用戶識別信息之間的對應(yīng)關(guān)系中進(jìn)行追加、變更或刪
除的處理。 在此情況下,可以控制電話號碼與用戶之間的對應(yīng)關(guān)系。 另外,在本發(fā)明的聲音識別服務(wù)器中,上述聲音接收單元還接收為了上述模型選
擇單元選擇上述聲學(xué)模型以及上述語言模型而參照的模式識別信息,上述模型選擇單元可
根據(jù)上述模式識別信息來選擇上述聲學(xué)模型以及上述語言模型。 在此情況下,模型選擇單元可選擇與模式相符的聲學(xué)模型以及語言模型。 另外,在本發(fā)明的聲音識別服務(wù)器中,在上述聲音接收單元接收了多個上述模式
識別信息的情況下,上述模型選擇單元可根據(jù)優(yōu)先級高的模式識別信息來選擇上述聲學(xué)模
型以及上述語言模型。 在此情況下,模型選擇單元可以進(jìn)一步考慮模式的優(yōu)先級來選擇與模式相符的聲 學(xué)模型以及語言模型。 另外,在本發(fā)明的聲音識別服務(wù)器中,上述聲音接收單元還接收上述電話機(jī)的用 戶屬性信息,上述模型選擇單元可進(jìn)一步參照上述屬性信息來選擇上述聲學(xué)模型以及上述 語言模型。 在此情況下,模型選擇單元可以進(jìn)一步參照用戶屬性信息來選擇與用戶屬性信息 相符的聲學(xué)模型以及語言模型。 另外,本發(fā)明的電話機(jī)能在一臺終端中利用多個電話號碼,該電話機(jī)具備聲音輸 入單元,其輸入來自用戶的聲音;號碼檢知單元,其檢知該電話機(jī)的當(dāng)前的呼出電話號碼即 當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號 碼;模型存儲單元,其存儲用于將上述聲音輸入單元所輸入的聲音轉(zhuǎn)換為字符的聲學(xué)模型 以及語言模型;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述模 型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼來選擇上述模型存儲單元中存儲的語言模型;和聲音識別單元,其根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型, 將上述聲音輸入單元所輸入的聲音轉(zhuǎn)換為字符。 此時,在本發(fā)明的電話機(jī)中優(yōu)選,上述模型存儲單元存儲對于該電話機(jī)可利用的 全部電話號碼通用的聲學(xué)模型,上述模型選擇單元也根據(jù)該電話機(jī)中任意的上述當(dāng)前呼出 號碼以及上述其它號碼來選擇上述通用的聲學(xué)模型。 在本發(fā)明的電話機(jī)中,電話機(jī)的模型選擇單元根據(jù)當(dāng)前呼出號碼以及其它號碼雙
方來選擇聲學(xué)模型。即,選擇對當(dāng)前呼出號碼以及其它號碼雙方通用的聲學(xué)模型。這是因
為本發(fā)明以一個用戶在一臺終端中利用多個電話號碼的電話機(jī)中的聲音識別為前提。艮卩,
雖然電話號碼不同但用戶是同一個,所以可以通過采用通用的聲學(xué)模型來提高聲音識別的
性能。采用通用的聲學(xué)模型,尤其在對來自同一終端的新號碼的聲音進(jìn)行聲音識別時起到
良好的效果。即,在現(xiàn)有技術(shù)中,如果是新號碼,則很可能沒有充分地對可利用的聲學(xué)模型
進(jìn)行更新,因而導(dǎo)致對新號碼的聲音識別性能必然降低,但在本發(fā)明中,對來自新號碼的聲
音使用與現(xiàn)有號碼對應(yīng)的聲學(xué)模型,所以可以提高對來自新號碼的聲音的識別精度。另外,
通過采用通用的聲學(xué)模型,可以減少要存儲在聲音識別服務(wù)器的模型存儲單元中的聲學(xué)模
型的數(shù)量,由此可以減少用于存儲聲學(xué)模型的容量。另一方面,對于語言模型,雖然假定為
一個用戶,但有可能每個電話號碼的話題不同,所以本發(fā)明的電話機(jī)的模型選擇部僅根據(jù)
當(dāng)前呼出號碼來選擇語言模型。即,選擇專門針對當(dāng)前呼出號碼的語言模型。 另外,本發(fā)明的電話機(jī)優(yōu)選還具有聲學(xué)模型更新單元,其利用來自上述用戶的全
部聲音來更新上述通用的聲學(xué)模型。 利用來自用戶的全部聲音來更新通用的聲學(xué)模型,由此能夠高精度地進(jìn)行聲學(xué)模 型的更新。這是因?yàn)榕c按照每個號碼來更新聲學(xué)模型的情況相比,增加了用于更新的學(xué)習(xí) 另外,本發(fā)明的電話機(jī)優(yōu)選還具有語言模型更新單元,其利用對來自上述用戶的 全部聲音中的、每個上述電話號碼的聲音的識別結(jié)果,來更新每個相應(yīng)電話號碼的語言模 型。 利用對每個電話號碼的聲音的識別結(jié)果來更新每個電話號碼的語言模型,由此在
每個電話號碼的話題不同的情況下,能夠?qū)iT針對該話題來更新語言模型。 根據(jù)本發(fā)明,可以提供聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方
法,它們能夠在可在一臺終端中利用多個電話號碼的服務(wù)中提高模型精度、提高聲音識別性能。


圖1是第1實(shí)施方式的聲音識別系統(tǒng)1的結(jié)構(gòu)概要圖。 圖2是第1實(shí)施方式的聲音識別系統(tǒng)1的結(jié)構(gòu)概要圖。 圖3是電話機(jī)100以及聲音識別服務(wù)器200的硬件結(jié)構(gòu)圖。 圖4是示出電話機(jī)100的功能結(jié)構(gòu)的結(jié)構(gòu)概要圖。 圖5是示出聲音識別服務(wù)器200的功能結(jié)構(gòu)的結(jié)構(gòu)概要圖。 圖6是示出聲音識別系統(tǒng)1所進(jìn)行的動作的流程圖。 圖7是用于詳細(xì)說明圖6的步驟S 104中的聲學(xué)模型選擇處理的圖。
8
圖8是用于詳細(xì)說明圖6的步驟S105中的語言模型選擇處理的圖。
圖9是第2實(shí)施方式的聲音識別服務(wù)器250的結(jié)構(gòu)概要圖。 圖10中圖10(A)是示出在號碼轉(zhuǎn)換數(shù)據(jù)存儲部214中將電話號碼與用戶ID關(guān)聯(lián) 存儲的一例的圖。圖10(B)是示出在模型存儲部208中將用戶ID與聲學(xué)模型關(guān)聯(lián)存儲的 一例的圖。 圖11是用于詳細(xì)說明號碼控制部218所進(jìn)行的各個處理的流程圖。
圖12是示出號碼控制部218所進(jìn)行的新追加處理前后的狀態(tài)的圖。
圖13是示出號碼控制部218所進(jìn)行的刪除處理前后的狀態(tài)的圖。
圖14是示出號碼控制部218所進(jìn)行的變更處理前后的狀態(tài)的圖。
圖15是第3實(shí)施方式的聲音識別服務(wù)器260的結(jié)構(gòu)概要圖。
圖16是第4實(shí)施方式的聲音識別系統(tǒng)2以及電話機(jī)150的結(jié)構(gòu)概要圖。
符號說明 1,2-聲音識別系統(tǒng),100, 150-電話機(jī),102-聲音輸入部,104-聲音發(fā)送部,106-號 碼檢知部,108-號碼通知部,110-模型選擇部,112-模型存儲部,114-聲音識別部,116-模 型更新部,200, 250, 260-聲音識別服務(wù)器,202-聲音接收部,204-號碼判定部,206-模型選 擇部,208-模型存儲部,210聲音識別部,212模型更新部,214-號碼轉(zhuǎn)換數(shù)據(jù)存儲部,216號 碼轉(zhuǎn)換部,218-號碼控制部,220-模式識別信息接收部,300-通信網(wǎng)絡(luò),400-訂戶信息控制 裝置。
具體實(shí)施例方式
以下,參照附圖對本發(fā)明的聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別 方法的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)說明。此外,在

中對同一要素標(biāo)注同一符號,并省略 重復(fù)的說明。〈第1實(shí)施方式>(聲音識別系統(tǒng)1的總體結(jié)構(gòu)) 首先,參照圖1以及圖2說明本發(fā)明第1實(shí)施方式的聲音識別系統(tǒng)1的總體結(jié)構(gòu)。 圖1以及圖2是聲音識別系統(tǒng)1的結(jié)構(gòu)概要圖。如圖1所示,聲音識別系統(tǒng)1由電話機(jī)100 和聲音識別服務(wù)器200構(gòu)成,電話機(jī)100和聲音識別服務(wù)器200通過通信網(wǎng)絡(luò)300相互連 接。電話機(jī)100是可在一臺終端中利用多個電話號碼及郵件地址(在日本稱為"二合一服 務(wù)")的移動電話機(jī)。聲音識別服務(wù)器200是將來自電話機(jī)100的聲音轉(zhuǎn)換為字符、并將結(jié) 果發(fā)送至電話機(jī)100的服務(wù)器裝置。另外,如圖2所示,聲音識別系統(tǒng)1可構(gòu)成為還具有訂 戶信息控制裝置400。訂戶信息控制裝置400對所謂的"二合一服務(wù)"中的訂戶信息進(jìn)行控 制以及管理。(電話機(jī)100的結(jié)構(gòu)) 對電話機(jī)100進(jìn)行詳細(xì)說明。圖3是電話機(jī)100的硬件結(jié)構(gòu)圖。如圖3所示,電 話機(jī)100物理上構(gòu)成為具備CPU 11、作為主存儲裝置的R0M 12以及RAM 13、操作按鈕等 輸入設(shè)備14、LCD或有機(jī)EL顯示器等輸出設(shè)備15、與聲音識別服務(wù)器200之間進(jìn)行數(shù)據(jù)收 發(fā)的通信模塊16以及存儲設(shè)備等輔助存儲裝置17。后述的電話機(jī)100的各個功能通過如 下的方式來實(shí)現(xiàn)通過在CPU 11、R0M 12、RAM 13等硬件上讀入規(guī)定的軟件,基于CPU 11的控制使輸入設(shè)備14、輸出設(shè)備15、通信模塊16進(jìn)行工作,并且對主存儲裝置12、 13或輔助 存儲裝置17中的數(shù)據(jù)進(jìn)行讀出以及寫入。 圖4是示出電話機(jī)100的功能結(jié)構(gòu)的結(jié)構(gòu)概要圖。如圖4所示,電話機(jī)100構(gòu)成為 在功能上具備聲音輸入部102、聲音發(fā)送部104(相當(dāng)于權(quán)利要求中的"聲音發(fā)送單元")、 號碼檢知部106(相當(dāng)于權(quán)利要求中的"號碼檢知單元")以及號碼通知部108(相當(dāng)于權(quán)利 要求中的"號碼通知單元")。 聲音輸入部102輸入用戶發(fā)出的聲音。聲音發(fā)送部104將聲音輸入部102所輸入 的聲音發(fā)送至聲音識別服務(wù)器200。雖未圖示,但還設(shè)置有從聲音輸入部102所輸入的聲音 中提取聲音特征量的單元,聲音發(fā)送部104可將該聲音特征量數(shù)據(jù)發(fā)送至聲音識別服務(wù)器 200。聲音發(fā)送部104例如可由圖3所示的通信模塊16構(gòu)成。 號碼檢知部106檢知當(dāng)前呼出號碼以及其它號碼。當(dāng)前呼出號碼是電話機(jī)100的
當(dāng)前的呼出電話號碼。其它號碼是在電話機(jī)ioo可利用的多個電話號碼中的、除當(dāng)前呼出
號碼以外的電話號碼。號碼通知部108將號碼檢知部106所檢知的當(dāng)前呼出號碼以及其它 號碼通知給聲音識別服務(wù)器200。號碼通知部108可由例如圖3所示的通信模塊16構(gòu)成。
如圖1以及圖4所示,電話機(jī)100可構(gòu)成為將聲音(聲音特征量數(shù)據(jù))以及號碼 信息直接發(fā)送至聲音識別服務(wù)器200,如圖2所示,電話機(jī)100可構(gòu)成為將聲音(聲音特征 量數(shù)據(jù))以及號碼信息經(jīng)由訂戶信息控制裝置400發(fā)送給聲音識別服務(wù)器200。在后者的 情況下,雖未圖示,但可以在訂戶信息控制裝置400中設(shè)置與號碼檢知部106以及號碼通知 部108相當(dāng)?shù)膯卧?聲音識別服務(wù)器200的結(jié)構(gòu)) 接著,對聲音識別服務(wù)器200進(jìn)行詳細(xì)說明。圖3是聲音識別服務(wù)器200的硬件 結(jié)構(gòu)圖。如圖3所示,聲音識別服務(wù)器200物理上構(gòu)成為包含如下單元的通常計算機(jī)系統(tǒng) CPU 21、R0M 22和RAM 23等主存儲裝置;鍵盤以及鼠標(biāo)等輸入設(shè)備24 ;顯示器等輸出設(shè)備 25 ;與電話機(jī)100之間進(jìn)行數(shù)據(jù)收發(fā)的通信模塊26 ;以及硬盤等輔助存儲裝置27等。后述 的聲音識別服務(wù)器200的各個功能通過以下方式來實(shí)現(xiàn)通過在CPU21、R0M 22、RAM 23等 硬件上讀入預(yù)定的計算機(jī)軟件,基于CPU 21的控制,使輸入設(shè)備24、輸出設(shè)備25、通信模塊 26進(jìn)行工作,并且對主存儲裝置22、23及輔助存儲裝置27中的數(shù)據(jù)進(jìn)行讀出以及寫入。
圖5是示出聲音識別服務(wù)器200的功能結(jié)構(gòu)的結(jié)構(gòu)概要圖。如圖5所示,聲音識別 服務(wù)器200構(gòu)成為在功能上具備聲音接收部202(相當(dāng)于權(quán)利要求中的"聲音接收單元")、 號碼判定部204(相當(dāng)于權(quán)利要求中的"號碼判定單元")、模型選擇部206(相當(dāng)于權(quán)利要 求中的"模型選擇單元")、模型存儲部208 (相當(dāng)于權(quán)利要求中的"模型存儲單元")、聲音 識別部210(相當(dāng)于權(quán)利要求中的"聲音識別單元")以及模型更新部212(相當(dāng)于權(quán)利要求 中的"聲學(xué)模型更新單元"以及"語言模型更新單元")。 聲音接收部202從電話機(jī)100接收電話機(jī)100的用戶所發(fā)出的聲音或其特征量數(shù) 據(jù)?;蛘撸谌鐖D2所示將聲音識別系統(tǒng)1構(gòu)成為包含訂戶信息控制裝置400的情況下,聲 音接收部202可經(jīng)由訂戶信息控制裝置400接收來自電話機(jī)100的聲音或其特征量數(shù)據(jù)。 聲音接收部202可由例如圖3所示的通信模塊26構(gòu)成。聲音接收部202將所接收的聲音 或其特征量數(shù)據(jù)輸出至聲音識別部210以及模型更新部212。 號碼判定部204根據(jù)來自電話機(jī)100的號碼通知部108的通知,判定電話機(jī)100的當(dāng)前呼出號碼以及其它號碼?;蛘?,在如圖2所示將聲音識別系統(tǒng)1構(gòu)成為包含訂戶信 息控制裝置400的情況下,圖5雖未圖示,但也可以是,號碼判定部204從訂戶信息控制裝 置400接收對當(dāng)前呼出號碼以及其它號碼的通知,并根據(jù)該通知來判定電話機(jī)100的當(dāng)前 呼出號碼以及其它號碼。號碼判定部204將已判定的當(dāng)前呼出號碼以及其它號碼輸出至模 型選擇部206。 模型選擇部206根據(jù)號碼判定部204所判定的當(dāng)前呼出號碼以及其它號碼來選擇 存儲在模型存儲部208中的聲學(xué)模型,且根據(jù)當(dāng)前呼出號碼來選擇存儲在模型存儲部208 中的語言模型。模型存儲部208存儲有用于將聲音接收部202接收到的聲音轉(zhuǎn)換為字符的 一個以上聲學(xué)模型以及一個以上語言模型。模型存儲部208存儲對于一個電話機(jī)可利用的 全部電話號碼通用的聲學(xué)模型,模型選擇部206也根據(jù)一個電話機(jī)中任意的當(dāng)前呼出號碼 以及其它號碼來選擇上述通用的聲學(xué)模型。此外,在后述的"聲音識別系統(tǒng)l的動作"中參 照圖7以及圖8來詳細(xì)說明與模型選擇部206以及模型存儲部208相關(guān)聯(lián)的處理。模型選 擇部206將所選擇的聲學(xué)模型以及語言模型輸出至聲音識別部210。 聲音識別部210根據(jù)模型選擇部206所選擇的聲學(xué)模型以及語言模型,將聲音接 收部202所接收的聲音轉(zhuǎn)換為字符。聲音識別的方法本身是例如下述參考文獻(xiàn)1所公開的 公知技術(shù),所以這里省略說明。聲音識別部210將進(jìn)行了聲音識別處理的結(jié)果向電話機(jī)100 發(fā)送。電話機(jī)100接收該結(jié)果并向用戶顯示。另外,聲音識別部210將聲音識別結(jié)果輸出 至模型更新部212。 參考文獻(xiàn)1 :音聲認(rèn)識-〉^于厶(聲音識別系統(tǒng)),ISBN/ASIN :4274132285,武田 一哉,歐姆公司(才一A社) 模型更新部212利用聲音接收部202所接收的來自電話機(jī)100的聲音、以及從聲 音識別部210輸入的聲音識別結(jié)果作為學(xué)習(xí)對象,更新存儲在模型存儲部208中的聲學(xué)模 型以及語言模型。模型更新部212利用來自電話機(jī)100的全部聲音以及來自聲音識別部 210的全部聲音識別結(jié)果作為學(xué)習(xí)對象,更新一個電話機(jī)中通用的聲學(xué)模型。S卩,例如電話 機(jī)100可利用的電話號碼是A以及B的情況下,模型更新部212利用在電話號碼A以及B 下發(fā)出的全部聲音以及該聲音的全部識別結(jié)果作為學(xué)習(xí)對象,更新電話機(jī)100中的電話號 碼A以及B通用的聲學(xué)模型。 另一方面,模型更新部212利用來自聲音識別部210的全部聲音識別結(jié)果中的、依 據(jù)每個電話號碼而區(qū)分的聲音識別結(jié)果,來更新每個相應(yīng)電話號碼的語言模型。即,例如電 話機(jī)IOO可利用的電話號碼是A以及B的情況下,模型更新部212利用針對電話號碼A下 發(fā)出的聲音的識別結(jié)果(即,字符)作為學(xué)習(xí)對象,更新用于電話機(jī)100的電話號碼A的語 言模型。另外,在此情況下,模型更新部212利用針對電話號碼B下發(fā)出的聲音的識別結(jié)果 為學(xué)習(xí)對象,更新用于電話機(jī)100的電話號碼B的語言模型。 作為模型更新方法、即聲學(xué)模型以及語言模型中的各參數(shù)更新方法,舉出了例如
基于下式(1)的更新方法。
U = U 。w+(l-w)X . (1) 在上述式(1)中,i!是更新后的參數(shù),P。是更新前的參數(shù),w是更新中的預(yù)定權(quán) 重,X是輸入聲音的平均值。此外,模型更新的方法本身例如是下述參考文獻(xiàn)2所公開的公 知技術(shù),所以這里省略說明。
參考文獻(xiàn)2 :確率壬7 & (二 J: 3音聲認(rèn)識O t & 0話者適応化技術(shù)、電字子情報 通信學(xué)會論文誌D-II (用于概率模型的聲音識別的說話者適應(yīng)化技術(shù),電子信息通信學(xué)會 論文集D-II) vol. J87-D-II, no. 2, pp. 371-386(2004-2) [OO77](聲音識別系統(tǒng)1的動作) 接著,參照圖6來說明聲音識別系統(tǒng)1所進(jìn)行的動作(權(quán)利要求中的"聲音識別 方法")。圖6是示出聲音識別系統(tǒng)1所進(jìn)行的動作的流程圖。此外,在以下的說明中為了 便于說明而假定以下的事項(xiàng)。即,在電話機(jī)100中可以利用電話號碼A以及B的多個電話 號碼,其中,當(dāng)前呼出號碼是電話號碼A,其它號碼是電話號碼B。另外,不用說聲音識別服 務(wù)器200的模型存儲部208存儲用于將來自電話機(jī)100的聲音轉(zhuǎn)換為字符的聲學(xué)模型以及 語言模型,另外還存儲用于對來自聲音識別系統(tǒng)1內(nèi)存在的電話機(jī)100以外的其它電話機(jī) (未圖示)的聲音進(jìn)行識別的聲學(xué)模型以及語言模型。 首先,聲音識別服務(wù)器200的聲音接收部202從電話機(jī)100直接或經(jīng)由訂戶信息 控制裝置400,接收電話機(jī)100的用戶所發(fā)出的聲音或其特征量數(shù)據(jù)。另外,聲音識別服務(wù) 器200的號碼判定部204從電話機(jī)100或訂戶信息控制裝置400接收對當(dāng)前呼出號碼以及 其它號碼的通知(步驟S101,相當(dāng)于權(quán)利要求中的"聲音接收步驟")。
接著,聲音識別服務(wù)器200的號碼判定部204根據(jù)步驟S101的號碼通知來判定電 話機(jī)100的當(dāng)前呼出號碼以及其它號碼。根據(jù)上述假定,號碼判定部204判定當(dāng)前呼出號 碼是A、其它號碼是B (步驟S102以及步驟S103,相當(dāng)于權(quán)利要求中的"號碼判定步驟")。
接著,聲音識別服務(wù)器200的模型選擇部206根據(jù)在步驟S102以及步驟S103中判 定的當(dāng)前呼出號碼以及其它號碼,選擇模型存儲部208所存儲的、用于識別來自電話機(jī)100 的聲音的聲學(xué)模型。另外,模型選擇部206根據(jù)當(dāng)前呼出號碼,選擇模型存儲部208中存儲 的、用于識別來自電話機(jī)100的聲音的語言模型(步驟S104以及步驟S105,相當(dāng)于權(quán)利要 求中的"模型選擇步驟")。 進(jìn)一步參照圖7來說明步驟S104的聲學(xué)模型選擇處理。模型存儲部208存儲如 圖7所示的表。圖7中,將包含電話機(jī)100的聲音識別系統(tǒng)1內(nèi)的全部電話機(jī)可利用的電話 號碼(A、B、C、D、E等)、和用于將各個電話號碼中發(fā)出的聲音轉(zhuǎn)換為字符的聲學(xué)模型(MAB、 Mc、M皿等)相關(guān)聯(lián)地進(jìn)行存儲。即,可以采用聲學(xué)模型M^對電話號碼A中發(fā)出的聲音進(jìn)行 聲音識別,可以采用聲學(xué)模型Mc對電話號碼C中發(fā)出的聲音進(jìn)行聲音識別。另外,圖7中, 在一個框內(nèi)記載的電話號碼表示一臺電話機(jī)可利用的電話號碼。即,電話號碼A和B是電 話機(jī)IOO可利用的號碼,電話號碼C是電話機(jī)IOO以外的另一個電話機(jī)(未圖示)可利用 的號碼,電話號碼D和E是電話機(jī)IOO以外的再一個電話機(jī)(未圖示)可利用的號碼。模 型選擇部206參照這樣的表來選擇聲學(xué)模型。即,模型選擇部206從圖7的表的左列檢索 與電話機(jī)100的當(dāng)前呼出號碼以及其它號碼相當(dāng)?shù)碾娫捥柎aA以及B,并選擇與電話號碼A 以及B相關(guān)聯(lián)地存儲的聲學(xué)模型M^。另外,此例為當(dāng)前呼出號碼是A、其它號碼是B時的例 子,相反,在當(dāng)前呼出號碼是B、其它號碼是A時也可進(jìn)行同樣的選擇。S卩,模型存儲部208 存儲對于一個電話機(jī)可利用的全部電話號碼通用的聲學(xué)模型,模型選擇部206也根據(jù)該一 個電話機(jī)中任意的當(dāng)前呼出號碼以及其它號碼選擇上述通用的聲學(xué)模型。
進(jìn)一步參照圖8來說明步驟S105的語言模型選擇處理。模型存儲部208存儲如圖 8所示的表。圖8中,將包含電話機(jī)100的聲音識別系統(tǒng)1內(nèi)的全部電話機(jī)可利用的電話號
12碼(A、B、C、D、E等)、與用于將各個電話號碼中發(fā)出的聲音轉(zhuǎn)換為字符的語言模型(LA、LB、 Lc、L。、l^等)相關(guān)聯(lián)地進(jìn)行存儲。S卩,可采用語言模型U對電話號碼A中發(fā)出的聲音進(jìn)行 聲音識別,可采用語言模型Lc對電話號碼C中發(fā)出的聲音進(jìn)行聲音識別。模型選擇部206 參照這樣的表來選擇語言模型。即,模型選擇部206從圖8中表的左列檢索與電話機(jī)100 的當(dāng)前呼出號碼相當(dāng)?shù)碾娫捥柎aA,選擇與電話號碼A相關(guān)聯(lián)地存儲的語言模型U。另外, 此例為當(dāng)前呼出號碼是A、其它號碼是B時的例子,相反,在當(dāng)前呼出號碼是B、其它號碼是A 時,模型選擇部206從圖8中表的左列檢索與電話機(jī)100的當(dāng)前呼出號碼相當(dāng)?shù)碾娫捥柎a B,選擇與電話號碼B相關(guān)聯(lián)地存儲的語言模型LB。 S卩,模型存儲部208針對一個電話機(jī)可 利用的全部電話號碼分別存儲不同的語言模型,模型選擇部206針對每個電話號碼來選擇 不同的語言模型。 返回圖6的流程圖,繼步驟S104以及步驟S105的模型選擇步驟之后,聲音識別服 務(wù)器200的聲音識別部210根據(jù)模型選擇部206所選擇的聲學(xué)模型以及語言模型,將聲音 接收部202所接收的聲音轉(zhuǎn)換為字符。根據(jù)上述假定,聲音識別部210基于聲學(xué)模型M^以 及語言模型LA對來自電話機(jī)100的聲音進(jìn)行識別處理(步驟S106,相當(dāng)于權(quán)利要求中的 "聲音識別步驟")。 接著,聲音識別服務(wù)器200的模型更新部212利用聲音接收部202所接收的來自 電話機(jī)100的聲音、以及從聲音識別部210輸入的聲音識別結(jié)果作為學(xué)習(xí)對象,更新模型存 儲部208所存儲的聲學(xué)模型以及語言模型。根據(jù)上述假定,模型更新部212利用電話號碼A 以及B發(fā)出的全部聲音以及該聲音的全部識別結(jié)果作為學(xué)習(xí)對象,更新電話機(jī)100中的電 話號碼A以及B通用的聲學(xué)模型M^。此外,因?yàn)樵谏鲜黾俣ㄖ挟?dāng)前呼出號碼是A,所以利用 在該電話號碼A中發(fā)出的聲音以及該聲音的識別結(jié)果作為學(xué)習(xí)對象,來更新通用的聲學(xué)模 型M^但與其不同,在當(dāng)前呼出號碼是B的情況下,利用在該電話號碼B中發(fā)出的聲音以及 該聲音的識別結(jié)果作為學(xué)習(xí)對象,來更新通用的聲學(xué)模型M^??傊?,根據(jù)呼出號碼A中的發(fā) 聲以及呼出號碼B中的發(fā)聲雙方來更新通用的聲學(xué)模型M^。另一方面,模型更新部212利 用針對來自電話機(jī)100的全部聲音中的、依據(jù)每個電話號碼而區(qū)分的聲音的識別結(jié)果(即, 字符)作為學(xué)習(xí)對象,更新該每個電話號碼的語言模型。根據(jù)上述假定,模型更新部212利 用針對作為當(dāng)前呼出號碼的電話號碼A中發(fā)出的聲音的識別結(jié)果作為學(xué)習(xí)對象,更新用于 電話機(jī)100的電話號碼A的語言模型LA??傊?,語言模型針對每個呼出號碼來進(jìn)行更新(步 驟S107)。 最后,在電話機(jī)100側(cè)接收步驟S106中的聲音識別結(jié)果,然后顯示給用戶(步驟 S108)。(第1實(shí)施方式的作用以及效果等) 接著,對第1實(shí)施方式的作用以及效果進(jìn)行說明。根據(jù)第1實(shí)施方式,聲音識別服 務(wù)器200的模型選擇部206根據(jù)當(dāng)前呼出號碼以及其它號碼雙方來選擇聲學(xué)模型。即,選擇 對于當(dāng)前呼出號碼以及其它號碼雙方通用的聲學(xué)模型。這是因?yàn)楸緦?shí)施方式以一個用戶在 一臺終端中利用多個電話號碼的電話機(jī)100中的聲音識別為前提。即,雖然電話號碼不同 但用戶是同一個,因此,可以通過采用通用的聲學(xué)模型來提高聲音識別的性能。采用通用的 聲學(xué)模型,尤其在對來自同一終端的新號碼的聲音進(jìn)行聲音識別時起到了良好的效果。艮卩, 在現(xiàn)有技術(shù)中,如果是新號碼,則很可能沒有充分地對可利用的聲學(xué)模型進(jìn)行更新,因此導(dǎo)
13致對新號碼的聲音識別性能必然降低,但在本實(shí)施方式中,可對新號碼的聲音使用與現(xiàn)有 號碼對應(yīng)的聲學(xué)模型,所以提高了對來自新號碼的聲音的識別精度。另外,通過使用通用的 聲學(xué)模型,可以減少要存儲在聲音識別服務(wù)器200的模型存儲部208中的聲學(xué)模型的數(shù)量, 由此能夠減少用于存儲聲學(xué)模型的容量。另一方面,對于語言模型,雖然假定為一個用戶, 但有可能每個電話號碼的話題不同,所以本實(shí)施方式的聲音識別服務(wù)器200的模型選擇部 206僅根據(jù)當(dāng)前呼出號碼來選擇語言模型。S卩,選擇專門針對當(dāng)前呼出號碼的語言模型。
另外,通過利用來自一個電話機(jī)100的全部聲音來更新通用的聲學(xué)模型,可以高 精度地進(jìn)行聲學(xué)模型的更新。這是因?yàn)榕c按照每個號碼來更新聲學(xué)模型的情況相比,增加 了用于更新的學(xué)習(xí)量。 另外,通過利用對每個電話號碼的聲音的識別結(jié)果來更新每個電話號碼的語言模
型,可以在每個電話號碼的話題不同的情況下,專門針對該話題來更新語言模型?!吹?實(shí)施方式〉 接著,對本發(fā)明的第2實(shí)施方式進(jìn)行說明。此外,省略與上述已說明的第1實(shí)施方 式重復(fù)部分的說明,并以與第1實(shí)施方式的不同點(diǎn)為中心進(jìn)行說明。 圖9是第2實(shí)施方式的聲音識別服務(wù)器250的結(jié)構(gòu)概要圖。與第1實(shí)施方式中的 聲音識別服務(wù)器200相比,聲音識別服務(wù)器250還具備號碼轉(zhuǎn)換數(shù)據(jù)存儲部214(相當(dāng)于 權(quán)利要求中的"數(shù)據(jù)存儲單元")、號碼轉(zhuǎn)換部216 (相當(dāng)于權(quán)利要求中的"模型選擇單元") 以及號碼控制部218 (相當(dāng)于權(quán)利要求中的"對應(yīng)關(guān)系控制單元")。 號碼轉(zhuǎn)換數(shù)據(jù)存儲部214將一個電話機(jī)可利用的多個電話號碼與該電話機(jī)的用 戶識別信息相關(guān)聯(lián)地存儲。具體地說,號碼轉(zhuǎn)換數(shù)據(jù)存儲部214存儲如圖10(A)所示的表。 在圖10(A)中,包含電話機(jī)100的聲音識別系統(tǒng)1內(nèi)的全部電話機(jī)可利用的電話號碼(A、B、 C、D、E等)、與作為利用各個電話號碼的用戶的識別信息的用戶ID被相關(guān)聯(lián)地存儲。艮卩, 如圖10(A)所示,電話號碼A、B被用戶ID為AB的用戶所利用,電話號碼C被用戶ID為CC 的用戶所利用,電話號碼D、E被用戶ID為DE的用戶所利用。 返回圖9,號碼判定部204根據(jù)來自電話機(jī)100或訂戶信息控制裝置400的號碼通 知來判定電話機(jī)100的當(dāng)前呼出號碼以及其它號碼,將該結(jié)果輸出至號碼轉(zhuǎn)換部216。
號碼轉(zhuǎn)換部216根據(jù)號碼判定部204所判定的當(dāng)前呼出號碼以及其它號碼,選擇 存儲在號碼轉(zhuǎn)換數(shù)據(jù)存儲部214中的用戶ID。例如在電話機(jī)100可利用的電話號碼是A以 及B的情況下,號碼轉(zhuǎn)換部216參照號碼轉(zhuǎn)換數(shù)據(jù)存儲部214,選擇AB的用戶ID。號碼轉(zhuǎn) 換部216將所選擇的用戶ID通知給模型選擇部206。 模型選擇部206根據(jù)號碼轉(zhuǎn)換部216所選擇的用戶ID來選擇模型存儲部208中存 儲的聲學(xué)模型。模型存儲部208存儲有如圖10(B)所示的表。在圖10(B)中,相關(guān)聯(lián)地存 儲有包含電話機(jī)100的聲音識別系統(tǒng)1內(nèi)的全部電話機(jī)的用戶識別信息即用戶ID(AB、CC、 DE等)、和在與各個用戶ID關(guān)聯(lián)地進(jìn)行聲音識別時采用的聲學(xué)模型(MAB、 Mc、 MDE等)。艮卩, 在用戶ID為AB的情況下可采用聲學(xué)模型M^進(jìn)行聲音識別,在用戶ID為CC的情況下可采 用聲學(xué)模型I進(jìn)行聲音識別,在用戶ID為DE的情況下可采用聲學(xué)模型MDE進(jìn)行聲音識別。 模型選擇部206參照這樣的表來選擇聲學(xué)模型。即,模型選擇部206在號碼轉(zhuǎn)換部216所 選擇的用戶ID為AB的情況下選擇聲學(xué)模型M^,在號碼轉(zhuǎn)換部216所選擇的用戶ID為CC 的情況下選擇聲學(xué)模型Mc,在號碼轉(zhuǎn)換部216所選擇的用戶ID為DE的情況下選擇聲學(xué)模型M。e。 S卩,模型存儲部208針對每個用戶存儲不同的聲學(xué)模型,模式選釋部206與當(dāng)前呼 出號碼以及其它號碼無關(guān)地,以用戶為基準(zhǔn)來選擇聲學(xué)模型。以上,說明了聲學(xué)模型的選擇 處理,但關(guān)于語言模型,也可以與用戶ID無關(guān)、如第l實(shí)施方式所說明的那樣,以電話號碼 為基準(zhǔn)進(jìn)行選擇。 返回圖9,號碼控制部218在號碼轉(zhuǎn)換數(shù)據(jù)存儲部214所存儲的電話號碼與用戶 ID之間的對應(yīng)關(guān)系(參照圖10(A))中,進(jìn)行追加、變更或刪除的各種處理。圖ll是示出其 處理步驟的流程圖。如圖11所示,號碼控制部218首先接收控制信號、號碼數(shù)據(jù)以及用戶 ID數(shù)據(jù)(步驟S201),接著判定該接收的控制信號的種類(步驟S202)。此外,步驟S201中 的控制信號、號碼數(shù)據(jù)以及用戶ID數(shù)據(jù)可以從訂戶信息控制裝置400接收,或者從電話機(jī) 100或未圖示的其它裝置接收。 在步驟S202的判定結(jié)果是新追加的情況下(步驟S202 :是)進(jìn)行新追加處理(步 驟S203)。圖12(A)示出現(xiàn)有的表,圖12(B)示出進(jìn)行了新追加處理后的表。如圖12所示, 新追加了電話號碼F、和與其對應(yīng)的用戶ID即FF。 另一方面,在步驟S202的判定結(jié)果不是新追加的情況下(步驟S202 :否),首先,
在掌握了處理對象之后、即掌握了從現(xiàn)有的表中對哪個號碼數(shù)據(jù)進(jìn)行刪除或變更處理之后
(步驟S204),再次判定在步驟S201中接收的控制信號的種類(步驟S205)。在步驟S205的判定結(jié)果是刪除的情況下(步驟S205 :是),進(jìn)行刪除處理(步驟
S206)。圖13(A)示出現(xiàn)有的表,圖13(B)示出進(jìn)行了刪除處理之后的表。如圖13所示,刪
除了電話號碼D和E、以及與它們相對應(yīng)的用戶ID即DE。 另一方面,在步驟S205的判定結(jié)果是不刪除的情況下(步驟S202 :否),判定步驟 S201中接收到的控制信號是否表示變更(步驟S207)。 在步驟S207的判定結(jié)果是變更的情況下(步驟S207 :是)進(jìn)行變更處理(步驟 S208)。圖14(A)示出現(xiàn)有的表,圖14(B)示出進(jìn)行了變更處理之后的表。如圖14所示,與 電話號碼C對應(yīng)的用戶ID在變更前是CC,但在變更后成為FF。 另一方面,在步驟S207的判定結(jié)果不是變更的情況下(步驟S207 :否),直接結(jié)束 處理。 根據(jù)以上所說明的第2實(shí)施方式,模型選擇部206可以針對每個用戶選擇不同的 聲學(xué)模型。另外,還可以控制電話號碼與用戶之間的對應(yīng)關(guān)系。
〈第3實(shí)施方式〉 接著,對本發(fā)明的第3實(shí)施方式進(jìn)行說明。此外,省略與上述已說明的第1實(shí)施方 式重復(fù)部分的說明,并重點(diǎn)說明與第1實(shí)施方式的不同點(diǎn)。 圖15是第3實(shí)施方式的聲音識別服務(wù)器260的結(jié)構(gòu)概要圖。與第1實(shí)施方式中 的聲音識別服務(wù)器200相比,聲音識別服務(wù)器260還具有模式識別信息接收部220 (相當(dāng)于 權(quán)利要求中的"聲音接收單元")。模式識別信息接收部220接收模式識別信息。模式識別 信息是模型選擇部206為了選擇聲學(xué)模型以及語言模型而參照的信息。模式識別信息所表 示的模式例如有確定電話機(jī)100可利用的電話號碼的情況。作為其一例,在電話機(jī)100可 利用的電話號碼是A以及B的情況下,第1模式表示電話號碼A,第2模式表示電話號碼B。 另外,第3模式表示電話號碼A以及B雙方。并且模式識別信息表示任意的模式,模式識 別信息接收部220從電話機(jī)100接收這樣的模式識別信息,并向模型選擇部206輸出。此外,圖15示出了模式識別信息接收部220從電話機(jī)100接收模式識別信息的例子,但不限 于此,也可以是,還存在存儲模式識別信息的其它裝置(未圖示),模式識別信息接收部220 從該裝置接收模式識別信息。 模型選擇部206根據(jù)從模式識別信息接收部220輸入的模式識別信息,選擇模型 存儲部208所存儲的聲學(xué)模型以及語言模型。例如,在模式識別信息表示上述第3模式的 情況下,模型選擇部206從模型存儲部208中選擇對于電話號碼A以及B通用的聲學(xué)模型 以及語言模型。此外,在模型存儲部208中預(yù)先存儲有對于電話號碼A以及B通用的聲學(xué) 模型以及語言模型。另外,所謂對于電話號碼A以及B通用的聲學(xué)模型以及語言模型,是指 在對電話號碼A的發(fā)聲進(jìn)行聲音識別、以及對電話號碼B的發(fā)聲進(jìn)行聲音識別中都能夠使 用的聲學(xué)模型以及語言模型,或者將電話號碼A中的發(fā)聲、電話號碼B中的發(fā)聲、以及它們 的聲音識別結(jié)果用作學(xué)習(xí)對象進(jìn)行更新的聲學(xué)模型以及語言模型。另外,在例如模式識別 信息表示上述第1模式的情況下,模型選擇部206從模型存儲部208中選擇專門針對電話 號碼A的聲學(xué)模型以及語言模型。 以上,對第3實(shí)施方式的模式識別信息接收部220以及模型選擇部206的基本功 能進(jìn)行了說明,但本發(fā)明的第3實(shí)施方式不限于此。例如,還可以構(gòu)成為,在模式識別信息 接收部220接收到了多個模式識別信息的情況下,模型選擇部206基于優(yōu)先級高的模式識 別信息來選擇聲學(xué)模型以及語言模型。在此情況下,模式識別信息接收部220還可以接收 表示優(yōu)先級的信息。另外,還可以構(gòu)成為,模式識別信息接收部220除了接收模式識別信息 之外,還接收電話機(jī)100的用戶的屬性信息,模型選擇部206進(jìn)一步參照該屬性信息來選擇 聲學(xué)模型以及語言模型。所謂用戶的屬性信息是指與用戶有關(guān)的信息,例如表示年齡、性 別,興趣、職業(yè)等的信息。根據(jù)以上所說明的第3實(shí)施方式,模型選擇部206可以選擇與模式相符的聲學(xué)模 型以及語言模型。另外,模型選擇部206可以在進(jìn)一步考慮了模式的優(yōu)先級之后,選擇與模 式相符的聲學(xué)模型以及語言模型。另外,模型選擇部206可進(jìn)一步參照用戶屬性信息來選 擇與用戶屬性信息相符的聲學(xué)模型以及語言模型。
〈第4實(shí)施方式〉 接著,對本發(fā)明的第4實(shí)施方式進(jìn)行說明。此外,省略與上述所說明的第1實(shí)施方 式重復(fù)部分的說明,重點(diǎn)說明與第1實(shí)施方式的不同點(diǎn)。 圖16是第4實(shí)施方式的聲音識別系統(tǒng)2以及電話機(jī)150的結(jié)構(gòu)概要圖。與第1 實(shí)施方式中的聲音識別系統(tǒng)1相比,在聲音識別系統(tǒng)2中不存在聲音識別服務(wù)器,取而代之 由電話機(jī)150來進(jìn)行聲音識別處理。 如圖16所示,在電話機(jī)150中,作為功能結(jié)構(gòu)要素具備聲音輸入部102(相當(dāng)于 權(quán)利要求中的"聲音輸入單元")、號碼檢知部106(相當(dāng)于權(quán)利要求中的"號碼檢知單元")、 模型選擇部110(相當(dāng)于權(quán)利要求中的"模型選擇單元")、模型存儲部112(相當(dāng)于權(quán)利要 求中的"模型存儲單元")、聲音識別部114(相當(dāng)于權(quán)利要求中的"聲音識別單元")以及模 型更新部116 (相當(dāng)于權(quán)利要求中的"聲學(xué)模型更新單元"以及"語言模型更新單元")。
用戶所發(fā)出的聲音被輸入聲音輸入部102,并被輸出至聲音識別部114以及模型 更新部116。雖未圖示,但可以進(jìn)一步設(shè)置從輸入至聲音輸入部102的聲音中提取聲音特征 量的單元,并將該聲音特征量數(shù)據(jù)輸出至聲音識別部114以及模型更新部116。
16
號碼檢知部106檢知當(dāng)前呼出號碼以及其它號碼,并輸出至模型選擇部110。
模型選擇部IIO根據(jù)號碼檢知部106所檢知的當(dāng)前呼出號碼以及其它號碼來選擇 存儲在模型存儲部112中的聲學(xué)模型,且根據(jù)當(dāng)前呼出號碼來選擇存儲在模型存儲部112 中的語言模型。模型存儲部112存儲用于將聲音輸入部102所接收的聲音轉(zhuǎn)換為字符的聲 學(xué)模型以及語言模型。模型存儲部112存儲對于該電話機(jī)150可利用的全部電話號碼通用 的聲學(xué)模型,模型選擇部110也根據(jù)該電話機(jī)150中任意的當(dāng)前呼出號碼以及其它號碼來
選擇上述通用的聲學(xué)模型。模型選擇部iio將所選擇的聲學(xué)模型以及語言模型輸出至聲音 識別部114。 聲音識別部114根據(jù)模型選擇部IIO所選擇的聲學(xué)模型以及語言模型,將來自聲 音輸入部102的聲音轉(zhuǎn)換為字符。聲音識別部114向用戶顯示進(jìn)行過聲音識別處理后的結(jié) 果,并且輸出至模型更新部116。 模型更新部116利用來自聲音輸入部102的聲音、以及從聲音識別部114輸入的 聲音識別結(jié)果作為學(xué)習(xí)對象,更新模型存儲部112所存儲的聲學(xué)模型以及語言模型。模型 更新部116利用來自聲音輸入部102的全部聲音、以及來自聲音識別部114的全部聲音識 別結(jié)果作為學(xué)習(xí)對象,更新電話機(jī)150中的通用聲學(xué)模型。即,例如在電話機(jī)150可利用的 電話號碼是A以及B的情況下,模型更新部116利用電話號碼A以及B下發(fā)出的全部聲音 以及該聲音的識別結(jié)果作為學(xué)習(xí)對象,更新對于電話機(jī)150中的電話號碼A以及B通用的 聲學(xué)模型。 另一方面,模型更新部116利用來自聲音識別部114的全部聲音識別結(jié)果中的、依 據(jù)每個電話號碼而區(qū)分的聲音識別結(jié)果,來更新每個相應(yīng)電話號碼的語言模型。即,例如在 電話機(jī)150可利用的電話號碼是A以及B的情況下,模型更新部116利用針對電話號碼A 下發(fā)出的聲音的識別結(jié)果(即,字符)作為學(xué)習(xí)對象,更新用于電話機(jī)150的電話號碼A的 語言模型。另外,在此情況下,模型更新部116利用針對電話號碼B下發(fā)出的聲音的識別結(jié) 果作為學(xué)習(xí)對象,更新用于電話機(jī)150的電話號碼B的語言模型。 根據(jù)以上所說明的第4實(shí)施方式,電話機(jī)150的模型選擇部110根據(jù)當(dāng)前呼出號 碼以及其它號碼雙方來選擇聲學(xué)模型。即,選擇對于當(dāng)前呼出號碼以及其它號碼雙方通用 的聲學(xué)模型。這是因?yàn)楸景l(fā)明以一個用戶在一臺終端中利用多個電話號碼的電話機(jī)150中 的聲音識別為前提。即,雖然電話號碼不同但用戶是同一個,因此可以通過采用通用的聲學(xué) 模型來提高聲音識別的性能。采用通用的聲學(xué)模型,尤其在對同一終端的新號碼的聲音進(jìn) 行聲音識別時起到良好的效果。即,在現(xiàn)有技術(shù)中,如果是新號碼,則很可能沒有充分地對 可利用的聲學(xué)模型進(jìn)行更新,因此導(dǎo)致對新號碼的聲音識別性能必然將低,但在本發(fā)明中, 對來自新號碼的聲音使用與現(xiàn)有號碼對應(yīng)的聲學(xué)模型,因此可以提高對來自新號碼的聲音 的識別精度。另外,通過采用通用的聲學(xué)模型,可以減少要存儲在聲音識別服務(wù)器200的模 型存儲部112內(nèi)的聲學(xué)模型的數(shù)量,由此可以減少用于存儲聲學(xué)模型的容量。另一方面,對 于語言模型,雖然假定為一個用戶,但有可能每個電話號碼的話題不同,所以本發(fā)明的電話 機(jī)150的模型選擇部IIO僅根據(jù)當(dāng)前呼出號碼來選擇語言模型。S卩,選擇專門針對當(dāng)前呼 出號碼的語言模型。 另外,利用來自用戶的全部聲音來更新通用的聲學(xué)模型,由此能夠高精度地進(jìn)行 聲學(xué)模型的更新。這是因?yàn)榕c按照每個號碼來更新聲學(xué)模型的情況相比,增加了用于更新的學(xué)習(xí)量。 另外,利用對每個電話號碼的聲音的識別結(jié)果來更新每個電話號碼的語言模型,由此在每個電話號碼的話題不同的情況下,能夠?qū)iT針對該話題來更新語言模型。
以上,對本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行了說明,但不言而喻,本發(fā)明不限于上述實(shí)施方式。 例如,可采用SM卡(Subscriber Identity Module Card :用戶識別模i央卡)中的IMSI (International Mobile Subscriber Identity :國際移動用戶識別)碼,來取代上述實(shí)施方式中的電話號碼。
權(quán)利要求
一種聲音識別服務(wù)器,其與能在一臺終端中利用多個電話號碼的電話機(jī)連接,且將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符,其特征在于,上述聲音識別服務(wù)器具備聲音接收單元,其接收來自上述電話機(jī)的聲音;模型存儲單元,其存儲用于將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以上的語言模型;號碼判定單元,其判定上述電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼,選擇上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼,選擇上述模型存儲單元中存儲的語言模型;和聲音識別單元,其根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型,將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符。
2. 根據(jù)權(quán)利要求1所述的聲音識別服務(wù)器,其特征在于,上述模型存儲單元存儲對于一個電話機(jī)所能利用的全部電話號碼通用的聲學(xué)模型, 上述模型選擇單元也根據(jù)上述一個電話機(jī)中任意的上述當(dāng)前呼出號碼以及上述其它 號碼來選擇上述通用的聲學(xué)模型。
3. 根據(jù)權(quán)利要求2所述的聲音識別服務(wù)器,其特征在于,該聲音識別服務(wù)器還具有聲學(xué)模型更新單元,該聲學(xué)模型更新單元利用來自上述一個 電話機(jī)的全部聲音來更新上述通用的聲學(xué)模型。
4. 根據(jù)權(quán)利要求1所述的聲音識別服務(wù)器,其特征在于,該聲音識別服務(wù)器還具有語言模型更新單元,該語言模型更新單元利用針對來自上述 一個電話機(jī)的全部聲音中的、每個上述電話號碼的聲音的識別結(jié)果,來更新每個相應(yīng)電話 號碼的語言模型。
5. 根據(jù)權(quán)利要求1 4中任意一項(xiàng)所述的聲音識別服務(wù)器,其特征在于, 該聲音識別服務(wù)器還具有數(shù)據(jù)存儲單元,該數(shù)據(jù)存儲單元將上述一個電話機(jī)所能利用的上述多個電話號碼、與該電話機(jī)的用戶識別信息相關(guān)聯(lián)地存儲,上述模型選擇單元根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述數(shù)據(jù)存儲單 元中存儲的用戶識別信息,且根據(jù)該選擇的用戶識別信息來選擇上述模型存儲單元中存儲 的聲學(xué)模型。
6. 根據(jù)權(quán)利要求5所述的聲音識別服務(wù)器,其特征在于,該聲音識別服務(wù)器還具有對應(yīng)關(guān)系控制單元,該對應(yīng)關(guān)系控制單元在上述數(shù)據(jù)存儲單 元所存儲的上述多個電話號碼與上述用戶識別信息之間的對應(yīng)關(guān)系中進(jìn)行追加、變更或刪 除的處理。
7. 根據(jù)權(quán)利要求1 6中任意一項(xiàng)所述的聲音識別服務(wù)器,其特征在于, 上述聲音接收單元還接收為了上述模型選擇單元選擇上述聲學(xué)模型以及上述語言模型而參照的模式識別信息,上述模型選擇單元根據(jù)上述模式識別信息來選擇上述聲學(xué)模型以及上述語言模型。
8. 根據(jù)權(quán)利要求7所述的聲音識別服務(wù)器,其特征在于,在上述聲音接收單元接收到多個上述模式識別信息的情況下,上述模型選擇單元根據(jù)優(yōu)先級高的模式識別信息來選擇上述聲學(xué)模型以及上述語言模型。
9. 根據(jù)權(quán)利要求1 6中任意一項(xiàng)所述的聲音識別服務(wù)器,其特征在于, 上述聲音接收單元還接收上述電話機(jī)的用戶的屬性信息,上述模型選擇單元還參照上述屬性信息,來選擇上述聲學(xué)模型以及上述語言模型。
10. —種電話機(jī),其與將聲音轉(zhuǎn)換為字符的聲音識別服務(wù)器連接,且能在一臺終端中利用多個電話號碼,其特征在于,上述電話機(jī)具備聲音發(fā)送單元,其將來自用戶的聲音發(fā)送至上述聲音識別服務(wù)器;號碼檢知單元,其檢知該電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多 個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;禾口號碼通知單元,其將上述當(dāng)前呼出號碼以及上述其它號碼通知給上述聲音識別服務(wù)器。
11. 一種聲音識別系統(tǒng),其具有能在一臺終端中利用多個電話號碼的電話機(jī)、以及將 來自上述電話機(jī)的聲音轉(zhuǎn)換為字符的聲音識別服務(wù)器,其特征在于,上述電話機(jī)具備聲音發(fā)送單元,其將來自用戶的聲音發(fā)送至上述聲音識別服務(wù)器; 號碼檢知單元,其檢知該電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多 個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;禾口號碼通知單元,其將上述當(dāng)前呼出號碼以及上述其它號碼通知給上述聲音識別服務(wù)器,上述聲音識別服務(wù)器具備 聲音接收單元,其接收來自上述電話機(jī)的聲音;模型存儲單元,其存儲用于將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以上的語言模型;號碼判定單元,其根據(jù)來自上述電話機(jī)的上述號碼通知單元的通知,判定上述當(dāng)前呼 出號碼以及上述其它號碼;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼,選擇上述模型存儲單元 中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼,選擇上述模型存儲單元中存儲的語言模型; 禾口聲音識別單元,其根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型,將上述聲 音接收單元所接收的聲音轉(zhuǎn)換為字符。
12. —種聲音識別服務(wù)器中的聲音識別方法,該聲音識別服務(wù)器與能在一臺終端中利 用多個電話號碼的電話機(jī)連接,且將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符,該聲音識別方法 的特征在于,具有以下步驟模型存儲步驟,上述聲音識別服務(wù)器的模型存儲單元存儲用于將來自上述電話機(jī)的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以上的語言模型;聲音接收步驟,上述聲音識別服務(wù)器的聲音接收單元接收來自上述電話機(jī)的聲音; 號碼判定步驟,上述聲音識別服務(wù)器的號碼判定單元判定上述電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;模型選擇步驟,上述聲音識別服務(wù)器的模型選擇單元根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼來選擇上述模型存儲單元中存儲的語言模型;禾口聲音識別步驟,上述聲音識別服務(wù)器的聲音識別單元根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型,將上述聲音接收單元所接收的聲音轉(zhuǎn)換為字符。
13. —種電話機(jī),其能在一臺終端中利用多個電話號碼,其特征在于,上述電話機(jī)具備聲音輸入單元,其輸入來自用戶的聲音;號碼檢知單元,其檢知該電話機(jī)的當(dāng)前的呼出電話號碼即當(dāng)前呼出號碼、以及上述多個電話號碼中的除上述當(dāng)前呼出號碼以外的電話號碼即其它號碼;模型存儲單元,其存儲用于將上述聲音輸入單元所輸入的聲音轉(zhuǎn)換為字符的聲學(xué)模型以及語言模型;模型選擇單元,其根據(jù)上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述模型存儲單元中存儲的聲學(xué)模型,且根據(jù)上述當(dāng)前呼出號碼來選擇上述模型存儲單元中存儲的語言模型;和聲音識別單元,其根據(jù)上述模型選擇單元所選擇的聲學(xué)模型以及語言模型,將上述聲音輸入單元所輸入的聲音轉(zhuǎn)換為字符。
14. 根據(jù)權(quán)利要求13所述的電話機(jī),其特征在于,上述模型存儲單元存儲對于該電話機(jī)所能利用的全部電話號碼通用的聲學(xué)模型,上述模型選擇單元也根據(jù)該電話機(jī)中任意的上述當(dāng)前呼出號碼以及上述其它號碼來選擇上述通用的聲學(xué)模型。
15. 根據(jù)權(quán)利要求14所述的電話機(jī),其特征在于,還具有聲學(xué)模型更新單元,其利用來自上述用戶的全部聲音來更新上述通用的聲學(xué)模型。
16. 根據(jù)權(quán)利要求13所述的電話機(jī),其特征在于,還具有語言模型更新單元,其利用對來自上述用戶的全部聲音中的、每個上述電話號碼的聲音的識別結(jié)果,來更新每個相應(yīng)電話號碼的語言模型。
全文摘要
本發(fā)明提供聲音識別服務(wù)器、電話機(jī)、聲音識別系統(tǒng)以及聲音識別方法。聲音識別服務(wù)器(200)具備聲音接收部(202),其接收來自電話機(jī)(100)的聲音;模型存儲部(208),其存儲用于將聲音接收部(202)所接收的聲音轉(zhuǎn)換為字符的一個以上的聲學(xué)模型以及一個以上的語言模型;號碼判定部(204),其判定電話機(jī)(100)的當(dāng)前呼出號碼以及其它號碼;模型選擇部(206),其根據(jù)當(dāng)前呼出號碼以及其它號碼選擇模型存儲部(208)中存儲的聲學(xué)模型,且根據(jù)當(dāng)前呼出號碼選擇模型存儲部(208)中存儲的語言模型;和聲音識別部(210),其根據(jù)模型選擇部(206)所選擇的聲學(xué)模型以及語言模型,將聲音接收部(202)所接收的聲音轉(zhuǎn)換為字符。
文檔編號G10L15/28GK101794577SQ20101010853
公開日2010年8月4日 申請日期2010年1月29日 優(yōu)先權(quán)日2009年1月30日
發(fā)明者古川博崇, 張志鵬 申請人:株式會社Ntt都科摩
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
九龙县| 浦北县| 蒲城县| 乌鲁木齐县| 南宫市| 昭觉县| 安龙县| 菏泽市| 兴国县| 灌云县| 平乐县| 敖汉旗| 稻城县| 菏泽市| 德清县| 青海省| 玛沁县| 成武县| 钟山县| 建瓯市| 黄骅市| 普兰县| 沅江市| 龙江县| 巫溪县| 老河口市| 波密县| 建水县| 屯留县| 乌审旗| 房产| 铜川市| 竹溪县| 遂溪县| 昌图县| 年辖:市辖区| 文成县| 马龙县| 蒙自县| 滦平县| 噶尔县|