聲音識別裝置的制作方法

文檔序號：2823266閱讀：207來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音識別裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及聲音識別裝置。
背景技術(shù)：
作為現(xiàn)有的聲音識別裝置，將新詞匯與已登錄詞匯混淆的可能性進行數(shù)值化，并對該數(shù)值進行評價，來判定是否登錄新詞匯(例如，參照專利文獻1)。另外，在專利文獻2 中揭示有以下聲音識別裝置即，將聲音識別用的存儲裝置設(shè)為分級結(jié)構(gòu)，逐漸縮小包括范圍，從而能夠一邊預(yù)測下一發(fā)聲內(nèi)容、一邊進行識別。專利文獻1 日本專利特開2002-297181號公報專利文獻2 日本專利特開2004-325704號公報

發(fā)明內(nèi)容
現(xiàn)有的聲音識別裝置使用作為識別對象的語句的文本標(biāo)記，來生成聲音識別字典。此處，在作為識別對象的語句數(shù)量較多的情況下或在語句較長的情況下，聲音識別字典尺寸變大。例如，在利用用于導(dǎo)航系統(tǒng)或便攜式電話等設(shè)備的嵌入式軟件來實現(xiàn)聲音識別裝置的情況下，由于該設(shè)備的存儲器存在限制，因此，若聲音識別詞典尺寸超過存儲器可使用的容量，則存在聲音識別裝置不能正常工作的問題。與此不同的是，專利文獻1是基于新詞匯與已登錄詞匯混淆的可能性的評價值、來判定是否登錄新詞匯的聲音識別裝置，因而，未考慮利用嵌入式軟件來實現(xiàn)聲音識別裝置的情況，并且未考慮存儲器的容量有限制的情況，因此，不能解決上述問題。另外，專利文獻2是考慮了因詞匯增加而導(dǎo)致的識別性能的降低、來生成聲音識別詞典的聲音識別裝置，但是與上述相同，也未考慮存儲器的容量有限制的情況，因此，不能解決上述問題。本發(fā)明是為了解決上述問題而完成的，其目的在于提供一種聲音識別裝置，該聲音識別裝置能夠抑制聲音識別詞典的詞典尺寸的增大。本發(fā)明的聲音識別裝置包括語句選擇部，該語句選擇部從識別對象語句的候補中選擇聲音單元數(shù)為規(guī)定值以下的語句作為識別對象語句。根據(jù)本發(fā)明，由于從識別對象語句的候補中選擇聲音單元數(shù)為規(guī)定值以下的語句作為識別對象語句，因此，具有如下效果能抑制由該識別對象語句構(gòu)成的聲音識別詞典的尺寸的增大，即使在利用用于導(dǎo)航系統(tǒng)或便攜式電話等設(shè)備的嵌入式軟件來實現(xiàn)聲音識別裝置的情況下，也能夠?qū)崿F(xiàn)在存儲器可使用的容量以內(nèi)的詞典尺寸。

圖1是表示本發(fā)明的實施方式1的聲音識別裝置的結(jié)構(gòu)的框圖。圖2是表示實施方式1的聲音識別裝置的動作流程的流程圖。圖3是用于說明識別對象語句候補的去除處理的圖。
圖4是表示本發(fā)明的實施方式2的聲音識別裝置的結(jié)構(gòu)的框圖。圖5是表示實施方式2的聲音識別裝置的動作流程的流程圖。圖6是用于說明實施方式2的詞典生成處理部的處理的圖。圖7是表示本發(fā)明的實施方式3的聲音識別裝置的結(jié)構(gòu)的框圖。圖8是表示實施方式3的聲音識別裝置的動作流程的流程圖。圖9是用于說明識別對象語句候補的語句裁減處理的圖。圖10是表示本發(fā)明的實施方式4的聲音識別裝置的結(jié)構(gòu)的框圖。圖11是表示實施方式4的聲音識別裝置的動作流程的流程圖。圖12是表示本發(fā)明的實施方式5的聲音識別裝置的結(jié)構(gòu)的框圖。圖13是表示實施方式5的聲音識別裝置的動作流程的流程圖。圖14是表示去除的詞匯的通知例的圖。
具體實施例方式下面，為了更詳細(xì)地說明本發(fā)明，根據(jù)附圖對用于實施本發(fā)明的方式進行說明。實施方式1.圖1是表示本發(fā)明的實施方式1的聲音識別裝置的結(jié)構(gòu)的框圖。在圖1中，實施方式1的聲音識別裝置1包括詞典生成處理部2及聲音識別處理部3。詞典生成處理部2 是用于生成由預(yù)先決定的聲音單元(acoustic unit)數(shù)以下的語句構(gòu)成的聲音識別詞典的單元，包括識別對象語句候補的存儲部21、語句選擇部22、識別對象語句的存儲部23、聲音識別詞典生成部對、及聲音識別詞典的存儲部25。存放在存儲部21中的識別對象語句候補包括要由聲音識別裝置1識別的文本的候補和表示該文本的發(fā)音內(nèi)容的聲音單元的組合。此處，所謂的識別對象語句是指聲音單元為規(guī)定數(shù)量以下的語句。另外，所謂的聲音單元是指音素或音節(jié)等較短的聲音單位。該聲音單元數(shù)越多，則聲音識別詞典的尺寸增加。因此，在實施方式1的聲音識別裝置1中，僅以預(yù)先決定的聲音單元數(shù)以下的語句來生成聲音識別字典，從而防止詞典尺寸的增大。語句選擇部22是以下單元即，將聲音單元即音素作為基準(zhǔn)，從識別對象語句候補中去除超過對一個識別對象語句所預(yù)先設(shè)定的音素數(shù)的定義值的識別對象語句候補，來選擇上述定義值以內(nèi)的音素數(shù)的識別對象語句。聲音識別詞典生成部M是使用從存儲部 23中讀取出的識別對象語句、來生成聲音識別詞典的單元。聲音識別處理部3包括聲音識別詞典的存儲部25及聲音識別部26。聲音識別部 26是以下單元即，參照存放在存儲部25中的聲音識別詞典，對用戶所發(fā)出的識別對象的聲音(以下，稱為識別對象聲音)執(zhí)行聲音識別處理，來獲得識別結(jié)果。此外，通過將遵循本發(fā)明要點的詞典生成和聲音識別用程序讀入計算機，并使該計算機的CPU加以執(zhí)行，從而能在該計算機上將語句選擇部22、聲音識別詞典生成部M、及聲音識別部26作為硬件和軟件協(xié)同工作的具體單元來實現(xiàn)。另外，識別對象語句候選的存儲部21、識別對象語句的存儲部23、及聲音識別詞典的存儲部25能夠構(gòu)建于上述計算機所包括的存儲裝置(例如，硬件裝置或外部存儲媒體等)的存儲區(qū)域上。接下來，對動作進行說明。圖2是表示實施方式1的聲音識別裝置的動作流程的流程圖，圖2中由附加了標(biāo)號A的虛線圍住的處理步驟表示詞典生成處理部2的處理，由附加了標(biāo)號B的虛線圍住的處理步驟表示聲音識別處理部3的處理。首先，語句選擇部22從存儲部21中讀出用于生成聲音識別詞典的識別對象語句候補來進行準(zhǔn)備(步驟STl)。接著，語句選擇部22將對語句編號N進行計數(shù)的計數(shù)器(在圖1中未圖示)的計數(shù)值初始化為0 (N = 0)，上述語句編號N是對各識別對象語句候補按照處理順序來附加的連續(xù)編號(步驟ST2)。語句選擇部22將上述計數(shù)器的計數(shù)值加上1 (步驟SB)，對語句編號N是否是從存儲部21中讀出的識別對象語句候補數(shù)以內(nèi)的數(shù)進行判定(步驟ST4)。此處，若語句編號N是識別對象語句候補數(shù)以內(nèi)的數(shù)(步驟ST4 是)，則語句選擇部22對與當(dāng)前語句編號 N相對應(yīng)的識別對象語句候補的聲音單元的數(shù)量是否在定義值以內(nèi)進行判定(步驟ST5)。若與語句編號N相對應(yīng)的識別對象語句候補的聲音單元的數(shù)量是在定義值以內(nèi)(步驟ST5 是)，則語句選擇部22將該文件編號N的識別對象語句候補作為識別對象語句存放到存儲部23 (步驟ST6)。另一方面，若與語句編號N相對應(yīng)的識別對象語句候補的聲音單元的數(shù)量不是在定義值以內(nèi)(步驟ST5 否)，則語句選擇部22從識別對象語句候補中去除該語句編號N的語句(步驟ST8)。接著，若步驟ST6或步驟ST8的處理結(jié)束，則語句選擇部22返回至步驟 ST3，將對語句編號N進行計數(shù)的計數(shù)器的計數(shù)值加上1，對與下一語句編號相對應(yīng)的識別對象語句候補重復(fù)從步驟ST4到步驟ST8的處理。此處，對步驟ST8的去除處理進行說明。圖3是用于說明識別對象語句候補的去除處理的圖，示出了將音素設(shè)為基準(zhǔn)作為聲音單元、從識別對象語句候補中去除音素數(shù)超過20的語句的情況。如圖3所示，對于語句編號N = 1 S卩[力> &力、‘打It九t < 6 L· ]的識別對象語句候補，音素串為RanagawakeN kamakurasi] (21音素)，由于超過了 20音素，因此要去除。同樣地，語句編號N = 6、8的語句的音素數(shù)超過了 20，因此要去除，而語句編號N = 2 5、7的語句作為識別對象語句而被存放到存儲部^3。構(gòu)成識別對象語句的音素分別與聲響模型(acoustic model)相對應(yīng)，因此對聲音識別詞典的尺寸有較大影響。此處，在該實施方式1中，通過去除音素數(shù)超過定義值的候補語句，從而能夠防止詞典尺寸的增加。此外，在圖3的例子中，是逐一對構(gòu)成語句的音素進行計數(shù)來求出音素數(shù)的，但也可利用摩爾數(shù)(molar number)來計算音素數(shù)。返回至圖2的說明，若語句編號N是超過識別對象語句候補數(shù)的數(shù)(語句編號N >識別對象語句候補數(shù))(步驟ST4 否)，則聲音識別詞典生成部M基于至此已經(jīng)存放到存儲部23中的識別對象語句來生成聲音識別詞典(步驟ST7)。將所生成的聲音識別詞典存放到存儲部25。聲音識別處理部3的聲音識別部沈輸入用戶所發(fā)出的識別對象聲音(步驟ST9)，對于該識別對象聲音，參照存放在存儲部25中的聲音識別詞典來進行聲音識別處理，輸出識別結(jié)果(步驟ST10)。由上所述，根據(jù)本實施方式1，由于包括從識別對象語句的候補中選擇聲音單元數(shù)為規(guī)定值以下的語句作為識別對象語句的語句選擇部22，因此，能抑制聲音識別詞典的詞典尺寸的增大，即使在利用用于導(dǎo)航系統(tǒng)或便攜式電話等設(shè)備的嵌入式軟件來實現(xiàn)聲音識別裝置的情況下，也能實現(xiàn)在存儲器可使用的容量以內(nèi)的詞典尺寸。由此，能夠提供適于利用嵌入式軟件來構(gòu)筑的情況的聲音識別裝置。實施方式2.圖4是表示本發(fā)明的實施方式2的聲音識別裝置的結(jié)構(gòu)的框圖。在圖4中，實施方式2的聲音識別裝置IA具有與上述實施方式1的圖1基本相同的結(jié)構(gòu)，但是其不同點在于，包括取決于所有識別對象語句候補的總聲音單元數(shù)的語句選擇部22a，以取代實施方式 1的取決于各個識別對象語句候補的聲音單元數(shù)的語句選擇部22。語句選擇部2 選擇識別對象語句并存放到存儲部23，以使得所有識別對象語句候補的聲音單元數(shù)的總和在定義值以內(nèi)。此外，對于除聲音識別處理部3、及詞典生成處理部2的語句選擇部22a以外的結(jié)構(gòu)，由于都與上述實施方式1相同，因此省略說明。接下來，對動作進行說明。圖5是表示實施方式2的聲音識別裝置的動作流程的流程圖，圖5中由附加了標(biāo)號A的虛線圍住的處理步驟表示詞典生成處理部2的處理，由附加了標(biāo)號B的虛線圍住的處理步驟表示聲音識別處理部3的處理。首先，語句選擇部2 從存儲部21中讀出用于生成聲音識別詞典的識別對象語句候補來進行準(zhǔn)備(步驟STl)。接著，語句選擇部2 對各識別對象語句候補按照聲音單元數(shù)從小到大的順序來進行排序(步驟ST1-1)。接著，語句選擇部2 將對語句編號N進行計數(shù)的計數(shù)器(在圖4中未圖示)的計數(shù)值初始化為0 (N = 0)，并將對所有的識別對象語句候補的總聲音單元數(shù)進行計數(shù)的計數(shù)器(在圖4中未圖示)的計數(shù)值初始化為0，上述語句編號N是對各識別對象語句候補按照處理順序所附加的連續(xù)編號(步驟ST2a)。語句選擇部2 將對語句編號N進行計數(shù)的計數(shù)器的計數(shù)值加上1 (步驟ST3)，對語句編號N是否是從存儲部21中讀出的識別對象語句候補數(shù)以內(nèi)的數(shù)進行判定(步驟 ST4)。此處，若語句編號N是識別對象語句候補數(shù)以內(nèi)的數(shù)(步驟ST4 是)，則語句選擇部 22a將該語句編號N的語句的聲音單元數(shù)與對總聲音單元數(shù)進行計數(shù)的計數(shù)器的計數(shù)值相加(步驟ST4-1)。接著，語句選擇部2 對由上述計數(shù)器的計數(shù)值表示的總聲音單元數(shù)是否在定義值以內(nèi)進行判定(步驟STfe)。若總聲音單元數(shù)在定義值以內(nèi)(步驟STfe:是)，則語句選擇部2 將該文件編號N的識別對象語句候補作為識別對象語句存放到存儲部23 (步驟 ST6)。在語句編號N超過從存儲部21中讀出的識別對象語句候補數(shù)的情況下(步驟 ST4 否)，聲音識別詞典生成部M基于存放在存儲部23中的識別對象語句，來生成聲音識別詞典，并存放到存儲部25 (步驟ST7)。另外，若總聲音單元數(shù)超過定義值(步驟STfe: 否)，則語句選擇部2 停止對存儲部23積累識別對象語句，聲音識別詞典生成部M基于到該時刻為止存放在存儲部23中的識別對象語句，來生成聲音識別詞典，并存放到存儲部 25 (步驟 ST8a)。若在步驟ST6中選擇識別對象語句，則語句選擇部2 返回至步驟ST3，將對語句編號N進行計數(shù)的計數(shù)器的計數(shù)值加上1，對與下一語句編號相對應(yīng)的識別對象語句候補重復(fù)從步驟ST4到步驟STSa的處理。參照如上所述生成的聲音識別詞典的聲音識別處理(步驟ST9及ST10)與上述實施方式1相同。圖6是用于說明實施方式2的詞典生成處理部的處理的圖，示出了將音素設(shè)為基準(zhǔn)作為聲音單元、能夠選擇總音素數(shù)不超過100的識別對象語句候補作為識別對象語句的情況。在圖6所示的例子中，語句選擇部2 從音素數(shù)較少的語句開始依次進行選擇，在所有語句的總音素數(shù)超過100的時刻停止選擇。即，從語句編號N = 1到語句編號N = 6為止的總音素數(shù)合計為94音素，若加上下一語句編號N = 7的語句的音素數(shù)，則大于100音素。因而，將到語句編號N = 6的[力> &力5 h汁九t < 6 L· ]為止的語句選擇作為識別對象語句。在本實施方式2中，選擇成為識別對象語句的多個語句，使得該多個語句的聲音單元數(shù)的總和為定義值以下。識別對象語句的總聲音單元數(shù)越多，則聲音識別詞典尺寸增加，因此，若生成預(yù)先決定的總聲音單元數(shù)以下的聲音識別詞典，則能夠防止聲音識別詞典尺寸的增大。在取決于總聲音單元的語句選擇部22a中，使用音素作為聲音單元并將識別對象語句候補的音素數(shù)相加，在中途的合計值(總聲音單元數(shù))超過所定義的值的情況下，去除該語句及其后的語句，來獲得識別對象語句。此外，在上述實施方式2中，在步驟STfe中識別對象語句候補的總聲音單元數(shù)超過定義值的情況下，也可根據(jù)在步驟STlO中執(zhí)行的聲音識別處理的結(jié)果，使語句選擇部 22a選擇要去除的識別對象語句候補。例如，使聲音單元數(shù)較多的語句再次返回到識別對象語句候補，在下一次的選擇處理中作為識別對象語句來用于生成聲音識別詞典。在參照由此生成的聲音識別詞典的聲音識別結(jié)果為良好的情況下，將該情況提示給用戶，由用戶來判斷是否要去除。另外，在識別對象語句候補的總聲音單元數(shù)超過定義值的情況下，也可執(zhí)行后面在實施方式3中闡述的語句的裁減來調(diào)整總聲音單元數(shù)。在這種情況下，語句選擇部2 也可提供用于選擇成為裁減對象的語句的⑶I (Graphical User hterface 圖形用戶界面)，用戶據(jù)此來選擇裁減對象的語句。由此，根據(jù)本實施方式2，在總聲音單元數(shù)超過定義值的情況下，及在語句編號N >識別對象語句候補數(shù)的情況下，基于到該時刻為止累積在存儲部23中的識別對象語句來生成聲音識別詞典。通過采用這樣的構(gòu)成，能夠抑制聲音識別詞典的詞典尺寸的增大，能夠提供適于利用嵌入式軟件來構(gòu)筑的情況的聲音識別裝置。實施方式3.圖7是表示本發(fā)明的實施方式3的聲音識別裝置的結(jié)構(gòu)的框圖。在圖7中，實施方式3的聲音識別裝置IB具有與上述實施方式1的圖1基本相同的結(jié)構(gòu)，但是其不同點在于，包括取決于識別對象語句候補的聲音單元數(shù)的語句裁減部27，以取代實施方式1的取決于各個識別對象語句候補的聲音單元數(shù)的語句選擇部22，并包括對裁減后的識別對象語句進行存儲的存儲部28，以取代實施方式1的識別對象語句的存儲部23。語句裁減部27是以下單元即，在識別對象語句候補的聲音單元數(shù)超過定義值的情況下，對于該語句，在包含超過定義值的部分的聲音單元的音節(jié)的前一個音節(jié)處進行裁減，得到裁減后的文本。盡管聲音單元數(shù)較多的語句或文本會導(dǎo)致聲音識別詞典尺寸的增加，但是，在本實施方式3中，即使是上述文本，也能識別到聲音單元數(shù)不超過定義值的部分為止。
存儲部觀是存放有由語句裁減部27完成了裁減處理后的識別對象語句的存儲部。另外，對于除語句裁減部27及存儲部觀以外的結(jié)構(gòu)，都與上述實施方式1相同，因此省略說明。接下來，對動作進行說明。圖8是表示實施方式3的聲音識別裝置的動作流程的流程圖，圖8中由附加了標(biāo)號A的虛線圍住的處理步驟表示詞典生成處理部2的處理，由附加了標(biāo)號B的虛線圍住的處理步驟表示聲音識別處理部3的處理。在圖8中，從步驟STl到步驟ST7的處理都與上述實施方式1的圖2所示的內(nèi)容相同，因此，省略說明。若與語句編號N相對應(yīng)的識別對象語句候補的聲音單元的數(shù)量不在定義值以內(nèi) (步驟ST5 否)，則語句裁減部27對該識別對象語句候補的超過上述定義值的音節(jié)及之后的音節(jié)進行裁減，將裁減后的語句作為語句編號N的識別對象語句存放到存儲部28(步驟 ST8b)。若步驟ST6或步驟ST8b的處理結(jié)束，則語句裁減部27返回至步驟ST3，將對語句編號N進行計數(shù)的計數(shù)器的計數(shù)值加上1，對與下一語句編號相對應(yīng)的識別對象語句候補重復(fù)從步驟ST4到步驟ST8b的處理。此處，對步驟STSb中的語句裁減處理進行說明。圖9是用于說明識別對象語句候補的語句裁減處理的圖，示出了將音素設(shè)為基準(zhǔn)作為聲音單元、從識別對象語句候補中去除音素數(shù)超過20的音節(jié)及之后的音節(jié)的情況。在圖9的上部所示的例子中，語句編號N = 1、6、8的各識別對象語句候補成為裁減對象。在這種情況下，如圖9的下部所示，語句裁減部27去除超過20音素的音節(jié)及之后的音節(jié)。例如，對于語句編號N = 1即[力> &力5打汁九t < ^ L· ]的識別對象語句候補，音素串為RanagawakeN kamakurasi] (21音素)，超過了 20音素。因此，將超過20音素的音節(jié)[si]及之后的音節(jié)設(shè)為去除對象，將RanagawakeN kamakura] (19音素)作為識別對象語句。即，進行裁減，形成到包含超過第20個音素的音素[i]的音節(jié)[si]之前為止的文本。對語句編號6、8也進行相同的處理，在進行語句裁減后，僅將音素數(shù)為20以下的識別對象語句候補獲取作為裁減后的識別對象語句。此外，不僅能夠以音節(jié)單位進行裁減，也能夠以音素單位進行裁減。例如，在RanagawakeN kamakurasi]的例子中，超過20音素的音素成為裁減對象，從而 [kanagawakeN kamakuras] (20音素)成為識別對象語句。即，進行裁減，形成到超過第20 個音素的音素[i]之前為止的文本。返回至圖8的說明，若語句編號N是超過識別對象語句候補數(shù)的數(shù)(語句編號N >識別對象語句候補數(shù))(步驟ST4 否)，則聲音識別詞典生成部M基于到該時刻為止已經(jīng)積累在存儲部觀中的裁減后的識別對象語句來生成聲音識別詞典(步驟ST7)。將所生成的聲音識別詞典存放到存儲部25。聲音識別處理部3的聲音識別部沈輸入用戶所發(fā)出的識別對象聲音(步驟ST9)，對于該識別對象聲音，參照存放在存儲部25中的聲音識別詞典來進行聲音識別處理，輸出識別結(jié)果(步驟ST10)。由此，根據(jù)本實施方式3，由于包括語句裁減部27，該語句裁減部27在識別對象語句的候補的聲音單元數(shù)超過規(guī)定值的情況下，對超過該規(guī)定值的聲音單元及之后的聲音單元、或包含該聲音單元的音節(jié)及之后的音節(jié)進行裁減以將其去除，并將裁減后的語句作為識別對象語句，因此，能夠?qū)⒌铰曇魡卧獢?shù)不超過定義值的部分為止作為識別對象語句，抑制聲音識別詞典的詞典尺寸的增大，而盡量不減少識別詞匯數(shù)，能夠提供適于利用嵌入式軟件來構(gòu)筑的情況的聲音識別裝置。實施方式4.圖10是表示本發(fā)明的實施方式4的聲音識別裝置的結(jié)構(gòu)的框圖。在圖10中，實施方式4的聲音識別裝置IC具有與上述實施方式3的圖7基本相同的結(jié)構(gòu)，但是不同點在于，包括利用對裁減后的語句后接雜音模型(gartage model)(以下，簡稱為GM)后的識別對象語句、來生成聲音識別詞典的GM附加聲音識別詞典生成部29，以替代聲音識別詞典生成部M，并且，還包括存放雜音模型的存儲部30。GM附加聲音識別詞典生成部四是對裁減后的識別對象語句后續(xù)追加雜音模型來生成聲音識別詞典的單元。存放在存儲部30中的雜音模型是對聲音區(qū)間進行檢測的模型，即使聲音中后續(xù)有包含無用語或雜音的未知發(fā)音，也能對其進行識別。因此，通過在聲音識別詞典的識別詞匯的前后附加雜音模型。從而即使在該識別詞匯的發(fā)音前后附加附帶語，也能識別出該識別詞匯。由此，能夠?qū)υ谡Z句的中途進行了裁減的識別對象語句的被裁減的后續(xù)部分進行識別，能夠防止作為識別結(jié)果而得到的分?jǐn)?shù) (正確度)降低。另外，對于除GM附加聲音識別詞典生成部四及存儲部30以外的結(jié)構(gòu)，由于都與上述實施方式3相同，因此省略說明。接下來，對動作進行說明。圖11是表示實施方式4的聲音識別裝置的動作流程的流程圖，圖11中由附加了標(biāo)號A的虛線圍住的處理步驟表示詞典生成處理部2的處理，由附加了標(biāo)號B的虛線圍住的處理步驟表示聲音識別處理部3的處理。在圖11中，由于從步驟STl到步驟ST6、及步驟 STSb的處理都與上述實施方式3的圖8所示的內(nèi)容相同，因此，省略說明。若語句編號N是超過識別對象語句候補數(shù)的數(shù)(語句編號N >識別對象語句候補數(shù))(步驟ST4 否)，則GM附加聲音識別詞典生成部四對到該時刻為止已經(jīng)積累在存儲部 28中的裁減后的識別對象語句的末尾、附加從存儲部30中讀出的雜音模型，并基于附加了雜音模型后的識別對象語句，來生成聲音識別詞典(步驟ST7a)。將所生成的聲音識別詞典存放到存儲部25。參照如上所述生成的聲音識別詞典的聲音識別處理(步驟ST9及ST10)與上述實施方式1相同。若對上述實施方式3所示的圖9的例子進行說明，則在語句編號N = 1、6、8的識別對象語句完成裁減的情況下，語句裁減部27對這些識別對象語句設(shè)定表示裁減完成的標(biāo)記。若GM附加聲音識別詞典生成部四參照該標(biāo)記值、確定為裁減完成，則使語句編號N =1、6、8的識別對象語句后接雜音模型，并使用這些識別對象語句來生成聲音識別詞典。由此，根據(jù)本實施方式4，由于對完成裁減的識別對象語句后接雜音模型，來生成聲音識別詞典，因此，能夠盡可能不減少識別詞匯數(shù)，且即使是被裁減后的詞匯也能夠進行識別，因此，能夠抑制聲音識別詞典的詞典尺寸的增大，且能夠防止作為識別結(jié)果而得到的分?jǐn)?shù)降低。由此，能夠提供適于利用嵌入式軟件來構(gòu)筑的情況的聲音識別裝置。實施方式5.
圖12是表示本發(fā)明的實施方式5的聲音識別裝置的結(jié)構(gòu)的框圖。在圖12中，實施方式5的聲音識別裝置ID具有與上述實施方式1的圖1基本相同的結(jié)構(gòu)，但是其不同點在于，包括識別對象外候補通知部31。識別對象外候補通知部31是向用戶通知作為識別對象外而由語句選擇部22去除的識別對象語句候補的單元。此外，除了識別對象外候補通知部31以外的結(jié)構(gòu)都與上述實施方式1相同，因此省略說明。接下來，對動作進行說明。圖13是表示實施方式5的聲音識別裝置的動作流程的流程圖，圖13中由附加了標(biāo)號A的虛線圍住的處理步驟表示詞典生成處理部2的處理，由附加了標(biāo)號B的虛線圍住的處理步驟表示聲音識別處理部3的處理。在圖13中，從步驟STl到步驟ST8的處理都與上述實施方式1的圖2所示的內(nèi)容相同，因此，省略說明。在步驟ST8中將聲音單元數(shù)超過定義值的識別對象語句候補去除時，語句選擇部 22將所去除的識別對象語句候補通知給識別對象外候補通知部31。在由聲音識別詞典生成部M生成聲音識別詞典時，識別對象外候補通知部31將上述通知的識別對象語句候補通知給用戶(步驟ST8-1)。由此，用戶能夠識別到識別對象外的語句。例如，如上述實施方式1所示的圖3那樣，在使用音素作為聲音單元、僅將20音素以下的語句作為識別對象的情況下，對于[&力5 h W &t < 6 L· ]這樣的識別對象語句候補，音素為RanagawakeN kamakurasi] (21音素)，由于超過了 20音素，因此，成為去除對象。此時，識別對象外候補通知部31將該詞匯為識別對象外的情況通知給用戶。作為通知方法，如圖14所示，有利用成為識別對象外的詞匯的目錄、和記載了該詞匯為識別對象外的情況的屏幕文字(telop)來進行通知的方法。返回至圖13的說明。若步驟ST6或步驟ST8-1的處理結(jié)束，則語句選擇部22返回至步驟ST3，將對語句編號N進行計數(shù)的計數(shù)器的計數(shù)值加上1，對與下一語句編號相對應(yīng)的識別對象語句候補重復(fù)從步驟ST4到步驟ST8-1的處理。參照如上所述生成的聲音識別詞典的聲音識別處理(步驟ST9及ST10)與上述實施方式1相同。由此，根據(jù)本實施方式5，由于包括對未被選擇作為識別對象語句的候補或成為裁減處理對象的候補進行通知的識別對象外候補通知部31，因此，能夠一邊事先使用戶理解成為識別對象外的詞匯，一邊抑制聲音識別詞典的詞典尺寸的增大，因此，能夠提供便利的、且適于利用嵌入式軟件來構(gòu)筑的情況的聲音識別裝置。另外，上述實施方式5的識別對象外候補通知部31也能追加到上述實施方式2 4的結(jié)構(gòu)中。在這種情況下，識別對象外候補通知部31向用戶通知由語句選擇部2 識別為去除對象的識別對象語句候補，或向用戶通知由語句裁減部27a識別為裁減對象的識別對象語句候補。即使采用這樣的結(jié)構(gòu)，也能在生成聲音識別詞典時，使用戶事先理解識別對象外或?qū)⒆R別詞匯在中途裁減的文本。由此，可提高用戶的便利性。工業(yè)上的實用性本發(fā)明的聲音識別裝置能夠抑制由該識別對象語句構(gòu)成的聲音識別詞典的尺寸的增大，即使在利用用于導(dǎo)航系統(tǒng)或便攜式電話等設(shè)備的嵌入式軟件來實現(xiàn)聲音識別裝置的情況下，也能實現(xiàn)在存儲器可使用的容量以內(nèi)的詞典尺寸，因此，適用于需要較大存儲器
容量的聲音識別裝置等。
權(quán)利要求
1.一種聲音識別裝置，包括聲音識別詞典生成部，該聲音識別詞典生成部基于識別對象語句來生成聲音識別詞典；以及聲音識別部，該聲音識別部參照所述聲音識別詞典來對識別對象的聲音進行聲音識別，其特征在于，包括語句選擇部，該語句選擇部從所述識別對象語句的候補中選擇聲音單元數(shù)為規(guī)定值以下的語句作為所述識別對象語句。
2.一種聲音識別裝置，包括聲音識別詞典生成部，該聲音識別詞典生成部基于識別對象語句來生成聲音識別詞典；以及聲音識別部，該聲音識別部參照所述聲音識別詞典來對識別對象的聲音進行聲音識別，其特征在于，包括語句選擇部，該語句選擇部選擇語句作為所述識別對象語句，以使得對所述識別對象語句的候補的聲音單元數(shù)進行總計而得到的總聲音單元數(shù)為規(guī)定值以下。
3.一種聲音識別裝置，包括聲音識別詞典生成部，該聲音識別詞典生成部基于識別對象語句來生成聲音識別詞典；以及聲音識別部，該聲音識別部參照所述聲音識別詞典來對識別對象的聲音進行聲音識別，其特征在于，包括語句裁減部，該語句裁減部在所述識別對象語句的候補的聲音單元數(shù)超過規(guī)定值的情況下，對超過該規(guī)定值的聲音單元及之后的聲音單元、或包含該聲音單元的音節(jié)及之后的音節(jié)進行裁減以將其去除，并將裁減后的語句作為所述識別對象語句。
4.如權(quán)利要求3所述的聲音識別裝置，其特征在于，聲音識別詞典生成部對由語句裁減部實施了裁減處理后獲得的識別對象語句的末尾附加雜音模型，并基于附加了該雜音模型的所述識別對象語句來生成聲音識別詞典。
5.如權(quán)利要求1所述的聲音識別裝置，其特征在于，包括通知部，該通知部對未被選擇作為識別對象語句的候補或成為裁減處理對象的候補進行通知。
6.如權(quán)利要求2所述的聲音識別裝置，其特征在于，包括通知部，該通知部對未被選擇作為識別對象語句的候補或成為裁減處理對象的候補進行通知。
7.如權(quán)利要求3所述的聲音識別裝置，其特征在于，包括通知部，該通知部對未被選擇作為識別對象語句的候補或成為裁減處理對象的候補進行通知。
全文摘要
本發(fā)明的目的在于提供一種聲音識別裝置，包括語句選擇部(22)，該語句選擇部(22)從識別對象語句的候補中選擇聲音單元數(shù)為規(guī)定值以下的語句作為識別對象語句。
文檔編號G10L15/06GK102246226SQ20098015033
公開日2011年11月16日申請日期2009年10月20日優(yōu)先權(quán)日2009年1月30日
發(fā)明者坂下博紀(jì), 海老原充, 石井純, 野木和行申請人:三菱電機株式會社

完整全部詳細(xì)技術(shù)資料下載