欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

例外語辭典制作裝置、例外語辭典制作方法及其程序、和聲音識別裝置和聲音識別方法

文檔序號:2823182閱讀:169來源:國知局
專利名稱:例外語辭典制作裝置、例外語辭典制作方法及其程序、和聲音識別裝置和聲音識別方法
技術領域
本發(fā)明涉及制作將詞匯的文本列變換為發(fā)音記號列的變換裝置使用的例外語辭 典的例外語辭典制作裝置、例外語辭典制作方法及其程序,以及涉及采用該例外語辭典進 行聲音識別的聲音識別裝置和聲音識別方法。
背景技術
在將以文本表示的任意詞匯或文章變換為聲音輸出的聲音合成裝置,或基于文本 記載對登錄到聲音識別辭典中的識別對象的詞匯或文章進行聲音識別的聲音識別裝置中, 采用用于將輸入文本變換為發(fā)音記號列的文本發(fā)音記號變換裝置。將該裝置所進行的將文 本記載的詞匯變換為發(fā)音記號列的處理被稱為文本音素變換(text-to-phoneme)或字素 音素變換(grapheme-to-phoneme)。作為將識別對象的詞匯的文本記載登錄到聲音識別辭 典進行聲音識別的聲音識別裝置的一例,有對登錄于手機電話簿中的對方的登錄名稱進行 聲音識別并對與該登錄名稱對應的電話號碼打電話的手機,或者與手機的組合使用,讀入 手機電話簿進行聲音撥號的免提(〃 X 7 U —)的通話裝置。登錄于手機電話簿的對方 的登錄名稱僅以文本記載方式輸入而沒有以發(fā)音記號的方式輸入的情況下,無法將該登錄 名稱登錄到聲音識別辭典中。因為,表示登錄名稱的讀法的音素記載等發(fā)音記號列作為登 錄到聲音識別辭典的信息是必要的。因此,為了將對方的登錄名稱的文本記載變換為發(fā)音 記號列,采用文本發(fā)音記號變換裝置。如圖25所示,基于通過文本發(fā)音記號變換裝置得到 的發(fā)音記號列將登錄名稱作為識別對象詞匯登錄到聲音識別辭典中,因此手機用戶通過對 發(fā)出的登錄名稱進行聲音識別,可不進行復雜的按鍵操作,即可向對應于登錄名稱的電話 號碼進行撥號(參考圖26)。作為將識別對象的單詞的文本記載登錄到聲音識別辭典進行聲音識別的聲音識 別裝置的另一實例,有能夠與播放保存于內置硬盤或內置半導體存儲器的樂曲文件的便攜 式數字音樂播放裝置連接使用的車載音頻裝置。該車載音頻裝置具有聲音識別功能,將與 所連接的別攜式數字音樂播放裝置中所保存的樂曲文件相關聯的曲名或藝術家名字作為 聲音識別的識別對象詞匯。與前面的無需手動操作通話裝置的情況相同,由于與便攜式數 字音樂播放裝置中保存的樂曲文件相關聯的曲名和藝術家名字僅以文本記載的方式輸入 而沒有以發(fā)音記號的方式輸入,因此需要文本發(fā)音記號變換裝置(參考圖27、28)。作為采用以往的文本發(fā)音記號變換裝置的方法,有基于單詞辭典的方法和基于規(guī) 則的方法。在基于單詞辭典的方法中,構成有單詞等文本列各自與發(fā)音記號列對應的單詞 辭典。在聲音識別裝置的文本發(fā)音記號變換裝置處理中,對作為識別對象詞匯的單詞等的 輸入文本列檢索單詞辭典,輸出對應于該輸入文本列的發(fā)音記號列。在該方法中,為了與具 有輸入可能性的輸入文本列大范圍對應,需要增大單詞辭典的尺寸,因此具有用于展開單 詞辭典的存儲器要求量增大的問題。作為解決上述存儲器要求量問題的文本發(fā)音記號變換裝置所采用的方法,有基于規(guī)則的方法。例如,作為關于文本列的規(guī)則,采用“IF(條件)then(發(fā)音記號)”,當文本的 一部份符合條件時使用該規(guī)則。具有用規(guī)則完全地置換單詞辭典僅以規(guī)則進行變換的情形 和對單詞辭典和規(guī)則進行組合來進行變換的情形。采用組合單詞辭典和規(guī)則時的文本發(fā)音 記號變換裝置的聲音合成系統用的單詞辭典尺寸減小裝置,例如記載于專利文獻1。

圖四是顯示專利文獻1揭示的單詞辭典尺寸減小裝置的處理的框圖。單詞辭典 尺寸減小裝置,通過由兩個階段構成的處理刪除登錄到單詞辭典的單詞,減小單詞辭典尺 寸。首先,在第一階段中,將登錄于原先單詞辭典的單詞中的采用規(guī)則生成正確發(fā)音記號列 的單詞作為從單詞辭典刪除的候補。作為規(guī)則,例示有由接頭辭用規(guī)則和插入辭(接中辭) 用規(guī)則和接尾辭用規(guī)則組成的規(guī)則。
接著,在第二階段中,在單詞辭典內的單詞能夠作為其他單詞的詞根(root word) 使用的情況下,該單詞作為詞根留在單詞辭典中。這樣,成為詞根的單詞即使在第一階段被 作為刪除對象的候補也將其從刪除對象中排除。另一方面,在文字數多的單詞中,對于不是 作為詞根留在單詞辭典中的對象,而是通過一個以上的詞根和規(guī)則生成正確發(fā)音記號列的 單詞,將其作為從單詞辭典中刪除的對象。當第一階段和第二階段結束后,通過將最終被判定為刪除對象的單詞從單詞辭典 中刪除,可生成尺寸減小后的單詞辭典。這樣生成的單詞辭典,由于是根據規(guī)則無法得到發(fā) 音記號列的例外語的辭典,因此也被稱為“例外語辭典”?,F有技術文獻專利文獻專利文獻1 美國專利第6,347,298號

發(fā)明內容
發(fā)明所要解決的問題
由于上述專利文獻1中,作為單詞辭典尺寸的減小對象的是聲音合成系統用的單 詞辭典,因此當然并未顯然沒有揭示,考慮聲音識別性能來進行單詞辭典尺寸的減小。又, 上述專利文獻1中,在例外語辭典的制作過程中,雖然揭示了該辭典尺寸的減小方法,但是 沒有揭示當裝置的存儲器有容量限制時,在該限制內考慮聲音識別性能的例外語辭典的制 作方法。
在上述專利文獻1中,僅基于根據規(guī)則生成的發(fā)音記號列和單詞辭典的發(fā)音記號 列是否一致這一基準來將文本及其發(fā)音記號列登錄于例外語辭典。這樣制作得到的例外語 辭典和規(guī)則所覆蓋的識別對象詞匯,其發(fā)音記號的不一致的內容不影響聲音識別性能,或 者如圖30(a)所示的那樣影響較小,因此不管是否一致,僅以一處發(fā)音記號列不一致的理 由,被登錄到例外語辭典中,從而造成例外語辭典的辭典尺寸被浪費的問題。又,根據上述 專利文獻1的方法制作的例外語辭典的辭典尺寸如果超過存儲器容量限制,則會產生無法 選擇那些即使從例外語辭典中刪除也不會對聲音識別功能產生不良影響的文本及其發(fā)音記號列的問題。本發(fā)明鑒于以上問題,其目的在于提供一種能夠制作減小例外語辭典的辭典尺 寸、且能得到高聲音識別性能的例外語辭典的例外語辭典制作裝置、例外語辭典制作方法 及其程序,以及采用該例外語辭典以高識別率識別聲音的聲音識別裝置和聲音識別方法。解決問題的手段
為解決上述問題,本發(fā)明第一方面提供一種例外語辭典制作裝置,其是基于將詞 匯的文本列變換為發(fā)音記號列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文 本列與其正確發(fā)音記號列相對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列 變換為發(fā)音記號列的變換裝置使用的所述例外語辭典用的例外語辭典制作裝置,該例外語 辭典制作裝置包括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單 元;識別劣化關聯度計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變 換單元變換的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號 列不一致的情況下,計算識別劣化關聯度,所述識別劣化關聯度是所述變換發(fā)音記號列與 所述正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的程度;例外語辭典登錄單元, 其基于通過所述識別劣化關聯度計算單元計算出的對多個各識別對象詞匯的識別劣化關 聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞匯,將被選到的登錄對象的 識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語辭典中。根據本發(fā)明,例外語辭典制作裝置,基于各多個識別對象詞匯的識別劣化關聯度, 從所述多個識別對象詞匯中選擇識別對象詞匯,將該被選到的登錄對象的識別對象詞匯的 文本列及其正確發(fā)音記號列登錄于例外語辭典,因此通過優(yōu)選選擇對聲音識別性能劣化影 響大的識別對象詞匯并登錄到例外語辭典,可減小例外語辭典尺寸,并制作得到高聲音識 別性能的例外語辭典。
根據本發(fā)明第二方面所述的例外語辭典制作裝置,在第一方面所述的例外語辭典 制作裝置中進一步包括存儲所述例外語辭典中能夠存儲的數據限制容量的例外語辭典存 儲器尺寸條件存儲單元,所述例外語辭典登錄單元進行所述登錄,使得所述例外語辭典中 存儲的數據量不超過所述數據限制容量。根據本發(fā)明,由于存儲于所述例外語辭典的數據量可登錄為不超過存儲于所述存 儲器尺寸條件存儲單元的數據限制容量,因此可即使在例外語辭典的辭典尺寸在規(guī)定的條 件以下,也可制作能夠得到較高的聲音識別性能的例外語辭典。
本發(fā)明第三方面為,在第一方面和第二方面所述的例外語辭典制作裝置中,所述 例外語辭典登錄單元進一步基于所述多個各識別對象詞匯的使用頻率,選擇登錄對象的識 別對象詞匯。根據本發(fā)明,除了識別劣化關聯度,可進一步基于使用頻率選擇登錄對象的識別 對象詞匯,因此能夠選擇例如識別劣化關聯度小使用頻率大的識別對象詞匯作為登錄對 象,并進一步減小例外語辭典的辭典尺寸,制作聲音識別性能高的例外語辭典。
本發(fā)明的第四方面為,在第三方面所述的例外語辭典制作裝置中,所述例外語辭 典登錄單元與所述識別劣化關聯度無關地,優(yōu)先選擇具有比預先確定的閾值大的所述使用 頻率的識別對象詞匯作為登錄對象的識別對象詞匯。根據本發(fā)明,不管且識別劣化關聯度,可選擇具有比預先確定的閾值大的使用頻 率的識別對象詞匯,作為優(yōu)先的登錄對象的識別對象詞匯,因此,能夠使得使用頻率大的識 別對象詞匯比其他詞匯優(yōu)先地登錄于例外語辭典,進一步減小例外語辭典的辭典尺寸,制 作聲音識別性能高的例外語辭典。
本發(fā)明第五方面提供一種例外語辭典制作裝置,在如第一方面至第四方面任一項 所述的例外語辭典制作裝置中,所述識別劣化關聯度計算單元,計算出所述變換發(fā)音記號 列和所述正確發(fā)音記號列之間的頻譜距離尺度作為所述識別劣化關聯度。本發(fā)明第六方面提供一種例外語辭典制作裝置,在如第一方面至第四方面如權利 要求1至4任一項所述的例外語辭典制作裝置中,所述識別劣化關聯度計算單元,計算出作 為基于所述變換發(fā)音記號列的聲音的識別結果的聲音識別似然度與作為基于所述正確發(fā) 音記號列的所述聲音的識別結果的聲音識別似然度之間的差,作為所述識別劣化關聯度。
本發(fā)明第七方面的提供一種例外語辭典制作裝置,如第一至第四方面任一項所述 的例外語辭典制作裝置中,所述識別劣化關聯度計算單元,計算出所述變換發(fā)音記號列和 所述正確發(fā)音記號列之間基于最佳匹配的路徑距離,并計算出以所述正確發(fā)音記號列的長 度對計算得到的路徑距離進行歸一化之后的歸一化距離,作為所述識別劣化關聯度。本發(fā)明第八方面提供一種例外語辭典制作裝置,在如第七方面所述的例外語辭典 制作裝置中,所述識別劣化關聯度計算單元,計算出類似距離作為所述路徑距離,所述路徑 距離添加了基于所述變換發(fā)音記號列和所述正確發(fā)音記號列之間相對應的發(fā)音記號之間 的關系的權重,并計算出以所述正確發(fā)音記號列的長度對計算得到的類似距離進行歸一化 之后的歸一化類似距離,作為所述識別劣化關聯度。
本發(fā)明第九方面提供一種聲音識別裝置,包括聲音識別辭典制作單元,其采用通 過如第一方面至第八方面中任一項所述的例外語辭典制作裝置所制作的例外語辭典,將識 別對象詞匯的文本列變換為發(fā)音記號列,并基于該變換結果制作聲音識別辭典;采用通過 所述聲音識別辭典制作單元所制作的聲音識別辭典進行聲音識別的聲音識別單元。根據本發(fā)明,能夠采用小尺寸的例外語辭典得到高的聲音識別性能。
本發(fā)明第十方面提供一種例外語辭典制作方法,其是例外語辭典制作裝置所進行 的例外語辭典制作方法,所述例外語辭典制作裝置基于將詞匯的文本列變換為發(fā)音記號列 的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相對 應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝置 使用的所述例外語辭典,該例外語辭典制作方法包括將識別對象詞匯的文本列變換為發(fā) 音記號列的文本發(fā)音記號變換步驟;識別劣化關聯度計算步驟,在作為所述文本發(fā)音記號 變換步驟的所述識別對象詞匯的文本列的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不一致的情況下,計算識別劣化關聯度,所述識別劣化關聯 度是所述變換發(fā)音記號列與所述正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的 程度;例外語辭典登錄步驟,基于在所述識別劣化關聯度計算步驟分別對多個識別對象詞 匯進行計算得到的識別劣化關聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對象 詞匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外 語辭典中。
本發(fā)明第十一方面提供一種聲音識別方法,包括采用通過第十方面所述的例外 語辭典制作方法制作的例外語辭典,將識別對象詞匯的文本列變換為發(fā)音記號列,并基于 該變換結果制作聲音識別辭典的聲音識別辭典制作步驟;和使用通過所述聲音識別辭典制 作步驟所制作的聲音識別辭典進行聲音識別的聲音識別步驟。
本發(fā)明第十二方面提供一種例外語辭典制作程序,其是基于將詞匯的文本列變換 為發(fā)音記號列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā) 音記號列相對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號 列的變換裝置使用的所述例外語辭典用的例外語辭典制作程序,該例外語辭典制作程序使 得計算機作為以下單元起作用將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記 號變換單元;識別劣化關聯度計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā) 音記號變換單元變換的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確 發(fā)音記號列不一致的情況下,計算識別劣化關聯度,所述識別劣化關聯度是所述變換發(fā)音 記號列與所述正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的程度;例外語辭典登 錄單元,其基于通過所述識別劣化關聯度計算單元分別對多個識別對象詞匯進行計算得到 的識別劣化關聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞匯,將被選到 的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語辭典中。
本發(fā)明第十三方面提供一種例外語辭典制作裝置,其是基于將詞匯的文本列變換 為發(fā)音記號列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā) 音記號列相對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號 列的變換裝置使用的所述例外語辭典用的例外語辭典制作裝置,該例外語辭典制作裝置包 括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單元;發(fā)音記號列間 距計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變換單元變換的變換 結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不一致的情況下, 計算作為基于所述變換發(fā)音記號列的聲音與基于所述正確發(fā)音記號列的聲音之間的距離 的發(fā)音記號列間距;和例外語辭典登錄單元,基于通過所述發(fā)音記號列間距計算單元分別 對多個識別對象詞匯進行計算得到的發(fā)音記號列間距,從所述多個識別對象詞匯中選擇登 錄對象的識別對象詞匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號 列登錄到所述例外語辭典中。
根據本發(fā)明,例外語辭典制作裝置,基于對各多個識別對象詞匯的發(fā)音記號列間距,從所述所個識別對象詞匯中選擇登錄對象的識別對象詞匯,并將該被選到的登錄對象 的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到例外語辭典,通過優(yōu)先選擇對聲音識 別性能劣化影響大的識別對象詞匯并登錄到例外語辭典,可減小例外語辭典的辭典尺寸, 制作聲音識別性能高的例外語辭典。
本發(fā)明第十四方面提供一種例外語辭典制作方法,其是例外語辭典制作裝置所進 行的例外語辭典制作方法,所述例外語辭典制作裝置基于將詞匯的文本列變換為發(fā)音記號 列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相 對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝 置使用的所述例外語辭典,該例外語辭典制作方法包括將識別對象詞匯的文本列變換為 發(fā)音記號列的文本發(fā)音記號變換步驟;當作為所述文本發(fā)音記號變換步驟的所述識別對象 詞匯的文本列的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記 號列不一致的情況下,計算作為基于所述變換發(fā)音記號列的聲音和基于所述正確發(fā)音記號 列的聲音之間的距離的發(fā)音記號列間距的發(fā)音記號列間距計算步驟;和基于在所述發(fā)音記 號列間距計算步驟分別對多個識別對象詞匯進行計算得到的發(fā)音記號列間距,從所述多個 識別對象詞匯中選擇登錄對象的識別對象詞匯,將被選到的登錄對象的識別對象詞匯的文 本列及其正確發(fā)音記號列登錄到所述例外語辭典中的例外語辭典登錄步驟。
本發(fā)明第十五方面涉及一種例外語辭典制作程序,其是基于將詞匯的文本列變換 為發(fā)音記號列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā) 音記號列相對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號 列的變換裝置使用的所述例外語辭典用的例外語辭典制作程序,所述例外語辭典制作程序 使計算機作為以下單元起作用將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記 號變換單元;在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變換單元變換的變換 結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不一致的情況下, 計算作為基于所述變換發(fā)音記號列的聲音和基于所述正確發(fā)音記號列的聲音之間的距離 的發(fā)音記號列間距的發(fā)音記號列間距計算單元;和基于通過所述發(fā)音記號列間距計算單元 分別對多個識別對象詞匯進行計算得到的發(fā)音記號列間距,從所述多個識別對象詞匯中選 擇登錄對象的識別對象詞匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音 記號列登錄到所述例外語辭典中的例外語辭典登錄單元。
本發(fā)明第十六方面涉及一種識別詞匯登錄裝置,包括具有詞匯的文本列及其正 確發(fā)音記號列的識別對象詞匯;通過規(guī)定的規(guī)則將所述識別對象詞匯的所述文本列變換為 發(fā)音記號列的文本發(fā)音記號列變換單元;通過所述文本發(fā)音記號列變換單元變換得到的變 換發(fā)音記號列;計算作為基于該變換發(fā)音記號列的聲音與基于所述正確發(fā)音記號列的聲音 之間的距離的發(fā)音記號列間距的發(fā)音記號列間距計算單元;基于由所述發(fā)音記號列間距計 算單元計算得到的發(fā)音記號列間距登錄所述識別對象詞匯的識別對象詞匯登錄單元。
本發(fā)明第十七方面提供一種識別詞匯登錄裝置,包括以規(guī)定的規(guī)則將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號列變換單元;計算發(fā)音記號列間距的發(fā)音 記號列間距計算單元,所述發(fā)音記號列間距是基于由所述文本發(fā)音記號列變換單元變換的 變換發(fā)音記號列的聲音與基于所述識別對象詞匯的正確發(fā)音記號列的聲音之間的距離;基 于通過所述發(fā)音記號列間距計算單元計算得到的發(fā)音記號列間距登錄所述識別對象詞匯 的識別對象詞匯登錄單元。

本發(fā)明第十八方面涉及一種聲音識別裝置,具有通過第十六方面或第十七方面所 述的識別詞匯登錄裝置的前記識別對象詞匯登錄單元登錄的識別對象詞匯的例外語辭典; 采用所述例外語辭典將識別對象詞匯的文本列變換為發(fā)音記號列,基于該變換結果制作聲 音識別辭典的聲音識別辭典制作單元;采用由所述聲音識別辭典制作單元制作得到的聲音 識別辭典進行聲音識別的聲音識別單元。發(fā)明效果根據本發(fā)明,例外語辭典制作裝置,基于各多個識別對象詞匯的識別劣化關聯度, 從所述多個識別對象詞匯中選擇登錄對象的識別對象詞匯,并將該被選到的登錄對象的識 別對象詞匯的文本列及其正確發(fā)音記號列登錄到例外語辭典,因此通過將對聲音識別性能 的劣化影響大的識別對象詞匯優(yōu)先選擇并登錄到例外語辭典,可以減小例外語辭典的辭典 尺寸,制作聲音識別性能高的例外語辭典。


圖1是顯示本發(fā)明涉及的例外語辭典制作裝置的基本結構的框圖。圖2是顯示本發(fā)明的第1實施方式涉及的例外語辭典制作裝置的結構的框圖。圖3(a)是同實施方式涉及的詞匯數據的數據結構圖,圖3(b)是詞匯列表數據的 數據結構圖。圖4是顯示同實施方式涉及的聲音識別裝置的結構的框圖。圖5是顯示同實施方式涉及的例外語辭典制作裝置所進行的處理步驟的流程圖。圖6是顯示同實施方式涉及的例外語辭典制作裝置所進行的處理步驟的流程圖。圖7是顯示同實施方式涉及的例外語辭典制作裝置所進行的其他的處理步驟的 流程圖。圖8是用來說明同實施方式涉及的采用LPC倒譜距離的結果的識別劣化關聯度計 算方法的圖。圖9是用來說明同實施方式涉及的采用聲音識別似然度的結果的識別劣化關聯 度計算方法的圖。圖10是顯示同實施方式涉及的DP匹配的具體例示意圖。圖11是用來說明同實施方式涉及的采用DP匹配的結果的識別劣化關聯度計算方 法的圖。圖12是用來說明同實施方式涉及的采用DP匹配和基于發(fā)音記號的加權的結果的 識別劣化關聯度計算方法的圖。圖13是用來說明同實施方式涉及的采用置換距離表、插入距離表、遺漏距離表計 算類似距離的方法的圖。
圖14是用于說明同實施方式涉及的采用一致距離表計算類似距離的方法的圖。圖15是顯示本發(fā)明第2實施方式涉及的例外語辭典制作裝置所進行的處理步驟 的流程圖。圖16是用于說明同實施方式涉及的采用識別劣化關聯度和使用頻率對登錄候選 詞匯數據進行重新排列的步驟的圖。圖17是用于說明同實施方式涉及的采用識別劣化關聯度和使用頻率對登錄候選 詞匯數據進行重新排列的步驟的圖。圖18是用于說明同實施方式涉及的采用識別劣化關聯度和使用頻率對登錄候選 詞匯數據進行重新排列的步驟的圖。圖19是用于說明同實施方式涉及的采用識別劣化關聯度和使用頻率對登錄候選 詞匯數據進行重新排列的步驟的圖。圖20是用于說明同實施方式涉及的采用優(yōu)先使用頻率差條件對登錄候選詞匯數 據進行重新排列的步驟的圖。圖21是顯示本發(fā)明的第3實施方式涉及的例外語辭典制作裝置的結構的框圖。圖22(a)是顯示同實施方式涉及的處理完成的詞匯列表數據的數據結構圖,圖 22(b)是擴展詞匯列表數據的結構圖。圖23是從上位累積實際的美國的各個姓占人口的比例的圖表,和表示各個姓的 使用頻率的圖表。圖M是顯示根據識別劣化關聯度制作例外語辭典進行聲音識別的實驗時識別率 提高結果的圖表。圖25是用于說明以往的采用文本發(fā)音記號變換裝置制作電話簿聲音識別辭典的 步驟的圖。圖沈是用于說明采用以往的電話簿聲音識別辭典進行聲音識別的步驟的圖。圖27是用于說明采用以往的文本發(fā)音記號變換裝置制作音樂播放裝置聲音識別 辭典的步驟的圖。圖觀是用于說明采用以往的音樂播放裝置聲音識別辭典進行聲音識別的步驟的 圖。圖四是顯示以往的單詞辭典尺寸減小裝置的處理的框圖。圖30(a)是顯示對識別率的影響較小的發(fā)音記號列和變換發(fā)音記號列不一致的 實例的圖,圖30(b)是顯示對識別率的影響較大的發(fā)音記號列和變換發(fā)音記號列不一致的 實例的圖。
具體實施例方式下面,參考附圖對實施本發(fā)明的最佳實施方式進行說明。在以下說明中參考的各 圖中,對相同部分采用相同符號。圖1是顯示本發(fā)明的例外語辭典制作裝置的基本結構的框圖。如圖所示,例外 語辭典制作裝置具有將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換 部21 ;當作為識別對象詞匯的文本列的變換結果的變換發(fā)音記號列與該識別對象詞匯的 文本列的正確發(fā)音記號列不一致時,對識別劣化關聯度進行計算的識別劣化關聯度計算部(發(fā)音記號列間距計算部)24 ;根據計算得到的識別劣化關聯度選擇登錄對象的識別對象 詞匯,并將該登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到例外語辭典60 中的例外語辭典登錄部41。又,識別劣化關聯度計算部24對應于權利要求所記載的“識別 劣化關聯度計算單元”和“發(fā)音記號列間距計算單元”。
以下,對具有這些基本結構的本發(fā)明的例外語辭典制作裝置,參考各實施方式進 行詳細說明。(第1實施方式)圖2是顯示本發(fā)明的第一實施方式涉及的例外語辭典制作裝置10的結構的框 圖。例外語辭典制作裝置10包括詞匯列表數據制作部11 ;文本發(fā)音記號變換部21 ;識 別劣化關聯度計算部24 ;登錄候選詞匯列表制作部31 ;登錄候選詞匯列表排序部32和例 外語辭典登錄部41。這些功能通過例外語辭典制作裝置10內的圖未示的CPU (Central Processing Unit)讀出存儲于存儲器等存儲介質中的程序并執(zhí)行來實現。又,詞匯列表數 據12,登錄候選詞匯列表13和例外語辭典存儲器尺寸條件71是存儲于例外語辭典制作裝 置10內的圖未示的存儲器等存儲介質中的數據。又,數據庫或單詞辭典50和例外語辭典 60為設置于例外語辭典制作裝置10外部的存儲介質中的數據庫或數據存儲區(qū)域。
數據庫或單詞辭典50,存儲多個詞匯數據。在圖3(a)中,顯示詞匯數據的數據結 構的一例。如該圖所示,詞匯數據由詞匯的文本列和該文本列的正確發(fā)音記號列構成。此 處,本實施方式涉及的詞匯為,人名、樂曲的曲名、演奏者或演奏團體的名字、收錄曲目的專 輯名稱等。詞匯列表數據制作部11,基于數據庫或單詞辭典50中所存儲的詞匯數據生成詞 匯列表數據12,并存儲于例外語辭典制作裝置10中的存儲器等存儲介質中。在圖3(b)中,顯示詞匯列表數據12的數據結構的一例。詞匯列表數據12具有這 樣的數據結構,其不僅包含詞匯數據所具有的文本數據列和發(fā)音記號列,而且還包含刪除 候選標記和識別劣化關聯度。該刪除候選標記和識別劣化關聯度,在詞匯列表數據12構筑 在存儲器等存儲介質中時被初始化。文本發(fā)音記號變換部21,僅采用將文本列變換到發(fā)音記號列的規(guī)則,或采用規(guī)則 和已有的例外語辭典,將識別對象詞匯的文本列變換為發(fā)音記號列。下面,文本列的文本發(fā) 音記號變換部的變換結果也被稱為“變換發(fā)音記號列”。當詞匯列表數據12的發(fā)音記號列與通過文本發(fā)音記號變換部21對該文本列進行 變換后的結果即變換發(fā)音記號列不一致的時候,識別劣化關聯度計算部24計算文本識別 劣化關聯度的值。然后,以該計算得到的值更新詞匯列表數據12的劣化關聯度,并將詞匯 列表數據12的刪除候選標記更新為偽。
此處,識別劣化關聯度顯示的是變換發(fā)音記號列與正確發(fā)音記號列的不同對聲音 識別性能的劣化影響的程度。具體來說,識別劣化關聯度是指,根據從詞匯列表數據12取 得的發(fā)音記號列與作為通過文本發(fā)音記號變換部變換該發(fā)音記號列的結果的變換發(fā)音記 號列之間不一致的程度,將變換發(fā)音記號列取代所取得的發(fā)音記號列登錄到聲音識別辭典中時,對聲音識別的精度的劣化程度進行數值化后的值。換言之,是指,根據從詞匯列表數 據12取得的發(fā)音記號列發(fā)音的聲音與根據變換發(fā)音記號列22發(fā)音的聲音之間相隔何種程 度的發(fā)音記號列間距。發(fā)音記號列間距的計算方法有根據發(fā)音記號列用聲音合成裝置等 進行聲音合成,計算該合成的聲音之間的發(fā)音記號列間距的方法;通過登錄有從詞匯列表 數據12取得的發(fā)音記號列和變換發(fā)音記號列的聲音識別辭典進行聲音識別,計算發(fā)音記 號間的識別似然度的差作為發(fā)音記號列間距的計算方法;通過DP (Dynamic Programming 動態(tài)規(guī)劃法)匹配等計算從詞匯列表數據12取得的發(fā)音記號列和變換發(fā)音記號列之間的 發(fā)音記號的差別作為發(fā)音記號列間距的計算方法。計算方法在后面進行詳細描述。
又,當詞匯列表數據12的發(fā)音記號列與作為通過文本發(fā)音記號變換部變換該文 本列的結果的變換發(fā)音記號列一致時,不需要登錄于例外語辭典60,識別劣化關聯度計算 部24不計算識別劣化關聯度的值,就將詞匯列表數據12的刪除候選標記更新為真。登錄候選詞匯列表制作部31,從詞匯列表數據12中,僅抽出刪除候選標記為偽的 數據作為登錄候選詞匯列表數據,制作登錄候選詞匯列表12作為登錄候選詞匯列表數據 的一覽表并存儲于存儲器。登錄候選詞匯列表排序部32,對登錄候選詞匯列表13中的登錄候選詞匯列表數 據以識別劣化關聯度大小順序進行排序。
例外語辭典登錄部41,從登錄候選詞匯列表13中的多個登錄候選詞匯列表數據 中,基于各登錄候選詞匯列表數據的識別劣化關聯度,選擇作為登錄對象的登錄候選詞匯 列表,將該被選中的登錄候選詞匯列表數據的文本列及其發(fā)音記號例登錄到例外語辭典 60。例外語辭典登錄部41,從登錄候選詞匯列表13內的多個登錄候選詞匯列表數據 中,基于各登錄候選詞匯列表數據的識別劣化關聯度,選擇成為登錄對象的登錄候選詞匯 列表數據,將所選擇的登錄候選詞匯列表數據的文本列和其發(fā)音記號列登錄到例外語辭典 60中。具體來說,例外語辭典登錄部41,從登錄候選詞匯列表13的登錄候選詞匯列表數 據中,選擇排序順序在高位的登錄候選詞匯列表數據、即具有較大識別劣化關聯度的登錄 候選詞匯列表數據,并將選擇到的登錄候選詞匯列表數據的文本列及其發(fā)音記號例登錄到 例外語辭典60中。此時,可以基于根據例外語辭典60中能夠存儲的數據限制容量預先設 定的例外語辭典存儲器尺寸條件71,在不超過例外語辭典60能夠存儲的數據限制容量的 范圍內,登錄最大數量的詞匯。這樣,即使例外語辭典60能夠存儲的數據量有制約,也能得 到能獲得最佳聲音識別性能的例外語辭典60。
存儲于用于制作例外語辭典60的數據庫或單詞辭典50中的詞匯數據,在僅由特 定范疇內(例如人名或地名)的詞匯構成時,可實現該范疇內特殊化的專用例外語辭典。 又,當文本發(fā)音記號變換部21已經具有例外語辭典時,通過追加以數據庫或單詞辭典50具 有的詞匯數據新制作的例外語辭典60的形態(tài),可實現擴展例外語辭典。通過例外語辭典制作裝置10制作的例外語辭典60,如圖4所示,可用于制作聲音識別裝置80的聲音識別辭典81時。文本發(fā)音記號變換部21,對識別對象詞匯文本列使用 規(guī)則和例外語辭典60生成聲音識別辭典81。聲音識別裝置80的聲音識別部82,采用該聲 音識別辭典81進行聲音識別。例外語辭典60的辭典尺寸能夠基于例外語辭典存儲器尺寸條件71減小,因此,例 如,即使聲音識別裝置80是存儲容量較小的手機,也可將例外語辭典60保存在手機中使用。又,例外語辭典60,可以從制造聲音識別裝置80時存儲于聲音識別裝置80,當聲 音識別裝置80具有通信功能時,聲音識別裝置80也可從網絡的服務器下載并存儲例外語 辭典60。又,也可不在聲音識別裝置80中存儲例外語辭典60,而將其存儲于網絡上的服務 器中,使聲音識別裝置80連接該服務器以使用例外語辭典。
(處理流程)接著,參考圖5和圖6所示流程圖,對例外語辭典制作裝置10所進行的處理步驟 進行說明。首先,例外語辭典制作裝置10的詞匯列表數據制作部11基于數據庫或單詞辭典 50,制作詞匯列表數據12 (圖5的步驟S101)。接著,設定變量i為1 (步驟S102),并讀取 第i個的詞匯列表數據12 (步驟S103)。接著,例外語辭典制作裝置10將第i個詞匯列表數據12的文本列輸入到文本發(fā) 音記號變換部21,文本發(fā)音記號變換部21變換所輸入的文本列,生成變換發(fā)音記號列(步 驟 S104)。接著,例外語辭典制作裝置10判定所生成的變換發(fā)音記號列與第i個的詞匯列表 數據12的發(fā)音記號列是否一致(步驟S105)。如果判定變換發(fā)音記號列和第i個詞匯列表 數據12的發(fā)音記號列一致(步驟S105 是),則將第i個詞匯列表數據12的刪除候選標記 設定為真(步驟S106)。另一方面,判定變換發(fā)音記號列與第i個詞匯列表數據12的發(fā)音記號列不一致 時(步驟S105:否),將第i個詞匯列表數據12的刪除候選標記設定為偽。進一步的,識別 劣化關聯度計算部對,基于變換發(fā)音記號列和第i個詞匯列表數據12的發(fā)音記號列計算 識別劣化關聯度,并將該計算得到的識別劣化關聯度登錄到第i個詞匯列表數據12(步驟 S107)。這樣如果刪除候選標記和識別劣化關聯度至第i個詞匯列表數據12的登錄結 束,則使i遞增(步驟S109),并對下一個詞匯列表數據12重復同樣的處理(步驟S103 S107)。i為最終序號時(步驟S108 是),對所有詞匯列表數據12的登錄結束,則進入到 圖6的步驟Sl 10。在步驟SllO中,例外語辭典制作裝置10將i設定為1,并讀取第i個詞匯列表數 據12(步驟S111),判定讀入的詞匯列表數據12的刪除候選標記是否為真(步驟S2U)。僅 當刪除候選標記不為真的情況下(步驟S112 否),將第i個詞匯列表數據12作為登錄候 選詞匯列表數據登錄到登錄候選詞匯列表13(步驟S113)。
16
接著,判定i是否為最終序號(步驟Sl 14),當i不是最終序號時(步驟Sl 14 否), 使i遞增(步驟S115),對第i個詞匯列表數據12進行步驟Slll S113的處理。另一方面,當i為最終序號時(步驟S114 是),登錄候選詞匯列表排序部32將登 錄于登錄候選詞匯列表13中的登錄候選詞匯列表數據按照識別劣化關聯度大到小的順序 (即,登錄到例外語辭典60的登錄優(yōu)先順序高到低的順序)進行重新排列(步驟S116)。接著,在步驟S117中將i設定為1,例外語辭典登錄部41將識別劣化關聯度的值 為第i大的登錄候選詞匯列表數據從登錄候選詞匯列表13讀取(步驟S118)。例外語辭典登錄部41將識別劣化關聯度的值為第i大的登錄候選詞匯列表數據 登錄到例外語辭典60時,判斷例外語辭典60中所存儲的數據量是否超過例外語辭典存儲 器尺寸條件71所示的數據限制容量(步驟S119)。當例外語辭典60中所存儲的數據量未超過例外語辭典存儲器尺寸條件71所示的 數據限制容量時(步驟S119 是),將識別劣化關聯度的值為第i大的登錄候選詞匯列表 數據登錄到例外語辭典60(步驟S120),i不是最終序號時(步驟S121 否)時,使i遞增 (步驟S122),并重復步驟S118 S122的處理,當i為最終序號時(步驟S121 是),結束處理。
另一方面,當例外語辭典60中所存儲的數據量超過數據限制容量時(步驟S119 否),則不將登錄候選詞匯列表數據登錄到例外語辭典60就結束處理。又,在上述實施方式中,登錄候選詞匯列表排序部32,對登錄候選詞匯列表13中 的登錄候選詞匯列表數據按照識別劣化關聯度大到小的順序進行排列,例外語辭典登錄部 41,以排序順序選擇登錄候選詞匯列表數據以登錄于例外語辭典60,但是也可省略登錄候 選詞匯列表排序部32的排序,例如,如圖7的步驟S201 S202所示,也可例外語辭典登錄 部41直接參考登錄候選詞匯列表13,判斷識別劣化關聯度大的登錄候選詞匯數據,并將其 登錄于例外語辭典中。(識別劣化關聯度)接著對識別劣化關聯度的各種計算方法進行具體說明。(采用頻譜距離尺度的識 別劣化關聯度)首先,對采用頻譜距離尺度的識別劣化關聯度計算進行說明。頻譜距離尺度表示 兩個聲音的短時間頻譜的類似度或距離,已知有LPC倒譜距離等各種距離尺度(例如,古井 貞熙音響·聲音工學,近代科學社)。以圖8對采用LPC倒譜距離的結果的識別劣化關聯 度計算方法進行說明。0047在此,識別劣化關聯度計算部24包括,通過輸入發(fā)音記號列,合成基于該發(fā)音記 號列的合成聲音的聲音合成裝置2401,和計算出所輸入的兩個合成音的LPC倒譜距離的 LPC倒譜距離計算部2402。詞匯A的發(fā)音記號列a和作為通過文本發(fā)音記號變換部21變換詞匯A的文本列得 到的結果的詞匯A的發(fā)音記號列a’,被輸入到識別劣化關聯度計算部24,識別劣化關聯度 計算部24將發(fā)音記號列a和變換發(fā)音記號列a’分別輸入到聲音合成裝置2401,得到發(fā)音 記號列a的合成聲音和發(fā)音記號列a’的合成聲音。接著,識別劣化關聯度計算部24將發(fā)音記號列a的合成聲音和變換發(fā)音記號列a’的合成聲音輸入到LPC倒譜距離計算部2402, 得到發(fā)音記號列a的合成聲音和變換發(fā)音記號列a’的合成聲音的LPC倒譜距離CLA。LPC倒譜距離CLa為判斷根據發(fā)音記號列a合成的合成聲音和根據變換發(fā)音記號 列a’合成的合成聲音之間相隔多少的距離,其是表示CLa越大成為合成聲音的根源的發(fā)音 記號列a和變換發(fā)音記號列a’越是相隔的發(fā)音記號間距之一。因此識別劣化關聯度計算 部M將CLa作為詞匯A的識別率劣化關聯度Da輸出。即便不是聲音本身,只要是該聲音譜系系列即可計算LPC倒譜距離,因此,可采用 根據發(fā)音記號列a和變換發(fā)音記號列a’輸出基于各發(fā)音記號列的聲音的譜系系列的裝置 以替代聲音合成裝置M01,采用根據譜系系列計算LPC倒譜距離的LPC倒譜距離計算部 2402,計算識別率劣化度關聯度。又,作為頻譜距離尺度,也可采用基于以帶通濾波器群或 FFT求得的頻譜的距離等。
(采用聲音識別似然度的識別劣化關聯度)接著,采用圖9,對采用聲音識別似然度的結果的識別劣化關聯度計算方法進行說 明。聲音識別似然度是指,對于登錄于聲音識別裝置的聲音識別辭典的各詞匯,確切地表示 輸入的聲音與其詞匯的一致程度的值,也稱為出現概率或似然度,在古井貞熙的“音響·聲 音工學”,(近代科學社)中有詳細記載。聲音識別裝置,計算輸入的聲音和聲音識別辭典 中登錄的各詞匯之間的似然度,將顯示最高似然度的詞匯,即將輸入的聲音與其詞匯一致 程度最高的詞匯作為聲音識別的結果。
在此,識別劣化關聯度計算部M具有通過輸入發(fā)音記號列合成基于該發(fā)音記號 列的合成聲音的聲音合成裝置MOi ;根據輸入的發(fā)音記號列將發(fā)音記號列登錄于聲音識 別辭典M05中的聲音識別辭典登錄部M04 ;通過聲音識別辭典M05進行聲音識別,計算 登錄于聲音識別辭典M05中的各詞匯的似然度的聲音識別裝置4 ;和根據聲音識別裝置4 計算得到的似然度計算識別率劣化關聯度的似然度差計算部M07。聲音識別辭典登錄部 2404實際登錄到聲音識別辭典M05中的,不是發(fā)音記號列中的發(fā)音記號本身,而是與發(fā)音 記號對應的聲音識別用的音素模型數據,在此,為了說明的簡潔,將與該發(fā)音記號對應的聲 音識別用的音素模型數據作為發(fā)音記號進行說明。
詞匯A的發(fā)音記號列a,和作為通過文本發(fā)音記號變換部21對詞匯A的文本列進 行變換的結果的詞匯A的變換發(fā)音記號列a’,被輸入到識別劣化關聯度計算部M時,識別 劣化關聯度計算部M將發(fā)音記號列a和變換發(fā)音記號列a’發(fā)送到聲音識別辭典登錄部 2404中,并將發(fā)音記號列a輸入到聲音合成裝置MOl。聲音識別辭典登錄部M04將發(fā)音 記號列a和變換發(fā)音記號列a’登錄到聲音識別辭典M05 (參考辭典登錄內容2406)。聲音 合成裝置MOl合成作為發(fā)音記號列a的合成聲音的詞匯A的合成聲音,并將詞匯A的合成 聲音輸入到聲音識別裝置4。
聲音識別裝置4,在登錄了發(fā)音記號列a和變換發(fā)音記號列a’的聲音識別辭典 2405中進行詞匯A的合成聲音的聲音識別,并輸出發(fā)音記號列a的似然度La和變換發(fā)音記號列a’的似然度La’,發(fā)送到似然度差計算部2407。似然度差計算部2407計算似然度La 和似然度La’的差。似然度La是,對基于發(fā)音記號列a合成的合成聲音與對應于發(fā)音記號 列a的音素模型數據系列一致到何種程度進行數值化而得到的,似然度La’是,對該合成聲 音與對應于變換發(fā)音記號列a’的音素模型數據系列一致到何種程度進行數值化而得到的。 因此,似然度La和似然度La’的差是表示變換發(fā)音記號列a’距發(fā)音記號列a相隔何種程 度的發(fā)音記號間距的一種,識別劣化關聯度計算部24,將似然度La和似然度La’的差作為 詞匯A的識別率劣化關聯度Da輸出。
又,為了求得發(fā)音記號列a和變換發(fā)音記號列a’之間的似然度差,聲音識別時采 用基于發(fā)音記號列a合成的合成聲音是自然而然的,但是必要需要似然度差,因此也可將 輸入到聲音識別裝置4的合成聲音作為基于變換發(fā)音記號列a’合成的合成聲音。又,由于基于發(fā)音記號列a合成的合成聲音的似然度差與基于變換發(fā)音記號列a’ 合成的合成聲音的似然度差并不一定一致,因此也可求得雙方的平均值作為識別率劣化關 聯度。
(采用DP匹配的識別劣化關聯度)接著,對采用DP匹配的結果的識別劣化關聯度計算進行說明。該方法不通過合成 聲音,計算發(fā)音記號列中的發(fā)音記號的差異作為發(fā)音記號列間距。DP匹配是判斷兩個符號列的相似程度的方法,作為模式識別和圖像處理的基礎技 術被廣泛認知(例如,內田誠一,DP匹配概論,信學技法,參見PRMU2006-166 (2006-12))。 例如當測定A這一記號列與A’這一記號列的相似程度的時候,想到通過將A記號列的某個 記號替換成其他記號「置換錯誤(S Substitution)」、對A記號列附加原本沒有的記號「插 入錯誤(I -Insertion)」、以及從A記號列中去掉原有的記號「遺漏錯誤(D =Deletion)」這 三種變換進行多個組合從而產生A’,推定以最少的變換將A變換為A’的方法。推定之后, 需要評價在變換的組合的候選之間哪個候選的變換最少,因此將各變換替換各從A變換到 A’的路徑,將各變換作為該路徑距離進行評價,將其路徑距離最小的作為以最少變換從A 變換到A’的模式(稱為“錯誤模式”),并視為從A產生A’的過程。此處評價所用的最短 路徑距離也可作為A和A’的記號間距。這樣的路徑距離最短的從A到A’的變換和變換模 式稱為最佳匹配。
該DP匹配,可根據應用于從詞匯列表數據12取得的發(fā)音記號列和變換發(fā)音記號 列。圖10顯示了對于美國姓氏的發(fā)音記號列和變換發(fā)音記號列進行DP匹配所輸出的錯誤 模式的實例。比較變換發(fā)音記號列和發(fā)音記號列時,在文本列Moore中,發(fā)音記號列右起 第二個發(fā)音記號被置換,右起第三個和第四個的發(fā)音記號之間產生插入。文本列Robinson 中,發(fā)音記號列右起第四個發(fā)音記號被置換。文本列Montgomery中,發(fā)音記號列右起第六 個發(fā)音記號被置換,右起第八個發(fā)音記號被遺漏,右起第十個發(fā)音記號被置換。
當將DP匹配適用于從詞匯列表數據12取得的發(fā)音記號列和變換發(fā)音記號列計算 路徑距離的時候,由于發(fā)音記號列越長,路徑距離的值就越大,因此為了用作為識別劣化相隔度需要以發(fā)音記號列的長度對路徑距離進行歸一化處理。對于采用DP匹配的結果的識 別劣化關聯度計算方法,通過圖11來說明。在此,識別劣化關聯度計算機24具有,進行DP 匹配的DP匹配部2408,和以發(fā)音記號列長度對DP匹配部2408計算得到的路徑距離進行歸 一化的路徑距離歸一化部2409。詞匯A的發(fā)音記號列a,和作為通過文本發(fā)音記號變換部21對詞匯A的文本列進 行變換的結果的詞匯A的變換發(fā)音記號列a’,被輸入到識別劣化關聯度計算部24之后,識 別劣化關聯度計算部24將發(fā)音記號列a和變換發(fā)音記號列a’傳遞到DP匹配部2408。DP匹配部2408,進行發(fā)音記號列a的記號列長PLa的計算,找出發(fā)音記號列a和 變換發(fā)音記號列a’的最佳匹配,計算最佳匹配的路徑距離La,將路徑距離La和發(fā)音記號列 a的記號列長PLa傳送到路徑距離歸一化部2409。路徑距離歸一化部2409,計算以發(fā)音記號列a的記號列長PLa對路徑距離La進行 歸一化之后的歸一化路徑距離L/。識別劣化關聯度計算部24,輸出歸一化路徑距離L/作 為詞匯A的識別劣化關聯度。
(采用DP匹配和基于發(fā)音記號的權重的結果的識別劣化關聯度計算)采用DP匹配結果的識別劣化關聯度計算,具有僅以通常的DP匹配算法即可容易 地進行識別劣化關聯度計算這樣的便利之處,不管被置換的發(fā)音記號的內容、被插入的發(fā) 音記號的內容、遺漏的發(fā)音記號的內容,都當作同樣的權重進行處理。但是,例如,在某個母 音被置換為與其相近的發(fā)音的其他母音的情形和被置換為完全不同發(fā)音的子音的情形中, 后者所引起的識別率的劣化更加強,因此對聲音識別的識別率的影響度在兩者之間是不同 的??紤]到這樣的情況,不對所有的置換錯誤、插入錯誤、遺漏錯誤的內容進行同等處理,而 進行如下的加權。置換錯誤時,每個發(fā)音記號的置換組合的內容,對聲音識別的識別率的影 響度越大識別劣化關聯度越大。又,插入錯誤和遺漏錯誤的情況下,每個被插入的發(fā)音記 號、被遺漏的發(fā)音記號,對聲音識別的識別率的影響越大則識別劣化關聯度越大。采用了 DP 匹配和根據發(fā)音記號的權重的結果的識別劣化關聯度計算考慮了由從詞匯列表數據12取 得的發(fā)音記號列和變換發(fā)音記號列之間的DP匹配得到的最佳匹配的置換錯誤、插入錯誤、 遺漏錯誤的內容并進行了比較,通過這樣的識別劣化關聯度計算可以得到更加精確的識別 劣化關聯度。
采用DP匹配和根據發(fā)音記號的權重的結果的識別劣化關聯度計算方法,參考圖 12進行說明。在此,識別劣化關聯度計算部24具有進行DP匹配的DP匹配部2408 ;根據 由DP匹配部2408確定的最佳匹配計算類似距離的類似距離計算部2411 ;對類似距離計算 部2411計算得到的類似距離以發(fā)音記號列長度進行歸一化的類似距離歸一化部2412。詞匯A的發(fā)音記號列a和作為通過文本發(fā)音記號變換部21對詞匯A的文本列進 行變換的結果的詞匯A的變換發(fā)音記號列a’,被輸入到識別劣化關聯度計算部24之后,識 別劣換關聯度計算部24,將發(fā)音記號列a和變換發(fā)音記號列a’發(fā)送到DP匹配部2408。
DP匹配部2408,進行發(fā)音記號列a的記號列長度PLa的計算,尋找發(fā)音記號列a 和變換發(fā)音記號列a’的最佳匹配,并將發(fā)音記號列a、變換發(fā)音記號列a’、錯誤模式、和發(fā)音記號列a的記號列長度PLa發(fā)送到類似距離計算部2411。類似距離計算部2411計算類似距離LLa,并將類似距離LLa和記號列長度PLa發(fā) 送到類似距離歸一化部2412。又,類似距離LLa的計算方法將在后面進行詳細敘述。類似距離歸一化部2412以變換發(fā)音記號列a的記號列長度PLa對類似距離LLa進 行歸一化以計算歸一化類似距離LL/。識別劣化關聯度計算部24將歸一化類似距離LL/作為詞匯A的識別劣化關聯度 輸出。
(類似距離)接著,采用圖13對理由類似距離計算部2411進行的類似距離LLa的計算方法進行 說明。圖13顯示最佳匹配例和例外語辭典制作裝置10的存儲器中所存儲的置換距離表、 插入距離表和遺漏距離表。這些最佳匹配,置換距離表,插入距離表,遺漏距離表中的Va, Vb, Vc,…表示母音發(fā)音符號,Ca,Cb,Ce,…表示子音發(fā)音符號。最佳匹配中,顯示詞匯A 的發(fā)音記號列a、詞匯A的變換發(fā)音記號列a’,以及發(fā)音記號列變換發(fā)音記號列a’之間 的錯誤模式。
置換距離表、插入距離表、遺漏距離表是,最佳匹配中發(fā)音記號一致時的距離為1 的情況下的、用于對各個錯誤種類計算距離的表。具體來說,置換距離表是,關于置換錯誤 的、考慮了各個發(fā)音記號的組合對聲音識別的識別率的影響度的、定義比1大的距離的表。 插入距離表是,考慮了每個插入的發(fā)音記號對聲音識別率的影響度的、定義比1大的距離 的表。遺漏距離表是,考慮了每個遺漏的發(fā)音記號對聲音識別的識別率的影響度的、定義比 1大的距離的表。在此,置換距離表的發(fā)音記號的行(橫向),表示原來的發(fā)音記號,置換距 離表的發(fā)音記號的列(縱向)表示置換發(fā)音記號,原來的發(fā)音記號的列與置換發(fā)音記號的 行交叉的部分表示產生該置換錯誤時的距離。例如,發(fā)音記號Va置換為發(fā)音記號Vb時,得 到原來的發(fā)音記號Va的列和置換發(fā)音記號Vb的行交叉的距離SVaVb。又,發(fā)音記號Va置換 為發(fā)音記號Vb時的距離Svavb,和發(fā)音記號Vb置換為發(fā)音記號Va時的距離Svbva不限于是相 同的值。插入距離表,表示各個發(fā)音記號的產生自身插入時的距離,例如插入發(fā)音記號Va 時得到距離IVa。遺漏距離表,表示各個發(fā)音記號的自身遺漏時的距離,例如插入發(fā)音記號 Va時得到距離DVa。該詞匯A的最佳匹配的發(fā)音記號列a和變換發(fā)音記號列a’中,發(fā)音記 號列a的第一個發(fā)音記號Ca —致,因此距離為1,發(fā)音記號列a的第二個發(fā)音記號Va被置 換為發(fā)音記號Vc因此距離為Svav。,發(fā)音記號第三個發(fā)音記號Cb —致,因此距離為1,發(fā)音記 號列a的第四個的發(fā)音記號Vb 一致,因此距離為1,發(fā)音記號列a的第四個和第五個之間 插入Ce,因此距離為Ic。,發(fā)音記號列a的第五個發(fā)音記號Vc —致,因此距離為1,發(fā)音記號 列a的第六個發(fā)音記號Va遺漏,因此變?yōu)镈Va。這樣,采用基于發(fā)音記號列a_變換發(fā)音記 號列a’之間的發(fā)音記號的權重結果的類似距離LLa,為將這些發(fā)音記號之間的距離全部相 加的值(l+SVaV。+l+l+Ic。+l+DVa)。
以上對最佳匹配中發(fā)音記號一致的情況的距離一律作為1進行了說明,但是即使 在一致的情況下,根據發(fā)音記號在聲音識別中的識別率還存在重要的發(fā)音以及重要度相對較低的發(fā)音。此時,當發(fā)音記號一致時,對各發(fā)音記號確定小于1的距離,越是對于識別率 的重要度高的發(fā)音記號一致,越要考慮其重要性,按每一發(fā)音記號確定值變小的比1小的 距離,除了如圖13所示的置換距離表、插入距離表、遺漏距離表,還可通過具有圖14所示的 一致距離表,得到精確的識別劣化關聯度。此處,一致距離表中,例如一致的發(fā)音記號為Va 時取得距離MVa。加上一致距離表的時候,詞匯A的最佳匹配的發(fā)音記號列a、變換發(fā)音記號 列a’、和發(fā)音記號列變換發(fā)音記號列a’間的錯誤模式中,發(fā)音記號列a的第一個發(fā)音 記號Ca —致,因此距離為M⑶發(fā)音記號列a的第二個的發(fā)音記號Va置換為發(fā)音記號Vc,因 此距離為Svav。,發(fā)音記號列a的第三個發(fā)音記號Cb —致,因此距離為Ma,發(fā)音記號列a的第 四個發(fā)音記號Vb 一致,因此距離為Mvb,發(fā)音記號列a的第四個和第五個的發(fā)音記號之間插 入Ce,因此距離為I。。,發(fā)音記號列a的第五個發(fā)音記號Vc —致,因此距離為Mvc,發(fā)音記號 列a的第六個的發(fā)音記號va遺漏,因此為DVa。最后,采用根據發(fā)音記號列變換發(fā)音記 號列a’間的發(fā)音記號的加權的結果的類似距離LLa,為對所有這些發(fā)音記號間的距離進行 加算得到的值(I+Svave+Mcb+Mvb+L+Mve+Dj。
(第2實施方式)接著,對本發(fā)明的第2實施方式進行說明。第2實施方式中,圖2所示的數據庫或 單詞辭典50中存儲的詞匯數據中進一步包括「使用頻率」。又,登錄候選詞匯列表排序部 32,在第1實施方式中登錄候選詞匯列表13中的登錄候選詞匯列表數據以識別劣化關聯度 從高到低的順序排序(參照圖6的步驟S116),第2實施方式中,進一步考慮使用頻率,對 登錄候選詞匯列表數據進行排序(參考顯示第2實施方式涉及的處理流程的圖15的步驟 S216)。其他結構和處理步驟與第1實施方式的相同。
此處,使用頻率是指,現實世界中各詞匯的使用頻率。例如,某國的姓氏(Last Name ;姓氏 名字)的使用頻率,可視為與該國的具有該姓氏的人口占整體的比例等同,或, 可是視為進行該國國勢調查的匯總時的姓氏數的出現頻率?,F實世界中各詞匯的使用頻率不同,由于使用頻率高的詞匯登錄到聲音識別辭典 中的概率較高,因此在現實的聲音識別應用實例中對識別率的影響變大。因此,當數據庫或 單詞辭典50中包括使用頻率時,登錄候選詞匯列表排序部32,對識別劣化關聯度和使用頻 率兩者進行參考,并以登錄優(yōu)先順序對登錄候選詞匯列表數據進行排序。
具體來說,登錄候選詞匯列表排序部32基于預先確定的登錄順序確定條件進行 排序。登錄順序確定條件由,使用頻率差條件、識別劣化關聯度差條件、優(yōu)先使用頻率差條 件這三個數值條件構成。使用頻率差條件、識別劣化關聯度差條件、優(yōu)先使用頻率差條件分 別基于使用頻率差條件閾值(DF ;DF被賦予0或負數)、識別劣化關聯度差條件閾值(DL ; DL被賦予0或正值);優(yōu)先使用頻率差條件閾值(PF ;PF被賦予0或正值)。
在第一實施方式中,登錄候選詞匯列表13的登錄后續(xù)詞匯列表數據,通過登錄候 選詞匯列表排序部32以識別劣化關聯度的高到低的順序排列,在第二實施方式中,對以識 別劣化關聯度高到低的順序排列的各登錄候選詞匯列表數據,以下面所示的第一步驟到第三步驟的三個步驟進行重新排列。在第一步驟中,調查各登錄候選詞匯列表數據的識別劣化關聯度,當存在兩個以 上具有相同識別劣化關聯度的登錄候選詞匯列表數據時,以這些登錄候選詞匯列表數據中 的使用頻率高的順序重新排序。這樣,在具有相同識別劣化關聯度的登錄候選詞匯列表數 據中,按照使用頻率高的詞匯被優(yōu)先登錄于例外語辭典60的順序排列。
在第二步驟中,分別對各個登錄候選詞匯列表數據進行重新排列,以滿足登錄于 排序順位為第η個的登錄候選詞匯列表數據的使用頻率(Fn)與其之前一個即η-1個的登錄 候選詞匯的列表數據使用頻率(Flri)的差(ClFlriin = Flri-Fn)為使用頻率差條件閾值(DF) 以上(ClFlriinSDF))的條件,或者,在ClFlriin小于DF時(ClFlriinSDF)時,滿足登錄于排序 順位為第η個的登錄候選詞匯列表數據的使用頻率識別劣化關聯度(Ln)與其之前一個即 η-1個的登錄候選詞匯的列表數據的識別劣化關聯度(Llri)的差(ClLlriin = Llri-Ln)為識別 劣化關聯度差條件閾值(DL)以上(ClLnInSDL)的條件。這樣重新排列的方法具有多種, 例如下列方法。在第一步驟結束的狀態(tài)下,以從登錄在第二個的登錄候選詞匯列表數據到 登錄在最后的登錄候選詞匯列表數據的順序進行下面的操作。即,計算登錄在第η個的登 錄候選詞匯列表數據的使用頻率和登錄在第η-1個的登錄候選詞匯列表數據的使用頻率 的差(ClFlriin)并與DF進行比較。如果ClFlrii 大于等于DF (ClFlriinSDF),則不再進行任何 其他操作,而對登錄在第η+1個的登錄候選詞匯列表數據進行查詢。如果ClFlriin比DF小 (ClFlriin < DF),則計算登錄在第η個的登錄候選詞匯列表數據的識別劣化關聯度和登錄在 第η-1個的登錄候選詞匯列表數據的識別劣化關聯度之間的差(ClLlriin),并與DL進行比較。 如果ClL1^n大于等于DUdL1^n彡DL),則不再進行其他動作,對登錄于第η+1個的登錄候 選詞匯列表數據進行查詢。如果ClL1^n比DL小(ClLnIn < DL),將登錄于第η個的登錄候 選詞匯列表數據和登錄于第η-1個的登錄候選詞匯列表數據的順序進行交換之后,對登錄 于η+1個的登錄候選詞匯列表數據進行查詢。對登錄于η+1個的登錄候選詞匯列表數據與 登錄于第η個的登錄候選詞匯列表數據之間進行同樣操作(即,根據dFn、n+1 = Fn-Fn+1與DF 的比較,dLn、n+1 = Ln-Ln+1與DL的比較的操作)。當該操作進行到登錄于最后的登錄候選詞 匯列表數據,第二步驟的重新排列的第一輪結束。第二步驟的重新排列的第一輪中,如果登 錄候選詞匯列表數據的順序互換一次也沒有發(fā)生,則結束第二步驟。如果,登錄候選詞匯列 表數據的順序的互換發(fā)生過一次,則作為第二步驟的重新排列的第二輪,再次對登錄在第 二個的登錄候選詞匯列表數據以后的登錄候選詞匯列表數據重復同樣操作。在第二步驟的 重新排列的第二輪中,如果登錄候選詞匯列表數據的順序的互換一次都沒有發(fā)生,則結束 第二步驟。如果發(fā)生一次登錄候選詞匯列表數據的順序的互換,則作為第二步驟的重新排 列的第三輪,再次對登錄在第二個的登錄候選詞匯列表數據以后的登錄候選詞匯列表數據 重復相同操作。重復這樣的操作,在未發(fā)生登錄候選詞匯列表數據的順序互換的一輪結束 第二步驟。
采用圖16、圖17、圖18、圖19對上述第二步驟的重新排列方法進行具體說明。在 此,設DF為-0.2,DL為0.5。圖16 “第2步驟的重新排列第一輪”的(a) “第一輪的初始 狀態(tài)”的表表示第一步驟結束的狀態(tài)。(a) “第一輪的初始狀態(tài)”的表中,順序為第二個的詞匯 B 的 ClF1,2 為-0. 21,因此 ClF1,2 < -0. 2 成立,由于(IL1,2 為 0. 2,因此(IL1,2 <0.5 成立,第一 個的詞匯A和第二個的詞匯B互換?;Q后的狀態(tài)為(b) “第一輪的第三到第七個”的表。 (b) “第一輪的第三到第七個”的表中的第三個詞匯C的dF2,3為0. 14,因此dF2,3彡-0. 2, 不發(fā)生互換。第四個的詞匯D的dF3,4為-0. 21,因此dF3,4 < -0. 2成立,由于dL3,4為0. 9,因此 ClL3j4彡0. 5從而不發(fā)生互換。第五個詞匯E的dF4,5為0. 25,因此dF4,5彡-0. 2,不發(fā)生互 換。第六個詞匯F的dF5,6為0. 02,因此dF5,6彡-0. 2,不發(fā)生互換。第七個詞匯G的dF6,7 為-0. 49因此dF6,7 < -0. 2成立。因此,由于dL6,7為0. 2,因此dL6,7 < 0. 5成立,將第六個 詞匯F和第七個詞匯G互換。交換后的狀態(tài)為(c) “第一輪的最終狀態(tài)”的表。由于操作 進行到最后的第七個詞匯,所以第一輪操作到此結束。
接著進行第二輪操作。第二輪的操作從顯示與圖16“第二步驟的重新排列第一輪” 的(c) “第一輪的最終狀態(tài)”為相同狀態(tài)的圖17 “第二步驟的重新排列第二輪”的(a) “第 二輪的初始狀態(tài)”開始。關于第二個詞匯A和第三個詞匯C,ClF1,2彡-0. 2,dF2,3彡-0. 2成 立,不發(fā)生交換。關于第四個詞匯D,(^3,4<-0.2成立,但是乩3,4彡0.5,因此也不發(fā)生互 換。第五個詞匯E中dF4,5彡-0. 2,不發(fā)生互換。關于第六個詞匯G,dF5,6 < -0. 2成立且 dL5,6 < 0. 5成立,因此第五個詞匯E和第六個詞匯G互換。互換之后的狀態(tài)為“第二輪的 最終狀態(tài)”的表。“第二輪的最終狀態(tài)”的表中,關于第七個詞匯F,dF6,7彡-0. 2成立,不發(fā) 生互換。由于操作進行至最終的第七個詞匯,因此第二輪操作到此結束。
接著進行第三輪操作。第三輪的操作從顯示與如圖17“第二步驟的重新排列第二 輪”的(b) “第二輪的最終狀態(tài)”相同狀態(tài)的圖18 “第二步驟的重新排列第三輪”的(a) “第 三輪的初始狀態(tài)”開始。關于第二個詞匯A,第三個詞匯GdFli2彡-0. 2,dF2,3彡-0. 2成立, 不發(fā)生互換。關于第四個詞匯D,dF3,4<-0.2成立,但是dL3,4>0.5因此不發(fā)生互換。關 于第五個詞匯G,dF4,5 < -0. 2成立,且dL4,5 < 0. 5成立,因此第四個詞匯D和第五個詞匯G 互換?;Q后的狀態(tài)為(b) “第三輪的最終狀態(tài)”的表。(b) “第三輪的最終狀態(tài)”的表中, 關于第六個詞匯E和第七個詞匯F,dF5,6彡-0. 2,dF6,7彡-0. 2成立不發(fā)生互換。由于操作 進行到最后的第七個詞匯,因此第三輪的操作到這里結束。
接著進行第四輪的操作。第四輪的操作從顯示與圖18“第二步驟的重新排列第三 輪”的(b) “第三輪的最終狀態(tài)”相同狀態(tài)的圖19 “第二步驟的重新排列第四輪”的“第四 輪的初始狀態(tài)”開始。關于第二個詞匯A和第三個詞匯C,ClF1,2彡-0. 2,dF2,3彡-0. 2成立, 不發(fā)生互換。第四個詞匯G中dF3,4<-0.2成立,但是dL3,4>0.5,因此不發(fā)生互換。關于 第五個詞匯D、第六個詞匯E、第七個詞匯F,dF4,5彡-0. 2,dF5,6彡-0. 2,dF6,7彡-0. 2,不發(fā) 生互換。由于進行了最終的第七個操作,因此第四輪的操作到此結束,由于在該第四輪的操 作下順序的互換沒有發(fā)生,因此第二步驟結束。
第二步驟的使用頻率差條件閾值(DF)是,當包含于第n-1個登錄候選詞匯列表數 據的使用頻率小于包含于第η個登錄候選詞匯列表數據的使用頻率時,判斷是否根據識別劣化關聯度差條件進行互換的閾值。此處,當對DF賦予0時,根據識別劣化關聯度差條件 閾值(DL)對所有使用頻率反轉的第n-1個和第η個的登錄候選詞匯列表數據進行比較,如 果滿足條件則互換登錄候選詞匯列表數據。接著如果對DF賦予0,在第n-1個詞匯的使用 頻率小于第η個詞匯的使用頻率時,第n-1個和第η個的互換的執(zhí)行僅根據DL確定。
當第n-1個登錄候選詞匯列表數據的使用頻率比第η個詞匯的使用頻率小,且滿 足使用頻率差條件時,對其進行互換則在第n-1個登錄候選詞匯列表數據和第η個登錄候 選詞匯列表數據之間產生識別劣化關聯度的反轉,第二步驟的識別劣化關聯度差條件閾值 (DL)就是顯示該識別劣化關聯度的反轉在何種范圍內可被容許的值。因此如果對DL賦予 0則不產生根據使用頻率的互換,第二步驟的效果就沒有了。另一方面,如果令DL的值變 大,則以使用頻率高的詞匯更加優(yōu)先地登錄于例外語辭典60的順序排列。
在第三步驟中,對于具有比優(yōu)先使用頻率差條件閾值(PF)大的使用頻率的登錄 候選詞匯列表數據,不管識別劣化關聯度,以使用頻率大小順序對登錄候選詞匯列表數據 的順序進行重新排列。即,將使用頻率最高的登錄候選詞匯列表數據移動到登錄候選詞匯 列表13的順序第一位,第一位之后,不管識別劣化關聯度,以使用頻率高低的順序對具有 比優(yōu)先使用頻率差條件(閾值)大的使用頻率的登錄候選詞匯列表數據進行重新排列。采 用圖20進行具體說明。圖20(a) “第二步驟結束時的狀態(tài)”的表為,在圖16、圖17、圖18、 圖19中所述的第二步驟的操作結束時,即與圖19的“第四輪的初始狀態(tài)”為相同狀態(tài)。此 處,設PF為0. 7,滿足該條件的登錄候選詞匯為使用頻率0. 71的詞匯B和使用頻率0. 79的 詞匯G。關于詞匯B和詞匯G,由于使用頻率0. 79的詞匯G具有最大的使用頻率其順序為 第一,詞匯B具有僅次于詞匯G的使用頻率,因此順序為第二。除此之外的詞匯為PF以下 的使用頻率,因此相對沒有順序變化。因此,重新排列的結果為(b) “第三步驟結束時的狀 態(tài)”的表所顯示的順序。
也有通過詞匯的使用頻率分布的形式省略第2步驟和第3步驟的情況。例如,當 使用頻率顯示平緩的分布時,有時僅通過第一步驟就顯示充分的效果。又,在使用頻率上限 數的詞匯的使用頻率大,除此之外的詞匯的使用頻率顯示平緩的使用頻率分布時,在第一 步驟之后省去第二步驟通過實行第三步驟顯示充分的效果。在上述兩種使用頻率分布的中 間的使用頻率分布形狀的情況下,也有省去第三步驟僅進行第一步驟和第二步驟顯示充分 效果的情況。對不限于采用識別劣化關聯度,而采用詞匯的使用頻率確定登錄至例外語辭典60 的登錄對象時的效果進行具體說明。為了理解的方便,如下那樣對前提條件進行單純化。
(1)無法通過文本發(fā)音記號變換部21得到正確發(fā)音記號列的名字僅為A和B兩 個。(2)名字A的使用頻率為10% (人口 1,000人中100人的出現率),名字B的使用 頻率為0. 1% (人口 1,000人中1人的出現率)。(3)名字A的識別劣化管理關聯度設為a,名字B的識別劣化關聯度設為b時,b >a,如圖4所示,名字A和名字B采用經過文本發(fā)音記號變換部21變換得到的變換發(fā)音記號 列登錄到聲音識別辭典81中時,根據聲音識別部82的平均識別率為名字A為50%,名字B 為 40%。(4)正確發(fā)音記號列登錄于聲音識別辭典中的名字的平均識別率一律為90% (名 字A和名字B都登錄于例外語辭典60中,如圖4所示,當通過正確發(fā)音記號列登錄于聲音 識別辭典81中時,根據聲音識別部82的平均識別率也為90% )。(5)能夠登錄于例外語辭典60的名字僅為一個(名字A和名字B中僅可登錄一 個)。(6)登錄于手機電話簿的登錄名稱作為每個人10個登錄,將電話簿的登錄名稱登 錄于聲音識別裝置進行使用的人為1000人。
在這種單純化的條件下將名字A或名字B登錄于例外語辭典60時,計算1000人 的電話簿總體的平均識別率。如果名字B登錄于例外語辭典60,名字B的識別率為90%,另一方面,在每人登錄 10名登錄名稱的電話簿有1000份的情況下,識別率50%的名字A出現次數為100次左右。 如下那樣對電話簿總體的評價識別率進行計算。((0. 9X9000+0. 5X 1000)/(IOX 1000)) X 100 = 86% 如果名字A登錄于例外語辭典60,名字A的識別率為90 %,另一方面,在每人登錄 10名登錄名稱的電話簿有1000份的情況下,識別率40%的名字出現次數為10次左右。如 下那樣對電話簿總體的平均識別率進行計算。((0. 9 X 9990+0. 4 X 10) / (10 X 1000)) X 100 = 89. 95 %當僅以識別劣換關聯度確定登錄于例外語辭典60的名字時,登錄了名字B,但是 使用頻率差別如此之大時,即使識別劣化關聯度小也將使用頻率高的單詞(此時,為名字 A)優(yōu)先地登錄于例外語辭典,這樣用戶整體觀察時的識別率高。
(第3實施方式)接著,對本發(fā)明的第三實施方式進行說明。圖21是顯示本實施方式涉及的例外語 辭典制作裝置10的結構的框圖。在第一實施方式中,數據庫或單詞辭典50中存儲的人名、 曲名等詞匯數據輸入到例外語辭典制作裝置10,但是本實施方式中,將一般的單詞經過專 利文獻1所述的第一階段和第二階段附加有刪除候選標記和登錄候選標記的處理完成的 詞匯列表數據53 (相當于專利文獻1所述的「WORD LINKED LIST」),用作為至例外語辭典 制作裝置10的輸入。
在圖22 (a)中,顯示了處理完成的詞匯列表數據53的數據結構。如該圖所示,在處 理完成的詞匯列表數據53中,包含有文本列、發(fā)音記號列、刪除候選標記、登錄候選標記。 又,也可進一步包括使用頻率。處理完成的詞匯列表數據53所具有的標記,將專利文獻1 揭示的第二階段的詞根的單詞作為登錄候選(即,登錄候選標記為真),另一方面,將根據 該詞根和規(guī)則的組合生成與作為源頭的登錄于單詞辭典的發(fā)音記號列同一的發(fā)音記號列 的單詞,作為刪除候選(即,刪除候選標記為真)。
例外語辭典制作裝置10根據處理完成的詞匯列表數據53生成擴展詞匯列表數據 17,并存儲于裝置10內的存儲器等存儲介質。
圖22(b)中,顯示擴展詞匯列表數據17的數據結構。擴展詞匯列表數據17具有這 樣的數據結構具有處理完成詞匯列表數據53所有的文本數據列、發(fā)音記號列、刪除候選 標記和登錄候選標記,并進一步具有識別劣化關聯度。又,處理完成的詞匯列表數據53中 存在使用頻率的時候,擴展詞匯列表數據17進一步具有使用頻率。又,擴展詞匯列表數據 17的文本列、發(fā)音記號列、刪除候選標記和登錄候選標記的真?zhèn)蔚闹?,將處理完成的詞匯列 表數據53的值進行保留轉儲,識別劣化關聯度在擴展詞匯列表數據17存儲于存儲器等存 儲介質中時被初始化。
文本發(fā)音記號變換部21變換從第i個(i = 1 最后一個數據數)擴展詞匯列表 數據17輸入的文本列生成變換發(fā)音記號列。識別劣化關聯度計算部24,如果從文本發(fā)音記號變換部21接收第i個的變換發(fā)音 記號列,則確認第i個擴展詞匯列表數據17保持的刪除候選標記和登錄候選標記。確認之 后,如果刪除候選標記為真,或刪除候選標記為偽且登錄候選標記為真(即,作為詞根使用 的詞匯),則不進行處理,如果刪除候選標記為偽且登錄候選標記為偽時,根據變換發(fā)音記 號列和從擴展詞匯列表數據17取得的發(fā)音記號列計算識別劣化關聯度,并將該計算得到 的識別劣化關聯度登錄到第i個擴展詞匯列表數據17。
登錄候選/登錄詞匯列表制作部33,在通過文本發(fā)音記號變換部21和識別劣化關 聯度計算部24對所有的擴展詞匯列表數據17進行的處理結束之后,從擴展詞匯列表數據 17中刪除刪除候選標記為真且登錄候選標記為偽的詞匯,將其余剩下的登錄候選標記為真 的詞匯(即,作為詞根使用的詞匯)作為登錄詞匯,并將刪除標記為偽且登錄候選標記為偽 的詞匯作為登錄候選詞匯,共分為兩種。然后,登錄候選/登錄詞匯列表制作部33,對于登 錄候選詞匯,將各詞匯的文本列及其發(fā)音記號列和識別劣化關聯度(具有使用頻率時還有 使用頻率)作為登錄候選詞匯列表13存儲于存儲器等存儲介質。
登錄候選詞匯列表排序部32和上述第一實施方式和第二實施方式一樣,以登錄 優(yōu)先順序的高低順序對登錄候選詞匯列表13的登錄候選詞匯進行排序。擴展例外語辭典登錄部42,最初將登錄詞匯列表16的各登錄詞匯的文本列和發(fā) 音記號列登錄于例外語辭典60。接著,以登錄優(yōu)先順位的高低順序,將登錄候選詞匯列表 13的各詞匯的文本列和發(fā)音記號列,在不超過例外語辭典存儲器尺寸條件71所示的數據 限制容量的范圍內以最大數量的詞匯登錄到例外語辭典60。這樣,能夠得到對于一般的單 詞,在辭典尺寸為規(guī)定限制下時也能得到最好的聲音識別性能的例外語辭典60。
圖23是在實際的美國各姓氏(Last Name)的人口中所占比例從上位開始累積的 圖表,以及表示各姓氏使用頻率的圖表。樣本總數為269,762,087,姓氏總數為6,248,415。 這些數字是從美國的Census 2000 (公元2000年的國勢調查)的答卷中抽取的。
27
圖24是顯示根據識別劣化關聯度制作例外語辭典60進行聲音識別的實驗時的識 別率提高結果的圖表。實驗是對美國姓氏一萬詞匯數據庫進行的,該數據庫中包括作為各 詞匯的姓氏在北美的使用頻率(即具有該姓氏的人口相對于總人口的的比例)。兩個圖表 中,“根據本發(fā)明的例外語辭典制作”的圖表,對美國姓氏一萬詞匯數據庫計算采用了 LPC倒 譜距離的結果的識別劣化關聯度,根據該識別劣化關聯度制作例外語辭典60之后,顯示進 行聲音識別實驗時的識別率,“根據使用頻率的例外語辭典制作”的圖表表示僅基于使用頻 率制作例外語辭典60時的識別率。
更加具體來說,“根據本發(fā)明的例外語辭典制作”的圖顯示的是,如基于識別劣化 關聯度的大小將由已有的文本發(fā)音記號變換裝置變換的發(fā)音記號列與美國姓氏1萬詞匯 數據庫的發(fā)音記號列不同的詞匯全體的10%、20%、30%分別登錄到例外語辭典60時那 樣,每次以10%的程度擴大例外語辭典60的尺寸時(至例外語辭典60的登錄率改變時) 的識別率的變化。另一方面,“使用頻率的例外語辭典制作”的圖表示的是,如將由已有的文 本發(fā)音記號變換裝置變換得到的發(fā)音記號列與美國姓氏1萬詞匯數據庫的發(fā)音記號列不 同的詞匯全體的10%、20%、30%分別以使用頻率高至低的順序登錄于例外語辭典時那樣, 每次以10%的程度擴大例外語辭典的尺寸時的識別率的變化。識別率是指,從美國姓氏1萬詞匯數據庫中隨機選取100個詞匯登錄于聲音識別 辭典,以該100個詞匯為對象測定識別率的結果。識別率測定所采用的100個詞匯的聲音 是合成聲音,登錄于該數據庫的發(fā)音記號列是聲音合成裝置的輸入。
根據圖可得知,本實驗中采用例外語辭典的登錄率為0%時(不采用例外語辭典 60僅以規(guī)則進行發(fā)音記號列的變換時)的聲音識別辭典,則識別率為68%,但是當采用登 錄率為100%的例外語辭典登錄的聲音識別辭典時,識別率提高至80%,能夠確認利用了 例外語辭典時識別率提高的效果。此處,基于本發(fā)明的例外語辭典60的識別率在例外語辭 典60的登錄率為50%時達到80%,據此,根據識別劣化關聯度制作例外語辭典60的時候, 即使將例外語辭典60的登錄詞匯減至一半(即,將例外語辭典60的存儲器尺寸大致減去 一半)時也可保持識別率。相對于此,當根據使用頻率制作例外語辭典時,在例外語辭典的 登錄率達到100%之前識別率無法達到80%。又,當例外語辭典的登錄率為10%至90%之 間的某一點時,基于本發(fā)明的例外語辭典60的識別率超過,根據使用頻率信息的例外語辭 典的識別率。根據上述實驗結果可明確的知道根據本發(fā)明的例外語辭典60的制作方法的 有效性。又,識別對象詞匯不限于英語,本發(fā)明也可適用于英語以外的語言。符號說明10例外語辭典制作裝置11詞匯列表數據制作部12詞匯列表數據13登錄候選詞匯列表16登錄詞匯列表
17擴展詞匯列表數據21文本發(fā)音記號變換部22變換發(fā)音記號列24識別劣化關聯度計算部31登錄候選詞匯列表制作部32登錄候選詞匯列表排序部33登錄候選/登錄詞匯列表制作部41例外語辭典登錄部42擴展例外語辭典登錄部50數據庫或單詞辭典53處理完成的詞匯列表數據60例外語辭典71例外語辭典存儲器尺寸條件。
權利要求
1.一種例外語辭典制作裝置,其特征在于,其是基于將詞匯的文本列變換為發(fā)音記號 列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相 對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝 置使用的所述例外語辭典用的例外語辭典制作裝置,該例外語辭典制作裝置包括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單元;識別劣化關聯度計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變 換單元變換的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號 列不一致的情況下,計算識別劣化關聯度,所述識別劣化關聯度是所述變換發(fā)音記號列與 所述正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的程度;例外語辭典登錄單元,其基于通過所述識別劣化關聯度計算單元計算出的對多個各 識別對象詞匯的識別劣化關聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞 匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語 辭典中。
2.如權利要求1所述的例外語辭典制作裝置,其特征在于,進一步包括存儲所述例外語辭典中能夠存儲的數據限制容量的例外語辭典存儲器尺寸條件存儲 單元,所述例外語辭典登錄單元進行所述登錄,使得所述例外語辭典中存儲的數據量不超過 所述數據限制容量。
3.如權利要求1或2所述的例外語辭典制作裝置,其特征在于,所述例外語辭典登錄單 元進一步基于所述多個各識別對象詞匯的使用頻率,選擇登錄對象的識別對象詞匯。
4.如權利要求3所述的例外語辭典制作裝置,其特征在于,所述例外語辭典登錄單元 與所述識別劣化關聯度無關地,優(yōu)先選擇具有比預先確定的閾值大的所述使用頻率的識別 對象詞匯作為登錄對象的識別對象詞匯。
5.如權利要求1至4任一項所述的例外語辭典制作裝置,其特征在于,所述識別劣化關 聯度計算單元,計算出所述變換發(fā)音記號列和所述正確發(fā)音記號列之間的頻譜距離尺度作 為所述識別劣化關聯度。
6.如權利要求1至4任一項所述的例外語辭典制作裝置,其特征在于,所述識別劣化關 聯度計算單元,計算出作為基于所述變換發(fā)音記號列的聲音的識別結果的聲音識別似然度 與作為基于所述正確發(fā)音記號列的所述聲音的識別結果的聲音識別似然度之間的差,作為 所述識別劣化關聯度。
7.如權利要求1至4任一項所述的例外語辭典制作裝置,其特征在于,所述識別劣化關 聯度計算單元,計算出所述變換發(fā)音記號列和所述正確發(fā)音記號列之間基于最佳匹配的路 徑距離,并計算出以所述正確發(fā)音記號列的長度對計算得到的路徑距離進行歸一化之后的 歸一化距離,作為所述識別劣化關聯度。
8.如權利要求7所述的例外語辭典制作裝置,其特征在于,所述識別劣化關聯度計算 單元,計算出類似距離作為所述路徑距離,所述路徑距離添加了基于所述變換發(fā)音記號列 和所述正確發(fā)音記號列之間相對應的發(fā)音記號之間的關系的權重,并計算出以所述正確發(fā) 音記號列的長度對計算得到的類似距離進行歸一化之后的歸一化類似距離,作為所述識別 劣化關聯度。
9.一種聲音識別裝置,其特征在于,包括聲音識別辭典制作單元,其采用通過如權利要求1至8中任一項所述的例外語辭典制 作裝置所制作的例外語辭典,將識別對象詞匯的文本列變換為發(fā)音記號列,并基于該變換 結果制作聲音識別辭典;采用通過所述聲音識別辭典制作單元所制作的聲音識別辭典進行聲音識別的聲音識 別單元。
10.一種例外語辭典制作方法,其特征在于,其是例外語辭典制作裝置所進行的例外語 辭典制作方法,所述例外語辭典制作裝置基于將詞匯的文本列變換為發(fā)音記號列的規(guī)則, 并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相對應地予 以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝置使用的 所述例外語辭典,該例外語辭典制作方法包括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換步驟;識別劣化關聯度計算步驟,在作為所述文本發(fā)音記號變換步驟的所述識別對象詞匯的 文本列的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不 一致的情況下,計算識別劣化關聯度,所述識別劣化關聯度是所述變換發(fā)音記號列與所述 正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的程度;例外語辭典登錄步驟,基于在所述識別劣化關聯度計算步驟分別對多個識別對象詞匯 進行計算得到的識別劣化關聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞 匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語 辭典中。
11.一種聲音識別方法,其特征在于,包括采用通過權利要求10所述的例外語辭典制作方法制作的例外語辭典,將識別對象詞 匯的文本列變換為發(fā)音記號列,并基于該變換結果制作聲音識別辭典的聲音識別辭典制作 步驟;和使用通過所述聲音識別辭典制作步驟所制作的聲音識別辭典進行聲音識別的聲音識 別步驟。
12.—種例外語辭典制作程序,其特征在于,其是基于將詞匯的文本列變換為發(fā)音記號 列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相 對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝 置使用的所述例外語辭典用的例外語辭典制作程序,該例外語辭典制作程序使得計算機作 為以下單元起作用將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單元;識別劣化關聯度計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變 換單元變換的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號 列不一致的情況下,計算識別劣化關聯度,所述識別劣化關聯度是所述變換發(fā)音記號列與 所述正確發(fā)音記號列之間的差異對聲音識別性能劣化影響的程度;例外語辭典登錄單元,其基于通過所述識別劣化關聯度計算單元分別對多個識別對象 詞匯進行計算得到的識別劣化關聯度,從所述多個識別對象詞匯中選擇登錄對象的識別對 象詞匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語辭典中。
13.—種例外語辭典制作裝置,其特征在于,其是基于將詞匯的文本列變換為發(fā)音記號 列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相 對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝 置使用的所述例外語辭典用的例外語辭典制作裝置,該例外語辭典制作裝置包括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單元; 發(fā)音記號列間距計算單元,在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變 換單元變換的變換結果的變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號 列不一致的情況下,計算作為基于所述變換發(fā)音記號列的聲音與基于所述正確發(fā)音記號列 的聲音之間的距離的發(fā)音記號列間距;和例外語辭典登錄單元,基于通過所述發(fā)音記號列間距計算單元分別對多個識別對象詞 匯進行計算得到的發(fā)音記號列間距,從所述多個識別對象詞匯中選擇登錄對象的識別對象 詞匯,將被選到的登錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外 語辭典中。
14.一種例外語辭典制作方法,其特征在于,其是例外語辭典制作裝置所進行的例外語 辭典制作方法,所述例外語辭典制作裝置基于將詞匯的文本列變換為發(fā)音記號列的規(guī)則, 并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相對應地予 以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝置使用的 所述例外語辭典,該例外語辭典制作方法包括將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換步驟; 當作為所述文本發(fā)音記號變換步驟的所述識別對象詞匯的文本列的變換結果的變換 發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不一致的情況下,計算作為基 于所述變換發(fā)音記號列的聲音和基于所述正確發(fā)音記號列的聲音之間的距離的發(fā)音記號 列間距的發(fā)音記號列間距計算步驟;和基于在所述發(fā)音記號列間距計算步驟分別對多個識別對象詞匯進行計算得到的發(fā)音 記號列間距,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞匯,將被選到的登錄 對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語辭典中的例外語辭 典登錄步驟。
15.一種例外語辭典制作程序,其特征在于,其是基于將詞匯的文本列變換為發(fā)音記號 列的規(guī)則,并基于將符合該規(guī)則的變換對象之外的例外語的文本列與其正確發(fā)音記號列相 對應地予以存儲的例外語辭典,制作將識別對象詞匯的文本列變換為發(fā)音記號列的變換裝 置使用的所述例外語辭典用的例外語辭典制作程序,所述例外語辭典制作程序使計算機作 為以下單元起作用將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號變換單元; 在作為所述識別對象詞匯的文本列經所述文本發(fā)音記號變換單元變換的變換結果的 變換發(fā)音記號列與所述識別對象詞匯的文本列的正確發(fā)音記號列不一致的情況下,計算作 為基于所述變換發(fā)音記號列的聲音和基于所述正確發(fā)音記號列的聲音之間的距離的發(fā)音 記號列間距的發(fā)音記號列間距計算單元;和基于通過所述發(fā)音記號列間距計算單元分別對多個識別對象詞匯進行計算得到的發(fā)音記號列間距,從所述多個識別對象詞匯中選擇登錄對象的識別對象詞匯,將被選到的登 錄對象的識別對象詞匯的文本列及其正確發(fā)音記號列登錄到所述例外語辭典中的例外語 辭典登錄單元。
16.一種識別詞匯登錄裝置,其特征在于,包括 具有詞匯的文本列及其正確發(fā)音記號列的識別對象詞匯;通過規(guī)定的規(guī)則將所述識別對象詞匯的所述文本列變換為發(fā)音記號列的文本發(fā)音記 號列變換單元;通過所述文本發(fā)音記號列變換單元變換得到的變換發(fā)音記號列; 計算作為基于該變換發(fā)音記號列的聲音與基于所述正確發(fā)音記號列的聲音之間的距 離的發(fā)音記號列間距的發(fā)音記號列間距計算單元;基于由所述發(fā)音記號列間距計算單元計算得到的發(fā)音記號列間距登錄所述識別對象 詞匯的識別對象詞匯登錄單元。
17.一種識別詞匯登錄裝置,其特征在于,包括以規(guī)定的規(guī)則將識別對象詞匯的文本列變換為發(fā)音記號列的文本發(fā)音記號列變換單元;計算發(fā)音記號列間距的發(fā)音記號列間距計算單元,所述發(fā)音記號列間距是基于由所述 文本發(fā)音記號列變換單元變換的變換發(fā)音記號列的聲音與基于所述識別對象詞匯的正確 發(fā)音記號列的聲音之間的距離;基于通過所述發(fā)音記號列間距計算單元計算得到的發(fā)音記號列間距登錄所述識別對 象詞匯的識別對象詞匯登錄單元。
18.一種聲音識別裝置,其特征在于,包括具有通過權利要求16或17所述的識別詞匯登錄裝置的前記識別對象詞匯登錄單元登 錄的識別對象詞匯的例外語辭典;采用所述例外語辭典將識別對象詞匯的文本列變換為發(fā)音記號列,基于該變換結果制 作聲音識別辭典的聲音識別辭典制作單元;采用由所述聲音識別辭典制作單元制作得到的聲音識別辭典進行聲音識別的聲音識 別單元。
全文摘要
本發(fā)明提供能夠減小例外語辭典尺寸并獲得高聲音識別性能的能夠制作例外語辭典的例外語辭典制作裝置、例外語辭典制作方法及其程序、和聲音識別裝置和聲音識別方法。為了解決上述問題,例外語辭典制作裝置(10)的文本發(fā)明發(fā)音記號變換部(21),通過將詞匯列表數據(12)的文本列變換為發(fā)音記號列,生成變換發(fā)音記號列。識別劣化關聯度計算部(24),在變換發(fā)音記號列和正確發(fā)音記號列不一致時,計算識別劣化關聯度。例外語辭典登錄部(41),中不超過例外語辭典存儲器尺寸條件(71)所示的數據限制容量的條件下,將識別關聯度大的詞匯列表數據(12)的文本列和發(fā)音記號列登錄到例外語辭典(60)中。
文檔編號G10L15/06GK102119412SQ20098013168
公開日2011年7月6日 申請日期2009年8月7日 優(yōu)先權日2008年8月11日
發(fā)明者小柳津聰, 山田真士 申請人:旭化成株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
峡江县| 隆子县| 麦盖提县| 灵丘县| 伊宁县| 舞阳县| 城口县| 寿宁县| 桐城市| 龙井市| 台湾省| 墨玉县| 平昌县| 同仁县| 阿瓦提县| 庆城县| 平定县| 彭水| 尖扎县| 建始县| 博爱县| 丹阳市| 泽州县| 张掖市| 舞钢市| 黔东| 平顺县| 浦东新区| 嘉义县| 宁海县| 黄龙县| 东光县| 宣恩县| 沽源县| 庆安县| 平罗县| 营山县| 汝阳县| 达孜县| 五常市| 光泽县|