本公開涉及信息處理裝置、程序以及信息處理方法。
背景技術:
1、一直以來,進行識別語音的語音識別處理。通常,語音識別處理受到目標語音以外的噪聲的影響,因此,當包含噪聲時,語音識別的精度大幅下降。于是,需要從混合了噪聲的語音中提取目標語音。
2、例如,非專利文獻1提出了使用神經(jīng)網(wǎng)絡(nn)來學習混合語音與目標語音的配對數(shù)據(jù)并從混合語音中提取目標語音的方法。
3、現(xiàn)有技術文獻
4、非專利文獻
5、非專利文獻1:felix?weniger,外1名,“discriminatively?trained?recurrentneural?networks?for?single-channel?speech?separation”,ieee?global?conferenceon?signal?and?information?processing?(globalsip),february?2015
技術實現(xiàn)思路
1、發(fā)明要解決的問題
2、但是,在以往的對語音和非語音混合后的聲音進行學習的方法中存在如下問題:對于未學習的非語音,語音強調性能下降。
3、于是,本公開的一個或多個方案的目的在于,即便是不包含在學習數(shù)據(jù)中的未知的噪聲,也能夠實施語音強調。
4、用于解決問題的手段
5、本公開的一方案的信息處理裝置的特征在于,具備:聲響成分計算部,其使用預先決定的函數(shù),根據(jù)混合語音數(shù)據(jù)來計算聲響成分,該混合語音數(shù)據(jù)包含成為強調對象的目標語音以及與所述目標語音混合的噪聲即混合噪聲,該聲響成分是所述目標語音和所述混合噪聲的成分;聲響特征量估計部,其通過將所述聲響成分輸入到為了估計語音和噪聲的聲響特征量而學習后的特征估計模型,來估計聲響特征量;噪聲成分計算部,其使用所述預先決定的函數(shù),根據(jù)不包含所述目標語音而包含噪聲的噪聲數(shù)據(jù)來計算噪聲的成分即噪聲成分;噪聲特征量估計部,其通過將所述噪聲成分輸入到為了估計噪聲的聲響特征量而學習后的噪聲估計模型,來估計噪聲特征量;相關性估計部,其通過將所述聲響特征量和所述噪聲特征量輸入到為了估計語音及噪聲的聲響特征量與噪聲的聲響特征量的相關性而學習后的相關性估計模型,來估計所述聲響特征量與所述噪聲特征量的相關性;特征量綜合部,其利用估計出的所述相關性對所述聲響特征量進行加權,從而計算綜合特征量;掩蔽估計部,其通過將所述綜合特征量輸入到為了估計用于強調語音的掩蔽而學習后的語音強調模型,來估計目標語音掩蔽;以及語音恢復部,其根據(jù)所述聲響成分和所述目標語音掩蔽,來恢復強調了所述目標語音的語音。
6、本公開的一方案的程序的特征在于,使計算機作為以下各部發(fā)揮功能:聲響成分計算部,其使用預先決定的函數(shù),根據(jù)混合語音數(shù)據(jù)來計算聲響成分,該混合語音數(shù)據(jù)包含成為強調對象的目標語音以及與所述目標語音混合的噪聲即混合噪聲,該聲響成分是所述目標語音和所述混合噪聲的成分;聲響特征量估計部,其通過將所述聲響成分輸入到為了估計語音和噪聲的聲響特征量而學習后的特征估計模型,來估計聲響特征量;噪聲成分計算部,其使用所述預先決定的函數(shù),根據(jù)不包含所述目標語音而包含噪聲的噪聲數(shù)據(jù)來計算噪聲的成分即噪聲成分;噪聲特征量估計部,其通過將所述噪聲成分輸入到為了估計噪聲的聲響特征量而學習后的噪聲估計模型,來估計噪聲特征量;相關性估計部,其通過將所述聲響特征量和所述噪聲特征量輸入到為了估計語音及噪聲的聲響特征量與噪聲的聲響特征量的相關性而學習后的相關性估計模型,來估計所述聲響特征量與所述噪聲特征量的相關性;特征量綜合部,其利用估計出的所述相關性對所述聲響特征量進行加權,從而計算綜合特征量;掩蔽估計部,其通過將所述綜合特征量輸入到為了估計用于強調語音的掩蔽而學習后的語音強調模型,來估計目標語音掩蔽;以及語音恢復部,其根據(jù)所述聲響成分和所述目標語音掩蔽,來恢復強調了所述目標語音的語音。
7、本公開的一方案的信息處理方法的特征在于,使用預先決定的函數(shù),根據(jù)混合語音數(shù)據(jù)來計算聲響成分,該混合語音數(shù)據(jù)包含成為強調對象的目標語音以及與所述目標語音混合的噪聲即混合噪聲,該聲響成分是所述目標語音和所述混合噪聲的成分,通過將所述聲響成分輸入到為了估計語音和噪聲的聲響特征量而學習后的特征估計模型,來估計聲響特征量,使用所述預先決定的函數(shù),根據(jù)不包含所述目標語音而包含噪聲的噪聲數(shù)據(jù),來計算噪聲的成分即噪聲成分,通過將所述噪聲成分輸入到為了估計噪聲的聲響特征量而學習后的噪聲估計模型,來估計噪聲特征量,通過將所述聲響特征量和所述噪聲特征量輸入到為了估計語音及噪聲的聲響特征量與噪聲的聲響特征量的相關性而學習后的相關性估計模型,來估計所述聲響特征量與所述噪聲特征量的相關性,利用估計出的所述相關性對所述聲響特征量進行加權,從而計算綜合特征量,通過將所述綜合特征量輸入到為了估計用于強調語音的掩蔽而學習后的語音強調模型,來估計目標語音掩蔽,根據(jù)所述聲響成分和所述目標語音掩蔽,來恢復強調了所述目標語音的語音。
8、發(fā)明的效果
9、根據(jù)本公開的一個或多個方案,即便是未包含在學習數(shù)據(jù)中的未知的噪聲,也能夠實施語音強調。
1.一種信息處理裝置,其特征在于,
2.根據(jù)權利要求1所述的信息處理裝置,其特征在于,
3.根據(jù)權利要求1所述的信息處理裝置,其特征在于,
4.根據(jù)權利要求1至3中的任意一項所述的信息處理裝置,其特征在于,
5.根據(jù)權利要求4所述的信息處理裝置,其特征在于,
6.根據(jù)權利要求5所述的信息處理裝置,其特征在于,
7.根據(jù)權利要求5所述的信息處理裝置,其特征在于,
8.一種程序,其特征在于,
9.一種信息處理方法,其特征在于,