本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語音特征提取方法和裝置。
背景技術(shù):
人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機(jī)科學(xué)的一個分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語音識別技術(shù)。
在現(xiàn)有的語音識別技術(shù)中,可以將一段語音輸入語音識別網(wǎng)絡(luò),從而實(shí)現(xiàn)對語音的識別,或者語音的分類。但是,由于在現(xiàn)有技術(shù)中,語音識別網(wǎng)絡(luò)中往往沒有專門的語音特征提取的層(layers),而是采用全連接層(fullcontectlayer)起到類似提取語音特征的作用。由于語音特征是描述語音特性的重要方式,因此,在現(xiàn)有技術(shù)中缺乏對語音特征進(jìn)行有效提取的現(xiàn)狀下,現(xiàn)有技術(shù)中的語音識別準(zhǔn)確度不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于人工智能的語音特征提取方法,以實(shí)現(xiàn)對語音特征的提取,解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
本發(fā)明的第二個目的在于提出一種基于人工智能的語音特征提取裝置。
本發(fā)明的第三個目的在于提出又一種基于人工智能的語音特征提取裝置。
本發(fā)明的第四個目的在于提出一種非臨時性計算機(jī)可讀存儲介質(zhì)。
本發(fā)明的第五個目的在于提出一種計算機(jī)程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語音特征提取方法,所述語音特征用于進(jìn)行語音識別,所述方法包括以下步驟:
對待識別語音進(jìn)行頻譜分析,得到所述待識別語音的語譜圖;
利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對所述語譜圖進(jìn)行特征提取,得到語音特征。
其中,所述輸出門卷積神經(jīng)網(wǎng)絡(luò)包括多個卷積層,每一個卷積層后連接一個對應(yīng)的池化層;每一個卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,所述第一通道和所述第二通道分別采用不同的非線性激活函數(shù)。
本發(fā)明實(shí)施例提出的基于人工智能的語音特征提取方法,通過對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖之后,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語音特征提取的裝置,所述語音特征用于進(jìn)行語音的識別,所述裝置包括:
分析模塊,用于對待識別語音進(jìn)行頻譜分析,得到所述待識別語音的語譜圖;
特征提取模塊,用于利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對所述語譜圖進(jìn)行特征提取,得到語音特征。
其中,所述輸出門卷積神經(jīng)網(wǎng)絡(luò)包括多個卷積層,每一個卷積層后連接一個對應(yīng)的池化層;每一個卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,所述第一通道和所述第二通道分別采用不同的非線性激活函數(shù)。
本發(fā)明實(shí)施例提出的基于人工智能的語音特征提取裝置,分析模塊用于對待識別語音進(jìn)行頻譜分析,得到所述待識別語音的語譜圖,特征提取模塊,用于利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對所述語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種基于人工智能的語音特征提取方法的裝置,包括存儲器,處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時,實(shí)現(xiàn)第一方面所述的方法。
為達(dá)上述目的,本發(fā)明第四方面實(shí)施例提出了一種非臨時性可讀計算機(jī)存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時,實(shí)現(xiàn)第一方面所述的方法。
為達(dá)上述目的,本發(fā)明第五方面實(shí)施例提出了一種計算機(jī)程序產(chǎn)品,當(dāng)所述程序產(chǎn)品中的指令被處理器執(zhí)行時,執(zhí)行第一方面所述的方法。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明實(shí)施例提供的一種基于人工智能的語音提取方法的流程示意圖;
圖2為語譜圖的示意圖;
圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的語音提取方法的結(jié)構(gòu)示意;
圖4為輸出門卷積神經(jīng)網(wǎng)絡(luò)的配置示意圖;
圖5為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv64block的結(jié)構(gòu)示意圖;
圖6為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv128block的結(jié)構(gòu)示意圖;
圖7為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv256block的結(jié)構(gòu)示意圖;
圖8為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv512block的結(jié)構(gòu)示意圖;
圖9為輸出門卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖10為本發(fā)明實(shí)施例提供的一種基于人工智能的語音提取方法的裝置的結(jié)構(gòu)示意圖;以及
圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的語音提取方法的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參考附圖描述本發(fā)明實(shí)施例的基于人工智能的語音特征提取方法和裝置。
圖1為本發(fā)明實(shí)施例提供的一種基于人工智能的語音特征提取方法的流程示意圖。
如圖1所示,該基于人工智能的語音特征提取方法包括以下步驟:
步驟101,對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖。
具體地,針對待識別語音中的各音頻幀進(jìn)行傅里葉變換,得到各音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語譜圖;其中,語譜圖的橫坐標(biāo)是音頻幀對應(yīng)的時間,語譜圖的縱坐標(biāo)是音頻幀所含的頻率分量,語譜圖的坐標(biāo)點(diǎn)值是音頻幀對應(yīng)的頻譜值,即能量。
進(jìn)一步,對待識別語音進(jìn)行傅里葉變換之前,首先需要根據(jù)預(yù)設(shè)的采樣周期,對待識別語音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個數(shù)濾波器的濾波器組,針對每一音頻幀進(jìn)行濾波,得到音頻幀所含的各頻譜分量。
例如,可以利用40維的濾波器組,每10ms對要提供的音頻幀進(jìn)行濾波,從而得到一個40維的向量,向量中每一個元素對應(yīng)一個頻譜分量,從而在根據(jù)頻譜分量進(jìn)行傅里葉變換后,對于一段連續(xù)的語音,可以繪制前述的語譜圖,圖2為語譜圖的示意圖,如圖2所示的語譜圖,語譜圖的橫坐標(biāo)是音頻幀對應(yīng)的時間,語譜圖的縱坐標(biāo)是音頻幀所含的頻率分量,語譜圖的坐標(biāo)點(diǎn)值是音頻幀對應(yīng)的頻譜值。
步驟102,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。
具體地,通過前述語譜圖繪制的過程,將一段待識別的語音描述為一幅圖像,本步驟中,通過輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,將所提取出的特征作為語音特征。
為清楚說明本實(shí)施例,本實(shí)施例中將對所采用的輸出門卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行簡要的介紹。
輸出門卷積神經(jīng)網(wǎng)絡(luò)包括多個卷積層,每一個卷積層后連接一個對應(yīng)的池化層,這里池化層的作用在于,在時域和/或頻域進(jìn)行降采樣。輸出門卷積神經(jīng)網(wǎng)絡(luò)中各卷積層均由有向無環(huán)圖(databaseavailabilitygroup,dag)組成,每一個卷積層至少包括兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,第一通道和第二通道分別采用不同的非線性激活函數(shù),第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,所有的卷積層都設(shè)有非線性激活函數(shù),卷積層的卷積核具有相同大小,同時,后一層卷積層中濾波器的個數(shù)為前一層卷積層中濾波器的整數(shù)倍。
需要注意的是,各池化層在時域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率,也就是說,各池化層在時域上的總采樣率應(yīng)當(dāng)大于在頻域上的總采樣率。
這是由于在繪制語譜圖的過程中,已經(jīng)對語音在時域上進(jìn)行了降采樣,即前述的以預(yù)設(shè)采樣周期采樣得到各音頻幀的過程,因此,在輸出門卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行降采樣時,采樣周期將進(jìn)一步加大。為了使得在繪制語譜圖和輸出門卷積神經(jīng)網(wǎng)絡(luò)提取特征的這兩個過程中,時域與頻域的采樣率是適應(yīng)的,各池化層在時域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率。
為了獲得更好的語音識別效果,時域上的總降采樣率應(yīng)當(dāng)是根據(jù)對該待識別語音進(jìn)行語音分類時的粒度確定的。若時域最終的總降采樣率和進(jìn)行語音分類時的粒度不匹配,則會出現(xiàn)語音識別效果較差的情況。具體來說,語音識別中通常采用10ms為幀移,也就是采樣周期是10ms,因此,經(jīng)過池化層在時域的降采樣之后,采樣周期會變大。語音分類時的粒度為音素時,各池化層總計1/4的時域降采樣率是合適的,語音分類時的粒度為字時,各池化層總計1/8的時域降采樣率是合適的。
本實(shí)施例中,通過對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖之后,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
為清楚說明上一實(shí)施例,本發(fā)明提出了另一種基于人工智能的語音特征提取方法,圖3為本發(fā)明實(shí)施例提出的另一種基于人工智能的語音特征提取方法的結(jié)構(gòu)示意圖,如圖3所示,該基于人工智能的語音特征提取方法包括以下步驟:
步驟201,建立輸出門卷積神經(jīng)網(wǎng)絡(luò)。
具體地,輸出門卷積神經(jīng)網(wǎng)絡(luò)包括多個卷積層和池化層,每一個卷積層后連接一個對應(yīng)的池化層。為了清楚的說明輸出門卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),本實(shí)施例提供了一種可能的實(shí)現(xiàn)方式,圖4為輸出門神經(jīng)網(wǎng)絡(luò)的配置圖示意圖,如圖4所示,配置如下:
卷積層“conv64block”,
池化層“pool2d_2x2”,
卷積層“conv128block”,
池化層“pool2d_2x2”,
卷積層“conv256block”,
池化層“pool2d_2x1”,
卷積層“conv512block”,
池化層“pool2d_2x1”
輸出門卷積神經(jīng)網(wǎng)絡(luò)包括4個卷積層,每一個卷積層后緊鄰一個池化層。輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層的結(jié)構(gòu)即為輸出門的算法特征,為進(jìn)一步清楚的說明輸出門的算法特征,對該卷積層的結(jié)構(gòu)做進(jìn)一步解釋,作為一種可能的實(shí)現(xiàn)方式,圖5至圖8為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層的結(jié)構(gòu)示意圖。
在圖5至圖8中,“copy”是把輸入復(fù)制為若干份,“copy”后面的1、2、3和4代表該卷積層的輸入,“multi”是將輸入乘在一起,“conv2d”表示卷積層,“conv2d”后面的64、128、256和512表示濾波器的個數(shù),3x3表示濾波器卷積核的大小,“-”后面的數(shù)字1、2、3或4,代表序號,用以對相同的部分加以區(qū)分,例如,tanh-1和tanh-2代表相同的激活函數(shù),只是用不同的編號加以區(qū)分。
具體地,在輸出門卷積神經(jīng)網(wǎng)絡(luò)中,首先是卷積層conv64block,本層由卷積有向無環(huán)圖(databaseavailabilitygroup,dag)組成,圖5為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv64block的結(jié)構(gòu)示意圖。
如圖5所示,卷積層conv64block,包括兩層,c01層和c02層,co1層的輸出做為后層co2層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。
具體地,co1層中,第一通道和第二通道分別包括64個濾波器,每一個濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為第一層c01層的輸出,該輸出即為第二層co2層的輸入。c02層的結(jié)構(gòu)和c01層的結(jié)構(gòu)相同,此處不做贅述,從而由c01層和c02層構(gòu)成了圖4中的卷積層conv64block。
進(jìn)而是池化層pool2d_2x2,通過池化層進(jìn)行降采樣,具體地,本層在時域和頻域均以采樣率1/2進(jìn)行降采樣。
接下來是卷積層conv128block,本層由一個卷積有向無環(huán)圖(dag)組成,圖6為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv128block的結(jié)構(gòu)示意圖。
如圖6所示,卷積層conv128block,包括兩層,c03層和c04層,co3層的輸出做為后層co4層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。
具體地,co3層中,第一通道和第二通道分別包括128個濾波器,每一個濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為第一層c03層的輸出,該輸出即為第二層co4層的輸入。c04層的結(jié)構(gòu)和c03層的結(jié)構(gòu)相同,此處不做贅述,從而由c03層和c04層構(gòu)成了圖4中的卷積層conv128block。
進(jìn)而是池化層pool2d_2x2,通過池化層進(jìn)行降采樣,具體地,本層在時域和頻域均以采樣率1/2進(jìn)行降采樣。
接下來是卷積層conv256block,本層由一個卷積有向無環(huán)圖(dag)組成,圖7為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv256block的結(jié)構(gòu)示意圖。
如圖7所示,卷積層conv256block,包括兩層,c05層和c06層,co5層的輸出做為后層co6層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。
具體地,co5層中,第一通道和第二通道分別包括256個濾波器,每一個濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為c05層的輸出,該輸出即為co6層的輸入。c06層的結(jié)構(gòu)和c05層的結(jié)構(gòu)相同,此處不做贅述,從而由c05層和c06層構(gòu)成了圖4中的卷積層conv256block。
進(jìn)而是池化層pool2d_2x2,通過池化層進(jìn)行降采樣,具體地,本層僅在頻域以采樣率1/2進(jìn)行降采樣。
接下來是卷積層conv512block,本層由一個卷積有向無環(huán)圖(dag)組成,圖8為輸出門卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv512block的結(jié)構(gòu)示意圖。
如圖8所示,卷積層conv512block,包括兩層,c07層和c08層,co7層的輸出做為后層co8層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。
具體地,co7層中,第一通道和第二通道分別包括512個濾波器,每一個濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為c07層的輸出,該輸出即為co8層的輸入。c08層的結(jié)構(gòu)和c07層的結(jié)構(gòu)相同,此處不做贅述,從而由c07層和c08層構(gòu)成了圖4中的卷積層conv512block。
進(jìn)而是池化層pool2d_2x2,通過池化層進(jìn)行降采樣,具體地,本層僅在頻域以采樣率1/2進(jìn)行降采樣。
為了更清楚的說明輸出門卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),本實(shí)施例提供了一種可能的實(shí)現(xiàn)方式,圖9為輸出門卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
如圖9所示的輸出門卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次池化層用來降采樣,但是在時域上降采樣的次數(shù)通常比頻域上少,具體在圖9中,在時域上降采樣2次,總采樣率為1/4;而在頻域上降采樣了4次,總采樣率為1/16??梢姡瑫r域的總采樣率大于頻域的總采樣率,也就是說,時域的總降采樣率低于頻域的總降采樣率。另外,如圖9所示的輸出門卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次卷積層,每個卷積層包含兩層,前層的輸出作為后層的輸入,每一層含有兩個通道,每個通道設(shè)有不同的非線性激活函數(shù)。
步驟202,對經(jīng)過設(shè)置的輸出門卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
步驟203,將待識別語音的語譜圖輸入該輸出門卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行測試,得到語音特征。
具體地,首先需要繪制待識別語音的語譜圖。以預(yù)設(shè)采樣周期,對待識別語音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個數(shù)濾波器的濾波器組,針對每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。針對各音頻幀,根據(jù)所含的各頻譜分量進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語譜圖;其中,語譜圖的橫坐標(biāo)為所述音頻幀所對應(yīng)的時間,所述語譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語譜圖的坐標(biāo)點(diǎn)值為所述頻譜值,也就是能量。進(jìn)而,將語譜圖輸入該輸出門卷積神經(jīng)網(wǎng)絡(luò),從而得到語音特征。
步驟204,將語音特征輸入聲學(xué)模型進(jìn)行語音分類處理。
具體地,這里的聲學(xué)模型可以是以音素為建模單元的聲學(xué)模型,也可以是以字為建模單元的聲學(xué)模型,本實(shí)施例中對此不作限定,但是需要注意的是,輸出門卷積神經(jīng)網(wǎng)絡(luò)在時域上的總采樣率是根據(jù)該聲學(xué)模型進(jìn)行語音分類時的粒度確定的,這里的粒度包括:字和音素。
例如:當(dāng)該聲學(xué)模型進(jìn)行語音分類時的粒度為音素時,輸出門卷積神經(jīng)網(wǎng)絡(luò)在時域上的總采樣率為1/4;當(dāng)該聲學(xué)模型進(jìn)行語音分類時的粒度為字時,輸出門卷積神經(jīng)網(wǎng)絡(luò)在時域上的總采樣率為1/8。
本實(shí)施例中,通過對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖之后,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種基于人工智能的語音特征提取裝置。
圖10為本發(fā)明實(shí)施例提供的一種基于人工智能的語音特征提取裝置的結(jié)構(gòu)示意圖。
如圖10所示,該基于人工智能的語音特征提取裝置包括:分析模塊10和特征提取模塊20。
分析模塊10,用于對待識別語音進(jìn)行頻譜分析,得到所述待識別語音的語譜圖。
特征提取模塊20,用于利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對所述語譜圖進(jìn)行特征提取,得到語音特征。
進(jìn)一步地,在本發(fā)明實(shí)施例的一種可能的實(shí)現(xiàn)方式中,輸出門卷積神經(jīng)網(wǎng)絡(luò)包括多個卷積層,每一個卷積層后連接一個對應(yīng)的池化層。卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,第一通道和第二通道分別采用不同的非線性激活函數(shù),其中,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid。池化層用于在時域和/或頻域進(jìn)行降采樣,各池化層在時域上的總降采樣率小于在頻域上的總降采樣率。并且,在時域上的總降采樣率是根據(jù)對所述待識別語音進(jìn)行語音分類時的粒度確定的。
進(jìn)一步,輸出門卷積神經(jīng)網(wǎng)絡(luò)中,后一層卷積層中過濾器的個數(shù)為前一層卷積層中過濾器的整數(shù)倍,且輸出門卷積神經(jīng)網(wǎng)絡(luò)中各卷積層的卷積核具有相同大小。
可見,通過對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖之后,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
需要說明的是,前述對方法實(shí)施例的解釋說明也適用于該實(shí)施例的裝置,此處不再贅述。
基于上述實(shí)施例,本發(fā)明實(shí)施例還提供了一種基于人工智能的語音特征提取裝置的可能的實(shí)現(xiàn)方式,圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的語音特征提取裝置的結(jié)構(gòu)示意圖,如圖11所示,在上一實(shí)施例的基礎(chǔ)上,分析模塊10,包括:采樣單元11、變換單元12和生成單元13。
采樣單元11,用于以預(yù)設(shè)采樣周期,對所述待識別語音進(jìn)行采樣,得到各音頻幀,針對每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。
變換單元12,用于針對所述待識別語音中的各音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值。
生成單元13,用于根據(jù)各音頻幀的頻譜值,生成所述語譜圖。
其中,所述語譜圖的橫坐標(biāo)為所述音頻幀所對應(yīng)的時間,所述語譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語譜圖的坐標(biāo)點(diǎn)值為所述頻譜值。
進(jìn)一步,基于人工智能的語音特征提取裝置還包括:訓(xùn)練測試模塊30和分類模塊40。
訓(xùn)練測試模塊30,用于對輸出門卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試。
分類模塊40,用于將提取到的語音特征輸入聲學(xué)模型進(jìn)行語音分類處理。
需要說明的是,前述對方法實(shí)施例的解釋說明也適用于該實(shí)施例的裝置,此處不再贅述。
本發(fā)明實(shí)施例中,通過對待識別語音進(jìn)行頻譜分析,得到待識別語音的語譜圖之后,利用輸出門卷積神經(jīng)網(wǎng)絡(luò)對語譜圖進(jìn)行特征提取,得到語音特征。由于語譜圖能夠?qū)ΥR別語音以圖像的方式進(jìn)行描述,而輸出門卷積神經(jīng)網(wǎng)絡(luò)又是一種對圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語音特征能夠?qū)φZ音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語音特征在進(jìn)行語音識別時,能夠解決現(xiàn)有技術(shù)中由于缺乏對語音特征進(jìn)行有效提取所導(dǎo)致的語音識別準(zhǔn)確度不高的技術(shù)問題。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出另一種基于人工智能的語音特征提取裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時,實(shí)現(xiàn)前述實(shí)施例中的基于人工智能的語音特征提取方法。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種非臨時性計算機(jī)可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由處理器執(zhí)行時,能夠執(zhí)行前述實(shí)施例中的基于人工智能的語音特征提取方法。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種計算機(jī)程序產(chǎn)品,當(dāng)所述計算機(jī)程序產(chǎn)品中的指令由處理器執(zhí)行時,執(zhí)行前述實(shí)施例中的基于人工智能的語音特征提取方法。
在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個或多個實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實(shí)現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機(jī)盤盒(磁裝置),隨機(jī)存取存儲器(ram),只讀存儲器(rom),可擦除可編輯只讀存儲器(eprom或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(cdrom)。另外,計算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^對紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時以其他合適方式進(jìn)行處理來以電子方式獲得所述程序,然后將其存儲在計算機(jī)存儲器中。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。如,如果用硬件來實(shí)現(xiàn)和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對數(shù)據(jù)信號實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機(jī)可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實(shí)施例的步驟之一或其組合。
此外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。