語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別涉及一種語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著人機(jī)信息交互技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)顯示出其重要性。在語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中的關(guān)鍵技術(shù)之一。語(yǔ)音端點(diǎn)檢測(cè)是指在連續(xù)聲音信號(hào)中找出語(yǔ)音部分的起始點(diǎn)和終止點(diǎn)。端點(diǎn)檢測(cè)準(zhǔn)確與否,會(huì)直接影響到語(yǔ)音識(shí)別系統(tǒng)的性能。具體地,語(yǔ)音端點(diǎn)檢測(cè)的檢測(cè)結(jié)果對(duì)后端的聲學(xué)模型、解碼器、語(yǔ)言模型的識(shí)別效果,都有很大的影響,如果端點(diǎn)切分存儲(chǔ)錯(cuò)誤,則會(huì)導(dǎo)致漏識(shí)別或者誤識(shí)別等情況的發(fā)生,進(jìn)而可導(dǎo)致語(yǔ)音識(shí)別結(jié)果不準(zhǔn)確。
[0003]目前,傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)方法主要是獲取時(shí)域或頻域能量,并與給定的閾值進(jìn)行比較,從而判斷出語(yǔ)音的起始點(diǎn)和終止點(diǎn)。端點(diǎn)檢測(cè)的一般過(guò)程為:1、分幀提取語(yǔ)音特征,計(jì)算時(shí)域或頻域能量;2、將能量值與閾值比較,判斷語(yǔ)音起始點(diǎn);3、若找到語(yǔ)音起始點(diǎn),則繼續(xù)向后取能量值與閾值比較,判斷語(yǔ)音是否結(jié)束;4、若找到語(yǔ)音結(jié)束點(diǎn),則終止查找,返回結(jié)果。
[0004]然而,在實(shí)現(xiàn)本發(fā)明的過(guò)程中發(fā)明人發(fā)現(xiàn)上述語(yǔ)音端點(diǎn)檢測(cè)方法少存在以下問(wèn)題:(1)上述語(yǔ)音端點(diǎn)檢測(cè)方法適用于平穩(wěn)噪聲,且高信噪比的環(huán)境,但在非平穩(wěn)噪聲、較低信噪比環(huán)境下,上述語(yǔ)音端點(diǎn)檢測(cè)方法的檢測(cè)效果不好,所檢測(cè)的語(yǔ)音端點(diǎn)的準(zhǔn)確率較低;(2)對(duì)于不同信噪比下的語(yǔ)音信號(hào),很難選取合適的閾值,無(wú)法保證安靜環(huán)境下的檢測(cè)精度和噪聲環(huán)境下的檢測(cè)精度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。為此,本發(fā)明的第一個(gè)目的在于提出一種語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法,該方法提供了一種通過(guò)聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整的端點(diǎn)檢測(cè)方式,準(zhǔn)確定位了待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn),提高了語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率,進(jìn)而可提高語(yǔ)音識(shí)別的準(zhǔn)確性,提高語(yǔ)音識(shí)別系統(tǒng)的性能。
[0006]本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)系統(tǒng)。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法,包括:基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型;通過(guò)預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn);分幀提取所述待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音特征信息,并將所述語(yǔ)音特征信息輸入所述聲學(xué)識(shí)別模型,以使所述聲學(xué)識(shí)別模型根據(jù)所述語(yǔ)音特征信息生成所述待識(shí)別語(yǔ)音信號(hào)的聲學(xué)識(shí)別結(jié)果;以及根據(jù)所述聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整。
[0008]本發(fā)明實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法,首先基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型,并通過(guò)預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn),然后分幀提取待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音特征信息,并將語(yǔ)音特征信息輸入聲學(xué)識(shí)別模型,以使聲學(xué)識(shí)別模型根據(jù)語(yǔ)音特征信息生成待識(shí)別語(yǔ)音信號(hào)的聲學(xué)識(shí)別結(jié)果,以及根據(jù)聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整。由此,提供了一種通過(guò)聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整的端點(diǎn)檢測(cè)方式,準(zhǔn)確定位了待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn),提高了語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率,進(jìn)而可提高語(yǔ)音識(shí)別的準(zhǔn)確性,提高語(yǔ)音識(shí)別系統(tǒng)的性能。
[0009]為實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)系統(tǒng),包括:訓(xùn)練模塊,用于基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型;預(yù)處理模塊,用于通過(guò)預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn);聲學(xué)識(shí)別模塊,用于分幀提取所述待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音特征信息,并將所述語(yǔ)音特征信息輸入所述聲學(xué)識(shí)別模型,以使所述聲學(xué)識(shí)別模型根據(jù)所述語(yǔ)音特征信息生成所述待識(shí)別語(yǔ)音信號(hào)的聲學(xué)識(shí)別結(jié)果;以及調(diào)整模塊,用于根據(jù)所述聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整。
[0010]本發(fā)明實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)系統(tǒng),訓(xùn)練模塊基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型,預(yù)處理模塊通過(guò)預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn),然后聲學(xué)識(shí)別模塊分幀提取待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音特征信息,并將語(yǔ)音特征信息輸入聲學(xué)識(shí)別模型,以使聲學(xué)識(shí)別模型根據(jù)語(yǔ)音特征信息生成待識(shí)別語(yǔ)音信號(hào)的聲學(xué)識(shí)別結(jié)果,以及調(diào)整模塊根據(jù)聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整。由此,提供了一種通過(guò)聲學(xué)識(shí)別結(jié)果對(duì)初步識(shí)別出的語(yǔ)音端點(diǎn)進(jìn)行調(diào)整的端點(diǎn)檢測(cè)方式,準(zhǔn)確定位了待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn),提高了語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率,進(jìn)而可提高語(yǔ)音識(shí)別的準(zhǔn)確性,提尚語(yǔ)首識(shí)別系統(tǒng)的性能。
【附圖說(shuō)明】
[0011]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法的流程圖。
[0012]圖2是基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型的示意圖。
[0013]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn)的流程圖。
[0014]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的聲學(xué)識(shí)別模型輸出的聲學(xué)識(shí)別結(jié)果的示例圖。
[0015]圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)系統(tǒng)的結(jié)構(gòu)示意圖。
[0016]圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0018]通常連續(xù)的語(yǔ)音信號(hào)往往并不都包含語(yǔ)音信息,通過(guò)一般語(yǔ)音信號(hào)的波形可以看出,其中相當(dāng)長(zhǎng)的部分都是無(wú)聲段或噪聲段。因此,在語(yǔ)音識(shí)別系統(tǒng)中,如果不能準(zhǔn)確識(shí)別出語(yǔ)音信號(hào)中的語(yǔ)音信息的端點(diǎn)(語(yǔ)音端點(diǎn)),將無(wú)法從語(yǔ)音信號(hào)中準(zhǔn)確提取其中的語(yǔ)音片段,無(wú)法準(zhǔn)確提取出其中的語(yǔ)音片段會(huì)增加后續(xù)識(shí)別的運(yùn)算量,進(jìn)而影響語(yǔ)音識(shí)別系統(tǒng)的整體性能。目前,常用的語(yǔ)音端點(diǎn)檢測(cè)方法主要是獲取時(shí)域或頻域能量,并與給定的閾值進(jìn)行比較,從而判斷出語(yǔ)音起始點(diǎn)和語(yǔ)音終止點(diǎn)。然而,上述通過(guò)時(shí)域或頻域能量對(duì)語(yǔ)音端點(diǎn)檢測(cè)方法在非平穩(wěn)噪聲、較低信噪比環(huán)境下,端點(diǎn)檢測(cè)的效果不好,容易出現(xiàn)誤判的情況。為了可以更好地識(shí)別語(yǔ)音信號(hào)中的語(yǔ)音起始點(diǎn)和語(yǔ)音終止點(diǎn),該實(shí)施例提出了一種通過(guò)語(yǔ)音的聲學(xué)特征信息(聲韻母音子)對(duì)初識(shí)別出的語(yǔ)音起始點(diǎn)和語(yǔ)音終止點(diǎn)進(jìn)行調(diào)整的語(yǔ)音端點(diǎn)檢測(cè)方法及系統(tǒng)。
[0019]下面參考附圖描述本發(fā)明實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法及系統(tǒng)。
[0020]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法的流程圖。
[0021]如圖1所示,該語(yǔ)音識(shí)別系統(tǒng)的端點(diǎn)檢測(cè)方法包括:
[0022]SlOl,基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型。
[0023]具體地,在建立聲學(xué)識(shí)別模型的過(guò)程中,可先對(duì)訓(xùn)練庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理,然后對(duì)每幀語(yǔ)音數(shù)據(jù)的聲學(xué)特征信息進(jìn)行人工標(biāo)注,并提取每幀語(yǔ)音數(shù)據(jù)的語(yǔ)音特征?目息O
[0024]在獲得用于訓(xùn)練聲學(xué)識(shí)別模型的語(yǔ)音數(shù)據(jù)的語(yǔ)音特征信息和聲學(xué)特征信息后,可將語(yǔ)音特征信息作為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的輸入特征,并將聲學(xué)特征信息作為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的輸出特征,通過(guò)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)識(shí)別模型進(jìn)行訓(xùn)練。也就是說(shuō),在訓(xùn)練聲學(xué)識(shí)別模型的過(guò)程中,利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到語(yǔ)音特征信息和聲學(xué)特征信息之間的映射關(guān)系,從而可以訓(xùn)練得到具有較高精度的聲學(xué)識(shí)別模型。其中,基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)識(shí)別模型的示意圖如圖2所示。
[0025]其中,上述聲學(xué)特征信息可以包括靜音、聲母和韻母。上述語(yǔ)音特征信息包括梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡(jiǎn)稱MFCC)、一階差分的MFCC和二階差分的MFCC。
[0026]需要說(shuō)明的是,其中,每幀語(yǔ)音數(shù)據(jù)的語(yǔ)音特征信息可通過(guò)Mel濾波器組獲得。另夕卜,對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行處理,以獲得每幀語(yǔ)音數(shù)據(jù)的語(yǔ)音特征信息可通過(guò)現(xiàn)有技術(shù)獲得,此處不再詳細(xì)描述。
[0027]S102,通過(guò)預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn)。
[0028]其中,預(yù)設(shè)語(yǔ)音端點(diǎn)檢測(cè)算法可以包括但不限于基于順序統(tǒng)計(jì)濾波的實(shí)時(shí)語(yǔ)音端點(diǎn)檢測(cè)算法。
[0029]在本發(fā)明的一個(gè)實(shí)施例,通過(guò)基于順序統(tǒng)計(jì)濾波的實(shí)時(shí)語(yǔ)音端點(diǎn)檢測(cè)算法初步識(shí)別出待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音端點(diǎn)的過(guò)程如圖3所示,可以包括:
[0030]S1021,對(duì)待識(shí)別語(yǔ)音信號(hào)進(jìn)行分幀處理,并對(duì)每幀待識(shí)別語(yǔ)音信號(hào)進(jìn)行FFT運(yùn)算,以獲得每幀待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音頻譜。
[0031]S1022,將每幀待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音頻譜劃分為預(yù)設(shè)數(shù)量個(gè)子帶。
[0032]其中,預(yù)設(shè)數(shù)量是系統(tǒng)中預(yù)先設(shè)置的劃分子帶的個(gè)數(shù),例如,預(yù)設(shè)數(shù)量為7,即將每幀待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音頻譜劃分為7個(gè)子帶。
[0033]S1023,計(jì)算每幀待識(shí)別語(yǔ)音信號(hào)的最高頻子帶與最低頻子帶的能量比,并根據(jù)能量比和第一預(yù)設(shè)閾值估計(jì)背景噪聲,以及計(jì)算背景噪聲的能量。
[0034]具體地,在將每幀待識(shí)別語(yǔ)音信號(hào)的語(yǔ)音頻譜劃分為預(yù)設(shè)數(shù)量例如7個(gè)子帶后,可先分別在各個(gè)子帶上按照語(yǔ)音頻譜能量高低進(jìn)行排序,然后通過(guò)濾波器對(duì)每個(gè)子帶上的能量進(jìn)行平滑,以獲得每幀待識(shí)別語(yǔ)音信號(hào)每個(gè)子帶中的中值能量。
[0035]在獲得每幀待識(shí)別語(yǔ)音信號(hào)每個(gè)子帶的中值能量后,可分別計(jì)算每幀待識(shí)別語(yǔ)音信號(hào)的最高頻子帶的中值能量和最低頻子帶的中值能量,然后將每幀待識(shí)別語(yǔ)音信號(hào)的最高頻子帶