本發(fā)明涉及計算機(jī)副語言領(lǐng)域,特別涉及一種應(yīng)答語音的識別方法及裝置。
背景技術(shù):
:近年來,計算機(jī)副語言學(xué)成為語音語言處理領(lǐng)域的研究熱點,語音識別技術(shù)的發(fā)展對推動智能化、人性化的新型人機(jī)交互技術(shù)的發(fā)展和應(yīng)用具有重要的作用。語音識別就是利用計算機(jī)自動將語音轉(zhuǎn)化成文本的技術(shù),語音一直是人類生活中交互的重要媒介,因此讓機(jī)器實現(xiàn)對語音的識別是至關(guān)重要的一步。目前在很多場合會使用語音記錄儀記錄語音,并且需要對語音記錄儀中記錄的語音進(jìn)行分析。例如,在飛行場景中,使用艙音記錄儀記錄飛機(jī)上的語音,在飛行結(jié)束后通過識別艙音記錄儀中的語音對飛行質(zhì)量進(jìn)行評價。目前,在對語音記錄儀中記錄的語音信息進(jìn)行識別時,采用的是機(jī)器自動識別的方法,具體的,利用端點識別技術(shù)將語音記錄儀中記錄的語音劃分為一句句待識別應(yīng)答語音,并將待識別應(yīng)答語音輸入到語音識別系統(tǒng)中,通過該語音識別系統(tǒng)識別待識別應(yīng)答語音。由于待識別應(yīng)答語音根據(jù)不同的說話對象以及環(huán)境分為正式應(yīng)答語音和非正式應(yīng)答語音,正式應(yīng)答語音和非正式應(yīng)答語音對應(yīng)的語音環(huán)境不同,并且說話人語氣、語調(diào)均不相同;而現(xiàn)有技術(shù)直接將獲取到的應(yīng)答語音輸入語音識別系統(tǒng)進(jìn)行識別的方法往往不能準(zhǔn)確的識別應(yīng)答語音。綜上所述,目前的應(yīng)答語音識別方法在識別應(yīng)答語音時不夠準(zhǔn)確。技術(shù)實現(xiàn)要素:本發(fā)明提供一種應(yīng)答語音的識別方法及裝置,用以解決目前的應(yīng)答語音識別方法在識別應(yīng)答語音時不夠準(zhǔn)確的問題?;谏鲜鰡栴},本發(fā)明實施例提供一種應(yīng)答語音的識別方法,包括:獲取待識別應(yīng)答語音;使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型;若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。由于本發(fā)明實施例在識別應(yīng)答語音時,獲取待識別的應(yīng)答語音后,使用應(yīng)答方式識別模型確定待識別應(yīng)答語音對應(yīng)的應(yīng)答方式,針對正式應(yīng)答方式和非正式應(yīng)答方式輸入不同的語音識別系統(tǒng)進(jìn)行識別。由于第一語音識別系統(tǒng)用于識別正式應(yīng)答語音,第二語音識別系統(tǒng)用于識別非正式應(yīng)答語音,并且第一語音識別系統(tǒng)和第二語音識別系統(tǒng)配置有不同的參數(shù),針對不同的應(yīng)答方式使用不同的語音識別系統(tǒng)進(jìn)行識別,從而使得對待識別應(yīng)答語音的識別更加準(zhǔn)確??蛇x的,所述使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式,具體包括:將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。由于本發(fā)明實施例將待識別的應(yīng)答語音進(jìn)行特征提取后,將提取到的語音特征輸入應(yīng)答方式識別模型,通過應(yīng)答方式識別模型確定待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。可選的,所述語音特征包括幀級特征、片級特征和段級特征;根據(jù)下列方式從應(yīng)答語音提取出語音特征:使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進(jìn)行分析處理,確定所述待識別應(yīng)答語音的段級特征。由于本發(fā)明實施例從待識別應(yīng)答語音中提取出幀級、片級、段級語音特征,從而保證應(yīng)答方式識別模型準(zhǔn)確的識別該待識別應(yīng)答語音對應(yīng)的應(yīng)答方式??蛇x的,根據(jù)下列方式獲得所述應(yīng)答方式識別模型:確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進(jìn)行訓(xùn)練;針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;根據(jù)訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的正確識別率,若所述正確識別率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型。由于本發(fā)明實施例使用訓(xùn)練集中的多個應(yīng)答語音對應(yīng)答方式識別模型進(jìn)行訓(xùn)練,在訓(xùn)練后使用測試集中的應(yīng)答語音判斷訓(xùn)練后的應(yīng)答方式識別模型是否滿足要求,在應(yīng)答方式識別模型識別該測試集中的應(yīng)答語音的正確識別率大于設(shè)定閾值時,確定該應(yīng)答方式識別模型訓(xùn)練完成,保存該訓(xùn)練后的應(yīng)答方式識別模型;若正確識別率小于設(shè)定閾值,則使用訓(xùn)練集中的應(yīng)答語音再次進(jìn)行訓(xùn)練,直到應(yīng)答方式識別模型的正確識別率大于設(shè)定閾值,從而保證獲得的應(yīng)答方式識別模型更加準(zhǔn)確的識別待識別應(yīng)答語音對應(yīng)的應(yīng)答方式??蛇x的,所述應(yīng)答方式識別模型為支持向量機(jī)SVM模型。另一方面,本發(fā)明實施例還提供一種應(yīng)答語音的識別裝置,包括:獲取模塊,用于獲取待識別應(yīng)答語音;識別模塊,用于使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型;判斷模塊,用于若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。可選的,所述識別模塊,具體用于:將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式??蛇x的,所述語音特征包括幀級特征、片級特征和段級特征;所述識別模塊,具體用于:根據(jù)下列方式從應(yīng)答語音提取出語音特征:使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進(jìn)行分析處理,確定所述待識別應(yīng)答語音的段級特征??蛇x的,所述獲取模塊,還用于:根據(jù)下列方式獲得所述應(yīng)答方式識別模型:確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進(jìn)行訓(xùn)練;針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;根據(jù)訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的識別正確率,若所述識別正確率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型??蛇x的,所述應(yīng)答方式識別模型為支持向量機(jī)SVM模型。附圖說明為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例應(yīng)答語音的識別方法的流程圖;圖2為本發(fā)明實施例提取語音特征的流程圖;圖3為本發(fā)明實施例獲取應(yīng)答方式識別模型的方法流程圖;圖4為本發(fā)明實施例獲取應(yīng)答方式識別模型的方法的整體流程圖;圖5A為本發(fā)明實施例SVM核函數(shù)對應(yīng)的識別結(jié)果準(zhǔn)確率示意圖;圖5B為本發(fā)明實施例SVM核函數(shù)性能比較圖;圖6為本發(fā)明實施例應(yīng)答語音的識別裝置的結(jié)構(gòu)示意圖。具體實施方式本發(fā)明實施例獲取待識別應(yīng)答語音;使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型;若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。由于本發(fā)明實施例在識別應(yīng)答語音時,獲取待識別的應(yīng)答語音后,使用應(yīng)答方式識別模型確定待識別應(yīng)答語音對應(yīng)的應(yīng)答方式,針對正式應(yīng)答方式和非正式應(yīng)答方式輸入不同的語音識別系統(tǒng)進(jìn)行識別。由于第一語音識別系統(tǒng)用于識別正式應(yīng)答語音,第二語音識別系統(tǒng)用于識別非正式應(yīng)答語音,并且第一語音識別系統(tǒng)和第二語音識別系統(tǒng)配置有不同的參數(shù),本發(fā)明實施例首先識別應(yīng)答語音為正式應(yīng)答方式或非正式應(yīng)答方式,針對不同的應(yīng)答方式使用不同的語音識別系統(tǒng)進(jìn)行識別,從而提升整體的語音識別性能,對待識別應(yīng)答語音的識別更加準(zhǔn)確。需要說明的是,本發(fā)明實施例的識別應(yīng)答語音的應(yīng)答方式的方法,不僅可以用于提升語音識別系統(tǒng)的效果,還可以應(yīng)用于其它的高層系統(tǒng),比如說話人識別系統(tǒng),異常音監(jiān)測系統(tǒng)等。為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實施例應(yīng)答語音的識別方法包括:步驟101、獲取待識別應(yīng)答語音;步驟102、使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型;步驟103、若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。本發(fā)明實施例待識別應(yīng)答語音對應(yīng)的應(yīng)答方式包括正式應(yīng)答方式和非正式應(yīng)答方式;本發(fā)明實施例可以應(yīng)用于飛行場景中,對飛行場景中的應(yīng)答語音的應(yīng)答方式進(jìn)行識別,識別飛行中的應(yīng)答語音的應(yīng)答方式為正式應(yīng)答方式或非正式應(yīng)答方式。其中,正式應(yīng)答方式的識別語音為駕駛員與地面控制中心之間的指示性對話;例如,駕駛員向地面控制中心發(fā)出請示,地面控制中心針對駕駛員的請示進(jìn)行應(yīng)答,駕駛員向地面控制中心回復(fù)確認(rèn)等。非正式應(yīng)答方式的識別語音為正副駕駛員之間的對話,或駕駛員與地面塔臺之間的對話;例如,正副駕駛員之間聊天的語音,正副駕駛員之間關(guān)于飛行過程中的指導(dǎo)性語音,駕駛員向地面塔臺中心匯報飛機(jī)狀態(tài)等。需要說明的是,本發(fā)明實施例并不限于飛行場景中,在任意語言場境中均可利用本發(fā)明實施例的應(yīng)答方式識別方法,并且,在不同的語言場景中,對正式應(yīng)答方式和非正式應(yīng)答方式的定義也不盡相同。例如,A、B為足球比賽解說員,在確定A和B之間的對話信息的應(yīng)答方式時,將A和B之間關(guān)于該場足球比賽的對話定義為正式應(yīng)答方式的對話,將A和B之間與該場足球比賽無關(guān)的對話定義為非正式應(yīng)答方式的對話。本發(fā)明實施例在使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式時,具體采用下面方法:可選的,將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。其中,本發(fā)明實施例的應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型,具體的,本發(fā)明實施例的應(yīng)答方式識別模型為SVM(支持向量機(jī))模型。本發(fā)明實施例在獲取到待識別應(yīng)答語音后,使用特征提取工具,提取所述待識別應(yīng)答語音中的語音特征。實施中,本發(fā)明實施例在提取待識別應(yīng)答語音中的語音特征時,采用分層提取的方式提取待識別應(yīng)答語音中的語音特征。本發(fā)明實施例的語音特征包括幀級(framelevel)特征、片級特征(segmentlevel)和段級(partlevel)特征。具體的,本發(fā)明實施例使用openSMILE特征提取工具,對待識別應(yīng)答語音進(jìn)行分層提取,提取出待識別應(yīng)答語音中的語音特征??蛇x的,使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進(jìn)行分析處理,確定所述待識別應(yīng)答語音的段級特征。。下面詳細(xì)介紹本發(fā)明實施例從待識別應(yīng)答語音中提取語音特征的方法。第一步,提取待識別應(yīng)答語音中的幀級特征。其中,幀級特征為待識別應(yīng)答語音中的第一層語音特征。實施中,使用openSMILE特征提取工具,幀長20ms,幀移10ms,共包含16維特征,具體的幀級特征參數(shù)如表1所示,具體包括:RMSenergy(RootMeanSquareenergy,能量均方根)、mfcc(Mel-FrequencyCepstralCoefficient,梅爾頻率倒譜系數(shù))1-12維、zcr(zero-crossingrate,過零率)、Voice_prob(濁音占比)、F0(根據(jù)倒譜計算出的基頻)。表1幀級特征的英文簡寫幀級特征的中文解釋RMSenergy能量均方根mfcc(1-12)梅爾頻率倒譜系數(shù)1-12維zcr過零率(幀級)Voice_prob通過自相關(guān)計算濁音占比F0根據(jù)倒譜計算出的基頻第二步,提取待識別應(yīng)答語音中的片級特征。其中,片級特征為待識別應(yīng)答語音中的第二層語音特征。具體的,將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述所述待識別應(yīng)答語音中的片級特征。實施中,對第一步中得到的幀序列進(jìn)行窗口長度為3幀的平滑濾波sma(smoothedbyamovingaveragefilter);在對幀序列進(jìn)行平滑濾波后,對平滑后的特征做一階差分de(deltacoefficient)。其中,待具體的片級特征分析函數(shù)如表2所示,具體包括:sma(平滑濾波)和de(一階差分)。表2片級特征分析函數(shù)的英文簡寫片級特征分析函數(shù)的中文解釋sma平滑濾波de一階差分在經(jīng)過第一步和第二步之后,共得到16*2=32維語音特征。第三步,提取待識別應(yīng)答語音中的段級特征。其中,段級特征為待識別應(yīng)答語音中的第三層語音特征。具體的,根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進(jìn)行分析處理,確定所述待識別應(yīng)答語音中的段級特征。實施中,對第二步輸出的特征做統(tǒng)計分析,主要包括12個統(tǒng)計參數(shù),根據(jù)12個統(tǒng)計參數(shù)對第二步輸出的特征片級特征進(jìn)行分析處理,得到待識別應(yīng)答語音中的段級特征。具體的預(yù)設(shè)的12個統(tǒng)計參數(shù)如表3所示,包括:max(maximum,包絡(luò)取最大值)、min(minute,包絡(luò)取最小值)、range(包絡(luò)變化范圍)、maxpos(maximumposition,最大值位置)、minpos(minuteposition,包絡(luò)最小值絕對位置)、amean(Arithmeticmean,包絡(luò)算數(shù)均值)、linregc1(包絡(luò)的線性近似斜率)、linregc2(包絡(luò)的線性近似偏移)、linregerrQ(包絡(luò)的線性預(yù)測值與實際值的均方根)、stddev(標(biāo)準(zhǔn)差)、skewness(三階偏斜度)、kurtosis(四階峭度)。表3段級特征統(tǒng)計參數(shù)的英文簡寫段級特征統(tǒng)計參數(shù)的中文解釋max包絡(luò)取最大值min包絡(luò)取最小值range包絡(luò)變化范圍maxpos最大值位置minpos包絡(luò)最小值絕對位置amean包絡(luò)算數(shù)均值linregc1包絡(luò)的線性近似斜率linregc2包絡(luò)的線性近似偏移linregerrQ包絡(luò)的線性預(yù)測值與實際值的均方根stddev標(biāo)準(zhǔn)差skewness三階偏斜度kurtosis四階峭度如圖2所示,本發(fā)明實施例在第三步中提取待識別應(yīng)答語音中的段級特征時,是針對第二步中得到的片級特征進(jìn)行統(tǒng)計分析,并且包括預(yù)設(shè)的12個統(tǒng)計參數(shù),則經(jīng)過第三步段級特征提取后,共得到16*2*12=384維語音特征。本發(fā)明實施例通過特征提取工具提取出待識別應(yīng)答語音中的語音特征之后,將提取出的語音特征輸入到應(yīng)答方式識別模型中,以使所述應(yīng)答方式識別模型根據(jù)所述語音特征識別所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;并獲取該應(yīng)答方式識別模型根據(jù)輸入的語音特征,輸出的該待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。需要說明的是,本發(fā)明實施例的應(yīng)答方式識別模型為經(jīng)過預(yù)先訓(xùn)練的、用于識別應(yīng)答方式的模型。由于本發(fā)明實施例對待識別應(yīng)答語音對應(yīng)的應(yīng)答方式的識別,主要借助于應(yīng)答方式識別模型,并且該應(yīng)答方式識別模型為經(jīng)過預(yù)先訓(xùn)練的模型,因此,本發(fā)明實施例還包括一個重要的組成部分,即訓(xùn)練應(yīng)答方式識別模型。下面詳細(xì)說明本發(fā)明實施例訓(xùn)練應(yīng)答方式識別模型的過程。如圖3所示,本發(fā)明實施例獲得應(yīng)答方式識別模型的方法包括:步驟301、確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;步驟302、針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進(jìn)行訓(xùn)練;步驟303、針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;步驟304、根據(jù)訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的識別正確率,若所述識別正確率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型。步驟301中,本發(fā)明實施例在確定訓(xùn)練集和測試集時,從語料庫中選取多個應(yīng)答語音,將選取出的多個應(yīng)答語音組成訓(xùn)練集或測試集。本發(fā)明實施例的語料庫為預(yù)先錄制的語音,該預(yù)先錄制的語音中包括多個正式應(yīng)答方式和非正式應(yīng)答方式的應(yīng)答語音。例如,語料庫可以為在執(zhí)行實際飛行過程中錄制的17.5小時的語音,在錄制好之后,對該17.5小時的語音進(jìn)行標(biāo)注,假設(shè)標(biāo)注確定該17.5小時的語音中共包括18個說話人,其中包含了4668個正式應(yīng)答方式的應(yīng)答語音,以及2257個非正式應(yīng)答方式的應(yīng)答語音,則正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例為2.07:1,并且所有應(yīng)答語音的語音采樣頻率都為16KHz,量化精度為16bit。從語料庫中的所有應(yīng)答語音中選取出多個應(yīng)答語音,組成訓(xùn)練集;較佳的,訓(xùn)練集中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例,接近語料庫中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例。例如,確定兩個訓(xùn)練集,分別為訓(xùn)練集A和訓(xùn)練集B,以及確定一個測試集C,其中,訓(xùn)練集A、B和測試集C中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的數(shù)量及比例如表4所示:從語料庫中選取1580個正式應(yīng)答方式的應(yīng)答語音,以及1580個非正式應(yīng)答方式的應(yīng)答語音組成訓(xùn)練集A,訓(xùn)練集A中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例為1:1;從語料庫中選取3270個正式應(yīng)答方式的應(yīng)答語音,以及1580個非正式應(yīng)答方式的應(yīng)答語音組成訓(xùn)練集B,訓(xùn)練集B中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例為2.07:1;從語料庫中選取1400個正式應(yīng)答方式的應(yīng)答語音,以及677個非正式應(yīng)答方式的應(yīng)答語音組成測試集C,測試集C中正式應(yīng)答方式的應(yīng)答語音與非正式應(yīng)答方式的應(yīng)答語音的比例為2.07:1。表4下面以表4所示的訓(xùn)練集A、B和測試集C為例,說明訓(xùn)練應(yīng)答方式識別模型的方法。具體的,本發(fā)明實施例是通過訓(xùn)練集A和訓(xùn)練集B中每一個應(yīng)答語音,對應(yīng)答方式識別模型進(jìn)行訓(xùn)練,在訓(xùn)練完成后,將測試集C中的每一個應(yīng)答語音輸入訓(xùn)練后的應(yīng)答方式識別模型,若應(yīng)答方式識別模型輸出的測試集C中應(yīng)答語音對應(yīng)的應(yīng)答方式的正確識別率大于設(shè)定閾值時,確定該應(yīng)答方式識別模型訓(xùn)練完成,并保存訓(xùn)練完成的應(yīng)答方式識別模型。下面針對訓(xùn)練集A中任意一個應(yīng)答語音,說明訓(xùn)練應(yīng)答方式識別模型的過程:1、使用特征提取工具,提取該應(yīng)答語音的語音特征。具體提取應(yīng)答語音的語音特征的方法采用上述方法,在此不再詳細(xì)贅述。2、將該應(yīng)答語音對應(yīng)的語音特征輸入應(yīng)答方式識別模型中進(jìn)行訓(xùn)練。具體的,在將應(yīng)答語音對應(yīng)的應(yīng)答語音輸入應(yīng)答方式識別模型,并將所述應(yīng)答語音對應(yīng)的應(yīng)答方式輸入應(yīng)答方式識別模型,以使應(yīng)答方式識別模型學(xué)習(xí)到該語音特征對應(yīng)的應(yīng)答方式。本發(fā)明實施例采用上述的方式,使用訓(xùn)練集中的應(yīng)答語音對應(yīng)答方式識別模型進(jìn)行訓(xùn)練,在經(jīng)過訓(xùn)練集A和訓(xùn)練級B中的多個應(yīng)答語音進(jìn)行多次訓(xùn)練后,使用測試集C中的應(yīng)答語音,判斷該應(yīng)答方式識別模型是否訓(xùn)練完成。具體的,在采用測試集C判斷應(yīng)答方式識別模型是否訓(xùn)練完成時,針對測試集C中的任意一個應(yīng)答語音,執(zhí)行下列操作:1、使用特征提取工具,提取該應(yīng)答語音的語音特征;具體提取應(yīng)答語音的語音特征的方法采用上述方法,在此不再詳細(xì)贅述。2、將該應(yīng)答語音對應(yīng)的語音特征輸入訓(xùn)練后的應(yīng)答方式識別模型;3、獲取訓(xùn)練后的應(yīng)答方式識別模型輸出的該應(yīng)答語音對應(yīng)的應(yīng)答方式。具體的,預(yù)先設(shè)定應(yīng)答方式識別模型在確定應(yīng)答語音對應(yīng)的應(yīng)答方式為正式應(yīng)答方式時,應(yīng)答方式識別模型輸出“1”;在確定應(yīng)答語音對應(yīng)的應(yīng)答方式為非式應(yīng)答方式時,應(yīng)答方式識別模型輸出“0”。本發(fā)明實施例在使用訓(xùn)練后的應(yīng)答方式識別模型對測試集C中的每一個應(yīng)答語音進(jìn)行判斷后,確定測試集C中每一個應(yīng)答語音對應(yīng)的識別結(jié)果;將應(yīng)答方式識別模型確定的測試集C中每一個應(yīng)答語音對應(yīng)的識別結(jié)果,與每一個應(yīng)答語音對應(yīng)的應(yīng)答方式進(jìn)行比較,確定測試集C對應(yīng)的識別結(jié)果的正確識別率,若該正確識別率大于設(shè)定閾值,則確定該應(yīng)答方式識別模型訓(xùn)練完成,保存訓(xùn)練后的應(yīng)答方式識別模型;若該正確識別率不大于設(shè)定閾值,則重新選擇訓(xùn)練集和測試集,對該應(yīng)答方式識別模型繼續(xù)訓(xùn)練,直到該應(yīng)答方式識別模型對測試集中應(yīng)答語音的識別結(jié)果對應(yīng)的正確識別率大于設(shè)定閾值。如圖4所示,本發(fā)明實施例獲得應(yīng)答方式識別模型的方法的整體流程圖。步驟401、確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;下列步驟402、403為針對訓(xùn)練集中的任意一個應(yīng)答語音。步驟402、使用特征提取工具,提取所述應(yīng)答語音中的語音特征;步驟403、將提取出的語音特征,以及所述應(yīng)答語音對應(yīng)的應(yīng)答方式輸入到應(yīng)答方式識別模型中進(jìn)行訓(xùn)練;下列步驟404、405為針對訓(xùn)練集中的任意一個應(yīng)答語音。步驟404、使用特征提取工具,提取所述應(yīng)答語音中的語音特征;步驟405、將提取出的語音特征輸入到應(yīng)答方式識別模型中進(jìn)行識別;步驟406、確定所述測試集中每一個應(yīng)答語音的識別結(jié)果;步驟407、將所述測試集中每一個應(yīng)答語音的識別結(jié)果,與測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式進(jìn)行比較,確定所述測試集對應(yīng)的識別結(jié)果的正確識別率;步驟408、判斷正確識別率是否大于設(shè)定閾值,若是,執(zhí)行步驟409,若否,返回步驟401;步驟409、確定所述應(yīng)答方式識別模型訓(xùn)練完成后,保存訓(xùn)練后的應(yīng)答方式識別模型。本發(fā)明實施例在識別應(yīng)答方式的二分類問題中,采用了適用于小數(shù)據(jù)量的支持向量機(jī)SVM分類器作為應(yīng)答方式識別模型,并且對比了如下核函數(shù):線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)以及反正切核函數(shù)。本發(fā)明實施例基于如表4所示的訓(xùn)練集,分別采用線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)以及反正切核函數(shù)進(jìn)行實驗,得到的識別結(jié)果的準(zhǔn)確率如圖5A所示,其中,SVM核函數(shù)為線性核函數(shù)時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為80.30,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為81.02;SVM核函數(shù)為多項式核函數(shù),并且d=2時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為77.95,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為79.25;SVM核函數(shù)為多項式核函數(shù),并且d=3時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為76.17,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為81.13;SVM核函數(shù)為多項式核函數(shù),并且d=4時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為63.79,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為63.94;SVM核函數(shù)為高斯徑向基核函數(shù)時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為90.71,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為91.62;SVM核函數(shù)為反正切核函數(shù)時,訓(xùn)練集A對應(yīng)的識別結(jié)果的準(zhǔn)確率為84.45,訓(xùn)練集B對應(yīng)的識別結(jié)果的準(zhǔn)確率為89.56;并且,SVM模型分別采用線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)以及反正切核函數(shù)的性能比較如圖5B所示。基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種應(yīng)答方式的識別裝置,由于該裝置解決問題的原理與本發(fā)明實施例應(yīng)答方式的識別的方法相似,因此該裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。如圖6所示,本發(fā)明實施例應(yīng)答語音的識別裝置,包括:獲取模塊601,獲取模塊,用于獲取待識別應(yīng)答語音;識別模塊602,用于使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機(jī)器學(xué)習(xí)模型;判斷模塊603,用于若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。可選的,所述識別模塊602,具體用于:將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。可選的,所述語音特征包括幀級特征、片級特征和段級特征;所述識別模塊602,具體用于:根據(jù)下列方式從應(yīng)答語音提取出語音特征:使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進(jìn)行分析處理,確定所述待識別應(yīng)答語音的段級特征??蛇x的,所述獲取模塊601,還用于:根據(jù)下列方式獲得所述應(yīng)答方式識別模型:確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進(jìn)行訓(xùn)練;針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;根據(jù)訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的識別正確率,若所述識別正確率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型。可選的,所述應(yīng)答方式識別模型為支持向量機(jī)SVM模型。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器,使得通過該計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令可實現(xiàn)流程圖中的一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖的一個流程或多個流程和/或方框圖的一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3