1.一種應(yīng)答語音的識別方法,其特征在于,該方法包括:
獲取待識別應(yīng)答語音;
使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機器學(xué)習(xí)模型;
若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;
若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;
其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式,具體包括:
將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;
獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。
3.如權(quán)利要求2所述的方法,其特征在于,所述語音特征包括幀級特征、片級特征和段級特征;
根據(jù)下列方式從應(yīng)答語音提取出語音特征:
使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;
將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;
根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進行分析處理,確定所述待識別應(yīng)答語音的段級特征。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)下列方式獲得所述應(yīng)答方式識別模型:
確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;
針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進行訓(xùn)練;
針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述訓(xùn)練后的應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;
根據(jù)所述訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的識別正確率,若所述識別正確率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型。
5.如權(quán)利要求1~4任一所述的方法,其特征在于,所述應(yīng)答方式識別模型為支持向量機SVM模型。
6.一種應(yīng)答語音的識別裝置,其特征在于,包括:
獲取模塊,用于獲取待識別應(yīng)答語音;
識別模塊,用于使用應(yīng)答方式識別模型確定所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式;其中,所述應(yīng)答方式識別模型為有監(jiān)督的機器學(xué)習(xí)模型;
判斷模塊,用于若所述應(yīng)答方式為正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第一語音識別系統(tǒng),以使所述第一語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;若所述應(yīng)答方式為非正式應(yīng)答方式,則將所述待識別應(yīng)答語音輸入第二語音識別系統(tǒng),以使所述第二語音識別系統(tǒng)識別所述待識別應(yīng)答語音,并輸出所述待識別應(yīng)答語音對應(yīng)的文本信息;其中,所述第一語音識別系統(tǒng)和所述第二語音識別系統(tǒng)配置有不同的參數(shù)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述識別模塊,具體用于:
將從所述待識別應(yīng)答語音提取出的語音特征輸入所述應(yīng)答方式識別模型;獲取所述應(yīng)答方式識別模型輸出的所述待識別應(yīng)答語音對應(yīng)的應(yīng)答方式。
8.如權(quán)利要求7所述的裝置,其特征在于,所述語音特征包括幀級特征、片級特征和段級特征;
所述識別模塊,具體用于:
根據(jù)下列方式從應(yīng)答語音提取出語音特征:
使用特征提取工具,根據(jù)預(yù)設(shè)的幀長和幀移,提取所述待識別應(yīng)答語音的幀級特征;將所述幀級特征做平滑濾波處理,并對平滑處理后的幀級特征做差分運算,確定所述待識別應(yīng)答語音的片級特征;根據(jù)預(yù)設(shè)的統(tǒng)計參數(shù),對所述片級特征進行分析處理,確定所述待識別應(yīng)答語音的段級特征。
9.如權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊,還用于:
根據(jù)下列方式獲得所述應(yīng)答方式識別模型:
確定包含多個應(yīng)答語音的訓(xùn)練集,以及包含多個應(yīng)答語音的測試集;其中,所述訓(xùn)練集中的應(yīng)答語音與所述測試集中的應(yīng)答語音不同;針對所述訓(xùn)練集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練前的應(yīng)答方式識別模型中進行訓(xùn)練;針對所述測試集中任意一個應(yīng)答語音,將從所述應(yīng)答語音中提取出的語音特征輸入到訓(xùn)練后的應(yīng)答方式識別模型中,并獲取所述訓(xùn)練后的應(yīng)答方式識別模型輸出的所述應(yīng)答語音對應(yīng)的應(yīng)答方式;根據(jù)訓(xùn)練后的應(yīng)答方式識別模型輸出的所述測試集中每一個應(yīng)答語音對應(yīng)的應(yīng)答方式,確定所述訓(xùn)練后的應(yīng)答方式識別模型的識別正確率,若所述識別正確率大于設(shè)定閾值,確定所述訓(xùn)練后的應(yīng)答方式識別模型訓(xùn)練完成,保存所述訓(xùn)練后的應(yīng)答方式識別模型。
10.如權(quán)利要求6~9任一所述的裝置,其特征在于,所述應(yīng)答方式識別模型為支持向量機SVM模型。