本公開(kāi)涉及人工智能的語(yǔ)音識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種智能識(shí)別語(yǔ)音的方法及裝置。
背景技術(shù):
:語(yǔ)音識(shí)別技術(shù)是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為機(jī)器可讀的輸入,即與機(jī)器進(jìn)行語(yǔ)言交流,讓機(jī)器明白人類(lèi)在說(shuō)什么。語(yǔ)音識(shí)別的應(yīng)用非常廣泛,以語(yǔ)音控制系統(tǒng)應(yīng)用于電視節(jié)目的語(yǔ)音搜索為例,電視遙控器或安裝在用戶(hù)終端上的遙控器app接收用戶(hù)發(fā)出的搜索電視節(jié)目的語(yǔ)音信息,對(duì)用戶(hù)的語(yǔ)音信號(hào)進(jìn)行特征值提取,將提取的語(yǔ)音特征值與預(yù)設(shè)的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)進(jìn)行模式匹配,獲得識(shí)別結(jié)果即文字信息,根據(jù)識(shí)別結(jié)果搜索用戶(hù)想看的電視節(jié)目,將相關(guān)節(jié)目列表推送到電視屏幕。目前人工智能中的語(yǔ)音識(shí)別大部分應(yīng)用都依賴(lài)于人工預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)的內(nèi)容。當(dāng)上述預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)中不包括用戶(hù)的語(yǔ)音特征信息時(shí),比如預(yù)設(shè)的語(yǔ)音識(shí)別庫(kù)是人工使用普通話錄入的語(yǔ)音信息而建立的,若用戶(hù)使用外語(yǔ)或某地的方言語(yǔ)音搜索電視節(jié)目時(shí),電視便無(wú)法準(zhǔn)確為用戶(hù)搜索想看的電視節(jié)目,使得電視的語(yǔ)音搜索功能受限,導(dǎo)致電視還不能真正滿(mǎn)足用戶(hù)的個(gè)性化需求,智能化程度低。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本公開(kāi)提供一種智能識(shí)別語(yǔ)音的方法及裝置,實(shí)現(xiàn)智能設(shè)備自主學(xué)習(xí)用戶(hù)語(yǔ)言,從而為用戶(hù)提供智能化的語(yǔ)應(yīng)控制服務(wù)。根據(jù)本公開(kāi)實(shí)施例的第一方面,提供了一種智能識(shí)別語(yǔ)音的方法,所述方法包括:采集用戶(hù)個(gè)性化的語(yǔ)音樣本,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系;建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型??蛇x地,所述采集用戶(hù)個(gè)性化的語(yǔ)音樣本,包括:采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);根據(jù)視頻播放時(shí)間,從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào);提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第一有效語(yǔ)音特征值集合;將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間,確定為所述語(yǔ)音樣本??蛇x地,所述提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第一有效語(yǔ)音特征值集合,包括:對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第一語(yǔ)音特征值集合;將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,獲得所述第一有效語(yǔ)音特征值集合??蛇x地,所述采集用戶(hù)個(gè)性化的語(yǔ)音樣本,包括:采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第二有效語(yǔ)音特征值集合;根據(jù)視頻播放時(shí)間,從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合;將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為所述語(yǔ)音樣本。可選地,所述提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第二有效語(yǔ)音特征值集合,包括:對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第二語(yǔ)音特征值集合;從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值,構(gòu)成所述第二有效語(yǔ)音特征值集合??蛇x地,所述建立所述語(yǔ)音樣本與視頻信息的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù),包括:將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián),確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù);存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù),構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)??蛇x地,所述根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型,包括:分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性;將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型,存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)??蛇x地,所述智能識(shí)別語(yǔ)音的方法還包括:統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量;當(dāng)所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值時(shí),提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。根據(jù)本公開(kāi)實(shí)施例的第二方面,提供了一種智能識(shí)別語(yǔ)音的裝置,所述裝置包括:語(yǔ)音采集模塊,被配置為采集用戶(hù)個(gè)性化的語(yǔ)音樣本,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系;存儲(chǔ)模塊,被配置為建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);語(yǔ)音識(shí)別模塊,被配置為根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型??蛇x的,所述語(yǔ)音采集模塊,包括:第一語(yǔ)音采集子模塊,被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);第一樣本語(yǔ)音獲取子模塊,被配置為根據(jù)視頻播放時(shí)間,從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào);第一特征提取子模塊,被配置為提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第一有效語(yǔ)音特征值集合;第一樣本確定子模塊,被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間,確定為所述語(yǔ)音樣本??蛇x的,所述第一特征提取子模塊包括:第一特征提取單元,被配置為對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第一語(yǔ)音特征值集合;第一有效語(yǔ)音特征值確定單元,被配置為將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,獲得所述第一有效語(yǔ)音特征值集合??蛇x的,所述語(yǔ)音采集模塊包括:第二語(yǔ)音采集子模塊,被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);第二特征提取子模塊,被配置為提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第二有效語(yǔ)音特征值集合;第一特征確定子模塊,被配置為根據(jù)視頻播放時(shí)間,從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合;第二樣本確定子模塊,被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為語(yǔ)音樣本??蛇x的,所述第二特征提取子模塊,包括:第二特征提取單元,被配置為對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第二語(yǔ)音特征值集合;第二有效語(yǔ)音特征值確定單元,被配置為從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值,構(gòu)成所述第二有效 語(yǔ)音特征值集合??蛇x的,所述存儲(chǔ)模塊包括:關(guān)聯(lián)子模塊,被配置為將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián),確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù);存儲(chǔ)子模塊,被配置為存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù),構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。可選的,所述語(yǔ)音識(shí)別模塊包括:分析子模塊,被配置為分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性;語(yǔ)音識(shí)別子模塊,被配置為將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型,存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)??蛇x的,所述智能語(yǔ)音識(shí)別的裝置還包括:統(tǒng)計(jì)模塊,被配置為統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量;提醒模塊,被配置為在所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值的情況下,提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。根據(jù)本公開(kāi)的第三方面,還提供了一種智能識(shí)別語(yǔ)音的設(shè)備,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器被配置為:采集用戶(hù)個(gè)性化的語(yǔ)音樣本,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系;建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型。本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:本公開(kāi)中,智能設(shè)備如智能電視可以主動(dòng)采集用戶(hù)活動(dòng)場(chǎng)所內(nèi)的語(yǔ)音信息作為語(yǔ)音樣本,經(jīng)過(guò)語(yǔ)音識(shí)別處理,建立用戶(hù)個(gè)性化語(yǔ)言的語(yǔ)音識(shí)別模型。也就是說(shuō)智能設(shè)備可以主動(dòng)學(xué)習(xí)用戶(hù)的個(gè)性化語(yǔ)言比如方言、特殊語(yǔ)言等,建立滿(mǎn)足用戶(hù)個(gè)性化需求的語(yǔ)音識(shí)別庫(kù)。使得用戶(hù)使用該個(gè)性化的語(yǔ)音識(shí)別庫(kù)可以實(shí)現(xiàn)使用用戶(hù)常用語(yǔ)言控制智能設(shè)備,滿(mǎn)足了用戶(hù)使用個(gè)性化語(yǔ)言控制智能設(shè)備的個(gè)性化需求,提高了智能設(shè)備的智能化程度,提升了智能設(shè)備的用戶(hù)體驗(yàn)。在本公開(kāi)中,智能設(shè)備在確定一個(gè)語(yǔ)音樣本時(shí),可以根據(jù)某一段視頻的播放時(shí)間,從原始語(yǔ)音信號(hào)中獲取一個(gè)預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào),然后對(duì)第一語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取并篩選有效語(yǔ)音特征值,將有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻信息的播放時(shí)間的對(duì)應(yīng)關(guān)系確定為語(yǔ)音樣本,提升對(duì)語(yǔ)音樣本的采集效率。在本公開(kāi)中,可以首先獲取第一語(yǔ)音信號(hào)對(duì)應(yīng)的第一語(yǔ)音特征值集合,然后將上述第一語(yǔ)音特征值集合中出現(xiàn)頻率高于第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,提高了語(yǔ)音樣本采集的準(zhǔn)確性。在本公開(kāi)中,智能設(shè)備在確定一個(gè)語(yǔ)音樣本時(shí),也可以首先對(duì)原始與語(yǔ)音信號(hào)進(jìn)行特征提取,獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二有效語(yǔ)音特征值集合,然后再根據(jù)某一段視頻的播放時(shí)間,從上述第二有效語(yǔ)音特征值集合中確定第一有效語(yǔ)音特征值集合,提高語(yǔ)音樣本中有效語(yǔ)音特征值確定的準(zhǔn)確性。本公開(kāi)中,在獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二有效語(yǔ)音特征值集合時(shí),可以首先獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二語(yǔ)音特征值集合,然后按照第二頻率閾值從中選擇有效的語(yǔ)音特征值,從而可以提高有效語(yǔ)音特征值的準(zhǔn)確性。本公開(kāi)中,將語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián),構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù),以便獲取語(yǔ)音特征值與視頻信息對(duì)應(yīng)的語(yǔ)音識(shí)別模型,可以為用戶(hù)提供更豐富的語(yǔ)音搜索視頻的智能化服務(wù),提升用戶(hù)體驗(yàn)。本公開(kāi)中,每增加一個(gè)語(yǔ)音樣本就可以觸發(fā)一次多元統(tǒng)計(jì)分析,在預(yù)置條件下,如目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中語(yǔ)音樣本的數(shù)量滿(mǎn)足預(yù)設(shè)條件,并且一個(gè)有效語(yǔ)音特征值與一個(gè)視頻信息的關(guān)聯(lián)程度達(dá)到預(yù)設(shè)關(guān)聯(lián)程度的情況下,確定一個(gè) 語(yǔ)音識(shí)別模型,提高語(yǔ)音識(shí)別模型的準(zhǔn)確性。本公開(kāi)中,該可以統(tǒng)計(jì)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音識(shí)別模型的數(shù)量,當(dāng)語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值后,確定該語(yǔ)音識(shí)別庫(kù)可以應(yīng)用于目標(biāo)語(yǔ)言環(huán)境的語(yǔ)音搜索服務(wù),從而提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索,使用戶(hù)可以及時(shí)使用習(xí)慣語(yǔ)言的語(yǔ)音搜索服務(wù),提升智能設(shè)備的用戶(hù)體驗(yàn)。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。附圖說(shuō)明此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本公開(kāi)的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本公開(kāi)的原理。圖1是本公開(kāi)根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的方法的流程圖;圖2是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖;圖3是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖;圖4是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖;圖5是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖;圖6是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖;圖7是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖;圖8是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖;圖9是本公開(kāi)根據(jù)一示例性實(shí)施例示出的智能識(shí)別語(yǔ)音的場(chǎng)景示意圖;圖10是本公開(kāi)根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖;圖11是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖12是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖13是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖14是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖15是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖16是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖17是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖;圖18是根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音裝置1800的一結(jié)構(gòu)示意圖。具體實(shí)施方式這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本公開(kāi)相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本公開(kāi)的一些方面相一致的裝置和方法的例子。在本公開(kāi)使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本 公開(kāi)。在本公開(kāi)和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其它含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語(yǔ)“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。應(yīng)當(dāng)理解,盡管在本公開(kāi)可能采用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種信息,但這些信息不應(yīng)限于這些術(shù)語(yǔ)。這些術(shù)語(yǔ)僅用來(lái)將同一類(lèi)型的信息彼此區(qū)分開(kāi)。例如,在不脫離本公開(kāi)范圍的情況下,第一信息也可以被稱(chēng)為第二信息,類(lèi)似地,第二信息也可以被稱(chēng)為第一信息。取決于語(yǔ)境,如在此所使用的詞語(yǔ)“如果”可以被解釋成為“在…...時(shí)”或“當(dāng)…...時(shí)”或“響應(yīng)于確定”。本公開(kāi)提供了一種智能識(shí)別語(yǔ)音的方法,可以應(yīng)用于語(yǔ)音控制系統(tǒng)實(shí)現(xiàn)的對(duì)電視節(jié)目的語(yǔ)音搜索中。主要涉及根據(jù)用戶(hù)的發(fā)音特點(diǎn)智能化建立用戶(hù)的目標(biāo)語(yǔ)音識(shí)別庫(kù),之后將該目標(biāo)語(yǔ)音數(shù)據(jù)庫(kù)應(yīng)用于用戶(hù)語(yǔ)音搜索電視節(jié)目中。本公開(kāi)中,實(shí)施上述智能識(shí)別語(yǔ)音的方法的智能設(shè)備可以是智能電視、與智能電視連接的云端服務(wù)器或者具備大量數(shù)據(jù)處理能力的智能遙控器等設(shè)備。本公開(kāi)實(shí)施例以智能電視為例進(jìn)行詳細(xì)說(shuō)明。參照?qǐng)D1根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的方法流程圖,所述方法包括以下步驟:在步驟11中,采集用戶(hù)個(gè)性化的語(yǔ)音樣本;本公開(kāi)實(shí)施例中,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系。本公開(kāi)實(shí)施例中,上述用戶(hù)個(gè)性化的語(yǔ)音樣本,是智能電視采集到的用戶(hù)的日常用語(yǔ),尤其是指非國(guó)家標(biāo)準(zhǔn)語(yǔ)言,比如地方方言、民族語(yǔ)言如藏語(yǔ)、蒙古語(yǔ)等、還可以是外語(yǔ)比如法語(yǔ)、德語(yǔ)等。圖2根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖1所示實(shí)施例的基礎(chǔ)上,步驟11可以包括:在步驟111中,采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);本公開(kāi)一實(shí)施例中,可以假設(shè)智能電視處于開(kāi)啟狀態(tài)即開(kāi)啟語(yǔ)音采集功能,或者在用戶(hù)的控制下開(kāi)啟智能電視中的語(yǔ)音采集功能。使智能電視具備 語(yǔ)音采集功能是相關(guān)技術(shù)的常規(guī)設(shè)計(jì),此處不再贅述。通過(guò)智能電視的語(yǔ)音采集系統(tǒng),在智能電視播放視頻信息的同時(shí),可以采集外界環(huán)境中用戶(hù)發(fā)出的任何語(yǔ)音信號(hào)。假設(shè)當(dāng)前家庭環(huán)境中,用戶(hù)的日常交流語(yǔ)言為藏語(yǔ),則智能電視采集的原始語(yǔ)音信號(hào)為符合藏語(yǔ)發(fā)音特點(diǎn)的音頻信號(hào)。在步驟112中,根據(jù)視頻播放時(shí)間,從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào);本公開(kāi)實(shí)施例中,考慮到用戶(hù)在觀看某一電視節(jié)目前,很有可能會(huì)用藏語(yǔ)表達(dá)想看該電視節(jié)目的意愿;在觀看節(jié)目時(shí)以及觀看節(jié)目前后,可能會(huì)用藏語(yǔ)交流該節(jié)目的相關(guān)信息,此處,將上述電視節(jié)目對(duì)應(yīng)的視頻信息稱(chēng)為第一視頻信息,因此,根據(jù)第一視頻的播放時(shí)間,可以獲取與該視頻相關(guān)的用戶(hù)語(yǔ)言信息。假設(shè)上述第一視頻為《羋月傳》第二集,播放時(shí)間為8:00~8:45,可以按照以下方式獲取第一語(yǔ)音信號(hào):第一種方式,獲取第一視頻播放之前的一段時(shí)間的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào)。比如,智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間,獲取7:55~8:00之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第二種方式,可以將從第一視頻播放之前一段時(shí)間開(kāi)始至第一視頻播放完成這段時(shí)間內(nèi)采集的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào)。比如,智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間,獲取7:55~8:45之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第三種方式,考慮到用戶(hù)的觀看節(jié)目之后,很有可能對(duì)節(jié)目?jī)?nèi)容進(jìn)行評(píng)論,因此獲取第一視頻播放期間及播放后一段時(shí)間采集的語(yǔ)音信號(hào)線作為第一語(yǔ)音信號(hào),比如,智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間,獲取8:00~8:50之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第四種方式,考慮到獲取用戶(hù)更多用藏語(yǔ)表達(dá)的視頻相關(guān)信息,還可以獲取從第一開(kāi)始播放前一段時(shí)間至第一視頻結(jié)束播放后一段時(shí)間的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào),比如,智能電視可以根據(jù)上述《羋月傳》第二集的上述 播放時(shí)間,獲取7:55~8:50之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。綜上,步驟112中的所述預(yù)置時(shí)間可以包括所述第一視頻的播放時(shí)間,也可以是第一視頻的播放時(shí)間前后的一段時(shí)間。在步驟113中,提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第一有效語(yǔ)音特征值集合;圖3根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖2所示實(shí)施例的基礎(chǔ)上,步驟113可以包括:在步驟1131中,對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第一語(yǔ)音特征值集合;本公開(kāi)實(shí)施例中,可以采用相關(guān)技術(shù)中任意的語(yǔ)音特征值提取方法,比如使用隱形馬爾可夫模型(hiddenmarkovmodel,hmm)對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取,得到第一語(yǔ)音特征值集合。在步驟1132中,將出現(xiàn)頻率超過(guò)預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,獲得所述第一有效語(yǔ)音特征值集合。仍以上述時(shí)間段7:55~8:00對(duì)應(yīng)的第一語(yǔ)音信號(hào)為例,假設(shè)經(jīng)過(guò)語(yǔ)音特征值提取后獲得的第一語(yǔ)音特征值集合中包括十種不同的語(yǔ)音特征值:p1、p2、p3......p10,統(tǒng)計(jì)每種語(yǔ)音特征值在第一語(yǔ)音特征值集合中出現(xiàn)的頻率。將出現(xiàn)頻率超過(guò)預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,假設(shè)上述預(yù)設(shè)頻率閾值為2,即將第一語(yǔ)音特征值集合中出現(xiàn)頻率高于2的語(yǔ)音特征值確定為有效語(yǔ)音特征值。將所有的有效語(yǔ)音特征值組成的集合確定為所述第一有效語(yǔ)音特征值集合。結(jié)合上述實(shí)施例,假設(shè)得到的第一有效語(yǔ)音特征值集合為a1:{p1、p3、p5、p6、p8}。在步驟114中,將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間,確定為語(yǔ)音樣本。本公開(kāi)實(shí)施例中,上述語(yǔ)音樣本可以采用表一中一個(gè)表項(xiàng)的形式表示:表一從表一可知,第一有效語(yǔ)音特征值集合a1對(duì)應(yīng)的視頻播放時(shí)間為《羋月傳》第二集的播放時(shí)間:8:00~8:45。圖4根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖1所示實(shí)施例的基礎(chǔ)上,步驟11可以包括:在步驟11-1中,采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);該步驟與圖2所示實(shí)施例中的步驟111相似,具體實(shí)施方式可以參考上述步驟111。在步驟11-2中,提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第二有效語(yǔ)音特征值集合;本公開(kāi)實(shí)施例與圖2所示實(shí)施例不同的是,可以首先對(duì)原始語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取。圖5根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖4所示實(shí)施例的基礎(chǔ)上,步驟11-2可以包括以下步驟:在步驟11-21中,對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第二語(yǔ)音特征值集合;假設(shè)原始語(yǔ)音信號(hào)為智能電視在7:30~21:00之間獲取的用戶(hù)藏語(yǔ)語(yǔ)音信號(hào),采用相關(guān)技術(shù)中的語(yǔ)音特征提取方法,對(duì)上述7:30~21:00采集的原始語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征提取,獲得第二語(yǔ)音特征值集合。在步驟11-22中,從所述第二語(yǔ)音特征值中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值,構(gòu)成第二有效語(yǔ)音特征值集合。假設(shè)上述第二語(yǔ)音特征值集合中包括100種語(yǔ)音特征值:p1、p2、p3......p100,統(tǒng)計(jì)每種語(yǔ)音特征值出現(xiàn)的頻率,將出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,假設(shè)上述第二預(yù)設(shè)頻率閾值為4,則將上述第二語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)4次的語(yǔ)音特征值篩選出,構(gòu)成第二有效語(yǔ)音特征值集合,假設(shè)第二有效語(yǔ)音特征值集合為a2:{p1、 p3、p5、p6、p8......p99}。在步驟11-3中,根據(jù)視頻播放時(shí)間,從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合;假設(shè)第二有效特征值集合a2中元素的排列順序是按照語(yǔ)音信號(hào)的采集時(shí)間順序排列的,則根據(jù)視頻播放時(shí)間獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合。如上述實(shí)施例,上述預(yù)置時(shí)間可以是視頻播放時(shí)間之前或之后的一段時(shí)間,可以包括視頻播放時(shí)間及之前一段時(shí)間,也可以包括視頻播放時(shí)間及之后的一段時(shí)間,還可以包括視頻播放時(shí)間及前后一段時(shí)間。仍以視頻《羋月傳》第二集播放之前的5分鐘時(shí)間為例,獲取7:55~8:00對(duì)應(yīng)的第一有效語(yǔ)音特征值集合,假設(shè)仍為a1:{p1、p3、p5、p6、p8}。當(dāng)然,因?yàn)檎Z(yǔ)音特征值提取方法以及有效語(yǔ)音特征值的獲取方法不同,本公開(kāi)實(shí)施例獲得的第一有效語(yǔ)音特征值也可能與上述a1不完全相同。在步驟11-4中,將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為語(yǔ)音樣本。相應(yīng)的,因第一有效語(yǔ)音特征值集合的獲取方法的不同,采用圖2和圖4所示實(shí)施例獲取的語(yǔ)音樣本可能相同,也可能不同。在步驟12中,建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);圖6根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖1所示實(shí)施例的基礎(chǔ)上,步驟12可以包括:在步驟121中,將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián),確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù);在步驟122中,存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù),構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。本公開(kāi)實(shí)施例中,因語(yǔ)音樣本中包括了視頻信息的播放時(shí)間,因此智能電視可以根據(jù)上述時(shí)間信息獲得該段時(shí)間播放視頻的視頻信息。上述視頻信息可以包括:視頻名稱(chēng)、主演姓名、導(dǎo)演姓名、視頻類(lèi)型、拍攝國(guó)家、獲得 獎(jiǎng)項(xiàng)等信息。將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息進(jìn)行關(guān)聯(lián),獲取一組目標(biāo)語(yǔ)言特征數(shù)據(jù),存儲(chǔ)在目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中。依次類(lèi)推,每獲取一個(gè)語(yǔ)音樣本,就建立一組目標(biāo)語(yǔ)音特征數(shù)據(jù),存儲(chǔ)在特定存儲(chǔ)位置,形成目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。示例性地,目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)可以采用以下表二的形式存儲(chǔ)信息:語(yǔ)音樣本視頻信息語(yǔ)音樣本1視頻信息一語(yǔ)音樣本2視頻信息二語(yǔ)音樣本3視頻信息三…………語(yǔ)音樣本35視頻信息三十五表二在步驟13中,根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型。圖7根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖1所示實(shí)施例的基礎(chǔ)上,步驟13可以包括:在步驟131中,分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性;本公開(kāi)實(shí)施例中,目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中每增加一個(gè)語(yǔ)音樣本,都會(huì)對(duì)當(dāng)前數(shù)據(jù)庫(kù)中所有的有效語(yǔ)音特征值和視頻信息進(jìn)行多元統(tǒng)計(jì)分析,確定一個(gè)有效語(yǔ)音特征值與視頻信息中的文字信息相關(guān)性。在本公開(kāi)一實(shí)施例中,一個(gè)有效語(yǔ)音特征值與一個(gè)視頻信息的相關(guān)性可以用相關(guān)程度表示。假設(shè)一個(gè)有效語(yǔ)音特征值為p1,視頻信息中包括三組文字信息,分別表示為:信息1、信息2、信息3,經(jīng)多元統(tǒng)計(jì)分析后發(fā)現(xiàn):p1與信息1之間的相關(guān)程度為0,表示二者不相關(guān);p1與信息2之間的相關(guān)程度為15%,表示二者有可能相關(guān);p1與信息3之間的相關(guān)程度為90%,則表示二者相關(guān)的可能性較大。依次類(lèi)推,統(tǒng)計(jì)分析每個(gè)有效語(yǔ)音特征值與視頻 信息的相關(guān)性。在步驟132中,將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型,存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)。本公開(kāi)實(shí)施例中,上述預(yù)置條件可以是:目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的語(yǔ)音樣本不少于預(yù)設(shè)數(shù)量閾值,且有效語(yǔ)音特征值與目標(biāo)視頻信息的相關(guān)程度不小于預(yù)設(shè)關(guān)聯(lián)閾值。假設(shè),上述預(yù)設(shè)數(shù)量閾值為30、上述預(yù)設(shè)關(guān)聯(lián)閾值為90%,則在目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的語(yǔ)音樣本數(shù)量不少于30個(gè)的情況下,經(jīng)過(guò)多元統(tǒng)計(jì)分析后發(fā)現(xiàn),一個(gè)有效語(yǔ)音特征值p2與一個(gè)視頻信息如“孫儷”的相關(guān)性為92%,則可以確定有效語(yǔ)音特征值p2對(duì)應(yīng)的目標(biāo)視頻信息為“孫儷”,將二者的對(duì)應(yīng)關(guān)系確定為語(yǔ)音識(shí)別模型,存儲(chǔ)在語(yǔ)音識(shí)別庫(kù)中。以此類(lèi)推,建立目標(biāo)語(yǔ)音識(shí)別庫(kù)。示例性地,可以采用以下表三表示目標(biāo)語(yǔ)音識(shí)別庫(kù):有效語(yǔ)音特征值目標(biāo)視頻信息p1羋月傳p2孫儷p3鄭曉龍…………pn辣媽正傳表三表三所示的目標(biāo)語(yǔ)音識(shí)別庫(kù)中包括n個(gè)表項(xiàng),每一個(gè)表項(xiàng)即表示一個(gè)語(yǔ)音識(shí)別模型??梢?jiàn),采用本公開(kāi)提供的智能識(shí)別語(yǔ)音的方法,智能設(shè)備可以自己采用用戶(hù)的語(yǔ)言信息樣本,對(duì)語(yǔ)言信息樣本進(jìn)行統(tǒng)計(jì)分析,自動(dòng)獲得用戶(hù)個(gè)性化的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。將符合用戶(hù)個(gè)性的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)應(yīng)用于語(yǔ)音控制系統(tǒng)中,使智能設(shè)備的語(yǔ)音控制功能更加強(qiáng)大,提升智能設(shè)備的智能化,進(jìn)而提升智能設(shè)備的用戶(hù)體驗(yàn)。參照?qǐng)D8根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖,在圖7所示實(shí)施例的基礎(chǔ)上,還可以包括:在步驟14中,統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量;在步驟15中,判斷所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音模型的數(shù)量是否達(dá)到預(yù)置模型閾值;若是,執(zhí)行步驟16;若否繼續(xù)采集語(yǔ)音樣本,并建立語(yǔ)音模型。在步驟16中,當(dāng)所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值時(shí),提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。仍以用戶(hù)的日常使用藏語(yǔ)交流為例,假設(shè)藏語(yǔ)詞匯為3000個(gè),常用藏語(yǔ)詞匯為1000個(gè),也就是說(shuō)當(dāng)上述目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音識(shí)別模型的數(shù)量達(dá)到1000個(gè)時(shí),說(shuō)明智能設(shè)備已初步具有藏語(yǔ)語(yǔ)音識(shí)別能力,則可以向用戶(hù)發(fā)出可以使用藏語(yǔ)對(duì)電視節(jié)目進(jìn)行語(yǔ)音搜索的提示信息。本公開(kāi)提供的智能識(shí)別語(yǔ)音的方法,當(dāng)目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音模型數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值時(shí),還具備自動(dòng)提醒用戶(hù)使用個(gè)性化語(yǔ)言進(jìn)行語(yǔ)音控制,進(jìn)一步提升了智能設(shè)備的用戶(hù)體驗(yàn)。參照?qǐng)D9根據(jù)一示例性實(shí)施例示出的智能識(shí)別語(yǔ)音的場(chǎng)景示意圖。用戶(hù)終端200上安裝有一款名稱(chēng)為遙控器助手的應(yīng)用程序app,在該遙控器助手的應(yīng)用界面上提供有語(yǔ)音輸入入口,當(dāng)用戶(hù)通過(guò)該入口輸入藏語(yǔ),用戶(hù)終端將藏語(yǔ)語(yǔ)音信號(hào)發(fā)送給智能電視100。智能電視根據(jù)從用戶(hù)終端接收的藏語(yǔ)語(yǔ)音信號(hào)匹配目標(biāo)語(yǔ)音識(shí)別庫(kù),輸出對(duì)應(yīng)的視頻信息,將與該視頻信息相關(guān)的電視節(jié)目推送到電視屏幕進(jìn)行顯示,從而實(shí)現(xiàn)使用藏語(yǔ)語(yǔ)音搜索電視節(jié)目的目的。對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于可選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本公開(kāi)所必須的。對(duì)應(yīng)上述實(shí)施例提供的智能識(shí)別語(yǔ)音的方法,本公開(kāi)還提供了一種智能識(shí)別語(yǔ)音的裝置。參照?qǐng)D10根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖, 所述裝置可以包括:語(yǔ)音采集模塊21,被配置為采集用戶(hù)個(gè)性化的語(yǔ)音樣本;其中,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系;存儲(chǔ)模塊22,被配置為建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);語(yǔ)音識(shí)別模塊23,被配置為根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型。參照?qǐng)D11根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖10所示實(shí)施例的基礎(chǔ)上,語(yǔ)音采集模塊21可以包括:第一語(yǔ)音采集子模塊211,被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);第一樣本語(yǔ)音獲取子模塊212,被配置為根據(jù)視頻播放時(shí)間,從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào);第一特征提取子模塊213,被配置為提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值,獲得第一有效語(yǔ)音特征值集合;第一樣本確定子模塊214,被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間,確定為所述語(yǔ)音樣本。參照?qǐng)D12根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖11所示實(shí)施例的基礎(chǔ)上,第一特征提取子模塊213可以包括:第一特征提取單元2131,被配置為對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第一語(yǔ)音特征值集合;第一有效語(yǔ)音特征值確定單元2132,被配置為將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值,獲得所述第一有效語(yǔ)音特征值集合。參照?qǐng)D13根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖10所示實(shí)施例的基礎(chǔ)上,語(yǔ)音采集模塊21可以包括:第二語(yǔ)音采集子模塊21-1,被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào);第二特征提取子模塊21-2,被配置為提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征 值,獲得第二有效語(yǔ)音特征值集合;第一特征確定子模塊21-3,被配置為根據(jù)視頻播放時(shí)間,從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合;第二樣本確定子模塊21-4,被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為所述語(yǔ)音樣本。參照?qǐng)D14根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖13所示實(shí)施例的基礎(chǔ)上,第二特征提取子模塊21-2可以包括:第二特征提取單元21-21,被配置為對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取,獲得第二語(yǔ)音特征值集合;第二有效語(yǔ)音特征值確定單元21-22,被配置為從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值,構(gòu)成所述第二有效語(yǔ)音特征值集合。參照?qǐng)D15根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖10所示實(shí)施例的基礎(chǔ)上,所述存儲(chǔ)模塊22可以包括:關(guān)聯(lián)子模塊221,被配置為將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián),確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù);存儲(chǔ)子模塊222,被配置為存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù),構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。參照?qǐng)D16根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖10所示實(shí)施例的基礎(chǔ)上,所述語(yǔ)音識(shí)別模塊23可以包括:分析子模塊231,被配置為分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性;語(yǔ)音識(shí)別子模塊232,被配置為將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型,存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)。參照?qǐng)D17根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖,在圖16所示實(shí)施例的基礎(chǔ)上,所述裝置還可以包括:統(tǒng)計(jì)模塊24,被配置為統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的 數(shù)量;提醒模塊25,被配置為在所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值的情況下,提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。對(duì)于裝置實(shí)施例而言,由于其基本對(duì)應(yīng)于方法實(shí)施例,所以相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本公開(kāi)方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。另外,本公開(kāi)還提供了一種智能識(shí)別語(yǔ)音的裝置,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器被配置為:采集用戶(hù)個(gè)性化的語(yǔ)音樣本,每一個(gè)語(yǔ)音樣本包括:視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系;建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系,構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù);根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性,確定語(yǔ)音識(shí)別模型。如圖18所示,圖18是根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置1800的一結(jié)構(gòu)示意圖。例如,裝置1800可以被提供為一款智能設(shè)備,比如智能電視等。參照?qǐng)D18,裝置1800包括通信組件1816,被配置為便于裝置1800和其它設(shè)備之間無(wú)線方式的通信。在一個(gè)示例性實(shí)施例中,通信部件1816經(jīng)由廣播信道接收來(lái)自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信部件1816還包括近場(chǎng)通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識(shí)別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(huì)(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其它技術(shù)來(lái)實(shí)現(xiàn)。裝置1800包括還可以包括處理組件1822,其進(jìn)一步包括一個(gè)或多個(gè)處理器,以及由存儲(chǔ)器1832所代表的存儲(chǔ)器資源,用于存儲(chǔ)可由處理部件1822的執(zhí)行的指令,例如應(yīng)用程序。存儲(chǔ)器1832中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外,處理組件1822被配置為執(zhí)行指令,以執(zhí)行上述智能識(shí)別語(yǔ)音的方法。裝置1800還可以包括一個(gè)電源組件1826被配置為執(zhí)行裝置1800的電源管理,一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口1850被配置為將裝置1800連接到網(wǎng)絡(luò),和一個(gè)輸入輸出(i/o)接口1858。裝置1800可以操作基于存儲(chǔ)在存儲(chǔ)器1832的操作系統(tǒng),例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或類(lèi)似。在示例性實(shí)施例中,裝置1800可以被一個(gè)或多個(gè)應(yīng)用專(zhuān)用集成電路(asic)、數(shù)字信號(hào)處理器(dsp)、數(shù)字信號(hào)處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)、控制器、微控制器、微處理器或其它電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如包括指令的存儲(chǔ)器1832,上述指令可由裝置1800的處理組件1822執(zhí)行以完成上述方法。例如,非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤(pán)和光數(shù)據(jù)存儲(chǔ)設(shè)備等。本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本公開(kāi)的其它實(shí)施方案。本公開(kāi)旨在涵蓋本公開(kāi)的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開(kāi)的一般性原理并包括本公開(kāi)未公開(kāi)的本
技術(shù)領(lǐng)域:
中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的,本公開(kāi)的真正范圍和精神由下面的權(quán)利要求指出。以上所述僅為本公開(kāi)的較佳實(shí)施例而已,并不用以限制本公開(kāi),凡在本公開(kāi)的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本公開(kāi)保護(hù)的范圍之內(nèi)。當(dāng)前第1頁(yè)12