智能識(shí)別語(yǔ)音的方法及裝置與流程

文檔序號(hào)：12806116閱讀：498來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開(kāi)涉及人工智能的語(yǔ)音識(shí)別
技術(shù)領(lǐng)域：
，尤其涉及一種智能識(shí)別語(yǔ)音的方法及裝置。
背景技術(shù)：
：語(yǔ)音識(shí)別技術(shù)是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為機(jī)器可讀的輸入，即與機(jī)器進(jìn)行語(yǔ)言交流，讓機(jī)器明白人類(lèi)在說(shuō)什么。語(yǔ)音識(shí)別的應(yīng)用非常廣泛，以語(yǔ)音控制系統(tǒng)應(yīng)用于電視節(jié)目的語(yǔ)音搜索為例，電視遙控器或安裝在用戶(hù)終端上的遙控器app接收用戶(hù)發(fā)出的搜索電視節(jié)目的語(yǔ)音信息，對(duì)用戶(hù)的語(yǔ)音信號(hào)進(jìn)行特征值提取，將提取的語(yǔ)音特征值與預(yù)設(shè)的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)進(jìn)行模式匹配，獲得識(shí)別結(jié)果即文字信息，根據(jù)識(shí)別結(jié)果搜索用戶(hù)想看的電視節(jié)目，將相關(guān)節(jié)目列表推送到電視屏幕。目前人工智能中的語(yǔ)音識(shí)別大部分應(yīng)用都依賴(lài)于人工預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)的內(nèi)容。當(dāng)上述預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)中不包括用戶(hù)的語(yǔ)音特征信息時(shí)，比如預(yù)設(shè)的語(yǔ)音識(shí)別庫(kù)是人工使用普通話錄入的語(yǔ)音信息而建立的，若用戶(hù)使用外語(yǔ)或某地的方言語(yǔ)音搜索電視節(jié)目時(shí)，電視便無(wú)法準(zhǔn)確為用戶(hù)搜索想看的電視節(jié)目，使得電視的語(yǔ)音搜索功能受限，導(dǎo)致電視還不能真正滿(mǎn)足用戶(hù)的個(gè)性化需求，智能化程度低。技術(shù)實(shí)現(xiàn)要素：有鑒于此，本公開(kāi)提供一種智能識(shí)別語(yǔ)音的方法及裝置，實(shí)現(xiàn)智能設(shè)備自主學(xué)習(xí)用戶(hù)語(yǔ)言，從而為用戶(hù)提供智能化的語(yǔ)應(yīng)控制服務(wù)。根據(jù)本公開(kāi)實(shí)施例的第一方面，提供了一種智能識(shí)別語(yǔ)音的方法，所述方法包括：采集用戶(hù)個(gè)性化的語(yǔ)音樣本，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系；建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型?？蛇x地，所述采集用戶(hù)個(gè)性化的語(yǔ)音樣本，包括：采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；根據(jù)視頻播放時(shí)間，從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào)；提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第一有效語(yǔ)音特征值集合；將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間，確定為所述語(yǔ)音樣本?？蛇x地，所述提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第一有效語(yǔ)音特征值集合，包括：對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第一語(yǔ)音特征值集合；將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，獲得所述第一有效語(yǔ)音特征值集合?？蛇x地，所述采集用戶(hù)個(gè)性化的語(yǔ)音樣本，包括：采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第二有效語(yǔ)音特征值集合；根據(jù)視頻播放時(shí)間，從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合；將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為所述語(yǔ)音樣本。可選地，所述提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第二有效語(yǔ)音特征值集合，包括：對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第二語(yǔ)音特征值集合；從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值，構(gòu)成所述第二有效語(yǔ)音特征值集合?？蛇x地，所述建立所述語(yǔ)音樣本與視頻信息的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)，包括：將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián)，確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù)；存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù)，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)?？蛇x地，所述根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型，包括：分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性；將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型，存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)?？蛇x地，所述智能識(shí)別語(yǔ)音的方法還包括：統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量；當(dāng)所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值時(shí)，提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。根據(jù)本公開(kāi)實(shí)施例的第二方面，提供了一種智能識(shí)別語(yǔ)音的裝置，所述裝置包括：語(yǔ)音采集模塊，被配置為采集用戶(hù)個(gè)性化的語(yǔ)音樣本，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系；存儲(chǔ)模塊，被配置為建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；語(yǔ)音識(shí)別模塊，被配置為根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型?？蛇x的，所述語(yǔ)音采集模塊，包括：第一語(yǔ)音采集子模塊，被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；第一樣本語(yǔ)音獲取子模塊，被配置為根據(jù)視頻播放時(shí)間，從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào)；第一特征提取子模塊，被配置為提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第一有效語(yǔ)音特征值集合；第一樣本確定子模塊，被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間，確定為所述語(yǔ)音樣本?？蛇x的，所述第一特征提取子模塊包括：第一特征提取單元，被配置為對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第一語(yǔ)音特征值集合；第一有效語(yǔ)音特征值確定單元，被配置為將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，獲得所述第一有效語(yǔ)音特征值集合?？蛇x的，所述語(yǔ)音采集模塊包括：第二語(yǔ)音采集子模塊，被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；第二特征提取子模塊，被配置為提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第二有效語(yǔ)音特征值集合；第一特征確定子模塊，被配置為根據(jù)視頻播放時(shí)間，從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合；第二樣本確定子模塊，被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為語(yǔ)音樣本?？蛇x的，所述第二特征提取子模塊，包括：第二特征提取單元，被配置為對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第二語(yǔ)音特征值集合；第二有效語(yǔ)音特征值確定單元，被配置為從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值，構(gòu)成所述第二有效語(yǔ)音特征值集合?？蛇x的，所述存儲(chǔ)模塊包括：關(guān)聯(lián)子模塊，被配置為將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián)，確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù)；存儲(chǔ)子模塊，被配置為存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù)，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。可選的，所述語(yǔ)音識(shí)別模塊包括：分析子模塊，被配置為分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性；語(yǔ)音識(shí)別子模塊，被配置為將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型，存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)?？蛇x的，所述智能語(yǔ)音識(shí)別的裝置還包括：統(tǒng)計(jì)模塊，被配置為統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量；提醒模塊，被配置為在所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值的情況下，提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。根據(jù)本公開(kāi)的第三方面，還提供了一種智能識(shí)別語(yǔ)音的設(shè)備，包括：處理器；用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器；其中，所述處理器被配置為：采集用戶(hù)個(gè)性化的語(yǔ)音樣本，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系；建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型。本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果：本公開(kāi)中，智能設(shè)備如智能電視可以主動(dòng)采集用戶(hù)活動(dòng)場(chǎng)所內(nèi)的語(yǔ)音信息作為語(yǔ)音樣本，經(jīng)過(guò)語(yǔ)音識(shí)別處理，建立用戶(hù)個(gè)性化語(yǔ)言的語(yǔ)音識(shí)別模型。也就是說(shuō)智能設(shè)備可以主動(dòng)學(xué)習(xí)用戶(hù)的個(gè)性化語(yǔ)言比如方言、特殊語(yǔ)言等，建立滿(mǎn)足用戶(hù)個(gè)性化需求的語(yǔ)音識(shí)別庫(kù)。使得用戶(hù)使用該個(gè)性化的語(yǔ)音識(shí)別庫(kù)可以實(shí)現(xiàn)使用用戶(hù)常用語(yǔ)言控制智能設(shè)備，滿(mǎn)足了用戶(hù)使用個(gè)性化語(yǔ)言控制智能設(shè)備的個(gè)性化需求，提高了智能設(shè)備的智能化程度，提升了智能設(shè)備的用戶(hù)體驗(yàn)。在本公開(kāi)中，智能設(shè)備在確定一個(gè)語(yǔ)音樣本時(shí)，可以根據(jù)某一段視頻的播放時(shí)間，從原始語(yǔ)音信號(hào)中獲取一個(gè)預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào)，然后對(duì)第一語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取并篩選有效語(yǔ)音特征值，將有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻信息的播放時(shí)間的對(duì)應(yīng)關(guān)系確定為語(yǔ)音樣本，提升對(duì)語(yǔ)音樣本的采集效率。在本公開(kāi)中，可以首先獲取第一語(yǔ)音信號(hào)對(duì)應(yīng)的第一語(yǔ)音特征值集合，然后將上述第一語(yǔ)音特征值集合中出現(xiàn)頻率高于第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，提高了語(yǔ)音樣本采集的準(zhǔn)確性。在本公開(kāi)中，智能設(shè)備在確定一個(gè)語(yǔ)音樣本時(shí)，也可以首先對(duì)原始與語(yǔ)音信號(hào)進(jìn)行特征提取，獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二有效語(yǔ)音特征值集合，然后再根據(jù)某一段視頻的播放時(shí)間，從上述第二有效語(yǔ)音特征值集合中確定第一有效語(yǔ)音特征值集合，提高語(yǔ)音樣本中有效語(yǔ)音特征值確定的準(zhǔn)確性。本公開(kāi)中，在獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二有效語(yǔ)音特征值集合時(shí)，可以首先獲取原始語(yǔ)音信號(hào)對(duì)應(yīng)的第二語(yǔ)音特征值集合，然后按照第二頻率閾值從中選擇有效的語(yǔ)音特征值，從而可以提高有效語(yǔ)音特征值的準(zhǔn)確性。本公開(kāi)中，將語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián)，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)，以便獲取語(yǔ)音特征值與視頻信息對(duì)應(yīng)的語(yǔ)音識(shí)別模型，可以為用戶(hù)提供更豐富的語(yǔ)音搜索視頻的智能化服務(wù)，提升用戶(hù)體驗(yàn)。本公開(kāi)中，每增加一個(gè)語(yǔ)音樣本就可以觸發(fā)一次多元統(tǒng)計(jì)分析，在預(yù)置條件下，如目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中語(yǔ)音樣本的數(shù)量滿(mǎn)足預(yù)設(shè)條件，并且一個(gè)有效語(yǔ)音特征值與一個(gè)視頻信息的關(guān)聯(lián)程度達(dá)到預(yù)設(shè)關(guān)聯(lián)程度的情況下，確定一個(gè) 語(yǔ)音識(shí)別模型，提高語(yǔ)音識(shí)別模型的準(zhǔn)確性。本公開(kāi)中，該可以統(tǒng)計(jì)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音識(shí)別模型的數(shù)量，當(dāng)語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值后，確定該語(yǔ)音識(shí)別庫(kù)可以應(yīng)用于目標(biāo)語(yǔ)言環(huán)境的語(yǔ)音搜索服務(wù)，從而提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索，使用戶(hù)可以及時(shí)使用習(xí)慣語(yǔ)言的語(yǔ)音搜索服務(wù)，提升智能設(shè)備的用戶(hù)體驗(yàn)。應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開(kāi)。附圖說(shuō)明此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分，示出了符合本公開(kāi)的實(shí)施例，并與說(shuō)明書(shū)一起用于解釋本公開(kāi)的原理。圖1是本公開(kāi)根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的方法的流程圖；圖2是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖；圖3是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖；圖4是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖；圖5是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖；圖6是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法的流程圖；圖7是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖；圖8是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖；圖9是本公開(kāi)根據(jù)一示例性實(shí)施例示出的智能識(shí)別語(yǔ)音的場(chǎng)景示意圖；圖10是本公開(kāi)根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖；圖11是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖12是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖13是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖14是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖15是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖16是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖17是本公開(kāi)根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的裝置框圖；圖18是根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音裝置1800的一結(jié)構(gòu)示意圖。具體實(shí)施方式這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明，其示例表示在附圖中。下面的描述涉及附圖時(shí)，除非另有表示，不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本公開(kāi)相一致的所有實(shí)施方式。相反，它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本公開(kāi)的一些方面相一致的裝置和方法的例子。在本公開(kāi)使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的，而非旨在限制本公開(kāi)。在本公開(kāi)和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式，除非上下文清楚地表示其它含義。還應(yīng)當(dāng)理解，本文中使用的術(shù)語(yǔ)“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。應(yīng)當(dāng)理解，盡管在本公開(kāi)可能采用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種信息，但這些信息不應(yīng)限于這些術(shù)語(yǔ)。這些術(shù)語(yǔ)僅用來(lái)將同一類(lèi)型的信息彼此區(qū)分開(kāi)。例如，在不脫離本公開(kāi)范圍的情況下，第一信息也可以被稱(chēng)為第二信息，類(lèi)似地，第二信息也可以被稱(chēng)為第一信息。取決于語(yǔ)境，如在此所使用的詞語(yǔ)“如果”可以被解釋成為“在…...時(shí)”或“當(dāng)…...時(shí)”或“響應(yīng)于確定”。本公開(kāi)提供了一種智能識(shí)別語(yǔ)音的方法，可以應(yīng)用于語(yǔ)音控制系統(tǒng)實(shí)現(xiàn)的對(duì)電視節(jié)目的語(yǔ)音搜索中。主要涉及根據(jù)用戶(hù)的發(fā)音特點(diǎn)智能化建立用戶(hù)的目標(biāo)語(yǔ)音識(shí)別庫(kù)，之后將該目標(biāo)語(yǔ)音數(shù)據(jù)庫(kù)應(yīng)用于用戶(hù)語(yǔ)音搜索電視節(jié)目中。本公開(kāi)中，實(shí)施上述智能識(shí)別語(yǔ)音的方法的智能設(shè)備可以是智能電視、與智能電視連接的云端服務(wù)器或者具備大量數(shù)據(jù)處理能力的智能遙控器等設(shè)備。本公開(kāi)實(shí)施例以智能電視為例進(jìn)行詳細(xì)說(shuō)明。參照?qǐng)D1根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的方法流程圖，所述方法包括以下步驟：在步驟11中，采集用戶(hù)個(gè)性化的語(yǔ)音樣本；本公開(kāi)實(shí)施例中，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系。本公開(kāi)實(shí)施例中，上述用戶(hù)個(gè)性化的語(yǔ)音樣本，是智能電視采集到的用戶(hù)的日常用語(yǔ)，尤其是指非國(guó)家標(biāo)準(zhǔn)語(yǔ)言，比如地方方言、民族語(yǔ)言如藏語(yǔ)、蒙古語(yǔ)等、還可以是外語(yǔ)比如法語(yǔ)、德語(yǔ)等。圖2根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖1所示實(shí)施例的基礎(chǔ)上，步驟11可以包括：在步驟111中，采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；本公開(kāi)一實(shí)施例中，可以假設(shè)智能電視處于開(kāi)啟狀態(tài)即開(kāi)啟語(yǔ)音采集功能，或者在用戶(hù)的控制下開(kāi)啟智能電視中的語(yǔ)音采集功能。使智能電視具備語(yǔ)音采集功能是相關(guān)技術(shù)的常規(guī)設(shè)計(jì)，此處不再贅述。通過(guò)智能電視的語(yǔ)音采集系統(tǒng)，在智能電視播放視頻信息的同時(shí)，可以采集外界環(huán)境中用戶(hù)發(fā)出的任何語(yǔ)音信號(hào)。假設(shè)當(dāng)前家庭環(huán)境中，用戶(hù)的日常交流語(yǔ)言為藏語(yǔ)，則智能電視采集的原始語(yǔ)音信號(hào)為符合藏語(yǔ)發(fā)音特點(diǎn)的音頻信號(hào)。在步驟112中，根據(jù)視頻播放時(shí)間，從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào)；本公開(kāi)實(shí)施例中，考慮到用戶(hù)在觀看某一電視節(jié)目前，很有可能會(huì)用藏語(yǔ)表達(dá)想看該電視節(jié)目的意愿；在觀看節(jié)目時(shí)以及觀看節(jié)目前后，可能會(huì)用藏語(yǔ)交流該節(jié)目的相關(guān)信息，此處，將上述電視節(jié)目對(duì)應(yīng)的視頻信息稱(chēng)為第一視頻信息，因此，根據(jù)第一視頻的播放時(shí)間，可以獲取與該視頻相關(guān)的用戶(hù)語(yǔ)言信息。假設(shè)上述第一視頻為《羋月傳》第二集，播放時(shí)間為8：00～8：45，可以按照以下方式獲取第一語(yǔ)音信號(hào)：第一種方式，獲取第一視頻播放之前的一段時(shí)間的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào)。比如，智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間，獲取7：55～8：00之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第二種方式，可以將從第一視頻播放之前一段時(shí)間開(kāi)始至第一視頻播放完成這段時(shí)間內(nèi)采集的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào)。比如，智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間，獲取7：55～8：45之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第三種方式，考慮到用戶(hù)的觀看節(jié)目之后，很有可能對(duì)節(jié)目?jī)?nèi)容進(jìn)行評(píng)論，因此獲取第一視頻播放期間及播放后一段時(shí)間采集的語(yǔ)音信號(hào)線作為第一語(yǔ)音信號(hào)，比如，智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間，獲取8：00～8：50之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。第四種方式，考慮到獲取用戶(hù)更多用藏語(yǔ)表達(dá)的視頻相關(guān)信息，還可以獲取從第一開(kāi)始播放前一段時(shí)間至第一視頻結(jié)束播放后一段時(shí)間的語(yǔ)音信號(hào)作為第一語(yǔ)音信號(hào)，比如，智能電視可以根據(jù)上述《羋月傳》第二集的上述播放時(shí)間，獲取7：55～8：50之間采集的語(yǔ)音信號(hào)作為上述第一語(yǔ)音信號(hào)。綜上，步驟112中的所述預(yù)置時(shí)間可以包括所述第一視頻的播放時(shí)間，也可以是第一視頻的播放時(shí)間前后的一段時(shí)間。在步驟113中，提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第一有效語(yǔ)音特征值集合；圖3根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖2所示實(shí)施例的基礎(chǔ)上，步驟113可以包括：在步驟1131中，對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第一語(yǔ)音特征值集合；本公開(kāi)實(shí)施例中，可以采用相關(guān)技術(shù)中任意的語(yǔ)音特征值提取方法，比如使用隱形馬爾可夫模型(hiddenmarkovmodel，hmm)對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取，得到第一語(yǔ)音特征值集合。在步驟1132中，將出現(xiàn)頻率超過(guò)預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，獲得所述第一有效語(yǔ)音特征值集合。仍以上述時(shí)間段7：55～8：00對(duì)應(yīng)的第一語(yǔ)音信號(hào)為例，假設(shè)經(jīng)過(guò)語(yǔ)音特征值提取后獲得的第一語(yǔ)音特征值集合中包括十種不同的語(yǔ)音特征值：p1、p2、p3......p10，統(tǒng)計(jì)每種語(yǔ)音特征值在第一語(yǔ)音特征值集合中出現(xiàn)的頻率。將出現(xiàn)頻率超過(guò)預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，假設(shè)上述預(yù)設(shè)頻率閾值為2，即將第一語(yǔ)音特征值集合中出現(xiàn)頻率高于2的語(yǔ)音特征值確定為有效語(yǔ)音特征值。將所有的有效語(yǔ)音特征值組成的集合確定為所述第一有效語(yǔ)音特征值集合。結(jié)合上述實(shí)施例，假設(shè)得到的第一有效語(yǔ)音特征值集合為a1：{p1、p3、p5、p6、p8}。在步驟114中，將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間，確定為語(yǔ)音樣本。本公開(kāi)實(shí)施例中，上述語(yǔ)音樣本可以采用表一中一個(gè)表項(xiàng)的形式表示：表一從表一可知，第一有效語(yǔ)音特征值集合a1對(duì)應(yīng)的視頻播放時(shí)間為《羋月傳》第二集的播放時(shí)間：8：00～8：45。圖4根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖1所示實(shí)施例的基礎(chǔ)上，步驟11可以包括：在步驟11-1中，采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；該步驟與圖2所示實(shí)施例中的步驟111相似，具體實(shí)施方式可以參考上述步驟111。在步驟11-2中，提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第二有效語(yǔ)音特征值集合；本公開(kāi)實(shí)施例與圖2所示實(shí)施例不同的是，可以首先對(duì)原始語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征值提取。圖5根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖4所示實(shí)施例的基礎(chǔ)上，步驟11-2可以包括以下步驟：在步驟11-21中，對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第二語(yǔ)音特征值集合；假設(shè)原始語(yǔ)音信號(hào)為智能電視在7：30～21：00之間獲取的用戶(hù)藏語(yǔ)語(yǔ)音信號(hào)，采用相關(guān)技術(shù)中的語(yǔ)音特征提取方法，對(duì)上述7：30～21：00采集的原始語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征提取，獲得第二語(yǔ)音特征值集合。在步驟11-22中，從所述第二語(yǔ)音特征值中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值，構(gòu)成第二有效語(yǔ)音特征值集合。假設(shè)上述第二語(yǔ)音特征值集合中包括100種語(yǔ)音特征值：p1、p2、p3......p100，統(tǒng)計(jì)每種語(yǔ)音特征值出現(xiàn)的頻率，將出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，假設(shè)上述第二預(yù)設(shè)頻率閾值為4，則將上述第二語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)4次的語(yǔ)音特征值篩選出，構(gòu)成第二有效語(yǔ)音特征值集合，假設(shè)第二有效語(yǔ)音特征值集合為a2:{p1、 p3、p5、p6、p8......p99}。在步驟11-3中，根據(jù)視頻播放時(shí)間，從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合；假設(shè)第二有效特征值集合a2中元素的排列順序是按照語(yǔ)音信號(hào)的采集時(shí)間順序排列的，則根據(jù)視頻播放時(shí)間獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合。如上述實(shí)施例，上述預(yù)置時(shí)間可以是視頻播放時(shí)間之前或之后的一段時(shí)間，可以包括視頻播放時(shí)間及之前一段時(shí)間，也可以包括視頻播放時(shí)間及之后的一段時(shí)間，還可以包括視頻播放時(shí)間及前后一段時(shí)間。仍以視頻《羋月傳》第二集播放之前的5分鐘時(shí)間為例，獲取7：55～8：00對(duì)應(yīng)的第一有效語(yǔ)音特征值集合，假設(shè)仍為a1：{p1、p3、p5、p6、p8}。當(dāng)然，因?yàn)檎Z(yǔ)音特征值提取方法以及有效語(yǔ)音特征值的獲取方法不同，本公開(kāi)實(shí)施例獲得的第一有效語(yǔ)音特征值也可能與上述a1不完全相同。在步驟11-4中，將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為語(yǔ)音樣本。相應(yīng)的，因第一有效語(yǔ)音特征值集合的獲取方法的不同，采用圖2和圖4所示實(shí)施例獲取的語(yǔ)音樣本可能相同，也可能不同。在步驟12中，建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；圖6根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖1所示實(shí)施例的基礎(chǔ)上，步驟12可以包括：在步驟121中，將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián)，確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù)；在步驟122中，存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù)，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。本公開(kāi)實(shí)施例中，因語(yǔ)音樣本中包括了視頻信息的播放時(shí)間，因此智能電視可以根據(jù)上述時(shí)間信息獲得該段時(shí)間播放視頻的視頻信息。上述視頻信息可以包括：視頻名稱(chēng)、主演姓名、導(dǎo)演姓名、視頻類(lèi)型、拍攝國(guó)家、獲得獎(jiǎng)項(xiàng)等信息。將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息進(jìn)行關(guān)聯(lián)，獲取一組目標(biāo)語(yǔ)言特征數(shù)據(jù)，存儲(chǔ)在目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中。依次類(lèi)推，每獲取一個(gè)語(yǔ)音樣本，就建立一組目標(biāo)語(yǔ)音特征數(shù)據(jù)，存儲(chǔ)在特定存儲(chǔ)位置，形成目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。示例性地，目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)可以采用以下表二的形式存儲(chǔ)信息：語(yǔ)音樣本視頻信息語(yǔ)音樣本1視頻信息一語(yǔ)音樣本2視頻信息二語(yǔ)音樣本3視頻信息三…………語(yǔ)音樣本35視頻信息三十五表二在步驟13中，根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型。圖7根據(jù)一示例性實(shí)施例示出了另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖1所示實(shí)施例的基礎(chǔ)上，步驟13可以包括：在步驟131中，分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性；本公開(kāi)實(shí)施例中，目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中每增加一個(gè)語(yǔ)音樣本，都會(huì)對(duì)當(dāng)前數(shù)據(jù)庫(kù)中所有的有效語(yǔ)音特征值和視頻信息進(jìn)行多元統(tǒng)計(jì)分析，確定一個(gè)有效語(yǔ)音特征值與視頻信息中的文字信息相關(guān)性。在本公開(kāi)一實(shí)施例中，一個(gè)有效語(yǔ)音特征值與一個(gè)視頻信息的相關(guān)性可以用相關(guān)程度表示。假設(shè)一個(gè)有效語(yǔ)音特征值為p1，視頻信息中包括三組文字信息，分別表示為：信息1、信息2、信息3，經(jīng)多元統(tǒng)計(jì)分析后發(fā)現(xiàn)：p1與信息1之間的相關(guān)程度為0，表示二者不相關(guān)；p1與信息2之間的相關(guān)程度為15％，表示二者有可能相關(guān)；p1與信息3之間的相關(guān)程度為90％，則表示二者相關(guān)的可能性較大。依次類(lèi)推，統(tǒng)計(jì)分析每個(gè)有效語(yǔ)音特征值與視頻信息的相關(guān)性。在步驟132中，將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型，存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)。本公開(kāi)實(shí)施例中，上述預(yù)置條件可以是：目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的語(yǔ)音樣本不少于預(yù)設(shè)數(shù)量閾值，且有效語(yǔ)音特征值與目標(biāo)視頻信息的相關(guān)程度不小于預(yù)設(shè)關(guān)聯(lián)閾值。假設(shè)，上述預(yù)設(shè)數(shù)量閾值為30、上述預(yù)設(shè)關(guān)聯(lián)閾值為90％，則在目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的語(yǔ)音樣本數(shù)量不少于30個(gè)的情況下，經(jīng)過(guò)多元統(tǒng)計(jì)分析后發(fā)現(xiàn)，一個(gè)有效語(yǔ)音特征值p2與一個(gè)視頻信息如“孫儷”的相關(guān)性為92％，則可以確定有效語(yǔ)音特征值p2對(duì)應(yīng)的目標(biāo)視頻信息為“孫儷”，將二者的對(duì)應(yīng)關(guān)系確定為語(yǔ)音識(shí)別模型，存儲(chǔ)在語(yǔ)音識(shí)別庫(kù)中。以此類(lèi)推，建立目標(biāo)語(yǔ)音識(shí)別庫(kù)。示例性地，可以采用以下表三表示目標(biāo)語(yǔ)音識(shí)別庫(kù)：有效語(yǔ)音特征值目標(biāo)視頻信息p1羋月傳p2孫儷p3鄭曉龍…………pn辣媽正傳表三表三所示的目標(biāo)語(yǔ)音識(shí)別庫(kù)中包括n個(gè)表項(xiàng)，每一個(gè)表項(xiàng)即表示一個(gè)語(yǔ)音識(shí)別模型?？梢?jiàn)，采用本公開(kāi)提供的智能識(shí)別語(yǔ)音的方法，智能設(shè)備可以自己采用用戶(hù)的語(yǔ)言信息樣本，對(duì)語(yǔ)言信息樣本進(jìn)行統(tǒng)計(jì)分析，自動(dòng)獲得用戶(hù)個(gè)性化的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。將符合用戶(hù)個(gè)性的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)應(yīng)用于語(yǔ)音控制系統(tǒng)中，使智能設(shè)備的語(yǔ)音控制功能更加強(qiáng)大，提升智能設(shè)備的智能化，進(jìn)而提升智能設(shè)備的用戶(hù)體驗(yàn)。參照?qǐng)D8根據(jù)一示例性實(shí)施例示出的另一種智能識(shí)別語(yǔ)音的方法流程圖，在圖7所示實(shí)施例的基礎(chǔ)上，還可以包括：在步驟14中，統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量；在步驟15中，判斷所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音模型的數(shù)量是否達(dá)到預(yù)置模型閾值；若是，執(zhí)行步驟16；若否繼續(xù)采集語(yǔ)音樣本，并建立語(yǔ)音模型。在步驟16中，當(dāng)所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值時(shí)，提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。仍以用戶(hù)的日常使用藏語(yǔ)交流為例，假設(shè)藏語(yǔ)詞匯為3000個(gè)，常用藏語(yǔ)詞匯為1000個(gè)，也就是說(shuō)當(dāng)上述目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音識(shí)別模型的數(shù)量達(dá)到1000個(gè)時(shí)，說(shuō)明智能設(shè)備已初步具有藏語(yǔ)語(yǔ)音識(shí)別能力，則可以向用戶(hù)發(fā)出可以使用藏語(yǔ)對(duì)電視節(jié)目進(jìn)行語(yǔ)音搜索的提示信息。本公開(kāi)提供的智能識(shí)別語(yǔ)音的方法，當(dāng)目標(biāo)語(yǔ)音識(shí)別庫(kù)中的語(yǔ)音模型數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值時(shí)，還具備自動(dòng)提醒用戶(hù)使用個(gè)性化語(yǔ)言進(jìn)行語(yǔ)音控制，進(jìn)一步提升了智能設(shè)備的用戶(hù)體驗(yàn)。參照?qǐng)D9根據(jù)一示例性實(shí)施例示出的智能識(shí)別語(yǔ)音的場(chǎng)景示意圖。用戶(hù)終端200上安裝有一款名稱(chēng)為遙控器助手的應(yīng)用程序app，在該遙控器助手的應(yīng)用界面上提供有語(yǔ)音輸入入口，當(dāng)用戶(hù)通過(guò)該入口輸入藏語(yǔ)，用戶(hù)終端將藏語(yǔ)語(yǔ)音信號(hào)發(fā)送給智能電視100。智能電視根據(jù)從用戶(hù)終端接收的藏語(yǔ)語(yǔ)音信號(hào)匹配目標(biāo)語(yǔ)音識(shí)別庫(kù)，輸出對(duì)應(yīng)的視頻信息，將與該視頻信息相關(guān)的電視節(jié)目推送到電視屏幕進(jìn)行顯示，從而實(shí)現(xiàn)使用藏語(yǔ)語(yǔ)音搜索電視節(jié)目的目的。對(duì)于前述的各方法實(shí)施例，為了簡(jiǎn)單描述，故將其都表述為一系列的動(dòng)作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本發(fā)明并不受所描述的動(dòng)作順序的限制，因?yàn)橐罁?jù)本發(fā)明，某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說(shuō)明書(shū)中所描述的實(shí)施例均屬于可選實(shí)施例，所涉及的動(dòng)作和模塊并不一定是本公開(kāi)所必須的。對(duì)應(yīng)上述實(shí)施例提供的智能識(shí)別語(yǔ)音的方法，本公開(kāi)還提供了一種智能識(shí)別語(yǔ)音的裝置。參照?qǐng)D10根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，所述裝置可以包括：語(yǔ)音采集模塊21，被配置為采集用戶(hù)個(gè)性化的語(yǔ)音樣本；其中，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系；存儲(chǔ)模塊22，被配置為建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；語(yǔ)音識(shí)別模塊23，被配置為根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型。參照?qǐng)D11根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖10所示實(shí)施例的基礎(chǔ)上，語(yǔ)音采集模塊21可以包括：第一語(yǔ)音采集子模塊211，被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；第一樣本語(yǔ)音獲取子模塊212，被配置為根據(jù)視頻播放時(shí)間，從所述原始語(yǔ)音信號(hào)中截取預(yù)置時(shí)間對(duì)應(yīng)的第一語(yǔ)音信號(hào)；第一特征提取子模塊213，被配置為提取所述第一語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第一有效語(yǔ)音特征值集合；第一樣本確定子模塊214，被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間，確定為所述語(yǔ)音樣本。參照?qǐng)D12根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖11所示實(shí)施例的基礎(chǔ)上，第一特征提取子模塊213可以包括：第一特征提取單元2131，被配置為對(duì)所述第一語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第一語(yǔ)音特征值集合；第一有效語(yǔ)音特征值確定單元2132，被配置為將所述第一語(yǔ)音特征值集合中出現(xiàn)頻率超過(guò)第一預(yù)設(shè)頻率閾值的語(yǔ)音特征值確定為有效語(yǔ)音特征值，獲得所述第一有效語(yǔ)音特征值集合。參照?qǐng)D13根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖10所示實(shí)施例的基礎(chǔ)上，語(yǔ)音采集模塊21可以包括：第二語(yǔ)音采集子模塊21-1，被配置為采集用戶(hù)發(fā)出的原始語(yǔ)音信號(hào)；第二特征提取子模塊21-2，被配置為提取所述原始語(yǔ)音信號(hào)的語(yǔ)音特征值，獲得第二有效語(yǔ)音特征值集合；第一特征確定子模塊21-3，被配置為根據(jù)視頻播放時(shí)間，從所述第二有效語(yǔ)音特征值集合中獲取預(yù)置時(shí)間對(duì)應(yīng)的第一有效語(yǔ)音特征值集合；第二樣本確定子模塊21-4，被配置為將所述第一有效語(yǔ)音特征值集合與對(duì)應(yīng)的視頻播放時(shí)間確定為所述語(yǔ)音樣本。參照?qǐng)D14根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖13所示實(shí)施例的基礎(chǔ)上，第二特征提取子模塊21-2可以包括：第二特征提取單元21-21，被配置為對(duì)所述原始語(yǔ)音信號(hào)進(jìn)行特征值提取，獲得第二語(yǔ)音特征值集合；第二有效語(yǔ)音特征值確定單元21-22，被配置為從所述第二語(yǔ)音特征值集合中選取出現(xiàn)頻率超過(guò)第二預(yù)設(shè)頻率閾值的有效語(yǔ)音特征值，構(gòu)成所述第二有效語(yǔ)音特征值集合。參照?qǐng)D15根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖10所示實(shí)施例的基礎(chǔ)上，所述存儲(chǔ)模塊22可以包括：關(guān)聯(lián)子模塊221，被配置為將一個(gè)語(yǔ)音樣本與對(duì)應(yīng)的視頻信息相關(guān)聯(lián)，確定為一組目標(biāo)語(yǔ)言特征數(shù)據(jù)；存儲(chǔ)子模塊222，被配置為存儲(chǔ)每一組目標(biāo)語(yǔ)言特征數(shù)據(jù)，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)。參照?qǐng)D16根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖10所示實(shí)施例的基礎(chǔ)上，所述語(yǔ)音識(shí)別模塊23可以包括：分析子模塊231，被配置為分析當(dāng)前目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中有效語(yǔ)音特征值與視頻信息的相關(guān)性；語(yǔ)音識(shí)別子模塊232，被配置為將滿(mǎn)足預(yù)置條件的有效語(yǔ)音特征值和對(duì)應(yīng)的目標(biāo)視頻信息確定為語(yǔ)音識(shí)別模型，存儲(chǔ)到目標(biāo)語(yǔ)音識(shí)別庫(kù)。參照?qǐng)D17根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置框圖，在圖16所示實(shí)施例的基礎(chǔ)上，所述裝置還可以包括：統(tǒng)計(jì)模塊24，被配置為統(tǒng)計(jì)所述目標(biāo)語(yǔ)音識(shí)別庫(kù)中所述語(yǔ)音識(shí)別模型的數(shù)量；提醒模塊25，被配置為在所述語(yǔ)音識(shí)別模型的數(shù)量達(dá)到預(yù)置模型閾值的情況下，提醒用戶(hù)可以使用目標(biāo)語(yǔ)言進(jìn)行語(yǔ)音搜索。對(duì)于裝置實(shí)施例而言，由于其基本對(duì)應(yīng)于方法實(shí)施例，所以相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置實(shí)施例僅僅是示意性的，其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本公開(kāi)方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下，即可以理解并實(shí)施。另外，本公開(kāi)還提供了一種智能識(shí)別語(yǔ)音的裝置，包括：處理器；用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器；其中，所述處理器被配置為：采集用戶(hù)個(gè)性化的語(yǔ)音樣本，每一個(gè)語(yǔ)音樣本包括：視頻播放時(shí)間與有效語(yǔ)音特征值集合的對(duì)應(yīng)關(guān)系；建立所述語(yǔ)音樣本與所述視頻播放時(shí)間內(nèi)播放視頻的視頻信息之間的對(duì)應(yīng)關(guān)系，構(gòu)建目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)；根據(jù)所述目標(biāo)語(yǔ)言特征數(shù)據(jù)庫(kù)中的有效語(yǔ)音特征值與所述視頻信息的相關(guān)性，確定語(yǔ)音識(shí)別模型。如圖18所示，圖18是根據(jù)一示例性實(shí)施例示出的一種智能識(shí)別語(yǔ)音的裝置1800的一結(jié)構(gòu)示意圖。例如，裝置1800可以被提供為一款智能設(shè)備，比如智能電視等。參照?qǐng)D18，裝置1800包括通信組件1816，被配置為便于裝置1800和其它設(shè)備之間無(wú)線方式的通信。在一個(gè)示例性實(shí)施例中，通信部件1816經(jīng)由廣播信道接收來(lái)自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中，所述通信部件1816還包括近場(chǎng)通信(nfc)模塊，以促進(jìn)短程通信。例如，在nfc模塊可基于射頻識(shí)別(rfid)技術(shù)，紅外數(shù)據(jù)協(xié)會(huì)(irda)技術(shù)，超寬帶(uwb)技術(shù)，藍(lán)牙(bt)技術(shù)和其它技術(shù)來(lái)實(shí)現(xiàn)。裝置1800包括還可以包括處理組件1822，其進(jìn)一步包括一個(gè)或多個(gè)處理器，以及由存儲(chǔ)器1832所代表的存儲(chǔ)器資源，用于存儲(chǔ)可由處理部件1822的執(zhí)行的指令，例如應(yīng)用程序。存儲(chǔ)器1832中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外，處理組件1822被配置為執(zhí)行指令，以執(zhí)行上述智能識(shí)別語(yǔ)音的方法。裝置1800還可以包括一個(gè)電源組件1826被配置為執(zhí)行裝置1800的電源管理，一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口1850被配置為將裝置1800連接到網(wǎng)絡(luò)，和一個(gè)輸入輸出(i/o)接口1858。裝置1800可以操作基于存儲(chǔ)在存儲(chǔ)器1832的操作系統(tǒng)，例如windowsservertm，macosxtm，unixtm，linuxtm，freebsdtm或類(lèi)似。在示例性實(shí)施例中，裝置1800可以被一個(gè)或多個(gè)應(yīng)用專(zhuān)用集成電路(asic)、數(shù)字信號(hào)處理器(dsp)、數(shù)字信號(hào)處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)、控制器、微控制器、微處理器或其它電子元件實(shí)現(xiàn)，用于執(zhí)行上述方法。在示例性實(shí)施例中，還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，例如包括指令的存儲(chǔ)器1832，上述指令可由裝置1800的處理組件1822執(zhí)行以完成上述方法。例如，非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤(pán)和光數(shù)據(jù)存儲(chǔ)設(shè)備等。本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后，將容易想到本公開(kāi)的其它實(shí)施方案。本公開(kāi)旨在涵蓋本公開(kāi)的任何變型、用途或者適應(yīng)性變化，這些變型、用途或者適應(yīng)性變化遵循本公開(kāi)的一般性原理并包括本公開(kāi)未公開(kāi)的本
技術(shù)領(lǐng)域：
中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的，本公開(kāi)的真正范圍和精神由下面的權(quán)利要求指出。以上所述僅為本公開(kāi)的較佳實(shí)施例而已，并不用以限制本公開(kāi)，凡在本公開(kāi)的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本公開(kāi)保護(hù)的范圍之內(nèi)。當(dāng)前第1頁(yè)12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉衛(wèi)星;季虹;常洋
技術(shù)所有人：小米科技有限責(zé)任公司
我是此專(zhuān)利的發(fā)明人