本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音音頻關(guān)鍵詞過濾方法及裝置。
背景技術(shù):
目前,對(duì)有聲數(shù)字內(nèi)容出版作品的審查,一般是由人工進(jìn)行審核內(nèi)容的安全性,而這種方式需要耗費(fèi)大量的人力成本;并且,人工審核容易受到審核人員編輯水平和能力的限制,而無法全部審核出不符合公開出版的關(guān)鍵詞;即使檢測出關(guān)鍵詞后,還需要對(duì)該審核的出版作品進(jìn)行再一次錄音。顯然,這種人工審核方法消耗了大量的人力和物力,效率不高。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例期望提供一種語音音頻關(guān)鍵詞過濾方法及裝置,能自動(dòng)替換審查對(duì)象中的非法內(nèi)容,減少審查過程中的工作量,提高審查效率。
為達(dá)到上述目的,本發(fā)明實(shí)施例提供了一種語音音頻關(guān)鍵詞過濾方法,所述方法包括:
識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞;
對(duì)識(shí)別出的語音音頻關(guān)鍵詞所對(duì)應(yīng)的音頻進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。
上述方案中,所述識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞包括:
將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;
如果是,則將所述單個(gè)文字向后拓展為詞,再與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出關(guān)鍵詞;
如果不是,則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字。
上述方案中,所述方法還包括:在將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中,將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記。
上述方案中,所述對(duì)識(shí)別出的語音音頻關(guān)鍵詞所對(duì)應(yīng)的音頻進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件包括:
將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ);
根據(jù)所述數(shù)字記錄文件分割語音音頻文件,針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段,將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音的音頻文件替換;
將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件拼合為一個(gè)語音音頻文件。
本發(fā)明實(shí)施例還提供了一種語音音頻關(guān)鍵詞過濾裝置,所述裝置包括:
識(shí)別模塊,用于識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞;
處理模塊,用于對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。
上述方案中,所述識(shí)別模塊還用于:
將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;
如果是,則將所述單個(gè)文字向后拓展為詞,再與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出關(guān)鍵詞;
如果不是,則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字。
上述方案中,還用于在將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中,將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記。
上述方案中,所述處理模塊,具體用于將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ);
根據(jù)所述數(shù)字記錄文件分割語音音頻文件,針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段,將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音的音頻文件替換;
將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件拼合為一個(gè)語音音頻文件。
本發(fā)明實(shí)施例提供的語音音頻關(guān)鍵詞過濾方法及裝置,通過識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞;對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。如此,能夠自動(dòng)替換審查對(duì)象中的非法內(nèi)容,如審查出版作品中不符合公開出版的內(nèi)容,從而可以大大減少數(shù)字出版作品審查過程中的審查工作量,縮短審查時(shí)間,提高審查效率。
附圖說明
圖1為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法實(shí)現(xiàn)流程示意圖;
圖2為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置結(jié)構(gòu)示意圖;
圖3為本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程示意圖;
圖4為本發(fā)明實(shí)施例對(duì)語音音頻分割和標(biāo)記示意圖;
圖5為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程示意圖。
具體實(shí)施方式
圖1為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法實(shí)現(xiàn)流程示意圖,如圖1所示,本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法包括以下步驟:
步驟101:識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞;
這里,可以將審查對(duì)象中可能存在的非法內(nèi)容可能采用的關(guān)鍵詞作為預(yù)先設(shè)定的關(guān)鍵詞,比如出版作品中不符合公開出版的內(nèi)容,這類內(nèi)容通常會(huì)采用的常見關(guān)鍵詞作為預(yù)先設(shè)定的關(guān)鍵詞,用于識(shí)別內(nèi)容是否為合法內(nèi)容;若干個(gè)預(yù)先設(shè)定的關(guān)鍵詞構(gòu)成關(guān)鍵詞庫,可供查找,其中所述關(guān)鍵詞可以是單字,也可以是多個(gè)字組成的詞。
本步驟可采用現(xiàn)有的語音識(shí)別(Speech Recognize)技術(shù)識(shí)別語音音頻,所謂語音識(shí)別技術(shù),是讓機(jī)器通過識(shí)別和理解過程使其能聽懂人類語言的技術(shù);語音識(shí)別技術(shù)是信息技術(shù)中人機(jī)交互的關(guān)鍵技術(shù),目前已經(jīng)在呼叫中心、電信增值業(yè)務(wù)、企業(yè)信息化系統(tǒng)中有了廣泛的應(yīng)用。隨著語音識(shí)別在語音搜索、語音控制等全新應(yīng)用領(lǐng)域的深入應(yīng)用,語音識(shí)別技術(shù)被業(yè)界權(quán)威人士譽(yù)為有可能引發(fā)人機(jī)界面領(lǐng)域革命的關(guān)鍵技術(shù)。目前,語音識(shí)別技術(shù)已經(jīng)可以進(jìn)行針對(duì)長時(shí)間音頻進(jìn)行語音轉(zhuǎn)換文字,再通過文字的信息服務(wù)特定的應(yīng)用。
具體語音識(shí)別工具可以采用隱性馬爾科夫(HMM,Hidden Markov Model)模型,HMM模型是語音識(shí)別領(lǐng)域廣泛采用的統(tǒng)計(jì)學(xué)模型,能表示出語音信號(hào)的時(shí)變特征和隨機(jī)特征,能適應(yīng)各種變化的發(fā)音,進(jìn)而適合非特定人的大詞匯量連續(xù)語音的識(shí)別工作。
本步驟中,具體的,所述識(shí)別語音音頻關(guān)鍵詞包括:將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;如果是,則將所述單個(gè)文字向后拓展為詞,再與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出關(guān)鍵詞;
如果不是,則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;
循環(huán)上述步驟,依次對(duì)語音音頻轉(zhuǎn)換成的文字進(jìn)行逐個(gè)掃描。
步驟102:對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。
具體的,本步驟包括:將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ);
根據(jù)所述數(shù)字記錄文件分割語音音頻文件,針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段,將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音的音頻文件替換;
之后,將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件,根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)新的語音音頻文件。
圖2為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置結(jié)構(gòu)示意圖,如圖2所示,本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置包括:識(shí)別模塊201、處理模塊202;其中,
識(shí)別模塊201,識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞;
處理模塊202,對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換,并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件;
其中,所述識(shí)別模塊201還用于:
將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;
如果是,則將所述單個(gè)文字向后拓展為詞,再與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出關(guān)鍵詞;
如果不是,則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字。
所述識(shí)別模塊201,還用于在將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中,將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記;
這里,所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。
所述處理模塊202,具體用于將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ);
根據(jù)所述數(shù)字記錄文件分割語音音頻文件,針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段,將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音的音頻文件替換;
將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件,根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)語音音頻文件。
圖3為本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程示意圖,如圖3所示,本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程包括以下步驟:
步驟301:將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
這里,對(duì)于語音音頻,每一個(gè)漢字都對(duì)應(yīng)一個(gè)音節(jié),將音節(jié)作為識(shí)別單位能讓識(shí)別更加靈活和準(zhǔn)確,通過對(duì)語音音頻分割為單個(gè)的音節(jié),再將音節(jié)與漢字相對(duì)應(yīng),這樣便實(shí)現(xiàn)了語音轉(zhuǎn)換為文字的過程,這是關(guān)鍵詞檢測的前提條件;
步驟302:將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字,如果是,執(zhí)行步驟303;如果否,則向后移動(dòng)一個(gè)音節(jié)返回步驟302繼續(xù)檢測;
這里,首先對(duì)語音音頻進(jìn)行“字”級(jí)識(shí)別,若識(shí)別結(jié)果為關(guān)鍵詞的首個(gè)字,執(zhí)行步驟303;
步驟303:當(dāng)前單個(gè)文字向后擴(kuò)展為詞;
步驟304:判斷當(dāng)前詞是否為關(guān)鍵詞,如果是,執(zhí)行步驟305;如果否,向后移動(dòng)N個(gè)音節(jié),返回步驟302繼續(xù)檢測下一個(gè)單音節(jié)轉(zhuǎn)換為的文字;
這里,對(duì)擴(kuò)展后的音節(jié)再進(jìn)行“詞”級(jí)識(shí)別,進(jìn)一步判斷是否為關(guān)鍵詞;
步驟305:標(biāo)記檢測出的關(guān)鍵詞在音頻中的時(shí)間位置,并返回步驟302繼續(xù)檢測;
這里,本發(fā)明實(shí)施例中使用語音分形維數(shù)(Fractal Dimension)參數(shù),同時(shí)結(jié)合語音短時(shí)平均能量和短時(shí)平均過零率這兩種參數(shù)對(duì)語音音頻進(jìn)行分割,實(shí)驗(yàn)表明使用上述參數(shù)可以對(duì)語音音頻分割準(zhǔn)確率達(dá)到85%以上,圖4為本發(fā)明實(shí)施例對(duì)語音音頻分割和標(biāo)記示意圖,如圖4所示,使用上述參數(shù)對(duì)語音音頻進(jìn)行分割形成音節(jié)波形和起止時(shí)間標(biāo)記;所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。
圖5為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程示意圖,如圖5所示,本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程包括以下步驟:
步驟501:輸入語音音頻;
將語音音頻輸入到本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置中;
步驟502:語音識(shí)別;
其中,語音識(shí)別過程包括:將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
在實(shí)際應(yīng)用中,對(duì)語音音頻進(jìn)行語音識(shí)別過程可以使用了數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、識(shí)別測試等方法進(jìn)行識(shí)別;其中,
數(shù)據(jù)準(zhǔn)備是用來將采集的語音文件轉(zhuǎn)換成可以被系統(tǒng)處理的用于訓(xùn)練的數(shù)據(jù)文件,包含:語音特征參數(shù)提取過程,主要提取語音的梅爾倒譜系數(shù)(MFCC,Mel-scale Frequency Cepstral Coefficients),其中,MFCC充分考慮的人耳的聽覺特性,不僅能提高抗噪性能,而且能突出包含語音大部分信息的低頻部分,有利于提高語音識(shí)別性能,對(duì)于動(dòng)態(tài)性比較強(qiáng)的輔音,MFCC也可以能夠進(jìn)行很好的識(shí)別;
訓(xùn)練模型主要是基于Baum-Welch算法,在模型訓(xùn)練之前先確定隱馬爾科夫模型(HMM,Hidden Markov Model)的拓?fù)浣Y(jié)構(gòu),并以文本的形式進(jìn)行保存,然后對(duì)語音識(shí)別模塊建立HMM模型;
識(shí)別測試主要應(yīng)用Viterbi算法在語音識(shí)別單元中隊(duì)語音進(jìn)行識(shí)別;
整個(gè)語音識(shí)別過程就是在語音數(shù)據(jù)轉(zhuǎn)化之后,使用模型訓(xùn)練根據(jù)這些數(shù)據(jù)和相關(guān)的文本文件估計(jì)出HMM模型的參數(shù),根據(jù)這些訓(xùn)練產(chǎn)生的模型利用識(shí)別模塊將語音數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的文字,供關(guān)鍵詞識(shí)別使用;
步驟503:關(guān)鍵詞識(shí)別;
其中,關(guān)鍵詞識(shí)別過程包括:
將語音音頻分割為單音節(jié),識(shí)別轉(zhuǎn)換為單個(gè)文字;
將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字;
如果是,則將所述單個(gè)文字向后拓展為詞,再與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出關(guān)鍵詞;
如果不是,則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比,識(shí)別出是否為關(guān)鍵詞的首個(gè)字。
步驟504:關(guān)鍵詞音頻替換;
其中,關(guān)鍵詞替換過程包括:將識(shí)別出的關(guān)鍵詞在語音音頻中起始和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ);根據(jù)所述數(shù)字記錄文件分割語音音頻文件,針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段,將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音(例如:嘀、嗶等音頻)的音頻文件替換;
步驟505:音頻拼合;
其中,音頻合成過程包括:將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件,根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)語音音頻文件;
步驟506:輸出語音音頻;
如此,獲得的語音音頻中的關(guān)鍵詞自動(dòng)被替換為非自然音;
通過上述步驟,先將語音音頻進(jìn)行文本識(shí)別后,將識(shí)別的文本與關(guān)鍵詞庫中的關(guān)鍵詞進(jìn)行匹配,并同時(shí)標(biāo)記匹配文字相關(guān)的起止時(shí)間,將標(biāo)記的音節(jié)進(jìn)行非自然音替換;所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。如此,能夠降低數(shù)字出版作品審查的工作量,提高審查效率。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。