一種語音音頻關(guān)鍵詞過濾方法及裝置與流程

文檔序號(hào)：12475869閱讀：692來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，尤其涉及一種語音音頻關(guān)鍵詞過濾方法及裝置。

背景技術(shù)：

目前，對(duì)有聲數(shù)字內(nèi)容出版作品的審查，一般是由人工進(jìn)行審核內(nèi)容的安全性，而這種方式需要耗費(fèi)大量的人力成本；并且，人工審核容易受到審核人員編輯水平和能力的限制，而無法全部審核出不符合公開出版的關(guān)鍵詞；即使檢測出關(guān)鍵詞后，還需要對(duì)該審核的出版作品進(jìn)行再一次錄音。顯然，這種人工審核方法消耗了大量的人力和物力，效率不高。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明實(shí)施例期望提供一種語音音頻關(guān)鍵詞過濾方法及裝置，能自動(dòng)替換審查對(duì)象中的非法內(nèi)容，減少審查過程中的工作量，提高審查效率。

為達(dá)到上述目的，本發(fā)明實(shí)施例提供了一種語音音頻關(guān)鍵詞過濾方法，所述方法包括：

識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞；

對(duì)識(shí)別出的語音音頻關(guān)鍵詞所對(duì)應(yīng)的音頻進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。

上述方案中，所述識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞包括：

將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；

如果是，則將所述單個(gè)文字向后拓展為詞，再與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出關(guān)鍵詞；

如果不是，則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字。

上述方案中，所述方法還包括：在將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中，將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記。

上述方案中，所述對(duì)識(shí)別出的語音音頻關(guān)鍵詞所對(duì)應(yīng)的音頻進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件包括：

將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ)；

根據(jù)所述數(shù)字記錄文件分割語音音頻文件，針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段，將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音的音頻文件替換；

將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件拼合為一個(gè)語音音頻文件。

本發(fā)明實(shí)施例還提供了一種語音音頻關(guān)鍵詞過濾裝置，所述裝置包括：

識(shí)別模塊，用于識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞；

處理模塊，用于對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。

上述方案中，所述識(shí)別模塊還用于：

將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；

如果是，則將所述單個(gè)文字向后拓展為詞，再與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出關(guān)鍵詞；

如果不是，則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字。

上述方案中，還用于在將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中，將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記。

上述方案中，所述處理模塊，具體用于將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ)；

將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件拼合為一個(gè)語音音頻文件。

本發(fā)明實(shí)施例提供的語音音頻關(guān)鍵詞過濾方法及裝置，通過識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞；對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。如此，能夠自動(dòng)替換審查對(duì)象中的非法內(nèi)容，如審查出版作品中不符合公開出版的內(nèi)容，從而可以大大減少數(shù)字出版作品審查過程中的審查工作量，縮短審查時(shí)間，提高審查效率。

附圖說明

圖1為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法實(shí)現(xiàn)流程示意圖；

圖2為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置結(jié)構(gòu)示意圖；

圖3為本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程示意圖；

圖4為本發(fā)明實(shí)施例對(duì)語音音頻分割和標(biāo)記示意圖；

圖5為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程示意圖。

具體實(shí)施方式

圖1為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法實(shí)現(xiàn)流程示意圖，如圖1所示，本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法包括以下步驟：

步驟101：識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞；

這里，可以將審查對(duì)象中可能存在的非法內(nèi)容可能采用的關(guān)鍵詞作為預(yù)先設(shè)定的關(guān)鍵詞，比如出版作品中不符合公開出版的內(nèi)容，這類內(nèi)容通常會(huì)采用的常見關(guān)鍵詞作為預(yù)先設(shè)定的關(guān)鍵詞，用于識(shí)別內(nèi)容是否為合法內(nèi)容；若干個(gè)預(yù)先設(shè)定的關(guān)鍵詞構(gòu)成關(guān)鍵詞庫，可供查找，其中所述關(guān)鍵詞可以是單字，也可以是多個(gè)字組成的詞。

本步驟可采用現(xiàn)有的語音識(shí)別(Speech Recognize)技術(shù)識(shí)別語音音頻，所謂語音識(shí)別技術(shù)，是讓機(jī)器通過識(shí)別和理解過程使其能聽懂人類語言的技術(shù)；語音識(shí)別技術(shù)是信息技術(shù)中人機(jī)交互的關(guān)鍵技術(shù)，目前已經(jīng)在呼叫中心、電信增值業(yè)務(wù)、企業(yè)信息化系統(tǒng)中有了廣泛的應(yīng)用。隨著語音識(shí)別在語音搜索、語音控制等全新應(yīng)用領(lǐng)域的深入應(yīng)用，語音識(shí)別技術(shù)被業(yè)界權(quán)威人士譽(yù)為有可能引發(fā)人機(jī)界面領(lǐng)域革命的關(guān)鍵技術(shù)。目前，語音識(shí)別技術(shù)已經(jīng)可以進(jìn)行針對(duì)長時(shí)間音頻進(jìn)行語音轉(zhuǎn)換文字，再通過文字的信息服務(wù)特定的應(yīng)用。

具體語音識(shí)別工具可以采用隱性馬爾科夫(HMM，Hidden Markov Model)模型，HMM模型是語音識(shí)別領(lǐng)域廣泛采用的統(tǒng)計(jì)學(xué)模型，能表示出語音信號(hào)的時(shí)變特征和隨機(jī)特征，能適應(yīng)各種變化的發(fā)音，進(jìn)而適合非特定人的大詞匯量連續(xù)語音的識(shí)別工作。

本步驟中，具體的，所述識(shí)別語音音頻關(guān)鍵詞包括：將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；如果是，則將所述單個(gè)文字向后拓展為詞，再與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出關(guān)鍵詞；

如果不是，則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；

循環(huán)上述步驟，依次對(duì)語音音頻轉(zhuǎn)換成的文字進(jìn)行逐個(gè)掃描。

步驟102：對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件。

具體的，本步驟包括：將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ)；

之后，將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件，根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)新的語音音頻文件。

圖2為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置結(jié)構(gòu)示意圖，如圖2所示，本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置包括：識(shí)別模塊201、處理模塊202；其中，

識(shí)別模塊201，識(shí)別語音音頻中是否存在預(yù)先設(shè)定的關(guān)鍵詞；

處理模塊202，對(duì)識(shí)別出的語音音頻關(guān)鍵詞進(jìn)行替換，并將替換的音頻文件與原語音音頻除關(guān)鍵詞之外音頻文件重新拼合為一個(gè)語音音頻文件；

其中，所述識(shí)別模塊201還用于：

將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；

如果是，則將所述單個(gè)文字向后拓展為詞，再與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出關(guān)鍵詞；

如果不是，則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字。

所述識(shí)別模塊201，還用于在將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字的過程中，將識(shí)別出來的文字和每個(gè)文字代表音節(jié)的起止時(shí)間進(jìn)行標(biāo)記；

這里，所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。

所述處理模塊202，具體用于將識(shí)別出的關(guān)鍵詞在語音音頻中起始時(shí)間位置和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ)；

將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件，根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)語音音頻文件。

圖3為本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程示意圖，如圖3所示，本發(fā)明實(shí)施例識(shí)別語音關(guān)鍵詞流程包括以下步驟：

步驟301：將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

這里，對(duì)于語音音頻，每一個(gè)漢字都對(duì)應(yīng)一個(gè)音節(jié)，將音節(jié)作為識(shí)別單位能讓識(shí)別更加靈活和準(zhǔn)確，通過對(duì)語音音頻分割為單個(gè)的音節(jié)，再將音節(jié)與漢字相對(duì)應(yīng)，這樣便實(shí)現(xiàn)了語音轉(zhuǎn)換為文字的過程，這是關(guān)鍵詞檢測的前提條件；

步驟302：將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字，如果是，執(zhí)行步驟303；如果否，則向后移動(dòng)一個(gè)音節(jié)返回步驟302繼續(xù)檢測；

這里，首先對(duì)語音音頻進(jìn)行“字”級(jí)識(shí)別，若識(shí)別結(jié)果為關(guān)鍵詞的首個(gè)字，執(zhí)行步驟303；

步驟303：當(dāng)前單個(gè)文字向后擴(kuò)展為詞；

步驟304：判斷當(dāng)前詞是否為關(guān)鍵詞，如果是，執(zhí)行步驟305；如果否，向后移動(dòng)N個(gè)音節(jié)，返回步驟302繼續(xù)檢測下一個(gè)單音節(jié)轉(zhuǎn)換為的文字；

這里，對(duì)擴(kuò)展后的音節(jié)再進(jìn)行“詞”級(jí)識(shí)別，進(jìn)一步判斷是否為關(guān)鍵詞；

步驟305：標(biāo)記檢測出的關(guān)鍵詞在音頻中的時(shí)間位置，并返回步驟302繼續(xù)檢測；

這里，本發(fā)明實(shí)施例中使用語音分形維數(shù)(Fractal Dimension)參數(shù)，同時(shí)結(jié)合語音短時(shí)平均能量和短時(shí)平均過零率這兩種參數(shù)對(duì)語音音頻進(jìn)行分割，實(shí)驗(yàn)表明使用上述參數(shù)可以對(duì)語音音頻分割準(zhǔn)確率達(dá)到85％以上，圖4為本發(fā)明實(shí)施例對(duì)語音音頻分割和標(biāo)記示意圖，如圖4所示，使用上述參數(shù)對(duì)語音音頻進(jìn)行分割形成音節(jié)波形和起止時(shí)間標(biāo)記；所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。

圖5為本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程示意圖，如圖5所示，本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾方法完整流程包括以下步驟：

步驟501：輸入語音音頻；

將語音音頻輸入到本發(fā)明實(shí)施例語音音頻關(guān)鍵詞過濾裝置中；

步驟502：語音識(shí)別；

其中，語音識(shí)別過程包括：將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

在實(shí)際應(yīng)用中，對(duì)語音音頻進(jìn)行語音識(shí)別過程可以使用了數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、識(shí)別測試等方法進(jìn)行識(shí)別；其中，

數(shù)據(jù)準(zhǔn)備是用來將采集的語音文件轉(zhuǎn)換成可以被系統(tǒng)處理的用于訓(xùn)練的數(shù)據(jù)文件，包含：語音特征參數(shù)提取過程，主要提取語音的梅爾倒譜系數(shù)(MFCC，Mel-scale Frequency Cepstral Coefficients)，其中，MFCC充分考慮的人耳的聽覺特性，不僅能提高抗噪性能，而且能突出包含語音大部分信息的低頻部分，有利于提高語音識(shí)別性能，對(duì)于動(dòng)態(tài)性比較強(qiáng)的輔音，MFCC也可以能夠進(jìn)行很好的識(shí)別；

訓(xùn)練模型主要是基于Baum-Welch算法，在模型訓(xùn)練之前先確定隱馬爾科夫模型(HMM，Hidden Markov Model)的拓?fù)浣Y(jié)構(gòu)，并以文本的形式進(jìn)行保存，然后對(duì)語音識(shí)別模塊建立HMM模型；

識(shí)別測試主要應(yīng)用Viterbi算法在語音識(shí)別單元中隊(duì)語音進(jìn)行識(shí)別；

整個(gè)語音識(shí)別過程就是在語音數(shù)據(jù)轉(zhuǎn)化之后，使用模型訓(xùn)練根據(jù)這些數(shù)據(jù)和相關(guān)的文本文件估計(jì)出HMM模型的參數(shù)，根據(jù)這些訓(xùn)練產(chǎn)生的模型利用識(shí)別模塊將語音數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的文字，供關(guān)鍵詞識(shí)別使用；

步驟503：關(guān)鍵詞識(shí)別；

其中，關(guān)鍵詞識(shí)別過程包括：

將語音音頻分割為單音節(jié)，識(shí)別轉(zhuǎn)換為單個(gè)文字；

將所述單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字；

如果是，則將所述單個(gè)文字向后拓展為詞，再與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出關(guān)鍵詞；

如果不是，則將下一個(gè)音節(jié)轉(zhuǎn)換為的單個(gè)文字與關(guān)鍵詞庫進(jìn)行對(duì)比，識(shí)別出是否為關(guān)鍵詞的首個(gè)字。

步驟504：關(guān)鍵詞音頻替換；

其中，關(guān)鍵詞替換過程包括：將識(shí)別出的關(guān)鍵詞在語音音頻中起始和中止時(shí)間位置轉(zhuǎn)換為數(shù)字記錄文件并存儲(chǔ)；根據(jù)所述數(shù)字記錄文件分割語音音頻文件，針對(duì)每個(gè)關(guān)鍵詞將原語音音頻分為關(guān)鍵詞前對(duì)應(yīng)的音頻文件、關(guān)鍵詞對(duì)應(yīng)的音頻文件和關(guān)鍵詞后對(duì)應(yīng)的音頻文件三段，將每個(gè)關(guān)鍵詞分割出的音頻文件用非自然音(例如：嘀、嗶等音頻)的音頻文件替換；

步驟505：音頻拼合；

其中，音頻合成過程包括：將關(guān)鍵詞前對(duì)應(yīng)的音頻文件、替換的音頻文件、以及關(guān)鍵詞后對(duì)應(yīng)的音頻文件，根據(jù)各個(gè)關(guān)鍵詞所在的位置重新拼合為一個(gè)語音音頻文件；

步驟506：輸出語音音頻；

如此，獲得的語音音頻中的關(guān)鍵詞自動(dòng)被替換為非自然音；

通過上述步驟，先將語音音頻進(jìn)行文本識(shí)別后，將識(shí)別的文本與關(guān)鍵詞庫中的關(guān)鍵詞進(jìn)行匹配，并同時(shí)標(biāo)記匹配文字相關(guān)的起止時(shí)間，將標(biāo)記的音節(jié)進(jìn)行非自然音替換；所述起止時(shí)間包括起始時(shí)間和中止時(shí)間。如此，能夠降低數(shù)字出版作品審查的工作量，提高審查效率。

以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3