專利名稱:一種基于內(nèi)容的音頻快速分類方法
一種基于內(nèi)容的音頻快速分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于內(nèi)容的音頻快速分類方法。
背景技術(shù):
隨著現(xiàn)代社會的快速發(fā)展,各種文字、圖像、視頻、音頻信息越來越多。 在通信和互聯(lián)網(wǎng)領(lǐng)域中,音頻信息占有非常重要的地位。而在對音頻信息進行 的各種處理中,音頻分類是十分重要的處理過程之一。
目前一種音頻分類方法的技術(shù)方案是,首先對輸入的音頻信號進行預處理, 再計算該音頻信號的線性預測編碼系數(shù),然后根據(jù)線性預測編碼系數(shù)得到信號 的頻譜包絡(luò),再由計算得到的導譜對參數(shù)確定幅度差異值,最后根據(jù)幅度差異 值的統(tǒng)計結(jié)果對音頻信號進行分類。
上述音頻分類方法的不足之處在于
1、 不能充分利用音頻的內(nèi)容信息。上述音頻分類方法采用一些較為簡單的 特征,這些特征基本上是一些局部的短時的特性,不能較好地反應(yīng)語音的長時 間的整體性,特別是語音內(nèi)容的特性。而在信息安全、監(jiān)控、內(nèi)容檢索等領(lǐng)域, 十分關(guān)心音頻特別是語音數(shù)據(jù)的內(nèi)容信息,這些內(nèi)容信息,不能通過上述音頻 分類方法來提取。
2、 不能根據(jù)要求靈活的改變分類的類別。上述音頻分類方法主,據(jù)實現(xiàn) 約定的類別進行分類,這些類別一方面一般不基于內(nèi)容,另一方面整個分類的 搡作過程也和這些類別本身相關(guān)。因此,當需求改變時,整個系統(tǒng)需要做很大 的調(diào)整,并且分類的性能無法保證。
3、 不能實現(xiàn)復雜的分類。上述音頻分類方法的分類數(shù)目較少,同時無法實 現(xiàn)復雜分類,比如要求某個詞在語音中出現(xiàn),某個詞在語音中不出現(xiàn),或者兩 個詞同時出現(xiàn)等邏輯組合的分類。
發(fā)明內(nèi)容
有鑒于此,有必要提供一種基于內(nèi)容的音頻快速分類方法,對音頻信息進行基于內(nèi)容的分類,實現(xiàn)對大量的音頻數(shù)據(jù)進行快速的處理。
為達到上述目的,提出以下的技術(shù)方案 一種基于內(nèi)容的音頻快速分類方法,包括以下步驟
A、 對音頻數(shù)據(jù)進行預處理和特征提取,獲得一系列語音特征矢量;
B、 將所述語音特征矢量轉(zhuǎn)換為用基本聲學模型單元AU表示的語音內(nèi)容序 列,并對照建立好的詞表識別出包含分類關(guān)鍵詞的語音內(nèi)容序列;
C、 對所述識別結(jié)果進行統(tǒng)計,根據(jù)分類任務(wù)對分類關(guān)鍵詞的設(shè)定將符合設(shè) 定條件的音頻數(shù)據(jù)進行分類。
其中,所述步驟A具體包括
Al、對輸入的音頻數(shù)據(jù)進行預處理;
A2、對預處理后的音頻數(shù)據(jù)進行分幀;
A3、將每幀音頻數(shù)據(jù)變換為一個語音特征矢量。
其中,所述步驟B具體包括
Bl、建立包含分類關(guān)鍵詞的詞表;
B2、將所述一系列語音特征矢量進行分組,得到多個語音矢量段;其中, 每個語音矢量段包含時間上連續(xù)的至少兩個語音矢量,并且連續(xù)兩個所述語音 矢量段之間有一定的交疊;
B3、根據(jù)聲學模型和字典將語音矢量段的語音特征矢量轉(zhuǎn)換為用AU來表 示的語音內(nèi)容序列;
B4、將所述語音內(nèi)容序列與詞表進行比較,識別出包含分類關(guān)鍵詞的語音 內(nèi)容序列。
其中,所述步驟B3具體包括
根據(jù)聲學模型、語言模型和字典將語音矢量段的語音特征矢量轉(zhuǎn)換為用AU 來表示的語音內(nèi)容序列。
優(yōu)選地,所述步驟B之后、步驟C之前還包括步驟
Q、計算各個語音內(nèi)容序列包含分類關(guān)鍵詞的置信度得分,判斷所述置信度 得分是否在設(shè)定的閾值分布范圍內(nèi),如果是則保留該語音內(nèi)容序列包含分類關(guān) 鍵詞的識別結(jié)果,否則放棄該語音內(nèi)容序列包含分類關(guān)鍵詞的識別結(jié)果。
其中,所述步驟Q具體包括
Ql、荻得各語音內(nèi)容序列中被識別為關(guān)鍵分類詞的詞,稱為候選假設(shè);Q2、計算所述候選假設(shè)的可靠性得分; Q3 、根據(jù)所述可靠性得分計算候選假設(shè)的置信度得分; Q4、設(shè)定閾值,判斷所述置信度得分是否在閾值的分布范圍內(nèi),如果是則 保留該語音內(nèi)容序列的統(tǒng)計結(jié)果,否則放棄該語音內(nèi)容序列的統(tǒng)計結(jié)果。 其中,所述步驟Q2具體包括
計算所述候選假設(shè)中AU對應(yīng)的垃圾模型得分,或計算所有AU共有垃圾模 型得分;
將所述垃圾才莫型得分作為可靠性得分。 其中,所述步驟Q2具體包括
計算候選假設(shè)中每個AU和整個候選假設(shè)的長度,根據(jù)已有的AU長度的概 率分布函數(shù),得到每個AU的長度得分;
將所述候選假設(shè)中每個AU的長度得分作為可靠性得分。 其中,所述步驟Q2具體包括
將所述語音矢量段的AU序列形成網(wǎng)絡(luò)網(wǎng)格,根據(jù)每個AU的起始時間得到 同時間段中網(wǎng)絡(luò)網(wǎng)格具有的其他AU的數(shù)量,根據(jù)所述其他AU的數(shù)量得到候選 假設(shè)的網(wǎng)格得分;
將所述候選假設(shè)的網(wǎng)格得分作為可靠性得分。
其中,所述步驟Q2具體包括
根據(jù)以分類關(guān)鍵詞為中心的AU序列以及對應(yīng)的詞序列,計算所述候選假 設(shè)在語言模型的得分;
將所述候選假設(shè)在語言模型的得分作為可靠性得分。
從以上技術(shù)方案可以看出, 一種基于內(nèi)容的音頻快速分類方法有以下有益 效果
1、 充分利用內(nèi)容信息。在對語音進行處理的整個過程中,將語音的內(nèi)容進 行提取,語音中全部的信息被提取出來或語音中關(guān)于事先約定的關(guān)鍵詞的信息 全部被提取出來,實現(xiàn)了基于內(nèi)容的分類。
2、 方便靈活,可以迅速改變分類的類別。當任務(wù)要求改變時,特別是關(guān)鍵 詞改變時,由于聲學模型和語言模型一般是不需要修改的,僅需要對詞表和字 典作少量的改動就可以執(zhí)行新的任務(wù)。
3、 可以非常方便的實現(xiàn)復雜的分類。由于音頻數(shù)據(jù)中很多有關(guān)內(nèi)容的有用信息從語音中被提取出來,因此可以事先設(shè)定基于內(nèi)容的復雜分類,例如規(guī)定 某個詞出現(xiàn),某個詞不出現(xiàn),某個詞出現(xiàn)兩次等非常復雜的邏輯及其組合。
4、可以并行處理多個音頻數(shù)據(jù)文件,分類處理的效率高。本方法在處理各
個文件以及各個文件的分段時,沒有相互依賴關(guān)系,可以同時進行,為進行大 規(guī)模的并行處理創(chuàng)造了條件,可以利用現(xiàn)有并行處理技術(shù)實現(xiàn)快速處理,使處 理海量音頻數(shù)據(jù)成為可能。
圖1為一種基于內(nèi)容的音頻快速分類方法的基本流程圖。
具體實施方式
下面結(jié)合具體的實施例及說明書附圖進行詳細的描述。
一種基于內(nèi)容的音頻快速分類方法,如圖1所述,主要包括以下步驟
步驟S101、對音頻數(shù)據(jù)進行預處理和特征提取,獲得一系列語音特征矢量。
本步驟中,首先進行分幀,然后將每幀音頻數(shù)據(jù)轉(zhuǎn)換成多個特征數(shù)值,形 成一系列語音特征矢量。
步驟S102、將語音特征矢量轉(zhuǎn)換為用基本聲學模型單元(AU)表示的語音 內(nèi)容序列,并對照建立好的詞表識別出包含分類關(guān)鍵詞的語音內(nèi)容序列。
本步驟中,首先將一系列語音特征矢量進行分組得到語音矢量段,然后對 每個語音矢量段進行語音識別,找出含有分類關(guān)鍵詞的語音內(nèi)容序列。
步驟S103、計算各個語音內(nèi)容序列包含分類關(guān)鍵詞的置信度得分,判斷該 置信度得分是否在設(shè)定的閾值分布范圍內(nèi),如果是則保留該語音內(nèi)容序列包含 分類關(guān)鍵詞的識別結(jié)果,否則放棄該語音內(nèi)容序列包含分類關(guān)鍵詞的識別結(jié)果。
步驟S103是對步驟S102的語音識別結(jié)果的可靠性進行檢測,以提高音頻 分類的準確度和精度,屬于優(yōu)選的實施方式,并不是本方法必需的步驟。
步驟S104、對所述識別結(jié)果進行統(tǒng)計,根據(jù)分類任務(wù)對分類關(guān)4定詞的設(shè)定 將符合設(shè)定條件的音頻數(shù)據(jù)進行分類。
對識別結(jié)果進行統(tǒng)計,獲得音頻數(shù)據(jù)文件中包含分類關(guān)鍵詞的情況,按照 分類的范圍(通常為文件),確定每個音頻數(shù)據(jù)文件中包含分類關(guān)鍵詞(KW) 的情況;再根據(jù)任務(wù)對KW事先設(shè)定的每一種音頻分類對應(yīng)的關(guān)鍵詞出現(xiàn)或者不出現(xiàn)以及出現(xiàn)次數(shù)的組合情況,即每個KW在每個文件中是否出現(xiàn)以及出現(xiàn)
的次數(shù),確定該音頻數(shù)據(jù)文件是否滿足任務(wù)的設(shè)定條件,如果滿足,則歸為相 應(yīng)的類別。
本方法在對語音進行處理的整個過程中,將語音的內(nèi)容進行提取,除系統(tǒng) 可能產(chǎn)生的錯誤之外,語音中全部的信息或語音中關(guān)于事先約定的關(guān)鍵詞的信 息全部被提取出來,實現(xiàn)了基于內(nèi)容的分類。
人對于音頻的理解和處理主要依據(jù)音頻的內(nèi)容。語音識別使得機器具有類 似人一樣的聽覺功能,能直接接受人的語音,理解意圖并作出相應(yīng)的反應(yīng)。利 用語音識別,對音頻數(shù)據(jù)進行基于內(nèi)容的分類,并能對大量的數(shù)據(jù)進行快速的 處理,具有十分重要的意義。
對于步驟S101,其具體包括以下步驟
步驟11、對輸入的音頻數(shù)據(jù)進行預處理。預處理主要包括進行采樣率和采 樣精度調(diào)整、去除直流成分過程,使得不同來源的各音頻數(shù)據(jù)具有相同的格式。
步驟12、對預處理后的音頻數(shù)據(jù)進行分幀。分幀是將音頻數(shù)據(jù)分成很小的 段,作為后續(xù)處理的基本單元, 一般的每幀長度為5至100毫秒(如25毫秒), 并且在連續(xù)兩幀之間 一般有一定的交疊。
步驟13、將每幀音頻數(shù)據(jù)變換為一個語音特征矢量,每個矢量由一系列特 征數(shù)值組成,表示一幀音頻數(shù)據(jù)。本步驟具有多種實施方式, 一般可以將分幀 的音頻數(shù)據(jù)進行某種變換操作,對于每一幀音頻數(shù)據(jù)以較少的特征數(shù)值進行表 示, 一般為10至50個。
步驟13之后,在優(yōu)選的實施方式中,還進一步包括步驟14:
步驟14、對變換后的語音特征矢量進行進一步的處理,處理過程包括(l) 和/或(2):
(1) 、對每一幀音頻數(shù)據(jù)前后一段時間對應(yīng)的語音特征矢量求均值,并將 當前幀的語音特征矢量減去該均值,以去除一致性的干擾。
例如,可以將每一幀前后各1.5秒(共3秒)音頻數(shù)據(jù)對應(yīng)的語音特征矢量 求均值,并從當前幀中的語音特征矢量減去這個均值,對于音頻數(shù)據(jù)中最前面 和最后面的不足1.5秒語音部分,在求均值時縮減相應(yīng)的范圍。
(2) 、計算前后兩幀音頻數(shù)據(jù)的語音特征矢量的差分,將該差分附加到當前幀中的語音特征矢量上,以體現(xiàn)語音變化快慢的程度。
例如,可以將當前幀后一幀的語音特征矢量(假定有13維矢量)減去前一
幀,得到13維矢量的差分,附加到當前幀作為另外13維矢量,這樣原始的音 頻數(shù)據(jù)就用一系列的語音特征矢量進行表示,每個矢量由一個26維的矢量來表 示。
對于步驟S102,根據(jù)聲學模型和字典對語音矢量段的語音特征矢量轉(zhuǎn)換為 用AU表示的語音內(nèi)容序列,并對照建立好的詞表識別出包含分類關(guān)鍵詞的語 音內(nèi)容序列,主要包括以下步驟
步驟21、建立包含分類關(guān)鍵詞的詞表。確定事先約定的詞的內(nèi)容,形成一 個詞表(VOCAB),詞表由若干個詞組成,這個詞表中的詞必須沒有重復、并 且是現(xiàn)實語言可能出現(xiàn)的詞,這些詞成為關(guān)鍵詞(KeyWord, KW)。
步驟22、將步驟1得到的一系列語音特征矢量進行分組,得到多個語音矢 量段。每一語音矢量段包含連續(xù)數(shù)百個語音特征矢量,對應(yīng)于原始音頻數(shù)據(jù)的 長度為若干秒。連續(xù)的兩個語音矢量段之間可以有一定的交疊,這樣任意一個 語音特征矢量至少被包含在一個語音矢量段當中。
這樣得到一系列矢量的分組,對于每個語音矢量段執(zhí)行步驟23。
步驟23、本步驟有兩種實施方式
實施方式一根據(jù)聲學模型、語言模型和字典將語音矢量段的語音特征矢 量轉(zhuǎn)換為用基本聲學模型單元(AU)來表示的語音內(nèi)容序列。
對語音矢量段進行語音識別,需要利用聲學模型、語言模型以及字典。
(1) 聲學模型(AM):聲學模型包含若千基本聲學模型單元(AU), AU 是每個基本的語音的發(fā)音單元(音標)對應(yīng)的語音特征矢量的表征,具有完備 性和區(qū)分性。
完備性語音中所有可能的發(fā)音單元(音標)都有其對應(yīng)的語音特征矢量 的表征。
區(qū)分性各個不同的發(fā)音單元(音標)之間不應(yīng)該完全相同。 其中,每個發(fā)音單元(音標)AU在識別正確的情況下,對應(yīng)著語音矢量段 中數(shù)百個語音特征矢量序列的一段,也就是連續(xù)若干個語音特征矢量。
(2) 、語言模型(LM):語言模型是在語音識別中約束發(fā)音單元之間相互關(guān)系的條件,也就是一個發(fā)音單元對鄰近若干個發(fā)音單元的影響,以及在語音 流中 一定范圍內(nèi)同時出現(xiàn)或互斥的關(guān)系表述。
(3)、字典(DICT)。字典中包含AU和詞(WORD)之間的關(guān)系 一個 WORD至少由一個AU組成;同時一個WORD可以對應(yīng)若干種AU的序列;這 里WORD不必包含VOCAB中的全部詞,但是字典中WORD經(jīng)過組合必須能 表示VOCAB中的全部詞。
對于一定的聲學模型和字典,利用和模型相對應(yīng)的模式匹配方式進行匹配 計算,將步驟22所產(chǎn)生的語音矢量段轉(zhuǎn)換為用AU表示的一個序列,這個序列 進一步的可以表示為字典中語音內(nèi)容的序列。
注意到對于一個語音矢量段,本步驟所產(chǎn)生用AU表示的序列可能超過一 個,對應(yīng)的字典中語音內(nèi)容的序列也可能不止一個。
實施方式二根據(jù)聲學模型和字典將語音矢量段的語音特征矢量轉(zhuǎn)換為用 基本聲學模型單元(AU)來表示的語音內(nèi)容序列。
對語音矢量段進行語音識別,需要利用聲學模型以及字典。
(1) 、聲學模型(AM):聲學模型包含若干基本聲學模型單元(AU), AU 是每個基本的語音的發(fā)音單元(音標)對應(yīng)的語音特征矢量的表征,具有完備 性和區(qū)分性。
完備性語音中所有可能的發(fā)音單元(音標)都有其對應(yīng)的語音特征矢量 的表征。
區(qū)分性各個不同的發(fā)音單元(音標)之間不應(yīng)該完全相同。
其中,每個發(fā)音單元(音標)AU在識別正確的情況下,對應(yīng)著語音矢量段
中數(shù)百個語音特征矢量序列的一段,也就是連續(xù)若干個語音特征矢量。
聲學模型中還有若干AU并不是真實語音中的發(fā)音單元,它們用來表示聲
音中非語音的部分。
(2) 、字典(DICT):字典表示了 AU和詞(WORD)之間的關(guān)系,這里 WORD有兩部分
一部分包含VOCAB中所有詞;
另一部分用來表示VOCAB當中沒有的詞,這里"詞"也代表了語音中的 各種發(fā)音情況(例如,各種音節(jié),如每個詞表示一個音節(jié)),為了表征盡可能多的詞或者說發(fā)音情況,這些詞(WORD)中,單個的詞所包含的AU單元較少, 但是它們經(jīng)過組合可以表示語音中各種可能發(fā)音情況。
對于一定的聲學模型和字典,利用和模型相對應(yīng)的模式匹配方式進行匹配 計算,這里字典中的各個WORD的出現(xiàn)相互沒有影響,將步驟22所產(chǎn)生的矢 量分組轉(zhuǎn)換為用AU表示的一個序列,這個序列進一步的可以表示為字典中語 音內(nèi)容的序列。
注意到對于一個矢量段,本步驟所產(chǎn)生的AU序列可能超過一個,對應(yīng)的 字典中語音內(nèi)容的序列也可能不止一個。
步驟24、將所述語音內(nèi)容序列與詞表進行比較,識別包含分類關(guān)鍵詞的語 音內(nèi)容序列。
在優(yōu)選的實施方式中,還進一步包括步驟S103檢測識別結(jié)果可靠性的過程, 步驟S103主要包括以下步驟
步驟31、獲得各語音內(nèi)容序列中被識別為關(guān)鍵分類詞的詞,稱為候選假設(shè)。
對步驟2所產(chǎn)生的語音內(nèi)容序列進行整理,獲得其中每個可能包舍VOCAB 中分類關(guān)鍵詞的詞,稱為候選假設(shè)H,而一個語音矢量段中除分類關(guān)鍵詞以外 的部分稱為非關(guān)4建詞部分。
步驟32、計算所述候選假設(shè)的可靠性得分。
候選假設(shè)H的可靠性得分可以從不同的方面進行計算,在本方法中,可以 根據(jù)下述幾種方式的某一個方式或其任意組合來進行計算
方式一、計算候選假設(shè)H的識別結(jié)果(最佳的AU序列)和垃圾模型的差 或者比值作為可靠性得分。其中,H的識別結(jié)果和垃扭j莫型的區(qū)別越顯著,則 得分越高,反之則得分低。這里垃圾模型為一個或者若干個,它有兩種形式
1 )、對每個AU對應(yīng)的垃圾模型,它表示了語音中所有可能的非AU部分的 特性。
2)、所有AU共有的垃圾模型,它表示了語音中非任何可能AU的部分地特 性,或者AU部分的平均特性(而不是某一AU的特性)。
這樣,在這個AU對應(yīng)的語音矢量段中對于每個候選假設(shè)H對應(yīng)的每個AU, 可以計算AU對應(yīng)的垃圾模型得分,或計算所有AU共有垃圾模型的得分。
方式二、計算候選假設(shè)H中每個AU的長度得分作為可靠性得分。從每個H的每個AU的起始時間,可以計算出每個AU以及整個H的長度, 根據(jù)已有的AU長度的概率分布函數(shù),從而計算H中每個AU的長度得分。其 中,H的時間長度越接近概率分布函數(shù)中的正常時間長度,則得分越高,反之 則得分低。例如,H中"今天"的時間長度為0.1秒,而根據(jù)概率分布函數(shù)"今 天"的正常時間長度為0.5秒,相差較大,則H得到的長度得分比較低。
方式三、計算候選假設(shè)H的網(wǎng)格得分作為可靠性得分。
前述步驟23中,對一個語音矢量段能得到若干個可能的AU序列,這些AU 序列整體形成一個網(wǎng)格網(wǎng)絡(luò)(LATTICE )。根據(jù)每個AU的起始時間,可以得到 同時間段中網(wǎng)絡(luò)LATTICE中可能具有的其他AU的數(shù)量,AU的數(shù)量越少,則 表明其是分類關(guān)鍵詞的可能性越大,從而得到候選假設(shè)H的網(wǎng)格得分越高,反 之則得分低。
方式四、計算候選假設(shè)H在語言模型的得分作為可靠性得分。 每個候選假設(shè)H為一個分類關(guān)鍵詞,其他的部分為非關(guān)鍵詞,根據(jù)以KW 為中心的AU序列以及對應(yīng)的WORD序列,可以計算語言模型的匹配的得分, H在語言模型中匹配度越高,則候選假設(shè)H在語言模型的得分越高,反之則得 分低。例如"今天很熱,,在語言模型中匹配度比較高,則其在語言模型的得分 也較高高;反之"今天很胖"在語言模型中匹配度比較低,則其在語言模型的 得分也較低。
步驟33、根據(jù)所述可靠性得分計算候選假設(shè)的置信度得分。 對每個候選假設(shè)H,經(jīng)過步驟32中的一個或者多個的任意組合,可以得到
一系列的得分,這些得分經(jīng)過一個函數(shù)關(guān)系式可以得到一個唯一的置信度得分,
函數(shù)值越高,表明H是分類關(guān)鍵詞的可能性越高。
其中,該函數(shù)關(guān)系式可以是利用已有的數(shù)據(jù)庫經(jīng)過訓練得到,對不同方式
獲得的可靠性得分權(quán)重不同;該函數(shù)關(guān)系式也可以是平均得到,將各種方式得
到的H的可靠性得分的平均值作為置信度得分。
這樣得到每個語音段中的H,以及相對應(yīng)的H的起始時間和置信度的得分。 步驟34、設(shè)定閾值,判斷所述置信度得分是否在閾值的分布范圍內(nèi),如果
是則保留該語音內(nèi)容序列的統(tǒng)計結(jié)果,否則^t棄該語音內(nèi)容序列的統(tǒng)計結(jié)果。 根據(jù)任務(wù)的要求和特點設(shè)置一個閾值T,這個閾值應(yīng)該所得到的每個H的
閾值的分布范圍內(nèi)。對于H以及相關(guān)的H的起始時間和置信度的得分,如果置信度得分等于或 者高于闞值T,則認為H是可靠的,予以保留;如果H的得分小于T,則認為 H是不可靠的,將不會出現(xiàn)在最終的結(jié)果里。
當需要提高精度的時候,可以提高閾值,這樣所剩余的結(jié)果可靠性較高, 但是較多的潛在正確的結(jié)果被忽略;當希望盡量保留潛在可能的結(jié)果時,可以 通過調(diào)低閾值來實現(xiàn)。
通過閾值的改變,可以迅速的得到新的結(jié)果。因此,可以很方便地根據(jù)任 務(wù)的要求對錯誤進行控制。
下面提供一個較完整的實施例,便于理解本方法的技術(shù)方案。 假設(shè)有如下的任務(wù)
1000個音頻數(shù)據(jù)文件,每個文件的長度是10分鐘; 關(guān)鍵詞表為航班,北京,深圳,白天,晚上;
分類任務(wù)對關(guān)鍵詞的設(shè)定要求為共分兩類,同時出現(xiàn)"航班"、"北京", "深圳"、"白天,,且不出現(xiàn)"晚上"的文件為一類,其余的為一類。
執(zhí)行如下步驟可以構(gòu)造基于內(nèi)容的音頻分類方法 首先對音頻數(shù)據(jù)進行預處理和特征提取,其中包括
步驟Sll、對輸入的音頻數(shù)據(jù)進行預處理。采用采樣率為16kHz,對于語音 文件中低于此采樣率的文件進行上采樣,對于超過此采樣率的文件進行下采樣, 采樣精度調(diào)整為16bit每樣點,去除直流成分。
步驟S12、對音頻數(shù)據(jù)進行分幀。分幀的幀長為25毫秒,連續(xù)兩幀之間的 交疊為15毫秒。
步驟S13、提取特征。采用美爾頻標倒譜系數(shù)MFCC以及能量, 一共13維 特征每幀。
步驟S14、對提取的特征進一步的處理
首先,可以進行倒i普均值減,以去除一致性的干擾。對于每一幀,將前后 各1.5秒,共3秒語音對應(yīng)的語音特征矢量求均值,并從當前幀中減去這個均值, 對于語音文件中最前面和最后面的不足1.5秒語音部分,在求均值時縮減相應(yīng)的 范圍。然后,對于基本的13維語音特征矢量,還可以求其前后各兩幀差分,并附
加到當前幀作為另外13語音特征維矢量,以體現(xiàn)語音變化的快慢程度。
這樣原始的音頻數(shù)據(jù)就用一系列的語音特征矢量進行表示,每個矢量由一
個26維的矢量表示。
然后,對經(jīng)過特征提取的語音的每個小的分段進行語音識別,識別結(jié)果為 關(guān)鍵詞和非關(guān)鍵詞的序列,其中包括
步驟S21、確定事先約定的詞的內(nèi)容,形成一個詞表(VOCAB),它由"航 班"、"北京"、"深圳"、"白天"和"晚上"組成稱為關(guān)鍵詞(KW)。
步驟S22、對于步驟S14所得語音特征矢量序列進行分組得到語音矢量段, 每一組長度為連續(xù)300個26維語音特征矢量,對應(yīng)原始音頻數(shù)據(jù)的長度為3秒 (實際為3015毫秒,對于文件末尾不足3015毫秒的部分,相應(yīng)的減少長度), 并且連續(xù)的兩個語音矢量段有一定的交疊,交疊數(shù)量為50個矢量。
這樣得到一系列語音矢量段,對于每個語音矢量段并執(zhí)行步驟S23。
步驟S23、對步驟S22所產(chǎn)生的語音矢量段,進行語音識別。其中需要利用
到
聲學模型(AM):它包含51基本聲學模型單元(AU), AU是漢語的音素, 采用隱馬爾科夫模型進行表示。
語言模型(LM):采用統(tǒng)計語言模型,它直接約束了漢語中出現(xiàn)的詞之間 的關(guān)系,又根據(jù)字典,它實際上約束51個漢語音素之間的關(guān)系。
字典(DICT): AU和詞(WORD)之間的關(guān)系,這里采用65535個詞的字 典,其中包含了 VOCAB中所有的詞,它們的發(fā)音被51個AU表示。
對于上述的聲學模型、語言模型和字典,利用和HMM模型相對應(yīng)的模式 匹配方式Viterbi算法進行匹配計算,將步驟S22所產(chǎn)生的語音特征矢量轉(zhuǎn)換為 用AU表示的一個序列,這個序列進一步的可以表示為字典中語音內(nèi)容的序列。
步驟S24、將所述語音內(nèi)容序列與詞表進行比較,識別包含分類關(guān)鍵詞的語 音內(nèi)容序列。
接著,對識別出來得到關(guān)鍵詞進行確認,并^r測識別結(jié)果的可靠性,執(zhí)行 以下的步驟步驟S31、對步驟S24所產(chǎn)生的識別結(jié)果進行整理,獲得其中每個可能的 VOCAB中KW的詞,稱為候選假設(shè)H,而一個語音4爻中除KW以外的部分稱 為非關(guān)4定詞(NKW)。
步驟S32、根據(jù)H,確定每個H在語音流、矢量特征序列中起始時刻、對 應(yīng)的KW以及AU序列、以及步驟23中得到的匹配的得分,進行步驟S33和步 驟34的組合。
步驟33、計算垃圾4莫型的得分,這里垃圾才莫型為一個或者若干個,它有兩 種形式
A、 對每個AU對應(yīng)的垃圾模型,它表示了語音中所有可能的非AU部分的 特性;
B、 所有AU共有的垃圾才莫型,它表示了語音中非任何可能AU的部分地特 性,或者AU部分的平均特性(而不是某一AU的特性);
對于每個H對應(yīng)的每個AU,在這個AU對應(yīng)的矢量序列中,計算AU對應(yīng) 的垃圾模型得分,或者共有垃圾模型的得分。
步驟34、從每個H的每個AU的起始時間,可以計算出每個AU以及整個 H的長度,根據(jù)已有的AU長度的概率分布函數(shù),計算H中每個AU的長度得 分。
步驟35、計算置信度的分。對每個H,經(jīng)過步驟32和步驟33可以得到一 系列的得分,這些得分經(jīng)過一個函數(shù)關(guān)系式可以得到一個唯一的置信度得分, 這些得分滿足
A、 這個函數(shù)關(guān)系式是利用已有的數(shù)據(jù)庫經(jīng)過訓練得到的;
B、 這些得分是在0至100之間的整數(shù)。
這樣得到每個語音段中的H,以及相對應(yīng)的H的起始時間和置信度的分。 步驟S36、設(shè)定閾值,沖艮據(jù)任務(wù)的要求設(shè)置一個閾值T為50,這個閾值在
所得到的每個H的閾值的分布范圍(0至100 )內(nèi)。
步驟S37、對步驟4所得到的H以及相關(guān)的H的起始時間和置信度的分,
如果得分等于或者高于闞值T,則認為H是可靠的,予以保留;如果H的得分
小于T,則認為H是不可靠的,將不會傳遞給步驟43。
最后,根據(jù)語音矢量段中分類關(guān)鍵詞是否出現(xiàn)以及出現(xiàn)的情況,對音頻數(shù)據(jù)進行分類。
步驟S4、對所述識別結(jié)果進行統(tǒng)計,根據(jù)分類任務(wù)對分類關(guān)鍵詞的設(shè)定將
符合設(shè)定條件的音頻數(shù)據(jù)進行分類。對經(jīng)過步驟3得到的所有的H列表,按照
分類的范圍,為文件確定每個文件中包含"航班"、"北京"、"深圳"、"白天"
和"晚上"的情況;如果一個文件包含"航班"、"北京"、"深圳"和"白天", 且不包含"晚上",則歸為類別l,否則歸為類別2。
注意到在以上的各個步驟中,如果采用計算機進行處理,從步驟ll開始的 所有步驟便可以采用一臺計算機處理一個文件,也就是10個文件由10臺計算 機同時處理,所得的結(jié)果和單獨采用一臺計算機處理完全一樣,但是處理時間 在理想情況下可以為單獨計算機處理時間的十分之一。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細, 但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當指出的是,對于本領(lǐng)域 的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和 改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附 權(quán)利要求為準。
權(quán)利要求
1、一種基于內(nèi)容的音頻快速分類方法,其特征在于,包括以下步驟A、對音頻數(shù)據(jù)進行預處理和特征提取,獲得一系列語音特征矢量;B、將所述語音特征矢量轉(zhuǎn)換為用基本聲學模型單元AU表示的語音內(nèi)容序列,并對照建立好的詞表識別出包含分類關(guān)鍵詞的語音內(nèi)容序列;C、對所述識別結(jié)果進行統(tǒng)計,根據(jù)分類任務(wù)對分類關(guān)鍵詞的設(shè)定將符合設(shè)定條件的音頻數(shù)據(jù)進行分類。
2、 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟A具體包括Al、對輸入的音頻數(shù)據(jù)進行預處理;A2、對預處理后的音頻數(shù)據(jù)進行分幀;A3、將每幀音頻數(shù)據(jù)變換為一個語音特征矢量。
3、 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟B具體包括Bl、建立包含分類關(guān)鍵詞的詞表;B2、將所述一系列語音特征矢量進行分組,得到多個語音矢量段;其中, 每個語音矢量段包含時間上連續(xù)的至少兩個語音矢量,并且連續(xù)兩個所迷語音 矢量段之間有一定的交疊;B3、根據(jù)聲學模型和字典將語音矢量段的語音特征矢量轉(zhuǎn)換為用AU來表 示的語音內(nèi)容序列;B4、將所述語音內(nèi)容序列與詞表進行比較,識別出包含分類關(guān)鍵詞的語音 內(nèi)容序列。
4、 根據(jù)權(quán)利要求3所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟B3具體包括根據(jù)聲學模型、語言模型和字典將語音矢量段的語音特征矢量轉(zhuǎn)換為用AU 來表示的語音內(nèi)容序列。
5、 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟B之后、步驟C之前還包括步驟Q、計算各個語音內(nèi)容序列包含分類關(guān)鍵詞的置信度得分,判斷所述置信度 得分是否在設(shè)定的閾值分布范圍內(nèi),如果是則保留該語音內(nèi)容序列包含分類關(guān) 鍵詞的識別結(jié)果,否則放棄該語音內(nèi)容序列包含分類關(guān)鍵詞的識別結(jié)果。
6、 根據(jù)權(quán)利要求5所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟Q具體包括Ql、獲得各語音內(nèi)容序列中被識別為關(guān)鍵分類詞的詞,稱為候選假設(shè); Q2、計算所述候選々li殳的可靠性得分; Q3 、根據(jù)所述可靠性得分計算候選假設(shè)的置信度得分; Q4、設(shè)定閾值,判斷所述置信度得分是否在閾值的分布范圍內(nèi),如果是則 保留該語音內(nèi)容序列的統(tǒng)計結(jié)果,否則放棄該語音內(nèi)容序列的統(tǒng)計結(jié)果。
7、 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟Q2具體包括計算所述候選假設(shè)中AU對應(yīng)的垃圾模型得分,或計算所有AU共有垃圾模 型得分;將所述垃圾模型得分作為可靠性得分。
8、 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟Q2具體包括計算候選假設(shè)中每個AU和整個候選假設(shè)的長度,根據(jù)已有的AU長度的概 率分布函數(shù),得到每個AU的長度得分;將所述候選假設(shè)中每個AU的長度得分作為可靠性得分。
9、 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的音頻快速分類方法,其特征在于, 所述步驟Q2具體包括將所述語音矢量段的AU序列形成網(wǎng)絡(luò)網(wǎng)格,根據(jù)每個AU的起始時間得到 同時間段中網(wǎng)絡(luò)網(wǎng)格具有的其他AU的數(shù)量,根據(jù)所述其他AU的數(shù)量得到候選 假設(shè)的網(wǎng)格得分;將所述候選假設(shè)的網(wǎng)格得分作為可靠性得分。
10、 根據(jù)權(quán)利要求6所述的一種基于內(nèi)容的音頻快速分類方法,其特征在 于,所述步驟Q2具體包括根據(jù)以分類關(guān)鍵詞為中心的AU序列以及對應(yīng)的詞序列,計算所述候選假 設(shè)在語言模型的得分;將所述候選假設(shè)在語言模型的得分作為可靠性得分。
全文摘要
本發(fā)明公開了一種基于內(nèi)容的音頻快速分類方法,包括以下步驟對音頻數(shù)據(jù)進行預處理和特征提取,獲得一系列語音特征矢量;將所述語音特征矢量轉(zhuǎn)換為用基本聲學模型單元AU表示的語音內(nèi)容序列,并對照建立好的詞表識別出包含分類關(guān)鍵詞的語音內(nèi)容序列;計算各個語音內(nèi)容序列包含分類關(guān)鍵詞的置信度得分,判斷所述置信度得分是否在設(shè)定的閾值分布范圍內(nèi),如果是則保留該語音內(nèi)容序列包含分類關(guān)鍵詞的識別結(jié)果;對所述識別結(jié)果進行統(tǒng)計,根據(jù)分類任務(wù)對分類關(guān)鍵詞的設(shè)定將符合設(shè)定條件的音頻數(shù)據(jù)進行分類。本方法充分利用內(nèi)容信息,可以非常方便的實現(xiàn)復雜的分類,并且可以并行處理多個音頻數(shù)據(jù)文件,文件分類處理的效率高。
文檔編號G10L15/00GK101447185SQ200810218270
公開日2009年6月3日 申請日期2008年12月8日 優(yōu)先權(quán)日2008年12月8日
發(fā)明者軼 劉, 楊永勝, 黃石磊 申請人:深圳市北科瑞聲科技有限公司;深港產(chǎn)學研基地產(chǎn)業(yè)發(fā)展中心