基于模糊聚類決策樹的分布式大型人口語者識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于模糊聚類的決策樹分類方法,主要用于解決大型人口語者識 別問題,屬于生物識別和數(shù)據(jù)挖掘的交叉技術(shù)應用領(lǐng)域。
【背景技術(shù)】
[0002] 語者身份識別是一個有許多應用的生物識別系統(tǒng)的例子。在語者身份識別中,給 出一個輸入語音,任務是通過從注冊在系統(tǒng)中的整體語者選擇一個來決定未知語者的身 份。語者識別的主要技術(shù)是基于梅爾頻率倒譜系數(shù)和高斯混合模型的。一些以梅爾頻率倒 譜系數(shù)為基礎(chǔ)的重要方法包括通用背景模型方法已被提出。另一種新興變得很受歡迎的技 術(shù)是i矢量方法。i矢量的方法已經(jīng)廣泛用于語者確認。但是,它沒有直接被應用到語者識 另IJ。i矢量方法通常需要大量的表現(xiàn)良好的數(shù)據(jù),并且當把i矢量應用于語者識別特別是大 型人口的案例時,計算復雜度可能會很高。
[0003] 數(shù)據(jù)挖掘是大量的數(shù)據(jù)中搜尋具有潛在價值的新信息的過程,是一種決策支持的 過程,它主要基于機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫等,分析大量的數(shù)據(jù),從其中找出潛 在的模式幫助決策者做出正確的決定。數(shù)據(jù)挖掘主要有分類、估計、預測、聚類等分析方法。 數(shù)據(jù)挖掘已經(jīng)由計算機科學和統(tǒng)計學的一個主題發(fā)展為獨立領(lǐng)域,廣泛應用于電信、制造、 醫(yī)療、保險等行業(yè)。
[0004] 分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘和機器學習中的一個研究領(lǐng)域。分 類算法對已知類別的數(shù)據(jù)集進行分析,從而發(fā)現(xiàn)其中的分類規(guī)則,然后以此分類規(guī)則預測 新的數(shù)據(jù)集中數(shù)據(jù)的類別。分類的應用很廣泛,主要有性能預測、醫(yī)療診斷、欺詐檢測等。
[0005] 決策樹主要描述的是劃分數(shù)據(jù)為不同的組的規(guī)則,第一條規(guī)則先將數(shù)據(jù)集劃分為 不同大小的子集,然后將另外的規(guī)則應用在子數(shù)據(jù)集中,不同的數(shù)據(jù)集對應不同的劃分規(guī) 貝1J,一個子集或者被繼續(xù)劃分或者單獨作為一個分組成為一個葉子節(jié)點。本質(zhì)上,決策樹是 用一系列規(guī)則對數(shù)據(jù)分類的過程。
[0006] 模糊聚類是涉及事物之間的模糊界限時對事物按照一定標準分類的數(shù)學方法。聚 類分析是數(shù)理統(tǒng)計中的一種多元分析方法,它是用數(shù)學方法定量地確定樣本的親疏關(guān)系, 從而客觀地劃分類型。事物之間的界限,有些是確切的,有些則是模糊的。例人群中的面貌 相像程度之間的界限是模糊的,天氣陰、晴之間的界限也是模糊的。當聚類涉及事物之間的 模糊界限時,需運用模糊聚類分析方法。模糊聚類分析廣泛應用在氣象預報、地質(zhì)、農(nóng)業(yè)、林 業(yè)等方面。
【發(fā)明內(nèi)容】
[0007] 技術(shù)問題:本發(fā)明的目的是提供一種基于模糊聚類決策樹分類的分布式大型人口 語者識別的方法,該方法在決策樹建立的過程中使用了模糊聚類和分布式,以解決識別系 統(tǒng)中數(shù)據(jù)高效分類,提高語者數(shù)量較大時分類精確性,降低計算復雜性的問題。
[0008] 技術(shù)方案:本發(fā)明所述的基于模糊聚類決策樹的分布式大型人口語者識別的方 法,先將人口數(shù)據(jù)等分成幾個部分,再分別使用一棵決策樹分層地將整個人口數(shù)據(jù)分成組, 然后決定一個測試下的語者屬于哪個葉節(jié)點上的語者組,再在選定的語者組上應用梅爾頻 率倒譜系數(shù)和高斯混合模型方法來識別該語者身份。
[0009] 基于模糊聚類的大型人口語者識別的決策樹分類方法包括以下步驟:
[0010] 步驟1)將語音樣本數(shù)據(jù)等分成三個部分;分別將等分后的語音樣本數(shù)據(jù)作為一 棵決策樹的根節(jié)點C1進行建樹海一個語音樣本都來自不同的語者,C nli nV.. ?+1表示L層 的第nul個節(jié)點;同時對三個語音樣本數(shù)據(jù)執(zhí)行同樣的操作進行分類建樹和語音識別;對 根節(jié)點進行分組,得到的子節(jié)點執(zhí)行相同的步驟繼續(xù)進行分組直到建成決策樹。
[0011] 步驟2)判斷當前節(jié)點中的樣本數(shù)量是否大于預設值,若不大于則該節(jié)點為葉節(jié) 點,已經(jīng)不需要再進行分組。
[0012] 步驟3)對節(jié)點上的樣本進行特征提取,每一層只提取一種特征,依次提取音調(diào), 語音信號正脈沖的均值,語音信號正脈沖的偏斜,語音信號負脈沖的均值,語音信號負脈沖 的偏斜和語音信號正脈沖的寬度,具體步驟如下:
[0013] 步驟3. 1)音調(diào)特征提取,具體步驟如下:
[0014] 步驟3. I. 1)將連續(xù)的語音輸入到音調(diào)提取模塊;
[0015] 步驟3. 1. 2)音調(diào)提取模塊使用YIN算法將語音分解成乂幀,一幀的長度是25ms, 幀移位長度是IOms ;所述的YIN算法是一種基于自相關(guān)方法的檢測語音和音樂的基本頻率 的算法;
[0016] 步驟3. L 3)獲得第i幀(i = 0, 1,2, ·Nf)的音調(diào)值P1和有聲概率P ri;
[0017] 步驟3. 1. 4)去掉50Hz到550Hz范圍之外的音調(diào)值,同時去掉從有聲概率低于0. 8 的幀中提取的音調(diào)值;最后得到可靠的音調(diào)值的集合;
[0018] 步驟3. 2)五個聲源特征提取,具體步驟如下:
[0019] 步驟3. 2. 1)將連續(xù)的語音分解成步驟3. 1. 2)中描述的幀;
[0020] 步驟3. 2. 2)計算每一幀的能量E1和過零率Z i,并判斷該幀是否有聲,若不是有聲 則不進行操作,若是有聲則用Levinson-Durbin算法來計算線性預測系數(shù),通過使用線性 預測系數(shù)得到線性預測剩余信號,然后從LP剩余信號中提取五個聲源特征;提取的特征表 示為F iij, i是當前節(jié)點上的語者索引,j (j = 1,2,. . .,Ni)是特征索引,隊表示語者i的特 征值的總數(shù);所述的Levinson-Durbin算法是一種利用自相關(guān)矩陣中特殊的對稱性來求解 正則方程組中的預測系數(shù)的算法。
[0021] 步驟4)計算每個語者特征數(shù)據(jù)的平均值和標準差,計算公式為:
t其中μ i為語者i的特征數(shù)據(jù)的平 均值,O i為誥者i的特祉數(shù)據(jù)的標準差,F(xiàn) U為提取出的特征,i是當前節(jié)點上的語者索引, j(j = 1,2,...,N1)是特征索引,隊表示語者i的特征值的總數(shù);然后構(gòu)建一個可信任的間 距[μ廠λ δ μ ι+λ δ J,λ是一個預定的系數(shù);得到所有語者兩個統(tǒng)計數(shù)據(jù)μ λ δ i 的集合 D = { μ「λ δ i, μ ;+ λ δ J。
[0022] 步驟5)對集合D使用Lloyd的算法得到分隔向量[Ρ。,P1, ···,ΡΜ],M為Lloyd的 算法采用的語者組的總數(shù);所述Lloyd算法是計算機科學領(lǐng)域中的k-平均算法,用于把觀 測按照距離分配到最近的聚類。
[0023] 步驟6)對每個語者i(i e C1)進行分組,判斷其屬于Cu (m= 1,2,...,M)中的哪 一個,具體步驟如下:
[0024] 步驟6. 1)首先令m = 1 ;
[0025] 步驟6. 2)然后判斷[μ廠λ δ μ ι+ λ δ J n [Pni凡]是否大于0,若是則語者i 屬于Clini然后進行下一步,若不是則直接進行下一步;
[0026] 步驟6. 3)判斷m是否等于M,若是則結(jié)束,若不是則令m = m+1然后重復步驟6. 2 直到將所有的語者都分組完畢,所得的Clini即是決策樹的下一層;
[0027] 步驟7)對一個測試下的語者進行身份識別,具體步驟如下:
[0028] 步驟7· 1)輸入測試語者的語音;
[0029] 步驟7. 2)對已建好的三棵決策樹,分別同時從決策樹的根節(jié)點開始,對測試語者 進行分類,直到其中一棵樹分類完成,即識別出該語者身份,具體步驟如下:
[0030] 步驟7. 3)從樹的根節(jié)點開始,對測試語者進行分類直到結(jié)束或找到測試語者屬 于的葉節(jié)點,對樹的每個節(jié)點分別執(zhí)行步驟7. 4)和步驟7. 5)的分類步驟;所述樹的每個節(jié) 點是非葉子節(jié)點或者葉子節(jié)點,所述根節(jié)點是非葉子節(jié)點或者葉子節(jié)點;
[0031] 步驟7. 4)判斷該節(jié)點是否為葉節(jié)點,若是葉節(jié)點則對該節(jié)點使用梅爾頻率倒譜 系數(shù)和高斯混合模型進行身份識別;對測試語者的語音進行特征提取和異常值去除,提取 方法同步驟3相同,且相應的層只提取相應的特征,得到特征集合{F k},k= 1,2,...,K,K 為特征值總數(shù);計算特征值的平均
[0032] 步驟7. 5)通過比較平均值和從模糊聚類中的Lloyd算法得到的分隔向量 [P。,P1, ···,PJ來做分類決定,具體步驟如下:
[0033] 步驟 7. 5. 1)首先令 m = 1 ;
[0034] 步驟7. 5. 2)然后判斷是否有Pni i彡μ彡P(guān) ",若不是則令m = m+1重復此步驟繼 續(xù)判斷直到m = M,若是則該測試語者被分類到子節(jié)點且此層分類結(jié)束。
[0035] 有益效果:本發(fā)明在解決大型人口語者識別問題的時候,使用了數(shù)據(jù)挖掘中分類 算法的決策樹算法,并引入了模糊聚類方法和分布式思想以解決決策樹分類中數(shù)據(jù)高效分 類,以及在分類時的精確性問題。具體來說,本發(fā)明所述的基于模糊聚類的大型人口語者識 別的決策樹方法具有如下的有益效果:
[0036] (1)僅把MFCC+GMM應用于葉節(jié)點上的人口規(guī)模很小的語者組替代了把它應用于 原始的大型人口;
[0037] (2)本發(fā)明使用的語音特征獨立于MFCC且是相互獨立的,因此在葉節(jié)點上使用 MFCC+GMM方法識別有很好的性能,具有更高的準確識別率和更低的計算復雜性;
[0038] (3)分布式建樹和測試,極大地提高了分類效率和識別效率;
[0039] (4)本發(fā)明對加性噪聲的抗干擾能力強,具有良好的健壯性。
【附圖說明】
[0040] 圖1是基于模糊聚類決策樹的分布式的大型人口語者識別方法流程圖,
[0041] 圖2是一個節(jié)點的模糊聚類分類過程圖。
【具體實施方式】
[0042] 本發(fā)明使用結(jié)合模糊聚類的決策樹算法,解決大型人口語者識別問題,提高識別 準確率和計算復雜性。下面根據(jù)實施例對本發(fā)明作更詳細的描述。
[0043] 本發(fā)明根據(jù)有聲讀物的語音樣例進行具體描述使用Hadoop分布式平臺,語音樣 本數(shù)據(jù)的語者有3800個,每個語音的時長為30s,加性噪聲的信噪比為25dB。
[0044] 1、將語音樣本數(shù)據(jù)等分成三個部分部署到Hadoop的三個從結(jié)點上;分別將等分 后的語音樣本數(shù)據(jù)作為一棵決策樹的根節(jié)點C 1進行建樹;每一個語音樣本都來自不同的語 者,表示L層的第化+1個節(jié)點;同時對三個語音樣本數(shù)據(jù)執(zhí)行同樣的操作進行 分類建樹和語音識別,具體步驟如下;
[0045] 對根節(jié)點進行分組,得到的子節(jié)點執(zhí)行相同的步驟繼續(xù)進行分組直到建成決策 樹,具體步驟如下:
[0046] 2、判斷當前節(jié)點中的樣本數(shù)量是否大于