專利名稱:一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法。
背景技術(shù):
分類問題廣泛存在于眾多學(xué)科領(lǐng)域中,比如語音識別、圖像識別、音頻分類、文本分類等等。為了得到具有良好分類性能的分類器,通常需要用大量的已標(biāo)注樣本參與分類器的訓(xùn)練。但是標(biāo)注樣本的獲取代價(jià)比較昂貴,比如說在語音識別領(lǐng)域,需要以音素為單位進(jìn)行逐一標(biāo)注,標(biāo)注特別耗費(fèi)時(shí)間和精力。樣本的標(biāo)注代價(jià)昂貴使得完全依靠人工標(biāo)注來實(shí)現(xiàn)訓(xùn)練樣本的標(biāo)注變得不切實(shí)際,基于此,半監(jiān)督學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。半監(jiān)督學(xué)習(xí)是一個(gè)循環(huán)迭代的過程,其基本思想是:在每輪迭代過程中,尋找分類置信度高的樣本由機(jī)器自動標(biāo)注,機(jī)器是指能代替人進(jìn)行標(biāo)注工作的軟硬件設(shè)備,標(biāo)注后的樣本加入訓(xùn)練集中重新訓(xùn)練分類器,以上過程迭代進(jìn)行,直至滿足停止準(zhǔn)則。半監(jiān)督學(xué)習(xí)是由機(jī)器自動標(biāo)注,為了防止由于錯(cuò)誤標(biāo)注而引起的分類性能下降,尋找高置信度的樣本成為半監(jiān)督學(xué)習(xí)的關(guān)鍵所在。目前已有不少尋找高置信度樣本的相關(guān)研究,在以支持向量機(jī)(Support VectorMachines,SVM)為訓(xùn)練模型的半監(jiān)督學(xué)習(xí)方法中,現(xiàn)有的算法一般都是在特征提取以后,在此特征空間中判斷樣本的置信度,這種在某一特征空間中判斷樣本置信度的方法一般效果較差,而聯(lián)合兩個(gè)甚至多個(gè)特征空間來判斷樣本的置信度的方法,其對樣本置信度的判斷會更加準(zhǔn)確,因此本發(fā)明聯(lián)合時(shí)域和頻域兩個(gè)特征空間判斷樣本的置信度,以找到真正高置信度的樣本參與訓(xùn)練。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問題,本發(fā)明提供一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,它具有確保樣本的高置信度,減少由于錯(cuò)誤標(biāo)注而引起的SVM分類性能下降的優(yōu)點(diǎn)。為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,具體步驟為:步驟一:分別提取已標(biāo)注樣本的時(shí)域特征、頻域特征、時(shí)域和頻域特征,并分別訓(xùn)練初始SVM分類器Cp SVM分類器C2、SVM分類器C ;步驟二:利用SVM分類器Q、SVM分類器C2從未標(biāo)注樣本集U中確定高置信度樣本,組成高置信度樣本集S ;步驟三:將高置信度樣本集S中的樣本由機(jī)器自動標(biāo)注后放入已標(biāo)注樣本集L中,機(jī)器是指能代替人進(jìn)行標(biāo)注工作的軟硬件設(shè)備;步驟四:對更新的已標(biāo)注樣本集L重新提取時(shí)域特征和頻域特征,并進(jìn)行特征選擇,重新訓(xùn)練SVM分類器C ;步驟五:根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代,繼續(xù)迭代則返回步驟二。
所述步驟一的具體步驟為:(1-1)從總樣本集中隨機(jī)選取一定數(shù)量的初始訓(xùn)練樣本,人工標(biāo)注后生成初始已標(biāo)注樣本集,將此初始已標(biāo)注樣本集分別賦給已標(biāo)注樣本集L1,已標(biāo)注樣本集L2和已標(biāo)注樣本集L ;(1-2 )對初始已標(biāo)注樣本集L1中的樣本提取時(shí)域特征,并用這些樣本訓(xùn)練初始SVM分類器C1 ;(1-3)對初始已標(biāo)注樣本集L2中的樣本提取頻域特征,并用這些樣本訓(xùn)練初始SVM分類器C2 ;(1-4)對初始已標(biāo)注樣本集L中的樣本提取時(shí)域特征和頻域特征,然后進(jìn)行特征選擇,最后用這些樣本訓(xùn)練初始SVM分類器C。所述步驟四和步驟(1-4)中特征選擇的具體步驟為:(1-4-1)設(shè)當(dāng)前樣本共有d維特征,組成特征集合(FpF2,…,F(xiàn)d},對特征集合中的每一維特征Fi, i為自然數(shù),從特征集合中求其K近鄰,即求與Fi距離最近的K個(gè)特征,并求Fi與其K近鄰之間的平均距離Di, i為自然數(shù);(1-4-2)比較確定出具有最小Di值的那一維特征,記作F%即:
權(quán)利要求
1.一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,其特征是,具體步驟為: 步驟一:分別提取已標(biāo)注樣本的時(shí)域特征、頻域特征、時(shí)域和頻域特征,并分別訓(xùn)練初始SVM分類器Cp SVM分類器C2、SVM分類器C ; 步驟二:利用SVM分類器CpSVM分類器C2從未標(biāo)注樣本集U中確定高置信度樣本,組成高置信度樣本集S ; 步驟三:將高置信度樣本集S中的樣本由機(jī)器自動標(biāo)注后放入已標(biāo)注樣本集L中;步驟四:對更新的已標(biāo)注樣本集L重新提取時(shí)域特征和頻域特征,并進(jìn)行特征選擇,重新訓(xùn)練SVM分類器C ; 步驟五:根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代,繼續(xù)迭代則返回步驟二。
2.如權(quán)利要求1所述一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,其特征是,所述步驟一的具體步驟為: (1-1)從總樣本集中隨機(jī)選取一定數(shù)量的初始訓(xùn)練樣本,標(biāo)注后生成初始已標(biāo)注樣本集,將此初始已標(biāo)注樣本集分別賦給已標(biāo)注樣本集L1,已標(biāo)注樣本集L2和已標(biāo)注樣本集L ;(1-2)對初始已標(biāo)注樣本集L1中的樣本提取時(shí)域特征,并用這些樣本訓(xùn)練初始SVM分類器C1; (1-3)對初始已標(biāo)注樣本集L2中的樣本提取頻域特征,并用這些樣本訓(xùn)練初始SVM分類器C2; (1-4)對初始已標(biāo)注樣本集L中的樣本提取時(shí)域特征和頻域特征,然后進(jìn)行特征選擇,最后用這些樣本訓(xùn)練初始SVM分類器C。
3.如權(quán)利要求2所述一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,其特征是,所述步驟四和步驟(1-4)中特征選擇的具體步驟為: (1-4-1)設(shè)當(dāng)前樣本共有d維特征,組成特征集合(F1, F2,…,F(xiàn)d},對特征集合中的每一維特征Fi, i為自然數(shù),從特征集合中求其K近鄰,即求與Fi距離最近的K個(gè)特征,并求Fi與其K近鄰之間的平均距離Di, i為自然數(shù); (1-4-2)比較確定出具有最小Di值的那一維特征,記作F%即: F* 二 argrnin(/),); (1-4-3)保留F%并將F*的K個(gè)最近鄰特征從特征集合中刪除; (1-4-4)判斷是否滿足min (Di) > ε,若滿足則輸出特征選擇后的特征集合,否則轉(zhuǎn)入步驟(1-4-1),ε是為平均距離Di設(shè)定的下限閾值。
4.如權(quán)利要求1所述一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,其特征是,所述步驟二的具體步驟為: (2-1)假設(shè)樣本\到SVM分類器Q、SVM分類器C2的分類面的距離分別為Cl1 (Xi)、d2 (Xi),則按下式生成SVM分類器Q、SVM分類器C2的高置信度樣本集S1、高置信度樣本集S2:S1=UiIxi e U, (I1(Xi) > ThJS2= (Xi Xi e U, d2 (Xi) > Th2I 其中,Thp Th2分別是SVM分類器Cp SVM分類器C2的距離閾值,U代表未標(biāo)注樣本集;(2-2)從高置信度樣本集S1、高置信度樣本集S2的交集中取SVM分類器CpSVM分類器C2判別一致的樣本組成高置信度樣本集S,即:
5.如權(quán)利要求1所述一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,其特征是,所述步驟五的具體步驟為: (5-1)設(shè)第t-Ι次迭代后和第t次迭代后,SVM分類器C的分類性能分別為Pw和Pt,則SVM分類器C的分類性能變化率為:
全文摘要
本發(fā)明公開了一種時(shí)頻聯(lián)合的支持向量機(jī)半監(jiān)督學(xué)習(xí)方法,具體步驟為步驟一訓(xùn)練初始SVM分類器;步驟二利用SVM分類器C1,SVM分類器C2尋找高置信度樣本,組成高置信度樣本集S;步驟三將高置信度樣本集S中的樣本由機(jī)器自動標(biāo)注后放入SVM分類器C的已標(biāo)注樣本集L中;步驟四用更新的已標(biāo)注樣本集L重新訓(xùn)練SVM分類器C;步驟五根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代。本發(fā)明聯(lián)合時(shí)域和頻域兩個(gè)特征空間判斷樣本的置信度,其對樣本置信度的判斷比傳統(tǒng)的基于單一特征空間的判斷更加準(zhǔn)確;由于對樣本置信度的判斷更加準(zhǔn)確,本發(fā)明能減少由于錯(cuò)誤標(biāo)注而引起的分類器分類性能的下降;本發(fā)明在用于SVM分類器的訓(xùn)練時(shí)大幅度減少人工標(biāo)注的工作量。
文檔編號G06F15/18GK103177267SQ201310141198
公開日2013年6月26日 申請日期2013年4月22日 優(yōu)先權(quán)日2013年4月22日
發(fā)明者冷嚴(yán), 徐新艷 申請人:山東師范大學(xué)