專利名稱::垃圾短消息的分類方法
技術領域:
:本發(fā)明涉及一種移動通信
技術領域:
,特別涉及一種垃圾短消息的分類方法。
背景技術:
:隨著短消息業(yè)務的快速發(fā)展,垃圾短消息的問題也日益泛濫。垃圾短消息中的廣告短消息不但影響了客戶感知、損害客戶利益,而且部分違法的垃圾信息還影響了社會穩(wěn)定和國家安全。因此對垃圾短消息智能識別分類和攔截的研究成了目前移動運營商重要的課題。目前對垃圾信息的識別和治理方式是先通過過濾系統對每一短消息進行粗略篩選,然后將過濾后的可疑信息交由人工判定作為精確篩選。粗略篩選時是由垃圾信息過濾系統對某一節(jié)點的發(fā)送流量和每一短消息的關鍵字等條件進行分析。這種過濾方式存在以下問題(1)分類效果不明顯。由于沒有從短消息的語義入手提取特征,往往采用關鍵詞、流量、號碼等個別的、不全面的特征,因此造成漏屏蔽、誤攔截嚴重的問題;(2)目前實時攔截主要靠人工判斷處理,分類及時性差、效率低,并且不能實時分析和處理垃圾短信,客戶感知不高。使用過濾系統粗略篩選時,主要通過關鍵詞篩選或是號碼篩選。關鍵詞篩選是判斷短消息中是否有預先設定的關鍵詞;號碼篩選是根據圭叫號碼、被叫號碼,如果有5位的數字號碼是連續(xù)的,則認為是群發(fā)的垃圾短消息。由于這兩者方法是單獨使用,因此,都同樣存在著分類不夠精確、及時性差等問題
發(fā)明內容針對現有技術中的上述缺陷和問題,本發(fā)明的目的是提出一種垃圾短消息的分類方法,能夠應用支持矢量機(SVM)和人工神經網絡(ANN)自學習,在使用本發(fā)明提出的方法生成的本類樣本進行過濾時,比現有的過濾系統的過濾效果明顯提高,同時又比人工判定效率明顯提高。為了達到上述目的,本發(fā)明提出了一種垃圾短消息的分類方法中分類樣本的生成方法,包括步驟l、根據垃圾短信息的原始特征生成特征向量,所述原始特征至少包括垃圾短信息的關鍵詞;步驟2、將所述特征向量作為輸入向量,輸入人工神經網絡進行訓練,得到訓練結果l;將所述特征向量作為輸入向量,輸入支持矢量機進行訓練,得到訓練結果2;將所述特征向量作為輸入向量,輸入人工神經網絡進行分類,得到分類結果,并將該分類結果輸入人工神經網絡進行訓練,得到訓練結果3;步驟3、將分類樣本發(fā)送到人工神經網絡分類器,并將人工神經網絡分類器的輸出值M進行排序;如果輸出值M的最大值大于預設定值r,則該最大值對應的分類即為該短消息的分類,步驟結束;如果輸入值M的最大值不大于所設定的閾值r,則進入步驟4;步驟4、判斷所述輸出值M是否小于等于預定值s,如果是則將該分類樣本歸入拒識類,步驟結束;否則進入步驟5;步驟5、將分類樣本分別發(fā)送到生成訓練結果2和生成訓練結果3的支持矢量機分類器進行分類,如果兩分類器的結果一致,則該分類結果即為該分類樣本對應的類別,否則將該分類樣本歸入拒識類,步驟結束。作為上述技術方案的優(yōu)選,所述人工神經網絡為BP神經網絡。作為上述技術方案的優(yōu)選,所述步驟1中,所迷原始特征還包括呼入號碼、呼出號碼、高度敏感關鍵詞庫。作為上述技術方案的優(yōu)選,所述步驟l具體為步驟11、對垃圾短消息進行分類,并根據分類生成一個或一個以上關鍵詞庫,并為每一關鍵詞設定一權值,以得到一矩陣,所述矩陣每一行對應一關鍵詞庫,其每行中的每一列對應該關鍵詞庫中的一關鍵詞的權值;步驟12、根據主叫號碼、被叫號碼特性形成一向量;步驟13、形成高度敏感關鍵詞庫,并根據該高度敏感關鍵詞庫形成一向量;步驟14、根據步驟11~13的原始特征所得生成一特征向量。本發(fā)明提出的垃圾短信息的分類方法,將SVM和BP神經網絡的優(yōu)勢通過有效的算法結合起來,在容許的拒識率下達到對短消息的更好的分類。同時,還可以使用SVM和BP神經網絡進行自學習。本發(fā)明的效果是(1)通過對垃圾信息語義和結構的分析,提取了垃圾信息的內容和號碼特征,采用時間序列理論,多角度重構了多組特征。(2)融合SVM、子空間和神經網絡等先進的模式識別技術,形成多層次、交叉學習、并行學習的自動學習架構。采用多分類器集成,對垃圾信息進行識別和分類(政治、涉黃、違法犯罪、SP誘騙、商業(yè)信息等),大大提高識別準確率,減少漏判誤判。(3)采用了實時處理技術,能實時分析和處理垃圾信息。圖1為BP神經網絡的結構示意圖2為本發(fā)明優(yōu)選實施例中利用BP神經網絡和支持矢量機自學習的流程示意圖3為本發(fā)明的原理圖。具體實施例方式下面結合附圖對本發(fā)明做進一步說明。本發(fā)明的設計思想如圖3所示,是把垃圾系統的處理分成了學習模塊、分類識別模塊。根據以前垃圾信息治理的經驗,輸入垃圾短信分類樣本,對取得的樣本進行特征提取,對特征進行學習,取得分類經驗;按照經驗進行垃圾信息辨別和分類。同時,通過與短信中心或信令設備等網元建立連接,取得新的數據樣本進行樣本庫的完善。在學習模塊中采用BP神經網絡和支持矢量機(SupportVectorMachine,以下簡稱SVM)。BP(BackPropagation)神經網絡是1986年由R腦lhart和McCelland為首的科學家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一。BP神經網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓樸結構包括輸入層(i叩ut)、隱層(hidelayer)和輸出層(outputlayer)。支持矢量機(SVM)是近年機器學習、識別方面公認比較好的算法。在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優(yōu)勢。因此很適合垃圾短信內容隱蔽、變化快的特點。SVM根據結構風險最小化準則,在使訓練樣本分類誤差極小化的前提下,盡量提高分類器的泛化推廣能力,它能保證得到的解為全局最優(yōu)解。相應的判別函數也應變?yōu)閒(x)=sgn{fai*yik(xi'x)+b*}。支持矢量機的基本思想可以概括為首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當的內積函數實現的。常用的核函數有線性內積函數K(x,y)-xy;多項式內積函數K(x,y)=[(x'y)+1]d;徑向基內積函數K(x,y)-exp{-1x-y12/cj2);二層神經網絡內積函數K(x,y)-tanh(k(x.y)+c)。步驟A、對短信樣本進行分析,并將垃圾短消息分為六大類,即政治、涉黃、違法犯罪、SP誘騙、商業(yè)信息;并根據這六大類建立關4走詞庫;步驟B、在關鍵詞庫中,將每一關鍵詞按照出現的幾率排序,并為每一關鍵詞設置一4又值;這樣就得到一個短消息到權值矩陣Q的一個對應關系Q=(qi,j):權值矩陣是一個6行3200列的矩陣;該權值可以為0~1之間的數字,例如"中獎"這個關鍵詞,在"違法犯罪"關鍵詞庫中的權值為0.6;步驟C、根據主叫號碼、被叫號碼連續(xù)超過5位的數字號碼,并根據這些號碼的特性(比如省內、省外、連號、外網等)形成一個固定維數為30的向量;其中1到10維表示連號;11到12表示省內、省外;其他表示外網;當然該向量的維數可以根據具體需要進行步驟D、對某些嚴重違反法律的詞語建立高度敏感詞庫,形成一個400維的向量;每個位置也是由0或1形成;步驟E、利用步驟A-步驟E所得原始特征,形成3631維的特征向量;其中第1到第30維表示步驟C的號碼特征;第31到第3231維表示步驟B的關鍵詞特征;3231到3631表示步驟D的嚴重違法關4建詞特征;步驟F、將上述特征向量作為輸入向量輸入BP神經網絡進行訓練,得到訓練結果l;將該原始特征輸入支持矢量機進行訓練,得到訓練結果2;步驟G、將上述原始特征輸入BP神經網絡進行分類得到6維類別概率信息,并將該6維類別概率信息輸入支持矢量機進行訓練,得到訓練結果3;步驟H、將該6維類別概率信息作為分類樣本,并將該分類樣本發(fā)送到BP神經網絡分類器,如果BP神經網絡分類器,并將BP神經網絡分類器的輸出值M進行排序;如果輸出值M的最大值大于預設定值r,則該最大值對應的分類即為該短消息的分類,步驟結束;如果輸入值M的最大值不大于預設定值r,則進入步驟I;步驟I、判斷所述輸出值M是否小于等于預定值s,如果是則將該分類樣本歸入拒識類,步驟結束;否.則進入步驟J;步驟J、將分類樣本分別發(fā)送到生成訓練結果2和生成訓練結果3的支持矢量機分類器進行分類,如果兩分類器的結果一致,則該分類結果即為該分類樣本對應的類別,否則將該分類樣本歸入拒識類,步驟結束。其中,步驟A到步驟G是采用了BP神經網絡和支撐矢量機對以上特征進行學習。l一*其中,BP神經網絡的隱含層函數采用=輸出層采用恒等函數。設附,",A分別表示輸入節(jié)點數、輸出層神經元數和隱層神經元數,隱層神經元數我們采用/^(wxm^經驗公式。本發(fā)明中輸入向量是3631維,輸出是6維。因此隱層神經元數據選擇了153。在具體的應用中,BP算法充分利用了特征向量矩陣的稀疏性,使得訓練的時間復雜度大大低于MATLAB7.0。如圖2所示,BP神經網絡首先對原始特征進行訓練,訓練完成后,得到訓練結果。最后,利用該網絡,對同樣的訓練樣本進行分類,得到中間特征。其中支持矢量機(SVM)選擇了C-SVC的RBF徑向基內積函數。如圖2所示,支撐矢量機要分別完成原始特征、中間特征的訓練,得到兩個訓練結果,供分類使用。步驟G到步驟J為采用分類器對分類樣本進行分類,在分類時將BP神經網絡分類器和SVM分類器結合起來。由于BP神經網絡在拒識加大的情況下,推廣性能會越來越高;SVM對樣本分類,在不考慮拒識的情形下,其性能一般優(yōu)于BP神經網絡。通過步驟G到步驟J的有效算法將這兩種分類器有機的結合起來,達到容許的拒識率下,垃圾短信的分類效果更好的目的。應用本發(fā)明的方法與現有的技術相比:<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>表1幾種不同特征和識別方式的比較從表l的實驗數據看出,SVM在沒有拒識率的情況下,對樣本的分類效果比較明顯,但推廣能力不穩(wěn)定。采取目前現有技術中單純用語義特征或號碼特征進行垃圾短信的分類,效果也不如本發(fā)明提出的方法。從對垃圾短信智能分析和治理的需求來看,本發(fā)明提出的方法是最具有實用<介值的。本文參考文獻包括SebastianiF.Machinelearninginautomatedtextcategorization.ACMComputingSurveys,2002,34(1):1□47(薩巴斯蒂尼F著:自動文本分類的機器學習,ACM計算測量,2002,34(1):1-47)。BigiB.UsingKullback-Leiblerdistancefortextcategorization.In:SebastianiF,ed.Proc.ofthe25thEuropeanConf.onInformationRetrieval(ECIR-03).Pisa:Springer-Verlag,2003.305口319.(BigiB,基于Kullback-LeiMer信息距離的文本分類,薩巴斯蒂尼F等在第二十五屆歐洲信息檢索會議(ECIR-03),比薩施普林格,2003.305口319.)LiF,YangY.Alossfunctionanalysisforclassificationmethodsintextcategorization.In:FawcettT,MishraN,eds.Proc.oftheICML2003.Washington:AAAIPress,2003.472C1479.(LiF,YangY.著在文本分類的錯過功能分析的分類方法,FawcettT,MishraN,eds.Proc.oftheICML2003,華盛頓AAAI印刷,2003.472口479.)加盧什金[俄]《神經網絡理論》清華大學出版社ISBN:7302058562002-12-01'[6]LanckrietG,CristianiniN,BartlettP,etal.LearningtheKernelMatrixwithSemidefiniteProgramming[J].JMachLearnRes,2004,(5):27-72.(LanckrietG,CristianiniN,BartlettP等人著利用自動^f匕,呈序學習內核矩陣,JMachLearnRes,2004,(5):27-72.)[7]AmariS,WuS.ImprovingSupportVectorMachineClassifiersbyModifyingKernelFunctions[J].NeuralNetworks,1999,12(6):783-789.(AmariS,WuS.著通過修改內核功能提高支持矢量機分類,NeuralNetworks1999,12(6):783-789.,)[8]SmitsG,JordanE.ImprovedSVMRegressionUsingMixturesofKernels[C]〃IJCNN.Honolulu:IEEEPress,2002:2785-2790.(SmitsG,JordanE.著利用內核的混合改良SVM衰退,〃IJC麗.Honolulu:IEEE印刷,2002:2785-2790.)當然,釆用上述優(yōu)選技術方案只是為了便于理解而對本發(fā)明進行的舉例說明,本發(fā)明還可有其他實施例,本發(fā)明的保護范圍并不限于此。在不背離本發(fā)明精神及其實質的情況下,所屬
技術領域:
的技術人員當可根據本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發(fā)明的權利要求的保護范圍。權利要求1、一種垃圾短消息的分類方法,包括步驟1、根據垃圾短信息的原始特征生成特征向量,所述原始特征至少包括垃圾短信息的關鍵詞;步驟2、將所述特征向量作為輸入向量,輸入人工神經網絡進行訓練,得到訓練結果1;將所述特征向量作為輸入向量,輸入支持矢量機進行訓練,得到訓練結果2;將所述特征向量作為輸入向量,輸入人工神經網絡進行分類,得到分類結果,并將該分類結果輸入人工神經網絡進行訓練,得到訓練結果3;步驟3、將分類樣本發(fā)送到人工神經網絡分類器,并將人工神經網絡分類器的輸出值M進行排序;如果輸出值M的最大值大于預設定值r,則該最大值對應的分類即為該短消息的分類,步驟結束;如果輸入值M的最大值不大于預設定值r,則進入步驟4;步驟4、判斷所述輸出值M是否小于等于預定值s,如果是則將該分類樣本歸入拒識類,步驟結束;否則進入步驟5;步驟5、將分類樣本分別發(fā)送到生成訓練結果2和生成訓練結果3的支持矢量機分類器進行分類,如果兩分類器的結果一致,則該分類結果即為該分類樣本對應的類別,否則將該分類樣本歸入拒識類,步驟結束。2、根據權利要求1所述的垃圾短消息的分類方法中分類樣本的生成方法,其特征在于,所述人工神經網絡為BP神經網絡。3、根據權利要求2所述的垃圾短消息的分類方法中分類樣本的生成方法,其特征在于,所述步驟1中,所述原始特征還包括呼入號碼、呼出號碼、高度敏感關鍵詞庫。4、根據權利要求3所述的垃圾短消息的分類方法中分類樣本的生成方法,其特征在于,所述步驟l具體為步驟11、對垃圾短消息進行分類,并根據分類生成一個或一個以上關鍵詞庫,并為每一關鍵詞設定一權值,以得到一矩陣,所述矩陣每一行對應一關鍵詞庫,其每行中的每一列對應該關鍵詞庫中的一關鍵詞的權值;步驟l2、根據主叫號碼、被叫號碼特性形成一向量;步驟i3、形成高度敏感關鍵詞庫,并根據該高度敏感關鍵詞庫形成一向量;步驟14、根據步驟11~13的原始特征所得生成一特征向量。全文摘要本發(fā)明提出了一種垃圾短消息的分類方法,能夠應用支持矢量機(SVM)和人工神經網絡(ANN)對自學習,并通過有效算法SVM分類器和ANN分類器這兩種分類器有機的結合起來。該算法為將分類樣本發(fā)送到人工神經網絡分類器,并將人工神經網絡分類器的輸出值M進行排序;如果輸出值M的最大值大于預設定值r,則該最大值對應的分類即為該短消息的分類,否則所述輸出值M是否小于等于預定值s,如果是則將該分類樣本歸入拒識類;如果M在r和s之間則利用先前的訓練結果再使用支持矢量機分類器進行分類。本發(fā)明能夠在容許的拒識率下,對垃圾短信的分類效果更好。文檔編號G06F17/30GK101516071SQ200810069369公開日2009年8月26日申請日期2008年2月18日優(yōu)先權日2008年2月18日發(fā)明者何蔓微,佘安婭,瑛劉,劉建勝,兵唐,杜燕春,秦大斌,銳袁,謝志遠申請人:中國移動通信集團重慶有限公司