專利名稱:一種移動終端及其短信的過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動通訊領(lǐng)域,特別是指一種移動終端及其短信的過濾方法。
背景技術(shù):
近幾年來,由于移動通信技術(shù)的快速發(fā)展,短信作為移動通信最流行的增值服務(wù) 之一,在為人們提供便捷的同時(shí),也滋生了大量以傳播色情、欺詐、廣告等不良信息為目的 的垃圾短信。這些短信嚴(yán)重干擾了人們的生活,侵犯了消費(fèi)者利益。垃圾短信的監(jiān)管問題 受到社會各界的廣泛重視,除了從立法層面加強(qiáng)對信息發(fā)布進(jìn)行監(jiān)管外,更重要的是從技 術(shù)層面探索對垃圾短信的防范技術(shù)?,F(xiàn)有技術(shù)中,垃圾短信的過濾可以分為兩種一是基于短信服務(wù)中心的過濾方式; 一是基于用戶移動終端的過濾方式。傳統(tǒng)的短信文本過濾技術(shù)主要還是停留在關(guān)鍵詞階段,無法通過研究文本的內(nèi)容 特征進(jìn)行分類,從而達(dá)到識別垃圾短信的效果,因此傳統(tǒng)的過濾技術(shù)效果不是很理想。下面簡單說明一下現(xiàn)有技術(shù)中基于用戶移動終端的過濾方式一、基于關(guān)鍵詞方案—種短消息過濾方法,用戶在移動終端上設(shè)置過濾敏感詞;移動終端接收到短消息 中心發(fā)送的消息并保存在內(nèi)存中;移動終端根據(jù)敏感詞對短消息內(nèi)容進(jìn)行字符串匹配,如果 有敏感詞出現(xiàn)在短消息內(nèi)容中,則丟棄該消息,并向短消息中心發(fā)送成功接收消息;如果在 短消息內(nèi)容中沒有發(fā)現(xiàn)敏感詞,保存該消息。該方案雖然可以有效過濾用戶不想看到的短消 息,防止被干擾;但是,基于關(guān)鍵詞的過濾方法顯得過于簡單,效果也不是很好。該方案不具 備靈活性,對于紛繁蕪雜的垃圾短信應(yīng)對能力有限,經(jīng)常也會對正常短信造成“誤傷”。二、基于黑白名單的方案因?yàn)樵诿坎恳苿咏K端上都有電話簿,而移動終端電話簿內(nèi)的聯(lián)系電話可以直接視 為短信過濾中的白名單,這樣就可以確保凡是正常的聯(lián)系人短信不會被文本分類錯誤地過 濾掉。而移動終端上一般沒有黑名單列表,因此這需要專門在移動終端上建立黑名單列表, 并對黑名單列表進(jìn)行維護(hù)。在建立了黑名單列表后,當(dāng)一條新的短消息被接收后,首先從短 消息中獲取短信發(fā)送方的號碼,查詢電話薄中是否有該號碼,如果有該號碼就直接把短信 作為正常短信接收到收件箱;如果沒有該號碼,查詢該電話號碼是否在于黑名單列表中,如 果是,就直接把短信作為垃圾短信放入垃圾箱中,從而實(shí)現(xiàn)短信的初級過濾。該方案具有初 步的過濾能力,但對于既不是來源于黑名單也不是來源于通訊錄的短信則無能為力。雖然 這部分短信數(shù)量不多,但恰恰這部分短信容易給用戶造成困擾和損失。對短信進(jìn)行必要的內(nèi)容過濾是營造健康移動終端環(huán)境的重要環(huán)節(jié),但綜上所述, 國內(nèi)、外尚缺少高效、智能的短信內(nèi)容過濾產(chǎn)品。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種移動終端及其短信的過濾方法,以解決傳統(tǒng)的短信過濾技術(shù)效果不是很理想的問題。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的本發(fā)明提供了一種短信過濾方法,該方法包括獲取接收的短信的短信樣本向量;依據(jù)所述短信樣本向量對接收的短信的類型進(jìn)行支持向量機(jī)(SVM)識別;所述識別結(jié)果為垃圾短信時(shí),對發(fā)送所述垃圾短信的移動終端號碼進(jìn)行通訊錄匹 配;若所述號碼屬于所述通訊錄,則接收所述垃圾短信;否則,不接收所述垃圾短信;所述識別結(jié)果為正常短信時(shí),對發(fā)送所述正常短信的移動終端號碼進(jìn)行黑名單匹 配;若所述號碼屬于所述黑名單,則不接收所述正常短信;否則,接收所述正常短信。獲取接收的短信的短信樣本向量,具體為根據(jù)預(yù)定義的特征詞庫,將接收的短信文本中的非特征詞剔除;以所述特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大匹配法對剔除非特征詞 后的短信文本進(jìn)行分詞處理;對分詞后的短信文本進(jìn)行向量化和數(shù)字化,得到所述短信樣本向量T<xl,χ2, χ3,. . . χΝ>,其中,2彡N彡特征詞個數(shù)。對分詞后的短信文本進(jìn)行向量化和數(shù)字化,具體為采用特征提取算法對所述短信文本進(jìn)行向量化;根據(jù)預(yù)定義的字符庫,將所述短信文本中的特征詞轉(zhuǎn)化為對應(yīng)的字符xN。采用特征提取算法對所述短信文本進(jìn)行向量化,具體為采用期望交叉熵法對對所述短信文本進(jìn)行向量化。對接收的短信進(jìn)行SVM識別,具體為將所述短信樣本向量T<xl,x2,χ3,...χΝ>作為輸入向量帶入分類函數(shù)
*,將計(jì)算結(jié)果記為分量y ;所述y = -ι,表示接收的短 /=1
信為垃圾短信;y = 1,表示接收的短信為正常短信;其中,Xi是支持向量的輸入向量,1 ^ i ^n, η為支持向量庫中支持向量的個數(shù); Yi是支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,yi = 1、或yi = -1 ;X為所述短信樣 本向量T
; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自
動生成Y 二少y為支持向量庫中選取的任意一個支持向量的輸入向量,
Yj為輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或7」=-1。 所述 對接收的短信進(jìn)行SVM識別后,該方法還包括將所述短信樣本向量T<xl,χ2, χ3,... χΝ>作為輸入向量,將所述分量y作為輸出 向量,得到一組支持向量,并存入所述支持向量庫中。對接收的短信進(jìn)行SVM識別,具體為
對獲取的所述短信樣本向量進(jìn)行支持向量庫匹配,若所述短信樣本向量與支持向 量庫中某一組支持向量的輸入向量匹配,則將所述輸入向量對應(yīng)的輸出向量指示的分類作 為所述短信的分類;否則將所述短信樣本向量帶入所述分類函數(shù)。所述號碼屬于所述通訊錄時(shí),該方法還包括判定所述短信的分類錯誤,更新所述 支持向量庫;所述號碼不屬于所述通訊錄時(shí),該方法還包括判定所述短信的分類正確,將發(fā)送 所述垃圾短信的移動終端號碼添加到所述黑名單。所述號碼屬于所述黑名單時(shí),該方法還包括判定所述短信的分類錯誤,更新所述 支持向量庫。本發(fā)明還提供了一種移動終端,包括向量獲取模塊、SVM識別模塊、和過濾模塊, 其中所述向量獲取模塊,用于獲取接收的短信的短信樣本向量;所述SVM識別模塊,依據(jù)所述短信樣本向量對接收的短信的類型進(jìn)行SVM識別;所述過濾模塊,用于在所述SVM識別模塊的識別結(jié)果為垃圾短信時(shí),對發(fā)送所述 垃圾短信的移動終端號碼進(jìn)行通訊錄匹配;若所述號碼屬于所述通訊錄,則接收所述垃圾 短信;否則,不接收所述垃圾短信;還用于在所述識別結(jié)果為正常短信時(shí),對發(fā)送所述正常 短信的移動終端號碼進(jìn)行黑名單匹配;若所述號碼屬于所述黑名單,則不接收所述正常短 信;否則,接收所述正常短信。所述向量獲取模塊包括文本預(yù)處理子模塊,用于根據(jù)預(yù)定義的特征詞庫,將接收的短信文本中的非特征 詞剔除;文本分詞子模塊,用于以所述特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大 匹配法對剔除非特征詞后的短信文本進(jìn)行分詞處理;文本向量化子模塊,用于對分詞后的短信文本進(jìn)行向量化和數(shù)字化,得到所述短 信樣本向量T<xl, x2, x3,... xN>,其中,2 ( N彡特征詞個數(shù)。所述SVM識別模塊,還用于將所述短信樣本向量T<xl,x2, x3, . . . xN>作為輸入
η
向量帶入分類函數(shù)/O) =,將計(jì)算結(jié)果記為分量1 ;所述1
i=\
=-1,表示接收的短信為垃圾短信;y = 1,表示接收的短信為正常短信;其中,Xi是支持向量的輸入向量,1 ^ i ^n, η為支持向量庫中支持向量的個數(shù); Yi是支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,yi = 1、或yi = -1 ;X為所述短信樣 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自
動生成;f =力為支持向量庫中選取的任意一個支持向量的輸入向量,
Yj為輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或yj = -1 ;所述SVM識別模塊,還用于將所述短信樣本向量T<xl,χ2, χ3, . . . χΝ>作為輸入向 量,將所述分量y作為輸出向量,得到一組支持向量,并存入所述支持向量庫中。所述SVM識別模塊,還用于對獲取的所述短信樣本向量進(jìn)行支持向量庫匹配,若 所述短信樣本向量與支持向量庫中某一組支持向量的輸入向量匹配,則將所述輸入向量對
7應(yīng)的輸出向量指示的分類作為所述短信的分類;否則將所述短信樣本向量帶入所述分類函數(shù)。所述過濾模塊,還用于在所述號碼屬于所述黑名單時(shí),判定所述短信的分類錯誤, 并通知所述SVM識別模塊更新所述支持向量庫;還用于在所述號碼屬于所述通訊錄時(shí),判 定所述短信的分類錯誤,并通知所述SVM識別模塊更新所述支持向量庫;還用于在所述號 碼不屬于所述通訊錄時(shí),判定所述短信的分類正確,將發(fā)送所述垃圾短信的移動終端號碼 添加到所述黑名單。本發(fā)明的短信的過濾方案,通過采用支持向量機(jī)算法對短信進(jìn)行分類,同時(shí),還具 有自反饋功能,基于已分類的短信進(jìn)行簡單的通訊錄或黑名單匹配,對分類錯誤的短信進(jìn) 行反饋學(xué)習(xí)、更新支持向量庫;如此,使得支持向量庫不斷完善、過濾能力不斷地自行調(diào)整、 并增強(qiáng);由于支持向量機(jī)算法、以及通訊錄或黑名單匹配的結(jié)合使用,使得本發(fā)明的方案可 以針對格式各樣的短信,特別地,對于那些來源即不屬于黑名單、也不屬于通訊錄的短信進(jìn) 行了過濾。
圖1為本發(fā)明短信過濾的方法流程示意圖;圖2為本發(fā)明實(shí)現(xiàn)短信過濾的移動終端結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對本發(fā)明的技術(shù)方案進(jìn)一步詳細(xì)闡述。本發(fā)明的核心思想是采用支持向量機(jī)算法對短信進(jìn)行分類、以及簡單的通訊錄 或黑名單匹配查詢功能來實(shí)現(xiàn)移動終端短信的過濾。如圖1所示,本發(fā)明短信過濾的流程包括首先要獲取短信樣本向量,如步驟101 103 步驟101,對接收到的短信進(jìn)行預(yù)處理,將短信文本中的非特征詞剔除。具體的,可 以預(yù)先定制一個特征詞庫,根據(jù)該特征詞庫,將短信內(nèi)容中不屬于該特征詞庫的非特征詞 剔除,例如標(biāo)點(diǎn)符號等,這些內(nèi)容對于文本分類的意義有限,盡早剔除對于優(yōu)化后續(xù)步驟大
有裨益。例如一條短信明天三橋廣場華聯(lián)超市做優(yōu)惠活動,歡迎屆時(shí)光臨。經(jīng)過剔詞,得 到廣場華聯(lián)超市優(yōu)惠活動歡迎屆時(shí)光臨。步驟102,以特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大匹配法對剔除非特 征詞后的短信文本進(jìn)行分詞處理。承接上述例子,對剔詞得到的短信文本進(jìn)行分詞,得到 廣場/華聯(lián)超市/優(yōu)惠/活動/歡迎/屆時(shí)/光臨。步驟103,對分詞后的短信文本進(jìn)行向量化和數(shù)字化。承接上述例子,分詞后的短信文本廣場/華聯(lián)超市/優(yōu)惠/活動/歡迎/屆時(shí)/ 光臨中特征詞過多,向量化后維數(shù)過大,由SVM理論可知,這不利于SVM算法的高效執(zhí)行。為 了解決該問題,本發(fā)明采用特征提取算法對短信文本進(jìn)行向量化,現(xiàn)有的特征提取算法有 互信息、信息增益、文檔頻度、和期望交叉熵等,經(jīng)過實(shí)踐證明,期望交叉熵法效果最優(yōu);當(dāng) 然,其他幾種方法也可以采用,只是效果較期望交叉熵法稍差。
采用期望交叉熵法對剔詞、分詞后的短信文本進(jìn)行向量化后的形式為T<xl, x2, x3, ... xN>、即短信樣本向量,其中,2彡N彡特征詞個數(shù),經(jīng)過期望交叉 熵法對短信進(jìn)行向量化時(shí),可以得到一個最優(yōu)的N的取值。xN為特征詞的數(shù)字化結(jié)果,對特 征詞進(jìn)行數(shù)字化時(shí),如根據(jù)預(yù)先定義的字符庫,將特征詞轉(zhuǎn)化為對應(yīng)的字符;當(dāng)然,也可以 采用現(xiàn)有技術(shù)中其他的數(shù)據(jù)化方法,只要能對特征詞進(jìn)行數(shù)字化即可。步驟104,依據(jù)短信樣本向量對短信進(jìn)行SVM識別。短信經(jīng)過向量化和數(shù)字化后,得到一個短信樣本向量T<xl,χ2, χ3, . . . χΝ> (最優(yōu) 的),經(jīng)過SVM識別后,得到與T對應(yīng)的該短信的分類y,y = -1,表示垃圾短信;y = 1,表示 正常短信。將短信樣本向量T作為輸入向量,將分量y作為輸出向量,由此得到一組支持向 量,記為S= (T,y),多組支持向量組成了一個支持向量庫,記為Si = (xi; Yi) ;1 ^ i ^n, η為支持向量庫中支持向量的個數(shù);則Xi表示支持向量的輸入向量T,yi為支持向量的輸出 向量,指示Xi對應(yīng)的短信的分類,Yi = 1、或71 = -1。在實(shí)際應(yīng)用時(shí),移動終端中會預(yù)先保存一個支持向量庫,作為對新接收的短信進(jìn) 行SVM識別的根據(jù);當(dāng)然,理論上移動終端也可以不預(yù)先存儲支持向量(此時(shí)移動終端在接 收到短信時(shí)就無法進(jìn)行SVM識別),而是在接收到了若干條短信之后,對這些短信進(jìn)行SVM 訓(xùn)練,從而得到一個支持向量庫,這樣,后續(xù)接收的短信就可以進(jìn)行SVM識別。根據(jù)支持向量庫Si = (xi; yi),對短信進(jìn)行SVM識別時(shí),有兩種方式方式一將短信樣本向量T<xl,χ2, χ3, ... χΝ>作為輸入向量帶入下列分類函數(shù), 對該短信進(jìn)行分類分類函數(shù)為 其中,Xi是支持向量的輸入向量
η為支持向量庫中支持向量的個數(shù); Yi是支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,Yi = 1、或Yi = -1 ;X為所述短信樣 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自
動生成=Jy+— g乃A0^), ~為支持向量庫中選取的任意一個支持向量的輸入向量,
Yj為輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或yj = -1。將通過分類函數(shù)得到的計(jì)算結(jié)果記為分量y,y = -1,表示垃圾短信;y = 1,表示 正常短信。由此便得到了一組新的支持向量,存入支持向量庫中,使支持向量庫處于不斷地 更新中。該公式為SVM算法線性不可分情況下的分類函數(shù);K(*)為核函數(shù),起到維數(shù)轉(zhuǎn)化 的作用,從而使線性不可分情況下的問題在更高維的空間里可分。為了適應(yīng)上述SVM算法線性不可分情況下的分類函數(shù)
進(jìn)一步地,本發(fā)明還可以把短信樣本向量T映射到一 i=\
個高維特征空間H,并在此空間中運(yùn)用原空間的分類函數(shù)來實(shí)現(xiàn)內(nèi)積運(yùn)算,這樣將非線性問 題轉(zhuǎn)換成另一空間的線性問題來獲得一個樣本的歸屬。根據(jù)泛函的有關(guān)理論,只要一種核 函數(shù)滿足Mercer條件,它就對應(yīng)某一空間中的內(nèi)積,因此只要采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)這種線性不可分的分類問題。本發(fā)明中的核函數(shù)K(*)為混合核函數(shù),也稱作高斯核函數(shù)(徑向基函數(shù)(RBF)) 和多項(xiàng)式核函數(shù)的結(jié)合,其中
—Ilx — X 2高斯核函數(shù)次(x,x;)= expl--^-}σ .
2σ多項(xiàng)式核函數(shù)=Kpoly= ((X*Xi) +1) \則混合核函數(shù)為=Kmix= λ Kpoly+(I-X)Krbf,其中:q = 2,λ =0.5, σ =0. 3。方式二 對短信樣本向量T<xl,χ2, χ3, ... χΝ>進(jìn)行支持向量庫匹配,如果當(dāng)前的 短信樣本向量T<xl,χ2, χ3, ... χΝ>與支持向量庫Si = (xi; Yi)中某一組支持向量的輸入 向量匹配、即一致,則該組支持向量中YiW值就指示了當(dāng)前短信的類型;否則采用方式一進(jìn) 行SVM識別。步驟105,如果進(jìn)行SVM識別的結(jié)果為y = 1,則表示當(dāng)前短信為正常短信。抽取該 短信的移動終端號碼,進(jìn)行黑名單匹配;若屬于黑名單,則為錯分短信,然后進(jìn)行反饋學(xué)習(xí)、 即更新支持向量庫,移動終端不接收該短信;若不屬于黑名單,則正常接收之,此時(shí),是否將 該號碼添加入通訊錄有用戶決定。步驟106,如果進(jìn)行SVM識別的結(jié)果為y = _1,則表示當(dāng)前短信為垃圾短信。抽取 該短信的移動終端號碼,進(jìn)行通訊錄匹配;若屬于通訊錄,則為錯分短信,然后進(jìn)行反饋學(xué) 習(xí)、更新支持向量庫,移動終端接收該短信;若不屬于通訊錄,則拋棄該短信,并將其移動終 端號碼添加到黑名單。通過上述方法可知,本發(fā)明通過對已分類的短信進(jìn)行簡單的通訊錄或黑名單匹配 來確認(rèn)分類是否正確,并基于分類錯誤的短信進(jìn)行反饋學(xué)習(xí)、即更新支持向量庫,由此使得 支持向量庫不斷完善、過濾功能不斷地自行調(diào)整、并增強(qiáng);同時(shí),對于那些來源即不屬于黑 名單、也不屬于通訊錄的短信進(jìn)行了過濾。為了實(shí)現(xiàn)上述方法,本發(fā)明提供了一種移動終端,如圖2所示包括向量獲取模 塊、SVM識別模塊、和過濾模塊,其中向量獲取模塊,用于獲取接收的短信的短信樣本向量;SVM識別模塊,依據(jù)短信樣本向量對接收的短信的類型進(jìn)行SVM識別;過濾模塊,用于在SVM識別模塊的識別結(jié)果為垃圾短信時(shí),對發(fā)送垃圾短信的移 動終端號碼進(jìn)行通訊錄匹配;若號碼屬于通訊錄,則接收垃圾短信;否則,不接收垃圾短 信;還用于在識別結(jié)果為正常短信時(shí),對發(fā)送正常短信的移動終端號碼進(jìn)行黑名單匹配; 若號碼屬于黑名單,則不接收正常短信;否則,接收正常短信。向量獲取模塊包括文本預(yù)處理子模塊,用于根據(jù)預(yù)定義的特征詞庫,將接收的短信文本中的非特征 詞剔除;文本分詞子模塊,用于以特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大匹配 法對剔除非特征詞后的短信文本進(jìn)行分詞處理;文本向量化子模塊,用于對分詞后的短信文本進(jìn)行向量化和數(shù)字化,得到短信樣 本向量T<xl, χ2, χ3,· · · xN>,其中,2 ( N彡特征詞個數(shù)。SVM識別模塊,還用于將短信樣本向量T<xl,χ2, χ3, . . . χΝ>作為輸入向量帶入分
10類函數(shù)/0) = Σ};^ Κηι χ(Χ^Χ )+Κ ,將計(jì)算結(jié)果記為分量y ;y = -1,表示接收的 /=1
短信為垃圾短信;y = 1,表示接收的短信為正常短信;其中,Xi是支持向量的輸入向量,1 ^ i ^n, η為支持向量庫中支持向量的個數(shù); Yi是支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,yi = 1、或yi = -1 ;X為所述短信樣 本向量T<x 1,χ2,χ3,. . . χΝ> ; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自
動生成=yj-tyicci{XiXjyxi為支持向量庫中選取的任意一個支持向量的輸入向量,
Yj為輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或7」=-1。SVM識別模塊,還用于將短信樣本向量T<xl,x2,x3,. . . χΝ>作為輸入向量,將所述 分量y作為輸出向量,得到一組支持向量,并存入所述支持向量庫中。SVM識別模塊,還用于對獲取的短信樣本向量進(jìn)行支持向量庫匹配,若支持向量庫 中存在與獲取的短信樣本向量匹配的短信樣本向量,則使用匹配的短信樣本向量對應(yīng)的y 值標(biāo)記接收的短信的類型;否則,將獲取的短信樣本向量帶入分類函數(shù)。過濾模塊,還用于在號碼屬于黑名單時(shí),判定短信的分類錯誤,并通知SVM識別模 塊更新支持向量庫;還用于在號碼屬于通訊錄時(shí),判定短信的分類錯誤,并通知SVM識別模 塊更新支持向量庫;還用于在號碼不屬于通訊錄時(shí),判定短信的分類正確,將發(fā)送垃圾短信 的移動終端號碼添加到黑名單。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種短信過濾方法,其特征在于,該方法包括獲取接收的短信的短信樣本向量;依據(jù)所述短信樣本向量對接收的短信的類型進(jìn)行支持向量機(jī)(SVM)識別;所述識別結(jié)果為垃圾短信時(shí),對發(fā)送所述垃圾短信的移動終端號碼進(jìn)行通訊錄匹配;若所述號碼屬于所述通訊錄,則接收所述垃圾短信;否則,不接收所述垃圾短信;所述識別結(jié)果為正常短信時(shí),對發(fā)送所述正常短信的移動終端號碼進(jìn)行黑名單匹配;若所述號碼屬于所述黑名單,則不接收所述正常短信;否則,接收所述正常短信。
2.根據(jù)權(quán)利要求1所述短信過濾方法,其特征在于,獲取接收的短信的短信樣本向量, 具體為根據(jù)預(yù)定義的特征詞庫,將接收的短信文本中的非特征詞剔除; 以所述特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大匹配法對剔除非特征詞后的 短信文本進(jìn)行分詞處理;對分詞后的短信文本進(jìn)行向量化和數(shù)字化,得到所述短信樣本向量T<xl,χ2, χ3,. . . χΝ>,其中,2 ^ N彡特征詞個數(shù)。
3.根據(jù)權(quán)利要求2所述短信過濾方法,其特征在于,對分詞后的短信文本進(jìn)行向量化 和數(shù)字化,具體為采用特征提取算法對所述短信文本進(jìn)行向量化;根據(jù)預(yù)定義的字符庫,將所述短信文本中的特征詞轉(zhuǎn)化為對應(yīng)的字符xN。
4.根據(jù)權(quán)利要求2所述短信過濾方法,其特征在于,采用特征提取算法對所述短信文 本進(jìn)行向量化,具體為采用期望交叉熵法對對所述短信文本進(jìn)行向量化。
5.根據(jù)權(quán)利要求1所述短信過濾方法,其特征在于,對接收的短信進(jìn)行SVM識別,具體為將所述短信樣本向量T<xl,χ2,χ3,. . . χΝ>作為輸入向量帶入分類函數(shù) ,將計(jì)算結(jié)果記為分量y ;所述y = -1,表示接收的短信為垃圾短信;y = 1,表示接收的短信為正常短信;其中,Xi是支持向量的輸入向量,1 ^ i ^η,η為支持向量庫中支持向量的個數(shù);yi是 支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,Ii = 1、或71 = -1 ;χ為所述短信樣本向 量T<x 1,x2,x3,. . . xN> ; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自動生 Xi為支持向量庫中選取的任意一個支持向量的輸入向量,Yj為輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或yj = -1。
6.根據(jù)權(quán)利要求5所述短信過濾方法,其特征在于, 所述 Kmix= λ Kpoly+(I-A)Krbf ; 所述尺財(cái)(χ, X,) = exp{- 11 o ; 1 }σ ;
7.根據(jù)權(quán)利要求5或6所述短信過濾方法,其特征在于,對接收的短信進(jìn)行SVM識別 后,該方法還包括將所述短信樣本向量T<xl,x2,x3,. . . xN>作為輸入向量,將所述分量y作為輸出向量, 得到一組支持向量,并存入所述支持向量庫中。
8.根據(jù)權(quán)利要求7所述短信過濾方法,其特征在于,對接收的短信進(jìn)行SVM識別,具體為對獲取的所述短信樣本向量進(jìn)行支持向量庫匹配,若所述短信樣本向量與支持向量庫 中某一組支持向量的輸入向量匹配,則將所述輸入向量對應(yīng)的輸出向量指示的分類作為所 述短信的分類;否則將所述短信樣本向量帶入所述分類函數(shù)。
9.根據(jù)權(quán)利要求8所述短信過濾方法,其特征在于,所述號碼屬于所述通訊錄時(shí),該方法還包括判定所述短信的分類錯誤,更新所述支持向量庫;所述號碼不屬于所述通訊錄時(shí),該方法還包括判定所述短信的分類正確,將發(fā)送所述 垃圾短信的移動終端號碼添加到所述黑名單。
10.根據(jù)權(quán)利要求8所述短信過濾方法,其特征在于,所述號碼屬于所述黑名單時(shí),該方法還包括判定所述短信的分類錯誤,更新所述支持向量庫。
11.一種移動終端,其特征在于,包括向量獲取模塊、SVM識別模塊、和過濾模塊,其中所述向量獲取模塊,用于獲取接收的短信的短信樣本向量; 所述SVM識別模塊,依據(jù)所述短信樣本向量對接收的短信的類型進(jìn)行SVM識別; 所述過濾模塊,用于在所述SVM識別模塊的識別結(jié)果為垃圾短信時(shí),對發(fā)送所述垃圾 短信的移動終端號碼進(jìn)行通訊錄匹配;若所述號碼屬于所述通訊錄,則接收所述垃圾短信; 否則,不接收所述垃圾短信;還用于在所述識別結(jié)果為正常短信時(shí),對發(fā)送所述正常短信的 移動終端號碼進(jìn)行黑名單匹配;若所述號碼屬于所述黑名單,則不接收所述正常短信;否 則,接收所述正常短信。
12.根據(jù)權(quán)利要求11所述移動終端,其特征在于,所述向量獲取模塊包括文本預(yù)處理子模塊,用于根據(jù)預(yù)定義的特征詞庫,將接收的短信文本中的非特征詞剔除;文本分詞子模塊,用于以所述特征詞庫為依據(jù),采用機(jī)械分詞方法中的正向最大匹配 法對剔除非特征詞后的短信文本進(jìn)行分詞處理;文本向量化子模塊,用于對分詞后的短信文本進(jìn)行向量化和數(shù)字化,得到所述短信樣 本向量T<xl, χ2, χ3,· · · xN>,其中,2 ( N彡特征詞個數(shù)。
13.根據(jù)權(quán)利要求11或12所述移動終端,其特征在于,所述SVM識別模塊,還用于將所述短信樣本向量T<xl,χ2, χ3,... χΝ>作為輸入向量帶η入分類函數(shù)/O) = Z^qUx* + Κ ,將計(jì)算結(jié)果記為分量y ;所述y = -l,表/=1示接收的短信為垃圾短信;y = 1,表示接收的短信為正常短信;其中,Xi是支持向量的輸入向量,1 ^ i ^η,η為支持向量庫中支持向量的個數(shù);yi是3支持向量的輸出向量,指示Xi對應(yīng)的短信的分類,Yi = 1、或71 = "I ;X為所述短信樣本向 量T<x 1,x2,x3,. . . xN> ; α i是SVM算法中每一個支持向量的Lagrange乘子,由算法自動生 成;b*=yj一nΣi=1yiαi(xixj),xj為支持向量庫中選取的任意一個支持向量的輸入向量,yj為 /=1輸出向量,指示Xj對應(yīng)的短信的分類,Yj = 1、或yj = -1 ;所述SVM識別模塊,還用于將所述短信樣本向量T<xl,χ2, χ3, ...χΝ>作為輸入向量, 將所述分量y作為輸出向量,得到一組支持向量,并存入所述支持向量庫中。
14.根據(jù)權(quán)利要求13所述移動終端,其特征在于,所述SVM識別模塊,還用于對獲取 的所述短信樣本向量進(jìn)行支持向量庫匹配,若所述短信樣本向量與支持向量庫中某一組支 持向量的輸入向量匹配,則將所述輸入向量對應(yīng)的輸出向量指示的分類作為所述短信的分 類;否則將所述短信樣本向量帶入所述分類函數(shù)。
15.根據(jù)權(quán)利要求14所述移動終端,其特征在于,所述過濾模塊,還用于在所述號碼屬于所述黑名單時(shí),判定所述短信的分類錯誤,并通 知所述SVM識別模塊更新所述支持向量庫;還用于在所述號碼屬于所述通訊錄時(shí),判定所 述短信的分類錯誤,并通知所述SVM識別模塊更新所述支持向量庫;還用于在所述號碼不 屬于所述通訊錄時(shí),判定所述短信的分類正確,將發(fā)送所述垃圾短信的移動終端號碼添加 到所述黑名單。
全文摘要
本發(fā)明公開了一種移動終端及其短信過濾的方法,通過采用支持向量機(jī)算法對短信進(jìn)行分類,同時(shí),還具有自反饋功能,基于已分類的短信進(jìn)行簡單的通訊錄或黑名單匹配,對分類錯誤的短信進(jìn)行反饋學(xué)習(xí)、更新支持向量庫;如此,使得支持向量庫不斷完善、過濾能力不斷地自行調(diào)整、并增強(qiáng);由于支持向量機(jī)算法、以及通訊錄或黑名單匹配的結(jié)合使用,使得本發(fā)明的方案可以針對格式各樣的短信,特別地,對于那些來源即不屬于黑名單、也不屬于通訊錄的短信進(jìn)行了過濾。
文檔編號H04M1/275GK101902523SQ20101022527
公開日2010年12月1日 申請日期2010年7月9日 優(yōu)先權(quán)日2010年7月9日
發(fā)明者孫知信, 朱佳佳, 查敦林, 董昊 申請人:中興通訊股份有限公司