本發(fā)明涉及移動通信技術(shù)領(lǐng)域,尤其涉及一種垃圾短信分析方法和裝置。
背景技術(shù):
隨著移動通信服務(wù)的不斷發(fā)展,利用短信編造、散布各種謠言,引發(fā)社會恐慌、破壞社會穩(wěn)定,傳播黃色信息、毒化社會風氣,進行勒索、詐騙的違法犯罪活動層出不窮。垃圾短信發(fā)送者通過不斷變化短信內(nèi)容以逃脫現(xiàn)有短信監(jiān)管,研究提高垃圾短信治理靈活性,及時攔截垃圾短信有著十分重要的意義。
在現(xiàn)有技術(shù)方案中,垃圾短信實時攔截主要在通信網(wǎng)絡(luò)側(cè)進行,對監(jiān)控到的短信根據(jù)白名單、黑名單、正則表達式策略和流量策略進行實時監(jiān)控判別并進行相應(yīng)的放行、攔截、加入黑名單、審核等處理。正則表達式策略由精確關(guān)鍵字(詞)加上正則表達式的元字符組成,如“精裝\w{1,9}別\w{1,5}墅\w{1,8}搶購)”。當垃圾短信實時監(jiān)控系統(tǒng)監(jiān)控到的短信命中正則表達式策略時,則依據(jù)策略處置動作對該短信以及發(fā)送該短信發(fā)送號碼進行相應(yīng)的處理,例如對該短信進行攔截處理,并將發(fā)送該短信的發(fā)送號碼進行加入黑名單處理,或者轉(zhuǎn)發(fā)到人工審核單元進行人工審核處理等。
現(xiàn)有的技術(shù)方案使用正則表達式策略對垃圾短信進行實時攔截過濾,正則表達式策略采用模糊匹配方式,策略配置和策略匹配靈活度較高,但因正則表達式本身語法較復(fù)雜,編寫正則表達式策略對個人能力要求較高,而現(xiàn)有生產(chǎn)中基本是根據(jù)人工個人經(jīng)驗制定的正則策略,策略垃圾短信覆蓋率較低(內(nèi)容相近的短信可能因為人為原因制定多條正則策略),導(dǎo)致策略較多,短信過濾效率降低。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種垃圾短信分析方法和裝置,用以提高正則策略的覆蓋率和垃圾短信過濾效率。
本發(fā)明實施例提供一種垃圾短信分析方法,包括:
對預(yù)處理后的待分析垃圾短信進行分詞得到多個詞語;
利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞提取模型從得到的詞語中提取關(guān)鍵詞;以及
利用根據(jù)所述垃圾短信樣本集確定出的關(guān)鍵詞組訓(xùn)練模型,從所述關(guān)鍵詞中提取組成關(guān)鍵詞組的關(guān)鍵詞;
針對所述關(guān)鍵詞組所包含的每一關(guān)鍵詞,按照各關(guān)鍵詞在所述待分析垃圾短信中的出現(xiàn)順序,確定相鄰兩個關(guān)鍵字在所述垃圾短信樣本集包含的垃圾短信中同時出現(xiàn)時的最小距離和最大距離;
根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略。
本發(fā)明實施例提供一種垃圾短信分析裝置,包括:
第一分詞單元,用于對預(yù)處理后的待分析垃圾短信進行分詞得到多個詞語;
關(guān)鍵詞提取單元,用于利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞提取模型從得到的詞語中提取關(guān)鍵詞;
關(guān)鍵詞組提取單元,用于利用根據(jù)所述垃圾短信樣本集確定出的關(guān)鍵詞組訓(xùn)練模型,從所述關(guān)鍵詞中提取組成關(guān)鍵詞組的關(guān)鍵詞;
第一確定單元,用于針對所述關(guān)鍵詞組所包含的每一關(guān)鍵詞,按照各關(guān)鍵詞在所述待分析垃圾短信中的出現(xiàn)順序,確定相鄰兩個關(guān)鍵字在所述垃圾短信樣本集包含的垃圾短信中同時出現(xiàn)時的最小距離和最大距離;
生成單元,用于根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略。
本發(fā)明實施例提供的垃圾短信分析方法和裝置,首先通過關(guān)鍵詞提取模型從待分析垃圾短信中提取關(guān)鍵詞,進而利用關(guān)鍵詞組訓(xùn)練模型從提取的關(guān)鍵詞中提取能夠組成關(guān)鍵詞組的關(guān)鍵詞,并根據(jù)得到的關(guān)鍵詞組中包含的關(guān)鍵詞在垃圾短信樣本中的最大距離和最小距離生成用于過濾垃圾短信的正則策略,這樣,使得生成的正則策略中包含的各關(guān)鍵詞之間的距離是可變的,從而增加了正則策略的覆蓋率,提高了垃圾短信的過濾效率。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1為本發(fā)明實施例中,垃圾短信分析方法的實施流程示意圖;
圖2為本發(fā)明實施例中,關(guān)鍵詞提取模型確定方法的實施流程示意圖;
圖3為本發(fā)明實施例中,關(guān)鍵詞組訓(xùn)練模型確定方法的實施流程示意圖;
圖4為本發(fā)明實施例中,垃圾短信分析裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了提高正則策略的覆蓋率和垃圾短信過濾效率,本發(fā)明實施例提供了一種垃圾短信分析方法和裝置。
以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實施例進行說明,應(yīng)當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明,并且在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
如圖1所示,為本發(fā)明實施例提供的垃圾短信分析方法的實施流程示意圖, 可以包括以下步驟:
S11、對預(yù)處理后的待分析垃圾短信進行分詞得到多個詞語。
具體實施時,首先需要對待分析的垃圾短信進行預(yù)處理,主要包括:剔除停用詞、依據(jù)特殊字符(如☆、◣、、╬等)庫刪除待分析垃圾短信中的特殊字符,并進行數(shù)字變換,例如,將⑩、Ⅷ、壹等均轉(zhuǎn)換成阿拉伯數(shù)字。預(yù)處理完成之后再對待分析垃圾短信進行分詞處理。
具體實施時,可以使用開源分詞工具對預(yù)處理后的待分析垃圾短信進行中文分詞。具體的,首先提取出電話號碼、URL、郵箱、銀行賬號等回聯(lián)號碼,再剔除標點符號后進行中文分詞并提取一般分詞結(jié)果得到多個詞語,分詞結(jié)果可以分為回聯(lián)號碼和一般分詞結(jié)果。
由于回聯(lián)號碼具有較高的辨識度,因此,本發(fā)明實施例中對于提取出的回聯(lián)號碼可以直接與后續(xù)對垃圾短信進行分析提取出的關(guān)鍵詞或者關(guān)鍵詞組一起生成正則策略。
S12、利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞提取模型從得到的詞語中提取關(guān)鍵詞。
S13、利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞組訓(xùn)練模型,從關(guān)鍵詞中提取組成關(guān)鍵詞組的關(guān)鍵詞。
S14、針對關(guān)鍵詞組所包含的每一關(guān)鍵詞,按照各關(guān)鍵詞在待分析垃圾短信中的出現(xiàn)順序,確定相鄰兩個關(guān)鍵字在垃圾短信樣本集包含的垃圾短信中同時出現(xiàn)時的最小距離和最大距離。
S15、根據(jù)關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略。
其中,步驟S12中,關(guān)鍵詞提取模型可以根據(jù)垃圾短信樣本集確定出。其中,垃圾短信樣本集中包含若干的垃圾短信樣本,垃圾短信樣本可以為通過人工審核方式確定出的。具體實施時,可以從垃圾短信中央管理平臺獲取人工審核后的正常短信樣本集(R)和垃圾短信樣本集(S)作為訓(xùn)練集。
根據(jù)垃圾短信樣本集,本發(fā)明實施例中,可以按照圖2所示的流程確定關(guān)鍵詞提取模型:
S21、對預(yù)處理后的、垃圾短信樣本集中包含的垃圾短信進行分詞得到多個詞語。
具體實施時,對于垃圾短信樣本集中包含的各垃圾短信同樣需要根據(jù)步驟S11中的預(yù)處理方式對各垃圾短信進行預(yù)處理,并未預(yù)處理后的每一垃圾短信進行分詞,分詞結(jié)果同樣可以分為回聯(lián)號碼和一般分詞結(jié)果。根據(jù)分詞結(jié)果,分別統(tǒng)計每一垃圾短信包含的詞語數(shù)量和各垃圾短信包含的詞語數(shù)量之和。
對于正常短信樣本集可以采用同樣的方式進行分詞處理,得到回聯(lián)號碼和一般分詞結(jié)果。同樣,可以根據(jù)分詞結(jié)果,分別統(tǒng)計每一正常短信包含的詞語數(shù)量和各正常短信包含的詞語數(shù)量之和。
S22、將分詞得到的各詞語按照預(yù)設(shè)劃分原則劃分為關(guān)鍵詞集合和非關(guān)鍵詞集合。
具體實施時,可以按照預(yù)設(shè)的關(guān)鍵詞庫從對各垃圾短信樣本進行分詞得到的詞語中提取關(guān)鍵詞組成關(guān)鍵詞集合,確定其它詞語為非關(guān)鍵詞組成非關(guān)鍵詞集合。分別統(tǒng)計各垃圾短信包含的關(guān)鍵詞數(shù)量和非關(guān)鍵詞的數(shù)量,以及垃圾短信樣本集包含的關(guān)鍵詞數(shù)量之和Ks和非關(guān)鍵詞數(shù)量之和Ns。
需要說明的是,相同的詞語在不同的短信中,其屬性可能不同。例如,“貸款”在經(jīng)濟詐騙類短信中屬于關(guān)鍵詞,而在一些類似反動類短信中并不屬于非關(guān)鍵詞。因此,具體實施時,為了提高關(guān)鍵詞提取結(jié)果的準確性,可以結(jié)合人工提取方式以準確區(qū)分關(guān)鍵詞和非關(guān)鍵詞。
同樣,可以對正常短信樣本集進行劃分,得到關(guān)鍵詞集合和非關(guān)鍵詞集合,并分別統(tǒng)計各正常短信包含的關(guān)鍵詞數(shù)量和非關(guān)鍵詞的數(shù)量,以及正常短信樣本集包含的關(guān)鍵詞數(shù)量之和Kr和非關(guān)鍵詞數(shù)量之和Nr。
S23、針對關(guān)鍵詞集合包含的每一詞語,根據(jù)預(yù)設(shè)的特征項統(tǒng)計該詞語的特征項在關(guān)鍵詞集合中的第一特征項值。
本發(fā)明實施例中,使用的特征項包括詞語出現(xiàn)首位置(loc),詞性(ps)和詞語的TF-IDF(ti,詞頻-逆向文件頻率)。其中,可以按照以下公式確定各特征項對應(yīng)的特征項值定義如下:
詞語出現(xiàn)首位置特征項值是指在包含該詞語的垃圾短信中,該詞語之前出現(xiàn)的詞語總數(shù)與該詞語所在垃圾短信包含的詞語總數(shù),即: loc需要針對每一垃圾短信分別進行統(tǒng)計,該特征項中,需要依據(jù)該詞語之前出現(xiàn)的詞語總數(shù)以及該詞語所在垃圾短信包含的詞語總數(shù)。
詞性特征項值是指該類詞性詞語總數(shù)與詞語總數(shù)的比值,即 詞性特征項值可以針對垃圾短信樣本集進行統(tǒng)計,即統(tǒng)計垃圾短信樣本集中包含的各垃圾短信分詞得到的各個詞語中,某類詞性詞語總數(shù)與垃圾短信樣本集包含的詞語總數(shù)的比值。
TF-IDF特征項值可以利用如下公式進行計算:ti=TF*IDF,TF(詞頻,Term Frequency),是指詞語在垃圾短信樣本中出現(xiàn)的頻率,即對垃圾短信樣本集分詞得到的分詞結(jié)果中、該詞語的數(shù)量與詞語總數(shù)的比值;IDF可以按照以下公式進行計算:包含該詞語的短信越少,IDF越大,說明該詞語具有很好的類別區(qū)分能力,對于回聯(lián)號碼(如電話號碼、URL(統(tǒng)一資源定位符)、郵箱和銀行賬號等)可以增加其IDF值。
S24、針對非關(guān)鍵詞集合包含的每一詞語,根據(jù)所述特征項統(tǒng)計該詞語的特征項在非關(guān)鍵詞集合中的第二特征項值。
對于非關(guān)鍵詞集合中包含的每一詞語,同樣可以按照步驟S23中分別計算每一詞語的各特征項對應(yīng)的特征項值,這里不再贅述。
S25、針對任一詞語,根據(jù)該詞語對應(yīng)的第一特征項值和第二特征項值分別確定該詞語的特征項在關(guān)鍵詞集合中對應(yīng)的第一概率值和在非關(guān)鍵詞集合中對應(yīng)的第二概率值。
具體的,以P(loc|Ks)表示該詞語的詞語出現(xiàn)首位置對應(yīng)的特征項值在關(guān)鍵詞集合中出現(xiàn)的第一概率值,則P(loc|Ks)可以表示為某位置的關(guān)鍵詞的總數(shù)與關(guān)鍵詞集合包含的關(guān)鍵詞總數(shù)的比值,即對于某關(guān)鍵詞來說,可以統(tǒng)計與該關(guān)鍵詞的詞語出現(xiàn)首位置對應(yīng)的特征項值相同的關(guān)鍵詞數(shù)量,作為某位置的關(guān)鍵詞的總數(shù)。
以P(pi|Ks)表示該詞語的詞性在關(guān)鍵詞集合中出現(xiàn)的第一概率值,則P(pi|Ks)可以表示為某位置的關(guān)鍵詞的總數(shù)與關(guān)鍵詞集合包含的關(guān)鍵詞總數(shù)的比值,即對于某關(guān)鍵詞來說,可以統(tǒng)計與該關(guān)鍵詞的詞性對應(yīng)的特征項值相同的關(guān)鍵詞數(shù)量,作為某詞性的關(guān)鍵詞的總數(shù)。
以P(ti|Ks)表示該詞語的TF-IDF在關(guān)鍵詞集合中出現(xiàn)的第一概率值,則P(ti|Ks)可以表示為相同ti的關(guān)鍵詞的總數(shù)與關(guān)鍵詞集合包含的關(guān)鍵詞總數(shù)的比值,即對于某關(guān)鍵詞來說,可以統(tǒng)計與該關(guān)鍵詞的ti值相同關(guān)鍵詞數(shù)量,作為某詞性的關(guān)鍵詞的總數(shù)。
同樣,可以確定出非關(guān)鍵詞集合包含的每一詞語的特征項值在非關(guān)鍵詞集合中對應(yīng)的第二概率值。
以P(loc|Ns)表示該詞語的詞語出現(xiàn)首位置對應(yīng)的特征項值在非關(guān)鍵詞集合中出現(xiàn)的第二概率值,則P(loc|Ns)可以表示為某位置的非關(guān)鍵詞的總數(shù)與非關(guān)鍵詞集合包含的非關(guān)鍵詞總數(shù)的比值,即對于某非關(guān)鍵詞來說,可以統(tǒng)計與該非關(guān)鍵詞的詞語出現(xiàn)首位置對應(yīng)的特征項值相同的非關(guān)鍵詞數(shù)量,作為某位置的非關(guān)鍵詞的總數(shù)。
以P(pi|Ns)表示該詞語的詞性在非關(guān)鍵詞集合中出現(xiàn)的第二概率值,則P(pi|Ns)可以表示為某位置的非關(guān)鍵詞的總數(shù)與非關(guān)鍵詞集合包含的非關(guān)鍵詞總數(shù)的比值,即對于某非關(guān)鍵詞來說,可以 統(tǒng)計與該非關(guān)鍵詞的詞性對應(yīng)的特征項值相同的非關(guān)鍵詞數(shù)量,作為某詞性的非關(guān)鍵詞的總數(shù)。
以P(ti|Ns)表示該詞語的TF-IDF在非關(guān)鍵詞集合中出現(xiàn)的第二概率值,則P(ti|Ns)可以表示為相同ti的非關(guān)鍵詞的總數(shù)與非關(guān)鍵詞集合包含的非關(guān)鍵詞總數(shù)的比值,即對于某非關(guān)鍵詞來說,可以統(tǒng)計與該非關(guān)鍵詞的ti值相同非關(guān)鍵詞數(shù)量,作為某詞性的非關(guān)鍵詞的總數(shù)。
S26、根據(jù)確定出的第一概率值和第二概率值以及垃圾短信中出現(xiàn)關(guān)鍵詞和非關(guān)鍵詞的概率值,分別確定該詞語在垃圾短信中成為關(guān)鍵詞的第三概率值和在非垃圾短信中成為非關(guān)鍵詞的第四概率值。
具體實施時,可以按照以下公式確定該詞語在垃圾短信中成為關(guān)鍵詞的第三概率值:(為了便于描述,以P(Ks|loc,ps,ti)表示第三概率值)
其中,P(Ks)表示垃圾短信中出現(xiàn)關(guān)鍵詞的概率,具體的,可以按照以下公式進行計算,
按照以下公式確定該詞語在垃圾短信中成為非關(guān)鍵詞的第四概率值:(為了便于描述,以P(Ns|loc,ps,ti)表示第四概率值)
其中,P(Ns)表示垃圾短信中出現(xiàn)非關(guān)鍵詞的概率,具體的,可以按照以下公式進行計算,
S27、根據(jù)確定出的第三概率值和第四概率值,確定該詞語對應(yīng)的關(guān)鍵詞提取模型。
具體的,可以按照以下公式確定該詞語對應(yīng)的關(guān)鍵詞提取模型(P): P值越大,表明該詞語在垃圾短信中成為關(guān)鍵詞的概率更大。
具體實施時,步驟S12中,針對待分析垃圾短信進行分詞得到的多個詞語,如果根據(jù)關(guān)鍵詞提取模型確定出的該詞語對應(yīng)的P值大于等于預(yù)設(shè)閾值時,可以確定該詞語為關(guān)鍵詞。
由于正則策略通常由多個關(guān)鍵詞和正則字符組成,因此,本發(fā)明實施例中,在根據(jù)關(guān)鍵詞提取模型提取出關(guān)鍵詞后,還可以進一步根據(jù)提取的關(guān)鍵詞得到關(guān)鍵詞組訓(xùn)練模型。具體的,可以按照圖3所示的流程實施:
S31、根據(jù)第三概率值由大至小的順序依次選擇預(yù)設(shè)數(shù)量的關(guān)鍵詞。
本發(fā)明實施例中,可以根據(jù)第三概率值通過排序方式選擇排序靠前的關(guān)鍵詞,即按照第三概率值由大至小的順序選擇預(yù)設(shè)數(shù)量的關(guān)鍵詞。
S32、針對選擇出的任兩個關(guān)鍵詞,統(tǒng)計該兩個關(guān)鍵詞在同一垃圾短信中同時出現(xiàn)時,該兩個關(guān)鍵詞之間的詞間距離。
由于關(guān)鍵詞詞間距離對垃圾短信判定影響較大,因此,本發(fā)明實施例中選擇詞間距離(dis)作為關(guān)鍵詞組選擇的特征項之一。該兩個關(guān)鍵詞之間的詞間距離可以定義為該兩個關(guān)鍵詞之間包含的單字的數(shù)量。
S33、針對選擇出的任兩個關(guān)鍵詞,統(tǒng)計該兩個關(guān)鍵詞在同一垃圾短信中同時出現(xiàn)時的TF-IDF值。
為了提高關(guān)鍵詞組提取的準確性,本發(fā)明實施例中,選擇的另外一個提取關(guān)鍵詞組的特征項為TF-IDF,即兩個關(guān)鍵詞同時在同一垃圾短信中出現(xiàn)時的TF-IDF值(ti’)。ti'=TF’*IDF’,其中,TF’為該兩個關(guān)鍵詞在同一短信中出現(xiàn)的次數(shù),IDF’可以按照以下公式計算:
S34、分別確定該兩個關(guān)鍵詞的詞間距離在關(guān)鍵詞集合中出現(xiàn)的第五概率值和在非關(guān)鍵詞集合中出現(xiàn)的第六概率值。
以P(dis|Ks')表示第五概率值,則以 P(dis|Ns')表示第六概率值,則
S35、分別確定該兩個關(guān)鍵詞的TF-IDF值在關(guān)鍵詞集合中出現(xiàn)的第七概率值和在非關(guān)鍵詞集合中出現(xiàn)的第八概率值。
以P(dw|Ks')表示第七概率值,則以P(dw|Ns')表示第八概率值,則
其中,關(guān)鍵詞組和非關(guān)鍵詞組可以根據(jù)經(jīng)驗值進行設(shè)置。
S36、根據(jù)第五概率值和第七概率值以及垃圾短信中出現(xiàn)關(guān)鍵詞組的概率值,確定該兩個關(guān)鍵詞在垃圾短信中成為關(guān)鍵詞組的第九概率值。
具體實施時,可以按照以下公式確定第九概率值:
其中,P(Ks')表示垃圾短信中出現(xiàn)關(guān)鍵詞組的概率, Pi(Ws')表示詞語i出現(xiàn)在垃圾短信中的概率,Pj(s'W表)示詞語i出現(xiàn)在垃圾短信中的概率,
S37、根據(jù)第六概率值和第八概率值以及垃圾短信中出現(xiàn)非關(guān)鍵詞組的概率值,確定該兩個關(guān)鍵詞在垃圾短信中成為非關(guān)鍵詞組的第十概率值。
具體實施時,可以按照以下公式確定第十概率值:
其中,P(Ns')表示垃圾短信中出現(xiàn)非關(guān)鍵詞組的概率,
S38、根據(jù)第九概率值和第十概率值,確定該兩個關(guān)鍵詞對應(yīng)的關(guān)鍵詞組訓(xùn)練模型。
具體的,根據(jù)第九概率值和第十概率值,可以按照以下公式確定該兩個關(guān)鍵詞對應(yīng)的關(guān)鍵詞組訓(xùn)練模型
同樣,在利用關(guān)鍵詞組提取模型從提取的關(guān)鍵詞中提取關(guān)鍵詞組時,如果根據(jù)關(guān)鍵詞組提取模型確定出的任兩個關(guān)鍵詞對應(yīng)的P'值大于等于預(yù)設(shè)閾值時,可以確定該兩個關(guān)鍵詞組成關(guān)鍵詞組。
具體實施時,在利用關(guān)鍵詞組訓(xùn)練模型從待分析垃圾短信中提取出關(guān)鍵詞組后,可以針對關(guān)鍵詞組所包含的每一關(guān)鍵詞,按照各關(guān)鍵詞在所述待分析垃圾短信中的出現(xiàn)順序,確定相鄰兩個關(guān)鍵字在所述垃圾短信樣本集包含的垃圾短信中同時出現(xiàn)時的最小詞間距離(dismin)和最大詞間距離(dismax),并據(jù)此生成正則策略。
具體的,提取的關(guān)鍵詞組包含的關(guān)鍵詞按照各關(guān)鍵詞在待分析垃圾短信中的出現(xiàn)順序?qū)懭胝齽t表達式中,各關(guān)鍵詞間限定符的長度(如:?,{n},{n,m},因為短信內(nèi)容長度較短,不會出現(xiàn)限定符:*、+、{n,}),使用詞語間距離結(jié)果dismin,dismax。若dismin,dismax值相等,則用{n}作為詞語間限定符;若dismin,dismax值不相等,且dismax值為1,則使用?作為詞語間限定符;若dismin,dismax值不相等,且dismax值大于1,則使用{dismin,dismax}作為詞語間限定符。
由于垃圾短信發(fā)送者通常會以同音詞或者近似詞來替代常用的關(guān)鍵詞以避免短信被過濾,例如,其可能使用代款替換貸款,車侖替換輪等,為了進一步提高生成的正則策略的覆蓋率,本發(fā)明實施例中,在執(zhí)行步驟S15之前。根據(jù)預(yù)設(shè)的編輯距離算法,對有一定轉(zhuǎn)換的近似中文、英文詞語進行識別,主要進行詞語的拼音、筆畫的編輯距離計算新識別的詞語與預(yù)設(shè)的詞語庫中包含的詞語的相似度,在生成正則策略時合并相似度滿足條件的詞語。
具體的,針對對待分析垃圾短信進行分詞得到的每一詞語,根據(jù)預(yù)設(shè)的詞語庫確定該詞語與所述詞語庫中包含的詞語之間的編輯距離;根據(jù)該編輯距離確定該詞語與詞語庫中包含的詞語之間的相似參數(shù)值。例如,代款:貸款,拼音編輯距離為0,相似度為1;車侖:輪,筆畫編輯距離0,相似度1,這樣,在生成正則策略時,可以首先判斷該詞語是否存在于關(guān)鍵詞組所包含的關(guān)鍵詞中,如果包含,則在生成正則策略時,合并該詞語與所述詞語庫中包含的、與該詞語之間的相似參數(shù)值不大于預(yù)設(shè)值的相似詞語,例如,可將上述經(jīng)過轉(zhuǎn)換的詞語進行合并,得到的正則策略如下:(代|貸)款,(車侖|輪)。
具體實施時,對于一些在垃圾短信中出現(xiàn)頻率較高的關(guān)鍵詞,由于垃圾短信發(fā)送者通常對其進行變換,例如,在關(guān)鍵詞內(nèi)部字間增加英文字母,標點符號等,影響垃圾短信判定,為此,本發(fā)明實施例中在執(zhí)行步驟S15之前,還可以對一些高頻關(guān)鍵詞包含的單個字間生成限定范圍,該限定范圍的取值可以根據(jù)經(jīng)驗值進行設(shè)置,例如,可以設(shè)置為\w{0,4}。
基于此,本發(fā)明實施例提供的垃圾短信分析方法,還可以包括以下步驟:針對分詞得到的每一詞語,根據(jù)所述關(guān)鍵詞提取模型和該詞語在垃圾短信中出現(xiàn)的概率值確定該詞語對應(yīng)的詞頻參數(shù)值;如果所述詞頻參數(shù)值大于預(yù)設(shè)閾值,則在根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略時,還可以包括:判斷該詞語是否存在于所述關(guān)鍵詞組所包含的關(guān)鍵詞中;如果是,則在生成所述正則策略時,在該詞語包含的各字之間生成預(yù)設(shè)的限定范圍。
例如,有待分析短信內(nèi)容:“寧波銀行房產(chǎn)抵押代款,手續(xù)簡便,靈活方便,多種產(chǎn)品滿足您各類融資需求,聯(lián)系人:田經(jīng)理咨詢電話:51808376。”,根據(jù)本發(fā)明實施例可以按照以下步驟生成正則策略:假設(shè)利用關(guān)鍵詞提取模型和關(guān)鍵詞組訓(xùn)練模型提取到的關(guān)鍵詞組為:“抵押代款融資51808376”,對提取的關(guān)鍵詞與預(yù)設(shè)的詞語庫進行編輯距離計算,發(fā)現(xiàn)有:“代款”與“貸款”相似,則生成規(guī)則:(代|貸)款;另外,需要對高頻垃圾關(guān)鍵詞增加正則限定范 圍,如關(guān)鍵詞“抵押”在高頻垃圾關(guān)鍵詞庫中,則可以生成規(guī)則:抵\w{0,4}押;根據(jù)垃圾短信樣本集進行統(tǒng)計,抵押、代款同時出現(xiàn)在垃圾短信樣本集包含的垃圾短信中時,兩者之間最小詞間距離dismin和最大詞間距離dismax分別為1和7;代款、融資同時出現(xiàn)在垃圾短信樣本集包含的垃圾短信中時,兩者之間最小詞間距離dismin和最大詞間距離dismax分別為0和16;融資、51808376同時出現(xiàn)在垃圾短信樣本集包含的垃圾短信中時,兩者之間最小詞間距離dismin和d最大詞間距離ismax分別都為2。則生成如下的正則策略:抵\w{0,4}押\w{1,7}代款\w{0,16}融資\w{2}51808376。
最后,可以將生成的正則策略輸出至垃圾短信攔截系統(tǒng)用于垃圾短信的實時攔截過濾。
本發(fā)明實施例中,首先通過關(guān)鍵詞提取模型從待分析垃圾短信中提取關(guān)鍵詞,進而利用關(guān)鍵詞組訓(xùn)練模型從提取的關(guān)鍵詞中提取能夠組成關(guān)鍵詞組的關(guān)鍵詞,并根據(jù)得到的關(guān)鍵詞組中包含的關(guān)鍵詞在垃圾短信樣本中的最大距離和最小距離生成用于過濾垃圾短信的正則策略,這樣,使得生成的正則策略中包含的各關(guān)鍵詞之間的距離是可變的,從而增加了正則策略的覆蓋率,提高了垃圾短信的過濾效率。另外,在生成正則策略時,對于高頻關(guān)鍵詞包含的單字之間生成限定范圍,還可以根據(jù)預(yù)設(shè)的詞語庫進一步計算提取出的關(guān)鍵詞組包含的各關(guān)鍵詞與該詞語庫中詞語之間的編輯距離,根據(jù)編輯距離確定兩個詞語之間的相似參數(shù)值,并合并相似參數(shù)值不大于預(yù)設(shè)閾值的詞語,以提高正則策略的覆蓋率,進而提高垃圾短信的過濾效率。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種垃圾短信分析裝置,由于上述裝置解決問題的原理與垃圾短信分析方法相似,因此上述裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。
如圖4所示,為本發(fā)明實施例提供的垃圾短信分析裝置的結(jié)構(gòu)示意圖,可以包括:
第一分詞單元41,用于對預(yù)處理后的待分析垃圾短信進行分詞得到多個詞 語;
關(guān)鍵詞提取單元42,用于利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞提取模型從得到的詞語中提取關(guān)鍵詞;
關(guān)鍵詞組提取單元43,用于利用根據(jù)所述垃圾短信樣本集確定出的關(guān)鍵詞組訓(xùn)練模型,從所述關(guān)鍵詞中提取組成關(guān)鍵詞組的關(guān)鍵詞;
第一確定單元44,用于針對所述關(guān)鍵詞組所包含的每一關(guān)鍵詞,按照各關(guān)鍵詞在所述待分析垃圾短信中的出現(xiàn)順序,確定相鄰兩個關(guān)鍵字在所述垃圾短信樣本集包含的垃圾短信中同時出現(xiàn)時的最小距離和最大距離;
生成單元45,用于根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略。
具體實施時,本發(fā)明實施例提供的垃圾短信分析裝置還可以包括:
第二分詞單元,用于對預(yù)處理后的、所述垃圾短信樣本集中包含的垃圾短信進行分詞得到多個詞語;
劃分單元,用于將分詞得到的各詞語按照預(yù)設(shè)劃分原則劃分為關(guān)鍵詞集合和非關(guān)鍵詞集合;
第一統(tǒng)計單元,用于針對關(guān)鍵詞集合包含的每一詞語,根據(jù)預(yù)設(shè)的特征項統(tǒng)計該詞語的特征項在關(guān)鍵詞集合中的第一特征項值;以及針對非關(guān)鍵詞集合包含的每一詞語,根據(jù)所述特征項統(tǒng)計該詞語的特征項在非關(guān)鍵詞集合中的第二特征項值;
第二確定單元,用于針對任一詞語,根據(jù)該詞語對應(yīng)的第一特征項值和第二特征項值分別確定該詞語的特征項在關(guān)鍵詞集合中對應(yīng)的第一概率值和在非關(guān)鍵詞集合中對應(yīng)的第二概率值;根據(jù)所述第一概率值和第二概率值以及垃圾短信中出現(xiàn)關(guān)鍵詞和非關(guān)鍵詞的概率值,分別確定該詞語在垃圾短信中成為關(guān)鍵詞的第三概率值和在非垃圾短信中成為非關(guān)鍵詞的第四概率值;
根據(jù)所述第三概率值和第四概率值,確定該詞語對應(yīng)的關(guān)鍵詞提取模型。
具體實施時,本發(fā)明實施例提供的垃圾短信分析裝置,還可以包括:
選擇單元,用于根據(jù)所述第三概率值由大至小的順序依次選擇預(yù)設(shè)數(shù)量的關(guān)鍵詞;
第二統(tǒng)計單元,用于針對選擇出的任兩個關(guān)鍵詞,統(tǒng)計該兩個關(guān)鍵詞在同一垃圾短信中同時出現(xiàn)時,該兩個關(guān)鍵詞之間的詞間距離;以及該兩個關(guān)鍵詞在同一垃圾短信中同時出現(xiàn)時的詞頻逆向文件頻率TF-IDF值;
第三確定單元,用于分別確定該兩個關(guān)鍵詞的詞間距離在關(guān)鍵詞集合中出現(xiàn)的第五概率值和在非關(guān)鍵詞集合中出現(xiàn)的第六概率值;以及分別確定該兩個關(guān)鍵詞的TF-IDF值在關(guān)鍵詞集合中出現(xiàn)的第七概率值和在非關(guān)鍵詞集合中出現(xiàn)的第八概率值;根據(jù)所述第五概率值和第七概率值以及垃圾短信中出現(xiàn)關(guān)鍵詞組的概率值,確定該兩個關(guān)鍵詞在垃圾短信中成為關(guān)鍵詞組的第九概率值;根據(jù)所述第六概率值和第八概率值以及垃圾短信中出現(xiàn)非關(guān)鍵詞組的概率值,確定該兩個關(guān)鍵詞在垃圾短信中成為非關(guān)鍵詞組的第十概率值;根據(jù)所述第九概率值和第十概率值,確定該兩個關(guān)鍵詞對應(yīng)的關(guān)鍵詞組訓(xùn)練模型。
具體實施時,本發(fā)明實施例提供的垃圾短信分析裝置,還可以包括第四確定單元,其中:
第四確定單元,用于在所述關(guān)鍵詞提取單元利用根據(jù)垃圾短信樣本集確定出的關(guān)鍵詞提取模型從得到的詞語中提取關(guān)鍵詞之前,針對對待分析垃圾短信進行分詞得到的每一詞語,根據(jù)預(yù)設(shè)的詞語庫判斷該詞語與所述詞語庫中包含的詞語之間的編輯距離;以及根據(jù)所述編輯距離確定該詞語與所述詞語庫中包含的詞語之間的相似參數(shù)值;
所述生成單元45,還用于如果所述相似參數(shù)值不大于預(yù)設(shè)閾值,則在根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略時,判斷該詞語是否存在于所述關(guān)鍵詞組所包含的關(guān)鍵詞中;以及若判斷結(jié)果為是,則在生成所述正則策略時,合并該詞語與所述詞語庫中包含的、與該詞語之間的相似參數(shù)值不大于預(yù)設(shè)值的相似詞語。
具體實施時,本發(fā)明實施例提供的垃圾短信分析裝置,還可以包括第五確定單元:
第五確定單元,用于針對分詞得到的每一詞語,根據(jù)所述關(guān)鍵詞提取模型和該詞語在垃圾短信中出現(xiàn)的概率值確定該詞語對應(yīng)的詞頻參數(shù)值;
所述生成單元45,還用于如果所述詞頻參數(shù)值大于預(yù)設(shè)閾值,則在根據(jù)所述關(guān)鍵詞組所包含的關(guān)鍵詞以及相鄰兩個關(guān)鍵詞在垃圾短信樣本中的最小距離和最大距離生成用于過濾垃圾短信的正則策略時,判斷該詞語是否存在于所述關(guān)鍵詞組所包含的關(guān)鍵詞中;以及若判斷結(jié)果為是,則在生成所述正則策略時,在該詞語包含的各字之間生成預(yù)設(shè)的限定范圍。
為了描述的方便,以上各部分按照功能劃分為各模塊(或單元)分別描述。當然,在實施本發(fā)明時可以把各模塊(或單元)的功能在同一個或多個軟件或硬件中實現(xiàn)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中 的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。