本發(fā)明涉及通信技術領域,尤其涉及一種垃圾短信的識別方法及系統(tǒng)。
背景技術:
通信技術的不斷發(fā)展,給人們的生活帶來許多便利,但與此同時,也給人們的生活造成一些影響,例如,雖然普通短信能起到傳遞信息的作用,但越來越多的垃圾短信嚴重干擾人們的工作和生活。
為了避免垃圾短信帶來的干擾,就需要識別出垃圾短信,并進行進一步的攔截。通常識別垃圾短信的方法是根據(jù)短信的內(nèi)容進行語義分析,以根據(jù)一些關鍵詞來識別出垃圾短信。上述方法不足的是,由于短信內(nèi)容的形式豐富,而且信息量較大,造成單純地通過對短信內(nèi)容進行語義分析來識別垃圾短信的錯誤率較高,而且這種方法需要對所有的短信均進行語義分析,使得接收這些短信的用戶的隱私均被侵犯。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供一種垃圾短信的識別方法及系統(tǒng),以提高識別垃圾短信的準確率。
為了實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
一方面,本發(fā)明提供了一種垃圾短信的識別方法,所述識別方法包括:獲取待識別短信,讀取發(fā)送待識別短信的號碼;采集CDR數(shù)據(jù),所述CDR數(shù)據(jù)包括所述號碼的短信發(fā)送量、所述號碼的接收對端數(shù)量、所述號碼的基本信息、所述號碼的位置信息和所述號碼的設備型號;判斷所述號碼的短信發(fā)送量是否大于第一閾值;判斷所述號碼的接收對端數(shù)量是否大于第二閾值;根據(jù)所述號碼的基本信息,判斷所述號碼是否在用戶白名單中;判斷所述號碼的位置信息的變化率是否小于第三閾值;判斷所述號碼的設備型號是否在合法設備庫內(nèi);當以上任一項判斷的結(jié)果為是時,記作一個標準值;當以上任一項判斷的結(jié)果為否時,記作零;計算所有標準值的和,得到總標準值;判斷所述總標準值是否大于第四閾值,根據(jù)判斷結(jié)果確定所述號碼是否為垃圾短信號碼,在所述號碼為垃圾短信號碼時,待識別短信為垃圾短信;在所述號碼為普通短信號碼時,待識別短信為普通短信;其中,所述第一閾值為普通短信號碼的最大的短信發(fā)送量;所述第二閾值為普通短信號碼的最大的接收對端數(shù)量;所述第三閾值為普通短信號碼的最小的位置信息的變化率;所述第四閾值為普通短信號碼的最大的總標準值。
本發(fā)明提供的垃圾短信的識別方法中,根據(jù)發(fā)送待識別短信的號碼的CDR數(shù)據(jù),來對發(fā)送待識別短信的號碼的短信發(fā)送量、接收對端數(shù)量、基本信息、位置信息和設備型號分別進行分析判斷,從而從多個維度數(shù)據(jù)分析了發(fā)送待識別短信的號碼的特征,而且在上述五項判斷后,還進一步地進行了綜合判斷,最終判斷出發(fā)送待識別短信的號碼是否為垃圾短信號碼,在發(fā)送待識別短信的號碼為垃圾短信號碼時,識別出待識別短信為垃圾短信,在發(fā)送待識別短信的號碼為普通短信號碼時,識別出待識別短信為普通短信。相比于現(xiàn)有技術中的單純地通過語義分析來識別垃圾短信的方法,本方法在依據(jù)多個維度數(shù)據(jù)來判斷發(fā)送待識別短信的號碼后,再識別垃圾短信,可見,判斷垃圾短信號碼的準確率較高,在此前提下,識別垃圾短信的準確率也提高,而且本方法避免了對所有待檢測短信均進行語義分析,對用戶隱私的保護程度提高。
另一方面,本發(fā)明提供了一種垃圾短信的識別系統(tǒng),所述識別系統(tǒng)包括:獲取單元,所述獲取單元用于獲取待識別短信,讀取發(fā)送待識別短信的號碼;與所述獲取單元連接的采集單元,所述采集單元用于采集CDR數(shù)據(jù),所述CDR數(shù)據(jù)包括所述號碼的短信發(fā)送量、所述號碼的接收對端數(shù)量、所述號碼的基本信息、所述號碼的位置信息和所述號碼的設備型號;與所述采集單元連接的判斷單元,所述判斷單元用于判斷所述號碼的短信發(fā)送量是否大于第一閾值;判斷所述號碼的接收對端數(shù)量是否大于第二閾值;根據(jù)所述號碼的基本信息,判斷所述號碼是否在用戶白名單中;判斷所述號碼的位置信息的變化率是否小于第三閾值;判斷所述號碼的設備型號是否在合法設備庫內(nèi);與所述判斷單元連接的計數(shù)單元,所述計數(shù)單元用于當所述判斷單元中的任一項判斷的結(jié)果為是時,記作一個標準值;當所述判斷單元中的任一項判斷的結(jié)果為否時,記作零;與所述計數(shù)單元連接的求和單元,所述求和單元用于計算所述計數(shù)單元中的所有標準值的和,得到總標準值;與所述求和單元連接的結(jié)果輸出單元,所述結(jié)果輸出單元用于判斷所述總標準值是否大于第四閾值,根據(jù)判斷結(jié)果確定所述號碼是否為垃圾短信號碼,并輸出所述號碼為垃圾短信號碼,待識別短信為垃圾短信;或者輸出所述號碼為普通短信號碼時,待識別短信為普通短信;其中,所述第一閾值為普通短信號碼的最大的短信發(fā)送量;所述第二閾值為普通短信號碼的最大的接收對端數(shù)量;所述第三閾值為普通短信號碼的最小的位置信息的變化率;所述第四閾值為普通短信號碼的最大的總標準值。
本發(fā)明所提供的垃圾短信的識別系統(tǒng)的有益效果與上述垃圾短信的識別方法的有益效果相同,在此不再贅述。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1為本發(fā)明實施例一中的垃圾短信的識別方法的第一流程圖;
圖2為本發(fā)明實施例一中的垃圾短信的識別方法的第二流程圖;
圖3為本發(fā)明實施例二中的垃圾短信的識別系統(tǒng)的結(jié)構示意圖。
附圖標記:
10-獲取單元; 20-采集單元; 30-判斷單元;
40-計數(shù)單元; 50-求和單元; 60-結(jié)果輸出單元;
61-第一輸出子單元; 62-第二輸出子單元;
70-數(shù)據(jù)庫。
具體實施方式
為使本發(fā)明所提出的技術方案的目的、特征和優(yōu)點能夠更加明顯易懂,下面將結(jié)合附圖,對本發(fā)明所提出的技術方案的實施例進行清楚、完整地描述。顯然,所描述的實施例僅僅是所提出的技術方案的一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其它實施例,均屬于本發(fā)明保護的范圍。
實施例一
參見圖1,本發(fā)明實施例提供了一種垃圾短信的識別方法,該識別方法包括:
步驟S1:獲取待識別短信,讀取發(fā)送待識別短信的號碼。
步驟S2:采集呼叫細節(jié)記錄(Call Details Record,簡稱CDR)數(shù)據(jù),CDR數(shù)據(jù)包括號碼的短信發(fā)送量、號碼的接收對端數(shù)量、號碼的基本信息、號碼的位置信息和號碼的設備型號。
步驟S3:判斷號碼的短信發(fā)送量是否大于第一閾值,其中,第一閾值為普通短信號碼的最大的短信發(fā)送量;
判斷號碼的接收對端數(shù)量是否大于第二閾值,其中,第二閾值為普通短信號碼的最大的接收對端數(shù)量;
根據(jù)號碼的基本信息,判斷號碼是否在用戶白名單中;
判斷號碼的位置信息的變化率是否小于第三閾值,其中,第三閾值為普通短信號碼的最小的位置信息的變化率;
判斷號碼的設備型號是否在合法設備庫內(nèi)。
步驟S4:當步驟S3中的任一項判斷的結(jié)果為是時,記作一個標準值;當以上任一項判斷的結(jié)果為否時,記作零。
步驟S5:計算步驟S4中所有標準值的和,得到總標準值。
步驟S6:判斷總標準值是否大于第四閾值(第四閾值為普通短信號碼的最大的總標準值),根據(jù)判斷結(jié)果確定發(fā)送待識別短信的號碼是否為垃圾短信號碼,在發(fā)送待識別短信的號碼為垃圾短信號碼時,待識別短信為垃圾短信;在發(fā)送待識別短信的號碼為普通短信號碼時,待識別短信為普通短信。
本實施例中提供的垃圾短信的識別方法中,通過采集CDR數(shù)據(jù),并對發(fā)送待識別短信的號碼的CDR數(shù)據(jù)進行分析來判斷發(fā)送待識別短信的號碼是否為垃圾短信號碼,其中,采集的CDR數(shù)據(jù)包括號碼的短信發(fā)送量、號碼的接收對端數(shù)量、號碼的基本信息、號碼的位置信息和號碼的設備型號,這五個特征均與垃圾短信號碼具有的特征密切相關,在對上述五個特征分別進行分析后,再對分析結(jié)果進行綜合判斷,從而較準確地判斷出發(fā)送待識別短信的號碼是否為垃圾短信號碼,進而在發(fā)送待識別短信的號碼是為垃圾短信號碼時,識別出待識別短信為垃圾短信??梢姡啾扔趩渭兊赝ㄟ^對所有待識別短信的內(nèi)容進行語義分析來識別出垃圾短信的方法,本方法在判斷發(fā)送待識別短信的號碼是否為垃圾短信號碼時,所選的判斷依據(jù)更具有客觀性,而且在對多個維度數(shù)據(jù)分別判斷后,又進一步綜合判斷,因此,判斷出垃圾短信號碼的準確率高,在此基礎上,根據(jù)發(fā)送待識別短信的號碼識別出垃圾短信的準確率提高。
在步驟S1中,發(fā)送待識別短信的號碼可為客戶識別模塊(Subscriber Identification Module,簡稱SIM)卡號碼。
在步驟S2中,CDR數(shù)據(jù)可由運營商后臺提供,CDR數(shù)據(jù)除包括上述內(nèi)容外,還可包括全部SIM卡用戶的發(fā)送短信號碼、接收短信號碼、發(fā)送短信時間、發(fā)送號碼基站小區(qū)信息、移動終端類型等,當然,本實施例對CDR數(shù)據(jù)包括的更多內(nèi)容并不限定。
通常,普通短信號碼的短信發(fā)送量不會超過套餐中的短信量,或者短信發(fā)送量在幾百條以內(nèi),而垃圾短信號碼的短信發(fā)送量巨大。基于此,在步驟S3中,可根據(jù)實際情況設定第一閾值,該第一閾值為普通短信號碼的最大的短信發(fā)送量,當發(fā)送待識別短信的號碼的短信發(fā)送量大于第一閾值時,則說明發(fā)送待識別短信的號碼可能為垃圾短信號碼。例如:若7天內(nèi)普通短信號碼的最大的短信發(fā)送量為1000條,則第一閾值可為1000,對應的,在步驟S2中,至少要采集發(fā)送待識別短信的號碼的7天內(nèi)的CDR數(shù)據(jù)。這里選用多天的CDR數(shù)據(jù),使數(shù)據(jù)更具有普遍性,可以保證判斷的準確性。
通常,普通短信號碼發(fā)送短信時,接收號碼是固定的通訊錄成員,而普通短信號碼對應的固定的通訊錄成員一般在幾百左右,也就是說普通短信號碼的接收對端數(shù)量最多在幾百左右,尤其是隨著通訊工具的不斷發(fā)展,普通短信號碼的平均的接收對端數(shù)量逐漸縮減?;诖?,在步驟S3中,可根據(jù)實際情況設定第二閾值,該第二閾值為普通短信號碼的最大的接收對端數(shù)量,當發(fā)送待識別短信的號碼的接收對端數(shù)量大于第二閾值時,則說明發(fā)送待識別短信的號碼可能為垃圾短信號碼。例如:若普通短信號碼的最大的接收對端數(shù)量為500,則第二閾值可為500。
對于一些有特殊需求的用戶,短信發(fā)送量和接收對端數(shù)量都比較大,通常運營商會將這些用戶列在一個名單中,形成用戶白名單。在步驟S3中,若發(fā)送待識別短信的號碼不在用戶白名單中,則說明發(fā)送待識別短信的號碼可能為垃圾短信號碼。
結(jié)合發(fā)送待識別短信的號碼為SIM卡號碼的方案,在建立用戶白名單時,用戶白名單可包括合法的SIM卡號碼的用戶。
通常,發(fā)送待識別短信的移動終端是手機終端,而正常手機終端的用戶在一定的時間段內(nèi)可能去多個地方,因此,對應的號碼的位置信息在一定的時間段內(nèi)是不斷變化的,相應的,位置信息的變化率較大。在步驟S3中,可根據(jù)實際情況設定第三閾值,該第三閾值為普通短信號碼的最小的位置信息的變化率,若發(fā)送待識別短信的號碼的位置信息的變化率小于第三閾值,則說明發(fā)送待識別短信的號碼可能為垃圾短信號碼。
可選的,位置信息可包括小區(qū)標識(Cell-ID)的信息,可在一定的時間段內(nèi),統(tǒng)計CDR數(shù)據(jù)中記錄的該移動終端號碼的Cell-ID的數(shù)量,并將單位時間內(nèi)的Cell-ID的數(shù)量作為移動終端號碼的位置信息的變化率。而這里的單位時間可根據(jù)實際需要而定,例如:可以一天為一個單位時間。
不難想到,普通短信號碼對應的移動終端為合法的移動終端,而合法的移動終端的設備型號均在合法設備庫中的。在步驟S3中,可將發(fā)送待識別短信的號碼的設備型號與合法設備庫對比,若發(fā)送待識別短信的號碼的設備型號不在合法設備庫內(nèi),則說明發(fā)送待識別短信的號碼可能為垃圾短信號碼。
示例性的,在步驟S4中,可建立一個打分表,一個標準值可為1分。
進一步的,基于步驟S3中一共有五項判斷,因此在步驟S5中,可計算得到的最大的總標準值為5分。
對于步驟S3的五項判斷中,普通短信號碼的判斷結(jié)果也可能為是,但普通短信號碼可能只有其中幾項的判斷結(jié)果為是,因此,為了降低判斷的錯誤率,在步驟S6中,對計算得到的總標準值進行了判斷,優(yōu)選的,可根據(jù)實際情況設定第四閾值,該第四閾值為普通短信號碼的最大的總標準值,從而可判斷總標準值是否大于第四閾值,進而根據(jù)判斷結(jié)果確定發(fā)送待識別短信的號碼為垃圾短信號碼,并確定對應的待識別短信是否為垃圾短信。
可選的,結(jié)合上述建立打分表的方案,可設定第四閾值為3分,當然了根據(jù)實際情況,也可適當調(diào)整第四閾值與總標準值的比例關系。
可見,本實施例中垃圾短信的識別方法與現(xiàn)有技術中通過語義分析識別垃圾短信的方法相比,不需要讀取全部待識別短信的內(nèi)容,對用戶的隱私的保護程度提高。同時,因短信內(nèi)容的形式較多,可能包括特殊符號、繁體字等等,從而本方法不會因無法識別出這些特殊符號、繁體字等,而導致識別出垃圾短信的錯誤率較高。
在本實施例中,步驟S6根據(jù)判斷結(jié)果確定發(fā)送待識別短信的號碼是否為垃圾短信號碼的方法有多種,例如:可與現(xiàn)有技術中通過語義分析識別垃圾短信的方法相結(jié)合,對應的,步驟S6可包括:
參見圖2,步驟S61:判斷步驟S5中計算得到的總標準值是否大于第四閾值,如果是,則進入步驟S62;如果否,則發(fā)送待識別短信的號碼為普通短信號碼,待識別短信為普通短信;
步驟S62:讀取待識別短信的內(nèi)容,對待識別短信的內(nèi)容進行語義分析,判斷待識別短信的內(nèi)容中是否包含垃圾短信的關鍵詞,如果是,則發(fā)送待識別短信的號碼為垃圾短信號碼,待識別短信為垃圾短信;如果否,則發(fā)送待識別短信的號碼為普通短信號碼,待識別短信為普通短信。
可見,在總標準值大于第四閾值之后,再對待識別短信的內(nèi)容進行語義分析,進一步提高了識別垃圾短信的準確率。而且相比于現(xiàn)有技術中的單純地對大量的短信內(nèi)容進行語義分析,大大降低了語義分析的工作量,從而也提高了語義分析時的準確度,同時,只是讀取了部分待識別短信的內(nèi)容,從而有效保護了大多數(shù)待識別短信的內(nèi)容。其中,通過短信內(nèi)容中的關鍵詞來進行語義分析的方法在此不再詳述。
參見圖2,為了完善本實施例中的垃圾短信的識別方法,還可包括步驟S7,步驟S7為:在發(fā)送待識別短信的號碼為垃圾短信號碼時,存儲該垃圾短信號碼。
在這一方案中,垃圾短信號碼被存儲后,再識別其它短信時,可在讀取發(fā)送待識別短信的號碼后,先判斷發(fā)送待識別短信的號碼是否在這些已存儲的垃圾短信號碼中,如果是,則可直接識別出該短信為垃圾短信。
實施例二
參見圖3,本發(fā)明實施例提供了一種垃圾短信的識別系統(tǒng),該識別系統(tǒng)包括依次連接的獲取單元10、采集單元20、判斷單元30、計數(shù)單元40、求和單元50和結(jié)果輸出單元60。
在介紹上述各單元的主要作用之前,首先需要說明的是,對于普通短信號碼而言,普通短信號碼的最大的短信發(fā)送量為第一閾值;普通短信號碼的最大的接收對端數(shù)量為第二閾值;普通短信號碼的最小的位置信息的變化率為第三閾值;普通短信號碼的最大的總標準值為第四閾值。
基于這些普通短信號碼的特征,在本實施例中的垃圾短信的識別系統(tǒng)中,獲取單元10用于獲取待識別短信,讀取發(fā)送待識別短信的號碼;采集單元20用于采集CDR數(shù)據(jù),CDR數(shù)據(jù)包括號碼的短信發(fā)送量、號碼的接收對端數(shù)量、號碼的基本信息、號碼的位置信息和號碼的設備型號;判斷單元30用于判斷號碼的短信發(fā)送量是否大于第一閾值;判斷號碼的接收對端數(shù)量是否大于第二閾值;根據(jù)號碼的基本信息,判斷號碼是否在用戶白名單中;判斷號碼的位置信息的變化率是否小于第三閾值;判斷號碼的設備型號是否在合法設備庫內(nèi);計數(shù)單元40用于當判斷單元30中的任一項判斷的結(jié)果為是時,記作一個標準值;當判斷單元30中的任一項判斷的結(jié)果為否時,記作零;求和單元50用于計算計數(shù)單元40中的所有標準值的和,得到總標準值;結(jié)果輸出單元60用于判斷總標準值是否大于第四閾值,根據(jù)判斷結(jié)果確定發(fā)送待識別短信的號碼是否為垃圾短信號碼,并輸出發(fā)送待識別短信的號碼為垃圾短信號碼,待識別短信為垃圾短信;或者輸出發(fā)送待識別短信的號碼為普通短信號碼時,待識別短信為普通短信。
可見,本系統(tǒng)對發(fā)送待識別短信的號碼實現(xiàn)了多個維度數(shù)據(jù)分析,從而分別得到一個分析結(jié)果,再綜合這些分析結(jié)果,最終判斷出該號碼是否為垃圾短信號碼,在判斷出該號碼為垃圾短信號碼時,識別出待識別短信為垃圾短信,從而避免了對大量的短信內(nèi)容進行語義分析,進而提高了識別垃圾短信的準確率。
較佳的,本實施例中的垃圾短信的識別系統(tǒng)可用于實現(xiàn)實施例一中的垃圾短信的識別方法,對應的,獲取單元10可用于實現(xiàn)步驟S1,采集單元20可用于實現(xiàn)步驟S2,判斷單元30可用于實現(xiàn)步驟S3,計數(shù)單元40可用于實現(xiàn)步驟S4,求和單元50可用于實現(xiàn)步驟S5,結(jié)果輸出單元60可用于實現(xiàn)步驟S6。
可選的,本實施例讀取的發(fā)送待識別短信的號碼可為SIM卡號碼;而在本實施例中提到的用戶白名單可包括合法的SIM卡號碼的用戶。
需要說明的是,在本實施例中提到的位置信息可包括Cell-ID的信息,相應的,位置信息的變化率可為單位時間內(nèi)Cell-ID的數(shù)量。
進一步的,結(jié)果輸出單元60可包括:與求和單元50連接的第一輸出子單元61,以及與第一輸出子單元61和獲取單元10均連接的第二輸出子單元62。其中,第一輸出子單元61用于判斷求和單元50中的總標準值是否大于第四閾值,在總標準值小于或者等于第四閾值時,輸出發(fā)送待識別短信的號碼為普通短信號碼,待識別短信為普通短信;第二輸出子單元62用于在總標準值大于第四閾值時,讀取待識別短信的內(nèi)容,對待識別短信的內(nèi)容進行語義分析,判斷待識別短信的內(nèi)容中是否包含垃圾短信的關鍵詞,在待識別短信的內(nèi)容中包含垃圾短信的關鍵詞時,輸出發(fā)送待識別短信的號碼為垃圾短信號碼,待識別短信為垃圾短信;在待識別短信的內(nèi)容中不包含垃圾短信的關鍵詞時,輸出發(fā)送待識別短信的號碼為普通短信號碼,待識別短信為普通短信。
在這一方案中,結(jié)合了對待識別短信的內(nèi)容進行識別的內(nèi)容,進一步提高了識別垃圾短信的準確率,而且相對于單純地對大量的短信內(nèi)容進行語義分析,語義分析的工作量大大減小,提高了語義分析的準確度,同時對用戶隱私的保護程度提高。
與實施例一中的識別方法對應的,第一輸出子單元61可用于實現(xiàn)步驟S61,第二輸出子單元62可用于實現(xiàn)步驟S62。
進一步的,本實施例中的垃圾短信的識別系統(tǒng)還可包括與結(jié)果輸出單元60連接的數(shù)據(jù)庫70,數(shù)據(jù)庫70用于在發(fā)送待識別短信的號碼為垃圾短信號碼時,存儲該垃圾短信號碼。
與實施例一中的識別方法對應的,數(shù)據(jù)庫70可用于實現(xiàn)步驟S7??梢韵氲?,數(shù)據(jù)庫70可用于識別垃圾短信。
值得一提的是,因本實施例中的垃圾短信的識別系統(tǒng)可用于實現(xiàn)實施例一中的垃圾短信的識別方法,因此,實施例一中的垃圾短信的識別方法的有益效果均可用于解釋實施例二中的垃圾短信的識別系統(tǒng)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。