一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]短信作為一種快捷、經(jīng)濟(jì)、有效的通信方式得到了廣泛的應(yīng)用,然而垃圾短信的不斷泛濫也造成了用戶的很大困擾。研制智能短信過(guò)濾的技術(shù)方案,為手機(jī)用戶建立起一個(gè)可靠、準(zhǔn)確、高效的短信管制過(guò)濾平臺(tái)具有重要的社會(huì)價(jià)值。
[0003]目前短信過(guò)濾的方式一般分為兩種,從技術(shù)上分,一種是基于關(guān)鍵詞,只要短信中包括的敏感詞匯超過(guò)一定的數(shù)目就被認(rèn)定為垃圾信息;另一種是基于短信內(nèi)容的過(guò)濾采用機(jī)器學(xué)習(xí)方法把短信自動(dòng)分為正常短信和垃圾短信,目前用于短信自動(dòng)分類的機(jī)器學(xué)習(xí)方法主要有樸素貝葉斯、SVM、KNN、人工神經(jīng)網(wǎng)絡(luò)算法等。
[0004]如申請(qǐng)?zhí)枮?201010618534.2的中國(guó)專利所公開(kāi)的一種垃圾短信監(jiān)控與處理的系統(tǒng)、系統(tǒng)及方法,該垃圾短信監(jiān)控與處理的方法,設(shè)置基本關(guān)鍵詞規(guī)則、關(guān)鍵詞衍生序列及垃圾短信疑似度,該方法包括接收短信,采用所設(shè)置的基本關(guān)鍵詞規(guī)則對(duì)短信內(nèi)容進(jìn)行匹配,確定是否匹配成功,如果是,將該短信作為垃圾短信并刪除,如果否,采用所設(shè)置的關(guān)鍵詞衍生序列對(duì)該短信內(nèi)容疑似值范圍內(nèi),將該短信作為疑似垃圾短信,如果計(jì)算的垃圾短信疑似值大于等于設(shè)置的垃圾短信疑似度上范圍,將該短信作為垃圾短信,如果小雨等于設(shè)置的垃圾短信疑似度下范圍,將該短信作為非垃圾短信發(fā)送。該方法主要的是根據(jù)事先設(shè)置的關(guān)鍵詞進(jìn)行判斷短信是否為垃圾短信,雖然設(shè)置了疑似度范圍,但是實(shí)際情況中,垃圾短信不僅僅通過(guò)改變關(guān)鍵詞傳播,所以該方法攔截的垃圾短信范圍較小,僅依賴關(guān)鍵詞的判斷攔截短信可靠程度低。
[0005]又如申請(qǐng)?zhí)枮?201310018709.X的中國(guó)專利所公開(kāi)的垃圾短信過(guò)濾方法及系統(tǒng),方法包括:獲取短消息:確定所述短消息的至少兩種特征信息的可疑度;根據(jù)所述至少兩種特征信息的可疑度以及每種所述特征信息對(duì)應(yīng)的權(quán)值,確定所述短消息的可疑度閥值;若所述短信息的所述可疑度閥值大于設(shè)定閥值,則對(duì)所述短信進(jìn)行過(guò)濾。該方法通過(guò)將短信與所設(shè)定的特征信息進(jìn)行比對(duì),從而來(lái)對(duì)短信進(jìn)行過(guò)濾,但實(shí)際情況中垃圾短信的內(nèi)容多種多樣,所設(shè)定的特征信息有一定的局限性和滯后性,實(shí)用性較低,而且需經(jīng)過(guò)一系列的比對(duì),工作效率不高。
【發(fā)明內(nèi)容】
[0006]為克服現(xiàn)有技術(shù)中存在的面對(duì)大量的短信業(yè)務(wù)時(shí)工作效率不高,且短信過(guò)濾可靠性程度低等問(wèn)題,本發(fā)明提供了一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。
[0007]本發(fā)明所采取的技術(shù)方案是:
[0008]—種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計(jì)所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過(guò)濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過(guò)濾。
[0009]在此基礎(chǔ)上,所述步驟I基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn),具體步驟如下:
[0010]步驟11:將操作數(shù)據(jù)進(jìn)行實(shí)時(shí)記錄,并將操作數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)器中;
[0011 ]步驟12:讀取本地存儲(chǔ)器中的操作數(shù)據(jù),并對(duì)操作數(shù)據(jù)進(jìn)行預(yù)處理;
[0012]步驟13:將預(yù)處理數(shù)據(jù)定時(shí)定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲(chǔ)器中;
[0013]步驟14:讀取遠(yuǎn)程存儲(chǔ)器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對(duì)預(yù)處理數(shù)據(jù)進(jìn)行分類處理,再將分類處理獲得的分類數(shù)據(jù)存儲(chǔ)至面向大數(shù)據(jù)的數(shù)據(jù)庫(kù);
[0014]步驟15:按照分類有序讀取數(shù)據(jù)庫(kù)中的分類數(shù)據(jù)。
[0015]在此基礎(chǔ)上,所述步驟12中的預(yù)處理包括剔除無(wú)效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)。
[0016]在此基礎(chǔ)上,所述步驟2中短信行為特征為對(duì)應(yīng)的短信接收者的數(shù)量。
[0017]在此基礎(chǔ)上,所述步驟2:短信行為特征的提取基于Hadoop平臺(tái)和MapReduce函數(shù)完成,具體步驟如下:
[0018]步驟21:從采集到的數(shù)據(jù)中將短信的發(fā)送者和接收者列表提取作為輸入;
[0019]步驟22:通過(guò)Map函數(shù)并行的將短信的發(fā)送者和接收者記錄轉(zhuǎn)換成發(fā)送者和每個(gè)接收者一對(duì)一的發(fā)送關(guān)系;
[0020]步驟23:通過(guò)Reduce函數(shù)計(jì)算每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù);
[0021 ]步驟24:輸出每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)。
[0022]在此基礎(chǔ)上,所述步驟3中的最優(yōu)短信過(guò)濾結(jié)果判斷策略包括,其中,M<N:
[0023]I)當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)2 N時(shí),將該短信定為無(wú)效短信;
[0024]2)當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù)< M時(shí),將該短信定為有效短信;
[0025]3)M<當(dāng)每個(gè)發(fā)送者對(duì)應(yīng)的短信接收者的個(gè)數(shù) <圈寸,將該短信定為待定短信。
[0026]在此基礎(chǔ)上,所述步驟4中的過(guò)濾策略包括:
[0027]I)當(dāng)該短信為無(wú)效短信時(shí),將短信直接刪除;
[0028]2)當(dāng)該短信為有效短信時(shí),將短信發(fā)用給相應(yīng)接收者;
[0029]3)當(dāng)該短信為待定短信時(shí),將短信儲(chǔ)存并告之接收者,接收者回復(fù)可查看,否則直接儲(chǔ)存并定期刪除。
[0030]在此基礎(chǔ)上,所述短信行為特征還包括短信回復(fù)率、發(fā)送成功率和平均發(fā)送短信的數(shù)量。
[0031]本發(fā)明的另一個(gè)目的是提供一種短信行為的大數(shù)據(jù)采集與分析方法的系統(tǒng),其創(chuàng)新點(diǎn)在于:包括信息采集部件、統(tǒng)計(jì)部件、判斷部件和執(zhí)行部件,所述信息采集部件和統(tǒng)計(jì)部件相連,所述統(tǒng)計(jì)部件和判斷部件相連,所述判斷部件和執(zhí)行部件相連,所述信息采集部件采集短信數(shù)據(jù)信息,所述統(tǒng)計(jì)部件提取信息采集部件提供的信息,并統(tǒng)計(jì)每個(gè)短信的行為特征信息,所述判斷部件獲取統(tǒng)計(jì)部件的統(tǒng)計(jì)結(jié)果,并給出判斷結(jié)果,所述執(zhí)行部件進(jìn)行短信過(guò)濾。
[0032]在此基礎(chǔ)上,所述執(zhí)行部件為云存儲(chǔ)管理系統(tǒng)。
[0033]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0034]1、本發(fā)明的數(shù)據(jù)采集基于大數(shù)據(jù)平臺(tái),大數(shù)據(jù)是大量、高速、多變的信息,配合新型的處理方式促成了更強(qiáng)的決策能力、洞察力與最佳化處理,運(yùn)用大數(shù)據(jù)平臺(tái)可以獲得更為深刻、全面的洞察能力,也提供了前所未有的空間與潛力。
[0035]2、本發(fā)明是基于Hadoop平臺(tái)和MapReduce函數(shù)進(jìn)完成的,可以快速地并行化過(guò)濾短息,這意味著本發(fā)明可以同時(shí)處理大量的短信,從而提高短信的過(guò)濾效率。Hadoop平臺(tái)能夠自動(dòng)保存數(shù)據(jù)的多副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配,具有高容錯(cuò)性,同時(shí)Hadoop平臺(tái)為分布式平臺(tái)具有高伸縮性。
[0036]3、本發(fā)明中短信過(guò)濾判斷策略的端點(diǎn)值可以調(diào)整,可以根據(jù)實(shí)際情況進(jìn)行適當(dāng)調(diào)整,能夠精確控制短信過(guò)濾的數(shù)量和質(zhì)量,且判斷策略簡(jiǎn)單易懂,若出錯(cuò)容易修復(fù),適應(yīng)性強(qiáng),伸縮性好。
[0037]4、本發(fā)明可以同時(shí)提取多個(gè)短信的行為特征,并根據(jù)多個(gè)行為特征的判斷結(jié)果來(lái)進(jìn)行短信過(guò)濾,加強(qiáng)了短信過(guò)濾的可靠性;并且多個(gè)行為特征是并行提取的,也加快了短信過(guò)濾的速度,適用于處理大量短信業(yè)務(wù),提高了短信過(guò)濾的質(zhì)量。
[0038]5、本發(fā)明中短信過(guò)濾時(shí)可保存,并且可以根據(jù)用戶的需求進(jìn)行調(diào)用查看。查看的同時(shí)具有優(yōu)先級(jí)功能,可以根據(jù)重要、緊急和加急的不同緊急程度,進(jìn)行優(yōu)先調(diào)用查看,人性化程度高;另外還具備閱后即焚的查看模式,可以有效保護(hù)用戶的隱私問(wèn)題。
[0039]6、本發(fā)明中執(zhí)行部件為云存儲(chǔ)管理系統(tǒng),云存儲(chǔ)管理系統(tǒng)能夠進(jìn)行海量的并行擴(kuò)容,對(duì)于應(yīng)用端開(kāi)發(fā)十分便利,執(zhí)行機(jī)構(gòu)可以同時(shí)完成相應(yīng)計(jì)費(fèi)采集、業(yè)務(wù)管理、網(wǎng)絡(luò)管理等功能,且云存儲(chǔ)管理系統(tǒng)負(fù)載均衡,也容易管理。
【附圖說(shuō)明】
[0040]圖1是本發(fā)明中短信過(guò)濾方法的流程示意圖;
[0041]圖2是本發(fā)明中大數(shù)據(jù)平臺(tái)采集數(shù)據(jù)的流程示意圖
[0042]圖3是本發(fā)明中短信行為特征統(tǒng)計(jì)的流程示意圖;
[0043]圖4是本發(fā)明中短信過(guò)濾策略的流程示意圖;
[0044]圖5是本發(fā)明中短信過(guò)濾系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0045]以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0046]如圖1所示,一種短信行為的大數(shù)據(jù)采集與分析方法,包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計(jì)所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過(guò)濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過(guò)濾。
[0047]其中步驟I基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn),如圖2所示,具體步驟如下:
[0048]步驟11:將操作數(shù)據(jù)進(jìn)行實(shí)時(shí)記錄,并將操作數(shù)據(jù)存儲(chǔ)至本地存儲(chǔ)器中;
[0049]步驟12:讀取本地存儲(chǔ)器中的操作數(shù)據(jù),并對(duì)操作數(shù)據(jù)進(jìn)行預(yù)處理,包括剔除無(wú)效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)等;
[0050]步驟13:將預(yù)處理數(shù)據(jù)定時(shí)定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲(chǔ)器中;
[0051]步驟14:讀取遠(yuǎn)程存儲(chǔ)器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對(duì)預(yù)處理數(shù)據(jù)進(jìn)行分類處理,再將分類處理獲得的分類數(shù)據(jù)存儲(chǔ)至面向大數(shù)據(jù)的數(shù)據(jù)庫(kù);
[0052]步驟15:按照分類有序讀取數(shù)據(jù)庫(kù)中的分類數(shù)據(jù)。
[0053]其中,步驟2:短信行為特征的提取基于Hadoop平臺(tái)和MapReduce函數(shù)完成。使用Hadoop平臺(tái)和MapReduce函數(shù)可以快速地并行化過(guò)濾短息,這意味著本發(fā)明可以同時(shí)處理大量的短信,從而提高短信的過(guò)濾效率。Hadoop平臺(tái)能夠自動(dòng)保存數(shù)據(jù)的多副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配,具有高容錯(cuò)