用于確定垃圾信息的方法及裝置與流程

文檔序號：12731339閱讀：257來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域，具體涉及用于確定垃圾信息的方法及裝置。

背景技術(shù)：

隨著移動通信技術(shù)的發(fā)展、移動設(shè)備的普及和短信資費(fèi)的下降，短信成為移動終端之間進(jìn)行信息傳遞的重要方法之一。用戶在享受短信通信帶來的便捷時(shí)，卻也遭受到一些廣告短信、詐騙短信等垃圾信息的騷擾，這些垃圾信息影響到用戶的短信使用體驗(yàn)，給用戶的人身、信息、財(cái)產(chǎn)安全帶來隱患。因此，對垃圾短信的識別和攔截是亟待解決的問題。

現(xiàn)有技術(shù)中，對垃圾短信的識別往往通過將短信的內(nèi)容直接上傳到服務(wù)器，由服務(wù)器對該短信的內(nèi)容進(jìn)行識別，將識別結(jié)果返回給移動終端，如果該短信為垃圾短信，則移動終端對該短信進(jìn)行攔截或者對用戶進(jìn)行提示。

該方案存在的問題是：

1、信息的內(nèi)容往往涉及到用戶的個(gè)人信息，在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器侵犯了用戶的個(gè)人隱私，對用戶的信息安全造成了損害。

2、移動終端每次接收到短信時(shí)，將短信的內(nèi)容上傳給服務(wù)器，該過程往往耗費(fèi)相當(dāng)?shù)木W(wǎng)絡(luò)流量，且處理速度受到移動終端所處的網(wǎng)絡(luò)狀態(tài)的限制，會降低終端設(shè)備的使用性能。

技術(shù)實(shí)現(xiàn)要素：

鑒于上述問題，本發(fā)明提出了一種克服上述問題或者至少部分地解決上述問題的用于確定垃圾信息的方法及裝置。

根據(jù)本發(fā)明的一個(gè)方面，提供了一種用于確定垃圾信息的方法，包括：

接收來自外部的信息，確定所述信息的信息源及內(nèi)容；

根據(jù)所述信息源及所述信息的內(nèi)容判斷所述信息是否為垃圾信息；

將通過所述信息源以及所述信息的內(nèi)容判斷為垃圾信息的所述信息確定為垃圾信息。

其中，根據(jù)所述信息源及所述信息的內(nèi)容判斷所述信息是否為垃圾信息包括：

將所述信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進(jìn)行比對，當(dāng)所述信息源為垃圾信息源時(shí)，所述信息確定為垃圾信息；或者，

將所述信息源傳送至云端服務(wù)器，并接收所述云端服務(wù)器返回的指示信息，當(dāng)所述指示信息確定所述信息源為垃圾信息源時(shí)，所述信息確定為垃圾信息。

其中，根據(jù)所述信息源及所述信息的內(nèi)容判斷所述信息是否為垃圾信息包括：

根據(jù)用戶的選擇，將所述信息的內(nèi)容直接上傳至云端服務(wù)器，或者，將所述信息的內(nèi)容的替代信息上傳至云端服務(wù)器；

接收所述云端服務(wù)器返回的識別信息，根據(jù)所述識別信息確定所述信息是否為垃圾信息。

優(yōu)選地，將所述信息的內(nèi)容的替代信息上傳至云端服務(wù)器包括：

計(jì)算出所述信息的內(nèi)容對應(yīng)的哈希值；

將所述信息的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器。

優(yōu)選地，計(jì)算出所述信息的內(nèi)容對應(yīng)的哈希值包括：

對所述信息的內(nèi)容進(jìn)行分詞處理；

對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到所述信息的內(nèi)容對應(yīng)的simhash值。

優(yōu)選地，當(dāng)所述信息確定為垃圾信息時(shí)，本地或所述云端服務(wù)器上的垃圾信息源數(shù)據(jù)庫記錄所述信息的信息源。

優(yōu)選地，本地記錄的垃圾信息源數(shù)據(jù)庫與所述云端服務(wù)器上記錄的垃圾信息源數(shù)據(jù)庫進(jìn)行交互更新。

根據(jù)本發(fā)明的另一個(gè)方面，提供了一種用于確定垃圾信息的裝置，包括：

接收模塊，用于接收來自外部的信息，確定所述信息的信息源及內(nèi)容；

處理模塊，用于根據(jù)所述信息源及所述信息的內(nèi)容判斷所述信息是否為垃圾信息；

判定模塊，用于將通過所述信息源以及所述信息的內(nèi)容判斷為垃圾信息的所述信息確定為垃圾信息。

優(yōu)選地，所述處理模塊用于將所述信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進(jìn)行比對，當(dāng)所述信息源為垃圾信息源時(shí)，所述判定模塊將所述信息確定為垃圾信息；

或者，所述處理模塊用于將所述信息源傳送至云端服務(wù)器，所述接收模塊用于接收所述云端服務(wù)器返回的指示信息，當(dāng)所述指示信息確定所述信息源為垃圾信息源時(shí)，所述判定模塊將所述信息確定為垃圾信息。

優(yōu)選地，根據(jù)用戶的選擇，所述處理模塊用于將所述信息的內(nèi)容直接上傳至云端服務(wù)器，或者，所述處理模塊用于將所述信息的內(nèi)容的替代信息上傳至云端服務(wù)器；

所述接收模塊用于接收所述云端服務(wù)器返回的識別信息，所述判定模塊用于根據(jù)所述識別信息確定所述信息是否為垃圾信息。

優(yōu)選地，所述處理模塊用于將所述信息的內(nèi)容的替代信息上傳至云端服務(wù)器包括：

所述處理模塊用于計(jì)算出所述信息的內(nèi)容對應(yīng)的哈希值；

所述處理模塊用于將所述信息的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器。

優(yōu)選地，所述處理模塊用于計(jì)算出所述信息的內(nèi)容對應(yīng)的哈希值包括：

所述處理模塊用于對所述信息的內(nèi)容進(jìn)行分詞處理；

所述處理模塊用于對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到所述信息的內(nèi)容對應(yīng)的simhash值。

優(yōu)選地，當(dāng)所述判定模塊確定所述信息為垃圾信息時(shí)，本地或所述云端服務(wù)器上的垃圾信息源數(shù)據(jù)庫記錄所述信息的信息源。

優(yōu)選地，所述接收模塊和所述處理模塊將本地記錄的垃圾信息源數(shù)據(jù)庫與所述云端服務(wù)器上記錄的垃圾信息源數(shù)據(jù)庫進(jìn)行交互更新。

本發(fā)明提供的上述方案，能通過信息來源快速識別信息是否為垃圾信息。此外，在保證垃圾短信識別有效性的基礎(chǔ)上，避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題，且經(jīng)過本地的計(jì)算處理后減輕了客戶端的上傳以及云端服務(wù)器的處理壓力，提高了識別效率，符合用戶需求。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，這些將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。

附圖說明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解，其中：

圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用于確定垃圾信息的方法的流程圖；

圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的用于確定垃圾信息的方法的流程圖；

圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用于確定垃圾信息的裝置的示意圖；

圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用于確定垃圾信息的云端服務(wù)器的示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式 “一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí)，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)，具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語，應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣被特定定義，否則不會用理想化或過于正式的含義來解釋。

圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用于確定垃圾信息的方法的流程圖。如圖1所示，該方法包括：

步驟S110，接收來自外部的信息，確定信息的信息源及內(nèi)容；

步驟S120，根據(jù)信息源及信息的內(nèi)容判斷信息是否為垃圾信息；

步驟S130，將通過信息源及信息的內(nèi)容判斷為垃圾信息的信息確定為垃圾信息。

在本發(fā)明中，信息包括但不限于短信、即時(shí)通訊消息等常規(guī)或非常規(guī)的資訊信息。信息源包括但不限于手機(jī)號、信息ID等可以標(biāo)示信息來源的識別符。不失一般性地、且為了便于說明，后文中部分示例以短信替代信息、手機(jī)號替代信息源進(jìn)行說明。應(yīng)當(dāng)理解，此僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。

圖1所示的方法從客戶端的角度描述了根據(jù)信息源以及信息內(nèi)容本身判斷信息是否為垃圾信息。

具體而言，在步驟S120中，根據(jù)信息源及信息的內(nèi)容判斷信息是否為垃圾信息包括：

將信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進(jìn)行比對，當(dāng)信息源為垃圾信息源時(shí)，信息確定為垃圾信息；或者，

將信息源傳送至云端服務(wù)器，并接收云端服務(wù)器返回的指示信息，當(dāng)指示信息確定信息源為垃圾信息源時(shí)，信息確定為垃圾信息。

在步驟S120中，根據(jù)信息源及信息的內(nèi)容判斷信息是否為垃圾信息包括：

根據(jù)用戶的選擇，將信息的內(nèi)容直接上傳至云端服務(wù)器，或者，將信息的內(nèi)容的替代信息上傳至云端服務(wù)器；

接收云端服務(wù)器返回的識別信息，根據(jù)識別信息確定信息是否為垃圾信息。

例如，當(dāng)用戶在移動終端第一次啟動用于進(jìn)行垃圾短信識別的客戶端時(shí)，彈出聲明協(xié)議，在該聲明協(xié)議中詢問用戶是否同意直接將短信內(nèi)容上傳到云端服務(wù)器；如果用戶選擇了同意，則當(dāng)移動終端接收到短信時(shí)，直接將該短信的內(nèi)容上傳到云端服務(wù)器進(jìn)行識別。如果用戶選擇了不同意，則當(dāng)移動終端接收到短信時(shí)，執(zhí)行前文所述的將信息的內(nèi)容的替代信息上傳至云端服務(wù)器的步驟。本實(shí)施例從用戶的意愿出發(fā)，從根本上解決了現(xiàn)有技術(shù)中存在的侵犯用戶個(gè)人隱私、危害用戶信息安全的問題。

具體而言，將信息的內(nèi)容的替代信息上傳至云端服務(wù)器包括：

計(jì)算出信息的內(nèi)容對應(yīng)的哈希值；

將信息的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器。

進(jìn)一步而言，計(jì)算出信息的內(nèi)容對應(yīng)的哈希值包括：

對信息的內(nèi)容進(jìn)行分詞處理；

對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到信息的內(nèi)容對應(yīng)的simhash值。

例如，以短信為例，以短信的內(nèi)容對應(yīng)的哈希值為識別對象，客戶端與云端服務(wù)器進(jìn)行交互的過程，實(shí)現(xiàn)了對垃圾短信的識別。該方法在保證垃圾短信識別有效性的基礎(chǔ)上，避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題；且經(jīng)過本地的計(jì)算處理后減輕了客戶端與云端服務(wù)器的交互負(fù)擔(dān)以及云端服務(wù)器的處理壓力，提高了識別效率，符合用戶需求。

在本發(fā)明的一個(gè)實(shí)施例中，圖1所示的方法進(jìn)一步包括：

當(dāng)確定所述短信是垃圾短信時(shí)，對所述短信進(jìn)行攔截處理。這里的攔截處理具體可以包括：直接刪除垃圾短信；或者將垃圾短息轉(zhuǎn)移到指定的文件夾中，等待用戶的處理；或者對用戶進(jìn)行垃圾短信的提示。

在本發(fā)明的一個(gè)實(shí)施例中，所述的計(jì)算出該短信的內(nèi)容對應(yīng)的哈希值是指：根據(jù)一定的傳統(tǒng)哈希算法，將該短信的內(nèi)容映射為固定長度的數(shù)值，該數(shù)值稱為哈希值，該哈希值是該短信的內(nèi)容的唯一且極其緊湊的數(shù)值表示形式。

本實(shí)施例所述的哈希算法包括：HAVAL、MD2、MD4、MD5或SHA1等，此類傳統(tǒng)哈希算法都有如下一個(gè)基本特征：在輸入域中很少出現(xiàn)散列沖突，即對于可能差距只有一個(gè)字節(jié)的文本也會映射出兩個(gè)完全不同的哈希值。

例如，兩條詐騙短信的內(nèi)容分別為：“恭喜你中了五萬元大獎”和“恭喜你中了一萬元大獎”，由傳統(tǒng)哈希算法計(jì)算出這兩條短信的內(nèi)容對應(yīng)哈希值分別為286和523。可以看到，兩條詐騙手段非常相似的短信所計(jì)算出的哈希值完全不同，可能導(dǎo)致后續(xù)處理中云端服務(wù)器的識別壓力過大。

因此，為了去除小范圍差異的短信的內(nèi)容對應(yīng)哈希值之間的偏差，減輕后續(xù)處理中云端服務(wù)器的識別壓力。

在本發(fā)明的另一個(gè)實(shí)施例中，計(jì)算出該短信的內(nèi)容對應(yīng)哈希值是指：計(jì)算出該短信的內(nèi)容對應(yīng)的simhash值。具體過程如下：

對短信的內(nèi)容進(jìn)行分詞處理。

對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到短信的內(nèi)容對應(yīng)的simhash值。

下面以表1和表2為例對本發(fā)明的方案進(jìn)行詳細(xì)說明。

表1一個(gè)計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程

表1示出了根據(jù)本發(fā)明一個(gè)具體的實(shí)施例計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程。如表1所示，在本實(shí)施例中，移動終端接收到的短信是：“本公司代開普通發(fā)票，本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票。”

首先，初始化simhash值對應(yīng)的向量形式：A＝Ao＝{0,0,0,0,0,0}。

接著，對該短信的內(nèi)容進(jìn)行分詞處理：本公司/代開/普通/發(fā)票/，本公司/不/代開/增值稅/專用/發(fā)票/和/專業(yè)/發(fā)票；得到分詞后的各個(gè)詞是：本公司，代開，不，增值稅，專用，發(fā)票，普通，和，專業(yè)。

根據(jù)一定的傳統(tǒng)哈希算法，分別計(jì)算出各個(gè)詞對應(yīng)的6位哈希值：本公司：100110，代開：110000，不：101111，增值稅：110001，專用：010110，發(fā)票：101011，普通：110100，和：110110，專業(yè)：001001。

再計(jì)算各個(gè)詞的詞頻作為對應(yīng)的向量值，代表各個(gè)詞在短信內(nèi)容中的權(quán)重：本公司：2，代開：2，不：1，增值稅：1，專用：1，發(fā)票：3，普通：1，和：1，專業(yè)：1。

構(gòu)成一個(gè)向量B：{本公司/100110/2,代開/110000/2,不/101111/1,增值稅/110001/1,專用/010110/1,發(fā)票/101011/3,普通/110100/1,和/110110/1,專業(yè)/001001/1}。

依次對向量B中的各個(gè)詞做處理，處理方式如下：對于各個(gè)詞，如果其哈希值的第i位上是“1”，則對向量A的第i維加上該詞的詞頻；如果其哈希值的第i位上是“0”，則對向量A的第i維減去該詞的詞頻。例如，對于本公司/100110/2，向量A變?yōu)閧2,-2,-2,2,2,-2}；對于代開/110000/2，向量A變?yōu)閧2,2,-2,-2,-2,-2}；以此類推，得到各個(gè)詞對應(yīng)的向量A，如表1中所示。

將各個(gè)詞對應(yīng)的向量A進(jìn)行匯總求和，得到向量Atotal＝{9,-1,-3,1,5,1}，如果該向量的第i維為不為負(fù)數(shù)，則令simhash值對應(yīng)向量的第i維為“1”；如果該向量的第i維為負(fù)數(shù)，則令simhash值對應(yīng)向量的第i維為“0”；據(jù)此得到最終simhash值對應(yīng)向量Afinal＝{1,0,0,1,1,1}。

因此，短信“本公司代開普通發(fā)票，本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票。”的simhash值為100111。

表2另一個(gè)計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程

表2示出了根據(jù)本發(fā)明另一個(gè)具體的實(shí)施例計(jì)算短信的內(nèi)容對應(yīng)的simhash值的過程。如表2所示，在本實(shí)施例中，移動終端接收到的短信是：“本公司代開普通發(fā)票，本公司不代開專用發(fā)票和專業(yè)發(fā)票?！逼鋝imhash值的計(jì)算過程同理于表1，在此不再贅述。可以看到，表2中示出了匯總求和后得到向量Atotal＝{8,-2,-2,0,6,0}，得到最終simhash值對應(yīng)向量Afinal＝{1,0,0,1,1,1}。因此，短信“本公司代開普通發(fā)票，本公司不代開專用發(fā)票和專業(yè)發(fā)票?！钡膕imhash值為100111，與短信本公司代開普通發(fā)票，本公司不代開增值稅專用發(fā)票和專業(yè)發(fā)票?！钡膕imhash值相同。

由上述可知，simhash值的計(jì)算過程中，在保持各個(gè)詞權(quán)重的基礎(chǔ)上，逐漸忽略各個(gè)詞的哈希值的具體大小，而是將其匯總求和后以值的正負(fù)來區(qū)分各個(gè)詞，而往往相似的短信內(nèi)容會以其相似的文本結(jié)構(gòu)得到符號相同的求和向量Atotal，因此，相似的短信會具有相同的simhash值，克服了傳統(tǒng)哈希算法的散列問題。

此外，在本發(fā)明的其他實(shí)施例中，可以通過其他方式對分詞后的各個(gè)詞賦予向量值。

作為本發(fā)明的實(shí)施例，當(dāng)某條信息確定為垃圾信息時(shí)，本地或云端服務(wù)器上的垃圾信息源數(shù)據(jù)庫記錄該信息的信息源。也就是，本發(fā)明中的垃圾信息源數(shù)據(jù)庫將源源不斷地記錄新的、可以歸為垃圾信息的信息源。

進(jìn)一步而言，本地記錄的垃圾信息源數(shù)據(jù)庫與云端服務(wù)器上記錄的垃圾信息源數(shù)據(jù)庫進(jìn)行交互更新。

因此，以終端設(shè)備手機(jī)為例，當(dāng)經(jīng)常對外發(fā)垃圾短信時(shí)，該手機(jī)的手機(jī)號碼將很快被收錄進(jìn)垃圾信息源數(shù)據(jù)庫。經(jīng)過互聯(lián)網(wǎng)的傳播，以及客戶端本地的垃圾信息源數(shù)據(jù)庫得到實(shí)時(shí)更新之后，當(dāng)該手機(jī)繼續(xù)發(fā)送垃圾短信時(shí)，將第一時(shí)間被其他已經(jīng)識別其為垃圾信息源的客戶端所封鎖、屏蔽。即使客戶端收到該手機(jī)發(fā)送的垃圾信息，也會第一時(shí)間根據(jù)信息源而被識別出來是垃圾信息，而無需分析信息中的內(nèi)容。

應(yīng)當(dāng)理解，本發(fā)明上述公開的方法，雖然是以客戶端的角度進(jìn)行描述，但是其部分功能也可以在服務(wù)器端執(zhí)行，此部分的技術(shù)方案也應(yīng)理解為本發(fā)明公開的范疇。

圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的一種確定垃圾信息的方法的流程圖。如圖2所示，該方法包括：

步驟S210，接收客戶端側(cè)上傳的發(fā)送短信的號碼或短信的內(nèi)容對應(yīng) 的哈希值。

步驟S220，將發(fā)送短信的號碼或該短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配。

在本步驟中，云端服務(wù)器根據(jù)歷史記錄識別的垃圾信息源數(shù)據(jù)庫，判斷上發(fā)的短信的號碼是否已經(jīng)被記錄，即是否存在于垃圾信息源數(shù)據(jù)庫中。

或者，在本步驟中，哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識別信息。其中，黑的識別信息即指示該信息為垃圾信息；白的識別信息即指示該信息為不是垃圾信息。

在本發(fā)明的一個(gè)實(shí)施例中，該哈希值庫是云端服務(wù)器根據(jù)歷史識別記錄所設(shè)置的，云端服務(wù)器每次進(jìn)行垃圾短信的識別后，無論選取何種識別方法，均將所識別的短信的內(nèi)容、關(guān)鍵詞或哈希值等特征與識別信息對應(yīng)記錄下來，取其中的哈希值與識別信息的對應(yīng)記錄，建立哈希值庫。

步驟S230，將識別信息返回給客戶端。

可見，圖2所示的方法描述了云端服務(wù)器接收到客戶端發(fā)來的發(fā)送短信的號碼或短信的內(nèi)容對應(yīng)哈希值后，將識別信息返回給客戶端的過程。該方法在保證垃圾短信識別有效性的基礎(chǔ)上，避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題；且經(jīng)過本地的計(jì)算處理后減輕了云端服務(wù)器的處理壓力以及云端服務(wù)器與客戶端的交互負(fù)擔(dān)，提高了識別效率，符合用戶需求。

在本發(fā)明的一個(gè)實(shí)施例中，以終端設(shè)備手機(jī)為例，當(dāng)經(jīng)常對外發(fā)垃圾短信時(shí)，該手機(jī)的手機(jī)號碼將很快被云端服務(wù)器收錄進(jìn)垃圾信息源數(shù)據(jù)庫。當(dāng)客戶端收到該手機(jī)發(fā)送的垃圾信息，云端服務(wù)器會第一時(shí)間根據(jù)信息源而被識別出來是垃圾信息，而無需分析短信中的內(nèi)容。

在本發(fā)明的一個(gè)實(shí)施例中，云端服務(wù)器所接收到的短信的內(nèi)容對應(yīng)的哈希值為該短信的內(nèi)容對應(yīng)的simhash值，與之對應(yīng)地，云端服務(wù)器的哈希值庫具體為simhash值庫。

在本發(fā)明的一個(gè)實(shí)施例中，圖2所示的方法進(jìn)一步包括：

步驟S240(圖中未示出)，接收用戶舉報(bào)的短信內(nèi)容。

步驟S250(圖中未示出)，對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識別，并生成對應(yīng)的simhash值，將simhash值和對應(yīng)的識別信息保存到哈希值庫中。

本步驟中，由云端服務(wù)器計(jì)算短信的內(nèi)容對應(yīng)simhash值，其過程與上文中所述的客戶端計(jì)算simhash的過程類似，在此不再贅述。

圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用于確定垃圾信息的裝置的示意圖。如圖3所示，確定垃圾信息的裝置300包括：

接收模塊310，用于接收來自外部的信息，確定信息的信息源及內(nèi)容；

處理模塊320，用于根據(jù)信息源及信息的內(nèi)容判斷信息是否為垃圾信息；

判定模塊330，用于將通過信息源以及信息的內(nèi)容判斷為垃圾信息的信息確定為垃圾信息。

作為確定垃圾信息的裝置300的實(shí)施例，處理模塊320用于根據(jù)信息源判斷信息是否為垃圾信息包括：

處理模塊320用于將信息源與本地記錄的垃圾信息源數(shù)據(jù)庫中的記錄進(jìn)行比對，當(dāng)信息源為垃圾信息源時(shí)，判定模塊330將信息確定為垃圾信息；或者，

處理模塊320用于將信息源傳送至云端服務(wù)器，接收模塊310用于接收云端服務(wù)器返回的指示信息，當(dāng)指示信息確定信息源為垃圾信息源時(shí)，判定模塊330將信息確定為垃圾信息。

進(jìn)一步而言，處理模塊320用于根據(jù)信息的內(nèi)容判斷信息是否為垃圾信息包括：

根據(jù)用戶的選擇，處理模塊320用于將信息的內(nèi)容直接上傳至云端服務(wù)器，或者，處理模塊320用于將信息的內(nèi)容的替代信息上傳至云端服務(wù)器；

接收模塊310用于接收云端服務(wù)器返回的識別信息，判定模塊330用于根據(jù)識別信息確定信息是否為垃圾信息。

作為確定垃圾信息的裝置300的實(shí)施例，處理模塊320用于將信息的內(nèi)容的替代信息上傳至云端服務(wù)器包括：

處理模塊320用于計(jì)算出信息的內(nèi)容對應(yīng)的哈希值；

處理模塊320用于將信息的內(nèi)容對應(yīng)的哈希值上傳到云端服務(wù)器。

進(jìn)一步而言，處理模塊320用于計(jì)算出信息的內(nèi)容對應(yīng)的哈希值包括：

處理模塊320用于對信息的內(nèi)容進(jìn)行分詞處理；

處理模塊320用于對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到信息的內(nèi)容對應(yīng)的simhash值。

處理模塊320將發(fā)送信息的信息源或信息的內(nèi)容對應(yīng)哈希值發(fā)送到云端服務(wù)器，云端服務(wù)器判斷后將識別信息返回給接收模塊310。因此，確定垃圾信息的裝置300在保證垃圾短信識別有效性的基礎(chǔ)上，避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題；且經(jīng)過本地的計(jì)算處理后減輕了云端服務(wù)器的處理壓力以及云端服務(wù)器與客戶端的交互負(fù)擔(dān)，提高了識別效率，符合用戶需求。

在本發(fā)明的一個(gè)實(shí)施例中，處理模塊320適于根據(jù)一定的傳統(tǒng)哈希算法，計(jì)算出短信的內(nèi)容對應(yīng)的哈希值。本實(shí)施例所述的哈希算法包括：HAVAL、MD2、MD4、MD5或SHA1等，由上文可知，此類傳統(tǒng)哈希算法都有如下一個(gè)基本特征：在輸入域中很少出現(xiàn)散列沖突，即對于可能差距只有一個(gè)字節(jié)的文本也會映射出兩個(gè)完全不同的哈希值。

因此，為了去除小范圍差異的短信的內(nèi)容對應(yīng)哈希值之間的偏差，減輕后續(xù)處理中云端服務(wù)器的識別壓力，在本發(fā)明的另一個(gè)實(shí)施例中，處理模塊320適于對短信的內(nèi)容進(jìn)行分詞處理；對分詞后的各個(gè)詞賦予不同的向量值，匯總計(jì)算得到該短信的內(nèi)容對應(yīng)的simhash值。其中，處理模塊320計(jì)算短信的內(nèi)容對應(yīng)的simhash值的一個(gè)具體實(shí)施例如表1所示，上文中已詳細(xì)描述，在此不再贅述。

此外，當(dāng)判定模塊330確定信息為垃圾信息時(shí)，本地或云端服務(wù)器上的垃圾信息源數(shù)據(jù)庫記錄信息的信息源。

進(jìn)一步而言，接收模塊310和處理模塊320將本地記錄的垃圾信息源數(shù)據(jù)庫與云端服務(wù)器上記錄的垃圾信息源數(shù)據(jù)庫進(jìn)行交互更新。

因此，以終端設(shè)備手機(jī)為例，當(dāng)經(jīng)常對外發(fā)垃圾短信時(shí)，經(jīng)過互聯(lián)網(wǎng) 的傳播，該手機(jī)的手機(jī)號碼將很快被確定垃圾信息的裝置300收錄進(jìn)垃圾信息源數(shù)據(jù)庫。當(dāng)該手機(jī)繼續(xù)發(fā)送垃圾短信時(shí)，將第一時(shí)間被其他已經(jīng)識別其為垃圾信息源的客戶端所封鎖、屏蔽。即使確定垃圾信息的裝置300收到該手機(jī)發(fā)送的垃圾信息，也會第一時(shí)間根據(jù)信息源而被識別出來是垃圾信息，而無需分析信息中的內(nèi)容。

圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種確定垃圾信息的云端服務(wù)器的示意圖。

如圖4所示，確定垃圾信息的云端服務(wù)器400包括：

接收單元410，用于接收客戶端側(cè)上傳的發(fā)送短信的號碼或短信的內(nèi)容對應(yīng)的哈希值。

識別單元420，用于將發(fā)送短信的號碼或該短信的內(nèi)容對應(yīng)的哈希值與哈希值庫進(jìn)行匹配。

在本單元中，云端服務(wù)器根據(jù)歷史記錄識別的垃圾信息源數(shù)據(jù)庫，判斷上發(fā)的短信的號碼是否已經(jīng)被記錄，即是否存在于垃圾信息源數(shù)據(jù)庫中。

或者，在本單元中，哈希值庫中對應(yīng)保存有不同短信內(nèi)容對應(yīng)的哈希值以及已判斷為黑或白的識別信息。在本發(fā)明的一個(gè)實(shí)施例中，該哈希值庫是云端服務(wù)器400根據(jù)歷史識別記錄所設(shè)置的，云端服務(wù)器400每次進(jìn)行垃圾短信的識別后，無論選取何種識別方法，均將所識別的短信的內(nèi)容、關(guān)鍵詞或哈希值等特征與識別信息對應(yīng)記錄下來，取其中的哈希值與識別信息的對應(yīng)記錄，建立哈希值庫。

反饋單元430，用于將識別信息返回給客戶端。

可見，圖4所示的方案說明了接收單元410接收到客戶端發(fā)來的發(fā)送短信的號碼或短信的內(nèi)容對應(yīng)哈希值后，反饋單元430將識別信息返回給客戶端的過程。該方案在保證垃圾短信識別有效性的基礎(chǔ)上，避免了在未經(jīng)用戶同意的情況下將短信的內(nèi)容直接上傳到服務(wù)器所導(dǎo)致的侵犯用戶個(gè)人隱私的問題；且經(jīng)過本地的計(jì)算處理后減輕了云端服務(wù)器的處理壓力以及云端服務(wù)器與客戶端的交互負(fù)擔(dān)，提高了識別效率，符合用戶需求。

在本發(fā)明的一個(gè)實(shí)施例中，以終端設(shè)備手機(jī)為例，當(dāng)經(jīng)常對外發(fā)垃圾短信時(shí)，該手機(jī)的手機(jī)號碼將很快被識別單元420收錄進(jìn)垃圾信息源數(shù)據(jù)庫。當(dāng)客戶端收到該手機(jī)發(fā)送的垃圾信息，識別單元420會第一時(shí)間根據(jù)信息源而被識別出來是垃圾信息，而無需分析短信中的內(nèi)容。

在本發(fā)明的一個(gè)實(shí)施例中，接收單元410所接收到的短信的內(nèi)容對應(yīng)的哈希值為該短信的內(nèi)容對應(yīng)的simhash值，與之對應(yīng)地，云端服務(wù)器的哈希值庫具體為simhash值庫。

在本發(fā)明的一個(gè)實(shí)施例中，接收單元410，進(jìn)一步適于接收用戶舉報(bào)的短信內(nèi)容；識別單元420，進(jìn)一步適于對用戶舉報(bào)的各短信內(nèi)容進(jìn)行黑或白的識別，并生成對應(yīng)的simhash值，將simhash值和對應(yīng)的識別信息保存到所述哈希值庫中。其中，識別單元420計(jì)算短信的內(nèi)容對應(yīng)simhash值，其過程與上文中所述的客戶端計(jì)算simhash的過程類似，在此不再贅述。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項(xiàng)或多項(xiàng)的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計(jì)和制造，或者也可以包括通用計(jì)算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計(jì)算機(jī)程序，這些計(jì)算機(jī)程序選擇性地激活或重構(gòu)。這樣的計(jì)算機(jī)程序可以被存儲在設(shè)備(例如，計(jì)算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中，所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、ROM(Read-Only Memory，只讀存儲器)、RAM(Random Access Memory，隨即存儲器)、EPROM(Erasable Programmable Read-Only Memory，可擦寫可編程只讀存儲器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是，可讀介質(zhì)包括由設(shè)備(例如，計(jì)算機(jī))以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以用計(jì)算機(jī)程序指令來實(shí)現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個(gè)框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以將這些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專業(yè)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實(shí)現(xiàn)，從而通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個(gè)框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地，具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地，現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實(shí)施方式，應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：范國峰;常富洋;李振博
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

手持式撿垃圾裝置相關(guān)技術(shù)

垃圾房除臭裝置相關(guān)技術(shù)

垃圾吊防碰撞裝置相關(guān)技術(shù)

埋地式垃圾收集裝置相關(guān)技術(shù)

海洋垃圾回收裝置相關(guān)技術(shù)

垃圾分類裝置相關(guān)技術(shù)

垃圾自卸裝置相關(guān)技術(shù)

醫(yī)療垃圾處理裝置相關(guān)技術(shù)

垃圾裂化焚燒系統(tǒng)裝置相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于確定垃圾信息的方法及裝置與流程