本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種垃圾信息識別方法及裝置、系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息日益豐富,而網(wǎng)站上的各種用戶原創(chuàng)信息則魚龍混雜,無用廣告、色情等垃圾信息越來越多。因此,網(wǎng)站中的用戶原創(chuàng)信息應(yīng)事先經(jīng)過垃圾詞過濾,也就是說,應(yīng)預(yù)先對用戶原創(chuàng)信息進行垃圾信息的識別,將識別為垃圾信息的用戶原創(chuàng)信息屏蔽掉,以確保網(wǎng)站信息的純凈度。
然而,在進行用戶原創(chuàng)信息的發(fā)布時,通過預(yù)先對用戶原創(chuàng)信息進行語義轉(zhuǎn)換,從而達到避免被識別為垃圾信息的目的。例如,為避免被識別為垃圾信息,發(fā)布廣告信息時,將qq號等阿拉伯數(shù)字轉(zhuǎn)換為中文數(shù)字,從而達到避免被識別為垃圾信息的目的。
目前,現(xiàn)有的垃圾信息識別一般通過與基準垃圾詞進行完全匹配或者部分匹配的方式來識別垃圾信息,而無法針對經(jīng)過語義轉(zhuǎn)換后的用戶原創(chuàng)信息進行垃圾信息的識別,從而大大降低了垃圾信息識別的準確性,造成垃圾信息的誤判率較高。
技術(shù)實現(xiàn)要素:
為了解決相關(guān)技術(shù)中無法針對經(jīng)過語義轉(zhuǎn)換后的用戶原創(chuàng)信息進行垃圾信息識別的技術(shù)問題,本發(fā)明提供了一種垃圾信息識別方法及裝置、系統(tǒng)。
本發(fā)明實施例提供了一種垃圾信息識別方法,包括:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對所述文本內(nèi)容進行語義還原,得到還原文本;
通過梯度下降算法將所述還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過對所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別所述用戶原創(chuàng)信息為垃圾信息。
另外,本發(fā)明實施例提供了一種垃圾信息識別裝置,包括:
文本內(nèi)容提取模塊,用于提取用戶原創(chuàng)信息的文本內(nèi)容;
語義還原模塊,用于對所述文本內(nèi)容進行語義還原,得到還原文本;匹配運算模塊,用于通過梯度下降算法將所述還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
垃圾信息識別模塊,用于通過對所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別所述用戶原創(chuàng)信息為垃圾信息。
此外,本發(fā)明實施例還提供了一種系統(tǒng),包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為執(zhí)行:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對所述文本內(nèi)容進行語義還原,得到還原文本;
通過梯度下降算法將所述還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過對所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別所述用戶原創(chuàng)信息為垃圾信息。
本發(fā)明的實施例提供的技術(shù)方案可以包括以下有益效果:
在對用戶原創(chuàng)信息進行垃圾信息識別時,通過對用戶原創(chuàng)信息的文本內(nèi)容進行語義還原,從而能夠針對經(jīng)過語義轉(zhuǎn)換后的用戶原創(chuàng)信息進行垃圾信息的識別,大大提高了垃圾信息識別的準確性,降低垃圾信息的誤判率。
應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本發(fā)明。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。
圖2是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。
圖3是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。
圖4是根據(jù)圖3對應(yīng)實施例示出的垃圾信息識別方法中步驟s220的一種具體實現(xiàn)流程圖。
圖5是根據(jù)圖1對應(yīng)實施例示出的垃圾信息識別方法中步驟s130的一種具體實現(xiàn)流程圖。
圖6是根據(jù)一示例性實施例示出的一種垃圾信息識別裝置框圖。
圖7是圖6對應(yīng)實施例示出的垃圾信息識別裝置中語義還原模塊120的一種框圖。
圖8是根據(jù)圖6對應(yīng)實施例示出的另一種垃圾信息識別裝置框圖。
圖9是圖8對應(yīng)實施例示出的垃圾信息識別裝置中特征提取模塊220的一種框圖。
圖10是圖6對應(yīng)實施例示出的垃圾信息識別裝置中匹配運算模塊130的一種框圖。
圖11是根據(jù)一示例性實施例示出的一種系統(tǒng)的框圖。
具體實施方式
這里將詳細地對示例性實施例執(zhí)行說明,其示例表示在附圖中。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。如圖1所示,該垃圾信息識別方法可以包括以下步驟。
在步驟s110中,提取用戶原創(chuàng)信息的文本內(nèi)容。
用戶原創(chuàng)信息是網(wǎng)絡(luò)上用戶輸入的信息。例如,論壇中,用戶對某一主題的評論留言。
可以理解的是,用戶原創(chuàng)信息包括表情、文本等內(nèi)容。
用戶原創(chuàng)信息魚龍混雜,文本中通常包含很多垃圾信息,需預(yù)先對用戶原創(chuàng)信息的文本內(nèi)容進行垃圾信息的識別。因而,從用戶原創(chuàng)信息中提取出文本內(nèi)容。
在用戶原創(chuàng)信息中提取文本內(nèi)容時,可以通過各種文本提取方法進行提取,在此不進行限定。
在步驟s120中,對文本內(nèi)容進行語義還原,得到還原文本。
語義還原是根據(jù)語義對文本內(nèi)容據(jù)進行文本處理。在對文本內(nèi)容進行語義分析后,進行相應(yīng)的還原處理,得到還原文本。
可以理解的是,為避免發(fā)布的垃圾信息被篩查出,用戶通過對語義轉(zhuǎn)換,從而避免發(fā)布的用戶原創(chuàng)信息被識別為垃圾信息。
例如,通過將qq號“1234567”由阿拉伯數(shù)字轉(zhuǎn)換為“一二三四五六七”,從而避免被識別為垃圾信息。
又例如,通過諧音字/組合字的轉(zhuǎn)換,將“加我微信送你”轉(zhuǎn)換為“家我威信送你”,從而避免被識別為垃圾信息。
因此,需對用戶原創(chuàng)信息的文本內(nèi)容進行語義還原處理。
語義還原是對文本內(nèi)容進行語義分析,提取文本內(nèi)容所代表的文本含義。
對文本內(nèi)容進行語義分析的方法有多種,可以通過潛在語義索引方法,基于向量空間模型將文本內(nèi)容表示為特征-文檔的矩陣形式,并通過奇異值分解技術(shù)將矩陣降秩,將文本內(nèi)容與特征詞映射到同一低維的語義空間;也可以基于外部語義知識進行語義分析,例如,通過諧音字/組合字字典,提取文本內(nèi)容中的文本含義;還可以通過其他方式對文本內(nèi)容進行語義分析,在此不對語義分析的方法進行限定。
在步驟s130中,通過梯度下降算法將文本內(nèi)容在預(yù)置的樣本模型庫中進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
梯度下降算法是機器學(xué)習(xí)中的一種優(yōu)化算法。
樣本模型庫是預(yù)先準備的,樣本模型庫中包含有各樣本模型為垃圾信息的概率。
垃圾概率是用戶原創(chuàng)信息為垃圾信息的幾率大小。
梯度下降算法中,通過采用逐步下降的梯度對用戶原創(chuàng)信息的文本內(nèi)容與樣本模型庫中的樣本模型進行匹配運算,在運算收斂后,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
在步驟s140中,通過對垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別用戶原創(chuàng)信息為垃圾信息。
垃圾概率閾值是預(yù)先設(shè)置的垃圾概率臨界值。
當一用戶原創(chuàng)信息為垃圾信息的垃圾概率達到垃圾概率時,則識別該用戶原創(chuàng)信息為垃圾信息。
例如,預(yù)設(shè)的垃圾概率閾值為70%,當用戶原創(chuàng)信息的垃圾概率達到70%時,則識別該用戶原創(chuàng)信息為垃圾信息。
利用如上所述的方法,通過將用戶原創(chuàng)信息的文本內(nèi)容進行語義還原,對語義還原后得到的還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率,進而根據(jù)預(yù)設(shè)的垃圾概率閾值,識別用戶原創(chuàng)信息為垃圾信息,從而能夠針對經(jīng)過語義轉(zhuǎn)換后的用戶原創(chuàng)信息進行垃圾信息的識別,大大提高了識別垃圾信息的準確性。
圖2是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。如圖2所示,在圖1對應(yīng)實施例示出的步驟s120可以包括以下步驟。
在步驟s121中,識別文本內(nèi)容中的中文數(shù)字。
中文數(shù)字是以中文形式表示的數(shù)字。中文數(shù)字包括中文大寫數(shù)字和中文小寫數(shù)字,例如“一”、“壹”。
在一具體的示例性實施例中,通過將文本內(nèi)容與預(yù)置的數(shù)字詞庫進行對比,識別文本內(nèi)容中的中文數(shù)字。
在步驟s122中,對中文數(shù)字轉(zhuǎn)換為阿拉伯數(shù)字,得到文本內(nèi)容對應(yīng)的還原文本。
利用如上所述的方法,通過識別用戶原創(chuàng)信息中的中文數(shù)字,再將中文數(shù)字轉(zhuǎn)換為阿拉伯數(shù)字,進而將阿拉伯數(shù)字在預(yù)置的樣本模型庫中進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率,從而能夠?qū)χ形臄?shù)字進行垃圾信息的識別,大大提高了識別垃圾信息的準確性。
可選的,在圖1對應(yīng)實施例示出的步驟s120還可以包括以下步驟:
根據(jù)預(yù)置的諧音字/組合字字庫對文本內(nèi)容的語義還原,得到對應(yīng)的還原文本。
諧音字/組合字字庫是包含各文本及對應(yīng)的諧音字和/或組合字的詞典。
可以理解的是,用戶原創(chuàng)信息的文本內(nèi)容中,可能還存在經(jīng)過諧音字/組合字轉(zhuǎn)換的詞。因而,通過對文本內(nèi)容進行語義分析,并根據(jù)預(yù)置的諧音字/組合字字典,對文本內(nèi)容進行語義還原。
例如,用戶原創(chuàng)信息本意為“流氓去死”,但為避免識別垃圾信息,發(fā)布時的文本內(nèi)容為“榴芒去死”。通過預(yù)置的諧音字/組合字字庫識別用戶原創(chuàng)信息的語義,并進行諧音字/組合字的轉(zhuǎn)換,將“榴芒去死”轉(zhuǎn)換為“流氓去死”。
利用如上所述的方法,通過預(yù)置的諧音字/組合字字庫識別用戶原創(chuàng)信息的語義,并進行諧音字/組合字的轉(zhuǎn)換,避免部分垃圾信息通過諧音字/組合字的轉(zhuǎn)換而無法識別為垃圾信息,大大提高了垃圾信息識別的準確性。
圖3是根據(jù)一示例性實施例示出的一種垃圾信息識別方法流程圖。如圖3所示,在圖1對應(yīng)實施例中的步驟s130之前,該垃圾信息識別方法還可以包括以下步驟。
在步驟s210中,從預(yù)定的數(shù)據(jù)庫中提取內(nèi)容數(shù)據(jù)。
數(shù)據(jù)庫為按照數(shù)據(jù)結(jié)構(gòu)存儲和管理網(wǎng)站社區(qū)信息的數(shù)據(jù)倉庫。
例如,美柚社區(qū)的各種信息數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)存儲于預(yù)定的數(shù)據(jù)庫中。
內(nèi)容數(shù)據(jù)是按照數(shù)據(jù)結(jié)構(gòu)存儲于數(shù)據(jù)庫中的文本信息。
在步驟s220中,通過隨機森林算法從內(nèi)容數(shù)據(jù)中進行文本向量的特征提取。
在機器學(xué)習(xí)中,隨機森林是一個包含多個決策樹的分類器。
文本向量是通過決策樹分類器對內(nèi)容數(shù)據(jù)進行特征提取后表征的數(shù)據(jù)形式。
隨機森林由多個決策樹構(gòu)成。決策樹中的每一個節(jié)點都是關(guān)于某個特征的條件,將內(nèi)容數(shù)據(jù)按照不同的條件進行分類,進而根據(jù)分類將內(nèi)容數(shù)據(jù)轉(zhuǎn)換為文本向量。
在步驟s230中,根據(jù)文本向量及相應(yīng)的權(quán)重向量,得到內(nèi)容數(shù)據(jù)對應(yīng)的數(shù)據(jù)類別。
權(quán)重向量是與文本向量相對應(yīng)的。權(quán)重向量中的各權(quán)重分量是與文本向量中的文本分量一一對應(yīng)的。
將內(nèi)容數(shù)據(jù)按照不同的條件進行分類時,各不同的條件對應(yīng)有相應(yīng)的權(quán)重,因此,對內(nèi)容數(shù)據(jù)進行文本數(shù)據(jù)的特征提取后,得到的文本向量中,各文本分量也具有相應(yīng)的權(quán)重分量。
在一具體的示例性實施例中,數(shù)據(jù)類別為內(nèi)容數(shù)據(jù)對應(yīng)的信息垃圾程度,根據(jù)不同的信息垃圾程度,對內(nèi)容數(shù)據(jù)進行分類。
在一具體的示例性實施例中,通過計算文本向量與相應(yīng)的權(quán)重向量之間的乘積,根據(jù)該乘積查找對應(yīng)的數(shù)據(jù)類別。
在步驟s240中,根據(jù)內(nèi)容數(shù)據(jù)及對應(yīng)的數(shù)據(jù)類別進行規(guī)則引擎的配置,形成樣本模型庫。
規(guī)則引擎是一種業(yè)務(wù)規(guī)則決策組件。
規(guī)則引擎中,規(guī)則條件是與規(guī)則動作相對應(yīng)的。通過接受數(shù)據(jù)輸入,解釋業(yè)務(wù)規(guī)則,并根據(jù)業(yè)務(wù)規(guī)則做出業(yè)務(wù)決策。當業(yè)務(wù)規(guī)則中的規(guī)則條件滿足時,則觸發(fā)執(zhí)行相應(yīng)的規(guī)則動作。
在一具體的示例性實施例中,通過配置輸入文本內(nèi)容與內(nèi)容數(shù)據(jù)之間的相似率,在輸入的文本內(nèi)容與內(nèi)容數(shù)據(jù)相似的概率達到該相似率時,則識別確認該輸入的文本內(nèi)容為該內(nèi)容數(shù)據(jù)對應(yīng)的數(shù)據(jù)類別。
例如,內(nèi)容數(shù)據(jù)b對應(yīng)的數(shù)據(jù)類別為垃圾信息,規(guī)則引擎配置時的規(guī)則條件為與內(nèi)容數(shù)據(jù)b之間的相似率為80%。經(jīng)過計算分析,得到輸入的文本內(nèi)容a與內(nèi)容數(shù)據(jù)b之間的相似率為90%,則識別確認文本內(nèi)容a為垃圾信息。
利用如上所述的方法,通過預(yù)先進行數(shù)據(jù)庫中內(nèi)容數(shù)據(jù)的特征提取并進行規(guī)則引擎的配置,形成樣本模型庫,在后續(xù)進行垃圾信息的判斷時,通過將文本內(nèi)容在樣本模型庫中進行垃圾概率的計算,從而大大提高了識別垃圾信息的準確性。
圖4是根據(jù)一示例性實施例示出的對步驟s220進一步的細節(jié)的描述。如圖3所示,樣本模型庫分為多個樣本模型類,該步驟s220可以包括以下步驟。
在步驟s221中,對內(nèi)容數(shù)據(jù)進行語義還原。
可以理解的是,為避免發(fā)布的垃圾信息被篩查出,用戶進行同音字/諧音字的拆分等操作后進行用戶原創(chuàng)信息的發(fā)布。
因此,需在內(nèi)容數(shù)據(jù)進行語義還原處理。
語義還原是根據(jù)語義對內(nèi)容數(shù)據(jù)進行文本處理。例如,將一串中文數(shù)字先轉(zhuǎn)換為阿拉伯數(shù)字,進而再轉(zhuǎn)換為qq、微信。
在一具體的示例性實施例中,內(nèi)容數(shù)據(jù)為:家我威信送你。通過諧音字/組合字的還原將“家我威信送你”轉(zhuǎn)換成“加我微信送你”。通過預(yù)置諧音字/組合字字典,對諧音字/組合字進行還原處理,從而篩查出垃圾信息。
在一具體的示例性實施例中,內(nèi)容數(shù)據(jù)為:不會的vyuting1028103172好多教你喔。通過語義還原將通過qq、微信轉(zhuǎn)為同一個詞,即將vyuting1028103172進行提取轉(zhuǎn)化成一個通用的維度,進而得到的語義還原后的內(nèi)容數(shù)據(jù)為“不會的wechat好多教你”。由于垃圾信息中通常存在加微信、qq等情況,通過將各種微信、qq號統(tǒng)一處理成一個維度,避免得到的文本向量過大,同時也避免了一個微信、qq號未出現(xiàn)過而導(dǎo)致無法識別的情況。
在步驟s222中,對語義還原后的內(nèi)容數(shù)據(jù)進行分詞操作,得到內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞。
可以理解的是,內(nèi)容數(shù)據(jù)可能為多個詞語組成,例如“加我微信送你”。
若在語義還原后直接對該內(nèi)容數(shù)據(jù)進行特征提取,將大大影響文本之間的相似度,因而在進行特征提取之前,通過預(yù)先對內(nèi)容數(shù)據(jù)進行分詞操作,進而對分詞操作后得到的文本分詞分別進行文本向量的特征提取。
分詞操作是將指的是將一個文字序列切分成一個一個單獨的詞。
如前所述,內(nèi)容數(shù)據(jù)是按照數(shù)據(jù)結(jié)構(gòu)存儲于數(shù)據(jù)庫中的文本信息。而文本信息可能為一個詞,也可能為多個詞,還可能為其他形式。
因此,通過對內(nèi)容數(shù)據(jù)進行分詞操作,將內(nèi)容數(shù)據(jù)切分成一個一個單獨的文本分詞。
對內(nèi)容數(shù)據(jù)執(zhí)行分詞操作的方式有多種。可以基于字符串將內(nèi)容數(shù)據(jù)機械地切分為一個一個的文本分詞,得到該內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞;也可以對內(nèi)容數(shù)據(jù)進行語義分析,進而基于語義將內(nèi)容數(shù)據(jù)切分為一個一個的文本分詞,得到該內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞;還可以通過其他的方式對內(nèi)容數(shù)據(jù)執(zhí)行分詞操作,在此不作限定。
在步驟s223中,通過隨機森林算法對內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞分別進行文本向量的特征提取。
利用如上所述的方法,制作樣本模型庫時,在對內(nèi)容數(shù)據(jù)進行文本向量的特征提取之前,預(yù)先對內(nèi)容數(shù)據(jù)進行語義還原及分詞操作,從而使從內(nèi)容數(shù)據(jù)中進行特征提取得到的文本向量更加準確,提高了樣本模型庫的準確度。
圖5是根據(jù)一示例性實施例示出的對步驟s130進一步的細節(jié)的描述。如圖5所示,樣本模型庫分為多個樣本模型類,該步驟s130可以包括以下步驟。
在步驟s131中,根據(jù)用戶原創(chuàng)信息從樣本模型庫中選取相應(yīng)的一個樣本模型類。
樣本模型庫中,將樣本模型分成多個樣本模型類,每個樣本模型類包含預(yù)定數(shù)量的樣本模型。
在步驟s132中,通過梯度下降算法對用戶原創(chuàng)信息與樣本模型類進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
進行匹配運算時,每次均是利用一個樣本模型類中的樣本模型進行隨機梯度運算。即:
x(t+1)=x(t)+δx(t)
δx(t)=-ηg(t)
其中,η為學(xué)習(xí)率,g(t)為x在t時刻的梯度。
通過對樣本模型庫進行樣本模型類的分類,在樣本模型庫中的樣本模型較多時,選取一個樣本模型類進行匹配運算,減小匹配運算時資源的消耗,并且可以更快地收斂。
例如,若樣本模型庫中前一半樣本模型和后一半樣本模型的梯度相同,通過將前一半樣本模型作為一個樣本模型類,后一半樣本模型作為另一個樣本模型類,從而在一次樣本模型庫的遍歷匹配運算時,樣本模型類的方法向最優(yōu)解前進兩個step,而整體的匹配預(yù)算方法只前進一個step。
可選的,當樣本模型庫中存在重復(fù)的樣本模型時,通過樣本模型類的分類可以更快地促進匹配運算的收斂。
可先的,在每一次進行匹配運算后,將識別為垃圾信息的內(nèi)容數(shù)據(jù)作為樣本模型保存在樣本模型庫中。
利用如上所述的方法,通過將樣本模型庫中的樣本模型分為多個樣本模型類,進而每次在一個樣本模型類中進行隨機梯度的匹配運算,大大減少運算資源的消耗,并更快地達到收斂,提高了垃圾信息識別的效率。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行上述垃圾信息識別方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié),請參照本發(fā)明垃圾信息識別方法實施例。
圖6是根據(jù)一示例性實施例示出的一種垃圾信息識別裝置框圖,該系統(tǒng)包括但不限于:文本內(nèi)容獲取模塊110、語義還原模塊120、匹配運算模塊130及垃圾信息識別模塊140。
文本內(nèi)容提取模塊110,用于提取用戶原創(chuàng)信息的文本內(nèi)容;
語義還原模塊120,用于對文本內(nèi)容進行語義還原,得到還原文本;
匹配運算模塊130,用于通過梯度下降算法將還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率;
垃圾信息識別模塊140,用于通過對垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別用戶原創(chuàng)信息為垃圾信息。
上述裝置中各個模塊的功能和作用的實現(xiàn)過程具體詳見上述垃圾信息識別方法中對應(yīng)步驟的實現(xiàn)過程,在此不再贅述。
可選的,如圖7所示,圖6對應(yīng)實施例示出的垃圾信息識別裝置中,語義還原模塊120還包括但不限于:中文數(shù)字識別單元121及數(shù)字轉(zhuǎn)換單元122。
中文數(shù)字識別單元121,用于識別文本內(nèi)容中的中文數(shù)字;
數(shù)字轉(zhuǎn)換單元122,用于對中文數(shù)字轉(zhuǎn)換為阿拉伯數(shù)字,得到文本內(nèi)容對應(yīng)的還原文本。
可選的,圖6對應(yīng)實施例示出的垃圾信息識別裝置中,語義還原模塊120還包括但不限于:諧音字/組合字還原單元。
諧音字/組合字還原單元,用于根據(jù)預(yù)置的諧音字/組合字字庫對文本內(nèi)容的語義還原,得到對應(yīng)的還原文本。
圖8是根據(jù)圖6對應(yīng)實施例示出的另一種垃圾信息識別裝置框圖,該裝置還包括但不限于:內(nèi)容數(shù)據(jù)提取模塊210、特征提取模塊220、數(shù)據(jù)類別確定模塊230及樣本模型庫生成模塊240。
內(nèi)容數(shù)據(jù)提取模塊210,用于從預(yù)定的數(shù)據(jù)庫中提取內(nèi)容數(shù)據(jù);
特征提取模塊220,用于通過隨機森林算法從內(nèi)容數(shù)據(jù)中進行文本向量的特征提?。?/p>
數(shù)據(jù)類別確定模塊230,用于根據(jù)文本向量及相應(yīng)的權(quán)重向量,確定內(nèi)容數(shù)據(jù)對應(yīng)的數(shù)據(jù)類別;
樣本模型庫生成模塊240,用于根據(jù)內(nèi)容數(shù)據(jù)及對應(yīng)的數(shù)據(jù)類別進行規(guī)則引擎的配置,形成樣本模型庫。
可選的,如圖9所示,圖8中對應(yīng)實施例示出的特征提取模塊220包括但不限于:語義還原單元221、分詞單元222及分詞特征提取單元223。
語義還原單元221,用于對內(nèi)容數(shù)據(jù)進行語義還原;
分詞單元222,用于對語義還原后的內(nèi)容數(shù)據(jù)進行分詞操作,得到內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞;
分詞特征提取單元223,用于通過隨機森林算法對內(nèi)容數(shù)據(jù)對應(yīng)的文本分詞分別進行文本向量的特征提取。
可選的,如圖10所示,樣本模型庫分為多個樣本模型類,圖6中對應(yīng)實施例示出的匹配運算模塊130包括但不限于:樣本模型類選取單元131和匹配運算單元132。
樣本模型類選取單元131,用于根據(jù)用戶原創(chuàng)信息從樣本模型庫中選取相應(yīng)的一個樣本模型類;
匹配運算單元132,用于通過梯度下降算法對用戶原創(chuàng)信息與樣本模型類進行匹配運算,得到用戶原創(chuàng)信息為垃圾信息的垃圾概率。
圖11是根據(jù)一示例性實施例示出的一種系統(tǒng)100的框圖。參考圖11,系統(tǒng)100可以包括以下一個或者多個組件:處理組件101,存儲器102,電源組件103,多媒體組件104,音頻組件105,傳感器組件107以及通信組件108。其中,上述組件并不全是必須的,系統(tǒng)100可以根據(jù)自身功能需求增加其他組件或減少某些組件,本實施例不作限定。
處理組件101通??刂葡到y(tǒng)100的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機操作以及記錄操作相關(guān)聯(lián)的操作等。處理組件101可以包括一個或多個處理器109來執(zhí)行指令,以完成上述操作的全部或部分步驟。此外,處理組件101可以包括一個或多個模塊,便于處理組件101和其他組件之間的交互。例如,處理組件101可以包括多媒體模塊,以方便多媒體組件104和處理組件101之間的交互。
存儲器102被配置為存儲各種類型的數(shù)據(jù)以支持在系統(tǒng)100的操作。這些數(shù)據(jù)的示例包括用于在系統(tǒng)100上操作的任何應(yīng)用程序或方法的指令。存儲器102可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實現(xiàn),如sram(staticrandomaccessmemory,靜態(tài)隨機存取存儲器),eeprom(electricallyerasableprogrammableread-onlymemory,電可擦除可編程只讀存儲器),eprom(erasableprogrammablereadonlymemory,可擦除可編程只讀存儲器),prom(programmableread-onlymemory,可編程只讀存儲器),rom(read-onlymemory,只讀存儲器),磁存儲器,快閃存儲器,磁盤或光盤。存儲器102中還存儲有一個或多個模塊,該一個或多個模塊被配置成由該一個或多個處理器109執(zhí)行,以完成圖1、圖2、圖3、圖4和圖5任一所示方法中的全部或者部分步驟。
電源組件103為系統(tǒng)100的各種組件提供電力。電源組件103可以包括電源管理系統(tǒng),一個或多個電源,及其他與為系統(tǒng)100生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件104包括在所述系統(tǒng)100和用戶之間的提供一個輸出接口的屏幕。在一些實施例中,屏幕可以包括lcd(liquidcrystaldisplay,液晶顯示器)和tp(touchpanel,觸摸面板)。如果屏幕包括觸摸面板,屏幕可以被實現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。
音頻組件105被配置為輸出和/或輸入音頻信號。例如,音頻組件105包括一個麥克風(fēng),當系統(tǒng)100處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風(fēng)被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器102或經(jīng)由通信組件108發(fā)送。在一些實施例中,音頻組件105還包括一個揚聲器,用于輸出音頻信號。
傳感器組件107包括一個或多個傳感器,用于為系統(tǒng)100提供各個方面的狀態(tài)評估。例如,傳感器組件107可以檢測到系統(tǒng)100的打開/關(guān)閉狀態(tài),組件的相對定位,傳感器組件107還可以檢測系統(tǒng)100或系統(tǒng)100一個組件的位置改變以及系統(tǒng)100的溫度變化。在一些實施例中,該傳感器組件107還可以包括磁傳感器,壓力傳感器或溫度傳感器。
通信組件108被配置為便于系統(tǒng)100和其他設(shè)備之間有線或無線方式的通信。系統(tǒng)100可以接入基于通信標準的無線網(wǎng)絡(luò),如wifi(wireless-fidelity,無線網(wǎng)絡(luò)),2g或3g,或它們的組合。在一個示例性實施例中,通信組件108經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實施例中,所述通信組件108還包括nfc(nearfieldcommunication,近場通信)模塊,以促進短程通信。例如,在nfc模塊可基于rfid(radiofrequencyidentification,射頻識別)技術(shù),irda(infrareddataassociation,紅外數(shù)據(jù)協(xié)會)技術(shù),uwb(ultra-wideband,超寬帶)技術(shù),bt(bluetooth,藍牙)技術(shù)和其他技術(shù)來實現(xiàn)。
在示例性實施例中,系統(tǒng)100可以被一個或多個asic(applicationspecificintegratedcircuit,應(yīng)用專用集成電路)、dsp(digitalsignalprocessing,數(shù)字信號處理器)、pld(programmablelogicdevice,可編程邏輯器件)、fpga(field-programmablegatearray,現(xiàn)場可編程門陣列)、控制器、微控制器、微處理器或其他電子元件實現(xiàn),用于執(zhí)行上述方法。
該實施例中的系統(tǒng)的處理器執(zhí)行操作的具體方式已經(jīng)在有關(guān)該數(shù)據(jù)傳輸?shù)目刂品椒ǖ膶嵤├袌?zhí)行了詳細描述,此處將不再做詳細闡述說明。
可選的,本發(fā)明還提供一種系統(tǒng),執(zhí)行圖1、圖2、圖3、圖4和圖5任一所示的垃圾信息識別方法的全部或者部分步驟。所述系統(tǒng)包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為執(zhí)行:
提取用戶原創(chuàng)信息的文本內(nèi)容;
對所述文本內(nèi)容進行語義還原,得到還原文本;
通過梯度下降算法將所述還原文本在預(yù)置的樣本模型庫中進行匹配運算,得到所述用戶原創(chuàng)信息為垃圾信息的垃圾概率;
通過對所述垃圾概率與預(yù)設(shè)的垃圾概率閾值進行比較,識別所述用戶原創(chuàng)信息為垃圾信息。
該實施例中的系統(tǒng)的處理器執(zhí)行操作的具體方式已經(jīng)在有關(guān)該垃圾信息識別方法的實施例中執(zhí)行了詳細描述,此處將不做詳細闡述說明。
在示例性實施例中,還提供了一種存儲介質(zhì),該存儲介質(zhì)為計算機可讀存儲介質(zhì),例如可以為包括指令的臨時性和非臨時性計算機可讀存儲介質(zhì)。該存儲介質(zhì)例如包括指令的存儲器102,上述指令可由系統(tǒng)100的處理器109執(zhí)行以完成上述垃圾信息識別方法。
應(yīng)當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),本領(lǐng)域技術(shù)人員可以在不脫離其范圍執(zhí)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。