欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種垃圾文本識別方法和裝置與流程

文檔序號:11216261閱讀:1581來源:國知局
一種垃圾文本識別方法和裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領域,特別是涉及一種垃圾文本息識別方法和裝置。



背景技術(shù):

隨著現(xiàn)在通信技術(shù)的迅猛發(fā)展和互聯(lián)網(wǎng)的普及,在帶給用戶更多方便的同時,垃圾文本問題也充斥著人們的視野。具體來說,一些不良用戶在互聯(lián)網(wǎng)上發(fā)布大量涉政、涉黃、涉賭、虛假廣告、不文明用語等垃圾信息,給互聯(lián)網(wǎng)的健康發(fā)展帶來嚴重的不利影響。因此,有必要對互聯(lián)網(wǎng)上的垃圾文本進行識別,以便對這些垃圾文本進行過濾或者刪除。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供了一種垃圾文本識別方法和裝置,用于對用戶上傳的文本是否垃圾文本進行識別,以避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

為了解決上述問題,本發(fā)明公開了一種垃圾文本識別方法,應用于互聯(lián)網(wǎng),所述方法具體包括步驟:

獲取互聯(lián)網(wǎng)的用戶輸入的文本;

對所述文本的特征進行特征提取,得到所述文本的多個文本特征;

利用預設的垃圾文本識別模型對所述文本特征進行識別,得到所述文本的垃圾概率。

優(yōu)選的,所述對所述文本的特征進行特征提取,包括:

利用預先構(gòu)建的語料庫、停用詞表、關鍵詞表和變異詞表對所述文本進行特征提取,得到所述多個文本特征。

優(yōu)選的,所述關鍵詞表的構(gòu)建方法包括如下步驟:

根據(jù)所述語料庫對所述文本進行分詞處理,并統(tǒng)計所述分詞處理得到的每個詞或字符所出現(xiàn)的頻次;

將通過分詞處理提取出的各個類別的詞、字符和詞組合作為關鍵詞;

根據(jù)所述關鍵詞和所述頻次得到所述關鍵詞的垃圾概率;

將所述關鍵詞及其對應的所述垃圾概率加入預設的表格,得到所述關鍵詞表。

優(yōu)選的,所述文本特征包括語義文本特征和非語義文本特征,所述利用預設的垃圾文本識別模型對所述文本特征進行識別,包括:

將所述語義文本特征輸入預設的語義特征垃圾文本識別模型進行識別,得到第一概率;

進一步,將所述非語義文本特征輸入預設的非語義特征垃圾文本識別模型進行識別,得到第二概率;

對所述第一概率和所述第二概率進行綜合處理,最終得到所述垃圾概率。

優(yōu)選的,所述非語義特征垃圾文本識別模型為根據(jù)預設的多個關鍵詞表、運用機器學習模型訓練得到。

優(yōu)選的,所述多個非語義文本特征包括關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù)中的部分或全部,n為正整數(shù)。

優(yōu)選的,在所述對所述文本的特征進行計算步驟之前,還包括:

對所述文本進行預處理,剔除其中無益于垃圾識別的字符。

相應的,為了保證上述方法的實施,本發(fā)明還提供了一種垃圾文本識別系統(tǒng),應用于互聯(lián)網(wǎng),所述系統(tǒng)具體包括:

文本獲取模塊,用于獲取互聯(lián)網(wǎng)的用戶輸入的文本;

特征提取模塊,用于對所述文本的特征進行特征提取,得到所述文本的多個文本特征;

垃圾識別模塊,用于利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到所述文本的垃圾概率。

優(yōu)選的,所述特征提取模塊包括:

文本特征提取單元,用于利用預先構(gòu)建的語料庫、停用詞表、關鍵詞表和變異詞表對所述文本進行特征提取,得到所述多個文本特征。

優(yōu)選的,所述特征提取模塊還包括關鍵詞表構(gòu)建單元,所述關鍵詞表構(gòu)建單元包括:

分詞處理子單元,用于根據(jù)所述語料庫對所述文本進行分詞處理,并統(tǒng)計所述分詞處理得到的每個詞或字符所出現(xiàn)的頻次;

關鍵詞歸類子單元,用于將通過分詞處理提取出的各個類別的詞、字符和詞組合作為關鍵詞;

垃圾概率計算子單元,用于根據(jù)所述關鍵詞和所述頻次得到所述關鍵詞的垃圾概率;

關鍵詞表構(gòu)建子單元,用于將所述關鍵詞及其對應的所述垃圾概率加入預設的表格,得到所述關鍵詞表。

優(yōu)選的,所述文本特征包括語義文本特征和非語義文本特征,所述特征識別模塊包括:

第一識別單元,用于將所述語義文本特征輸入預設的語義特征垃圾文本識別模型,得到第一概率;

第二識別單元,用于進一步,將所述非語義文本特征輸入預設的非語義特征垃圾文本識別模型進行識別,得到第二概率;

綜合處理單元,用于對所述第一概率和所述第二概率進行綜合處理,最終得到所述垃圾概率。

優(yōu)選的,還包括:

模型訓練模塊,用于通過根據(jù)預設的多個非語義文本特征、并運用機器學習模型進行訓練,得到所述非語義特征垃圾文本識別模型。

優(yōu)選的,所述多個非語義文本特征包括關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù)中的部分或全部,n為正整數(shù)。

優(yōu)選的,還包括:

文本預處理模塊,用于對所述文本進行預處理,剔除其中無益于垃圾識別的字符。

從上述技術(shù)方案可以看出,本發(fā)明提供了一種垃圾文本識別方法和系統(tǒng),該方法和系統(tǒng)應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用于輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明提供的一種垃圾文本識別方法實施例的步驟流程圖;

圖2為本發(fā)明提供的另一種垃圾文本識別方法實施例的步驟流程圖;

圖3為本發(fā)明提供的一種垃圾文本識別系統(tǒng)實施例的結(jié)構(gòu)框圖;

圖4為本發(fā)明提供的垃圾文本識別系統(tǒng)實施例的另一結(jié)構(gòu)框圖;

圖5為本發(fā)明提供的另一種垃圾文本識別系統(tǒng)實施例的結(jié)構(gòu)框圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

實施例一

圖1為本發(fā)明提供的一種垃圾文本識別方法實施例的步驟流程圖。

參照圖1所示,本實施例提供的垃圾文本識別方法應用于互聯(lián)網(wǎng),用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別方法具體包括如下步驟:

s101:獲取互聯(lián)網(wǎng)的用戶輸入的文本。

用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會利用相應網(wǎng)絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。

s102:對獲取的文本進行特征提取,得到多個文本特征。

在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進行特征提取時,利用預先構(gòu)建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。

值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數(shù)且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災難。

例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。

在預構(gòu)相應語料庫時,需預先收集大量的文本數(shù)據(jù),并經(jīng)過自動或者人工標注,給每條文本數(shù)據(jù)打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。

在預構(gòu)相應停用詞表時,依據(jù)上述構(gòu)建好的語料庫,對文本進行分詞處理,并統(tǒng)計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構(gòu)建出上述停用詞表。

在預構(gòu)相應關鍵詞表時,依據(jù)上述構(gòu)建的語料庫,對文本進行分詞處理,并統(tǒng)計出得到的每個詞和字符出現(xiàn)的頻次,同時用關聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現(xiàn)“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。將上述詞、字符和詞組合作為關鍵詞;進一步,依據(jù)上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。

在預構(gòu)相應的變異詞表時,依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構(gòu)建出關鍵詞的變異詞表。

s103:利用預設的垃圾文本識別模型對文本特征進行識別。

鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型對分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應的對策。

在對用戶輸入的文本進行識別時,首先將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;

然后,將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;

在得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。

上述的非語義特征垃圾文本識別模型是通過利用多個非語義文本特征進行訓練得到的,上述訓練類似于對數(shù)學模型的訓練,即將歷史數(shù)據(jù)代入預設的數(shù)學模型對其進行訓練,最終得到相應的模型。本發(fā)明中的非語義文本特征可達79個之多,例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。

上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體垃圾概率的計算方法如下,且與變異詞垃圾概率相似:

步驟一:匹配出用戶輸入的文本中所有的關鍵詞,構(gòu)建關鍵詞集合;

{w1,w2,…,wn}

步驟二:根據(jù)事先構(gòu)建好的關鍵詞表,找出對應的垃圾概率集合;

{pl,p2,…,pn}

步驟三:計算依據(jù)如下文本關鍵詞垃圾概率公式,得到關鍵詞垃圾概率。

變異詞垃圾概率的作用同上述的關鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計算過程同關鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。

在許多灌水的文本中,標點符號的使用常常不規(guī)范,常見的情況是過多重復地使用某一個或幾個標點符號。另外,在廣告的文本中,不良分子為了規(guī)避現(xiàn)有的垃圾識別方法,常常在聯(lián)系方式內(nèi)容中加入無關的標點符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標點符號照壁這一特征在一定程度上能夠識別用戶輸入的文本是否為垃圾文本。

本發(fā)明中,將字符分為漢字、字幕、數(shù)字、標點符號、其他符號等五大類。字符類型變換此時是指文本中不同類型的字符兩兩相互變換的總次數(shù)。計算公式如下:

其中counti,j表示類型i與類型j的變換次數(shù)。

例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數(shù)字的變換次數(shù)為1,數(shù)字與標點符號的變換次數(shù)為7,標點符號與數(shù)字的變換次數(shù)為6,其他兩兩變換的次數(shù)為0,因此,該文本的字符類型變換次數(shù)為1+7+6=14。

在實際中,灌水的文本內(nèi)容常常實體詞較少,即能夠表達實際意義的詞較少。這里的實體詞包括名詞、動詞、形容詞等在句子中有實際含義的詞。

從上述技術(shù)方案中可以看出,本實施例提供了一種垃圾文本識別方法,該方法應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

實施例二

圖2為本發(fā)明提供的另一種垃圾文本識別方法實施例的步驟流程圖。

參照圖2所示,本實施例提供的垃圾文本識別方法應用于互聯(lián)網(wǎng),用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別方法具體包括如下步驟:

s201:獲取互聯(lián)網(wǎng)的用戶輸入的文本。

用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會利用相應網(wǎng)絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。

s202:對獲取的文本進行預處理。

通過預處理,將用戶輸入的文本中無益于垃圾識別的字符予以剔除,例如http標簽、表情符號、停用詞等,通過減少需要辨識的字符能夠減少整個識別所需的計算量,從而一定意義上能夠提高識別效率。

s203:對獲取的文本進行特征提取,得到多個文本特征。

在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進行特征提取時,利用預先構(gòu)建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。

值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數(shù)且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災難。

例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。

在預構(gòu)相應語料庫時,需預先收集大量的文本數(shù)據(jù),并經(jīng)過自動或者人工標注,給每條文本數(shù)據(jù)打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。

在預構(gòu)相應停用詞表時,依據(jù)上述構(gòu)建好的語料庫,對文本進行分詞處理,并統(tǒng)計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構(gòu)建出上述停用詞表。

在預構(gòu)相應關鍵詞表時,依據(jù)上述構(gòu)建的語料庫,對文本進行分詞處理,并統(tǒng)計出得到的每個詞和字符出現(xiàn)的頻次,同時用關聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現(xiàn)“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。將上述詞、字符和詞組合作為關鍵詞;進一步,依據(jù)上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。

在預構(gòu)相應的變異詞表時,依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構(gòu)建出關鍵詞的變異詞表。

s204:利用預設的垃圾文本識別模型對文本特征進行識別。

鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應的對策。

在對用戶輸入的文本進行識別時,首先將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;

然后,將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;

在得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。

上述的非語義特征垃圾文本識別模型是通過利用多個非語義文本特征進行訓練得到的,上述訓練類似于對數(shù)學模型的訓練,即將歷史數(shù)據(jù)代入預設的數(shù)學模型對其進行訓練,最終得到相應的模型。本發(fā)明中的多個關鍵詞可達79個之多,其中的關鍵詞例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。

上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大。

從上述技術(shù)方案中可以看出,本實施例提供了另一種垃圾文本識別方法,該方法應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本進行預處理,剔除其中無益于垃圾識別的字符;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對文本特征進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術(shù)人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術(shù)人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。

實施例三

圖3為本發(fā)明提供的一種垃圾文本識別系統(tǒng)實施例的結(jié)構(gòu)框圖。

參照圖3所示,本實施例提供的垃圾文本識別系統(tǒng)應用于互聯(lián)網(wǎng),用于在用戶輸入文本時對其是否垃圾文本進行判斷。該識別系統(tǒng)具體包括文本獲取模塊10、特征提取模塊20和垃圾識別模塊30。

文本獲取模塊用于獲取互聯(lián)網(wǎng)的用戶輸入的文本。

用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會利用相應網(wǎng)絡工具的輸入界面輸入相應的文本,例如通過即時通軟件的輸入窗口、論壇或微博的回復窗口等輸入文本。當用戶通過相應的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時通訊事件、彈幕事件等事件時,獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。

特征提取模塊用于對獲取的文本進行特征提取,得到多個文本特征。

在獲取上述用戶輸入的文本后,對該文本進行特征提取,得到文本的多個文本特征,這里的文本特征包括語義文本特征和非語義文本特征。相應的,該模塊包括文本特征提取單元21,用于在對文本進行特征提取時,利用預先構(gòu)建的語料庫、停用詞表、關鍵詞表和變異詞表對文本進行提前,得到上述的語義文本特征和非語義文本特征。

值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時,由于任何一種語言都具備海量的詞匯,但是詞性的個數(shù)且較為有限,為此,在選取非語義文本特征時,對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災難。

例如,當用戶輸入的文本為“我愛爸爸媽媽”,進行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個詞匯,對應的詞性分別為代詞、動詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動詞和名詞這三個非語義文本特征。

本模塊還包括語料庫構(gòu)建單元(未示出)、停用詞表構(gòu)建單元(未示出)、關鍵詞表構(gòu)建單元22和變異詞表構(gòu)建單元(未示出)。

語料庫構(gòu)建單元用于構(gòu)建語料庫,在預構(gòu)相應語料庫時,需預先收集大量的文本數(shù)據(jù),并經(jīng)過自動或者人工標注,給每條文本數(shù)據(jù)打上相應的標簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。

停用詞表構(gòu)建單元用于構(gòu)建停用詞表,在預構(gòu)相應停用詞表時,依據(jù)上述構(gòu)建好的語料庫,對文本進行分詞處理,并統(tǒng)計出每個詞或字符的頻次,自動或人工提取出高頻且無實際意義的詞或字符,將提取出的詞或字符作為停用詞,從而構(gòu)建出上述停用詞表。

關鍵詞表構(gòu)建單元具體包括分詞處理子單元221、關鍵詞歸類子單元222、垃圾概率計算子單元223和關鍵詞表構(gòu)建子單元224。分詞處理子單元用于在預構(gòu)相應關鍵詞表時,依據(jù)上述構(gòu)建的語料庫,對文本進行分詞處理,并統(tǒng)計出得到的每個詞和字符出現(xiàn)的頻次,同時用關聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時出現(xiàn)“制造”和“氣槍”兩個詞,且兩個詞之間的距離小于10個字符,則認為該文本為垃圾文本。關鍵詞歸類子單元用于將上述詞、字符和詞組合作為關鍵詞;進一步,垃圾概率計算子單元用于依據(jù)上述詞、字符和詞組合的頻次,得到每個詞、字符和詞組合的垃圾概率;關鍵詞表構(gòu)建子單元用于將上述詞、字符和詞組合以及相應的垃圾概率代入預設的表格中,最終得到相應的關鍵詞表。

在預構(gòu)相應的變異詞表時,依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關鍵詞的形近詞和同音詞,確定相應的垃圾概率,從而構(gòu)建出關鍵詞的變異詞表。

垃圾識別模塊用于利用預設的垃圾文本識別模型對文本特征進行識別。

鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識別模型分別為語義特征垃圾文本識別模型和非語義特征垃圾文本識別模型,利用相應的識別模型分別對語義文本特征和非語義文本特征進行識別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應的對策。

該特征識別模塊包括第一識別單元31、第二識別單元32和綜合處理單元33,在對用戶輸入的文本進行識別時,第一識別單元用于將語義文本特征輸入上述語義特征垃圾文本識別模型進行識別,從而得到對應語義文本特征的垃圾概率,這里描述為第一概率;

第二識別單元則用于將非語義文本特征輸入上述非語義特征垃圾文本識別模型進行識別,從而得到對應于非語義文本特征的垃圾概率,這里描述為第二概率;

綜合處理單元用于在第一識別單元和第二識別單元分別得到上述分別對應于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預設的計算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。

本發(fā)明還包括模型訓練模塊40,參照圖4所示,模型訓練模塊用于通過利用多個非語義文本特征進行訓練,從而得到上述的非語義特征垃圾文本識別模型,上述訓練類似于對數(shù)學模型的訓練,即將歷史數(shù)據(jù)代入預設的數(shù)學模型對其進行訓練,最終得到相應的模型。本發(fā)明中的多個關鍵詞可達79個之多,其中的關鍵詞例如:關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。

上述的關鍵詞垃圾概率用于判斷文本中關鍵詞的垃圾概率,文本中的關鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體的垃圾概率的計算方法如下:

步驟一:匹配出用戶輸入的文本中所有的關鍵詞,構(gòu)建關鍵詞集合;

{w1,w2,…,wn}

步驟二:根據(jù)事先構(gòu)建好的關鍵詞表,找出對應的垃圾概率集合;

{p1,p2,…,pn}

步驟三:計算依據(jù)如下文本關鍵詞垃圾概率公式,得到關鍵詞垃圾概率。

變異詞垃圾概率的作用同上述的關鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計算過程同關鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。

在許多灌水的文本中,標點符號的使用常常不規(guī)范,常見的情況是過多重復地使用某一個或幾個標點符號。另外,在廣告的文本中,不良分子為了規(guī)避現(xiàn)有的垃圾識別方法,常常在聯(lián)系方式內(nèi)容中加入無關的標點符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標點符號照壁這一特征在一定程度上能夠識別用戶輸入的文本是否為垃圾文本。

本發(fā)明中,將字符分為漢字、字幕、數(shù)字、標點符號、其他符號等五大類。字符類型變換此時是指文本中不同類型的字符兩兩相互變換的總次數(shù)。計算公式如下:

其中counti,j表示類型i與類型j的變換次數(shù)。

例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數(shù)字的變換次數(shù)為1,數(shù)字與標點符號的變換次數(shù)為7,標點符號與數(shù)字的變換次數(shù)為6,其他兩兩變換的次數(shù)為0,因此,該文本的字符類型變換次數(shù)為1+7+6=14。

在實際中,灌水的文本內(nèi)容常常實體詞較少,即能夠表達實際意義的詞較少。這里的實體詞包括名詞、動詞、形容詞等在句子中有實際含義的詞。

從上述技術(shù)方案中可以看出,本實施例提供了一種垃圾文本識別方法,該方法應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

實施例四

圖5為本發(fā)明提供的另一種垃圾文本識別系統(tǒng)實施例的結(jié)構(gòu)框圖。

參照圖5所示,本實施例提供的垃圾文本識別系統(tǒng)是在上一實施例的基礎上增設了文本預處理模塊50。

文本預處理模塊用于對文本獲取模塊獲取的文本進行預處理。

通過該模塊的預處理,將用戶輸入的文本中無益于垃圾識別的字符予以剔除,例如http標簽、表情符號、停用詞等,通過減少需要辨識的字符能夠減少整個識別所需的計算量,從而一定意義上能夠提高識別效率。

從上述技術(shù)方案中可以看出,本實施例提供了另一種垃圾文本識別方法,該方法應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本進行預處理,剔除其中無益于垃圾識別的字符;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對文本特征進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。

對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。

本領域內(nèi)的技術(shù)人員應明白,本發(fā)明實施例的實施例可提供為方法、裝置、或計算機程序產(chǎn)品。因此,本發(fā)明實施例可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明實施例是參照根據(jù)本發(fā)明實施例的方法、終端設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理終端設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理終端設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理終端設備上,使得在計算機或其他可編程終端設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程終端設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明實施例的優(yōu)選實施例,但本領域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明實施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發(fā)明所提供的技術(shù)方案進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
温泉县| 班玛县| 阿图什市| 合山市| 东光县| 南乐县| 应城市| 潮安县| 凉城县| 中江县| 奈曼旗| 乌兰浩特市| 二连浩特市| 易门县| 巴林左旗| 镇赉县| 涟源市| 徐水县| 寿阳县| 镇雄县| 平凉市| 古交市| 邵阳市| 射洪县| 七台河市| 皮山县| 鹤山市| 武胜县| 阿荣旗| 九江市| 洛隆县| 沁阳市| 清流县| 永寿县| 泸溪县| 宁强县| 达拉特旗| 宾川县| 射阳县| 谷城县| 望谟县|