網(wǎng)絡文本處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡文本處理方法及裝置。該網(wǎng)絡文本處理方法包括:獲取待分析的網(wǎng)絡文本;獲取預設詞匯集合;按照多個預設詞匯的長度由長到短的順序,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,其中,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本中包括:判斷第一預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,如果第一預設詞匯出現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中時,忽略網(wǎng)絡文本中與第一預設詞匯相同的詞匯;獲取網(wǎng)絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯。通過本發(fā)明,在網(wǎng)絡文本處理過程中有效避免了文本詞匯重復匹配問題,并且提高了文本詞匯的匹配效率。
【專利說明】網(wǎng)絡文本處理方法及裝置
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領域,具體而言,涉及一種網(wǎng)絡文本處理方法及裝置。
【背景技術】
[0002] 在對網(wǎng)絡文本的處理中,例如,對網(wǎng)絡文本中的情感詞匯的處理,文本詞匯的提取 是非常關鍵的一個環(huán)節(jié)。通常提取文本詞匯的方法是載入預設詞匯集合(詞典),將文本 與詞典中的詞匯逐一進行匹配,并記錄匹配到的詞匯,用于后續(xù)進行詞匯分析。在匹配過程 中,若詞匯在文本中出現(xiàn),則實例化該詞匯對象,記錄該詞匯的權重,通過一系列包括但不 限于否定、程度等邏輯的修正,得到該詞匯的得分,最后對所有匹配到的詞匯進行統(tǒng)計意義 上的匯總。例如,對某網(wǎng)站訪客評價的網(wǎng)絡文本進行情感詞匯的分析,有助于網(wǎng)站對評價對 象做出情感傾向性判斷。
[0003] 但是在上述文本和預設詞匯集合的匹配過程中存在重復匹配的問題。重復匹配, 指一個文章中同一個位置的文本詞匯被多個不同的預設詞匯匹配到,造成實例化的詞匯對 象指代重復。例如,如果預設情感詞匯集合(情感詞典)中同時存在"高高興興"和"高興" 兩個預設情感詞匯,那么當文本中出現(xiàn)"高高興興"時,將同時提取出兩個情感詞匯元素,即 "高高興興"和"高興",造成重復匹配。
[0004] 現(xiàn)有的進行詞匯匹配的方式主要有兩種:第一種方法是通過遍歷預設詞匯集合, 直接對網(wǎng)絡文本進行匹配,判斷文本中是否包含預設詞匯集合中的詞匯,如果有則記錄該 詞匯;第二種方法,首先對文本進行切分,產生多個切分詞,通過與預設詞匯集合比對,判 斷每一個切分詞是否為預設詞匯集合中的詞匯,如果是則記錄該詞匯。第一種方法的特點 是執(zhí)行效率較高,時間復雜度為〇(n),是線性的,但是可能發(fā)生重復匹配現(xiàn)象;第二種方法 匹配時采用的方式不再是原有的包含查詢,而是切分詞與預設詞匯集合中詞匯的完全匹配 查詢,因此能夠有效避免重復匹配的發(fā)生,但是該方法需要對切分詞進行遍歷,執(zhí)行效率較 低,時間復雜度為〇(m*n),是非線性的,同時,匹配結果依賴于分詞系統(tǒng)的分詞結果,中文分 詞效果的好壞會直接對文本中詞匯的提取造成影響。
[0005] 針對相關技術在進行網(wǎng)絡文本處理過程中不能兼顧避免文本詞匯重復匹配和提 高文本詞匯匹配效率的問題,目前尚未提出有效的解決方案。
【發(fā)明內容】
[0006] 針對現(xiàn)有的對網(wǎng)絡文本進行處理過程中不能兼顧避免文本詞匯重復匹配和提高 文本詞匯匹配效率的問題,為此,本發(fā)明的主要目的在于提供一種網(wǎng)絡文本處理方法及裝 置,以解決上述問題。
[0007] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)絡文本處理方法。該方 法包括:獲取待分析的網(wǎng)絡文本,其中,網(wǎng)絡文本包括多個詞匯,多個詞匯中至少有一個詞 匯包括另一個詞匯;獲取預設詞匯集合,其中,預設詞匯集合包含多個預設詞匯,多個預設 詞匯包括第一預設詞匯和第二預設詞匯,第一預設詞匯的長度大于第二預設詞匯的長度; 按照多個預設詞匯的長度由長到短的順序,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本 中,其中,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本中包括:判斷第一預設詞匯是否出現(xiàn) 在網(wǎng)絡文本中,如果第一預設詞匯出現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng) 絡文本中時,忽略網(wǎng)絡文本中與第一預設詞匯相同的詞匯;獲取網(wǎng)絡文本中與第一預設詞 匯和第二預設詞匯相同的詞匯。
[0008] 進一步地,按照以下方法對多個預設詞匯按詞匯長度由長到短的順序進行排序: 獲取多個預設詞匯的首字母;按照首字母的順序對多個預設詞匯進行第一次排序;計算多 個預設詞匯的長度;在第一次排序的基礎上,按照詞匯長度由長到短的順序對多個預設詞 匯進行再次排序。
[0009] 進一步地,如果第一預設詞匯出現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn) 在網(wǎng)絡文本中時,忽略網(wǎng)絡文本中與第一預設詞匯相同的詞匯包括:如果第一預設詞匯出 現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中之前,將網(wǎng)絡文本中與第一 預設詞匯相同的詞匯替換為非文字符號。
[0010] 進一步地,如果第一預設詞匯出現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn) 在網(wǎng)絡文本中時,忽略網(wǎng)絡文本中與第一預設詞匯相同的詞匯包括:如果第一預設詞匯出 現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中之前,記錄網(wǎng)絡文本中與第 一預設詞匯相同的詞匯在網(wǎng)絡文本中的位置,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中 時,忽略網(wǎng)絡文本中位于第一預設詞匯位置處的詞匯。
[0011] 進一步地,獲取網(wǎng)絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯之后,該 方法還包括:將網(wǎng)絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯實例化;獲取實例 化的詞匯的權重;對實例化的詞匯進行邏輯修正。
[0012] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡文本處理裝置,該裝 置包括:第一獲取單元,用于獲取待分析的網(wǎng)絡文本,其中,網(wǎng)絡文本包括多個詞匯,多個詞 匯中至少有一個詞匯包括另一個詞匯;第二獲取單元,用于獲取預設詞匯集合,其中,預設 詞匯集合包含多個預設詞匯,多個預設詞匯包括第一預設詞匯和第二預設詞匯,第一預設 詞匯的長度大于第二預設詞匯的長度;判斷單元,用于按照多個預設詞匯的長度由長到短 的順序,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,其中,依次判斷多個預設詞匯是否 出現(xiàn)在網(wǎng)絡文本中包括:判斷第一預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,如果第一預設詞匯出 現(xiàn)在網(wǎng)絡文本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中時,忽略網(wǎng)絡文本中與第一 預設詞匯相同的詞匯;第三獲取單元,用于獲取網(wǎng)絡文本中與第一預設詞匯和第二預設詞 匯相同的詞匯。
[0013] 進一步地,該裝置還包括:第四獲取單元,用于獲取多個預設詞匯的首字母;第一 排序單元,用于按照首字母的順序對多個預設詞匯進行第一次排序;計算單元,用于計算多 個預設詞匯的長度;第二排序單元,用于在第一次排序的基礎上,按照詞匯長度由長到短的 順序對多個預設詞匯進行再次排序。
[0014] 進一步地,該裝置還包括:替換單元,用于在判斷單元判斷出第一預設詞匯出現(xiàn)在 網(wǎng)絡文本中,判斷單元判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中之前,將網(wǎng)絡文本中與第 一預設詞匯相同的詞匯替換為非文字符號。
[0015] 進一步地,該裝置還包括:記錄單元,用于在判斷單元判斷出第一預設詞匯出現(xiàn)在 網(wǎng)絡文本中,判斷單元判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中之前,記錄網(wǎng)絡文本中與 第一預設詞匯相同的詞匯在網(wǎng)絡文本中的位置;忽略單元,用于在判斷單元判斷出第一預 設詞匯出現(xiàn)在網(wǎng)絡文本中,判斷單元判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中時,忽略網(wǎng) 絡文本中位于第一預設詞匯位置處的詞匯。
[0016] 進一步地,該裝置還包括:第五獲取單元,用于將網(wǎng)絡文本中與第一預設詞匯和第 二預設詞匯相同的詞匯實例化;第六獲取單元,用于獲取實例化的詞匯的權重;修正單元, 用于對實例化的詞匯進行邏輯修正。
[0017] 通過本發(fā)明,采用包括以下步驟的方法:獲取待分析的網(wǎng)絡文本,其中,網(wǎng)絡文本 包括多個詞匯,多個詞匯中至少有一個詞匯包括另一個詞匯;獲取預設詞匯集合,其中,預 設詞匯集合包含多個預設詞匯,多個預設詞匯包括第一預設詞匯和第二預設詞匯,第一預 設詞匯的長度大于第二預設詞匯的長度;按照多個預設詞匯的長度由長到短的順序,依次 判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,其中,依次判斷多個預設詞匯是否出現(xiàn)在網(wǎng)絡 文本中包括:判斷第一預設詞匯是否出現(xiàn)在網(wǎng)絡文本中,如果第一預設詞匯出現(xiàn)在網(wǎng)絡文 本中,在判斷第二預設詞匯是否出現(xiàn)在網(wǎng)絡文本中時,忽略網(wǎng)絡文本中與第一預設詞匯相 同的詞匯;獲取網(wǎng)絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯,解決了進行網(wǎng)絡 文本處理過程中不能兼顧避免詞匯重復匹配和提高詞匯匹配效率的問題,進而使得在網(wǎng)絡 文本處理過程中,在文本詞匯與預設詞匯集合不出現(xiàn)重復匹配的前提下,提升了詞匯匹配 的效率,提高了網(wǎng)絡文本處理的準確性。
【專利附圖】
【附圖說明】
[0018] 構成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0019] 圖1是根據(jù)本發(fā)明網(wǎng)絡文本處理方法的第一實施例的流程圖;
[0020] 圖2是根據(jù)本發(fā)明的網(wǎng)絡文本處理方法的第二實施例的流程圖;
[0021] 圖3是根據(jù)本發(fā)明的網(wǎng)絡文本處理裝置的第一實施例的示意圖;以及
[0022] 圖4是根據(jù)本發(fā)明的網(wǎng)絡文本處理裝置的第二實施例的示意圖。
【具體實施方式】
[0023] 為了使本【技術領域】的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的 附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范 圍。
[0024] 需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。此外,術語"包括" 和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單 元的過程、方法、系統(tǒng)、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒 有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
[0025] 在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將 參考附圖并結合實施例來詳細說明本發(fā)明。
[0026] 圖1是根據(jù)本發(fā)明的網(wǎng)絡文本處理方法的第一實施例的流程圖。如圖1所示,該 方法包括如下步驟:
[0027] 步驟S102,獲取待分析的網(wǎng)絡文本,其中,網(wǎng)絡文本包括多個詞匯,多個詞匯中至 少有一個詞匯包括另一個詞匯。
[0028] 網(wǎng)絡文本中往往包含了大量的可參考信息。比如,對于一個購物網(wǎng)站,在消費者的 購物評價網(wǎng)頁中,會存在大量的消費者對相應商品的購物評價文本。當購物網(wǎng)站獲取了這 些評價文本,便可通過分析這些文本,而獲知消費者對該商品的情感傾向,從而優(yōu)化銷售策 略。
[0029] 獲取待分析的網(wǎng)絡文本的目的是獲取網(wǎng)絡文本中的待分析的文本詞匯。網(wǎng)絡文本 中在包含詞匯之余,可以包含其他符號等非文字信息。當網(wǎng)絡文本中包含多個詞匯時,可能 出現(xiàn)一個詞匯包含另外一個詞匯的現(xiàn)象。比如,網(wǎng)絡文本中包含"穩(wěn)定性很好",其中,"穩(wěn)定 性"包含了"穩(wěn)定"。
[0030] 步驟S104,獲取預設詞匯集合,其中,預設詞匯集合包含多個預設詞匯,多個預設 詞匯包括第一預設詞匯和第二預設詞匯,第一預設詞匯的長度大于第二預設詞匯的長度。
[0031] 預設詞匯集合可以作為一種詞典。比如,我們需要從網(wǎng)絡文本中提取代表情感方 面的詞匯,例如,高興、整垮等,可選擇包含了諸多情感詞的預設詞匯集合,其中的情感詞可 以按詞義分類為褒義、中性、貶義,或者積極、中性、消極等,但分類形式不僅限于此。預設詞 匯集合中給出了對應不同詞匯的權重值(強度值)。
[0032] 如,預設情感詞匯集合如表一所示(表一只列出了預設情感詞匯集合中的部分 詞匯):
[0033] 表一
[0034]
【權利要求】
1. 一種網(wǎng)絡文本處理方法,其特征在于,包括: 獲取待分析的網(wǎng)絡文本,其中,所述網(wǎng)絡文本包括多個詞匯,所述多個詞匯中至少有一 個詞匯包括另一個詞匯; 獲取預設詞匯集合,其中,所述預設詞匯集合包含多個預設詞匯,所述多個預設詞匯 包括第一預設詞匯和第二預設詞匯,所述第一預設詞匯的長度大于所述第二預設詞匯的長 度; 按照所述多個預設詞匯的長度由長到短的順序,依次判斷所述多個預設詞匯是否出現(xiàn) 在所述網(wǎng)絡文本中,其中,依次判斷所述多個預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中包括:判 斷所述第一預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中,如果所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡 文本中,在判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略所述網(wǎng)絡文本中與 所述第一預設詞匯相同的詞匯;以及 獲取所述網(wǎng)絡文本中與所述第一預設詞匯和所述第二預設詞匯相同的詞匯。
2. 根據(jù)權利要求1所述的方法,其特征在于,按照以下方法對所述多個預設詞匯按詞 匯長度由長到短的順序進行排序: 獲取所述多個預設詞匯的首字母; 按照首字母的順序對所述多個預設詞匯進行第一次排序; 計算所述多個預設詞匯的長度;以及 在所述第一次排序的基礎上,按照詞匯長度由長到短的順序對所述多個預設詞匯進行 再次排序。
3. 根據(jù)權利要求1所述的方法,其特征在于,如果所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡 文本中,在判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略所述網(wǎng)絡文本中與 所述第一預設詞匯相同的詞匯包括: 如果所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡文本中,在判斷所述第二預設詞匯是否出現(xiàn)在 所述網(wǎng)絡文本中之前,將所述網(wǎng)絡文本中與所述第一預設詞匯相同的詞匯替換為非文字符 號。
4. 根據(jù)權利要求1所述的方法,其特征在于,如果所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡 文本中,在判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略所述網(wǎng)絡文本中與 所述第一預設詞匯相同的詞匯包括: 如果所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡文本中,在判斷所述第二預設詞匯是否出現(xiàn)在 所述網(wǎng)絡文本中之前,記錄所述網(wǎng)絡文本中與所述第一預設詞匯相同的詞匯在所述網(wǎng)絡文 本中的位置,在判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略所述網(wǎng)絡文本 中位于所述第一預設詞匯位置處的詞匯。
5. 根據(jù)權利要求1所述的方法,其特征在于,獲取所述網(wǎng)絡文本中與所述第一預設詞 匯和所述第二預設詞匯相同的詞匯之后,所述方法還包括: 將所述網(wǎng)絡文本中與所述第一預設詞匯和所述第二預設詞匯相同的詞匯實例化; 獲取實例化的詞匯的權重;以及 對實例化的詞匯進行邏輯修正。
6. -種網(wǎng)絡文本處理裝置,其特征在于,包括: 第一獲取單元,用于獲取待分析的網(wǎng)絡文本,其中,所述網(wǎng)絡文本包括多個詞匯,所述 多個詞匯中至少有一個詞匯包括另一個詞匯; 第二獲取單元,用于獲取預設詞匯集合,其中,所述預設詞匯集合包含多個預設詞匯, 所述多個預設詞匯包括第一預設詞匯和第二預設詞匯,所述第一預設詞匯的長度大于所述 第二預設詞匯的長度; 判斷單元,用于按照所述多個預設詞匯的長度由長到短的順序,依次判斷所述多個預 設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中,其中,依次判斷所述多個預設詞匯是否出現(xiàn)在所述網(wǎng) 絡文本中包括:判斷所述第一預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中,如果所述第一預設詞 匯出現(xiàn)在所述網(wǎng)絡文本中,在判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略 所述網(wǎng)絡文本中與所述第一預設詞匯相同的詞匯;以及 第三獲取單元,用于獲取所述網(wǎng)絡文本中與所述第一預設詞匯和所述第二預設詞匯相 同的詞匯。
7. 根據(jù)權利要求6所述的裝置,其特征在于,所述裝置還包括: 第四獲取單元,用于獲取所述多個預設詞匯的首字母; 第一排序單元,用于按照首字母的順序對所述多個預設詞匯進行第一次排序; 計算單元,用于計算所述多個預設詞匯的長度;以及 第二排序單元,用于在所述第一次排序的基礎上,按照詞匯長度由長到短的順序對所 述多個預設詞匯進行再次排序。
8. 根據(jù)權利要求6所述的裝置,其特征在于,所述裝置還包括: 替換單元,用于在所述判斷單元判斷出所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡文本中,所 述判斷單元判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中之前,將所述網(wǎng)絡文本中與 所述第一預設詞匯相同的詞匯替換為非文字符號。
9. 根據(jù)權利要求6所述的裝置,其特征在于,所述裝置還包括: 記錄單元,用于在所述判斷單元判斷出所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡文本中,所 述判斷單元判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中之前,記錄所述網(wǎng)絡文本中 與所述第一預設詞匯相同的詞匯在所述網(wǎng)絡文本中的位置;以及 忽略單元,用于在所述判斷單元判斷出所述第一預設詞匯出現(xiàn)在所述網(wǎng)絡文本中,所 述判斷單元判斷所述第二預設詞匯是否出現(xiàn)在所述網(wǎng)絡文本中時,忽略所述網(wǎng)絡文本中位 于所述第一預設詞匯位置處的詞匯。
10. 根據(jù)權利要求6所述的裝置,其特征在于,所述裝置還包括: 第五獲取單元,用于將所述網(wǎng)絡文本中與所述第一預設詞匯和所述第二預設詞匯相同 的詞匯實例化; 第六獲取單元,用于獲取實例化的詞匯的權重;以及 修正單元,用于對實例化的詞匯進行邏輯修正。
【文檔編號】G06F17/30GK104317883SQ201410564652
【公開日】2015年1月28日 申請日期:2014年10月21日 優(yōu)先權日:2014年10月21日
【發(fā)明者】何鑫, 侯明午 申請人:北京國雙科技有限公司