一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法
【專利摘要】本發(fā)明公開了一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法,其中,所述文本特征提取方法包括:預(yù)處理訓(xùn)練集文本;改良的特征選擇方法,通過計算每個特征詞的類別區(qū)分度,選取更具有類別代表性的特征詞,使其在各個不同的類之間具有很高的區(qū)分度,并且通過進一步結(jié)合特征詞在類內(nèi)的分布率和信息增益IG對在選出的高類別區(qū)分度的特征詞進一步篩選。采用本發(fā)明,可以通過兩次特征選擇過程,選出類內(nèi)具有高信息熵且分布率高的特征詞,提高分類效率和準(zhǔn)確度,并且計算簡單,可以提高文本分類的速度與準(zhǔn)確性。
【專利說明】
一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于文本挖掘技術(shù)領(lǐng)域,特別涉及一種基于類間區(qū)分度及類內(nèi)高表征度的 文本特征提取方法。
【背景技術(shù)】
[0002] 在當(dāng)今互聯(lián)網(wǎng)信息資源快速增長的時代,為了能夠更加快速有效的發(fā)現(xiàn)所需信息 及資源,文本分類技術(shù)作為有效的組織和管理文本信息的重要手段應(yīng)運而生。文本分類技 術(shù)是指根據(jù)待處理文本的內(nèi)容或者屬性將其分到一個或者多個預(yù)定義的類別的技術(shù)。在文 本分類領(lǐng)域中,目前比較流行的是采用VSM向量空間對文本進行表示,為了避免在建立VSM 空間時產(chǎn)生的特征項的"高維災(zāi)難",因此特征性的選擇算法變得尤其重要。
[0003] 文本分類中特征項選擇算法包括以下比較傳統(tǒng)的算法:DF算法(文檔頻率算法), 其缺點是只關(guān)注了高頻詞,會漏掉低頻但信息熵高的詞,并且選出的詞不具備代表某個分 類的特性IG算法(信息增益法)由于其計算的特殊性,使其往往不能選出足夠數(shù)量的特征 詞CHI算法(x 2統(tǒng)計法),它考慮了特征詞對某一個分類的影響,但是其計算量很大MI (互 信息法),其缺點是在試驗環(huán)境下性能表現(xiàn)不穩(wěn)定。
[0004] 因此,有必要設(shè)計出一種能夠選出具有很強的類間區(qū)別度且在其所屬類又具有高 效性,并且計算量較小的特征詞選擇算法。
【發(fā)明內(nèi)容】
[0005] 為解決現(xiàn)有文本分類特征選擇方法無法選出具有高類別代表度的特征詞及計算 量很大的不足,本發(fā)明提供一種基于類間區(qū)分度及類內(nèi)高表征度,并且計算量較小的文本 特征提取方法。所述方案包括以下步驟:
[0006] 步驟1 :獲取不同類別的文本集合,作為語料訓(xùn)練集。
[0007] 步驟2 :對語料訓(xùn)練集的文本進行預(yù)處理,包括中文分詞,去停用詞處理;
[0008] 步驟3 :使用一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法對文本進 行特征選擇,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文本特征集合。
[0009] -種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法,具體為:
[0010] 首先計算每個特征詞的類別區(qū)分度,選取具有高類別區(qū)分度的特征詞,包括以下 步驟:
[0011] 步驟(1),確定各個特征詞與各個預(yù)置類別的相關(guān)度,其計算公式如下:
[0013] 其中Rjk表示特征詞t k與文本類別c $勺相關(guān)度,分子表示文本類別c j類中出現(xiàn)特 征詞4的文檔數(shù),分母表示文本類別c ^類中包含文檔的數(shù)目。
[0014] 步驟(2),計算特征詞tk在文本類別C ,類上的類別區(qū)分能力的值,計算公式如下:
[0015] Diffjk= min(R .jk-Rik) (i ! = j 且 i 取 1 ~s, s 為類別總數(shù))
[0016] 注意,這里Diffjk可以為負(fù)數(shù)。負(fù)數(shù)表示特征詞tk在文本類別c ^類的分布小于特 征詞tk在文本類別c i類中的分布。
[0017] 步驟(3),計算特征詞tk的類別區(qū)分度,計算公式如下:
[0018] Diffk= max {Diff jk} (j 取 1 ~s)
[0019] 并且記錄Diffk對應(yīng)的Diff _jk的j值,即記錄了特征詞115表征的文本類別c。。
[0020] 步驟(4),設(shè)置預(yù)設(shè)閾值Q1,取Diffk>= Q1的特征詞進行進一步的篩選。
[0021] 進一步,結(jié)合特征詞在類內(nèi)的分類率和信息增益IG對在選出的高類別區(qū)分度的 特征詞進一步篩選,選取類內(nèi)高表征度的特征詞,具體包括以下步驟:
[0022] 步驟(1),對已經(jīng)選出的高類別區(qū)分度的特征詞,計算該特征詞在其表征的類中的 分布率,假設(shè)特征詞t k表征文本類別c ,類,則特征詞t ,的分布率計算公式如下:
[0023] wtk=(類c」中包含的t k的詞頻V (類c」中包含的文檔數(shù))
[0024] 步驟(2),設(shè)置預(yù)設(shè)閾值Q2,當(dāng)wtk> = Q2時,則特征詞t k作為高頻詞,進入步驟 ⑶,設(shè)置預(yù)設(shè)閾值Q3,當(dāng)wtk< = Q3時,則表示特征詞t ,是低頻詞,進入步驟(4),進行下 一步的判斷。
[0025] 步驟(3),對wtk> = Q2的特征詞求IG,設(shè)置預(yù)設(shè)閾值Q4,當(dāng)IG (t k) < Q4,則特征 詞tk被淘汰,不被選出作為語料訓(xùn)練集的文本特征集合。
[0026] 步驟(4),對wtk< = Q3的特征詞求IG,并設(shè)置閾值Q5,當(dāng)IG (t k) > = Q5時,表示 4是個低頻有效詞,被選出作為語料訓(xùn)練集的文本特征集合。
[0027] 步驟(5),假設(shè)語料訓(xùn)練集的文本特征集合的維度為N,若根據(jù)前面取出的特征詞 的維度小于維度N,則此時從Q3 < tk< Q2的特征詞中進行選擇,按照權(quán)值從高到底進行選 擇。直到選滿為止。
[0028] 本發(fā)明所提供的技術(shù)方案的有益效果是:
[0029] 首先通過計算每個特征詞的類別區(qū)分度,選取更具有類別代表性的特征詞,使其 在各個不同的類之間具有很高的區(qū)分度,并且通過進一步結(jié)合特征詞在類內(nèi)的分布率和信 息增益IG對在選出的高類別區(qū)分度的特征詞進一步篩選,選出類內(nèi)具有高信息熵且分布 率高的特征詞,另外,該技術(shù)方案的計算簡單,能夠提供文本分類的運算速度和效率。
【附圖說明】
[0030] 圖1是本發(fā)明基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法流程圖。
[0031] 圖2是本發(fā)明選出高類間區(qū)分度的詳細(xì)算法流程示意圖。
[0032] 圖3是本發(fā)明基于選出的高類間區(qū)分度的特征詞中選出類內(nèi)高表征度的詳細(xì)算 法流程示意圖。
【具體實施方式】
[0033] 為使本發(fā)明之目的、技術(shù)方案和優(yōu)點闡述更加清晰,下面將結(jié)合附圖與實際用例, 對本發(fā)明做進一步的詳細(xì)描述。
[0034] 圖1為本發(fā)明基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法流程圖,具體 功能與實現(xiàn)如下:
[0035] 步驟1 :首先利用網(wǎng)絡(luò)爬蟲或人工收集從互聯(lián)網(wǎng)上獲取一定數(shù)量的多個領(lǐng)域中有 代表性的文章,對這些文章進行分析整理,按照類別歸入語料訓(xùn)練集,作為文本分類系統(tǒng)的 訓(xùn)練樣本集。
[0036] 步驟2 :為了從文本中抽取出能夠代表該文本特征的詞語,對其進行分詞、去除停 用詞等處理。
[0037] 步驟3 :從經(jīng)過預(yù)處理的文本中選取具有高類別區(qū)分度的特征詞,具體如下:
[0038] 圖2是本發(fā)明選出高類間區(qū)分度的詳細(xì)算法流程示意圖,下面結(jié)合附圖和實例對 算法進行說明,具體如下:
[0039] 假設(shè)預(yù)設(shè)類別共有3類,分別為A類,B類,C類,其中A類,B類,C類分別包含了 10篇分別屬于其類別的文章。假設(shè)現(xiàn)在特征詞1出現(xiàn)在屬于A類的10篇文章中的5篇中, 并且也分別出現(xiàn)了在屬于B和C類的10篇文章中的5篇中。特征詞2出現(xiàn)在屬于A類的 10篇文章中的9篇中,出現(xiàn)在屬于B類的10篇文章中的8篇中,并且出現(xiàn)在屬于C類的10 篇文章中的1篇中。特征詞3出現(xiàn)在屬于A類的10篇文章中的9篇中,出現(xiàn)在屬于B類的 10篇文章中的3中,并且出現(xiàn)在屬于C類的10篇文章中的1篇中,如下表1所示:
[0040]
[0041] 表 1
[0042] 根據(jù)如下相關(guān)度計算公式計算出每個詞與各個預(yù)定分類的相關(guān)度R]k:
[0044] 其中Rjk表示特征詞t k與文本類別c郝相關(guān)度,分子表示文本類別c j類中出現(xiàn)特 征詞4的文檔數(shù),分母表示文本類別c ^類中包含文檔的數(shù)目。
[0045] 計算結(jié)果如下表2所示。
[0046]
[0047] 表 2
[0048] 計算特征詞tk在文本類別c j類上的類別區(qū)分能力的值,計算公式如下:
[0049] Diffjk= min(R .jk-Rik) (i ! = j 且 i 取 1 ~s,s 為類別總數(shù))
[0050] DiffA1= min{(l/2-l/2), (1/2-1/2)} =0
[0051] 同理,DiffB1= 0, Diff C1= 0,依次類推,計算出Diff .jk如下表3所示:
[0054] 計算特征詞tk的類別區(qū)分度,計算公式如下:
[0055] Diffk= max {Diff jk} (j 取 1 ~s)
[0056] 根據(jù)表3可知:
[0057] Diffl = DiffA1/DiffB1/Diffcl= 0
[0058] Diff2 = DiffA2= 1/10
[0059] Diff3 = DiffA3= 7/10
[0060] 假設(shè)預(yù)設(shè)閾值Q1為1/2,則此時特征詞1,2被淘汰,特征詞3被選出,并記錄其分 別代表的類,即特征詞3可以代表A類。
[0061] 步驟4 :結(jié)合特征詞在類內(nèi)的分類率和信息增益IG對在選出的高類別區(qū)分度的特 征詞做進一步篩選,選取類內(nèi)高表征度的特征詞。
[0062] 圖3是本發(fā)明基于選出的高類間區(qū)分度的特征詞中選出類內(nèi)高表征度的詳細(xì)算 法流程示意圖,下面結(jié)合附圖和實例對算法進行說明,具體如下:
[0063] 假設(shè)特征詞1,特征詞2,特征詞3都是基于步驟3選出的代表A類(A類包含10 篇文章)的特征詞。假設(shè)特征詞1在A類的10篇文章中一共出現(xiàn)了 100次,特征詞2在A 類的10篇文章中一共出現(xiàn)了 50次,特征詞3在A類的10篇文章中一共出現(xiàn)了 30次。
[0064] 根據(jù)公式計算出特征詞鞏的分布率,計算公式如下:
[0065] wtk=(類c」中包含的t k的詞頻V (類c」中包含的文檔數(shù))
[0066] 即 wl = 100/10 = 10
[0067] w2 = 50/10 = 5
[0068] w3 = 30/10 = 3
[0069] 假設(shè)預(yù)設(shè)閾值Q2為7,預(yù)設(shè)閾值Q3為4 :
[0070] 對于特征詞1,求IG,判斷是否小于預(yù)設(shè)閾值Q4,是則淘汰,否則備選。
[0071] 對于特征詞2,直接作為備選。
[0072] 對于特征詞3,求IG,判斷是否大于等于預(yù)設(shè)閾值Q5,是則選出該特征詞,否則淘 汰。
[0073] 步驟5 :基于上述方法,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文 本特征集合。
[0074] 以下以上述過程確定參數(shù)為標(biāo)準(zhǔn),對應(yīng)用實例進行說明。
[0075] 實施例1 :
[0076] 假設(shè)預(yù)設(shè)類別共有3類,分別為A類,B類,C類,其中A類,B類,C類分別包含了 10篇分別屬于其類別的文章。假設(shè)現(xiàn)在特征詞1出現(xiàn)在屬于A類的10篇文章中的5篇中, 并且也分別出現(xiàn)了在屬于B和C類的10篇文章中的5篇中。其余特征詞在各類別中的分 布情況,如下表4所示:
[0077]
[0078]
[0079] 表 4
[0080] 根據(jù)表4,計算出每個詞與各個預(yù)定分類的相關(guān)度R]k,計算結(jié)果如下表5所示:
[0081]
[0082] 表 5
[0083] 計算特征詞tk在文本類別c」類上的類別區(qū)分能力的值Diff jk,計算結(jié)果如下表6 :
[0084]
[0086] 表 6
[0087] 計算特征詞tk的類別區(qū)分度,根據(jù)表6可知:
[0088] Diffl = DiffA1/DiffB1/Diffcl= 0
[0089] Diff2 = Diff C2= 1/10
[0090] Diff3 = Diff A3= 7/10
[0091] Diff4 = Diff C4= 2/10
[0092] Diff5 = Diff C5= 2/10
[0093] Diff6 = Diff B6= 4/10
[0094] 假設(shè)閾值Q1為1/20,則此時特征詞1被淘汰。進入下一步的特征詞選擇。此時特 征詞2,特征詞4,特征詞5被作為代表C類的備選特征詞進入下一步的特征詞選擇。
[0095] 假設(shè)特征詞2在C類的10篇文章中一共出現(xiàn)了 9次,特征詞4在C類的10篇文 章中一共出現(xiàn)了 40次,特征詞3在A類的10篇文章中一共出現(xiàn)了 20次。
[0096] 根據(jù)公式計算出特征詞4的分布率,即
[0097] w2 = c9/10 = 0. 9
[0098] w2 = 40/10 = 4
[0099] w3 = 20/10 = 2
[0100] 假設(shè)預(yù)設(shè)閾值Q2為3,預(yù)設(shè)閾值Q3為1 :
[0101] 對于特征詞2,求IG,判斷是否小于預(yù)設(shè)閾值Q4,是則淘汰,否則備選。
[0102] 對于特征詞4,求IG,判斷是否大于等于預(yù)設(shè)閾值Q5,是則選出該特征詞,否則淘 汰。
[0103] 對于特征詞5,直接作為備選。
[0104] 假設(shè)此時特征詞4被選出作為代表C類的特征詞。同樣的方法對其他類選擇代表 其類別的特征詞。假設(shè)特征詞3被選出代表A類,特征詞6被選出代表B類。如果此時預(yù) 設(shè)VSM空間維度為3,則此時已選滿作為語料庫訓(xùn)練的文本特征集合,如果此時VSM空間維 度為4,則從備選的特征詞中進行選擇。
[0105] 本發(fā)明實施例所提供的技術(shù)方案,能夠選擇出更具類別代表性及類內(nèi)更高信息量 的特征詞,并且提高文本分類的速度。
[0106] 通過以上實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚本發(fā)明的實現(xiàn)方式,本發(fā) 明可以通過軟件編程實現(xiàn),相應(yīng)的軟件程序可存儲于可讀取的存儲介質(zhì)中,如光盤、硬盤、 移動存儲介質(zhì)等。
[0107] 以上為本發(fā)明的具體實施例,但并不用以限制本發(fā)明,對于本技術(shù)領(lǐng)域的普通技 術(shù)人員來說,凡在不脫離本發(fā)明原理的前提下,所做的任何修改、等同替換、改進等,均應(yīng)包 含在本發(fā)明的保護發(fā)明范圍之內(nèi)。
【主權(quán)項】
1. 一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法,其特征在于,具體包括 以下步驟: 步驟1 :獲取不同類別的文本集合,作為語料訓(xùn)練集。 步驟2 :對語料訓(xùn)練集的文本進行預(yù)處理,包括中文分詞,去停用詞處理; 步驟3 :使用基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法對文本進行特征選 擇,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文本特征集合。2. 如權(quán)利要求1所述的一種基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法,其 特征在于,步驟3使用基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法對文本進行特 征選擇,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文本特征集合,其特征在于, 所述方法包括: 首先計算每個特征詞的類別區(qū)分度,選取具有高類別區(qū)分度的特征詞。 結(jié)合特征詞在類內(nèi)的分類率和信息增益IG,對選出的高類別區(qū)分度的特征詞進行進一 步篩選,選取類內(nèi)高表征度的特征詞。3. 如權(quán)利要求2所述的使用基于類間區(qū)分度及類內(nèi)高效的文本特征提取方法對文本 進行特征選擇,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文本特征集合,其特 征在于,計算每個特征詞的類別區(qū)分度,選取具有高類別區(qū)分度的特征詞。具體包括以下步 驟: 步驟(1),確定各個特征詞與各個預(yù)置類別的相關(guān)度,其計算公式如下:其中Rjk表示特征詞t k與文本類別c郝相關(guān)度,分子表示文本類別c漢中出現(xiàn)特征詞 鞏的文檔數(shù),分母表示文本類別c ^類中包含文檔的數(shù)目。 步驟(2),計算特征詞tk在文本類別c ,類上的類別區(qū)分能力的值,計算公式如下: Diff jk= min (R .jk-Rik) (i ! = j 且 i 取 1 ~s, s 為類別總數(shù)) 注意,這里DifTjk可以為負(fù)數(shù)。負(fù)數(shù)表示特征詞tk在文本類別C j類的分布小于特征詞 tk在文本類別c i類中的分布。 步驟(3),計算特征詞tk的類別區(qū)分度,計算公式如下: Diffk= max{Diff jk} (j 取 1 ~s) 并且記錄Diffk對應(yīng)的Diff _jk的j值,即記錄了特征詞11<表征的文本類別c。。 步驟(4),設(shè)置預(yù)設(shè)閾值Ql,取Diffk> = Ql的特征詞進行進一步的篩選。4. 如權(quán)利要求2所述的使用基于類間區(qū)分度及類內(nèi)高表征度的文本特征提取方法對 文本進行特征選擇,選出N個特征(N為預(yù)設(shè)閾值),作為上述語料訓(xùn)練集的文本特征集合, 其特征在于,結(jié)合特征詞在類內(nèi)的分類率和信息增益IG對在選出的高類別區(qū)分度的特征 詞進一步篩選,選取類內(nèi)高表征度的特征詞。具體包括以下步驟: 步驟(1),對已經(jīng)選出的高類別區(qū)分度的特征詞,計算該特征詞在其表征的類中的分布 率,假設(shè)特征詞tk表征文本類別c ^類,則特征詞、的分布率計算公式如下: Wtk=(類c j中包含的t k的詞頻V (類c ;中包含的文檔數(shù)) 步驟(2),設(shè)置預(yù)設(shè)閾值Q2,當(dāng)wtk> = Q2時,則特征詞t k作為高頻詞,進入步驟(3), 設(shè)置預(yù)設(shè)閾值Q3,當(dāng)wtk< = Q3時,則表示特征詞t ,是低頻詞,進入步驟(4),進行下一步 的判斷。 步驟(3),對wtk> = Q2的特征詞求IG,設(shè)置預(yù)設(shè)閾值Q4,當(dāng)IG (t k) < Q4,則特征詞tk 被淘汰,不被選出作為語料訓(xùn)練集的文本特征集合。 步驟(4),對wtk< = Q3的特征詞求IG,并設(shè)置閾值Q5,當(dāng)IG(t k) > = Q5時,表示tk 是個低頻有效詞,被選出作為語料訓(xùn)練集的文本特征集合。 步驟(5),假設(shè)語料訓(xùn)練集的文本特征集合的維度為N,若根據(jù)前面取出的特征詞的維 度小于維度N,則此時從Q3 < tk< Q2的特征詞中進行選擇,按照權(quán)值從高到底進行選擇。 直到選滿為止。
【文檔編號】G06F17/30GK105893388SQ201510014438
【公開日】2016年8月24日
【申請日】2015年1月1日
【發(fā)明人】黃筱聰, 朱永強
【申請人】成都網(wǎng)安科技發(fā)展有限公司