欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法

文檔序號(hào):6565028閱讀:238來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法
技術(shù)領(lǐng)域
本發(fā)明屬于中文文本分類(lèi)算法研究領(lǐng)域,特別涉及一種采用詞項(xiàng)與類(lèi)別之間的辨別指數(shù)選取特征、基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法。
背景技術(shù)
隨著中國(guó)出版業(yè)的迅速發(fā)展,電子格式的中文文檔數(shù)量不斷攀升。文檔分類(lèi)的工作愈發(fā)繁瑣,因此,利用先進(jìn)的機(jī)器學(xué)習(xí)和模式分類(lèi)方法輔助傳統(tǒng)的人工分類(lèi)變得十分必要。中文文本分類(lèi)方法主要有特征選擇和分類(lèi)算法兩部分構(gòu)成。文檔集的特征一般采用詞袋模型(Bag-of-Words)和文檔向量模型(Vector Space Model)的形式表示,其關(guān)鍵區(qū)別在于權(quán)重的計(jì)算方式不同,詞袋模型的權(quán)重是用概率表示由詞生成文檔的概率,文檔向量模型的權(quán)重可以看作是詞項(xiàng)頻率統(tǒng)計(jì)的函數(shù)映射。文檔的表示必須選取具有代表性的詞項(xiàng)作為特征索引。詞項(xiàng)的粒度可以選擇字、詞、短語(yǔ)、概念、N-Gram以及其它規(guī)律性模式,根據(jù)頻率統(tǒng)計(jì)選擇特征,并對(duì)剩余特征項(xiàng)計(jì)算不同權(quán)重用于文檔表示。將文檔集中所有文檔的表示向量接連起來(lái)即可構(gòu)成文檔集的特征表示,但是此類(lèi)特征表示方法容易遭遇維數(shù)災(zāi)難,同時(shí)也面臨著小樣本問(wèn)題。因此,在文本分類(lèi)中,常采用概念索引(Concept Index)、互信息量(Mutual Information)、信息增益(Information Gain)、交叉熵(Cross Entropy)、CHI統(tǒng)計(jì)(CHI Statistics)和幾率比(Odds Ratio)等方法來(lái)降低特征向量的維數(shù)。常用的分類(lèi)方法有貝葉斯、K近鄰、決策樹(shù)和SVM方法。但是,以上現(xiàn)有的方法效果仍不盡如人意。其原因除了客觀(guān)上訓(xùn)練樣本的不均勻分布和樣本文檔類(lèi)別間的復(fù)分性之外, 更可能的原因有以下特征選擇的硬判決割斷了文檔連續(xù)詞項(xiàng)之間的語(yǔ)義關(guān)聯(lián);文本分類(lèi)算法中大多忽略了不同類(lèi)別文檔之間的相關(guān)性,而類(lèi)別之間的相關(guān)性對(duì)于改善文本分類(lèi)性能有著積極作用。目前,最新的主流算法主要有以下幾種(I)Z. Guo 等(Z. Guo,L Lu,S. Xi and F. Sun,An effective dimension reduction approach to Chinese document classification using genetic algorithm. Lecture Notes in Computer Science,5552/2009 :480_489,2008)提出基于遺傳算法的中文文檔分
類(lèi)方法;(2)M. Y. Jia 等(M. Y. Jia, D. Q. Zheng, B. R. Yang and Q. X. Chen, Hierarchical text categorization based on multiple feature selection and fusion of multiple classifiers approaches. International Conference on Fuzzy Systems and Knowledge Discovery, 2009)提出基于多特征選擇和多分類(lèi)器的層次文本分類(lèi)方法;(3) Cheng 等(X. Cheng, S. Tan and L. Tang, Using dragpushing to refine concept index for text categorization, Journal of Computer Science and Technology, 21 (4) :592_596,2006)采用 Concept Index 方法進(jìn)行文本分類(lèi)。以上算法均需采用SVM等方法訓(xùn)練構(gòu)造分類(lèi)器,算法運(yùn)行量大,運(yùn)行所需時(shí)間很長(zhǎng),在實(shí)際應(yīng)用中存在諸多局限。因此,研究如何在考慮同類(lèi)別文檔之間的相關(guān)性的情況下提高分類(lèi)精確度且同時(shí)降低算法復(fù)雜度的中文文本分類(lèi)算法是一個(gè)極具實(shí)際意義的課題。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法。該方法在特征選擇環(huán)節(jié),分別統(tǒng)計(jì)全部詞項(xiàng)與類(lèi)別的辨別指數(shù)并將其作為權(quán)重篩選特征詞項(xiàng),同時(shí)在一對(duì)多分類(lèi)框架下,計(jì)算出不同類(lèi)別文檔之間的相關(guān)性矩陣,對(duì)于新文本的分類(lèi)精確度提高,同時(shí)計(jì)算復(fù)雜度降低,運(yùn)行所需時(shí)間減少,具有很好的應(yīng)用前景。本發(fā)明的目的通過(guò)以下的技術(shù)方案實(shí)現(xiàn)基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,具體包括以下步驟(1)訓(xùn)練過(guò)程(1-1)特征選擇對(duì)于所有的中文詞項(xiàng),存在一本標(biāo)準(zhǔn)詞典,詞典中包含完備的詞項(xiàng)集合,詞項(xiàng)集合的全部詞項(xiàng)依據(jù)拼音音序的先后順序構(gòu)成詞項(xiàng)索引。特征選擇的目標(biāo)即是從詞典中挑選具有代表性的詞項(xiàng)構(gòu)成特征詞項(xiàng),同樣依據(jù)拼音音序構(gòu)成特征索引。具體過(guò)程是讀入所有的訓(xùn)練文檔,對(duì)文檔進(jìn)行分詞。將訓(xùn)練文檔分詞后,根據(jù)標(biāo)準(zhǔn)詞典中的詞項(xiàng)索引順序依次統(tǒng)計(jì)出每個(gè)詞項(xiàng)的詞頻。挑選出訓(xùn)練文檔中出現(xiàn)頻繁的詞項(xiàng),構(gòu)成粗選擇后的特征子集,根據(jù)粗選擇特征子集中各個(gè)詞項(xiàng)與類(lèi)別之間有關(guān)概率的指數(shù),進(jìn)一步確定精選擇后的代表性詞項(xiàng),所有類(lèi)別中的代表性詞項(xiàng)構(gòu)成特征集合,并且根據(jù)拼音音序構(gòu)成特征索引;(1-2)訓(xùn)練文檔的表示將每一個(gè)訓(xùn)練文檔用一個(gè)向量表示,向量的維數(shù)即特征選擇后詞項(xiàng)索引大小,向量中的每一個(gè)元素由tfidf(term frequency-inverse document frequency,詞頻-逆向文本頻率)權(quán)重和辨別指數(shù)權(quán)重的乘積構(gòu)成,tfidf是文檔中詞項(xiàng)的詞頻和類(lèi)別中詞項(xiàng)的文頻的統(tǒng)計(jì)表示,辨別指數(shù)權(quán)重是根據(jù)步驟(1-1)所述的有關(guān)頻率的指數(shù)所做的一個(gè)平滑函數(shù),值在0-1之間;(1-3)訓(xùn)練文檔類(lèi)別之間的相關(guān)性學(xué)習(xí)首先將多類(lèi)之間的文本分類(lèi)問(wèn)題分解為多個(gè)兩類(lèi)文本分類(lèi)問(wèn)題,即對(duì)于某一類(lèi)別ck,將屬于類(lèi)別Ck的訓(xùn)練樣本作為正樣本,不屬于類(lèi)別Ck的訓(xùn)練樣本作為負(fù)樣本,然后采用脊回歸方法訓(xùn)練兩類(lèi)分類(lèi)器;對(duì)所有類(lèi)別文檔分別訓(xùn)練即得到一組兩類(lèi)分類(lèi)器,同時(shí)計(jì)算類(lèi)別之間的相關(guān)性構(gòu)成已知樣本訓(xùn)練碼矩陣CM, 其中碼矩陣的第k行第k'列表示類(lèi)別Ck和(V之間的相關(guān)性;(2)新文檔的類(lèi)別判定過(guò)程(2-1)新文檔的表示假設(shè)語(yǔ)料中的文檔分為K個(gè)類(lèi)別,對(duì)于一個(gè)新文檔,它的類(lèi)別未知,將其投影到所有的K個(gè)類(lèi)別,并對(duì)應(yīng)于步驟(1-1)提取的特征詞項(xiàng)按拼音音序構(gòu)成的特征詞項(xiàng)索引,將新文檔用矩陣形式表示,矩陣的行表示所有可能K個(gè)類(lèi)別的索引,矩陣的列代表特征詞項(xiàng)索引,元素值采用步驟(1-2)所述訓(xùn)練文檔中值的計(jì)算方法表示;(2-2)新文檔的類(lèi)別判定將步驟(2-1)中得到的表示新文檔的矩陣投影到步驟 (1-3)所得到的那組兩類(lèi)分類(lèi)器中,并根據(jù)已知樣本訓(xùn)練碼矩陣CM計(jì)算新文檔屬于每個(gè)類(lèi)別的相似度,將相似度最大的類(lèi)別賦予新文檔,作為其判定類(lèi)別。
所述步驟(1-1)具體包括以下步驟(1-1-1)特征粗選擇讀入全部訓(xùn)練文檔,對(duì)于詞項(xiàng)tj;將出現(xiàn)、的文檔數(shù)量除以訓(xùn)練集合中所有文檔數(shù)量得到、在整個(gè)訓(xùn)練集合中的相對(duì)文頻Total-Rel-DFj,當(dāng) Total-Rel-DFj大于閾值α,則說(shuō)明t」在全部文檔中出現(xiàn)頻繁,將t」歸入集合Term1 ;然后對(duì)于已知類(lèi)別的某一類(lèi)ck,將該類(lèi)中包含、的文檔個(gè)數(shù)除以該類(lèi)總的文檔數(shù)量得到、在該類(lèi)中的相對(duì)文頻Class-Rel-DFjk,當(dāng)Class-Rel-DFjk大于閾值β,則說(shuō)明t」在該類(lèi)中出現(xiàn)頻繁,將、歸入集合Term2 ;取Term1和Term2的交集,即得到特征粗選擇后的詞項(xiàng)子集 Term' = ITerm1,Term2I ;(1-1-2)特征精選擇設(shè)t是步驟(1-1-1)得到的特征粗選擇后詞項(xiàng)子集Term' 中的一個(gè)候選詞項(xiàng),對(duì)于一個(gè)已知的類(lèi)別g,計(jì)算t與g之間的辨別指數(shù)W(t,g),W(t,g)的計(jì)算公式如下
權(quán)利要求
1.基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,具體包括以下步驟(1)訓(xùn)練過(guò)程(1-1)特征選擇對(duì)于所有的中文詞項(xiàng),存在一本標(biāo)準(zhǔn)詞典,詞典中包含完備的詞項(xiàng)集合,詞項(xiàng)集合的全部詞項(xiàng)依據(jù)拼音音序的先后順序構(gòu)成詞項(xiàng)索引,特征選擇的目標(biāo)即是從詞典中挑選具有代表性的詞項(xiàng)構(gòu)成特征詞項(xiàng),同樣依據(jù)拼音音序構(gòu)成特征索引,具體過(guò)程是讀入所有的訓(xùn)練文檔,對(duì)文檔進(jìn)行分詞,將訓(xùn)練文檔分詞后,根據(jù)標(biāo)準(zhǔn)詞典中的詞項(xiàng)索引順序依次統(tǒng)計(jì)出每個(gè)詞項(xiàng)的詞頻;挑選出訓(xùn)練文檔中出現(xiàn)頻繁的詞項(xiàng),構(gòu)成粗選擇后的特征子集,根據(jù)粗選擇特征子集中各個(gè)詞項(xiàng)與類(lèi)別之間有關(guān)概率的指數(shù),進(jìn)一步確定精選擇后的代表性詞項(xiàng),所有類(lèi)別中的代表性詞項(xiàng)構(gòu)成特征集合,并且根據(jù)拼音音序構(gòu)成特征索引;(1-2)訓(xùn)練文檔的表示將每一個(gè)訓(xùn)練文檔用一個(gè)向量表示,向量的維數(shù)即特征選擇后詞項(xiàng)索引大小,向量中的每一個(gè)元素由tfidf權(quán)重和辨別指數(shù)權(quán)重的乘積構(gòu)成,tfidf是文檔中詞項(xiàng)的詞頻和類(lèi)別中詞項(xiàng)的文頻的統(tǒng)計(jì)表示,辨別指數(shù)權(quán)重是根據(jù)步驟(1-1)所述的有關(guān)頻率的指數(shù)所做的一個(gè)平滑函數(shù),值在0-1之間;(1-3)訓(xùn)練文檔類(lèi)別之間的相關(guān)性學(xué)習(xí)首先將多類(lèi)之間的文本分類(lèi)問(wèn)題分解為多個(gè)兩類(lèi)文本分類(lèi)問(wèn)題,即對(duì)于某一類(lèi)別ck,將屬于類(lèi)別Ck的訓(xùn)練樣本作為正樣本,不屬于類(lèi)別 ck的訓(xùn)練樣本作為負(fù)樣本,然后采用脊回歸方法訓(xùn)練兩類(lèi)分類(lèi)器;對(duì)所有類(lèi)別文檔分別訓(xùn)練即得到一組兩類(lèi)分類(lèi)器,同時(shí)計(jì)算類(lèi)別之間的相關(guān)性構(gòu)成已知樣本訓(xùn)練碼矩陣CM,其中碼矩陣的第k行第k'列表示類(lèi)別Ck和(V之間的相關(guān)性;(2)新文檔的類(lèi)別判定過(guò)程(2-1)新文檔的表示假設(shè)語(yǔ)料中的文檔分為K個(gè)類(lèi)別,對(duì)于一個(gè)新文檔,它的類(lèi)別未知,將其投影到所有的K個(gè)類(lèi)別,并對(duì)應(yīng)于步驟(1-1)提取的特征詞項(xiàng)按拼音音序構(gòu)成的特征詞項(xiàng)索引,將新文檔用矩陣形式表示,矩陣的行表示所有可能K個(gè)類(lèi)別的索引,矩陣的列代表特征詞項(xiàng)索引,元素值采用步驟(1-2)所述訓(xùn)練文檔中值的計(jì)算方法表示;(2-2)新文檔的類(lèi)別判定將步驟(2-1)中得到的表示新文檔的矩陣投影到步驟(1-3) 所得到的那組兩類(lèi)分類(lèi)器中,并根據(jù)已知樣本訓(xùn)練碼矩陣CM計(jì)算新文檔屬于每個(gè)類(lèi)別的相似度,將相似度最大的類(lèi)別賦予新文檔,作為其判定類(lèi)別。
2.根據(jù)權(quán)利要求1所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(1-1)具體包括以下步驟(1-1-1)特征粗選擇讀入全部訓(xùn)練文檔,對(duì)于詞項(xiàng)、,將出現(xiàn)、的文檔數(shù)量除以訓(xùn)練集合中所有文檔數(shù)量得到、在整個(gè)訓(xùn)練集合中的相對(duì)文頻Total-Rel-DFj,當(dāng) Total-Rel-DFj大于閾值α,則將t」歸入集合Term1 ;然后對(duì)于已知類(lèi)別的某一類(lèi)ck,將該類(lèi)中包含、的文檔個(gè)數(shù)除以該類(lèi)總的文檔數(shù)量得到、在該類(lèi)中的相對(duì)文頻Class-Rel-DFjk, 當(dāng)Class-Rel-DFjk大于閾值β,則將t」歸入集合Term2 ;取Term1和Term2的交集,即得到特征粗選擇后的詞項(xiàng)子集Term' = (Term1, TermJ ;(1-1-2)特征精選擇設(shè)t是步驟(1-1-1)得到的特征粗選擇后詞項(xiàng)子集Term'中的一個(gè)候選詞項(xiàng),對(duì)于一個(gè)已知的類(lèi)別g,計(jì)算t與g之間的辨別指數(shù)W(t,g),W(t,g)的計(jì)算公式如下
3.根據(jù)權(quán)利要求2所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(1-1)中的閾值α、β、Y以最終選出完全詞項(xiàng)集合中10% -20%數(shù)量的詞項(xiàng)為確定標(biāo)準(zhǔn)。
4.根據(jù)權(quán)利要求2所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(1-1-2)中辨別指數(shù)的有效閾值范圍在0.6-0. 9之間,閾值選擇需以分類(lèi)性能做一個(gè)參照,取最高分類(lèi)性能的對(duì)應(yīng)閾值控制輸出特征詞項(xiàng)的數(shù)目。
5.根據(jù)權(quán)利要求1所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(1-2)中訓(xùn)練文檔的表示方法具體如下設(shè)所有訓(xùn)練文檔共有K個(gè)類(lèi)別,每個(gè)類(lèi)別ck對(duì)應(yīng)有Nk個(gè)文檔(1彡k彡K),則類(lèi)別Ck中的第i (1彡i彡Nk)個(gè)文檔Dk,i用以下方式表不Dk,i —〈dk,i,i,dkjlt2' · · ·,dkji>n>其中m表示特征索引的大小,即是步驟(1-1-2)中得到的代表性詞項(xiàng)的個(gè)數(shù);Cl1^j由以下公式表示Cik,^. = tfIdfarDk,,) .Fdajjg (Dk,,)))其中
6.根據(jù)權(quán)利要求1所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(1-3)具體方法如下(1-3-1)對(duì)于某一類(lèi)別ck,將屬于類(lèi)別Ck的訓(xùn)練文檔作為正樣本,類(lèi)別標(biāo)記記為1,反之作為負(fù)樣本,類(lèi)別標(biāo)記記為-1,根據(jù)步驟(1-2)所得到的表示每個(gè)訓(xùn)練文檔的向量,將所有的訓(xùn)練文檔接連起來(lái)構(gòu)成矩陣X,而對(duì)應(yīng)的轉(zhuǎn)變后的類(lèi)別標(biāo)記可以構(gòu)成向量y ;(1-3-2)每一類(lèi)中最佳投影采用脊回歸方法求得
7.根據(jù)權(quán)利要求1所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(2-1)新文檔的表示方法具體如下對(duì)于給定新文檔A,在類(lèi)別未知的前提下, 對(duì)應(yīng)于某可能類(lèi)別ck,新文檔表示如下Ak —〈 ,1,ak,2,· · ·,ak,n〉其中,η是步驟(1-2)中的特征詞項(xiàng)索引的大小,對(duì)應(yīng)于所有可能的類(lèi)別l<k<K,新文檔表示成為KXn大小的矩陣,其中第k行的第j個(gè)元素ay的值由以下公式計(jì)算
8.根據(jù)權(quán)利要求1所述的基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,其特征在于,所述步驟(2-2)中新文檔類(lèi)別判定的算法具體如下根據(jù)步驟(2-1),新文檔A表示為 A = {A1;A2,...,AK},給定一組投影向量戶(hù)=他,p2,...,pj和碼矩陣CM,新文檔的表示和判定通過(guò)以下步驟實(shí)現(xiàn)(2-2-1)將新文檔中的K個(gè)向量表示分別投影于對(duì)應(yīng)的兩類(lèi)分類(lèi)器,得到變換向量集合 Q = IQ1, Q2, ...,Qk,...,QK},其中,對(duì)于類(lèi)別 ck 有& =sgn(<4,Pi >);(2-2-2)計(jì)算新文檔A屬于類(lèi)別Ck的相似度,如下
全文摘要
本發(fā)明公開(kāi)了一種基于類(lèi)別之間相關(guān)性學(xué)習(xí)的中文文本分類(lèi)方法,首先對(duì)文檔進(jìn)行分詞,通過(guò)統(tǒng)計(jì)詞頻進(jìn)行特征粗選擇,然后根據(jù)詞項(xiàng)和類(lèi)別之間的辨別指數(shù)進(jìn)一步確定具有代表性的詞項(xiàng)構(gòu)成精選擇后的特征詞項(xiàng)。根據(jù)特征詞項(xiàng)索引,訓(xùn)練文檔采用tfidf權(quán)重和辨別指數(shù)權(quán)重共同表示。接著,分別構(gòu)建一組對(duì)應(yīng)于不同投影向量的兩類(lèi)分類(lèi)器,并訓(xùn)練得到表示兩兩類(lèi)別之間相關(guān)性的碼矩陣。最后,將新文檔的多向量表示投影到所有兩類(lèi)分類(lèi)器,引入碼矩陣,計(jì)算每個(gè)類(lèi)別與文檔的相似度,將相似度最大輸出作為新文檔的類(lèi)別判定結(jié)果。本發(fā)明基于類(lèi)別之間的相關(guān)性學(xué)習(xí)結(jié)果進(jìn)行新文檔的分類(lèi),在保證分類(lèi)性能的同時(shí),提升算法的運(yùn)行效率。
文檔編號(hào)G06F17/30GK102332012SQ20111026882
公開(kāi)日2012年1月25日 申請(qǐng)日期2011年9月13日 優(yōu)先權(quán)日2011年9月13日
發(fā)明者何崑, 吳嫻, 張東明, 楊興鋒 申請(qǐng)人:南方報(bào)業(yè)傳媒集團(tuán)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
三明市| 奉贤区| 获嘉县| 如东县| 光山县| 文成县| 神池县| 福贡县| 隆子县| 鄂温| 六枝特区| 宁蒗| 神池县| 贵定县| 墨脱县| 尚志市| 东乌| 玉林市| 乌海市| 周至县| 运城市| 开封县| 岳阳市| 固安县| 上高县| 四会市| 海口市| 合川市| 峨边| 满城县| 寻甸| 洞头县| 庄浪县| 海口市| 基隆市| 铜山县| 司法| 工布江达县| 伊川县| 呼图壁县| 娄底市|