本發(fā)明涉及一種數(shù)據(jù)挖掘處理技術(shù)領(lǐng)域,尤其是一種融合雙信息源的文本多標(biāo)簽分類方法。
背景技術(shù):
分類問(wèn)題是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等領(lǐng)域的重要問(wèn)題,然而多標(biāo)簽分類問(wèn)題相對(duì)于單標(biāo)簽分類更貼近實(shí)際需要,例如,對(duì)新聞文本讀者情緒分類,不同的讀者在閱讀新聞文本后可能產(chǎn)生不同的情緒甚至同一個(gè)讀者也可能同時(shí)產(chǎn)生多種情緒,如“悲傷”、“憤怒”等多個(gè)標(biāo)簽,文本多標(biāo)簽分類有很多實(shí)際應(yīng)用需求,例如:對(duì)文章的主題分類可以用于個(gè)性化推薦,對(duì)新聞、微博等文本的情緒分類有利于輿情監(jiān)控,對(duì)產(chǎn)品評(píng)論的分類有益于產(chǎn)品的銷(xiāo)售等,對(duì)這些文本數(shù)據(jù)分類需要利用和挖掘盡量多的信息,融合多種信息有利于提高分類器的準(zhǔn)確率,對(duì)于文本多標(biāo)簽分類,主要存在以下問(wèn)題:
1、由于文本數(shù)據(jù)有成千上萬(wàn)個(gè)詞匯,高維度數(shù)據(jù)處理相對(duì)復(fù)雜;
2、由于這些文本數(shù)據(jù)往往具有多種信息源,具有不同的特點(diǎn)和特征,從不同的角度解讀著標(biāo)簽信息,例如,針對(duì)新聞的讀者情緒分類,不僅有新聞文本信息,同時(shí)還有評(píng)論信息、主題信息等,現(xiàn)有技術(shù)中對(duì)于融合多類型信息效果不明顯,分類器分類效果較差;
3、特征的提取對(duì)分類器性能提升有著至關(guān)重要的作用,現(xiàn)有技術(shù)對(duì)于有效特征的提取不準(zhǔn)確。
4、由于真實(shí)的數(shù)據(jù)的多標(biāo)簽特性往往隱含著標(biāo)簽之間的特殊相關(guān)性,同時(shí)也導(dǎo)致了不同標(biāo)簽間數(shù)據(jù)的不平衡性,某些標(biāo)簽語(yǔ)料充足,某些標(biāo)簽語(yǔ)料則十分少,多標(biāo)簽特性對(duì)傳統(tǒng)分類器依賴性較大。
現(xiàn)有的方法,一般是針對(duì)不同信息源分別構(gòu)建分類器,通過(guò)采用加權(quán)求和和規(guī)則來(lái)融合兩個(gè)分類器的輸出,即通過(guò)求后驗(yàn)概率的加權(quán)和來(lái)實(shí)現(xiàn)兩個(gè)分類器的融合,但該方法無(wú)法有效利用不同信息源、以及不同標(biāo)簽之間的相關(guān)性,還有通過(guò)直接將多種信息源文本簡(jiǎn)單的拼接在一起作為特征輸入進(jìn)行分類,然而這種方法忽略了不同的信息源有不同的特征空間,過(guò)于簡(jiǎn)單粗暴,無(wú)法將兩種文本信息源的特征、標(biāo)簽相關(guān)信息進(jìn)行有機(jī)融合、實(shí)現(xiàn)高效的多標(biāo)簽分類。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種能夠有效融合雙信息源的文本多標(biāo)簽分類方法。
本發(fā)明的技術(shù)方案為:一種融合雙信息源的文本多標(biāo)簽分類方法,其特征在于,包括以下步驟:
s1)、從網(wǎng)絡(luò)爬取文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
s2)、并對(duì)獲取的訓(xùn)練文本數(shù)據(jù)進(jìn)行預(yù)處理,踢除不需要的數(shù)據(jù),保留有用的文本,將每篇文本數(shù)據(jù)按不同信息源分成信息源一和信息源二,然后分別將n篇文本數(shù)據(jù)的信息源一存入訓(xùn)練信息源一中,將信息源二存入訓(xùn)練信息源二中;
s3)、采用空間向量模型將每篇文本數(shù)據(jù)的信息源一和信息源二分別采用所需的特征項(xiàng)及其對(duì)應(yīng)的特征項(xiàng)權(quán)重表示,即:
rk=(t1,w1;t2,w2;...tn,wn),
tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分別表示第k篇文本數(shù)據(jù)的信息源一的第i個(gè)特征項(xiàng)和對(duì)應(yīng)的權(quán)重,si、vi表示第k篇文本數(shù)據(jù)的信息源二的第i個(gè)特征項(xiàng)和對(duì)應(yīng)的權(quán)重,
然后將特征項(xiàng)、特征項(xiàng)權(quán)重表示的訓(xùn)練信息源一和訓(xùn)練信息源二向量化得到特征矩陣x1、x2;
s4)、基于將數(shù)據(jù)映射到低維空間最小化重構(gòu)誤差保留盡可能多的信息的原理,同時(shí)結(jié)合標(biāo)簽和標(biāo)簽之間的相關(guān)性,構(gòu)建融合不同視角和特點(diǎn)與多個(gè)信息源融合的文本多標(biāo)簽分類模型,即優(yōu)化如下帶約束目標(biāo)函數(shù):
min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2,
其中,y為多標(biāo)簽矩陣,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)是調(diào)節(jié)參數(shù),a、b、c、d、v1、v2均為線性映射過(guò)程中的參數(shù),t為轉(zhuǎn)置,i為單位矩陣,并且令c*=γc,d*=(1-γ)d;
s5)、將a、b、c、d的最優(yōu)解代入到模型中,并加入線性約束和正則項(xiàng),將s3)中的目標(biāo)函數(shù)等價(jià)變換成以下計(jì)算式,計(jì)算前k個(gè)最大的特征值對(duì)應(yīng)的特征向量,具體為:
其中,
從而得到訓(xùn)練信息源一前k個(gè)特征向量組成的矩陣w1=(w1,w2,...wk)和訓(xùn)練信息源二的前j個(gè)特征向量組成的矩陣w2=(v1,v2,...vj),從而得到訓(xùn)練好的雙信息源的文本多標(biāo)簽分類模型;
s6)、獲取需要預(yù)測(cè)的測(cè)試文本數(shù)據(jù),并按照步驟s2、s3)進(jìn)行對(duì)待預(yù)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理和向量化得到相應(yīng)的特征矩陣,然后輸入到訓(xùn)練好的雙信息源的文本多標(biāo)簽分類模型,預(yù)測(cè)得到測(cè)試文本數(shù)據(jù)的分類標(biāo)簽結(jié)果。
本發(fā)明的有益效果為:設(shè)計(jì)合理、計(jì)算簡(jiǎn)單、預(yù)測(cè)準(zhǔn)確,通過(guò)將具有不同視角和特點(diǎn)的兩種信息源融合在模型中,提高了分類的準(zhǔn)確性,避免了現(xiàn)有技術(shù)中分別對(duì)數(shù)據(jù)源構(gòu)建分類器,再對(duì)多標(biāo)簽分類結(jié)果進(jìn)行融合,導(dǎo)致忽略不同信息源之間、不同標(biāo)簽的相關(guān)性的問(wèn)題,以及直接將信息源拼接作為特征輸入,導(dǎo)致忽略了不同信息源有著不同的特征空間的問(wèn)題,另外,通過(guò)將模型的求解過(guò)程轉(zhuǎn)換成特征值的求解,不僅進(jìn)一步簡(jiǎn)化了計(jì)算過(guò)程,而且還進(jìn)一步提高了模型訓(xùn)練效率。
附圖說(shuō)明
圖1為本發(fā)明的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步說(shuō)明:
如圖1所示,一種融合雙信息源的文本多標(biāo)簽分類方法,其特征在于,包括以下步驟:
s1)、從網(wǎng)絡(luò)爬取所需要的文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
s2)、并對(duì)獲取的訓(xùn)練文本數(shù)據(jù)進(jìn)行預(yù)處理,踢除不必要的數(shù)據(jù),保留所需文本,將每篇文本數(shù)據(jù)按不同信息源分成信息源一和信息源二,將然后分別將n篇文本數(shù)據(jù)的信息源一存入訓(xùn)練信息源一中,將信息源二存入訓(xùn)練信息源二中;
例如,若獲取的文本數(shù)據(jù)為新聞數(shù)據(jù),數(shù)據(jù)中既有新聞內(nèi)容也有新聞評(píng)論,其中新聞內(nèi)容和信息評(píng)論即為兩個(gè)不同的數(shù)據(jù)源,將新聞內(nèi)容劃分為信息源一,將新聞評(píng)論劃分為信息源二,然后將n篇新聞的新聞內(nèi)容存入訓(xùn)練信息源一中,將n篇新聞的新聞評(píng)論存入訓(xùn)練信息源二中;
s3)、采用空間向量模型將每篇文本數(shù)據(jù)的信息源一和信息源二分別采用所需的特征項(xiàng)及其對(duì)應(yīng)的特征項(xiàng)權(quán)重表示,即:
rk=(t1,w1;t2,w2;...tn,wn),
tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分別表示第k篇文本數(shù)據(jù)的信息源一的第i個(gè)特征項(xiàng)和對(duì)應(yīng)的權(quán)重,si、vi表示第k篇文本數(shù)據(jù)的信息源二的第i個(gè)特征項(xiàng)和對(duì)應(yīng)的權(quán)重,
然后將特征項(xiàng)、特征項(xiàng)權(quán)重表示的訓(xùn)練信息源一和訓(xùn)練信息源二向量化得到特征矩陣x1、x2;
s4)、基于將數(shù)據(jù)映射到低維空間最小化重構(gòu)誤差保留盡可能多的信息的原理,同時(shí)結(jié)合標(biāo)簽和標(biāo)簽之間的相關(guān)性,構(gòu)建融合不同視角和特點(diǎn)的多個(gè)信息源融合的文本多標(biāo)簽分類模型,即優(yōu)化如下帶約束目標(biāo)函數(shù):
min:α1||x1-v1a||2+α2||x2-v2b||2+(1-α1-α2)||y-γv1c-(1-γ)v2d||2,
其中,y為多標(biāo)簽矩陣,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)為調(diào)節(jié)參數(shù),a、b、c、d、v1、v2為均為線性映射過(guò)程中的參數(shù),t為轉(zhuǎn)置,i為單位矩陣,令c*=γc,d*=(1-γ)d;
s5)、將a、b、c、d的最優(yōu)解代入到模型中,并加入線性約束和正則項(xiàng),從而將s3)中的目標(biāo)函數(shù)等價(jià)變換成以下計(jì)算式,計(jì)算前k個(gè)最大的特征值對(duì)應(yīng)的特征向量,具體為:
其中,
從而得到訓(xùn)練信息源一前k個(gè)特征向量組成的矩陣w1=(w1,w2,...wk)和訓(xùn)練信息源二的前j個(gè)特征向量組成的矩陣w2=(v1,v2,...vj),從而得到訓(xùn)練好的雙信息源的文本多標(biāo)簽分類模型;
s6)、獲取需要預(yù)測(cè)的測(cè)試文本數(shù)據(jù),并按照步驟s2、s3)對(duì)待預(yù)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理和向量化得到相應(yīng)的測(cè)試數(shù)據(jù)源一、測(cè)試數(shù)據(jù)源二對(duì)應(yīng)的特征矩陣x1test、x2test,并根據(jù)ypredit=x1test×w1×c*+x2test×w2×d*,得到待預(yù)測(cè)文本數(shù)據(jù)的預(yù)測(cè)結(jié)果ypredit;
根據(jù)預(yù)測(cè)結(jié)果ypredit判斷待測(cè)試文本數(shù)據(jù)的類別,其中,包括8個(gè)類別,每個(gè)預(yù)測(cè)文本數(shù)據(jù)可包括多個(gè)類別,若在相應(yīng)類別下的預(yù)測(cè)結(jié)果為正,則判定該預(yù)測(cè)文本屬于該相應(yīng)類別,若在相應(yīng)類別下的預(yù)測(cè)結(jié)果為負(fù),則判定該預(yù)測(cè)文本不屬于該相應(yīng)類別,例如:若8個(gè)類別分別記為[1、2、3、4、5、6、7、8],若一個(gè)預(yù)測(cè)文本數(shù)據(jù)的預(yù)測(cè)結(jié)果ypredit在類別1、4、5、6、7下均為正數(shù),在類別2、3、8下均為負(fù)數(shù),則該預(yù)測(cè)文本數(shù)據(jù)的類別為類別1、4、5、6、7。
進(jìn)一步地,所述的權(quán)重可以是詞頻,也可以是tf-idf值;
進(jìn)一步地,所述的特征項(xiàng)為經(jīng)過(guò)χ2統(tǒng)計(jì)量、互信息等刷選后的特征項(xiàng);
進(jìn)一步地,根據(jù)
進(jìn)一步地,根據(jù)特征向量矩陣w1和w2,得到參數(shù)v1、v2,具體為:v1=x1w1,v2=x2w2;
進(jìn)一步地,根據(jù)參數(shù)v1、v2,得到c*、d*,具體為
上述實(shí)施例和說(shuō)明書(shū)中描述的只是說(shuō)明本發(fā)明的原理和最佳實(shí)施例,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。