一種評價類型分類方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息分類領(lǐng)域,特別是涉及一種評價類型分類方法與系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的高速發(fā)展和信息高速公路的興起,網(wǎng)絡(luò)信息數(shù)據(jù)不斷增加,大量的信息以電子文本的形式呈現(xiàn)在人們面前,從這些大量的信息中迅速、準(zhǔn)確地提取出人們所需求的重要信息變得越發(fā)重要。
[0003]評價類別是指某段語句中所討論的主題類別,如評價類別一共分為五個類別,分別為:foodN service N price N Ambience N anecdote s/miscellaneous.對于以下語句:A11 themoney went into the inter1r decorat1n, none of it went to the chefs.這個語句對應(yīng)有2個評價類型,分別為ambienCe、f00d。目前,評價類型分類方法大多是都是基于機(jī)器學(xué)習(xí)的方法,即使用統(tǒng)計的方法進(jìn)行研究。主要還是基于全監(jiān)督的學(xué)習(xí)方法,這種方法把評價類型判別看成分類問題,選擇合適的特征并使用合適的分類器來完成?;跈C(jī)器學(xué)習(xí)的方法有效智能,但是卻存在不能充分的利用到上下文信息,特征無法全局歸一化。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明的主要目的在于提供一種評價類型分類方法與系統(tǒng),可以高效準(zhǔn)確地對語料進(jìn)行評價類型分類。
[0005]為實現(xiàn)上述目的,本發(fā)明提供了一種評價類型分類方法,包括:
[0006]獲取目標(biāo)語料的特征信息;
[0007]將所述特征信息進(jìn)行融合;
[0008]將進(jìn)行融合后的特征信息轉(zhuǎn)換為支持向量機(jī)模型對應(yīng)格式的可用語料;
[0009]將所述可用語料按預(yù)設(shè)規(guī)則分為訓(xùn)練語料與測試語料;
[0010]將所述訓(xùn)練語料進(jìn)行訓(xùn)練得到預(yù)設(shè)數(shù)量的評價類型的分類模型;
[0011]分別用每一種所述評價類型的分類模型對所述測試語料中的評價類型進(jìn)行分類,得到所述測試語料中評價類型的分類結(jié)果。
[0012]優(yōu)選地,所述特征信息包括詞特征、詞性特征和評價對象特征。
[0013]優(yōu)選地,使用Stanford工具獲取所述詞性特征。
[0014]優(yōu)選地,將所述可用語料按預(yù)設(shè)規(guī)則分為訓(xùn)練語料與測試語料包括:
[0015]抽取所述可用語料的80%作為訓(xùn)練語料,將所述可用語料其余的20%作為測試語料。
[0016]本發(fā)明還提供了一種評價類型分類系統(tǒng),包括:
[0017]特征信息獲取模塊、特征信息融合模塊、語料格式轉(zhuǎn)換模塊、語料分類模塊、分類模型生成模塊和分類模塊;
[0018]所述特征信息獲取模塊用于獲取目標(biāo)語料的特征信息;
[0019]所述特征信息融合模塊用于將所述特征信息進(jìn)行融合;
[0020]所述語料格式轉(zhuǎn)換模塊用于將進(jìn)行融合后的特征信息轉(zhuǎn)換為支持向量機(jī)模型對應(yīng)格式的可用語料;
[0021]所述語料分類模塊用于將所述可用語料按預(yù)設(shè)規(guī)則分為訓(xùn)練語料與測試語料;
[0022]所述分類模型生成模塊用于將所述訓(xùn)練語料進(jìn)行訓(xùn)練得到預(yù)設(shè)數(shù)量的評價類型的分類模型;
[0023]所述分類模塊用于分別用每一種所述評價類型的分類模型對所述測試語料中的評價類型進(jìn)行分類,得到所述測試語料中評價類型的分類結(jié)果。
[0024]優(yōu)選地,所述特征信息包括詞特征、詞性特征和評價對象特征。
[0025]優(yōu)選地,使用Stanford工具獲取所述詞性特征。
[0026]優(yōu)選地,將所述可用語料按預(yù)設(shè)規(guī)則分為訓(xùn)練語料與測試語料包括:
[0027]抽取所述可用語料的80%作為訓(xùn)練語料,將所述可用語料其余的20%作為測試語料。
[0028]應(yīng)用本發(fā)明提供的一種評價類型分類方法與系統(tǒng),獲取目標(biāo)語料的特征信息,將所述特征信息進(jìn)行融合;將進(jìn)行融合后的特征信息轉(zhuǎn)換為支持向量機(jī)模型對應(yīng)格式的可用語料;將所述可用語料按預(yù)設(shè)規(guī)則分為訓(xùn)練語料與測試語料;將所述訓(xùn)練語料進(jìn)行訓(xùn)練得到預(yù)設(shè)數(shù)量的評價類型的分類模型;分別用每一種所述評價類型的分類模型對所述測試語料中的評價類型進(jìn)行分類,得到所述測試語料中評價類型的分類結(jié)果,使用支持向量機(jī)模型,充分地利用上下文信息,建立一個統(tǒng)一的概率模型,可以高效準(zhǔn)確地對語料進(jìn)行評價類型分類。
【附圖說明】
[0029]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0030]圖1為本發(fā)明一種評價類型分類方法實施例一的流程圖;
[0031]圖2為本發(fā)明一種評價類型分類系統(tǒng)實施例二的結(jié)構(gòu)示意圖。
【具體實施方式】
[0032]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0033]實施例一:
[0034]本實施例提供了一種評價類型分類方法,圖1示出了本實施例的流程圖,包括:
[0035]步驟SlOl:獲取目標(biāo)語料的特征信息;
[0036]目標(biāo)語料的特征信息包括詞特征、詞性特征和評價對象特征,詞性特征通過Stanford工具獲取,Stanford工具是一種詞性標(biāo)注工具,例如對以下的英文語句獲取特征信息:
[0037]語句:Butthe staff was so horrible to us.
[0038]詞性標(biāo)注結(jié)果:But/CCthe/DT staff/NN was/VBD so/RB horrible/JJ to/TOus/PRP./.
[0039]評價對象:staff.
[0040]步驟S102:將所述特征信息進(jìn)行融合;
[0041]將特征信息即詞特征、詞性特征與評價對象特征進(jìn)行融合構(gòu)建需要的可用語料。
[0042]步驟S103:將進(jìn)行融合后的特征信息轉(zhuǎn)換為支持向量機(jī)模型對應(yīng)格式的可用語料;
[0043]可用語料的格式需嚴(yán)格按照支持向量機(jī)模型要求的格式,即每類特征占一列,支持向量機(jī)(Support Vector Machine,SVM)是 AT&TBell 實驗室的 V.Vapnik 等人提出的一種新型機(jī)器學(xué)習(xí)算法。到目前為止,支持向量機(jī)已應(yīng)用于孤立手寫字符識別6&7、網(wǎng)頁或文本自動分類、說話人識別、人臉檢測、性別分類、計算機(jī)入侵檢測、基因分類、遙感圖象分析、目標(biāo)識別、函數(shù)回歸、估計、函數(shù)逼近、密度估計、時間序列預(yù)測、數(shù)據(jù)壓縮、文本過濾、數(shù)據(jù)挖掘及非線性系統(tǒng)控制等各個領(lǐng)域的實際問題中。
[0044]SVM的主要思想是針對兩類分類問題,尋找一個超平面作為兩類訓(xùn)練樣本點的分害J,以保證最小的分類錯誤率。在線性可分的情況下,存在一個或多個超平面使得訓(xùn)練樣本完全分開,SVM的目標(biāo)是找到其中的最優(yōu)超平面,最優(yōu)超平面是使得每一類數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的這樣的平面,如下圖所示,超平面W是h值最大的最優(yōu)超平面;對于線性不可分的情況,通過使用核函數(shù)(一種非線性映射算法)將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分。
[0045]SVM的基本模型設(shè)輸入模式集合Ix [i]} e Rn由兩類點組成,如果x[i]屬于第I類,則y[i] = 1,如果x[i]屬于第2類,則y[i] =-1,那么有訓(xùn)練樣本集合{x[i],y[i]},i
=1,2,3......n,求最優(yōu)分類面 wx-b = 0,滿足:y[i] (w *x[i]-b) > = I ;并使 2*h = 2/ II w II
最大,即min Il w Il *|| w II /2 ;根據(jù)對偶理論,可以通過解該問題的對偶問得到最優(yōu)解,對偶問題為:
[0046]max Σ a [i] -1/2 Σ α [i]*a [j] *y [