本發(fā)明涉及計(jì)算機(jī)應(yīng)用機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法及裝置。
背景技術(shù):
目前,電商作為一個(gè)新興的大型購物平臺(tái),由于其便捷高效等特性廣為人們所使用。作為一個(gè)車擁有龐大市場的新星平臺(tái),其出售的產(chǎn)品的質(zhì)量就顯得尤為重要。用戶能否快速準(zhǔn)確的找到高質(zhì)量的商品也是衡量一個(gè)電商平臺(tái)的重要標(biāo)準(zhǔn)。雖然如此,由于“競價(jià)”規(guī)則和刷單兩大不規(guī)范的商業(yè)行為,電商首頁往往充斥的低質(zhì)量的商品,使得消費(fèi)者無從下手。這樣一來,用戶的使用體驗(yàn)會(huì)大幅度下降,甚至轉(zhuǎn)而使用其他購物方法,從而不利于平臺(tái)的長遠(yuǎn)發(fā)展。因此,想要使得電商平臺(tái)穩(wěn)定健康的發(fā)展,我們應(yīng)該著重從產(chǎn)品下手,精準(zhǔn)的分辨出高質(zhì)量和低質(zhì)量的商品,進(jìn)而大幅度的方便用戶。但是,這個(gè)過程往往十分復(fù)雜,導(dǎo)致電商固有的評(píng)分系統(tǒng)所收集的數(shù)據(jù)高度冗余,用戶希望得到的信息通常掩藏在成千上萬條評(píng)論當(dāng)中難以發(fā)現(xiàn)。另外,一些惡意評(píng)分也嚴(yán)重干擾了其他用戶的選擇。由此可見,讓用戶自己根據(jù)產(chǎn)品評(píng)論分辨產(chǎn)品的好壞是一個(gè)十分復(fù)雜而棘手的過程。產(chǎn)品評(píng)論狀況雖然復(fù)雜,但不是無規(guī)律可循。根據(jù)過往的研究,產(chǎn)品評(píng)論大多會(huì)集中描述產(chǎn)品的某些屬性的好壞,可一通過對(duì)評(píng)論中產(chǎn)品屬性的抽取和分析,來判斷該評(píng)論的極性,這也是人工智能中一個(gè)重要的研究領(lǐng)域。通過對(duì)大規(guī)模產(chǎn)品評(píng)論的分析,可以精確地指出產(chǎn)品某個(gè)具體屬性的好壞,進(jìn)而改善用戶的使用體驗(yàn)。
然而,為了實(shí)現(xiàn)基于大規(guī)模產(chǎn)品評(píng)論的情感分類系統(tǒng),需要解決三個(gè)方面的主要難題:1)特征抽取和降維方法;2)文本向量空間模型的生成;3)情感分類器的選擇與訓(xùn)練。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個(gè)目的在于提出一種基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法,該方法可以提高分類準(zhǔn)確性,且提高分類效率,以及提高用戶的使用體驗(yàn)。
本發(fā)明的另一個(gè)目的在于提出一種基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置。
為達(dá)到上述目的,本發(fā)明一方面實(shí)施例提出了一種基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取多條評(píng)論文本;通過改進(jìn)雙向傳播算法對(duì)所述多條評(píng)論文本進(jìn)行特征抽取,以獲取數(shù)據(jù)特征;通過文本向量空間模型將所述數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量;根據(jù)所述預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,以得到情感分類結(jié)果。
本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法,基于產(chǎn)品評(píng)論,通過利用改進(jìn)雙向傳播算法進(jìn)行評(píng)論特征抽取,并將高性能的相似度向量空間模型應(yīng)用于支持向量機(jī),將用戶產(chǎn)品評(píng)論分為正向和負(fù)向,實(shí)現(xiàn)產(chǎn)品評(píng)論情感的分類,可以有效的對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類,并且通過分類器自動(dòng)調(diào)節(jié)有效降低錯(cuò)誤率,提高分類準(zhǔn)確性,且有效提高分類效率,提高用戶的使用體驗(yàn)。
另外,根據(jù)本發(fā)明上述實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法還可以具有以下附加的技術(shù)特征:
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述通過改進(jìn)雙向傳播算法對(duì)所述多條評(píng)論文本進(jìn)行特征抽取,進(jìn)一步包括:將初始特征空間置空;利用先驗(yàn)知識(shí)從評(píng)論文本中挑選特征進(jìn)入特征空間;根據(jù)特征之間的關(guān)聯(lián)關(guān)系從所述評(píng)論文本中挑選新特征進(jìn)入特征空間,直至所述改進(jìn)雙向傳播算法收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述通過改進(jìn)雙向傳播算法對(duì)所述多條評(píng)論文本進(jìn)行特征抽取具體包括:通過加入限制條件的fp-growth算法提取出訓(xùn)練集的高頻詞匯,以利用詞頻和tf-idf信息提取出語料中高頻詞匯和高頻二元關(guān)聯(lián)詞匯;根據(jù)所述高頻詞匯和高頻二元關(guān)聯(lián)詞匯的詞性標(biāo)注信息進(jìn)行篩選,以保留名詞而形成初始特征詞典;利用所述改進(jìn)雙向傳播算法生成情感詞典,并擴(kuò)展所述情感詞典和所述初始特征詞典,以擴(kuò)展主要使用句法關(guān)聯(lián)關(guān)系,其中,根據(jù)LTP系統(tǒng)采集的句法關(guān)系采集與所述初始特征詞典有關(guān)聯(lián)的單詞,以使用詞性標(biāo)注進(jìn)行篩選后生成所述情感詞典,并且利用所述句法關(guān)系擴(kuò)展所述特征詞典,并用所述詞性標(biāo)注信息進(jìn)行篩選,直到所述特征詞典和所述情感詞典收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述通過文本向量空間模型將所述數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量,進(jìn)一步包括:采集每個(gè)抽取出的被評(píng)論對(duì)象特征對(duì)應(yīng)的情感詞的向量;采用四個(gè)相似度系數(shù),將原始文本向量轉(zhuǎn)化為對(duì)其相應(yīng)的中心相似度向量;生成文本的特征相似度向量空間,得到所述文本向量空間模型,以劃分正向的數(shù)據(jù)集的邊界。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,進(jìn)一步包括:對(duì)所述文本向量空間模型生成的相似度值進(jìn)行平衡處理,其中,通過加權(quán)求和方法得到綜合相似度向量;將所述綜合相似度向量用于所述改進(jìn)支持向量機(jī)訓(xùn)練,以通過訓(xùn)練后的所述改進(jìn)支持向量機(jī)獲取所述情感分類結(jié)果。
為達(dá)到上述目的,本發(fā)明另一方面實(shí)施例提出了一種基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置,包括:獲取模塊,用于從互聯(lián)網(wǎng)上獲取多條評(píng)論文本;抽取模塊,用于通過改進(jìn)雙向傳播算法對(duì)所述多條評(píng)論文本進(jìn)行特征抽取,以獲取數(shù)據(jù)特征;轉(zhuǎn)換模塊,用于通過文本向量空間模型將所述數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量;分類模塊,用于根據(jù)所述預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,以得到情感分類結(jié)果。
本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置,基于產(chǎn)品評(píng)論,通過利用改進(jìn)雙向傳播算法進(jìn)行評(píng)論特征抽取,并將高性能的相似度向量空間模型應(yīng)用于支持向量機(jī),將用戶產(chǎn)品評(píng)論分為正向和負(fù)向,實(shí)現(xiàn)產(chǎn)品評(píng)論情感的分類,可以有效的對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類,并且通過分類器自動(dòng)調(diào)節(jié)有效降低錯(cuò)誤率,提高分類準(zhǔn)確性,且有效提高分類效率,提高用戶的使用體驗(yàn)。
另外,根據(jù)本發(fā)明上述實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置還可以具有以下附加的技術(shù)特征:
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述抽取模塊進(jìn)一步用于將初始特征空間置空,并且利用先驗(yàn)知識(shí)從評(píng)論文本中挑選特征進(jìn)入特征空間,以及根據(jù)特征之間的關(guān)聯(lián)關(guān)系從所述評(píng)論文本中挑選新特征進(jìn)入特征空間,直至所述改進(jìn)雙向傳播算法收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述抽取模塊具體用于通過加入限制條件的fp-growth算法提取出訓(xùn)練集的高頻詞匯,以利用詞頻和tf-idf信息提取出語料中高頻詞匯和高頻二元關(guān)聯(lián)詞匯,根據(jù)所述高頻詞匯和高頻二元關(guān)聯(lián)詞匯的詞性標(biāo)注信息進(jìn)行篩選,以保留名詞而形成初始特征詞典,且利用所述改進(jìn)雙向傳播算法生成情感詞典,并擴(kuò)展所述情感詞典和所述初始特征詞典,以擴(kuò)展主要使用句法關(guān)聯(lián)關(guān)系,其中,根據(jù)LTP系統(tǒng)采集的句法關(guān)系采集與所述初始特征詞典有關(guān)聯(lián)的單詞,以使用詞性標(biāo)注進(jìn)行篩選后生成所述情感詞典,并且利用所述句法關(guān)系擴(kuò)展所述特征詞典,并用所述詞性標(biāo)注信息進(jìn)行篩選,直到所述特征詞典和所述情感詞典收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述轉(zhuǎn)換模塊進(jìn)一步用于采集每個(gè)抽取出的被評(píng)論對(duì)象特征對(duì)應(yīng)的情感詞的向量,采用四個(gè)相似度系數(shù),將原始文本向量轉(zhuǎn)化為對(duì)其相應(yīng)的中心相似度向量,并且生成文本的特征相似度向量空間,得到所述文本向量空間模型,以劃分正向的數(shù)據(jù)集的邊界。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述分類模塊進(jìn)一步用于對(duì)所述文本向量空間模型生成的相似度值進(jìn)行平衡處理,其中,通過加權(quán)求和方法得到綜合相似度向量,并且將所述綜合相似度向量用于所述改進(jìn)支持向量機(jī)訓(xùn)練,以通過訓(xùn)練后的所述改進(jìn)支持向量機(jī)獲取所述情感分類結(jié)果。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法的流程圖;
圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法的流程圖;
圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的原始數(shù)據(jù)預(yù)處理的流程圖;
圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的特征抽取方法的流程圖;
圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例的相似度向量空間生成方法的流程圖;
圖6為根據(jù)本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
下面參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法及裝置,首先將參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法。
圖1是本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法的流程圖。
如圖1所示,該基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法包括以下步驟:
在步驟S101中,從互聯(lián)網(wǎng)上獲取多條評(píng)論文本。
具體地,結(jié)合圖2和圖3所示,由于產(chǎn)品評(píng)論的口語化程度很高,需要用于模型訓(xùn)練要先根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行數(shù)據(jù)預(yù)處理,其中包括數(shù)據(jù)去重、刪除無關(guān)內(nèi)容以及數(shù)據(jù)標(biāo)注三個(gè)步驟,通過初步的處理,就可以得噪聲較小,相關(guān)度比較高的處理后的數(shù)據(jù)集。
由于所使用的數(shù)據(jù)均直接由爬蟲程序從電商網(wǎng)站不加篩選的直接爬取,因此每條記錄十分詳細(xì)。這就會(huì)帶來兩方面的影響:首先,我們可以得到完整的評(píng)論信息,了解用戶對(duì)該產(chǎn)品全方位的評(píng)價(jià);但是,另一方面原始記錄中也存在許多相互重復(fù)的信息以及和高度無關(guān)的無用信息,這些信息會(huì)造成最后誤差增大,使得訓(xùn)練變得更加困難。
在得到初步處理的數(shù)據(jù)后,就要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。對(duì)于產(chǎn)品評(píng)論這樣的信息來說,原始的數(shù)據(jù)對(duì)后續(xù)模型的訓(xùn)練意義不大。真正可用于后續(xù)模型的是原始數(shù)據(jù)的標(biāo)注信息。本發(fā)明實(shí)施例可以使用哈工大開源的云平臺(tái)LTP工具,采集了評(píng)論的分詞,詞性標(biāo)注以及句法結(jié)構(gòu)以便后續(xù)使用。同時(shí),在標(biāo)注過程中,對(duì)標(biāo)注結(jié)果進(jìn)行了處理以更加契合實(shí)際情況,如程度副詞和形容詞毗鄰的情況下,將這兩個(gè)詞連接成一個(gè)新詞并標(biāo)注為形容詞。
在步驟S102中,通過改進(jìn)雙向傳播算法對(duì)多條評(píng)論文本進(jìn)行特征抽取,以獲取數(shù)據(jù)特征。
其中,在本發(fā)明的一個(gè)實(shí)施例中,通過改進(jìn)雙向傳播算法對(duì)多條評(píng)論文本進(jìn)行特征抽取,進(jìn)一步包括:將初始特征空間置空;利用先驗(yàn)知識(shí)從評(píng)論文本中挑選特征進(jìn)入特征空間;根據(jù)特征之間的關(guān)聯(lián)關(guān)系從評(píng)論文本中挑選新特征進(jìn)入特征空間,直至改進(jìn)雙向傳播算法收斂。
可以理解的是,對(duì)于一般的機(jī)器學(xué)習(xí)問題,原始數(shù)據(jù)中常常包含大量的無關(guān)噪聲和重復(fù)數(shù)據(jù),因此在特征用于學(xué)習(xí)之前,往往需要進(jìn)行從高維特征空間到低維特征空的映射,保留有用信息,從而降低模型訓(xùn)練的復(fù)雜度,本發(fā)明實(shí)施例使用了改進(jìn)的雙向傳播算法來進(jìn)行特征抽取。
其中,雙向傳播算法是一種簡單高效的特征抽取算法,其主要流程如下:
1.初始特征空間為空;
2.利用先驗(yàn)知識(shí)從文本中挑選特征進(jìn)入特征空間;
3.利用特征之間的關(guān)聯(lián)關(guān)系,從文本中挑選新的特征進(jìn)入特征空間;
4.重復(fù)第3步,直到算法收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,通過改進(jìn)雙向傳播算法對(duì)多條評(píng)論文本進(jìn)行特征抽取具體包括:通過加入限制條件的fp-growth算法提取出訓(xùn)練集的高頻詞匯,以利用詞頻和tf-idf信息提取出語料中高頻詞匯和高頻二元關(guān)聯(lián)詞匯;根據(jù)高頻詞匯和高頻二元關(guān)聯(lián)詞匯的詞性標(biāo)注信息進(jìn)行篩選,以保留名詞而形成初始特征詞典;利用改進(jìn)雙向傳播算法生成情感詞典,并擴(kuò)展情感詞典和初始特征詞典,以擴(kuò)展主要使用句法關(guān)聯(lián)關(guān)系,其中,根據(jù)LTP系統(tǒng)采集的句法關(guān)系采集與初始特征詞典有關(guān)聯(lián)的單詞,以使用詞性標(biāo)注進(jìn)行篩選后生成情感詞典,并且利用句法關(guān)系擴(kuò)展特征詞典,并用詞性標(biāo)注信息進(jìn)行篩選,直到特征詞典和情感詞典收斂。
具體地,結(jié)合圖2和圖4所示,特征抽取的主要作用是進(jìn)一步去除無用的以及相關(guān)性不大的信息,減輕預(yù)處理時(shí)數(shù)據(jù)維數(shù)膨脹帶來的影響。
在本發(fā)明的實(shí)施例中,情感分析是基于產(chǎn)品被評(píng)論特征的,也就是說,要將原始數(shù)據(jù)的高維度信息進(jìn)行降維處理,只保留產(chǎn)品的被評(píng)論特征和評(píng)論的情感特征。本發(fā)明實(shí)施例使用了一個(gè)改進(jìn)的雙向傳播算法用于提取這兩個(gè)信息。
算法的開始,使用加入限制條件的fp-growth算法提取出訓(xùn)練集的高頻詞匯,該算法利用詞頻和tf-idf信息,提取出語料中高頻詞匯和高頻二元關(guān)聯(lián)詞匯,隨后使用這些詞的詞性標(biāo)注信息進(jìn)行篩選,只保留名詞而形成初始特征詞典。接下來,本本發(fā)明實(shí)施例將利用雙向傳播算法生成情感詞典并擴(kuò)展其和初始特征詞典。擴(kuò)展主要使用句法關(guān)聯(lián)關(guān)系,利用上述LTP系統(tǒng)采集的句法關(guān)系,采集和初始特征詞典有關(guān)聯(lián)的單詞,使用詞性標(biāo)注進(jìn)行篩選后生成情感詞典。接著再次利用相同的句法關(guān)系擴(kuò)展特征詞典并用詞性標(biāo)注信息進(jìn)行篩選,其中,該步驟會(huì)迭代執(zhí)行,直到特征詞典和情感詞典收斂。
在步驟S103中,通過文本向量空間模型將數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,通過文本向量空間模型將數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量,進(jìn)一步包括:采集每個(gè)抽取出的被評(píng)論對(duì)象特征對(duì)應(yīng)的情感詞的向量;采用四個(gè)相似度系數(shù),將原始文本向量轉(zhuǎn)化為對(duì)其相應(yīng)的中心相似度向量;生成文本的特征相似度向量空間,得到文本向量空間模型,以劃分正向的數(shù)據(jù)集的邊界。
可以理解的是,向量空間模型一直是機(jī)器學(xué)習(xí)中研究的一大重要領(lǐng)域,即將文本轉(zhuǎn)化成一定維度的向量以便于進(jìn)一步處理,傳統(tǒng)的向量空間模型生成方法有布爾模型,n-gram模型,tf-idf模型和Word2Vec模型。
布爾模型是基于集合論和布爾代數(shù)的一種簡單向量空間模型,其權(quán)重設(shè)置基于二元判定標(biāo)準(zhǔn),即每個(gè)單詞在生成維度的時(shí)候根據(jù)判定標(biāo)準(zhǔn)只有0,1兩種值,該模型易受維度災(zāi)難的問題困擾。
N-Gram(有時(shí)也稱為N元模型)是自然語言處理中一個(gè)非常重要的概念。該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。其生成方法如下:
設(shè)一個(gè)句子S可以表示為序列S=w1w2w3……wn則其生成的概率為:
對(duì)應(yīng)到每個(gè)單詞上,其生成概率:
其中,C(w1w2……wi-1wi)代表了w1w2……wi-1wi在訓(xùn)練集中出現(xiàn)的次數(shù)。但是n-gram模型有兩個(gè)缺陷,一是參數(shù)空間過大,無法實(shí)用化;二是數(shù)據(jù)稀疏嚴(yán)重。所以在應(yīng)用中,常常將馬爾科夫假設(shè)加入其中,令一個(gè)詞的出現(xiàn)只依賴于前面有限個(gè)詞。一般情況下為兩個(gè)到三個(gè),這樣的n-gram模型稱之為bi-gram和tri-gram。
Tf-idf是一種改進(jìn)的向量空間模型生成方法。其中tf為詞頻,idf為逆向文檔頻率,向量上每個(gè)維度的值表示該維度的重要程度。其生成公式如下:
對(duì)某一特定文檔j中的單詞ti來說,其重要性tf-idfi可表示為:
tf-idfi=tfi,j*idfi,
其中,ni,j代表單詞ti在文檔j中出現(xiàn)的頻率,∑knk,j代表總詞頻,|D|代表數(shù)據(jù)集總文檔數(shù),|{d:ti∈d}|代表單詞ti出現(xiàn)過的文檔數(shù)。
而Word2Vec模型由Google公司在2013年提出,該模型由3層神經(jīng)網(wǎng)絡(luò)生成文檔的詞向量,該方法簡單、高效。其神經(jīng)網(wǎng)結(jié)構(gòu)如下:
1.輸入層:包含Context(x)中2c個(gè)詞的詞向量;
2.投影層:將輸入層的2c個(gè)向量做求和累加;
3.輸出層:輸出層對(duì)應(yīng)一棵二叉樹,它以語料中出現(xiàn)過的詞當(dāng)作葉子結(jié)點(diǎn),以各詞在語料中出現(xiàn)的次數(shù)當(dāng)作權(quán)值來構(gòu)造Huffman樹。
因此,由于Word2Vec的高效和準(zhǔn)確,本發(fā)明實(shí)施例采用它生成初始文檔向量空間。
具體地,結(jié)合圖2與圖5所示,本發(fā)明實(shí)施例使用Word2Vec對(duì)抽取的特征-情感詞二元組生成初始的文檔向量空間。傳統(tǒng)方法在向量空間生成后直接將該模型用于線性分類器或神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行分類。這樣的做法忽略了正向情感詞匯之間以及負(fù)向情感詞匯之間的高度相似性。因此,本發(fā)明實(shí)施例將傳統(tǒng)的向量空間進(jìn)行轉(zhuǎn)化處理,使其兼顧上下文信息和相似度信息。
首先,對(duì)于每個(gè)抽取出的被評(píng)論對(duì)象特征f,系統(tǒng)將會(huì)采集其所有對(duì)應(yīng)的情感詞的向量。該向量由上文提到的Word2Vec生成。其模型采用了對(duì)常見字友好的Skip-gram模型,單詞向量維度為1000維。初始文本向量空間生成后,本發(fā)明實(shí)施例使用下列公式生成每個(gè)特征的正向中心向量cf:
其中,α和β為經(jīng)驗(yàn)值,分別設(shè)定為16和4,D+和D-分別代表正向和負(fù)向數(shù)據(jù)集,xi表示對(duì)應(yīng)的原始文檔向量。隨后,采用四個(gè)相似度系數(shù),將原始文本向量轉(zhuǎn)化為對(duì)其相應(yīng)的中心相似度向量,具體應(yīng)用時(shí),可以使用了余弦相似度,高爾距離,萊斯相似系數(shù)和杰卡德相似系數(shù)四種方法計(jì)算相似度。其相似度計(jì)算公式如下,其中Pi和Qi為兩個(gè)向量:
最終,可以生成文本的特征相似度向量空間,在該空間下,每一條評(píng)論將會(huì)由幾個(gè)特征以及其相似度向量表示。在球形的高維空間中,該相似度方法能夠很好的將正向的數(shù)據(jù)集的邊界劃分出來,即言,在分類過程中,只要不在正向邊界方向內(nèi)的向量都將被劃分為負(fù)向,極大的提升了分類器的準(zhǔn)確度。
在步驟S104中,根據(jù)預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,以得到情感分類結(jié)果。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,進(jìn)一步包括:對(duì)文本向量空間模型生成的相似度值進(jìn)行平衡處理,其中,通過加權(quán)求和方法得到綜合相似度向量;將綜合相似度向量用于改進(jìn)支持向量機(jī)訓(xùn)練,以通過訓(xùn)練后的改進(jìn)支持向量機(jī)獲取情感分類結(jié)果。
可以理解的是,對(duì)于一般的情感分析,在文本的向量空間模型建立完成之后,往往選用直接選用支持向量機(jī)(SVM)進(jìn)行訓(xùn)練。然而由于傳統(tǒng)向量空間只包含了文本的結(jié)構(gòu)信息,不能包含文本的語義信息,所以分類器的效率往往不高。為了解決這個(gè)問題,本發(fā)明實(shí)施例采用了以產(chǎn)品被評(píng)論特征為基礎(chǔ)的正向中心相似度向量模型空間進(jìn)行改進(jìn),并使用相比于傳統(tǒng)支持向量機(jī)SVM更為簡單高效的改進(jìn)支持向量機(jī)SVMperf。
SVMperf是SVMlight開發(fā)者在其基礎(chǔ)上的基礎(chǔ)上采用更優(yōu)化的內(nèi)核算法得到的新型分類模型。SVMperf相較于SVMlight有三點(diǎn)優(yōu)勢:分類速度更快;分類精度更高;適合大數(shù)據(jù)集。與SVM不同的是,SVMperf只接受一維向量。所以要對(duì)生成的四個(gè)相似度值進(jìn)行平衡處理。本發(fā)明實(shí)施例使用加權(quán)求和的方法將四個(gè)相似度度量值合成一個(gè)新的綜合相似度向量以用于SVMperf的訓(xùn)練。在相似度向量的四個(gè)維度上,可以設(shè)定每個(gè)維度的權(quán)值都為0.25。
需要說明的是,一個(gè)領(lǐng)域?qū)S玫漠a(chǎn)品評(píng)論線性分類器將通過對(duì)訓(xùn)練集的數(shù)據(jù)分析建立起來,該分類器將可以很好的處理該領(lǐng)域的產(chǎn)品評(píng)論的情感極向分類問題。
具體而言,本發(fā)明實(shí)施例的主要目的是通過對(duì)從電商網(wǎng)站爬取的產(chǎn)品評(píng)論的分析,判斷出該類產(chǎn)品的評(píng)論情感極向。本發(fā)明實(shí)施例的主要內(nèi)容為提出了針產(chǎn)品評(píng)論的情感極向問題,設(shè)計(jì)了一系列的特征抽取方法,通過數(shù)據(jù)之間相關(guān)性的分析,提取關(guān)鍵信息,使用支持向量機(jī)的分類模型取得了較高的準(zhǔn)確率,并且通過變量獨(dú)立假設(shè),給出了一種對(duì)輸入系統(tǒng)參數(shù)進(jìn)行合理的修正,從而提高分類準(zhǔn)確率的方法。
如圖2所示,首先對(duì)電商服務(wù)器的原始數(shù)據(jù)進(jìn)行抽取,預(yù)處理,特征降維處理,之后使用改進(jìn)的特征中心向量生成相似度向量空間,最后使用支持向量機(jī)進(jìn)行訓(xùn)練,對(duì)于新到的評(píng)論數(shù)據(jù),使用訓(xùn)練好的模型進(jìn)行測試,并且給出評(píng)論情感極性的預(yù)測結(jié)果,進(jìn)而客觀整體的對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)。
具體地,首先是特征的讀入處理,之后是特征降維處理,接著是模型的訓(xùn)練階段,和系統(tǒng)的使用階段。在模型訓(xùn)練階段,主要需要完成后臺(tái)的數(shù)據(jù)庫原始數(shù)據(jù)分析。首先,將原始數(shù)據(jù)進(jìn)行去重刪冗降維,采集語料的分詞,詞性標(biāo)注以及句法結(jié)構(gòu)信息,將符合規(guī)則的毗鄰詞合并完成數(shù)據(jù)預(yù)處理操作,然后對(duì)特征數(shù)據(jù)進(jìn)行基于特征正向中心向量的文本向量空間的生成,并使用支持向量機(jī)SVMperf進(jìn)行訓(xùn)練。在系統(tǒng)的使用階段,用戶可以提交需要判斷的產(chǎn)品評(píng)論,系統(tǒng)會(huì)自動(dòng)返回線性分類器的測試結(jié)果,報(bào)告當(dāng)前數(shù)據(jù)情感極性情況。
其中,服務(wù)器信息抽取,預(yù)處理技術(shù)、特征抽取技術(shù)、向量空間模型技術(shù)、支持向量機(jī)分類技術(shù)等核心技術(shù)可以結(jié)合圖形用戶界面、數(shù)據(jù)讀入等功能均在Windows下用java、C++等語言開發(fā)實(shí)現(xiàn),并且基于上述開發(fā)平臺(tái),首先在操作系統(tǒng)層,預(yù)測系統(tǒng)需要在Windows XP或其兼容的操作系統(tǒng)平臺(tái)之上運(yùn)行;同時(shí)還需要程序運(yùn)行支撐環(huán)境,也就是java和C++運(yùn)行支撐環(huán)境。只有具備了上述支撐環(huán)境,從而可以正常地運(yùn)行。
根據(jù)本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法,基于產(chǎn)品評(píng)論,通過利用改進(jìn)雙向傳播算法進(jìn)行評(píng)論特征抽取,并將高性能的相似度向量空間模型應(yīng)用于支持向量機(jī),將用戶產(chǎn)品評(píng)論分為正向和負(fù)向,實(shí)現(xiàn)產(chǎn)品評(píng)論情感的分類,可以有效的對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類,并且通過分類器自動(dòng)調(diào)節(jié)有效降低錯(cuò)誤率,提高分類準(zhǔn)確性,且有效提高分類效率,提高用戶的使用體驗(yàn)。
其次參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置。
圖6是本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置的結(jié)構(gòu)示意圖。
如圖6所示,該基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置10包括:獲取模塊100、抽取模塊200、轉(zhuǎn)換模塊300和分類模塊400。
其中,獲取模塊100用于從互聯(lián)網(wǎng)上獲取多條評(píng)論文本。抽取模塊200用于通過改進(jìn)雙向傳播算法對(duì)多條評(píng)論文本進(jìn)行特征抽取,以獲取數(shù)據(jù)特征。轉(zhuǎn)換模塊300用于通過文本向量空間模型將數(shù)據(jù)特征轉(zhuǎn)換為預(yù)設(shè)維度的向量。分類模塊400用于根據(jù)預(yù)設(shè)維度的向量使用改進(jìn)支持向量機(jī)進(jìn)行訓(xùn)練,以得到情感分類結(jié)果。本發(fā)明實(shí)施例的裝置10可以有效的對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類,并且通過分類器自動(dòng)調(diào)節(jié)有效降低錯(cuò)誤率,提高分類準(zhǔn)確性,且有效提高分類效率,提高用戶的使用體驗(yàn)。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,抽取模塊200進(jìn)一步用于將初始特征空間置空,并且利用先驗(yàn)知識(shí)從評(píng)論文本中挑選特征進(jìn)入特征空間,以及根據(jù)特征之間的關(guān)聯(lián)關(guān)系從評(píng)論文本中挑選新特征進(jìn)入特征空間,直至改進(jìn)雙向傳播算法收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,抽取模塊200具體用于通過加入限制條件的fp-growth算法提取出訓(xùn)練集的高頻詞匯,以利用詞頻和tf-idf信息提取出語料中高頻詞匯和高頻二元關(guān)聯(lián)詞匯,根據(jù)高頻詞匯和高頻二元關(guān)聯(lián)詞匯的詞性標(biāo)注信息進(jìn)行篩選,以保留名詞而形成初始特征詞典,且利用改進(jìn)雙向傳播算法生成情感詞典,并擴(kuò)展情感詞典和初始特征詞典,以擴(kuò)展主要使用句法關(guān)聯(lián)關(guān)系,其中,根據(jù)LTP系統(tǒng)采集的句法關(guān)系采集與初始特征詞典有關(guān)聯(lián)的單詞,以使用詞性標(biāo)注進(jìn)行篩選后生成情感詞典,并且利用句法關(guān)系擴(kuò)展特征詞典,并用詞性標(biāo)注信息進(jìn)行篩選,直到特征詞典和情感詞典收斂。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,轉(zhuǎn)換模塊300進(jìn)一步用于采集每個(gè)抽取出的被評(píng)論對(duì)象特征對(duì)應(yīng)的情感詞的向量,采用四個(gè)相似度系數(shù),將原始文本向量轉(zhuǎn)化為對(duì)其相應(yīng)的中心相似度向量,并且生成文本的特征相似度向量空間,得到文本向量空間模型,以劃分正向的數(shù)據(jù)集的邊界。
進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,分類模塊400進(jìn)一步用于對(duì)文本向量空間模型生成的相似度值進(jìn)行平衡處理,其中,通過加權(quán)求和方法得到綜合相似度向量,并且將綜合相似度向量用于改進(jìn)支持向量機(jī)訓(xùn)練,以通過訓(xùn)練后的改進(jìn)支持向量機(jī)獲取情感分類結(jié)果。
需要說明的是,前述對(duì)基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類方法實(shí)施例的解釋說明也適用于該實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置,此處不再贅述。
根據(jù)本發(fā)明實(shí)施例的基于改進(jìn)支持向量機(jī)的產(chǎn)品評(píng)論情感分類裝置,基于產(chǎn)品評(píng)論,通過利用改進(jìn)雙向傳播算法進(jìn)行評(píng)論特征抽取,并將高性能的相似度向量空間模型應(yīng)用于支持向量機(jī),將用戶產(chǎn)品評(píng)論分為正向和負(fù)向,實(shí)現(xiàn)產(chǎn)品評(píng)論情感的分類,可以有效的對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類,并且通過分類器自動(dòng)調(diào)節(jié)有效降低錯(cuò)誤率,提高分類準(zhǔn)確性,且有效提高分類效率,提高用戶的使用體驗(yàn)。
在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”、“順時(shí)針”、“逆時(shí)針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā)明的限制。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。
在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通或兩個(gè)元件的相互作用關(guān)系,除非另有明確的限定。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。