本發(fā)明屬于機器學習,涉及一種跨領(lǐng)域垃圾評價識別的方法。
技術(shù)背景
隨著電子商務(wù)日益成熟,在線消費逐漸成為人們?nèi)粘I钕M的一種重要選擇。在線消費過程中,消費者對產(chǎn)品的評價是在線購物中的一個重要環(huán)節(jié),消費者通過評價對產(chǎn)品作出一個相應(yīng)的響應(yīng)和反饋?;谠u論的情感分析不僅可以了解消費者在評論中表現(xiàn)出的褒貶態(tài)度,還可以進行客戶滿意度分析、產(chǎn)品的評估和市場預(yù)測等等。然而,基于評論的情感分析的有效性建立在評論數(shù)據(jù)是真實可信的基礎(chǔ)上。為了誤導消費者或進行不公平的競爭,不良商家會采取一些虛假的垃圾評論。這些不真實的評論最終會破壞市場的秩序、損害消費者的利益。垃圾評論的識別旨在識別出對情感分析沒有貢獻的評論,為進一步的情感分析奠定基礎(chǔ),具有很好的應(yīng)用價值和實際意義。雖然垃圾評論可能存在一些共同特征,但針對不同領(lǐng)域評論對象的評論內(nèi)容會隨之變化,評論的有效性可能還和領(lǐng)域相關(guān)的特征相關(guān),將一個領(lǐng)域訓練得到的模型直接應(yīng)用到另一個領(lǐng)域中的效果可能并不是很理想??珙I(lǐng)域的垃圾評論識別方法旨在通過結(jié)合領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征,提高訓練模型的適應(yīng)能力。
技術(shù)實現(xiàn)要素:
基于上述跨領(lǐng)域垃圾評論存在的問題,本發(fā)明提出一種跨領(lǐng)域垃圾評價識別的方法,通過遺傳算法識別出影響源評論是否可信的特征集,并根據(jù)這個特征集定義領(lǐng)域相關(guān)特征和領(lǐng)域無關(guān)特征,再根據(jù)這兩個集合定義跨領(lǐng)域垃圾評論的特征集合;其次,利用領(lǐng)域相關(guān)特征和領(lǐng)域無關(guān)特征之間的共同出現(xiàn)關(guān)系定義映射函數(shù),將目標領(lǐng)域的領(lǐng)域相關(guān)特征映射到源領(lǐng)域,從而基于映射數(shù)據(jù)訓練跨領(lǐng)域的垃圾評論的分類器,提高分類器在目標評論分類中的適應(yīng)能力。
本發(fā)明提供一種跨領(lǐng)域垃圾評價識別的方法,其特征在于包括以下步驟:
步驟1:對評論進行初始特征定義x=(x1,x2,…,xq),其中,特征包括源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的詞集w、積極情感詞匯與總詞匯量的比值、消極詞匯量與總詞匯量的比值、評論的長度、評論者的信用等級、重復或相似評論數(shù)量;詞集w來源于源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的unigrams(單word)和bigrams(雙word);源領(lǐng)域還包括是否為垃圾評論的類別標簽y,根據(jù)特征集對m條源評論進行特征化,得到源領(lǐng)域評論集ds=
步驟2:使用遺傳算法篩選評論的特征定義x的關(guān)鍵特征z=(z1,z2,…,zr)?x;
步驟3:定義ws=z∩w,wi=w-ws,xi=(z-ws)∪wi,其中,ws是領(lǐng)域相關(guān)特征,xi領(lǐng)域無關(guān)特征;使用x'=ws∪xi=(x'1,x'2,…,x'r)?x定義評論的特征;按照特征集x'將源領(lǐng)域評論集和目標領(lǐng)域評論集進行特征化得到d's=
步驟4:定義‖ws‖×‖xi‖的相關(guān)矩陣r,rij是特征ri∈ws與rj∈xi共同出現(xiàn)的評論數(shù);
步驟5:構(gòu)造矩陣
步驟6:定義函數(shù)
步驟7:基于f對目標評論d't=
另外,步驟2中使用遺傳算法篩選評論特征定義x的關(guān)鍵特征z=(z1,z2,…,zr)?x,其特征在于通過如下的步驟完成:
步驟2.1:將源領(lǐng)域評論ds分為訓練集ds1和測試集ds2兩個子集;
步驟2.2:染色體設(shè)計為對應(yīng)x=(x1,x2,…,xq)的q個二進制串,1表示選擇對應(yīng)的特征,0表示不選擇對應(yīng)的特征;
步驟2.3:設(shè)置初始種群,迭代初始值t=0和最高迭代次數(shù)maxt;
步驟2.4:根據(jù)種群中每一個染色體chi=(chi1,chi2,chi3,……,chiq),將ds1和ds2中的對應(yīng)chi取1的特征和類別標簽投影到d's1和d's2中;在d's1訓練分類器并預(yù)測d's2的類別再統(tǒng)計預(yù)測準確度acci;按照
步驟2.5:如果達到最高迭代次數(shù)maxt或者適應(yīng)度f>θ,那么當前適應(yīng)度最大的染色體對應(yīng)的特征集合就是關(guān)鍵特征子集,否則為種群大小為size的每個個體按照概率
附圖說明
圖1為本發(fā)明的算法流程圖。
具體實施方式
結(jié)合附圖1,對依據(jù)本發(fā)明提供的具體實施方式,詳細說明如此下。
如圖1所示,跨領(lǐng)域的垃圾評論識別的第一步定義評論的初始特征集。特征除了包括評論中詞頻大于預(yù)先設(shè)定閥值ε的詞集w之外,還包括可能影響評論是否可信特征,如積極情感詞匯與總詞匯量的比值、消極詞匯量與總詞匯量的比值、評論的長度、評論者的信用等級、重復或相似評論數(shù)量;源領(lǐng)域還包括是否為垃圾評論的類別標簽y,詞集w來源于源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的unigrams(單word)和bigrams(雙word);根據(jù)特征集對m條源評論特征化,得到源領(lǐng)域評論集ds=
第二步,基于遺傳算法篩選源領(lǐng)域評論的關(guān)鍵特征x'=(x'1,x'2,…,x'r)?x=(x1,x2,…,xq);
步驟2.1將源領(lǐng)域評論ds分為訓練集ds1和測試集ds2兩個子集;
步驟2.2按照評論的特征集x=(x1,x2,…,xq)進行編碼,得到chi=(chi1,chi2,chi3,……,chiq),1表示選擇對應(yīng)的特征,0表示不選擇該特征;例如x=(x1,x2,…,x5,x6),則選擇特征x2、x3,x5可以表示為(0,1,1,0,1,0);
步驟2.3:隨機生成初始種群,例如{ch1=(1,1,1,0,0,0),ch2=(0,0,0,1,1,1),ch3=(1,0,0,0,1,0)};迭代初始值t=0和最高迭代次數(shù)maxt;
步驟2.4:根據(jù)種群中每一個染色體chi=(chi1,chi2,chi3,……,chiq),將ds1和ds2中對應(yīng)chi取1的特征和類別標簽投影到d's1和d's2中。在d's1訓練分類器并預(yù)測d's2的類別再統(tǒng)計預(yù)測準確度acci;按照
分類器可以采用回歸函數(shù)
步驟2.5:如果達到最高迭代次數(shù)maxt或者適應(yīng)度f>θ,那么當前適應(yīng)度最大的染色體對應(yīng)的特征集合就是關(guān)鍵特征子集,否則為種群大小為size的每個個體按照概率
假設(shè)
步驟3:定義ws=z∩w,wi=w-ws,xi=(z-ws)∪wi,其中,ws是領(lǐng)域相關(guān)特征,xi領(lǐng)域無關(guān)特征;使用x'=ws∪xi=(x'1,x'2,…,x'r)?x定義評論的特征;按照x'分別將源領(lǐng)域評論集和目標領(lǐng)域評論集進行特征化得到d's=
如果x=(x1,x2,…,x5,x6)且詞頻大于預(yù)先設(shè)定閥值ε的詞集w={x4,x5,x6},關(guān)鍵特征集為x'={x1,x4,x5},那么領(lǐng)域相關(guān)特征ws={x4,x5},領(lǐng)域無關(guān)特征xi={x1,x6},x'={x4,x5,x1,x6};
步驟4:定義‖ws‖×‖xi‖的相關(guān)矩陣r,rij是特征ri∈ws與rj∈xi共同出現(xiàn)的評論數(shù);
步驟5:構(gòu)造矩陣
步驟6:定義函數(shù)
其中,調(diào)節(jié)系數(shù)β的取值范圍0≤β≤1,可以根據(jù)數(shù)據(jù)調(diào)整大小,分類器可以選擇回歸函數(shù);
步驟7:基于f對目標評論d't=