欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種跨領(lǐng)域垃圾評價識別的方法與流程

文檔序號:11707693閱讀:238來源:國知局

本發(fā)明屬于機器學習,涉及一種跨領(lǐng)域垃圾評價識別的方法。

技術(shù)背景

隨著電子商務(wù)日益成熟,在線消費逐漸成為人們?nèi)粘I钕M的一種重要選擇。在線消費過程中,消費者對產(chǎn)品的評價是在線購物中的一個重要環(huán)節(jié),消費者通過評價對產(chǎn)品作出一個相應(yīng)的響應(yīng)和反饋?;谠u論的情感分析不僅可以了解消費者在評論中表現(xiàn)出的褒貶態(tài)度,還可以進行客戶滿意度分析、產(chǎn)品的評估和市場預(yù)測等等。然而,基于評論的情感分析的有效性建立在評論數(shù)據(jù)是真實可信的基礎(chǔ)上。為了誤導消費者或進行不公平的競爭,不良商家會采取一些虛假的垃圾評論。這些不真實的評論最終會破壞市場的秩序、損害消費者的利益。垃圾評論的識別旨在識別出對情感分析沒有貢獻的評論,為進一步的情感分析奠定基礎(chǔ),具有很好的應(yīng)用價值和實際意義。雖然垃圾評論可能存在一些共同特征,但針對不同領(lǐng)域評論對象的評論內(nèi)容會隨之變化,評論的有效性可能還和領(lǐng)域相關(guān)的特征相關(guān),將一個領(lǐng)域訓練得到的模型直接應(yīng)用到另一個領(lǐng)域中的效果可能并不是很理想??珙I(lǐng)域的垃圾評論識別方法旨在通過結(jié)合領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征,提高訓練模型的適應(yīng)能力。



技術(shù)實現(xiàn)要素:

基于上述跨領(lǐng)域垃圾評論存在的問題,本發(fā)明提出一種跨領(lǐng)域垃圾評價識別的方法,通過遺傳算法識別出影響源評論是否可信的特征集,并根據(jù)這個特征集定義領(lǐng)域相關(guān)特征和領(lǐng)域無關(guān)特征,再根據(jù)這兩個集合定義跨領(lǐng)域垃圾評論的特征集合;其次,利用領(lǐng)域相關(guān)特征和領(lǐng)域無關(guān)特征之間的共同出現(xiàn)關(guān)系定義映射函數(shù),將目標領(lǐng)域的領(lǐng)域相關(guān)特征映射到源領(lǐng)域,從而基于映射數(shù)據(jù)訓練跨領(lǐng)域的垃圾評論的分類器,提高分類器在目標評論分類中的適應(yīng)能力。

本發(fā)明提供一種跨領(lǐng)域垃圾評價識別的方法,其特征在于包括以下步驟:

步驟1:對評論進行初始特征定義x=(x1,x2,…,xq),其中,特征包括源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的詞集w、積極情感詞匯與總詞匯量的比值、消極詞匯量與總詞匯量的比值、評論的長度、評論者的信用等級、重復或相似評論數(shù)量;詞集w來源于源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的unigrams(單word)和bigrams(雙word);源領(lǐng)域還包括是否為垃圾評論的類別標簽y,根據(jù)特征集對m條源評論進行特征化,得到源領(lǐng)域評論集ds=;

步驟2:使用遺傳算法篩選評論的特征定義x的關(guān)鍵特征z=(z1,z2,…,zr)?x

步驟3:定義ws=zw,wi=w-wsxi=(z-ws)∪wi,其中,ws是領(lǐng)域相關(guān)特征,xi領(lǐng)域無關(guān)特征;使用x'=wsxi=(x'1,x'2,…,x'r)?x定義評論的特征;按照特征集x'將源領(lǐng)域評論集和目標領(lǐng)域評論集進行特征化得到d's=d't=

步驟4:定義‖ws‖×‖xi‖的相關(guān)矩陣r,rij是特征riwsrjxi共同出現(xiàn)的評論數(shù);

步驟5:構(gòu)造矩陣;l=b-a;計算l的最小α個非零特征值對應(yīng)的特征向量v1,v2,…,vα,并組成矩陣f=[v1,v2,…,vα];u=f[1:‖ws‖,:],即f中第1到‖ws‖行定義為u;定義映射函數(shù)φ(t)=tu將領(lǐng)域相關(guān)特征t映射為tu;

步驟6:定義函數(shù)識別出評論x中的領(lǐng)域相關(guān)特征,將領(lǐng)域相關(guān)特征t映射為tu合并到評論定義中,即d's=;基于d's訓練分類器f;

步驟7:基于f對目標評論d't=的每一條評論預(yù)測是否為垃圾評論。

另外,步驟2中使用遺傳算法篩選評論特征定義x的關(guān)鍵特征z=(z1,z2,…,zr)?x,其特征在于通過如下的步驟完成:

步驟2.1:將源領(lǐng)域評論ds分為訓練集ds1和測試集ds2兩個子集;

步驟2.2:染色體設(shè)計為對應(yīng)x=(x1,x2,…,xq)的q個二進制串,1表示選擇對應(yīng)的特征,0表示不選擇對應(yīng)的特征;

步驟2.3:設(shè)置初始種群,迭代初始值t=0和最高迭代次數(shù)maxt;

步驟2.4:根據(jù)種群中每一個染色體chi=(chi1,chi2,chi3,……,chiq),將ds1和ds2中的對應(yīng)chi取1的特征和類別標簽投影到d's1和d's2中;在d's1訓練分類器并預(yù)測d's2的類別再統(tǒng)計預(yù)測準確度acci;按照計算適應(yīng)度函數(shù);

步驟2.5:如果達到最高迭代次數(shù)maxt或者適應(yīng)度f>θ,那么當前適應(yīng)度最大的染色體對應(yīng)的特征集合就是關(guān)鍵特征子集,否則為種群大小為size的每個個體按照概率設(shè)置進入下一代繁殖的概率;采用單點交叉和單點變異的繁殖方式得到下一代種群,并跳轉(zhuǎn)到步驟2.4。

附圖說明

圖1為本發(fā)明的算法流程圖。

具體實施方式

結(jié)合附圖1,對依據(jù)本發(fā)明提供的具體實施方式,詳細說明如此下。

如圖1所示,跨領(lǐng)域的垃圾評論識別的第一步定義評論的初始特征集。特征除了包括評論中詞頻大于預(yù)先設(shè)定閥值ε的詞集w之外,還包括可能影響評論是否可信特征,如積極情感詞匯與總詞匯量的比值、消極詞匯量與總詞匯量的比值、評論的長度、評論者的信用等級、重復或相似評論數(shù)量;源領(lǐng)域還包括是否為垃圾評論的類別標簽y,詞集w來源于源域和目標域評論中詞頻大于預(yù)先設(shè)定閥值ε的unigrams(單word)和bigrams(雙word);根據(jù)特征集對m條源評論特征化,得到源領(lǐng)域評論集ds=

第二步,基于遺傳算法篩選源領(lǐng)域評論的關(guān)鍵特征x'=(x'1,x'2,…,x'r)?x=(x1,x2,…,xq);

步驟2.1將源領(lǐng)域評論ds分為訓練集ds1和測試集ds2兩個子集;

步驟2.2按照評論的特征集x=(x1,x2,…,xq)進行編碼,得到chi=(chi1,chi2,chi3,……,chiq),1表示選擇對應(yīng)的特征,0表示不選擇該特征;例如x=(x1,x2,…,x5,x6),則選擇特征x2、x3,x5可以表示為(0,1,1,0,1,0);

步驟2.3:隨機生成初始種群,例如{ch1=(1,1,1,0,0,0),ch2=(0,0,0,1,1,1),ch3=(1,0,0,0,1,0)};迭代初始值t=0和最高迭代次數(shù)maxt;

步驟2.4:根據(jù)種群中每一個染色體chi=(chi1,chi2,chi3,……,chiq),將ds1和ds2中對應(yīng)chi取1的特征和類別標簽投影到d's1和d's2中。在d's1訓練分類器并預(yù)測d's2的類別再統(tǒng)計預(yù)測準確度acci;按照計算適應(yīng)度函數(shù);

分類器可以采用回歸函數(shù),訓練得到θt,對每一個xs2jd's2中的評論進行預(yù)測類別,并將該類別和xs2jd's2中的類別比較,統(tǒng)計所有d's2的預(yù)測準確度acci;按照計算適應(yīng)度函數(shù);

步驟2.5:如果達到最高迭代次數(shù)maxt或者適應(yīng)度f>θ,那么當前適應(yīng)度最大的染色體對應(yīng)的特征集合就是關(guān)鍵特征子集,否則為種群大小為size的每個個體按照概率設(shè)置進入下一代繁殖的概率;采用單點交叉和單點變異的繁殖方式得到下一代種群,并跳轉(zhuǎn)到步驟2.4;

假設(shè)0.623;f(ch2)=0.913;f(ch3)=0.935,則ch1計算選擇的概率=0.25;按照同樣的方法再求得p(ch2)=0.37;p(ch3)=0.38。如果淘汰ch1,并通過ch2和ch3的交叉和變異得到下一代種群;為該種群重復剛才的計算直到f>θ=0.98或者到達設(shè)置的迭代次數(shù)maxt結(jié)束迭代;假設(shè)當前適應(yīng)度最大的染色體為(1,0,0,1,1,0),則表示關(guān)鍵特征為{x1,x4,x5};

步驟3:定義ws=zwwi=w-ws,xi=(z-ws)∪wi,其中,ws是領(lǐng)域相關(guān)特征,xi領(lǐng)域無關(guān)特征;使用x'=wsxi=(x'1,x'2,…,x'r)?x定義評論的特征;按照x'分別將源領(lǐng)域評論集和目標領(lǐng)域評論集進行特征化得到d's=d't=;

如果x=(x1,x2,…,x5,x6)且詞頻大于預(yù)先設(shè)定閥值ε的詞集w={x4,x5,x6},關(guān)鍵特征集為x'={x1,x4,x5},那么領(lǐng)域相關(guān)特征ws={x4,x5},領(lǐng)域無關(guān)特征xi={x1,x6},x'={x4,x5,x1,x6};

步驟4:定義‖ws‖×‖xi‖的相關(guān)矩陣r,rij是特征riwsrjxi共同出現(xiàn)的評論數(shù);

步驟5:構(gòu)造矩陣;;l=b-a;計算l的最小α個非零特征值對應(yīng)的特征向量v1,v2,…,vα,并組成矩陣f=[v1,v2,…,vα];u=f[1:‖ws‖,:],即f中第1到‖ws‖行定義為u;定義映射函數(shù)φ(t)=tu將領(lǐng)域相關(guān)特征t映射為tu;

步驟6:定義函數(shù)識別出評論x中的領(lǐng)域相關(guān)特征,將領(lǐng)域相關(guān)特征t映射為tu合并到評論定義中,即d's=;基于d's訓練分類器f;

其中,調(diào)節(jié)系數(shù)β的取值范圍0≤β≤1,可以根據(jù)數(shù)據(jù)調(diào)整大小,分類器可以選擇回歸函數(shù);

步驟7:基于f對目標評論d't=的每一條評論預(yù)測是否為垃圾評論。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
依安县| 博乐市| 深圳市| 南澳县| 彩票| 石首市| 漾濞| 正定县| 建宁县| 江源县| 阿克陶县| 临沂市| 乌兰浩特市| 边坝县| 萨迦县| 台州市| 化隆| 德江县| 哈尔滨市| 佳木斯市| 阳信县| 灵山县| 策勒县| 商河县| 全州县| 高邮市| 克什克腾旗| 金坛市| 互助| 三明市| 阿克苏市| 会泽县| 滁州市| 墨脱县| 阿合奇县| 象山县| 满城县| 清涧县| 义乌市| 大荔县| 洞头县|