基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法
【專(zhuān)利摘要】本發(fā)明涉及一種基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,包括如下步驟:a)獲取特征信息;b)將語(yǔ)料處理成支持向量機(jī)回歸,即SVR模型所需格式,得到備用語(yǔ)料;c)將備用語(yǔ)料訓(xùn)練后得到產(chǎn)品推薦回歸模型;d)使用訓(xùn)練好的產(chǎn)品推薦回歸模型對(duì)產(chǎn)品測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試,從而得到每個(gè)產(chǎn)品測(cè)試語(yǔ)料的回歸結(jié)果,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料,求取回歸值的平均值作為產(chǎn)品的推薦值。本發(fā)明使用SVR模型,利用上下文文本信息,建立一個(gè)統(tǒng)一的概率回歸模型,有利于提高產(chǎn)品評(píng)論回歸的效率及性能,進(jìn)一步實(shí)現(xiàn)準(zhǔn)確的產(chǎn)品推薦。本發(fā)明的方法在測(cè)試語(yǔ)料中取得了不錯(cuò)的回歸結(jié)果。
【專(zhuān)利說(shuō)明】
基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息抽取領(lǐng)域及模式識(shí)別領(lǐng)域,特別是一種基于支持向量機(jī)回歸 (SVR,suppo;rt vector regression)模型的產(chǎn)品推薦方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展和信息高速公路的興起,網(wǎng)絡(luò)信息數(shù)據(jù)不斷增加,從而使 得大量的信息W電子文本的形式呈現(xiàn)在人們面前。因此,如何從運(yùn)些大量的信息中迅速、準(zhǔn) 確地提取出人們所需求的重要信息就越發(fā)重要。
[0003] 信息抽取是從文本中自動(dòng)獲取信息的一種主要手段。信息抽取是將無(wú)結(jié)構(gòu)的文本 信息,按照人們的需求識(shí)別和抽取出來(lái),轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并采用數(shù)據(jù)庫(kù)的 形式存儲(chǔ),W便人們查詢和進(jìn)一步的分析、利用。目前,對(duì)于多類(lèi)別的情感問(wèn)題,主要還是基 于全監(jiān)督的學(xué)習(xí)方法,運(yùn)種方法把情感類(lèi)別判別看成分類(lèi)問(wèn)題,選擇合適的特征并使用合 適的分類(lèi)器來(lái)完成。但是將多類(lèi)別的情感問(wèn)題當(dāng)作普通的分類(lèi)問(wèn)題忽略了情感類(lèi)別之間的 關(guān)聯(lián)性,所W情感回歸實(shí)驗(yàn)越來(lái)越得到青睞。
【發(fā)明內(nèi)容】
[0004] 針對(duì)現(xiàn)有技術(shù)存在的缺陷,本發(fā)明的目的是提供一種基于支持向量機(jī)回歸模型的 產(chǎn)品推薦方法,能有效提高產(chǎn)品評(píng)論情感回歸性能,最終進(jìn)行產(chǎn)品推薦。
[0005] 為達(dá)到上述目的,本發(fā)明的構(gòu)思是: 本發(fā)明沒(méi)有使用其他一些復(fù)雜的特征,僅僅使用了詞特征。將產(chǎn)品評(píng)論語(yǔ)料處理成SVR 模型所需的語(yǔ)料格式。最后用訓(xùn)練語(yǔ)料訓(xùn)練支持向量機(jī)回歸模型,對(duì)測(cè)試樣本進(jìn)行測(cè)試從 而得到產(chǎn)品評(píng)論回歸結(jié)果,求取平均值作為產(chǎn)品推薦的依據(jù)。
[0006] 根據(jù)上述構(gòu)思,本發(fā)明采用如下技術(shù)方案: 一種基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,包括如下步驟: a) 獲取特征?目息; b) 將語(yǔ)料處理成支持向量機(jī)回歸,即SV財(cái)莫型所需格式,得到備用語(yǔ)料; C)將備用語(yǔ)料訓(xùn)練后得到產(chǎn)品推薦回歸模型; d)使用訓(xùn)練好的產(chǎn)品推薦回歸模型對(duì)產(chǎn)品測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試,從而得到每個(gè)產(chǎn)品 測(cè)試語(yǔ)料的回歸結(jié)果,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料,求取回歸值的平均值作為產(chǎn)品的推薦 值。
[0007] 所述步驟a)中使用的特征只包括詞特征。
[000引所述步驟C)中對(duì)于每一個(gè)產(chǎn)品,都需要單獨(dú)訓(xùn)練一個(gè)基于一定規(guī)模訓(xùn)練語(yǔ)料的回 歸模型,產(chǎn)品與產(chǎn)品之間的沒(méi)有關(guān)聯(lián)。
[0009] 所述步驟d)中,使用每一個(gè)訓(xùn)練好的回歸模型分別對(duì)該產(chǎn)品的測(cè)試語(yǔ)料進(jìn)行回 歸,求取每一個(gè)產(chǎn)品測(cè)試語(yǔ)料的回歸值的平均值作為該產(chǎn)品的推薦值。
[0010] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的優(yōu)點(diǎn): 本發(fā)明使用SVR模型,利用上下文文本信息,建立一個(gè)統(tǒng)一的概率回歸模型,有利于提 高產(chǎn)品評(píng)論回歸的效率及性能,進(jìn)一步實(shí)現(xiàn)準(zhǔn)確的產(chǎn)品推薦。本發(fā)明的方法在測(cè)試語(yǔ)料中 取得了不錯(cuò)的回歸結(jié)果。
【附圖說(shuō)明】
[0011] 圖1是基于SVR模型的產(chǎn)品推薦系統(tǒng)框架結(jié)構(gòu)。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作具體說(shuō)明。
[0013] 如圖1所示,一種基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,包括如下步驟: a)獲取特征信息,運(yùn)里使用的特征只包括詞特征。
[0014] b)將語(yǔ)料處理成支持向量機(jī)回歸,即SVR模型所需格式,得到備用語(yǔ)料; C)將備用語(yǔ)料訓(xùn)練后得到產(chǎn)品推薦回歸模型;對(duì)于每一個(gè)產(chǎn)品,都需要單獨(dú)訓(xùn)練一個(gè) 基于一定規(guī)模訓(xùn)練語(yǔ)料的回歸模型,產(chǎn)品與產(chǎn)品之間的沒(méi)有關(guān)聯(lián)。
[0015] d)使用訓(xùn)練好的產(chǎn)品推薦回歸模型對(duì)產(chǎn)品測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試,從而得到每個(gè) 產(chǎn)品測(cè)試語(yǔ)料的回歸結(jié)果,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料,求取回歸值的平均值作為產(chǎn)品的 推薦值。運(yùn)里使用每一個(gè)訓(xùn)練好的回歸模型分別對(duì)該產(chǎn)品的測(cè)試語(yǔ)料進(jìn)行回歸,求取每一 個(gè)產(chǎn)品測(cè)試語(yǔ)料的回歸值的平均值作為該產(chǎn)品的推薦值。
[0016] 下面通過(guò)實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
[0017] 在本實(shí)施例中所用語(yǔ)料,產(chǎn)品評(píng)論一共分為五個(gè)情感類(lèi)別,分別為:1、2、3、4、5數(shù) 字越大說(shuō)明產(chǎn)品的評(píng)論情感越強(qiáng)烈,由于情感類(lèi)別之間有一定的關(guān)聯(lián)性,所W本實(shí)施例采 用回歸模型進(jìn)行實(shí)現(xiàn),而沒(méi)有采用單純的分類(lèi)模型進(jìn)行實(shí)現(xiàn)。從每一個(gè)產(chǎn)品評(píng)論數(shù)量中選 取80%作為訓(xùn)練語(yǔ)料,其余的20%作為測(cè)試語(yǔ)料,在基于80%訓(xùn)練語(yǔ)料的基礎(chǔ)上訓(xùn)練針對(duì)該產(chǎn) 品的SVR模型,在對(duì)剩下的20%的測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試得到測(cè)試語(yǔ)料中每一條評(píng)論的測(cè)試 回歸情感值,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料中所有的評(píng)論的回歸情感值求取平均值作為該產(chǎn) 品的推薦值,平均值越大說(shuō)明該產(chǎn)品越值得推薦。
[0018] a)語(yǔ)料預(yù)處理:獲取特征信息,所用的特征為產(chǎn)品評(píng)論的詞特征。
[0019] b)可用語(yǔ)料的格式需嚴(yán)格按照SVR模型要求的格式,即每類(lèi)特征占一列,得到備用 語(yǔ)料。
[0020] C)訓(xùn)練支持向量機(jī)回歸模型:支持向量機(jī),SVM主要針對(duì)兩類(lèi)分類(lèi)問(wèn)題,尋找一個(gè) 超平面作為兩類(lèi)訓(xùn)練樣本點(diǎn)的分割,W保證最小的分類(lèi)錯(cuò)誤率。在線性可分的情況下,存在 一個(gè)或多個(gè)超平面使得訓(xùn)練樣本完全分開(kāi),SVM的目標(biāo)是找到其中的最優(yōu)超平面,最優(yōu)超平 面是使得每一類(lèi)數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的運(yùn)樣的平面,超 平面W是h值最大的最優(yōu)超平面;對(duì)于線性不可分的情況,通過(guò)使用核函數(shù)(一種非線性映射 算法)將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分。
[0021] SVM的基本模型設(shè)輸入模式集合{X[i]}e化由兩類(lèi)點(diǎn)組成,如果x[i]屬于第1類(lèi), 貝ijy[i] =1,如果x[i]屬于第2類(lèi),則y[i]=-l,那么有訓(xùn)練樣本集合{x[i],y[i]},i = 1, 2,3,,η,求最優(yōu)分類(lèi)面wx-b=0,滿足:y[i](w?x[i] - b)〉= 1;并使如1= 2/||w||最大, 良Pmin||w||*||w||/2;根據(jù)對(duì)偶理論,可W通過(guò)解該問(wèn)題的對(duì)偶問(wèn)題得到最優(yōu)解,對(duì)偶問(wèn)題為: maxX;a[i] - 1/2 X;a[i]*a[j]*y[i]*y[j]*x[i]*x[j] 0<a[i] <〇Σα[?>γ[?]=〇 其中x[i] · x[j]表示運(yùn)兩個(gè)向量的內(nèi)積,當(dāng)對(duì)于線性不可分的情況,用核內(nèi)積K(x[i], x[j])(通過(guò)核函數(shù)映射到高維空間中對(duì)應(yīng)向量的內(nèi)積)代替x[i] · x[j]。根據(jù)對(duì)偶問(wèn)題的 解,求得W、b,得到最優(yōu)分類(lèi)面。
[0022] 總之,支持向量機(jī)回歸模型的訓(xùn)練,轉(zhuǎn)化為該問(wèn)題的對(duì)偶問(wèn)題的最優(yōu)解的求解,根 據(jù)對(duì)偶問(wèn)題的解,求得w、b,得到最優(yōu)分類(lèi)面wx-b=0,運(yùn)就是所需的支持向量機(jī)回歸模型。對(duì) 于任意的點(diǎn)X*,如果wx*-b〉0,那么巧屬于第1類(lèi),即y[i] =1;如果wx*-b<0,那么X*屬于第2 類(lèi),則y山=-1, d)測(cè)試和推薦:使用訓(xùn)練好的產(chǎn)品推薦回歸模型對(duì)產(chǎn)品測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試,從而 得到每個(gè)產(chǎn)品測(cè)試語(yǔ)料的回歸結(jié)果,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料,求取回歸值的平均值作 為產(chǎn)品的推薦值。運(yùn)里使用每一個(gè)訓(xùn)練好的回歸模型分別對(duì)該產(chǎn)品的測(cè)試語(yǔ)料進(jìn)行回歸, 求取每一個(gè)產(chǎn)品測(cè)試語(yǔ)料的回歸值的平均值作為該產(chǎn)品的推薦值。
[0023] 具體說(shuō),對(duì)于某個(gè)產(chǎn)品j,先為該產(chǎn)品j訓(xùn)練好一個(gè)回歸模型W巧-bfO,然后對(duì)于該 產(chǎn)品j的語(yǔ)料x(chóng)j [。,求取回歸值yj [i],最后求取回歸值的平均值作為產(chǎn)品的推薦值。
[0024] 采用本發(fā)明在測(cè)試語(yǔ)料中的產(chǎn)品評(píng)論回歸平均結(jié)果如表1所示。
[0025] 其中,表1中推薦值范圍為1到5,推薦值越大越是值得推薦。產(chǎn)品2的推薦值2.11為 最大,表明產(chǎn)品2最值得推薦;產(chǎn)品1、產(chǎn)品4的推薦值1.96為最小,表明產(chǎn)品1、4最不值得推 薦。值得推薦的順序?yàn)楫a(chǎn)品2〉產(chǎn)品3〉產(chǎn)品5〉產(chǎn)品1 =產(chǎn)品4。
[0026] 本實(shí)施例使用的語(yǔ)料包括5個(gè)產(chǎn)品的評(píng)論語(yǔ)料,每一個(gè)產(chǎn)品的評(píng)論語(yǔ)料規(guī)模為 2000。實(shí)施例選用的評(píng)價(jià)標(biāo)準(zhǔn)是確定系數(shù)R2,確定的系數(shù)是在統(tǒng)計(jì)模型的背景下,主要目的 是知曉相關(guān)信息的基礎(chǔ)上,預(yù)測(cè)未來(lái)的結(jié)果。R2的值是0和1之間的數(shù)字。接近1表明回歸線 非常擬合數(shù)據(jù)。
【主權(quán)項(xiàng)】
1. 一種基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,其特征在于,包括如下步驟: a) 獲取特征信息; b) 將語(yǔ)料處理成支持向量機(jī)回歸,即SVR模型所需格式,得到備用語(yǔ)料; c) 將備用語(yǔ)料訓(xùn)練后得到產(chǎn)品推薦回歸模型; d) 使用訓(xùn)練好的產(chǎn)品推薦回歸模型對(duì)產(chǎn)品測(cè)試語(yǔ)料進(jìn)行回歸測(cè)試,從而得到每個(gè)產(chǎn)品 測(cè)試語(yǔ)料的回歸結(jié)果,對(duì)于每一個(gè)產(chǎn)品的測(cè)試語(yǔ)料,求取回歸值的平均值作為產(chǎn)品的推薦 值。2. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,其特征在于,所述 步驟a )中使用的特征只包括詞特征。3. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,其特征在于,所述 步驟c)中對(duì)于每一個(gè)產(chǎn)品,都需要單獨(dú)訓(xùn)練一個(gè)基于一定規(guī)模訓(xùn)練語(yǔ)料的回歸模型,產(chǎn)品 與產(chǎn)品之間的沒(méi)有關(guān)聯(lián)。4. 根據(jù)權(quán)利要求1所述的基于支持向量機(jī)回歸模型的產(chǎn)品推薦方法,其特征在于,所述 步驟d)中,使用每一個(gè)訓(xùn)練好的回歸模型分別對(duì)該產(chǎn)品的測(cè)試語(yǔ)料進(jìn)行回歸,求取每一個(gè) 產(chǎn)品測(cè)試語(yǔ)料的回歸值的平均值作為該產(chǎn)品的推薦值。
【文檔編號(hào)】G06K9/62GK105824878SQ201610130567
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2016年3月8日
【發(fā)明人】鎮(zhèn)璐, 林珉, 劉禮兵
【申請(qǐng)人】上海大學(xué)