一種優(yōu)化近鄰選擇的協(xié)同過濾推薦方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種優(yōu)化近鄰選擇的協(xié)同過濾推薦方法及裝置,方法包括:確定用戶相似度影響因子為包括不同用戶各自評分比例及兩個不同用戶的共同評分比例,然后利用該用戶相似度影響因子對現(xiàn)有的用戶相似度值進行修正,利用修正后的用戶相似度值及目標用戶對項目的偏好程度計算公式來確定是否將項目推薦給目標用戶。由于本發(fā)明考慮了用戶共同評分項目和用戶所有評分項目數(shù)目變化對用戶相似度值的影響,因此相比于現(xiàn)有技術(shù),本發(fā)明計算得出的最終結(jié)果更加準確。
【專利說明】一種優(yōu)化近鄰選擇的協(xié)同過濾推薦方法及裝置
【技術(shù)領(lǐng)域】 _
[0001] 本申請涉及協(xié)同過濾推薦【技術(shù)領(lǐng)域】,更具體地說,涉及一種優(yōu)化近鄰選擇的協(xié)同 過濾推薦方法及裝置。
【背景技術(shù)】
[0002] 協(xié)同過濾(Collaborative Filtering)算法是推薦系統(tǒng)中應(yīng)用最早的并且也是最 成功的技術(shù)之一,它根據(jù)其他近鄰用戶的喜好向目標用戶推薦項目。協(xié)同過濾主要分為三 個步驟:用戶的偏好描述、尋找最近鄰用戶、產(chǎn)生推薦。用戶的偏好是由一個用戶-項目相 關(guān)聯(lián)的mXn階評分矩陣R來描述的,傳統(tǒng)的協(xié)同過濾算法都是采用相似性度量方法在評分 矩陣R上計算用戶間的相似性,選擇與目標用戶最相似的top-k個用戶組成最近鄰集合,利 用這些最近鄰集合來預(yù)測目標用戶的未評分項目的評分。
[0003] 常用的相似性度量方法有余弦相似性和皮爾森相關(guān)相似性。這兩種相似度計算方 法都是基于用戶-項目關(guān)聯(lián)矩陣R(nXm)的。%與^分別表示用戶扎與隊已評分項目 集合,在獲取1與隊已評分項目交集^ 的情況下才能計算相關(guān)相似性,而且只有在交 集比較大時,計算出相似性可信度才比較高,相反在交集較小時計算出的相似度可信度較 小。在評分矩陣很稀疏的情況下,只考慮用戶間共同評分的項目,容易導(dǎo)致用戶基于很少的 共同評分而計算出較高的相似度,進而導(dǎo)致近鄰計算的不準確。Herlocker等提出了一種基 于皮爾森相關(guān)相似性的改進方案,在計算用戶比和U b相似性時增加用戶共同評分數(shù)量的關(guān) 聯(lián)權(quán)重因子,如下式:
[0004]
【權(quán)利要求】
1. 一種優(yōu)化近鄰選擇的協(xié)同過濾推薦方法,其特征在于,包括: 構(gòu)建用戶和項目的關(guān)聯(lián)矩陣; 確定用戶相似度影響因子ε,所述用戶相似度影響因子包括不同用戶各自評分比例及 兩個不同用戶的共同評分比例; 確定修正用戶相似度值為: sim'(Ua,Ub) = ε Xsim(Ua,Ub) 其中,sim(Ua,Ub)由皮爾森相關(guān)相似度方法所確定; 確定目標用戶Ua對項目L的偏好程度Ra i :
其中,I表示用戶Ua對所有評價項目的打分平均值,^表示用戶Ub對所有評價項目的 打分平均值; 根據(jù)所述偏好程度Raii來確定是否將項目Ii推薦給用戶Ua。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶相似度影響因子ε為:
其中,A _與k分別表示用戶Ua與Ub已評分項目集合。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在確定修正用戶相似度值之后,還包括: 確定目標用戶Ua選擇用戶U b作為最近鄰的偏好計算公式為:
其中,X為目標用戶Ua和用戶Ub共同評分的項目,Χ€(/^η/%),Ra, x表示用戶Ua對項 目Ix的評分值,Rb,x表示用戶Ub對項目I x的評分值, Setnegmive = {Rai e Ra \ Rai < RJ SetPosi,nv = {Rai e Ra I Rai >= Ra) Rai表示用戶Ua對項目Ii的評分,Ra表示用戶Ua對所有項目的評分集合,瓦表示用戶 Ua所有評分項目的評分均值; 對所述修正用戶相似度進行二次修正,確定二次修正用戶相似度為: sim"(Ua,Ub) = β X ε Xsim(Ua,Ub) 則所述確定目標用戶Ua對項目I,的偏好程度Raii具體為:
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在確定修正用戶相似度值時,sim(Ua,Ub) 由皮爾森相關(guān)相似度方法所確定:
其中,Ra;k表示用戶Ua對項目Ik的評分值,Rb;k表示用戶U b對項目Ik的評分值,瓦和 &分別表示用戶Ua和Ub各自所有評分項目的評分均值。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述偏好程度&,來確定是否將 項目Ii推薦給用戶Ua包括: 判斷偏好程度& i是否大于預(yù)設(shè)參考值,若是則確定將項目Ii推薦給用戶Ua。
6. -種優(yōu)化近鄰選擇的協(xié)同過濾推薦裝置,其特征在于,包括: 矩陣構(gòu)建單元,用于構(gòu)建用戶和項目的關(guān)聯(lián)矩陣; 影響因子確定單元,用于確定用戶相似度影響因子ε,所述用戶相似度影響因子包括 不同用戶各自評分比例及兩個不同用戶的共同評分比例; 相似度確定單元,用于確定修正用戶相似度值為: sim'(Ua,Ub) = ε Xsim(Ua,Ub) 其中,sim(Ua,Ub)由皮爾森相關(guān)相似度方法所確定; 偏好程度確定單元,用于確定目標用戶Ua對項目^的偏好程度Ra;i :
其中,f表示用戶Ua對所有評價項目的打分平均值,瓦表示用戶Ub對所有評價項目 的打分平均值; 推薦確定單元,用于根據(jù)所述偏好程度Raii來確定是否將項目Ii推薦給用戶Ua。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述影響因子確定單元包括: 第一影響因子確定單元,用于確定所述用戶相似度影響因子ε為:
其中,與心6分別表示用戶ua與ub已評分項目集合。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括二次修正單元,所述二次修正單元 包括: 近鄰用戶偏好確定單元,用于確定目標用戶比選擇用戶Ub作為最近鄰的偏好計算公式 為:
其中,X為目標用戶ua和用戶Ub共同評分的項目,(Λλ η/?Λ),Ra x表示用戶Ua對項 目Ix的評分值,Rb,x表示用戶Ub對項目I x的評分值,
Rai表示用戶Ua對項目L的評分,Ra表示用戶Ua對所有項目的評分集合,瓦表示用戶 Ua所有評分項目的評分均值; 相似度二次修正單元,用于對所述修正用戶相似度進行二次修正,確定二次修正用戶 相似度為: sim"(Ua,Ub) = β X ε Xsim(Ua,Ub) 則所述偏好程度確定單元所確定的偏好程度Ra,i具體為:
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述相似度確定單元確定的修正用戶相 似度中的sim(Ua,U b)由皮爾森相關(guān)相似度方法所確定:
其中,Ra,k表示用戶Ua對項目Ik的評分值,R b,k表示用戶Ub對項目Ik的評分值,疋和 疋分別表示用戶Ua和Ub各自所有評分項目的評分均值。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述推薦確定單元包括: 第一推薦確定子單元,用于判斷偏好程度& i是否大于預(yù)設(shè)參考值,若是則確定將項目 Ii推薦給用戶Ua。
【文檔編號】G06F17/30GK104298772SQ201410596954
【公開日】2015年1月21日 申請日期:2014年10月29日 優(yōu)先權(quán)日:2014年10月29日
【發(fā)明者】吳健, 蘇棟梁, 張宇 申請人:吳健