基于高斯分布和距離相似度的混合聚類的推薦方法

文檔序號：8319308閱讀：1233來源：國知局

基于高斯分布和距離相似度的混合聚類的推薦方法
【技術(shù)領域】
[0001] 本發(fā)明涉及計算機數(shù)據(jù)挖掘領域，尤其涉及一種基于高斯分布和距離相似度的混合聚類的推薦方法。
【背景技術(shù)】
[0002] 基于協(xié)同過濾的推薦方法利用用戶的興趣偏好相似性來產(chǎn)生推薦，它是將相似用戶喜歡的物品推薦給目標用戶。其策略是具有相同或相似價值觀、知識水平或興趣偏好的用戶，對信息的需求也是相似的。協(xié)同過濾推薦方法的一個顯著優(yōu)勢是對推薦的對象沒有特殊要求，能夠推薦藝術(shù)品、音樂、電影等難以進行內(nèi)容分析的物品。如圖1所示。
[0003] 基于協(xié)同過濾的推薦方法關(guān)鍵在于用戶的相似度計算，常用的相似度計算方法主要集中于Jaccard系數(shù)、向量夾角、余弦皮爾遜相關(guān)系數(shù)（Pearson Correlation Coefficient)等。但這些方法存在著共同的缺點：
[0004] ①計算用戶興趣相似度的方式單一；
[0005] ②算法的時間復雜度與用戶的數(shù)成平方數(shù)增長（即0(|U|*|U|))，當用戶數(shù)很大時非常耗時；
[0006] ③這些相似度計算方法無法挖掘用戶行為數(shù)據(jù)潛在的隱藏約束關(guān)系，而在很多情況下，這些潛在的隱藏約束關(guān)系（must-link和cannot-link的成對約束）是實實在在存在的；
[0007] ④不易利用用戶標簽信息。在一個實際的推薦系統(tǒng)中，普遍存在著用戶給物品打的標簽，這些用戶標簽信息或者是用戶對物品特征的標簽，或者是用戶對物品喜歡程度的標簽，它一方面描述了用戶的興趣，另一方面也表達了物品的語義，其對實現(xiàn)個性化推薦具有重要的作用。
[0008] 所以亟需本領域技術(shù)人員解決上述技術(shù)問題。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題，特別創(chuàng)新地提出了一種基于高斯分布和距離相似度的混合聚類的推薦方法。
[0010] 為了實現(xiàn)本發(fā)明的上述目的，本發(fā)明提供了一種基于高斯分布和距離相似度的混合聚類的推薦方法，其關(guān)鍵在于，包括如下步驟：
[0011] S1，獲取用戶行為數(shù)據(jù)集，將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù)，對有標簽數(shù)據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習；
[0012] S2,根據(jù)所述距離度量權(quán)重矩陣，與高斯混合模型混合計算得到目標函數(shù)，對所述目標函數(shù)進行優(yōu)化求解；
[0013] S3,根據(jù)得到目標函數(shù)優(yōu)化求解后，通過聚類算法得到聚類行為數(shù)據(jù)，將聚類行為數(shù)據(jù)推薦給用戶。
[0014] 所述的基于高斯分布和距離相似度的混合聚類的推薦方法，優(yōu)選的，所述Sl包括：
[0015] S1-1，假設i和歹是行為數(shù)據(jù)集中兩個實例的特征向量，則馬氏距離為：
【主權(quán)項】
1. 一種基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，包括如下步驟： S1，獲取用戶行為數(shù)據(jù)集，將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù)，對有標簽數(shù) 據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習； 52, 根據(jù)所述距離度量權(quán)重矩陣，與高斯混合模型混合計算得到目標函數(shù)，對所述目標函數(shù)進行優(yōu)化求解； 53, 根據(jù)得到目標函數(shù)優(yōu)化求解后，通過聚類算法得到聚類行為數(shù)據(jù)，將聚類行為數(shù)據(jù) 推薦給用戶。
2. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述Sl包括： S1-1，假設i和J5是行為數(shù)據(jù)集中兩個實例的特征向量，則馬氏距離為： = 乃S 1P-J') 5其中S是這兩個特征向量的協(xié)方差矩陣，L表示有標簽數(shù)據(jù)， U表示無標簽數(shù)據(jù)，Wij表示實例X i和實例X j間邊的權(quán)重。
3. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述S2構(gòu)建權(quán)重矩陣的規(guī)則包括： il iil I ^UabeIixi) - Iabdixi) A，如果XiG L和x .e L，％ = j ,i、j為用戶行為數(shù)據(jù) …其它集中的任意兩個行為數(shù)據(jù)；label (Xi)和Iabel(Xj)為任意兩個有標簽數(shù)據(jù)的標簽， B，如果Xie L或者XU，
C，如果Xie U或XUWij與B相同， D，如果 XiG U 和 U，當k e {1…k}, k為數(shù)據(jù)點，m為正整數(shù)，yk為數(shù)據(jù)點的均值，執(zhí)行 Ciisixi^uk) < ifo·；：； and dis{x：^ik) < dis[；：^ , 當 Wij= I,或者 Wij= 0。
4. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述S2目標函數(shù)構(gòu)建包括：假設表示Pi (c)和I(C)兩個高斯分布，這兩個分布之間的散度如下：以印')||廠,⑷)=Σ印')丨噸^ c為兩個數(shù)據(jù)分布； I I P(r) P (Cr) 通過 A, = 作.）Il Gd) + IW⑷)）=0Σ 作.)丨Og^+Σ 1〇g^y) 變換來度量兩個分布Pi (C)和I(C)間的相似性；定義 Pi(C) = P(Clxi)，通過
丨來度量條件概率 P (C |x)的平滑性；得到的平滑部分和高斯混合模型的似然估計進行線性組合，得到新的高斯混合模型的目標函數(shù)如下，
其中，λ是兩部分線性組合的權(quán)重系數(shù)，從公式中的高斯混合模型和馬氏距離相似性矩陣來度量。
5. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述S3包括： S3-1，計算期望，利用對隱藏變量的現(xiàn)有估計值，計算其最大似然估計值； S3-2,期望最大化，根據(jù)計算期望求得的最大似然值來重新計算各參數(shù)的值，期望最大化求得的參數(shù)估計值被用于下一個計算期望計算中，這個過程不斷交替進行。
6. 根據(jù)權(quán)利要求5所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述S3中計算期望包括：計算隱藏變量P(Ci= j Ixi)的后驗概率,其表達式中包括了三個參數(shù)為,類比比率Φ, 類別為j的特征均值μ，和類別為j的特征均方差矩陣?，利用貝葉斯公式計算其后驗概率得：
在公式中，PUiIci= j ; μ，Σ)的值是利用高斯密度函數(shù)計算得來，而p (c i= j ;φ) 表示數(shù)據(jù)實例中類別Ci= j所占比率,記為Φ j。
7. 根據(jù)權(quán)利要求5所述的基于高斯分布和距離相似度的混合聚類的推薦方法，其特征在于，所述S3中期望最大化包括：求解函數(shù)表達式的最大似然估計，求解出最大似然估計函數(shù)中各參數(shù)的值；將目標函數(shù)1_分解為兩個部分1 :和1 2; 假定Imw= 1「12,則有：
O m
其中，I1與標準高斯混合模型對數(shù)似然估計的表示式完全相同；I2是利用距離度量學習得到的規(guī)則，其中包括Pi(C), Pi(C)~Ν(μρ Σ)，在期望最大化中重新估計得到的％值與標準高斯混合模型中的參數(shù)值是完全相同的，
重新估計均值μ k和協(xié)方差? k參數(shù)：
1 m ?
獲得目標函數(shù)的局部最大值，將看作拉格朗日函數(shù)，參數(shù)λ是拉格朗日乘子，通過拉格朗日函數(shù)對各個變量進行求導，得到^和^并令其等于零，求得候選值集合，其中，大寫N代表新的函數(shù)名、上標T代表矩陣的轉(zhuǎn)秩、大寫O代表新的函數(shù)名；
獲得對目標函數(shù)中參數(shù)〇k，μ JP Σ ,的估計值，將其作為聚類參數(shù)的初始值，通過期望最大化聚類算法進行聚類行為數(shù)據(jù)分析，將聚類行為數(shù)據(jù)推薦給用戶。
【專利摘要】本發(fā)明公開了一種基于高斯分布和距離相似度的混合聚類的推薦方法，包括如下步驟：S1，獲取用戶行為數(shù)據(jù)集，將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù)，對有標簽數(shù)據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習；S2，根據(jù)所述距離度量權(quán)重矩陣，與高斯混合模型混合計算得到目標函數(shù)，對所述目標函數(shù)進行優(yōu)化求解；S3，根據(jù)得到目標函數(shù)優(yōu)化求解后，通過聚類算法得到聚類行為數(shù)據(jù)，將聚類行為數(shù)據(jù)推薦給用戶。
【IPC分類】G06F17-30
【公開號】CN104636496
【申請?zhí)枴緾N201510097905
【發(fā)明人】張宜浩, 文俊浩
【申請人】重慶理工大學
【公開日】2015年5月20日
【申請日】2015年3月4日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張宜浩;文俊浩;
技術(shù)所有人：重慶理工大學;
我是此專利的發(fā)明人

上一篇：一種視頻數(shù)據(jù)智能檢索方法
上一篇：一種基于內(nèi)容的視頻檢索方法

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

高斯混合聚類相關(guān)技術(shù)

高斯混合模型聚類算法相關(guān)技術(shù)

高斯混合聚類算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于高斯分布和距離相似度的混合聚類的推薦方法