基于高斯分布和距離相似度的混合聚類的推薦方法
【技術(shù)領域】
[0001] 本發(fā)明涉及計算機數(shù)據(jù)挖掘領域,尤其涉及一種基于高斯分布和距離相似度的混 合聚類的推薦方法。
【背景技術(shù)】
[0002] 基于協(xié)同過濾的推薦方法利用用戶的興趣偏好相似性來產(chǎn)生推薦,它是將相似用 戶喜歡的物品推薦給目標用戶。其策略是具有相同或相似價值觀、知識水平或興趣偏好的 用戶,對信息的需求也是相似的。協(xié)同過濾推薦方法的一個顯著優(yōu)勢是對推薦的對象沒有 特殊要求,能夠推薦藝術(shù)品、音樂、電影等難以進行內(nèi)容分析的物品。如圖1所示。
[0003] 基于協(xié)同過濾的推薦方法關(guān)鍵在于用戶的相似度計算,常用的相似度計算方 法主要集中于Jaccard系數(shù)、向量夾角、余弦皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)等。但這些方法存在著共同的缺點:
[0004] ①計算用戶興趣相似度的方式單一;
[0005] ②算法的時間復雜度與用戶的數(shù)成平方數(shù)增長(即0(|U|*|U|)),當用戶數(shù)很大 時非常耗時;
[0006] ③這些相似度計算方法無法挖掘用戶行為數(shù)據(jù)潛在的隱藏約束關(guān)系,而在很多情 況下,這些潛在的隱藏約束關(guān)系(must-link和cannot-link的成對約束)是實實在在存在 的;
[0007] ④不易利用用戶標簽信息。在一個實際的推薦系統(tǒng)中,普遍存在著用戶給物品打 的標簽,這些用戶標簽信息或者是用戶對物品特征的標簽,或者是用戶對物品喜歡程度的 標簽,它一方面描述了用戶的興趣,另一方面也表達了物品的語義,其對實現(xiàn)個性化推薦具 有重要的作用。
[0008] 所以亟需本領域技術(shù)人員解決上述技術(shù)問題。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題,特別創(chuàng)新地提出了一種基于高 斯分布和距離相似度的混合聚類的推薦方法。
[0010] 為了實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種基于高斯分布和距離相似度的混 合聚類的推薦方法,其關(guān)鍵在于,包括如下步驟:
[0011] S1,獲取用戶行為數(shù)據(jù)集,將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù),對有標 簽數(shù)據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習;
[0012] S2,根據(jù)所述距離度量權(quán)重矩陣,與高斯混合模型混合計算得到目標函數(shù),對所述 目標函數(shù)進行優(yōu)化求解;
[0013] S3,根據(jù)得到目標函數(shù)優(yōu)化求解后,通過聚類算法得到聚類行為數(shù)據(jù),將聚類行為 數(shù)據(jù)推薦給用戶。
[0014] 所述的基于高斯分布和距離相似度的混合聚類的推薦方法,優(yōu)選的,所述Sl包 括:
[0015] S1-1,假設i和歹是行為數(shù)據(jù)集中兩個實例的特征向量,則馬氏距離為:
【主權(quán)項】
1. 一種基于高斯分布和距離相似度的混合聚類的推薦方法,其特征在于,包括如下步 驟: S1,獲取用戶行為數(shù)據(jù)集,將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù),對有標簽數(shù) 據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習; 52, 根據(jù)所述距離度量權(quán)重矩陣,與高斯混合模型混合計算得到目標函數(shù),對所述目標 函數(shù)進行優(yōu)化求解; 53, 根據(jù)得到目標函數(shù)優(yōu)化求解后,通過聚類算法得到聚類行為數(shù)據(jù),將聚類行為數(shù)據(jù) 推薦給用戶。
2. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述Sl包括: S1-1,假設i和J5是行為數(shù)據(jù)集中兩個實例的特征向量,則馬氏距離為: = 乃S 1P-J') 5其中S是這兩個特征向量的協(xié)方差矩陣,L表示有標簽數(shù)據(jù), U表示無標簽數(shù)據(jù),Wij表示實例X i和實例X j間邊的權(quán)重。
3. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述S2構(gòu)建權(quán)重矩陣的規(guī)則包括: il iil I ^UabeIixi) - Iabdixi) A,如果XiG L和x .e L,% = j ,i、j為用戶行為數(shù)據(jù) …其它 集中的任意兩個行為數(shù)據(jù);label (Xi)和Iabel(Xj)為任意兩個有標簽數(shù)據(jù)的標簽, B,如果Xie L或者XU,
C,如果Xie U或XUWij與B相同, D,如果 XiG U 和 U, 當k e {1…k}, k為數(shù)據(jù)點,m為正整數(shù),yk為數(shù)據(jù)點的均值,執(zhí)行 Ciisixi^uk) < ifo·;:; and dis{x:^ik) < dis[;:^ , 當 Wij= I,或者 Wij= 0。
4. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述S2目標函數(shù)構(gòu)建包括: 假設表示Pi (c)和I(C)兩個高斯分布,這兩個分布之間的散度如下: 以印')||廠,⑷)=Σ印')丨噸^ c為兩個數(shù)據(jù)分布; I I P(r) P (Cr) 通過 A, = 作.)Il Gd) + IW⑷))=0Σ 作.)丨Og^+Σ 1〇g^y) 變換來度量兩個分布Pi (C)和I(C)間的相似性; 定義 Pi(C) = P(Clxi), 通過
丨來度量條件概率 P (C |x)的平滑性; 得到的平滑部分和高斯混合模型的似然估計進行線性組合,得到新的高斯混合模型的 目標函數(shù)如下,
其中,λ是兩部分線性組合的權(quán)重系數(shù),從公式中的高斯混合模型和馬氏距離相似性 矩陣來度量。
5. 根據(jù)權(quán)利要求1所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述S3包括: S3-1,計算期望,利用對隱藏變量的現(xiàn)有估計值,計算其最大似然估計值; S3-2,期望最大化,根據(jù)計算期望求得的最大似然值來重新計算各參數(shù)的值,期望最大 化求得的參數(shù)估計值被用于下一個計算期望計算中,這個過程不斷交替進行。
6. 根據(jù)權(quán)利要求5所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述S3中計算期望包括: 計算隱藏變量P(Ci= j Ixi)的后驗概率,其表達式中包括了三個參數(shù)為,類比比率Φ, 類別為j的特征均值μ,和類別為j的特征均方差矩陣?,利用貝葉斯公式計算其后驗概 率得:
在公式中,PUiIci= j ; μ,Σ)的值是利用高斯密度函數(shù)計算得來,而p (c i= j ;φ) 表示數(shù)據(jù)實例中類別Ci= j所占比率,記為Φ j。
7. 根據(jù)權(quán)利要求5所述的基于高斯分布和距離相似度的混合聚類的推薦方法,其特征 在于,所述S3中期望最大化包括: 求解函數(shù)表達式的最大似然估計,求解出最大似然估計函數(shù)中各參數(shù)的值; 將目標函數(shù)1_分解為兩個部分1 :和1 2; 假定Imw= 1「12,則有:
O m
其中,I1與標準高斯混合模型對數(shù)似然估計的表示式完全相同;I2是利用距離度量學 習得到的規(guī)則,其中包括Pi(C), Pi(C)~Ν(μρ Σ),在期望最大化中重新估計得到的%值 與標準高斯混合模型中的參數(shù)值是完全相同的,
重新估計均值μ k和協(xié)方差? k參數(shù):
1 m ?
獲得目標函數(shù)的局部最大值,將看作拉格朗日函數(shù),參數(shù)λ是拉格朗日乘子,通過 拉格朗日函數(shù)對各個變量進行求導,得到^和^并令其等于零,求得候選值集合, 其中,大寫N代表新的函數(shù)名、上標T代表矩陣的轉(zhuǎn)秩、大寫O代表新的函數(shù)名;
獲得對目標函數(shù)中參數(shù)〇k,μ JP Σ ,的估計值,將其作為聚類參數(shù)的初始值,通過期 望最大化聚類算法進行聚類行為數(shù)據(jù)分析,將聚類行為數(shù)據(jù)推薦給用戶。
【專利摘要】本發(fā)明公開了一種基于高斯分布和距離相似度的混合聚類的推薦方法,包括如下步驟:S1,獲取用戶行為數(shù)據(jù)集,將行為數(shù)據(jù)集劃分為有標簽數(shù)據(jù)和無標簽數(shù)據(jù),對有標簽數(shù)據(jù)和無標簽數(shù)據(jù)分別進行距離度量學習;S2,根據(jù)所述距離度量權(quán)重矩陣,與高斯混合模型混合計算得到目標函數(shù),對所述目標函數(shù)進行優(yōu)化求解;S3,根據(jù)得到目標函數(shù)優(yōu)化求解后,通過聚類算法得到聚類行為數(shù)據(jù),將聚類行為數(shù)據(jù)推薦給用戶。
【IPC分類】G06F17-30
【公開號】CN104636496
【申請?zhí)枴緾N201510097905
【發(fā)明人】張宜浩, 文俊浩
【申請人】重慶理工大學
【公開日】2015年5月20日
【申請日】2015年3月4日