一種基于用戶聚類的推薦方法
【專利摘要】本發(fā)明提出一種基于用戶聚類的推薦方法,為了合理的根據(jù)用戶興趣對用戶進行有效推薦,根據(jù)用戶對各主題標簽的總瀏覽頻率、瀏覽時間以及總瀏覽時間、有效瀏覽頻率以及有效瀏覽時間,得到興趣度,形成用戶的興趣特征向量;根據(jù)用戶的興趣特征向量,篩選核心用戶,構成核心用戶集,使用K-means聚類算法對全體用戶進行聚類;得到全用戶聚類之后,計算出每個用戶聚類在每個主題之上的類興趣向量;比較興趣值和類興趣向量,對其進行推薦。本發(fā)明所提供的CCVR方法推薦效果要好于其它的推薦方法,具有良好的準確性。
【專利說明】-種基于用戶聚類的推薦方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息【技術領域】,具體涉及一種基于用戶聚類的推薦方法。
【背景技術】
[0002] 社交網(wǎng)絡隨著Internet用戶的普及已經(jīng)逐漸替代傳統(tǒng)的信息獲取渠道,如報紙, 雜志,電視新聞等,成長為大多數(shù)人第一時間接收信息的一種方式。例如國外的f aceb〇〇k, twitter,國內(nèi)的微博,人人網(wǎng)等。大家通過發(fā)消息與狀態(tài),發(fā)布自己所要表達的信息,通過 轉發(fā)與分享其他人的消息與狀態(tài),去擴散從其他人那里得到的信息。這涉及到結點影響度 的問題,即一個被所有人關注的結點,它所發(fā)布的信息能被所有人看到,一個關注所有人的 結點,它能看到所有人發(fā)布的信息。當然,個人的精力是有限的,不可能通過自己去尋找,然 后手動的關注所有可能會感興趣的內(nèi)容或結點。所以互聯(lián)網(wǎng)信息服務方需要研究如何去有 效的向用戶推薦他們會感興趣的內(nèi)容或結點。
[0003] 于洪等人提出的強弱關系概念,詮釋了社交網(wǎng)絡中的關注形式。人人網(wǎng),QQ空間 等形式,以雙向關注(強關系)的方式來構建起社交網(wǎng)絡;微博等形式,以單向關注(弱關 系)的方式構建起自己的關系網(wǎng)。對于互關注關系的推薦,在強關系的社交網(wǎng)絡中,通過共 同好友、聯(lián)系人、通訊錄等真實社交信息的方法通常就達到很好的效果,然而正是由于強關 系往往會建立于真實的社會關系,如此一來,相比弱關系便存在很大的局限性,因為如果無 法與某個結點建立關系就不能看到它所發(fā)布的動態(tài),這就顯得不太合理。有些人喜歡發(fā)布 信息,這類結點便成為了網(wǎng)絡中消息的發(fā)布者,他們發(fā)布的顯然要比他們訂閱的多,有些人 喜歡接受信息,這些人作為訂閱者接收信息多于發(fā)布信息,所以這樣一種不平衡如果建立 于強關系的話就十分的不合理,因此基于弱關系的社交網(wǎng)絡形式應運而生,大家各取所需。
[0004] 參考文獻:于洪,楊顯.微博中節(jié)點影響力度量與傳播路徑模式研究[J].通 信學報,2012,33 (Zl):96 ?97 ;Chen J,Geyer W,Dugan C, Muller M,Guy I· Make new friends, but keep the old:Recommending people on social networking sites// Proceedings of the 27th International Conference on Human Factors in Computing Systems. New York,NY,USA,2009:201?210;陳克寒,韓盼盼,吳健.基于用戶聚類的異 構社交網(wǎng)絡推薦算法[J]·計算機學報,2013,36(2) :350?351;Mislove Alan,Marcon Massimiliano, Gummadi Krishna P, Druschel Peter, Bhattacharjee Bobby. Measurement and analysis of online social networks//Proceedings of the 7th ACM SIGC0MM Conference on Internet Measurement· San Diego, CA,USA,2007:29 ?42 ;劉枚蓮,劉同 存,李小龍.基于用戶興趣特征提取的推薦算法研究[J].計算機應用研究,2〇ll,28(5): 1665 ?1666.
[0005] 關于這類推薦問題,有學者也進行了充分的研究。協(xié)同過濾推薦算法最早是由 Goldberg等人提出的,但該系統(tǒng)沒有充分考慮用戶需求,存在一定缺陷。針對這一問題, GroupLens首次提出基于用戶評分的自動協(xié)同過濾推薦系統(tǒng)。協(xié)同過濾推薦算法是應用最 為廣泛的推薦算法,由于提出比較早,所以存在不少缺陷,后期又出現(xiàn)了基于內(nèi)容的推薦算 法,通過比較項目與用戶描述文件來為用戶提供推薦服務;基于關聯(lián)規(guī)則的推薦算法主要 是根據(jù)關聯(lián)規(guī)則模型和用戶當前的購買行為為用戶提供推薦服務。
[0006] 現(xiàn)有的研究成果表明,研究提供一種合理的推薦方式是十分必要的。
[0007] 參考文獻:LI Yu,LI Xue-feng. A hybrid collaborative filtering method for multiple-interests and multiple-content recommendation in e-commerce[J].Expert Systems with Applications,2005,28(l):67 ?77;HUANG Cheng-lung,HUANG Wei-liang. Handing sequential pattern decay:developing a two-stage collaborative recommender system[J]. Electronic Commerce Research and Application,2008,8(3):117 ?129 ;LUIS M,JUAN M,JUAN F. A collaborative recommender system base on probabilistic inference from fuzzy observations[J]. Fuzzy Set and Systems,2008,159 (12):1554 ?1576 ;HUANG Zan,ZENG D,CHEN H C· A comparison of collaborative-filtering recommendation algorithms for e-commerce[J]_IEEE Intelligent Systems,2007,22(5) :68 ?78 ;LIU Duen-ren,SHIH Y Y. Hybrid approaches to product recommendation base on customer lifetime value and purchase preferences[J]_Journal of Systems and Software,2005,77(2):181 ? 191 ;MATEVZ K,T0MAZ P,et al· Optimisation of combined collaborative recommender systems[J].AEU of Electronics and Communications,2007,61(7):433 ?443·
【發(fā)明內(nèi)容】
[0008] 根據(jù)上述的一些研究,本發(fā)明提供一種基于用戶聚類的推薦方法。
[0009]為達到上述目的,本發(fā)明采用的技術方案為一種基于用戶聚類的推薦方法,包括 以下步驟:
[0010] St印1,輸入用戶集合υ= {ι^ιν.ι?α}和主題標簽集合c= {Sl,s2…Sp},α表示 用戶個數(shù),β表示主題標簽集合C中主題標簽個數(shù);初始化當前處理用戶序號i取值為h 轉到Step2 ;
[0011] St印2,初始化當前處理標簽序號j取值為丨,轉到Step3 ;
[0012] St印3,如果用戶Ui關注了主題標簽七,轉到Step4 ;否則令用戶對第j個主題標簽 感興趣的程度dj = 0,轉到Step9 ;
[0013] Step4,根據(jù)用戶Ui對主題標簽Sj的瀏覽次數(shù)n,確定出用戶七對主題標簽 Sj的 總瀏覽頻率f = η,轉到Step5 ;
[0014] Step5,確定用戶Ui對主題標簽Sj的第k次瀏覽時間tj k以及總瀏覽時間T,k的 取值為1,2,…n,轉到SteP6 ; '
[0015] SteP6,確定用戶Ui對主題標簽Sj的有效瀏覽頻率 ef,轉到step7 ;
[0016]確定方式為,若tmin < tlk < tmax,t-和tmax為用戶Ui對標簽的最小瀏覽時間和最 瀏覽時間的預設閾值,則用戶Ui對第j個主題標簽的第k次瀏覽是有效的,則用戶Ui對 第j個主題標簽的η次瀏覽過程中,所有有效瀏覽的次數(shù)之和為用戶化對第j個主題標簽 的有效瀏覽頻率;
[0017] St印7,求ef次有效瀏覽的瀏覽時間之和,計算出用戶Ui對主題標簽Sj的有效瀏 覽時間et,轉到Step8 ;
[0018] St印8,根據(jù)下式,計算出用戶W對主題標簽Sj興趣度d」,轉到Step9 ;
[0019]
【權利要求】
1. 一種基于用戶聚類的推薦方法,其特征在于,包括以下步驟: 5七6口1,輸入用戶集合11={111,112*"11 [1}和主題標簽集合〇={81,8^80},€[表示用戶 個數(shù),P表示主題標簽集合C中主題標簽個數(shù);初始化當前處理用戶序號i取值為1,轉到 Step2 ; St印2,初始化當前處理標簽序號j取值為1,轉到St印3 ; St印3,如果用戶Ui關注了主題標簽&,轉到St印4 ;否則令用戶對第j個主題標簽感興 趣的程度dj= 0,轉到Step9 ; St印4,根據(jù)用戶Ui對主題標簽Sj的瀏覽次數(shù)n,確定出用戶Ui對主題標簽Sj的總瀏 覽頻率f=n,轉到Step5 ; St印5,確定用戶Ui對主題標簽&的第k次瀏覽時間tlk以及總瀏覽時間T,k的取值 為1,2,…n,轉到Step6 ; St印6,確定用戶Ui對主題標簽Sj的有效瀏覽頻率ef,轉到St印7 ; 確定方式為,若tmin彡tj;k彡tmax,tmin和tmax為用戶Ui對標簽的最小瀏覽時間和最大 瀏覽時間的預設閾值,則用戶Ui對第j個主題標簽的第k次瀏覽是有效的,則用戶Ui對第 j個主題標簽的n次瀏覽過程中,所有有效瀏覽的次數(shù)之和為用戶Ui對第j個主題標簽的 有效瀏覽頻率; Step7,求ef次有效瀏覽的瀏覽時間之和,計算出用戶Ui對主題標簽Sj的有效瀏覽時 間et,轉到Step8 ; Step8,根據(jù)下式,計算出用戶Ui對主題標簽Sj興趣度dj,轉到Step9 ;
其中,參嬰
,H為用戶對所有主題標簽的瀏覽頻率之和;PS為預設的系統(tǒng)參數(shù) 興趣時間系數(shù)
表示用戶對第j個主題標簽的平均瀏覽時間,
表示用戶對第j個主題 標簽的平均有效瀏覽時間; Step9,設用戶Ui在主題標簽集合C中未瀏覽過的標簽集合用Cb表示,瀏覽過的標簽集 合用Ca表示,根據(jù)下式,計算Vi;j,令j=j+1,如果j小于等于0則轉到Step3,否則轉到 SteplO;
SteplO,令i=i+l,如果i小于等于a,轉到Step2,否則令i= 1,初始化核心用戶數(shù) 目Y取值為〇,轉到St印11 ; St印11,根據(jù)用戶Ui的興趣向量,…\0)中非零元素所占比例得到興趣密 度值density(Ui),如果興趣密度值density(Ui)>X,標記Ui為核心用戶,轉到Stepl2;否 則轉到Stepl3 ;其中,A為預設的密度閾值; Stepl2,令Y=Y+1,轉到Stepl3; St印13,令i=i+1,如果i小于等于a,轉到St印11 ;否則轉到St印14 ; Stepl4,當前得到Y個核心用戶,開始用K-means算法對全部用戶進行聚類,本步驟以Y個核心用戶為初始的聚類中心,初始定義變量newj= 0,oldj= -1,轉到Stepl5 ; Stepl5,計算fabs(newj-oldj),fabs函數(shù)表示計算絕對值,如果fabs(newj-oldj)大 于等于絕對值的相應預設閾值,轉到Stepl6,否則轉到Stepl9 ; Stepl6,對用戶集合U=IudIvucJ中作為聚類中心的用戶以外的各剩余用戶,分別 計算剩余用戶與每個作為聚類中心的用戶之間的歐式距離,并分配到距離最近的聚類中心 相應聚類中,轉到Stepl7 ; Stepl7,計算每個用戶聚類Rh中所有用戶興趣向量的平均值,作為用戶聚類Rh新的聚 類中心Zh,轉到St印18 ; Stepl8,令oldj=newj,根據(jù)準則函數(shù)計算新的準則函數(shù)值賦值給newj,轉到Stepl5 ; St印19,當前得到Y個用戶聚類R1,馬…Ry,轉到St印20 ; St印20,初始化當前處理類別序號h取值為1,轉到St印21 ; Step21,根據(jù)下式計算該類別的類興趣向量Rvh = (RVhl,RVh2, ...,RVhe),轉到Step22 ;
其中,IRhI表示用戶聚類Rh中的用戶個數(shù),心表示用戶聚類Rh中的任一用戶,用w表 示聚類Rh中用戶個數(shù),€取值為1,2……w,表示用戶聚類Rh中用戶%對第j個主題標 簽的興趣度,RVw表示用戶聚類Rh對第j個主題標簽的興趣度,j取值為1,2......^ ; Step22,令h=h+1,如果h小于等于Y,轉到Step21,否則轉到Step23 ;3七6口23,此時得到¥個類別的類興趣向量,1^1,1^2*"1^^,令11=1,轉到5七6口24 ; St印24,為用戶聚類Rh中的每個用戶分別推薦主題標簽,設用戶聚類Rh中的用戶義為 用戶集合U=Iu1,ivua}中的用戶Ui,對于用戶Ui的興趣向量Vi (Vm,Vi>2,…Vi, 0),把它 與用戶聚類Rh的類興趣向量Rvh = (RVhl,RVh2, ...,RVhe)中各興趣值RVw進行比較,如果 Vu大于等于RVhj,則把主題標簽Sj推薦給用戶,轉到Step25 ; Step25,令h=h+1,如果h小于等于Y,轉到Step24,否則轉到Step26 ; Step26,對用戶集合U=Iu1,iv"ua}中每個用戶的自動推薦均已完成,結束。
2.根據(jù)權利要求1所述基于用戶聚類的推薦方法,其特征在于:Stepl8中,準則函數(shù)的 計算公式如下,
其中,w代表用戶聚類Rh中用戶個數(shù),叫VZJ表示兩個特征向量之間的偏差的平方,Vf 為用戶聚類Rh中的用戶\的興趣向量,Zh為相應類別的聚類中心。
【文檔編號】G06F17/30GK104268290SQ201410565721
【公開日】2015年1月7日 申請日期:2014年10月22日 優(yōu)先權日:2014年10月22日
【發(fā)明者】李鵬, 王婭丹, 金瑜, 劉璟, 劉欣 申請人:武漢科技大學