本發(fā)明涉及一種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的用戶通過智能手機(jī)、PAD等移動終端設(shè)備使用娛樂、購物、辦公等各種移動應(yīng)用App。面對這些層出不窮的移動應(yīng)用App,若能對不同的用戶進(jìn)行有針對性的推薦,不僅可以增加流量消費(fèi),還可促進(jìn)新的App推廣。在電子商務(wù)領(lǐng)域,推薦系統(tǒng)已得到了較為廣泛的應(yīng)用,推薦系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中幫助顧客訪問感興趣的產(chǎn)品信息并產(chǎn)生推薦。通過這些推薦系統(tǒng),使得銷售量、銷售額以及顧客忠誠度都得到了明顯的提高。但在通信領(lǐng)域,推薦算法并未得到推廣,傳統(tǒng)的App推薦大多都是TOP推薦,即全網(wǎng)中下載量最多的App,因此推薦結(jié)果都較為大眾化,不具備新穎性。傳統(tǒng)的top推薦不具有針對性,導(dǎo)致用戶下載安裝率及使用率較低。
此外,傳統(tǒng)的協(xié)同過濾推薦算法需要在全部用戶中找到目標(biāo)用戶的最近鄰居再進(jìn)行推薦,因此計(jì)算量大且耗時。
上述問題是在App推薦過程中應(yīng)當(dāng)予以考慮并解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng)解決現(xiàn)有技術(shù)中存在的傳統(tǒng)的App推薦推薦結(jié)果都較為大眾化,不具備新穎性,不具有針對性,導(dǎo)致用戶下載安裝率及使用率較低等問題。
本發(fā)明的技術(shù)解決方案是:
一種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng),包括:
數(shù)據(jù)處理模塊:通過APP流量消耗和APP上網(wǎng)時長兩個變量來衡量用戶對APP的喜好程度,對該兩個變量進(jìn)行無量綱化的處理后,獲得用戶對每款使用過的APP的喜好程度評分;
聚類模塊:在協(xié)同過濾推薦算法前對全體用戶進(jìn)行聚類處理,將App安裝類別相同或相似的用戶放到同一個聚類簇中,得到用戶按相似性劃分的聚類簇;
推薦列表產(chǎn)生模塊:通過協(xié)同過濾算法生成推薦結(jié)果,即采用基于用戶的協(xié)同過濾推薦算法選擇目標(biāo)用戶所在的聚類簇作為查詢空間,在這個聚類簇中搜索目標(biāo)用戶的最近鄰居;根據(jù)最近鄰居的App安裝列表產(chǎn)生最終的推薦列表。
進(jìn)一步地,數(shù)據(jù)處理模塊中,對APP流量消耗和APP上網(wǎng)時長兩個變量進(jìn)行無量綱化的處理,采用min-max標(biāo)準(zhǔn)化,即對原始數(shù)據(jù)進(jìn)行線性變換,使結(jié)果映射到[0,1]之間,公式為:
其中,max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值,Xi為第i個樣本數(shù)據(jù)值,Xnew為無量綱化處理后產(chǎn)生的新的樣本數(shù)據(jù)值。
進(jìn)一步地,聚類模塊中,采用K-means算法對處理后的數(shù)據(jù)進(jìn)行聚類:
給定訓(xùn)練樣本,{x1,x2,...,xm},xi∈Rn,其中Rn為訓(xùn)練樣本所組成的數(shù)據(jù)集合,首先選取k個聚類中心點(diǎn),分別為μ1,μ2,...,μK∈Rn;其次根據(jù)下面公式計(jì)算每一個樣本i的所屬類別ci:ci=arg min||xi-μj||2,即樣本到類別中心歐式距離最小的類別;再根據(jù)下面公式更新每一類的中心μj:最后,重復(fù)以上兩個步驟,直至畸變函數(shù)J(c,μ)收斂;其中c表示劃分的類,μ表示每一類的中心點(diǎn),μci表示類別i中的聚類中心點(diǎn)μ,即所有樣本到其類別中心的歐式距離平方和。
進(jìn)一步地,推薦列表產(chǎn)生模塊中,通過協(xié)同過濾算法生成推薦結(jié)果,具體為:
首先,建立用戶App評分列表;其次根據(jù)相似度的高低找出K個與目標(biāo)用戶最相似的鄰居;在這些鄰居喜歡的App中,根據(jù)鄰居與目標(biāo)用戶的遠(yuǎn)近程度算出每一件App的推薦度,最后根據(jù)每一件App的推薦度高低給目標(biāo)用戶推薦App。
進(jìn)一步地,建立用戶-App評分列表,具體為:采用一個m*n的評分矩陣G(m*n)來表示用戶對App的評分?jǐn)?shù)據(jù),評分矩陣G(m*n)如下表:
其中m代表用戶的數(shù)量,n代表App的數(shù)量,Gi,j表示用戶i對Appj的評分,其中App評分即為第一步通過對每個App的流量消耗和上網(wǎng)時長進(jìn)行無量綱化處理后所得數(shù)據(jù)。
進(jìn)一步地,根據(jù)每一件App的推薦度高低給目標(biāo)用戶推薦App,具體為:首先對最近鄰居集合中的用戶對不同App的興趣度進(jìn)行統(tǒng)計(jì),然后取其中的N個排在最前面并且目標(biāo)用戶中以前沒有出現(xiàn)過的App作為Top-N推薦集,即Top-N={N1,N2,,…NS},其中目標(biāo)用戶
該種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng),結(jié)合聚類和基于用戶的協(xié)同過濾推薦,根據(jù)用戶移動應(yīng)用App行為數(shù)據(jù)進(jìn)行大數(shù)據(jù)挖掘,從而對目標(biāo)用戶進(jìn)行有效而準(zhǔn)確的App推薦。本發(fā)明在傳統(tǒng)的協(xié)同過濾算法前,先通過對所有用戶集進(jìn)行聚類,把對App喜好相似的用戶聚成一類,然后只需要在目標(biāo)用戶所屬的類簇中進(jìn)行目標(biāo)用戶的最近鄰居搜索,通過協(xié)同過濾算法生成推薦結(jié)果,從而有效提高了系統(tǒng)的運(yùn)算效率和可擴(kuò)展性。
本發(fā)明的有益效果是:該種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng),通過聚類及協(xié)同過濾算法對用戶進(jìn)行有效而準(zhǔn)確的App推薦過程,所采用的基于用戶的協(xié)同過濾推薦使推薦結(jié)果更具個性化,從而能夠有效提高移動應(yīng)用App安裝率和使用率并增加流量消費(fèi)。首先根據(jù)K-means聚類算法對用戶進(jìn)行聚類,再在每個子類中向用戶推薦較為新穎的App以及采用協(xié)同過濾算法推薦用戶會感興趣的App。采用這種方式不僅可以對新App進(jìn)行推廣,也可以提高推薦準(zhǔn)確率,從而增加移動用戶流量消費(fèi)。本發(fā)明不僅將推薦系統(tǒng)應(yīng)用到移動通信這樣的新領(lǐng)域,且將聚類算法與協(xié)同過濾算法相結(jié)合,從而有效的提高了推薦準(zhǔn)確率和算法運(yùn)算效率。
附圖說明
圖1是本發(fā)明實(shí)施例基于用戶偏好的移動應(yīng)用App推薦系統(tǒng)的說明示意圖。
圖2是實(shí)施例中聚類算法的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖詳細(xì)說明本發(fā)明的優(yōu)選實(shí)施例。
實(shí)施例系統(tǒng)在協(xié)同過濾推薦算法前對全體用戶進(jìn)行聚類處理,將App安裝類別相似的用戶放到同一個聚類簇中,從而得到用戶按相似性劃分的聚類簇。然后再采用傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法選擇目標(biāo)用戶所在的聚類簇作為查詢空間,在這個聚類簇中搜索目標(biāo)用戶的最近鄰居,這樣就可以在較少的空間上搜索到目標(biāo)用戶的最近鄰居,最后再根據(jù)最近鄰居的App安裝列表產(chǎn)生最終的推薦列表。實(shí)施例所采用的基于用戶的協(xié)同過濾推薦使推薦結(jié)果更具個性化,從而能夠有效提高移動應(yīng)用App安裝率和使用率并增加流量消費(fèi)。
實(shí)施例
該種基于用戶偏好的移動應(yīng)用App推薦系統(tǒng),具體包括:
數(shù)據(jù)處理模塊:通過APP流量消耗和APP上網(wǎng)時長兩個變量來衡量用戶對APP的喜好程度,對該兩個變量進(jìn)行無量綱化的處理后,獲得用戶對每款使用過的APP的喜好程度評分。
數(shù)據(jù)處理模塊中,對數(shù)據(jù)進(jìn)行了無量綱化處理。
由于用戶對App的評分?jǐn)?shù)據(jù)很難獲取,因此本發(fā)明通過App流量消耗和App上網(wǎng)時長兩個變量來衡量用戶對App的喜好程度。但以上兩個變量量綱不同,在計(jì)算時,要先對兩個變量進(jìn)行無量綱化的處理,本發(fā)明采用了min-max標(biāo)準(zhǔn)化,即對原始數(shù)據(jù)進(jìn)行線性變換,使結(jié)果映射到[0,1]之間,公式為:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值,Xi為第i個樣本數(shù)據(jù)值,Xnew為無量綱化處理后產(chǎn)生的新的樣本數(shù)據(jù)值。
通過以上這種方法,從而可以獲得用戶對每款使用過的App喜好程度評分。
聚類模塊:在協(xié)同過濾推薦算法前對全體用戶進(jìn)行聚類處理,將App安裝類別相同或相似的用戶放到同一個聚類簇中,得到用戶按相似性劃分的聚類簇。
聚類模塊中,對處理后的數(shù)據(jù)進(jìn)行聚類。
為了減少協(xié)同過濾算法的運(yùn)算量,縮短運(yùn)算時間,首先通過聚類算法對用戶進(jìn)行大致劃分,再在每個子類中進(jìn)行協(xié)同過濾推薦。通過這種聚類處理,當(dāng)新App出現(xiàn)時,也可根據(jù)App所屬類別以及用戶所屬標(biāo)簽將新App推薦給相應(yīng)的用戶。
在聚類算法中,其中運(yùn)用最廣泛的是K-means算法,此種聚類算法速度較快,并且具有可伸縮性,時間復(fù)雜度近于線性,適合挖掘大規(guī)模數(shù)據(jù)集。鑒于手機(jī)用戶及App所構(gòu)建的數(shù)據(jù)集龐大,因此采用此種算法進(jìn)行聚類最為合適。
K-means算法的核心思想是最小化所有樣本到所屬類別中心的歐式距離和,采用迭代的方式實(shí)現(xiàn)收斂。
準(zhǔn)確的說,給定訓(xùn)練樣本,{x1,x2,...,xm},xi∈Rn,其中Rn為訓(xùn)練樣本所組成的數(shù)據(jù)集合,K-means算法首先選取k個聚類中心點(diǎn),分別為μ1,μ2,...,μK∈Rn;其次根據(jù)下面公式計(jì)算每一個樣本i的所屬類別ci:ci=arg min||xi-μj||2,即樣本到類別中心歐式距離最小的類別;再根據(jù)下面公式更新每一類的中心μj:最后,不斷重復(fù)以上兩個步驟,直至畸變函數(shù)J(c,μ)收斂。其中c表示劃分的類,μ表示每一類的中心點(diǎn),μci表示類別i中的聚類中心點(diǎn)μ,即所有樣本到其類別中心的歐式距離平方和。
為了將J調(diào)整到最小,假設(shè)當(dāng)前情況下J沒有達(dá)到最小,那么可以通過固定每一個類別的中心u,調(diào)整每一個樣本的所屬類別c來減小J,也可以通過固定每一個樣本的所屬類別c,調(diào)整類別中心u來減小J的值。理論上,可以有多組u,c值使得J最小,但實(shí)際應(yīng)用中一般出現(xiàn)較少。J為非凸函數(shù),所以最后收斂的點(diǎn)有可能是全局最優(yōu),也有可能是局部最優(yōu),說明K-means對初始條件比較敏感,可多次給定不同的初始條件計(jì)算J值,最后選擇最小的那一組作為最終的結(jié)果。
在實(shí)際操作中,根據(jù)用戶msisdn、移動應(yīng)用App分類servl1兩個變量,統(tǒng)計(jì)出用戶每大類移動應(yīng)用App的安裝個數(shù),再采用K-means聚類算法對用戶進(jìn)行分類。聚類過程如圖2所示:在(a)中,2個紅色的點(diǎn)分別代表深淺兩種顏色的樣本點(diǎn)所在各自群的中心點(diǎn)。不考慮現(xiàn)在分群情況,分別計(jì)算各個樣本點(diǎn)到2個紅色中心點(diǎn)的距離,將距離相似的樣本點(diǎn)形成一個新群,如(b)所示。再計(jì)算(c)中兩個新群的中心點(diǎn),如果(c)中心的中心點(diǎn)與之前(a)中的中心點(diǎn)相比變化極小,則迭代結(jié)束,否則將返回重新計(jì)算。
在K-means算法中,選取幾個聚類中心點(diǎn)也是一個關(guān)鍵步驟,這也決定著聚類結(jié)果的好壞。在實(shí)際應(yīng)用中,傳統(tǒng)的方法是通過輪廓系數(shù)對聚類效果進(jìn)行判斷??梢酝ㄟ^枚舉法,令k從2到一個固定值如10,在每個k值上重復(fù)運(yùn)行數(shù)次K-means,并計(jì)算當(dāng)前k的平均輪廓系數(shù),最后選取輪廓系數(shù)最大的值對應(yīng)的k作為最終的集群數(shù)目。但當(dāng)數(shù)據(jù)量過大時,輪廓系數(shù)難以計(jì)算得出。因此實(shí)施例從業(yè)務(wù)角度出發(fā),來選取出最優(yōu)的K值。通過觀察聚類后的類別結(jié)果中突出占比App類別分布情況(將一類中占比達(dá)到70%以上的App大類作為突出占比類別,即為該類的標(biāo)簽),從而判斷選取最優(yōu)聚類中心點(diǎn)個數(shù)。
推薦列表產(chǎn)生模塊:通過協(xié)同過濾算法生成推薦結(jié)果,即采用基于用戶的協(xié)同過濾推薦算法選擇目標(biāo)用戶所在的聚類簇作為查詢空間,在這個聚類簇中搜索目標(biāo)用戶的最近鄰居;根據(jù)最近鄰居的App安裝列表產(chǎn)生最終的推薦列表。
推薦列表產(chǎn)生模塊中,基于用戶的協(xié)同過濾推薦算法,輸出推薦列表。
完成聚類后,則可在每個子類中采用協(xié)同過濾算法進(jìn)行推薦。協(xié)同過濾推薦算法也是在推薦系統(tǒng)中運(yùn)用最成功的技術(shù)之一。常用的協(xié)同過濾推薦算法有基于用戶的協(xié)同過濾推薦和基于物品的協(xié)同過濾推薦兩種。由于用戶對App的喜好較為粗粒度,極少用戶只安裝單一類的App,因此采用基于用戶的協(xié)同過濾推薦算法可以產(chǎn)生更具個性化的推薦結(jié)果。進(jìn)行基于用戶的協(xié)同過濾推薦算法的關(guān)鍵是建立用戶-App評分矩陣。但用戶對App的評分?jǐn)?shù)據(jù)又很難獲取,因此只能使用其他用戶行為數(shù)據(jù)來衡量用戶對App的喜好程度來判斷用戶對App的評分。對于運(yùn)營商而言,在數(shù)據(jù)源方面具有一定的優(yōu)勢,可統(tǒng)計(jì)出用戶手機(jī)中移動應(yīng)用App安裝情況,以及每款A(yù)pp的流量消耗和上網(wǎng)時長,從而可通過這幾項(xiàng)數(shù)據(jù)得到用戶對每款A(yù)pp的喜好程度。算法具體步驟如下:
首先,建立用戶-App評分列表。采用一個m*n的評分矩陣G(m*n)來表示用戶對App的評分?jǐn)?shù)據(jù),如下表1所示。其中m代表用戶的數(shù)量,n代表App的數(shù)量,Gi,j表示用戶i對Appj的評分,其中App評分即為第一步通過對每個App的流量消耗和上網(wǎng)時長進(jìn)行無量綱化處理后所得數(shù)據(jù)。
表1用戶對App的評分?jǐn)?shù)據(jù)的m*n的評分矩陣G(m*n)
其次,根據(jù)相似度的高低找出K個與目標(biāo)用戶最相似的鄰居;
尋找目標(biāo)用戶最近鄰居用戶集是基于用戶的協(xié)同過濾算法的核心和最關(guān)鍵步驟,對目標(biāo)用戶要生成一個按照相似性的大小順序輸出的鄰居集合N={N1,N2,,…NS},且目標(biāo)用戶不屬于集合N,從N1到NS,相似性sim(u,Ni)由大到小進(jìn)行排列。目前對鄰居用戶的選擇一般采用以下兩種方法,一種是把相似性大于預(yù)先規(guī)定好的閾值用戶作為鄰居用戶輸出;二根據(jù)系統(tǒng)預(yù)先確定好的鄰居個數(shù)N,把相似性最大的前面的N個用戶當(dāng)做最近的鄰居,并推薦給目標(biāo)用戶。本發(fā)明中采取的是第二種方法。用戶之間相似性的計(jì)算方法有很多,本發(fā)明主要利用歐幾里得距離來計(jì)算興趣的相似度。歐氏距離是一個通常采用的距離定義,它是在m維空間中兩個點(diǎn)之間的真實(shí)距離,能夠體現(xiàn)個體數(shù)值特征的絕對差異。在n維空間中,歐式距離這里xi1表示第一個點(diǎn)的第i維坐標(biāo),xi2表示第二個點(diǎn)的第i維坐標(biāo)。n維歐氏空間是一個點(diǎn)集,它的每個點(diǎn)可以表示為(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是實(shí)數(shù),稱為x的第i個坐標(biāo),兩個點(diǎn)x和y=(y(1),y(2)...y(n))之間的距離d(x,y)定義為上面的公式。
然后,在這些鄰居喜歡的物品中,根據(jù)鄰居與目標(biāo)用戶的遠(yuǎn)近程度算出每一件物品的推薦度,最后根據(jù)每一件物品的推薦度高低給目標(biāo)用戶推薦物品。
首先對最近鄰居集合中的用戶對不同App的興趣度進(jìn)行統(tǒng)計(jì),然后取其中的N個排在最前面并且目標(biāo)用戶中以前沒有出現(xiàn)過的App作為Top-N推薦集,即Top-N={N1,N2,,…NS},其中目標(biāo)用戶