基于協(xié)同過(guò)濾推薦算法的機(jī)型推薦系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及建立一個(gè)基于運(yùn)營(yíng)商數(shù)據(jù)的機(jī)型推薦系統(tǒng),該系統(tǒng)利用協(xié)同過(guò)濾推薦 算法的框架,結(jié)合機(jī)型生命周期模型來(lái)和相應(yīng)的打分函數(shù)來(lái)為用戶(hù)推薦機(jī)型。
【背景技術(shù)】
[0002] 伴隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展和數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)積累得越來(lái)越 多。面對(duì)激增的數(shù)據(jù),人們希望能夠挖掘出隱藏在背后的許多重要的信息,從而可以更好地 利用這些數(shù)據(jù)為人們服務(wù)。運(yùn)營(yíng)商擁有大量的和用戶(hù)有關(guān)的個(gè)人信息和歷史消費(fèi)數(shù)據(jù),如 何利用這些數(shù)據(jù)創(chuàng)造新的效益是運(yùn)營(yíng)商面臨的問(wèn)題,而利用這些數(shù)據(jù)向用戶(hù)進(jìn)行手機(jī)機(jī)型 推薦就是這樣一個(gè)典型的應(yīng)用。
[0003] 推薦系統(tǒng)的推薦方法主要有基于內(nèi)容的過(guò)濾方法和協(xié)同過(guò)濾方法。其中,在信息 檢索領(lǐng)域主要應(yīng)用的是基于內(nèi)容的過(guò)濾。基于內(nèi)容的過(guò)濾需要分析文件資源的描述,并分 析每個(gè)用戶(hù)的興趣和偏好,從而建立起用戶(hù)偏好模型。通過(guò)用戶(hù)興趣偏好模型向用戶(hù)提供 推薦服務(wù),但是它具有一定的局限性的。正所謂"近朱者赤,近墨者黑",身邊其他人會(huì)影響 一個(gè)人的行為思想。協(xié)同過(guò)濾推薦技術(shù)主要有兩個(gè)假設(shè):1)那些與目標(biāo)用戶(hù)有相同興趣與 偏好的人對(duì)某個(gè)信息的喜愛(ài)程度可以用來(lái)衡量目標(biāo)用戶(hù)對(duì)該信息的偏好;2)用戶(hù)的喜好 具有持續(xù)性,即現(xiàn)在會(huì)喜歡過(guò)去喜愛(ài)的信息的相似信息。因此,基于這兩個(gè)假設(shè),在網(wǎng)絡(luò)信 息服務(wù)中向用戶(hù)推薦信息時(shí),可以利用其他用戶(hù)的信息或者目標(biāo)用戶(hù)自身的信息對(duì)某些信 息產(chǎn)生評(píng)價(jià),選取評(píng)價(jià)最高的幾項(xiàng)信息推薦給目標(biāo)用戶(hù)。
[0004] 協(xié)同過(guò)濾推薦方法主要有兩種:基于用戶(hù)的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾。基 于用戶(hù)的協(xié)同過(guò)濾:首先求與目標(biāo)用戶(hù)有相同或相似興趣和愛(ài)好的N個(gè)最近鄰居用戶(hù);然 后計(jì)算出這K個(gè)用戶(hù)對(duì)目標(biāo)項(xiàng)目I的打分值;最后根據(jù)這些打分和N個(gè)最近鄰居用戶(hù)與目 標(biāo)用戶(hù)的相似度預(yù)測(cè)出目標(biāo)用戶(hù)對(duì)目標(biāo)項(xiàng)目I的打分值。基于項(xiàng)目的協(xié)同過(guò)濾:首先找出 目標(biāo)項(xiàng)目I的相似目標(biāo),其中,這些相似項(xiàng)目都是用戶(hù)所感興趣的項(xiàng)目,然后查詢(xún)出用戶(hù)對(duì) 這些項(xiàng)目的打分值,最后根據(jù)相似項(xiàng)目與目標(biāo)項(xiàng)目之間的相似度和打分可以預(yù)測(cè)出目標(biāo)用 戶(hù)對(duì)目標(biāo)項(xiàng)目的打分值。
[0005] 本發(fā)明所使用的基于混合信息的協(xié)同過(guò)濾算法綜合考慮了兩方面的信息:用戶(hù)自 身的特征和項(xiàng)目特征。其中,用戶(hù)的特征是指用戶(hù)自身的屬性,比如有年齡、性別、消費(fèi)信息 等等。項(xiàng)目特征是指目標(biāo)用戶(hù)所使用的機(jī)型屬性,比如價(jià)格、品牌、機(jī)型、性能等等。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明所要解決的問(wèn)題是為目標(biāo)用戶(hù)推薦合適的手機(jī)機(jī)型,尤其是基 于協(xié)同過(guò)濾推薦算法的機(jī)型推薦。
[0007] 為解決上述問(wèn)題,本發(fā)明技術(shù)方案是:基于協(xié)同過(guò)濾推薦算法的機(jī)型推薦方法,利 用協(xié)同過(guò)濾推薦算法的框架,結(jié)合機(jī)型生命周期模型和相應(yīng)的打分函數(shù)來(lái)為用戶(hù)精確推薦 機(jī)型,包括如下步驟:
[0008] 1)最近鄰計(jì)算階段:
[0009] b)數(shù)據(jù)預(yù)處理,清除噪聲和異常數(shù)據(jù),排除不符合要求的用戶(hù)和機(jī)型,從用戶(hù)數(shù)據(jù) 庫(kù)中抽取目前正在使用的用戶(hù)的個(gè)人信息和歷史消費(fèi)信息,從機(jī)型數(shù)據(jù)庫(kù)中抽取用戶(hù)目前 使用機(jī)型的相關(guān)屬性;
[0010] C)利用預(yù)處理后的數(shù)據(jù)將相應(yīng)的信息抽取出來(lái)為每個(gè)用戶(hù)構(gòu)建對(duì)應(yīng)的用戶(hù)向量, 并使用本系統(tǒng)設(shè)計(jì)的方法計(jì)算用戶(hù)間的相似度;
[0011] d)計(jì)算目標(biāo)用戶(hù)與其他用戶(hù)的相似度取相似度最大的前N個(gè)作為目標(biāo)用戶(hù)的最 近鄰居;
[0012] 具體過(guò)程如下:
[0013] (1)數(shù)據(jù)預(yù)處理,對(duì)于正在使用的用戶(hù),清理掉山寨機(jī)用戶(hù)和剛?cè)刖W(wǎng)不到半年的用 戶(hù),得到正常用戶(hù)集合A。山寨機(jī)用戶(hù)的清理方法是如果有同一串號(hào)對(duì)應(yīng)多個(gè)手機(jī)則是山寨 機(jī),入網(wǎng)不到半年的用戶(hù)則是通過(guò)入網(wǎng)時(shí)間距離當(dāng)前月份大于六個(gè)月來(lái)篩選;
[0014] (2)對(duì)A中的用戶(hù)建立用戶(hù)向量集合U,用戶(hù)向1/7加入U(xiǎn)中,包含三類(lèi)信息,分別 是用戶(hù)本身屬性,消費(fèi)信息和當(dāng)前使用機(jī)型信息;
[0015] (3)將用戶(hù)Ui的性別、年齡、入網(wǎng)時(shí)長(zhǎng)信息加入用戶(hù)向量巧。
[0016] (4)將用戶(hù)七的消費(fèi)信息,包括平均通話(huà)時(shí)長(zhǎng)、短信、消費(fèi)、流量等信息加入到用戶(hù) 向量珥;
[0017] (5)將用戶(hù)七當(dāng)前的用機(jī)信息,包括機(jī)型所對(duì)應(yīng)的價(jià)格、制式、品牌、操作系統(tǒng)、 是否是智能機(jī)、是否支持TD、是否支持?jǐn)z像頭、是否支持GPRS、尺寸等信息加入到用戶(hù)向量
[0018] (6)計(jì)算用戶(hù)Ui與所有其他用戶(hù)的相似度,得到相似度矩陣,相似度計(jì)算如下:
【主權(quán)項(xiàng)】
1.基于協(xié)同過(guò)濾推薦算法的手機(jī)機(jī)型推薦方法,其特征是利用協(xié)同過(guò)濾推薦算法的框 架,結(jié)合機(jī)型生命周期模型和相應(yīng)的打分函數(shù)來(lái)為用戶(hù)精確推薦機(jī)型,包括如下步驟: 1) 最近鄰計(jì)算階段: a) 數(shù)據(jù)預(yù)處理,清除噪聲和異常數(shù)據(jù),排除不符合要求的用戶(hù)和機(jī)型,從用戶(hù)數(shù)據(jù)庫(kù)中 抽取目前正在使用的用戶(hù)的個(gè)人信息和歷史消費(fèi)信息,從機(jī)型數(shù)據(jù)庫(kù)中抽取用戶(hù)目前使用 機(jī)型的相關(guān)屬性; b) 利用預(yù)處理后的數(shù)據(jù)將相應(yīng)的信息抽取出來(lái)為每個(gè)用戶(hù)構(gòu)建對(duì)應(yīng)的用戶(hù)向量,并使 用本系統(tǒng)設(shè)計(jì)的方法計(jì)算用戶(hù)間的相似度; C)計(jì)算目標(biāo)用戶(hù)與其他用戶(hù)的相似度取相似度最大的前N個(gè)作為目標(biāo)用戶(hù)的最近鄰 居; 具體過(guò)程如下: (1) 數(shù)據(jù)預(yù)處理,對(duì)于正在使用的用戶(hù),清理掉山寨機(jī)用戶(hù)和剛?cè)刖W(wǎng)不到半年的用戶(hù), 得到正常用戶(hù)集合A。山寨機(jī)用戶(hù)的清理方法是如果有同一串號(hào)對(duì)應(yīng)多個(gè)手機(jī)則是山寨機(jī), 入網(wǎng)不到半年的用戶(hù)則是通過(guò)入網(wǎng)時(shí)間距離當(dāng)前月份大于六個(gè)月來(lái)篩選. (2) 對(duì)A中的用戶(hù)建立用戶(hù)向量集合U,用戶(hù)向量?jī)杉尤險(xiǎn)中,包含S類(lèi)信息,分別是用 戶(hù)本身屬性,消費(fèi)信息和當(dāng)前使用機(jī)型信息; (3) 將用戶(hù)Ui的性另Ij、年齡、入網(wǎng)時(shí)長(zhǎng)信息加入用戶(hù)向量U1。 (4) 將用戶(hù)Ui的消費(fèi)信息,包括平均通話(huà)時(shí)長(zhǎng)、短信、消費(fèi)、流量等信息加入到用戶(hù)向量 Ui; 妨將用戶(hù)Ui當(dāng)前的用機(jī)信息,包括機(jī)型所對(duì)應(yīng)的價(jià)格、制式、品牌、操作系統(tǒng)、是否是 智能機(jī)、是否支持TD、是否支持?jǐn)z像頭、是否支持GPRS、尺寸等信息加入到用戶(hù)向量n,; (6) 計(jì)算用戶(hù)Ui與所有其他用戶(hù)的相似度,得到相似度矩陣,相似度的計(jì)算如下:
其中馬和兩表示用戶(hù)Ui,Uj.所對(duì)應(yīng)的用戶(hù)向量。余弦部分計(jì)算的是用戶(hù)向量中用戶(hù) 本身信息和消費(fèi)信息部分的相似度,由于該部分?jǐn)?shù)據(jù)屬性是混合屬性,而余弦度量要求向 量中的每個(gè)屬性必須是實(shí)數(shù),所W需要對(duì)分類(lèi)屬性進(jìn)行量化。性別分別用0和1表示。 Sim師e(u^Uj')計(jì)算的則是用戶(hù)Ui和uj當(dāng)前使用機(jī)型的相似度,同一品牌同一機(jī)型相似度為 1,同一品牌不同機(jī)型相似度為0. 5,不同品牌的相似度為0; (7) 取相似度最大的前N個(gè)用戶(hù)構(gòu)成目標(biāo)用戶(hù)Ui的最近鄰居集合N 巧)結(jié)束; a)結(jié)束; 2) 機(jī)型推薦階段: a) 構(gòu)建所有機(jī)型的生命周期模型并計(jì)算出處于成熟期及之前階段的機(jī)型集合; b) 使用目標(biāo)用戶(hù)的最近鄰為所有機(jī)型進(jìn)行打分,之后向目標(biāo)用戶(hù)推薦; 具體過(guò)程如下: (1)查詢(xún)用戶(hù)集合U中的所有用戶(hù)當(dāng)前使用的機(jī)型并構(gòu)造機(jī)型集合P; (2) 建立一個(gè)集合MATURE用于存放處于成熟期及之前階段的機(jī)型; (3) 查詢(xún)P中的每個(gè)機(jī)型Pi自上市W來(lái)每個(gè)月的使用量增量數(shù)據(jù)得到向量z'n"巧,increment^中的第d維元素表示機(jī)型Pi上市后第d月的使用量增量; (4) 對(duì)P中的每個(gè)機(jī)型Pi分別構(gòu)造生命周期模型nii,方法是采用S次多項(xiàng)式擬合 increment^中的增量數(shù)據(jù),多項(xiàng)式方程為;Y(t)=aa+ait+a2t2+a3t3。擬合后得到相應(yīng)的參 數(shù)值a。,ai,32, 33,其中Y(t)表示機(jī)型Pi上市后第t月的使用量增量; (5) 確定機(jī)型Pi所處的生命階段。計(jì)算
,令當(dāng)前月份是機(jī)型Pi上市的第t月,如 果twfG(ta,ti),則處在引入期姻果(t^t2),則處在成長(zhǎng)期;如果twfG(t2,t3), 則處在成熟期;如果twt>t3,則進(jìn)入衰退期,銷(xiāo)量逐漸減少,即將退出市場(chǎng),不參與機(jī)型推 薦; (6) 將P中處在成熟期W及之前階段的所有機(jī)型加入到集合MATURE中; (7)為MATURE中的每個(gè)機(jī)型Qk打分,打分的方法是
其中Ni是目標(biāo)用戶(hù)Ui的最近鄰居集合; (8) 對(duì)打分結(jié)果進(jìn)行降序排序,取最高的N個(gè)機(jī)型推薦給目標(biāo)用戶(hù)Ui,將結(jié)果保存到文 件中; (9) 將推薦結(jié)果交由營(yíng)銷(xiāo)人員進(jìn)行營(yíng)銷(xiāo); (10) 結(jié)束; C)結(jié)束; 結(jié)束。
【專(zhuān)利摘要】基于協(xié)同過(guò)濾推薦算法的手機(jī)機(jī)型推薦方法,利用協(xié)同過(guò)濾推薦算法的框架,結(jié)合機(jī)型生命周期模型和相應(yīng)的打分函數(shù)來(lái)為用戶(hù)精確推薦機(jī)型,包括如下步驟,包括最近鄰計(jì)算階段和機(jī)型推薦階段:數(shù)據(jù)預(yù)處理,清除噪聲和異常數(shù)據(jù),排除不符合要求的用戶(hù)和機(jī)型,從用戶(hù)數(shù)據(jù)庫(kù)中抽取目前正在使用的用戶(hù)的個(gè)人信息和歷史消費(fèi)信息,從機(jī)型數(shù)據(jù)庫(kù)中抽取用戶(hù)目前使用機(jī)型的相關(guān)屬性;利用預(yù)處理后的數(shù)據(jù)將相應(yīng)的信息抽取出來(lái)為每個(gè)用戶(hù)構(gòu)建對(duì)應(yīng)的用戶(hù)向量,并使用本系統(tǒng)設(shè)計(jì)的方法計(jì)算用戶(hù)間的相似度;計(jì)算目標(biāo)用戶(hù)與其他用戶(hù)的相似度取相似度最大的前N個(gè)作為目標(biāo)用戶(hù)的最近鄰居。
【IPC分類(lèi)】G06Q30-02
【公開(kāi)號(hào)】CN104794635
【申請(qǐng)?zhí)枴緾N201510186307
【發(fā)明人】吳駿, 苗霽, 彭岳, 戴恒宇, 王崇駿, 李寧
【申請(qǐng)人】南京大學(xué)
【公開(kāi)日】2015年7月22日
【申請(qǐng)日】2015年4月17日