一種基于時(shí)序數(shù)據(jù)挖掘的視頻推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于視頻技術(shù)、視頻推薦技術(shù)領(lǐng)域,具體涉及一種基于時(shí)序數(shù)據(jù)挖掘的視 頻推薦方法。
【背景技術(shù)】
[0002] 隨著通信技術(shù)的發(fā)展,網(wǎng)絡(luò)可用帶寬迅速增加,觀看視頻對(duì)于PC用戶甚至移動(dòng)終 端用戶都已經(jīng)是一件稀松平常的事,這也帶來互聯(lián)網(wǎng)視頻行業(yè)如火如荼的發(fā)展,而視頻推 薦系統(tǒng)是互聯(lián)網(wǎng)視頻服務(wù)中的重要組成部分。最初的視頻推薦系統(tǒng)根據(jù)影片之間的相似性 進(jìn)行推薦,對(duì)于觀看同一部影片的兩個(gè)用戶會(huì)給出相同的推薦結(jié)果。然而近年來隨著個(gè)性 化推薦方法在搜索引擎和購(gòu)物網(wǎng)站上的成功應(yīng)用,視頻推薦領(lǐng)域也越來越重視針對(duì)用戶特 征的個(gè)性化視頻推薦。個(gè)性化視頻推薦綜合考慮用戶的觀影歷史、社交關(guān)系及當(dāng)前播放影 片等信息,推薦該用戶可能感興趣的影片??梢灶A(yù)見,個(gè)性化推薦方法在視頻領(lǐng)域也將擁有 廣闊的應(yīng)用前景和可觀的盈利預(yù)期。
[0003] 個(gè)性化視頻推薦方法大致分為內(nèi)容過濾方法(Content-basedRecommendation) 和協(xié)同過濾方法(CollaborativeFilteringRecommendation)兩類。內(nèi)容過濾方法根據(jù) 用戶喜歡的影片信息,給用戶推薦在內(nèi)容上相似的其他視頻,比如A用戶喜歡《讓子彈飛》, 那么內(nèi)容過濾系統(tǒng)會(huì)推薦姜文作為導(dǎo)演的其他作品如《一步之遙》。由此可見內(nèi)容過濾方 法的實(shí)質(zhì)是計(jì)算影片的相似度,一般情況下,內(nèi)容過濾方法先定義一系列標(biāo)簽用于表征一 個(gè)視頻特征和用戶喜好,從而將視頻相似度問題轉(zhuǎn)化為向量距離計(jì)算問題。協(xié)同過濾方法 利用用戶對(duì)項(xiàng)目的歷史評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶相似性或者項(xiàng)目相似性,進(jìn)而根據(jù)相似性進(jìn)行推 薦。協(xié)同過濾方法記錄所有用戶對(duì)所有項(xiàng)目的評(píng)分,形成一個(gè)M*N維的用戶-項(xiàng)目評(píng)分矩 陣,其中M是用戶數(shù),N是項(xiàng)目數(shù),矩陣中的一個(gè)單元Rm,n表示用戶m對(duì)項(xiàng)目n的評(píng)分,矩陣 中每一行代表一個(gè)用戶向量,通過相似度計(jì)算方法可以得到用戶向量間的相似度,也即用 戶間的相似度;矩陣中的每一列代表一個(gè)項(xiàng)目,同樣的可以用相似度計(jì)算方法得到項(xiàng)目間 的相似度。根據(jù)用戶間的相似度,可以給一個(gè)用戶推薦與他有相似興趣的用戶所喜歡的項(xiàng) 目,這種推薦叫做基于用戶的協(xié)同過濾(UserCF);根據(jù)項(xiàng)目間的相似度,可以給一個(gè)用戶 推薦與他喜歡的項(xiàng)目相似的項(xiàng)目,這種推薦叫做基于項(xiàng)目的協(xié)同過濾(ItemCF)。
[0004] 無論內(nèi)容過濾算法還是協(xié)同過濾算法,都是從用戶興趣的角度出發(fā),為用戶推薦 其可能喜歡的影片,然而現(xiàn)實(shí)生活中,用戶的興趣往往是隨著時(shí)間逐漸變化著的,這種現(xiàn)象 叫做興趣迀移。如果在給用戶進(jìn)行個(gè)性化視頻推薦時(shí)沒有考慮到用戶的興趣迀移,就意味 著系統(tǒng)可能只給用戶推薦了他之前喜歡的影片,但與其最近的興趣不符,這就降低了推薦 的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明針對(duì)個(gè)性化視頻推薦系統(tǒng)中的用戶興趣迀移問題,提供一種基于時(shí)序數(shù)據(jù) 挖掘的視頻推薦方法,能夠提高視頻推薦的準(zhǔn)確性和效率。
[0006] 本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于時(shí)序數(shù)據(jù)挖掘的視頻推薦方法,其步驟包括:
[0008] 1)通過第三方數(shù)據(jù)分析用戶對(duì)視頻的興趣梯度變化,并得到用戶興趣梯度曲線, 將用戶興趣梯度曲線的奇異點(diǎn)作為用戶興趣迀移的時(shí)間點(diǎn);
[0009] 2)確定用戶最近的興趣迀移時(shí)間點(diǎn),對(duì)用戶最近的興趣迀移時(shí)間點(diǎn)以后的用 戶-項(xiàng)目評(píng)分進(jìn)行采集,從而建立選定時(shí)間窗口內(nèi)的符合用戶當(dāng)前興趣的用戶-項(xiàng)目評(píng)分 矩陣;
[0010] 3)基于所述用戶-項(xiàng)目評(píng)分矩陣,通過使用隨機(jī)游走模型進(jìn)行用戶的個(gè)性化視頻 推薦。
[0011] 進(jìn)一步地,步驟1)所述第三方數(shù)據(jù)優(yōu)選為豆瓣評(píng)分,通過分析用戶的豆瓣評(píng)分歷 史繪制用戶興趣梯度曲線。
[0012] 進(jìn)一步地,步驟1)得到所述用戶興趣梯度曲線的方法是:將視頻的各個(gè)屬性組成 一個(gè)屬性向量;在每個(gè)時(shí)間點(diǎn),將視頻的各個(gè)屬性按照當(dāng)前時(shí)間以及之前時(shí)間的用戶評(píng)分 記錄進(jìn)行加權(quán),得到一個(gè)用戶興趣向量;根據(jù)用戶在時(shí)間軸上多個(gè)時(shí)間點(diǎn)的一系列用戶興 趣向量,分析得到隨時(shí)間變化的用戶興趣梯度曲線。所述視頻的各個(gè)屬性包括:名稱、演員、 導(dǎo)演、年代、簡(jiǎn)介等。
[0013] 進(jìn)一步地,步驟2)所述用戶-項(xiàng)目評(píng)分包括顯式評(píng)分和隱式評(píng)分;所述顯式評(píng)分 是在用戶觀看視頻時(shí),用戶對(duì)當(dāng)前正在觀看的視頻進(jìn)行的評(píng)分;所述隱式評(píng)分是記錄用戶 的觀看、跳轉(zhuǎn)、收藏、分享動(dòng)作,根據(jù)用戶的不同動(dòng)作預(yù)測(cè)用戶對(duì)視頻的喜好程度。
[0014] 進(jìn)一步地,步驟2)通過對(duì)用戶-項(xiàng)目評(píng)分進(jìn)行量化及歸一化過程,得到興趣迀移 時(shí)間以后的用戶-項(xiàng)目評(píng)分矩陣,矩陣中的每一行代表一個(gè)用戶特征,每一列代表一個(gè)項(xiàng) 目特征。
[0015] 進(jìn)一步地,步驟3)首先根據(jù)用戶-項(xiàng)目評(píng)分矩陣計(jì)算出用戶u在第k步處于項(xiàng)目 j的轉(zhuǎn)移概率,然后計(jì)算用戶u對(duì)項(xiàng)目j的全局概率,然后計(jì)算所有用戶對(duì)所有項(xiàng)目的全局 概率,從而得到用戶-項(xiàng)目排序矩陣i,根據(jù)該矩陣進(jìn)行個(gè)性化視頻推薦。
[0016] 本發(fā)明的關(guān)鍵點(diǎn)是:通過第三方數(shù)據(jù)給用戶建模,發(fā)現(xiàn)用戶興趣迀移;通過確定 用戶最近的興趣迀移時(shí)間點(diǎn),建立用戶-項(xiàng)目評(píng)分矩陣;通過使用隨機(jī)游走模型代替協(xié)同 過濾方法進(jìn)行個(gè)性化視頻推薦。
[0017] 本發(fā)明針對(duì)個(gè)性化視頻推薦系統(tǒng)中的用戶興趣迀移問題,使用第三方數(shù)據(jù)分析用 戶興趣梯度變化,發(fā)現(xiàn)用戶興趣迀移時(shí)間,從而確定合適的訓(xùn)練時(shí)間窗口大??;在時(shí)間窗 口內(nèi),基于RandomWalker隨機(jī)算法創(chuàng)建信任度模型,從而實(shí)現(xiàn)針對(duì)某個(gè)用戶的個(gè)性化視 頻推薦。該方法考慮了個(gè)性化視頻推薦中的興趣迀移問題,并融合了時(shí)間窗口方法和基于 RandomWalker的信任度模型進(jìn)行個(gè)性化視頻推薦,提高了視頻推薦的準(zhǔn)確性和效率。
【附圖說明】
[0018] 圖1是基于時(shí)序數(shù)據(jù)挖掘的視頻推薦方法總體流程圖。
[0019] 圖2是基于興趣梯度分析的用戶興趣迀移檢測(cè)曲線。
【具體實(shí)施方式】
[0020] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面通過具體實(shí)施例和 附圖,對(duì)本發(fā)明做進(jìn)一步說明。
[0021] 本發(fā)明利用第三方數(shù)據(jù)(比如利用豆瓣評(píng)分)發(fā)現(xiàn)用戶興趣迀移,確定訓(xùn)練數(shù)據(jù) 時(shí)間窗口大小,從而屏蔽用戶興趣迀移的影響,進(jìn)而利用基于RandomWalker的信任度模型 進(jìn)行個(gè)性化視頻推薦。圖1是本發(fā)明方法的總體流程圖。
[0022] 1.基于第三方數(shù)據(jù)的用戶興趣迀移發(fā)現(xiàn)
[0023] 如前所述,本發(fā)明使用時(shí)間窗口方法克服用戶興趣迀移對(duì)推薦結(jié)果造成的影響。 固定大小的時(shí)間窗口不能準(zhǔn)確反應(yīng)用戶的興趣迀移,因此,為了得到合適的時(shí)間窗口大小, 本發(fā)明使用第三方數(shù)據(jù)分析用戶興趣梯度變化,估測(cè)用戶興趣迀移時(shí)間,從而確定時(shí)間窗 口的大小。
[0024] 由于本發(fā)明針對(duì)視頻資源進(jìn)行推薦,而當(dāng)前中國(guó)的網(wǎng)絡(luò)環(huán)境中,豆瓣評(píng)分無疑是 最適合客觀評(píng)估用戶視頻興趣的第三方網(wǎng)站。因此,本發(fā)明分析用戶的豆瓣評(píng)分歷史,繪制 用戶興趣梯度曲線,并將其中最近的奇異點(diǎn)作為用戶最近一次興趣迀移起始的標(biāo)志,以此 來確定視頻推薦模型中時(shí)間窗口的大小。
[0025] 1)豆瓣用戶數(shù)據(jù)建模
[0026] 豆瓣是國(guó)內(nèi)最大的影片分享及評(píng)論平臺(tái),超過千萬用戶的注冊(cè)量使得豆瓣評(píng)分在 視頻服務(wù)業(yè)界享有很大的影響力。豆瓣網(wǎng)站上的用戶評(píng)分采用十分滿分制,因此省去了數(shù) 據(jù)歸一化過程,可以直接把用戶在豆瓣上的歷史評(píng)分記錄拿來作為訓(xùn)練數(shù)據(jù)。
[0027] 2)用戶興趣建模
[0028] 為了對(duì)影片進(jìn)行描述,本發(fā)明將影片的名稱、演員、導(dǎo)演、年代、簡(jiǎn)介等作為一個(gè) 向量,用該屬性向量表示一個(gè)影片。比如表1中影片a就可以用[Namea,ActoraActor b,Directora, 2014,KeywordaKeywordd]這樣的屬性向量來表不。
[0029] 根據(jù)某個(gè)用戶對(duì)其觀看影片的評(píng)分記錄,可以將各個(gè)影片的屬性按評(píng)分進(jìn)行加 權(quán),從而得到該用戶的喜好特征向量。比如某用戶A共觀看過4部影片,分別為影片a、影片 b、影片c、影片d,而A對(duì)四個(gè)影片的評(píng)分記錄如表1所示。
[0030] 表1用戶觀影歷史及評(píng)分記錄表
[0031]
[0032] 那么,該用戶的興趣向量就可以表示為I(t) =[namea*9+nameb*5+name 0^9+name d氺9, actor a氺24+actor b氺9+actor c氺14+actor d氺18, director a氺18+director b*9+director c*9,2014*27+2010*5, keyword a*18+keyword b*9+keyword c*9+keyword e*9+keyword f^9+keyword g*5+keyword h*5] = [name a,actor a,director a, 2014, keyword a](假定興趣向量中每一項(xiàng)只按權(quán)重排序取一個(gè)值,權(quán)值相同的隨機(jī)取一 個(gè)值)。
[0033] 隨著時(shí)間的推移,用戶的評(píng)分記錄會(huì)越來越多,因此在每個(gè)時(shí)間點(diǎn),我們都可以根 據(jù)當(dāng)前時(shí)間以及之前時(shí)間的歷史評(píng)分記錄,得到一個(gè)用戶興趣向量,據(jù)此,我們可以得到該 用戶在時(shí)間軸上多個(gè)時(shí)間點(diǎn)的興趣向量,每個(gè)興趣向量都代表了用戶在對(duì)應(yīng)時(shí)間點(diǎn)觀看視 頻的偏好。
[0034] 3)用戶興趣迀移發(fā)現(xiàn)
[0035] 依據(jù)上述的一系列用戶興趣向量,可以分析得到隨時(shí)間變化的用戶興趣梯度,找 到梯度曲線的奇異點(diǎn)作為興趣迀移的時(shí)間點(diǎn)。該點(diǎn)即為用戶興趣迀移的標(biāo)志,從而為后續(xù) 的協(xié)同過濾視頻推薦算法提供時(shí)間窗口大小的依據(jù)。
[0036] 某個(gè)時(shí)間點(diǎn)t的興趣梯度計(jì)算公式為:
[0037] D(t) =1 (t)-I(t~l)
[0038] 其中,D(t)為t時(shí)刻的用戶興趣梯度;I(t)為t時(shí)刻的用戶興趣向量;I(t_l)為 t時(shí)刻前一時(shí)刻的用