移動社交網(wǎng)絡中基于時空行為模式的用戶興趣模型構建方法
【專利說明】移動社交網(wǎng)絡中基于時空行為模式的用戶興趣模型構建方 法
【背景技術】
[0001] 一般地,個性化推薦技術包括用戶興趣建模、項目匹配、推薦等幾個階段。其中用 戶興趣模型是個性化服務的基礎和核心,為了提供個性化服務,必須研究用戶的個性化需 求,獲取、分析用戶的信息,建立合適的用戶興趣模型來表示用戶的興趣偏好。準確、合適的 用戶興趣模型是個性化推薦的基礎和前提,是提供個性化服務質量的保證。簡單的講,用 戶興趣建模是發(fā)現(xiàn)和管理用戶興趣、需求或習慣等相關知識的過程,最后產(chǎn)生一個存儲或 者描述用戶興趣偏好的模型,稱之為用戶興趣模型。用戶興趣模型是推薦系統(tǒng)得到個性化 推薦結果的主要知識依據(jù),其描述的用戶興趣偏好很大程度上決定推薦什么,所以說用戶 興趣模型也是個性化推薦的基礎。Y.Zhang和J.Koren等人在總結他們的實驗結論時也提 至IJ,影響個性化服務質量的首要因素在于信息及其相關模型的表示,其次是算法復雜性的 影響。所以個性化服務中,關鍵技術之一就是用戶興趣模型的構造。學者應曉敏闡述了用 戶興趣建模在面向Internet個性化服務中的重要性,認為個性化服務系統(tǒng)主要包括用戶 信息收集模塊、用戶建模模塊和個性化服務模塊,同時圍繞用戶建模總結了用戶模型的表 示方法,分析了用戶建模的信息來源,并對用戶建模技術進行了歸納和分類,用戶建模時需 要考慮模型的易用性、靈活性、可更新性和可修改性,同時也能跟蹤用戶興趣的變化。
[0002] 作為個性化服務的基礎和核心,用戶興趣模型直接關系到個性化服務的質量。只 有當用戶的興偏好以及用戶信息可以很好地被系統(tǒng)"理解"的時候,換言之系統(tǒng)能得到準確 有效的用戶興趣模型之后,才可能提供理想的個性化服務。所以從用戶信息中發(fā)現(xiàn)用戶興 趣,構建用戶興趣模型,即用戶興趣建模,也就成為了個性化服務的核心和關鍵技術。用戶 興趣模型是推薦系統(tǒng)產(chǎn)生個性化推薦的主要知識依據(jù),其發(fā)現(xiàn)用戶真實興趣偏好的能力在 很大程度上決定了推薦的質量。對用戶建模的研究不僅對推薦系統(tǒng)本身至關重要,而且對 促進電子商務的發(fā)展也具有重要意義。
[0003] 對于用戶興趣模型的概念,不同的學者有不同的看法:
[0004] 學者張丙奇在他的研究中認為,用戶興趣模型在個性化服務系統(tǒng)中表現(xiàn)為用戶的 描述文件或用戶模型。
[0005] 學者劉偉成等人使用用戶模型來用來表示用戶對特定主題信息的相對穩(wěn)定的興 趣需求,即用戶的信息需求自提交到注銷這段時間內(nèi),用戶信息需求的一體化描述,包括動 態(tài)更新以精確反映用戶的特定興趣,用戶興趣模型的定義為:用戶興趣模型是用來捕捉用 戶需求及其興趣點,并記錄、管理用戶興趣,描述用戶潛在的興趣及需求的模型。在圖書推 薦領域,馬海兵等人采用的用戶興趣建模方法中,用戶興趣模型被形式化描述為一個由狀 態(tài)集、反饋信息集和學習函數(shù)組成的三元組,提出一種通用的方法,將各種反饋信息融合統(tǒng) 一,開發(fā)了一個科技文獻推薦系統(tǒng),使用戶在盡可能少的參與下,完成用戶興趣模型的建 立、學習和更新。蔣萍和崔志明在研究智能搜索引擎中用戶興趣模型時,將用戶模型定義為 用于存儲用戶的興趣、存儲和管理用戶的行為歷史、存儲學習用戶行為的知識和進行相關 推導的知識的功能集合。近似地,在文獻中用戶興趣模型被定義為:用戶興趣模型是指記 錄、存儲用戶的興趣需求,并隨著需求調(diào)整進行動態(tài)更新的面向算法的,具有特定數(shù)據(jù)結構 的、形式化的用戶描述。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明旨在針對現(xiàn)有用戶興趣模型的不足,結合移動社交網(wǎng)絡的特點,研究基于 用戶時空行為模式構建表征用戶興趣偏好的興趣模型,通過現(xiàn)有的用戶在移動社交網(wǎng)絡數(shù) 據(jù)去構建用戶興趣模型,同時挖掘填充模型中的空缺項,挖掘用戶在不同行為模式下對不 同主題的興趣度,從而幫助用戶過濾不感興趣的信息,提高個性化服務質量,改善信息過載 問題,增強用戶體驗。
[0007] 技術方案為:
[0008] -種移動社交網(wǎng)絡中基于時空行為模式的用戶興趣模型構建方法,其特征在于, 包括如下步驟:
[0009] 首先,通過模型初始化算法處理用戶在移動社交網(wǎng)絡環(huán)境中不同時空行為模式下 的歷史數(shù)據(jù),得到初始用戶興趣模型,訓練過程中可能缺少某些時空行為模式下用戶對主 題的行為數(shù)據(jù),從而模型中存在空缺項;
[0010] 接著,通過用戶-主題興趣矩陣分別計算用戶與用戶之間、主題與主題之間的相 似性,獲得用戶和主題的相似性集合;
[0011] 然后,對用戶主題相似性集合分別進行相似近鄰計算,選擇相似用戶和相似主 題;
[0012] 最后,根據(jù)選擇的相似近鄰的興趣度計算用戶興趣模型中的空缺項。
[0013] 本發(fā)明提出的用戶興趣模型融合了用戶-主題矩陣和情景信息,同時結合移動社 交網(wǎng)絡的特點。情景信息由時間和位置兩個維度構成,興趣模型反映用戶在不同情景下的 興趣偏好信息。
【附圖說明】
[0014] 圖1基于時空行為模式的用戶興趣模型示意圖
[0015] 圖2用戶興趣模型的構建流程
【具體實施方式】
[0016] 本發(fā)明提出的用戶興趣模型融合了用戶-主題矩陣和情景信息,同時結合移動社 交網(wǎng)絡的特點。情景信息由時間和位置兩個維度構成,興趣模型反映用戶在不同情景下的 興趣偏好信息。為了描述用戶興趣模型,給出如下定義:
[0017] 定義1基于時空行為模式的用戶興趣模型(UserInterestModelBasedonTLP, ΙΠΜ) :ΙΠΜ包含用戶時空行為模式和用戶興趣,使用用戶-主題矩陣融合情景信息的方法表 示用戶的興趣,是一個三元組ΙΠΜ= {U,S,C},記為1]頂_,其中U,S,C分別定義如下。
[0018] U= "'uj表示移動社交網(wǎng)絡用戶的有限集合,其中Ui(l彡i彡m)是一 個移動社交網(wǎng)絡用戶,m是所有用戶的數(shù)量;
[0019] S= {Sl,s2,…,sj表示移動社交網(wǎng)絡內(nèi)容主題的有限集合,其中Sj(l彡j彡η) 是一個主題,η是主題的數(shù)量;
[0020] C= {Cl,c2,…,c。}表示用戶時空行為模式的有限集合,其中ck(l彡k彡c)表示 從時間和空間兩個維度描述用戶所處情景信息的一種行為模式,用二元組表示,記為C= (Ct,Q),(;表示時間;Ci表示用戶位置;k是用戶行為模式的數(shù)量。
[0021] 定義 2 用戶-主題興趣矩陣(User-SubjectInterestMatrix,USIM):設[^是 一個用戶興趣模型,US頂是在UHL。中給定的時空行為模式ck(l彡k彡C)所確定的一個 矩陣,是一個三元組{u,s,ck},記為usmk,其中ckec。
[0022] 定義3用戶興趣序列(UserInterestSeries,UIS):設UIMmn。是一個用戶興趣模 型,UIS是中由給定用戶和主題,隨著用戶行為模式變化的一個序列,是一個三元組 記為UIS。,其中UieU,s#S。
[0023] 由上述定義可知,f=U=U 。用Rljk表示在行為模式Ck下用 戶A對主題s郝興趣度,取值范圍為0-1的實數(shù),易知Rljk=usmknuiSmΙΠΜ反映了 用戶在不用行為模式下對不同主題的興趣,US頂和UIS是從不同維度對ΙΠΜ的觀察結果, US頂表示在某一確定行為模式下用戶對主題的興趣度狀態(tài),UIS表示某一用戶從行為模式 維度對主題興趣度的變化趨勢。
[0024] 本發(fā)明使用用戶-主題-時空行為模式構成的三維空間表示用戶在不同時空行為 模式下對不同主題的興趣度,如圖1所示。圖1(a)表示用戶興趣模型UIMm。,其中每一項表 示用戶Ul (1彡i彡m)在某一時空行為模式ck (1彡k彡c)下對某一主題sj(1彡j彡η)的 興趣度Rljk,例如用戶。2在時空行為模式。。下對主題53的興趣度R23。=〇. 234;圖1 (b)表示 用戶-主題興趣矩陣US頂。,時空行為模式c。下用戶ui(1彡i彡m)對主題Sj (1彡j彡η) 的興趣度;圖1 (c)表示用戶興趣序列UPS23,用戶u2和主題s3,隨著用戶時空行為模式變化 的一個序列。在圖1中用戶u3缺少在時空行為模式c。下對主題s4的興趣度R34。,出現(xiàn)這種 情況的原因是用戶u3在時空行為模式c。下對主題s4不感興趣,或者從來不感興趣。本發(fā) 明要解決的問題就是通過現(xiàn)有的用戶在移動社交網(wǎng)絡數(shù)據(jù)去構建用戶興趣模型UIMm。,同 時挖掘填充模型中的空缺項,挖掘用戶在不同行為模式下對不同主題的興趣度。
[0025] (案例)
[0026] 圖2給出了基于時空行為模式的用戶興趣模型的構建流程。
[0027] 首先,通過模型初始化算法處理用戶在移動社交網(wǎng)絡環(huán)境中不同時空行為模式下 的歷史數(shù)據(jù),得到初始用戶興趣模型,訓練過程中可能缺少某些時空行為模式下用戶對主 題的行為數(shù)據(jù),從而模型中存在空缺項。
[0028] 接著,通過用戶-主題興趣矩陣分別計算用戶與用戶之間、主題與主題之間的相 似性,獲得用戶和主題的相似性集合。
[0029] 然后,對用戶主題相似性集合分別進行相似近鄰計算,選擇相似用戶和相似主題。
[0030] 最后,根據(jù)選擇的相似近鄰的興趣度計算用戶興趣模型中的空缺項。
[0031] (1)模型初始化
[0032] 模型初始化就是分析用戶在移動社交網(wǎng)絡環(huán)境中不同時空行為模式下的歷史數(shù) 據(jù),得到初始用戶興趣模型,記作UPM1。由模型的表示可知,模型初始化主要是計算用戶在 不同時空行為模式下對主題的興趣度。
[0033]在用戶時空行為模式(;下,用戶h的行為數(shù)據(jù)表現(xiàn)為一條條微博內(nèi)容,首先需要 將一條條微博進行整合,這樣可以有效解決短文本特征詞獲取困難問題。整合之后通過分 詞,去停用詞,計算詞頻tfi=nt/nw,\表示詞語t在微博中出現(xiàn)的次數(shù),nw表示微博所有 詞語的個數(shù)。微博內(nèi)容可以表示為向量?表示關鍵詞,tf^ 示詞頻。
[0034] TiiXt!,w!),(t!,w!),· · ·,(tt,wt)),i= 1,2, · · ·,m是第二章數(shù)據(jù)預處理得至IJ的m個 主題的特征