專利名稱:基于用戶瀏覽行為的用戶興趣建模方法
技術(shù)領(lǐng)域:
本發(fā)明是針對用戶興趣建模方法的研究,主要研究如何基于用戶的瀏覽行為來有 效獲取用戶的興趣信息,并設(shè)計了用戶興趣建模的相關(guān)算法,涉及到流量識別、Web挖掘、用 戶行為分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘和自然語言等多領(lǐng)域。
背景技術(shù):
個性化推薦服務(wù)是新一代的信息服務(wù),是信息服務(wù)發(fā)展的趨勢,通過研究不同用 戶的興趣,主動為用戶推薦最需要的資源,就能更好地解決互聯(lián)網(wǎng)信息日益龐大卻無法滿 足用戶需求的矛盾。用戶興趣模型已經(jīng)成為個性化推薦服務(wù)的核心和關(guān)鍵技術(shù)。
用戶興趣模型不是對用戶個體的一般性描述,而是一種具有面向算法、特定數(shù)據(jù) 結(jié)構(gòu)、形式化的用戶描述。良好的用戶興趣模型可以為個性化推薦服務(wù)提供更有力的支持。 現(xiàn)在的用戶興趣建模方法還存在很多不足,主要表現(xiàn)在 (1)大多數(shù)用戶興趣建模方法放大或縮小網(wǎng)頁對用戶興趣表達的重要性。
(2)目前用戶興趣模型更新所采用的方法要么過于強調(diào)用戶興趣的即時性,忽略
了持久性;要么過于注重時間因素,而忽略主動發(fā)現(xiàn)用戶新的興趣。 由上可見,采用傳統(tǒng)用戶興趣建模方法很難準確的識別用戶的興趣。因此,必須另 辟蹊徑。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是設(shè)計針對用戶瀏覽行為建立用戶興趣模型的方法。通 過挖掘和分析用戶的網(wǎng)絡(luò)瀏覽行為,分析其訪問模式、行為習(xí)慣和喜好趨向,根據(jù)用戶行為 的分析結(jié)果,向用戶提供更加富有個性和親和力的業(yè)務(wù)。 技術(shù)方案本發(fā)明提出了一種基于用戶瀏覽行為的用戶興趣建模方法,其特征在 于該方法的步驟為 A.顯式構(gòu)建用戶興趣模型未注冊的用戶先通過用戶注冊填寫個人信息及興趣 愛好來構(gòu)建初始用戶興趣模型,已注冊的用戶直接登錄即可; B.隱式更新用戶興趣模型根據(jù)用戶瀏覽過的網(wǎng)頁隱式完善和更新用戶興趣模 型,其過程如下 1)訓(xùn)練過程訓(xùn)練過程是指完成訓(xùn)練集文檔的向量表示過程,在訓(xùn)練過程中,訓(xùn) 練集實例經(jīng)過網(wǎng)頁預(yù)處理、中文分詞和特征選取處理后被表示成第一向量的形式,行成特 征向量集,該特征向量集用來描述類別模式,在分類過程中使用; 2)歷史網(wǎng)頁處理過程歷史訪問庫中存儲用戶訪問web的歷史記錄,這些歷史網(wǎng) 頁經(jīng)過網(wǎng)頁預(yù)處理、中文分詞并表示成第二向量; 3)頁面分類所述第一向量和第二向量按照KNN分類算法對待分類的用戶歷史文 檔進行分類,取最相近者的類別作為用戶感興趣的類別; 4)興趣更新比較用戶原有興趣類別與頁面分類得到的新的興趣類別,按照興趣模型更新算法對用戶興趣進行更新。 所述顯式構(gòu)建用戶興趣模型的方法如下 a)將用戶興趣樹的根結(jié)點初始化為用戶名,權(quán)重置為1 ; b)計算一級興趣結(jié)點的權(quán)重統(tǒng)計用戶注冊時選擇的興趣類別個數(shù)n,則每個一 級興趣類別&的權(quán)重為1/n,其中& G C ; c)計算二級興趣結(jié)點的權(quán)重統(tǒng)計一級興趣類別&包含二級興趣類別Cj的個數(shù)
m,則二級興趣類別Cj的權(quán)重為1/nm,其中Cj G & G C, i G [1, n] , j G [1, m]; d)計算特征項T2的權(quán)重統(tǒng)計二級興趣類別Cj中包含的特征項T2個數(shù)p,則二
級興趣類別Cj中每個特征項T2的權(quán)重為1/nmp ; 其中,C為興趣總類別。 所述隱式更新用戶興趣模型的興趣模型更新還包括如下方法 i.對用戶感興趣的Web文檔做網(wǎng)頁預(yù)處理,提取特征項Tl,計算特征項Tl的權(quán)
重,將該文檔表示成第二向量,記作Dn6W ; ii.依據(jù)蘭式距離分類算法,計算D,與用戶興趣樹中的每個二級興趣類別Cj之 間的蘭式距離,得到與D,相關(guān)度最大的二級興趣類別,記作Ck,而ck中的特征項T2將ck 表示成第三向量0^; iii.比較Dnsw中的特征項Tl和ck中的特征項T2是否相同,如果特征項t同時出
現(xiàn)在第二向量Dnew和第三向量Dek中,則將第二向量和第三向量中特征項t對應(yīng)的權(quán)值相加, 所得的和作為Ck中特征項t的權(quán)值;如果特征項t僅出現(xiàn)在Ck中,則保留該特征項t ;如果
特征項t僅出現(xiàn)在Dnew中,將Dnew中的特征項t及其權(quán)值添加到第三向量Dek中; iv.判斷Dek包含的特征項T2個數(shù)是否大于最大個數(shù)閾值l ,若不大于最大個數(shù)
閾值,則轉(zhuǎn)步驟v,否則,將Dsk中的特征項T2按照權(quán)重遞減的順序排列,取前《個作為q
的特征項T2 ; v.結(jié)束; 其中,D,為將web文檔表示成的向量,第三向量DA是由ck中的特征項T2所表示 的,Cj(j G [l,m])為二級興趣類別,Ck(k G [l,m])為與D,相關(guān)度最大的二級興趣類別, m為一級興趣類別Ci包含二級興趣類別Cj的個數(shù),l指最大個數(shù)閾值。
有益效果 通過對用戶興趣建模方法的研究,能夠解決以下問題 a)提供各種統(tǒng)計報表,完成網(wǎng)站日常維護工作。 b)改進Web站點內(nèi)容和結(jié)構(gòu)上的設(shè)計,來改善網(wǎng)站性能。 c)導(dǎo)航用戶瀏覽行為,支持商業(yè)智能和市場決策。 d)分析用戶訪問行為的趨勢,了解Web正在發(fā)生的變化。 對于用戶興趣模型的研究具有很廣泛的意義和應(yīng)用價值。主要可以應(yīng)用在 1)個性化推薦服務(wù); 2)網(wǎng)絡(luò)站點結(jié)構(gòu)解析; 3) Internet用戶興趣熱點分析; 4)數(shù)字圖書館建設(shè);
圖1是基于用戶瀏覽行為的用戶興趣模型總體結(jié)構(gòu)圖。
具體實施例方式
下面結(jié)合附圖對發(fā)明的技術(shù)方案進行詳細說明 本文的關(guān)鍵方法是基于用戶瀏覽行為的用戶興趣建模方法,該方法包括兩個部 分顯式構(gòu)建用戶興趣模型和隱式更新用戶興趣模型。顯式構(gòu)建用戶興趣模型是對用戶興 趣模型的初步確立以及初始化的過程,隱式更新用戶興趣模型是在不需要用戶參與的情況 下,通過挖掘用戶瀏覽的日志文件來更新和完善用戶興趣模型。 以下詳細介紹通過顯式構(gòu)建和隱式更新的方式建立用戶興趣模型的過程。 為了區(qū)分用戶的不同興趣類另l」,參考了興趣分類參考模型0DP(0pen
DirectoryProject)的分類層次結(jié)構(gòu),把興趣分類參考模型定義為兩級主題分類, 一級分類
是對所有二級分類的共同屬性的概括,而二級分類則是從不同角度對一級分類的細化,所
有同層子節(jié)點之間是平等的兄弟關(guān)系。將單個用戶的興趣表示成與ODP相一致的樹形結(jié)
構(gòu),為了方便計算我們將樹中的興趣類別和特征項分別賦予一定的權(quán)重。 1.顯式構(gòu)建用戶興趣模型 當(dāng)用戶初次使用用戶興趣模型時,系統(tǒng)會要求用戶進行簡單的注冊。用戶可以填 寫個人信息,并手動選擇自己感興趣的興趣類別。用戶興趣選擇的過程實際上是初步從興 趣分類參考模型的結(jié)構(gòu)中得到用戶興趣樹的過程。顯式構(gòu)建用戶興趣樹的算法如下
a)將用戶興趣樹的根結(jié)點初始化為用戶名,權(quán)重置為1 ; b)計算一級興趣結(jié)點的權(quán)重統(tǒng)計用戶注冊時選擇的興趣類別個數(shù)n,則每個
—級興趣類別&的權(quán)重為l/n,其中& G C ; c)計算二級興趣結(jié)點的權(quán)重統(tǒng)計一級興趣類別&包含二級興趣類別Cj的個數(shù)
m,則二級興趣類別Cj的權(quán)重為1/nm,其中Cj G & G C, i G [1, n] , j G [1, m]; d)計算特征項T2的權(quán)重統(tǒng)計二級興趣類別Cj中包含的特征項T2個數(shù)p,則二
級興趣類別Cj中每個特征項T2的權(quán)重為1/nmp ; 其中,C為興趣總類別。 2.隱式更新用戶興趣模型 隱式更新用戶興趣模型是通過挖掘用戶瀏覽的日志文件來更新和完善用戶興趣 模型。此過程不需要用戶的顯式參與,只是在后臺對用戶的瀏覽行為進行記錄。通過對用戶 瀏覽記錄的挖掘來隱式更新用戶興趣模型。該過程引入中文網(wǎng)頁自動分類技術(shù),通過該技 術(shù)挖掘用戶的興趣類別,從而更新用戶興趣模型。隱式更新用戶興趣模型主要分為數(shù)據(jù)采 集、網(wǎng)頁預(yù)處理、特征提取、特征項權(quán)重計算、文檔的向量表示、興趣自動分類等幾個過程。 下面將詳細闡述隱式更新用戶興趣模型的過程。 (1)數(shù)據(jù)采集用戶興趣模型的數(shù)據(jù)來源是校園網(wǎng)中心分析計費系統(tǒng)的用戶訪問 網(wǎng)絡(luò)的詳細記錄。根據(jù)用戶請求的外網(wǎng)URL(Uniform Resource Locator),計費系統(tǒng)后臺會 自動記錄用戶訪問網(wǎng)絡(luò)的請求,數(shù)據(jù)存放在文本文件中。 (2)網(wǎng)頁預(yù)處理需要對兩類網(wǎng)頁進行處理,一類是每個類別的訓(xùn)練文檔,另一類 是用戶歷史訪問的Web文檔。對于用戶訪問日志,首先要獲取網(wǎng)頁源文件,然后再進行網(wǎng)頁預(yù)處理,而對于訓(xùn)練文檔則直接進行網(wǎng)頁預(yù)處理操作。網(wǎng)頁預(yù)處理包括網(wǎng)頁凈化、中文自動 分詞、維數(shù)約減等,這些技術(shù)目前已相當(dāng)成熟。 (3)特征提取采用X2統(tǒng)計量的特征選取方法從訓(xùn)練集文檔中選取一定數(shù)量的 特征項T1。 (4)特征項Tl權(quán)重計算采用Wik = TFik*IDFik公式計算特征項Tl的權(quán)重。
(5)文檔的向量Dnew表示采用向量空間模型(Vector space model,VSM)分別將 訓(xùn)練集文檔和用戶訪問日志文檔表示成第一向量和第二向量。 (6)興趣自動分類采用KNN(k-Nearest Neighbor algorithm)分類算法通過計 算用戶瀏覽過的Web文檔與訓(xùn)練集中的文檔之間的相關(guān)度,從而將Web文檔歸入到相應(yīng)的 興趣類別中。 (7)興趣模型的更新基于興趣交集淘汰法和興趣合集歸并法等已有興趣模型更
新算法,提出了興趣模型更新改進算法,利用改進算法對用戶興趣模型進行更新。 其中,x 2是指x 2統(tǒng)計量,Wik表示特征項Tl的權(quán)重,TFik表示特征項i在文檔k
中出現(xiàn)的頻率,IDFik表示該特征項Tl的反比文本的頻數(shù)。 興趣模型更新改進方法如下 i.對用戶感興趣的Web文檔做網(wǎng)頁預(yù)處理,提取特征項Tl,計算特征項Tl的權(quán) 重,將該文檔表示成第二向量,記作Dn6W ; ii.依據(jù)蘭式距離分類算法,計算D,與用戶興趣樹中的每個二級興趣類別Cj之 間的蘭式距離,得到與D,相關(guān)度最大的二級興趣類別,記作Ck,而ck中的特征項T2將ck 表示成第三向量0^; iii.比較D^中的特征項Tl和ck中的特征項T2是否相同,如果特征項t同時出
現(xiàn)在第二向量Dnew和第三向量Dek中,則將第二向量和第三向量中特征項t對應(yīng)的權(quán)值相加, 所得的和作為Ck中特征項t的權(quán)值;如果特征項t僅出現(xiàn)在Ck中,則保留該特征項t ;如果
特征項t僅出現(xiàn)在Dnew中,將Dnew中的特征項t及其權(quán)值添加到第三向量Dek中; iv.判斷Dek包含的特征項T2個數(shù)是否大于最大個數(shù)閾值l ,若不大于最大個數(shù)
閾值,則轉(zhuǎn)步驟v,否則,將Dsk中的特征項T2按照權(quán)重遞減的順序排列,取前《個作為q
的特征項T2 ; v.結(jié)束; 其中,Dnew為將web文檔表示成的向量,第三向量Dek是由ck中的特征項T2所表示 的,Cj(j G [l,m])為二級興趣類別,Ck(k G [l,m])為與D,相關(guān)度最大的二級興趣類別, m為一級興趣類別Ci包含二級興趣類別Cj的個數(shù),l指最大個數(shù)閾值。
本發(fā)明用戶興趣模型總體框架如附圖l,完整方法如下 A.顯式構(gòu)建用戶興趣模型未注冊的用戶先通過用戶注冊填寫個人信息及興趣 愛好來構(gòu)建初始用戶興趣模型,已注冊的用戶直接登錄即可; B.隱式更新用戶興趣模型根據(jù)用戶瀏覽過的網(wǎng)頁隱式完善和更新用戶興趣模 型,其過程如下 1)訓(xùn)練過程訓(xùn)練過程是指完成訓(xùn)練集文檔的向量表示過程,在訓(xùn)練過程中,訓(xùn) 練集實例經(jīng)過網(wǎng)頁預(yù)處理、中文分詞和特征選取處理后被表示成第一向量的形式,行成特 征向量集,該特征向量集用來描述類別模式,在分類過程中使用;
7
2)歷史網(wǎng)頁處理過程歷史訪問庫中存儲用戶訪問web的歷史記錄,這些歷史網(wǎng) 頁經(jīng)過網(wǎng)頁預(yù)處理、中文分詞并表示成第二向量; 3)頁面分類所述第一向量和第二向量按照KNN分類算法對待分類的用戶歷史文 檔進行分類,取最相近者的類別作為用戶感興趣的類別; 4)興趣更新比較用戶原有興趣類別與頁面分類得到的新的興趣類別,按照興趣 模型更新算法對用戶興趣進行更新。 如圖1所述,根據(jù)本方法開發(fā)出的基于用戶興趣的個性化元搜索引擎系統(tǒng)采用B/ S架構(gòu),開發(fā)平臺為VS2005+oracle 9i,用戶可根據(jù)需要方便地接入到現(xiàn)有的需要個性化 服務(wù)系統(tǒng)中。部署時可以在一臺PC上運行,也可以在多臺PC上同時運行。
該系統(tǒng)模型主要分為如下四個部分 (1)用戶接口模塊提供用戶瀏覽器與元搜索引擎系統(tǒng)交互的界面。在這里用戶 把自己的查詢請求發(fā)送給元搜索引擎,而元搜索引擎則把檢索后整合的最終結(jié)果返回給用 戶。
(2)成員引擎接口代理模塊將用戶的查詢信息轉(zhuǎn)換成各個成員搜索引擎能識別
的標準形式,即根據(jù)要調(diào)用的成員搜索引擎的特性對用戶的查詢信息進行相應(yīng)格式化處
理,并分發(fā)到各成員搜索引擎的服務(wù)器上,供成員搜索引擎檢索相應(yīng)的結(jié)果。
(3)用戶興趣模型模塊構(gòu)建并完善用戶興趣模型,包括用戶注冊的顯式構(gòu)建興
趣模型以及對用戶的瀏覽行為進行跟蹤的隱式更新用戶興趣模型。
(4)結(jié)果整合模塊對成員搜索引擎返回的搜索結(jié)果進行結(jié)構(gòu)分析,提取結(jié)果集,
并根據(jù)用戶模型及結(jié)果排序算法對結(jié)果集進行二次處理,然后以友好的方式顯示給用戶。 該模型已在校園網(wǎng)中心得到了具體的驗證。利用該模型將用戶感興趣的信息推薦
給用戶準確率達到80%,隨著用戶使用興趣模型時間的增長,推薦服務(wù)的準確率也在逐漸
提高,個性化服務(wù)系統(tǒng)很好的體現(xiàn)了基于用戶瀏覽行為的用戶興趣建模方法的實施效果,
驗證了此方法的準確性。
8
權(quán)利要求
一種基于用戶瀏覽行為的用戶興趣建模方法,其特征在于該方法的步驟為A.顯式構(gòu)建用戶興趣模型未注冊的用戶先通過用戶注冊填寫個人信息及興趣愛好來構(gòu)建初始用戶興趣模型,已注冊的用戶直接登錄即可;B.隱式更新用戶興趣模型根據(jù)用戶瀏覽過的網(wǎng)頁隱式完善和更新用戶興趣模型,其過程如下1)訓(xùn)練過程訓(xùn)練過程是指完成訓(xùn)練集文檔的向量表示過程,在訓(xùn)練過程中,訓(xùn)練集實例經(jīng)過網(wǎng)頁預(yù)處理、中文分詞和特征選取處理后被表示成第一向量的形式,行成特征向量集,該特征向量集用來描述類別模式,在分類過程中使用;2)歷史網(wǎng)頁處理過程歷史訪問庫中存儲用戶訪問web的歷史記錄,這些歷史網(wǎng)頁經(jīng)過網(wǎng)頁預(yù)處理、中文分詞并表示成第二向量;3)頁面分類所述第一向量和第二向量按照KNN分類算法對待分類的用戶歷史文檔進行分類,取最相近者的類別作為用戶感興趣的類別;4)興趣更新比較用戶原有興趣類別與頁面分類得到的新的興趣類別,按照興趣模型更新算法對用戶興趣進行更新。
2. 根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的用戶興趣建模方法,其特征在于所述顯 式構(gòu)建用戶興趣模型的方法如下a) 將用戶興趣樹的根結(jié)點初始化為用戶名,權(quán)重置為1 ;b) 計算一級興趣結(jié)點的權(quán)重統(tǒng)計用戶注冊時選擇的興趣類別個數(shù)n,則每個一級興 趣類別&的權(quán)重為1/n,其中& G C ;c) 計算二級興趣結(jié)點的權(quán)重統(tǒng)計一級興趣類別Ci包含二級興趣類別Cj的個數(shù)m,則 二級興趣類別&的權(quán)重為1/nm,其中Cj G & G C, i G [1, n] , j G [1, m];d) 計算特征項T2的權(quán)重統(tǒng)計二級興趣類別Cj中包含的特征項T2個數(shù)p,則二級興 趣類別&中每個特征項T2的權(quán)重為1/nmp ;其中,C為興趣總類別。
3. 根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的用戶興趣建模方法,其特征在于所述隱 式更新用戶興趣模型的興趣模型更新還包括如下方法i. 對用戶感興趣的Web文檔做網(wǎng)頁預(yù)處理,提取特征項Tl,計算特征項Tl的權(quán)重,將 該文檔表示成第二向量,記作Dn6W ;ii. 依據(jù)蘭式距離分類算法,計算D,與用戶興趣樹中的每個二級興趣類別Cj之間的 蘭式距離,得到與Dn 相關(guān)度最大的二級興趣類別,記作ck,而ck中的特征項T2將ck表示 成第三向量-;iii. 比較Dnsw中的特征項Tl和ck中的特征項T2是否相同,如果特征項t同時出現(xiàn)在第二向量Dnew和第三向量0"中,則將第二向量和第三向量中特征項t對應(yīng)的權(quán)值相加,所 得的和作為Ck中特征項t的權(quán)值;如果特征項t僅出現(xiàn)在Ck中,則保留該特征項t ;如果特征項t僅出現(xiàn)在Dnew中,將Dnew中的特征項t及其權(quán)值添加到第三向量Dek中;iv. 判斷Dsk包含的特征項T2個數(shù)是否大于最大個數(shù)閾值l ,若不大于最大個數(shù)閾值, 則轉(zhuǎn)步驟v,否則,將Dek中的特征項T2按照權(quán)重遞減的順序排列,取前l(fā)個作為Ck的特征項T2 ;v. 結(jié)束;其中,Dn 為將web文檔表示成的向量,第三向量DA是由ck中的特征項T2所表示的, Cj(j G [1, m])為二級興趣類別,ck(k G [1, m])為與D旨相關(guān)度最大的二級興趣類別,I 指最大個數(shù)閾值。
全文摘要
本發(fā)明公布了一種基于用戶瀏覽行為的用戶興趣建模方法,該方法包括兩個部分顯式構(gòu)建用戶興趣模型和隱式更新用戶興趣模型。顯式構(gòu)建用戶興趣模型是通過用戶注冊對用戶興趣模型的初步確立以及初始化的過程,隱式更新用戶興趣模型是在不需要用戶參與的情況下,根據(jù)訪問者對Web頁面的訪問情況來分析研究用戶訪問的偏好。該方法能自動發(fā)現(xiàn)用戶的新興趣,并能對用戶興趣模型中興趣度低的特征項進行剔除。這樣一方面能更好的監(jiān)測到用戶興趣的變化,另一方面也能及時控制用戶興趣模型無限制增長,提高了興趣模型的穩(wěn)定性。
文檔編號G06F17/30GK101770520SQ20101011848
公開日2010年7月7日 申請日期2010年3月5日 優(yōu)先權(quán)日2010年3月5日
發(fā)明者姚蓓麗, 孫雁飛, 宮婷, 張順頤, 王攀 申請人:南京郵電大學(xué)