專利名稱:用于在線論壇的信息實(shí)時(shí)推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域,特別是涉及一種基于在線論壇的信息實(shí)時(shí)推薦方法。
背景技術(shù):
近年來(lái),互聯(lián)網(wǎng)的快速發(fā)展和Web 2.0技術(shù)的成熟使得人們?cè)诰W(wǎng)上更加方便地進(jìn) 行社交活動(dòng),并某種程度上影響了現(xiàn)代人們的生活方式。在線論壇作為諸多應(yīng)用中比較成 功的一種社交網(wǎng)絡(luò),為人們提供了獲取信息、共享知識(shí)、交流興趣愛(ài)好和發(fā)表言論的便捷平 臺(tái),頗受人們歡迎。有名的在線論壇,例如Apple Discussion和Slashdot,吸引了數(shù)以百萬(wàn) 甚至千萬(wàn)計(jì)的用戶使用,主題分布于政治、經(jīng)濟(jì)、體育、科學(xué)、教育、娛樂(lè)、健康等不同領(lǐng)域。 每天登錄在線論壇搜索自己關(guān)心的主題或者發(fā)表言論成為了很多用戶的日常習(xí)慣,在線論 壇用作時(shí)事新聞的發(fā)布媒介,對(duì)人們生活和新聞傳媒起到了重要的作用。同時(shí)在線論壇作 為人們網(wǎng)上交互的便捷平臺(tái),由于受眾面廣,用戶興趣相對(duì)集中,比較適合投放符合用戶品 味的通知和廣告信息,以及開(kāi)展團(tuán)體之間的互動(dòng)交流,因此越來(lái)越受到大公司和社會(huì)組織 的重視。在線論壇中,用戶的交互一般以主題討論的形式展開(kāi)。用戶可以發(fā)起新的主題,即 主題鏈源貼,也可以在已有的主題上發(fā)表或回復(fù)評(píng)論。某個(gè)主題的原始帖子可以衍生出很 多回復(fù)帖子以及回復(fù)帖子的回復(fù)帖子,這樣就形成了樹形結(jié)構(gòu)的主題鏈,易于用戶交互。然 而,在實(shí)際中,非常受用戶歡迎的大規(guī)模論壇對(duì)討論的主題分門別類,將整個(gè)論壇圍繞相關(guān) 的主題語(yǔ)義分成多個(gè)板塊或社區(qū)。一方面,其中相對(duì)熱門的板塊每天實(shí)時(shí)更新的帖子數(shù)一 般非常多,更新速度快,內(nèi)容也可能比較雜亂。另一方面,用戶往往希望盡快找到與其自身 社交和主題興趣愛(ài)好相關(guān)的帖子,而不希望在無(wú)關(guān)的主題上浪費(fèi)時(shí)間。因此,在這種情況 下,構(gòu)建實(shí)時(shí)的帖子推薦系統(tǒng),實(shí)時(shí)地給用戶推薦符合其興趣的帖子信息,對(duì)幫助用戶及時(shí) 獲取網(wǎng)上信息,增強(qiáng)用戶的網(wǎng)上體驗(yàn),具有重要的意義。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的無(wú)法快速尋找到與用戶自身社交和主題興趣愛(ài)好相關(guān)的帖子, 搜索耗時(shí)長(zhǎng)、效率低的缺點(diǎn),本發(fā)明提供了一種能快速尋找到與用戶自身社交和主題興趣 愛(ài)好相關(guān)的帖子,搜索耗時(shí)短、效率高的用于在線論壇的信息實(shí)時(shí)推薦方法。用于在線論壇的信息實(shí)時(shí)推薦方法,包括以下步驟
1)、獲取指定時(shí)間段內(nèi)用戶參與討論過(guò)的所有主題鏈數(shù)據(jù),分析主題鏈中的包含的潛 在主題;
2)、對(duì)不同的潛在主題分別衡量用戶參與討論的相互影響值和用戶自發(fā)興趣值;
3)、計(jì)算用戶參與新主題鏈的趨勢(shì)概率,并依此對(duì)用戶進(jìn)行排序,并將排序后的主題鏈 推送給用戶。進(jìn)一步,步驟1)中,獲取用戶參與過(guò)的主題鏈數(shù)據(jù),分析潛在主題的方法包括以下 步驟
5(1.1)抽取 論壇網(wǎng) 頁(yè)中的 主題鏈 d,所有的主題鏈^構(gòu)成主題鏈集合D ,^eD ;獲取分別每個(gè)主題鏈rf中的所有帖子,抽 取每個(gè)帖子P的時(shí)間戳(Timestamp)、發(fā)帖的用戶名(User Name)、用戶編碼(User ID)、被 回復(fù)的用戶名(Implied User Name)、文本信息(Message Text);
(1.2)分別統(tǒng)計(jì)每個(gè)主題鏈rf中、用戶 對(duì)主題鏈原帖的回復(fù)次數(shù)Cf},和用尸j對(duì)回
帖的用戶,的回復(fù)次數(shù);
(1. 3)獲取主題鏈中的所有文本信息,所有的文本信息構(gòu)成一個(gè)文檔,使用隱含狄利克 雷分配(Latent Dirichlet Allocation)對(duì)文檔進(jìn)行潛在主題分析;所述的潛在主題分析 包括獲取給定詞w在一個(gè)文檔中的生成概率P(W)和采用吉布斯采樣(Gibbs Sampling)獲 取在潛在主題ζ下選取w的概率、以及潛在主題ζ在給定文檔下的概率; 其中P(W) = P(wIz)汽勻;
表示給定詞w在潛在主題ζ下的概率,PO)表示指定了文檔的情況下、在潛在 主題ζ下選取w的概率。 進(jìn)一步,步驟2)中,用影響矩陣表示用戶對(duì)某個(gè)潛在主題ζ參與討論的相互 影響關(guān)系,用自發(fā)興趣向量Z表示用戶對(duì)某個(gè)潛在主題ζ的自發(fā)興趣值; 步驟2)中計(jì)算用戶參與討論的相互影響值和自發(fā)興趣值包括以下步驟 (2. 1)計(jì)算獲取影響矩陣中的每個(gè)元素, 表示用戶i對(duì)用戶j參與主題ζ討
論的影響,4 = 計(jì)算獲取自發(fā)興趣向量Z中的每個(gè)元素, ysi表示用戶i對(duì)潛在主題ζ的偏好程度, .Ff獨(dú)立于用戶之間的影響關(guān)系,=Z^cIr'; (2. 2)對(duì)影響矩陣中的每個(gè)元素正則化
X^ x^ ι Yi. x^ if 3 . Φ ο Xy < 1 /N otlierwise
其中,N表示用戶的數(shù)量;正則化后,影響矩陣Xs每一行的和為1 ;
對(duì)自發(fā)興趣向量y中的每個(gè)元素<正則化,W ^Ji ^iJi ;
(2. 3)用馬爾科夫鏈(Markov Chain)模擬用戶參加主題討論的動(dòng)態(tài)過(guò)程,其中,馬爾科 夫鏈的節(jié)點(diǎn)表示用戶,邊權(quán)重表示用戶參與主題討論的轉(zhuǎn)變概率,即主題沿著節(jié)點(diǎn)之間的
邊從一個(gè)用戶流轉(zhuǎn)到另一用戶的概率;使用影響矩陣:JT的元素來(lái)表征馬爾科夫鏈的
邊權(quán)重,使用自發(fā)興趣向量Z中的元素7『表征主題在任意節(jié)點(diǎn)跳轉(zhuǎn)到相應(yīng)節(jié)點(diǎn)、而非沿著 節(jié)點(diǎn)之間的邊進(jìn)行轉(zhuǎn)變的概率,即主題在每個(gè)節(jié)點(diǎn)重新開(kāi)始的概率;
6用戶參加主題討論闡述為用主題在用戶關(guān)系構(gòu)成的馬爾科夫鏈上隨機(jī)走(random walk)的過(guò)程。進(jìn)一步,步驟3)中,用戶參與新主題鏈的趨勢(shì)概率的計(jì)算方法包括以下步驟 (3. 1)對(duì)影響矩陣和自發(fā)興趣向量Z做線性組合、獲取概率轉(zhuǎn)變矩陣鏟,
權(quán)利要求
用于在線論壇的信息實(shí)時(shí)推薦方法,包括以下步驟1)、獲取指定時(shí)間段內(nèi)用戶參與討論過(guò)的所有主題鏈數(shù)據(jù),分析主題鏈中的包含的潛在主題;2)、對(duì)不同的潛在主題分別衡量用戶參與討論的相互影響值和用戶自發(fā)興趣值;3)、計(jì)算用戶參與新主題鏈的趨勢(shì)概率,并依此對(duì)用戶進(jìn)行排序,并將排序后的主題鏈推送給用戶。
2.如權(quán)利要求1所述的用于在線論壇的信息實(shí)時(shí)推薦方法,其特征在于步驟1)中, 獲取用戶參與過(guò)的主題鏈數(shù)據(jù),分析潛在主題的方法包括以下步驟(1.1)抽取 論壇網(wǎng) 頁(yè)中的 主題鏈 rf,所有的主題鏈/構(gòu)成主題鏈集合D,rfe£);獲取分別每個(gè)主題鏈rf中的所有帖子,抽 取每個(gè)帖子&的時(shí)間戳(Timestamp)、發(fā)帖的用戶名(User Name)、用戶編碼(User ID)、被 回復(fù)的用戶名(Implied User Name)、文本信息(Message Text);(1.2)分別統(tǒng)計(jì)每個(gè)主題鏈J中、用戶,對(duì)主題鏈原帖的回復(fù)次數(shù)C嚴(yán),和用尸對(duì)回帖的用戶,的回復(fù)次數(shù);(1. 3)獲取主題鏈中的所有文本信息,所有的文本信息構(gòu)成一個(gè)文檔,使用隱含狄利克 雷分配(Latent Dirichlet Allocation)對(duì)文檔進(jìn)行潛在主題分析;所述的潛在主題分析 包括獲取給定詞w在一個(gè)文檔中的生成概率P(W)和采用吉布斯采樣(Gibbs Sampling)獲 取在潛在主題ζ下選取w的概率、以及潛在主題ζ在給定文檔下的概率; 其中=.尸(+)表示給定詞w在潛在主題ζ下的概率,Ρ(ζ)表示指定了文檔的情況下、在潛在主題ζ下選取w的概率。
3.如權(quán)利要求2所述的用于在線論壇的信息實(shí)時(shí)推薦方法,其特征在于步驟2)中,用影響矩陣JT表示用戶對(duì)某個(gè)潛在主題ζ參與討論的相互影響關(guān)系,用自發(fā)興趣向量Z表示用戶對(duì)某個(gè)潛在主題ζ的自發(fā)興趣值;步驟2)中計(jì)算用戶參與討論的相互影響值和自發(fā)興趣值包括以下步驟(2. 1)計(jì)算獲取影響矩陣中的每個(gè)元素Ig , 表示用戶i對(duì)用戶j參與主題ζ討 論的影響,4=Σ/,4^ ;計(jì)算獲取自發(fā)興趣向量.V2中的每個(gè)元素義,fi表示用戶i對(duì)潛在主題Z的偏好程度, 義獨(dú)立于用戶之間的影響關(guān)系,= ZAd)cid}; (2. 2)對(duì)影響矩陣JP中的每個(gè)元素正則化^Mi-- ^I-- / Jt - if y ..本0 y y I^Aj ι I^j ??X-.- -1/Ν otherwise其中,N表示用戶的數(shù)量;正則化后,影響矩陣X2每一行的和為1 ;對(duì)自發(fā)興趣向量7中的每個(gè)元素<正則化,
4.如權(quán)利要求3所述的用于在線論壇的信息實(shí)時(shí)推薦方法,其特征在于步驟3)中, 用戶參與新主題鏈的趨勢(shì)概率的計(jì)算方法包括以下步驟(3. 1)對(duì)影響矩陣和自發(fā)興趣向量Z做線性組合、獲取概率轉(zhuǎn)變矩陣浐, 其中1表示元素都為1的向量;α表示線性組合的平衡因子(0 < cr < 1), α可根據(jù)實(shí)際數(shù)據(jù)調(diào)節(jié),一般取ο. 5。α值越大,表示用戶相互影響機(jī)制越強(qiáng),而自發(fā)興趣機(jī)制越弱;反之,則用戶相互影響機(jī)制越 弱,而自發(fā)興趣機(jī)制越強(qiáng);概率轉(zhuǎn)變矩陣S11里的每個(gè)元素表達(dá)了兩個(gè)節(jié)點(diǎn)之間單步到達(dá)的轉(zhuǎn)變概率; (3. 2)假設(shè)節(jié)點(diǎn)之間通過(guò)m (=1,2,…)步到達(dá)進(jìn)行轉(zhuǎn)變的概率是均勻分布的,即在 通過(guò)任意正整數(shù)值步驟轉(zhuǎn)變的概率是都是1/m。則最終的轉(zhuǎn)變概率矩陣可以有以下式子 替換算出
全文摘要
用于在線論壇的信息實(shí)時(shí)推薦方法,包括獲取指定時(shí)間段內(nèi)用戶參與討論過(guò)的所有主題鏈數(shù)據(jù),分析主題鏈中的包含的潛在主題;對(duì)不同的潛在主題分別衡量用戶參與討論的相互影響值和用戶自發(fā)興趣值;計(jì)算用戶參與新主題鏈的趨勢(shì)概率,并依此對(duì)用戶進(jìn)行排序,并將排序后的主題鏈推送給用戶。本發(fā)明具有能快速尋找到與用戶自身社交和主題興趣愛(ài)好相關(guān)的帖子,搜索耗時(shí)短、效率高的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK101986298SQ201010522040
公開(kāi)日2011年3月16日 申請(qǐng)日期2010年10月28日 優(yōu)先權(quán)日2010年10月28日
發(fā)明者卜佳俊, 吳昊, 張利軍, 鄭淼, 陳純 申請(qǐng)人:浙江大學(xué)