本發(fā)明涉及數(shù)據(jù)挖掘推薦算法中文本推薦算法領(lǐng)域,更具體地,涉及一種基于概率圖模型的個(gè)性化旅游游記推薦方法。
背景技術(shù):
當(dāng)前隨著社會(huì)的發(fā)展,人們生活水平的提高,越來(lái)越多的人有時(shí)間和金錢(qián)出門(mén)旅游,甚至走出國(guó)門(mén)到國(guó)外旅游。同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,與旅游相關(guān)的互聯(lián)網(wǎng)社交平臺(tái)也在有著很大的發(fā)展,旅游用戶在這些平臺(tái)上用文字記錄自己的旅游經(jīng)歷,用照片記錄旅游的點(diǎn)點(diǎn)滴滴,并且愛(ài)好旅行的人們觀看自己喜愛(ài)的游記,評(píng)論這些游記。在國(guó)內(nèi)比較大的游記網(wǎng)站,例如百度和馬蜂窩,據(jù)統(tǒng)計(jì),有1/10的人是有自己寫(xiě)游記的習(xí)慣,而剩下的用戶并沒(méi)有留下自己的游記,我們不知道這些剩下的9/10的人是否在真實(shí)的現(xiàn)實(shí)生活中去到某地旅游參觀,但這些人都喜歡閱讀他人留下的游記,并且對(duì)游記進(jìn)行評(píng)論。
一篇游記包含的內(nèi)容有(1)文字內(nèi)容,介紹自己在旅游過(guò)程的具體行程,景點(diǎn)特色,交通,住宿,美食等等;(2)地點(diǎn),游記作者旅游的具體城市,因?yàn)橛脩艟幼〉氐铰糜纬鞘械木嚯x是影響到該城市旅游的重要因素;(3)時(shí)間,游記作者去到該城市旅游的通常有具體的時(shí)間安排與旅游計(jì)劃。我們發(fā)現(xiàn),游記一般寫(xiě)的很隨意,甚至沒(méi)留下文字,只是幾張照片。這就造成了游記質(zhì)量的參差不齊,不能給讀者帶來(lái)很好的信息。而且,在旅游平臺(tái)上,對(duì)喜歡看用戶游記的用戶并沒(méi)有在游記內(nèi)容上進(jìn)行推薦,不能給用戶一個(gè)很好的幫助。本論文研究的目的在于,基于游記內(nèi)容及地點(diǎn),給游記愛(ài)好者進(jìn)行個(gè)性化推薦。
在傳統(tǒng)的推薦系統(tǒng)中,通常使用協(xié)同過(guò)濾,或者svd矩陣分解的方法來(lái)進(jìn)行,但要克服cold-start(“冷啟動(dòng)”)等問(wèn)題。而在文本內(nèi)容處理方面,如文本分類(lèi)等,常見(jiàn)的方法為概率模型(如樸素貝葉斯,lda),但這些模型可能遇到數(shù)據(jù)稀疏,數(shù)據(jù)分布不均等情況,并且沒(méi)有涉及到旅游地點(diǎn)的相關(guān)信息。在基于地點(diǎn)的算法推薦,通常是采用旅游者居住地到旅游景點(diǎn)的距離作為重要參考信息。此外,一些隱變量模型采用矩陣分解的形式找出地點(diǎn)的隱特征。這些都或多或少忽視一些重要信息,比如用戶的隱特征,地點(diǎn)隱特征,還有豐富的文字信息。所以,我們將結(jié)合已有的信息,采用泊松分解方法,利用伽馬分布找出這些潛在的隱特征。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種較高準(zhǔn)確率的基于概率圖模型的個(gè)性化旅游游記推薦方法。
為了達(dá)到上述技術(shù)效果,本發(fā)明的技術(shù)方案如下:
一種基于概率圖模型的個(gè)性化旅游游記推薦方法,包括以下步驟:
s1:游記主題初始化:對(duì)游記文章進(jìn)行分詞,采用標(biāo)準(zhǔn)的文章主題模型,通過(guò)吉布斯采樣,得到每篇游記的主題分布,以及每個(gè)詞的主題分布,用計(jì)算出的主題分布對(duì)游記和詞伽馬分布的相關(guān)參數(shù)進(jìn)行賦值,此外對(duì)用戶偏好,地點(diǎn)隱特征的相關(guān)參數(shù)用隨機(jī)數(shù)進(jìn)賦初值;
s2:對(duì)每篇游記中的每個(gè)詞,通過(guò)詞主題與文章主題的分布,計(jì)算詞頻關(guān)系的對(duì)數(shù)值,并更新每篇游記及該游記中詞的伽馬分布參數(shù)中的形狀參數(shù);
s3:針對(duì)每個(gè)用戶評(píng)論的每篇游記,根據(jù)用戶偏好分布,游記主題分布與地點(diǎn)隱特征,計(jì)算用戶參與游記評(píng)論的對(duì)數(shù)值,并更新用戶,游記,地點(diǎn)伽馬分布參數(shù)中的形狀參數(shù)
s4:更新所有伽馬分布的尺度參數(shù);
s5:通過(guò)訓(xùn)練集訓(xùn)練出來(lái)的用戶偏好,地點(diǎn)隱特征,從驗(yàn)證數(shù)據(jù)集中進(jìn)行預(yù)測(cè)。
進(jìn)一步地,所述步驟s2的具體過(guò)程如下:
s21:計(jì)算詞頻關(guān)系的期望值,公式如下:
其中ψ(.)表示伽瑪函數(shù)的對(duì)數(shù)的導(dǎo)數(shù),也稱(chēng)為digamma函數(shù),
s22:為了能夠使數(shù)據(jù)平滑,避免出現(xiàn)異常值,將s21的結(jié)果進(jìn)行歸一化處理,公式如下:
s23:借助s22的計(jì)算結(jié)果,更新游記中詞主題伽馬分布的形狀參數(shù),公式如下:
其中
s24:借助步驟s22計(jì)算的結(jié)果,更新游記主題伽馬分布的形狀參數(shù),公式如下:
進(jìn)一步地,所述步驟s3中,根據(jù)每個(gè)用戶參與的游記評(píng)論事件,計(jì)算用戶評(píng)論的期望值,由于各參數(shù)之間是相互獨(dú)立的,將其分別開(kāi)來(lái),具體過(guò)程如下:
s31:計(jì)算用戶與游記主題之間的期望值,公式如下:
其中
s32:計(jì)算用戶與地點(diǎn)隱特征之間的期望值,公式如下:
其中
s33:借助s32的結(jié)果,更新用戶偏好伽馬分的形狀參數(shù),公式如下:
其中ω(l=le)表示用戶點(diǎn)評(píng)游每個(gè)記事件中游記涉及的旅游地為le。
s34:借助s32的結(jié)果,更新地點(diǎn)隱特征伽馬分的形狀參數(shù),公式如下:
s35:借助s33的結(jié)果,我們將再次更新游記主題伽馬分布的形狀參數(shù),公式如下:
進(jìn)一步地,所述步驟s4的具體過(guò)程如下:
s41:更新詞伽馬主題分布的尺度參數(shù),公式如下:
s42:更新詞伽馬主題分布的尺度參數(shù),公式如下:
s43:更新用戶伽馬主題分布的尺度參數(shù),公式如下:
s44:更新地點(diǎn)隱特征伽馬主題分布的尺度參數(shù),公式如下:
進(jìn)一步地,所述步驟s5的具體過(guò)程如下:
s51:對(duì)于一篇新游記,將固定用戶偏好,地點(diǎn)隱特征伽馬分布,更新新游記的主題分布,詞主題分布情況;
s52:借助s51中的結(jié)果,計(jì)算未評(píng)論該游記的用戶評(píng)論該游記的的概率,公式如下:
與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:
本發(fā)明采用伽馬分布,泊松分解算法,對(duì)未知的用戶偏好,地點(diǎn)特征進(jìn)行很好的估算,能夠利用文本信息及地點(diǎn),是否點(diǎn)評(píng)游記等三個(gè)信息挖掘出這些隱特征,不用考慮讀者的地理位置,景點(diǎn)的位置等一些無(wú)法獲取的信息,能夠提高推薦的準(zhǔn)確率;采用聯(lián)合的概率圖模型,對(duì)于推薦系統(tǒng)中常見(jiàn)的“冷啟動(dòng)”問(wèn)題,以及對(duì)于多圖少字的游記能夠很好的解決。
附圖說(shuō)明
圖1為本發(fā)明流程圖。
具體實(shí)施方式
附圖僅用于示例性說(shuō)明,不能理解為對(duì)本專(zhuān)利的限制;
為了更好說(shuō)明本實(shí)施例,附圖某些部件會(huì)有省略、放大或縮小,并不代表實(shí)際產(chǎn)品的尺寸;
對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),附圖中某些公知結(jié)構(gòu)及其說(shuō)明可能省略是可以理解的。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的說(shuō)明。
實(shí)施例1
如圖1所示,一種基于概率圖模型的個(gè)性化旅游游記推薦方法,包括以下步驟:
s1:游記主題初始化:對(duì)游記文章進(jìn)行分詞,采用標(biāo)準(zhǔn)的文章主題模型,通過(guò)吉布斯采樣,得到每篇游記的主題分布,以及每個(gè)詞的主題分布,用計(jì)算出的主題分布對(duì)游記和詞伽馬分布的相關(guān)參數(shù)進(jìn)行賦值,此外對(duì)用戶偏好,地點(diǎn)隱特征的相關(guān)參數(shù)用隨機(jī)數(shù)進(jìn)賦初值;
s2:對(duì)每篇游記中的每個(gè)詞,通過(guò)詞主題與文章主題的分布,計(jì)算詞頻關(guān)系的對(duì)數(shù)值,并更新每篇游記及該游記中詞的伽馬分布參數(shù)中的形狀參數(shù);
s3:針對(duì)每個(gè)用戶評(píng)論的每篇游記,根據(jù)用戶偏好分布,游記主題分布與地點(diǎn)隱特征,計(jì)算用戶參與游記評(píng)論的對(duì)數(shù)值,并更新用戶,游記,地點(diǎn)伽馬分布參數(shù)中的形狀參數(shù)
s4:更新所有伽馬分布的尺度參數(shù);
s5:通過(guò)訓(xùn)練集訓(xùn)練出來(lái)的用戶偏好,地點(diǎn)隱特征,從驗(yàn)證數(shù)據(jù)集中進(jìn)行預(yù)測(cè)。
進(jìn)一步地,所述步驟s2的具體過(guò)程如下:
s21:計(jì)算詞頻關(guān)系的期望值,公式如下:
其中ψ(.)表示伽瑪函數(shù)的對(duì)數(shù)的導(dǎo)數(shù),也稱(chēng)為digamma函數(shù),
s22:為了能夠使數(shù)據(jù)平滑,避免出現(xiàn)異常值,將s21的結(jié)果進(jìn)行歸一化處理,公式如下:
s23:借助s22的計(jì)算結(jié)果,更新游記中詞主題伽馬分布的形狀參數(shù),公式如下:
其中
s24:借助步驟s22計(jì)算的結(jié)果,更新游記主題伽馬分布的形狀參數(shù),公式如下:
進(jìn)一步地,所述步驟s3中,根據(jù)每個(gè)用戶參與的游記評(píng)論事件,計(jì)算用戶評(píng)論的期望值,由于各參數(shù)之間是相互獨(dú)立的,將其分別開(kāi)來(lái),具體過(guò)程如下:
s31:計(jì)算用戶與游記主題之間的期望值,公式如下:
其中
s32:計(jì)算用戶與地點(diǎn)隱特征之間的期望值,公式如下:
其中
s33:借助s32的結(jié)果,更新用戶偏好伽馬分的形狀參數(shù),公式如下:
其中ω(l=le)表示用戶點(diǎn)評(píng)游每個(gè)記事件中游記涉及的旅游地為le。
s34:借助s32的結(jié)果,更新地點(diǎn)隱特征伽馬分的形狀參數(shù),公式如下:
s35:借助s33的結(jié)果,我們將再次更新游記主題伽馬分布的形狀參數(shù),公式如下:
進(jìn)一步地,所述步驟s4的具體過(guò)程如下:
s41:更新詞伽馬主題分布的尺度參數(shù),公式如下:
s42:更新詞伽馬主題分布的尺度參數(shù),公式如下:
s43:更新用戶伽馬主題分布的尺度參數(shù),公式如下:
s44:更新地點(diǎn)隱特征伽馬主題分布的尺度參數(shù),公式如下:
進(jìn)一步地,所述步驟s5的具體過(guò)程如下:
s51:對(duì)于一篇新游記,將固定用戶偏好,地點(diǎn)隱特征伽馬分布,更新新游記的主題分布,詞主題分布情況;
s52:借助s51中的結(jié)果,計(jì)算未評(píng)論該游記的用戶評(píng)論該游記的的概率,公式如下:
本發(fā)明采用伽馬分布,泊松分解算法,對(duì)未知的用戶偏好,地點(diǎn)特征進(jìn)行很好的估算,能夠利用文本信息及地點(diǎn),是否點(diǎn)評(píng)游記等三個(gè)信息挖掘出這些隱特征,不用考慮讀者的地理位置,景點(diǎn)的位置等一些無(wú)法獲取的信息,能夠提高推薦的準(zhǔn)確率;采用聯(lián)合的概率圖模型,對(duì)于推薦系統(tǒng)中常見(jiàn)的“冷啟動(dòng)”問(wèn)題,以及對(duì)于多圖少字的游記能夠很好的解決。
相同或相似的標(biāo)號(hào)對(duì)應(yīng)相同或相似的部件;
附圖中描述位置關(guān)系的用于僅用于示例性說(shuō)明,不能理解為對(duì)本專(zhuān)利的限制;
顯然,本發(fā)明的上述實(shí)施例僅僅是為清楚地說(shuō)明本發(fā)明所作的舉例,而并非是對(duì)本發(fā)明的實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。