欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成的推薦技術(shù)的制作方法

文檔序號(hào):11432239閱讀:195來(lái)源:國(guó)知局
一種基于關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成的推薦技術(shù)的制造方法與工藝

本發(fā)明涉及商務(wù)類網(wǎng)站的智能推薦技術(shù)領(lǐng)域,具體涉及將關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成的推薦算法。



背景技術(shù):

互聯(lián)網(wǎng)和信息技術(shù)快速發(fā)展使得商務(wù)網(wǎng)站交易越來(lái)越頻繁,大量的信息聚集起來(lái)形成海量信息。幫助用戶從海量信息中快速準(zhǔn)確地尋找到自己感興趣的信息,建立一個(gè)有效的推薦系統(tǒng),可以使商務(wù)網(wǎng)站建立穩(wěn)定的企業(yè)忠實(shí)顧客群,提高用戶滿意度。

關(guān)聯(lián)規(guī)則由于形式很簡(jiǎn)單,應(yīng)用方便,得到快速的發(fā)展。關(guān)聯(lián)規(guī)則可用于發(fā)現(xiàn)商務(wù)網(wǎng)站交易數(shù)據(jù)庫(kù)中不同項(xiàng)目之間的聯(lián)系,這些規(guī)則反映了用戶的網(wǎng)站瀏覽模式。發(fā)現(xiàn)這些規(guī)則可以應(yīng)用向用戶推薦感興趣的網(wǎng)址。自從關(guān)聯(lián)規(guī)則提出以來(lái),已成為主流的推薦技術(shù)。但是關(guān)聯(lián)規(guī)則不能表達(dá)不同規(guī)則之間的聯(lián)系,這極大地限制了關(guān)聯(lián)規(guī)則在復(fù)雜情形下的應(yīng)用。而貝葉斯網(wǎng)絡(luò)用圖形化的形式表示了如何將與一系列節(jié)點(diǎn)相關(guān)的條件概率函數(shù)組合成為一個(gè)整體的聯(lián)合概率分布函數(shù)。一個(gè)貝葉斯網(wǎng)絡(luò)包括了一個(gè)結(jié)構(gòu)模型和與之相關(guān)的一組條件概率分布函數(shù)。結(jié)構(gòu)模型是一個(gè)有向無(wú)環(huán)圖,其中的節(jié)點(diǎn)表示了隨機(jī)變量,它是對(duì)于過(guò)程、事件、狀態(tài)等實(shí)體的某特性的描述,邊則表示變量間的概率依賴關(guān)系。圖中的每個(gè)節(jié)點(diǎn)都有一個(gè)在給定其父節(jié)點(diǎn)情況下該節(jié)點(diǎn)的條件概率分布函數(shù)。

由于貝葉斯網(wǎng)是變量的聯(lián)合概率的表示,所以在對(duì)節(jié)點(diǎn)狀態(tài)進(jìn)行推理的過(guò)程中,能夠綜合考慮各個(gè)因素(父節(jié)點(diǎn))的影響,由于關(guān)聯(lián)規(guī)則和貝葉斯網(wǎng)絡(luò)都是以概率論為理論基礎(chǔ)的,可以考慮使用貝葉斯網(wǎng)絡(luò)修正關(guān)聯(lián)規(guī)則,并通過(guò)概率推論的方式預(yù)測(cè)當(dāng)前用戶訪問(wèn)對(duì)未曾瀏覽網(wǎng)址的概率,將得到的結(jié)果排序,推薦概率top-n的網(wǎng)址。

本發(fā)明根據(jù)用戶歷史瀏覽信息,發(fā)現(xiàn)商務(wù)網(wǎng)站交易數(shù)據(jù)庫(kù)中不同項(xiàng)目之間的聯(lián)系,將這些反映了用戶的網(wǎng)站瀏覽模式的規(guī)則用有向無(wú)環(huán)圖表達(dá)出來(lái),基于貝葉斯網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前用戶訪問(wèn)各網(wǎng)址的條件概率,找出條件概率最大的n個(gè)網(wǎng)址推薦給用戶。為用戶提供個(gè)性化的服務(wù)的同時(shí)建立網(wǎng)站與用戶之間的密切關(guān)系,讓用戶對(duì)推薦系統(tǒng)產(chǎn)生依賴,從而建立穩(wěn)定的企業(yè)忠實(shí)顧客群,實(shí)現(xiàn)客戶鏈?zhǔn)椒磻?yīng)增值,提高消費(fèi)者滿意度。通過(guò)提高服務(wù)效率幫助消費(fèi)者節(jié)約交易成本等,制定有針對(duì)性的營(yíng)銷戰(zhàn)略方針,促進(jìn)企業(yè)長(zhǎng)期穩(wěn)定高速發(fā)展。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對(duì)商務(wù)網(wǎng)站的智能推薦技術(shù),在關(guān)聯(lián)規(guī)則的基礎(chǔ)上學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),提出將關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成的推薦算法。

方法包括以下步驟:首先,對(duì)網(wǎng)址進(jìn)行關(guān)聯(lián)分析,并將關(guān)聯(lián)規(guī)則按提升度排序。然后,依據(jù)關(guān)聯(lián)規(guī)則前后件的關(guān)系,將關(guān)聯(lián)規(guī)則轉(zhuǎn)化成初始貝葉斯網(wǎng)絡(luò)。再然后對(duì)初始貝葉斯網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)學(xué)習(xí),尋找最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),并學(xué)習(xí)最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù),此時(shí)的最優(yōu)貝葉斯網(wǎng)絡(luò)相當(dāng)于對(duì)關(guān)聯(lián)規(guī)則的修正。最后使用貝葉斯方法預(yù)測(cè)當(dāng)前用戶訪問(wèn)未知網(wǎng)址的概率,將概率最大的n個(gè)網(wǎng)址推薦給用戶。

所述的將關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成,是對(duì)原始事務(wù)集使用apriori算法得到關(guān)聯(lián)規(guī)則,按提升度排序后,將其轉(zhuǎn)化成貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。貝葉斯網(wǎng)的結(jié)構(gòu)是一個(gè)有向無(wú)環(huán)圖,圖中的每一個(gè)節(jié)點(diǎn)唯一地對(duì)應(yīng)一個(gè)隨機(jī)變量,節(jié)點(diǎn)的狀態(tài)對(duì)應(yīng)于隨機(jī)變量的值。圖中的有向邊表示變量(節(jié)點(diǎn))之間的條件(因果)依賴關(guān)系。關(guān)聯(lián)規(guī)則的前件和后件間也蘊(yùn)含著一種依賴關(guān)系,轉(zhuǎn)化的思路就是將關(guān)聯(lián)規(guī)則中的這種依賴關(guān)系用貝葉斯網(wǎng)的結(jié)構(gòu)表示出來(lái)。

所述的貝葉斯預(yù)測(cè),將所有網(wǎng)址是否被訪問(wèn)看成一組隨機(jī)向量變量,當(dāng)前用戶的歷史訪問(wèn)記錄就是一個(gè)樣本,結(jié)合這個(gè)樣本數(shù)據(jù)和參數(shù)先驗(yàn),預(yù)測(cè)某個(gè)網(wǎng)址被訪問(wèn)的概率。變量包含貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)兩部分,假設(shè)貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)條件獨(dú)立,非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立。

所述的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成的推薦算法具體步驟如下:

1)數(shù)據(jù)預(yù)處理。在對(duì)原始數(shù)據(jù)的探索分析的基礎(chǔ)上,發(fā)現(xiàn)與分析目標(biāo)無(wú)關(guān)或模型需要處理的數(shù)據(jù),針對(duì)此類數(shù)據(jù)進(jìn)行處理。通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換,將原始數(shù)據(jù)處理成模型需要的輸入數(shù)據(jù)。其中為用戶集,為網(wǎng)址集。

2)關(guān)聯(lián)規(guī)則。首先將數(shù)據(jù)集d轉(zhuǎn)化成事務(wù)集dt,考慮到要與貝葉斯網(wǎng)絡(luò)對(duì)應(yīng),本發(fā)明只分析具有單個(gè)后件屬性狀態(tài)的關(guān)聯(lián)規(guī)則前件更新問(wèn)題,因此apriori算法只需檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有2項(xiàng)頻繁項(xiàng)集,利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小提升度的規(guī)則,并根據(jù)提升度將規(guī)則按從大到小的順序排列。

3)將關(guān)聯(lián)規(guī)則轉(zhuǎn)化成貝葉斯網(wǎng)絡(luò)。轉(zhuǎn)化的思路就是將關(guān)聯(lián)規(guī)則中的這種依賴關(guān)系用貝葉斯網(wǎng)的結(jié)構(gòu)表示出來(lái)。關(guān)聯(lián)規(guī)則的前件網(wǎng)址后件網(wǎng)址間蘊(yùn)含著一種依賴關(guān)系。貝葉斯網(wǎng)絡(luò)如果存在從節(jié)點(diǎn)指向節(jié)點(diǎn)的有向邊,則在指向的方向上,的狀態(tài)條件依賴于的狀態(tài),稱的一個(gè)父節(jié)點(diǎn),的父節(jié)點(diǎn)集可以表示為。關(guān)聯(lián)規(guī)則的項(xiàng)與貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)是對(duì)應(yīng)的,貝葉斯網(wǎng)絡(luò)中的點(diǎn)表示的是一個(gè)變量,指用戶是否瀏覽網(wǎng)址這個(gè)二值變量,而關(guān)聯(lián)規(guī)則中的項(xiàng)表示的是這個(gè)變量的一個(gè)狀態(tài),即用戶訪問(wèn)網(wǎng)址這個(gè)事件。這樣依照提升度自上而下就將各節(jié)點(diǎn)及其父節(jié)點(diǎn)找出來(lái)。

4)尋找最優(yōu)貝葉斯網(wǎng)絡(luò),并估計(jì)參數(shù)。本發(fā)明采用mcmc方法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),通過(guò)gibbs抽樣算法,將局部的邊增加、刪除和反向的均勻分布作為抽樣過(guò)程的建議分布,并利用抽樣過(guò)程收斂之后產(chǎn)生的來(lái)自目標(biāo)平穩(wěn)分布的網(wǎng)絡(luò)結(jié)構(gòu)樣本來(lái)估計(jì)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)特征,構(gòu)建最優(yōu)貝葉斯網(wǎng)絡(luò)。參數(shù)的學(xué)習(xí)實(shí)在最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的,本發(fā)明使用貝葉斯方法估計(jì)的參數(shù),節(jié)點(diǎn)的條件概率分布都是多項(xiàng)式分布,因此參數(shù)的共軛先驗(yàn)及其后驗(yàn)分布都是狄利克雷分布。從關(guān)聯(lián)規(guī)則的角度來(lái)看,貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程實(shí)際上是關(guān)聯(lián)規(guī)則的優(yōu)化過(guò)程。

5)貝葉斯預(yù)測(cè)。目標(biāo)網(wǎng)址是否被訪問(wèn)是隨機(jī)變量,變量分為貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn),非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,所以若是非貝葉斯節(jié)點(diǎn),預(yù)測(cè)值是其邊緣概率;貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)條件獨(dú)立,貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,若是貝葉斯節(jié)點(diǎn),預(yù)測(cè)值是條件概率的乘積。

6)做出推薦。將個(gè)網(wǎng)址的預(yù)測(cè)值排序,從中選出預(yù)測(cè)值top-n的網(wǎng)址推薦給當(dāng)前用戶。然后對(duì)模型從精度和時(shí)效兩方面進(jìn)行評(píng)價(jià)。統(tǒng)計(jì)精度方法采用指標(biāo)平均絕對(duì)誤差(mae)。決策支持精度指標(biāo)采用精確率(precision)和召回率(recall)。時(shí)效用響應(yīng)時(shí)間來(lái)衡量。

本發(fā)明創(chuàng)造性地將關(guān)聯(lián)規(guī)則和貝葉斯網(wǎng)絡(luò)兩種數(shù)據(jù)挖掘方法集成運(yùn)用在網(wǎng)站智能推薦上。一方面,關(guān)聯(lián)規(guī)則由于形式很簡(jiǎn)單,應(yīng)用方便,但不能表達(dá)不同規(guī)則之間的聯(lián)系,復(fù)雜情形下的應(yīng)用受到極大地限制。而貝葉斯網(wǎng)表示變量的聯(lián)合概率,能夠綜合考慮各個(gè)因素(父節(jié)點(diǎn))的影響。另一方面,貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量大時(shí),計(jì)算量大,結(jié)構(gòu)復(fù)雜,學(xué)習(xí)時(shí)間長(zhǎng),關(guān)聯(lián)規(guī)則可以較快的得到節(jié)點(diǎn)之間的依賴關(guān)系,借助關(guān)聯(lián)規(guī)則的貝葉斯網(wǎng)絡(luò)可以快速學(xué)習(xí)達(dá)到最優(yōu)結(jié)構(gòu)。這兩種方法結(jié)合互補(bǔ),經(jīng)驗(yàn)證(見(jiàn)后文算法算例)提高了模型的精確度和運(yùn)算效率。本發(fā)明用貝葉斯預(yù)測(cè)當(dāng)前用戶訪問(wèn)未知網(wǎng)址的概率,貝葉斯方法能夠使先驗(yàn)知識(shí)和數(shù)據(jù)有機(jī)的結(jié)合,在樣本數(shù)據(jù)稀疏時(shí),能夠充分利用先驗(yàn)知識(shí)得到可靠結(jié)果,一些過(guò)于冷門或熱門網(wǎng)址,作為分析的異常點(diǎn),在貝葉斯網(wǎng)絡(luò)分析中也能充分利用,并得到穩(wěn)健結(jié)果。

附圖說(shuō)明

圖1關(guān)聯(lián)規(guī)則和貝葉斯網(wǎng)絡(luò)集成推薦算法的流程圖;

圖2步驟1數(shù)據(jù)預(yù)處理的流程圖;

圖3步驟3關(guān)聯(lián)規(guī)則轉(zhuǎn)化成貝葉斯網(wǎng)絡(luò)的一般式例,對(duì)一個(gè)關(guān)聯(lián)規(guī)則,通過(guò)本發(fā)明步驟3的算法課構(gòu)建的貝葉斯結(jié)構(gòu);

圖4本發(fā)明模型的平均絕對(duì)誤差與傳統(tǒng)關(guān)聯(lián)規(guī)則算法的比較圖;

圖5本發(fā)明模型的精確率和召回率與傳統(tǒng)關(guān)聯(lián)規(guī)則算法的比較圖;

圖6本發(fā)明模型的時(shí)間性能與傳統(tǒng)貝葉斯網(wǎng)絡(luò)算法的比較圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的說(shuō)明。

圖1給出了商務(wù)網(wǎng)站個(gè)性化推薦方法過(guò)程,具體步驟如下:

步驟1:數(shù)據(jù)預(yù)處理。在對(duì)原始數(shù)據(jù)的探索分析的基礎(chǔ)上,發(fā)現(xiàn)與分析目標(biāo)無(wú)關(guān)或模型需要處理的數(shù)據(jù),針對(duì)此類數(shù)據(jù)進(jìn)行處理。通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換,將原始數(shù)據(jù)處理成模型需要的輸入數(shù)據(jù)。其中為用戶集,為網(wǎng)址集。

步驟2:關(guān)聯(lián)規(guī)則。首先將數(shù)據(jù)集d轉(zhuǎn)化成事務(wù)集dt,考慮到與貝葉斯網(wǎng)絡(luò)對(duì)應(yīng),本發(fā)明只分析具有單個(gè)后件屬性狀態(tài)的關(guān)聯(lián)規(guī)則前件更新問(wèn)題,因此apriori算法只需檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有2項(xiàng)頻繁項(xiàng)集,利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小提升度的規(guī)則,并根據(jù)提升度將規(guī)則按從大到小的順序排列。

步驟3:將關(guān)聯(lián)規(guī)則轉(zhuǎn)化成貝葉斯網(wǎng)絡(luò)。轉(zhuǎn)化的思路就是將關(guān)聯(lián)

規(guī)則中的這種依賴關(guān)系用貝葉斯網(wǎng)的結(jié)構(gòu)表示出來(lái)。關(guān)聯(lián)規(guī)則的前件網(wǎng)址后件網(wǎng)址間蘊(yùn)含著一種依賴關(guān)系。貝葉斯網(wǎng)絡(luò)如果存在從節(jié)點(diǎn)指向節(jié)點(diǎn)的有向邊,則在指向的方向上,的狀態(tài)條件依賴于的狀態(tài),稱的一個(gè)父節(jié)點(diǎn),的父節(jié)點(diǎn)集可以表示為。關(guān)聯(lián)規(guī)則的項(xiàng)與貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)是對(duì)應(yīng)的,貝葉斯網(wǎng)絡(luò)中的點(diǎn)表示的是一個(gè)變量,指用戶是否瀏覽網(wǎng)址這個(gè)二值變量,而關(guān)聯(lián)規(guī)則中的項(xiàng)表示的是這個(gè)變量的一個(gè)狀態(tài),即用戶訪問(wèn)網(wǎng)址這個(gè)事件。這樣依照提升度自上而下就將各節(jié)點(diǎn)及其父節(jié)點(diǎn)找出來(lái)。

步驟4:尋找最優(yōu)貝葉斯網(wǎng)絡(luò),并估計(jì)參數(shù)。本發(fā)明采用mcmc方法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),通過(guò)gibbs抽樣算法,將局部的邊增加、刪除和反向的均勻分布作為抽樣過(guò)程的建議分布,并利用抽樣過(guò)程收斂之后產(chǎn)生的來(lái)自目標(biāo)平穩(wěn)分布的網(wǎng)絡(luò)結(jié)構(gòu)樣本來(lái)估計(jì)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)特征,構(gòu)建最優(yōu)貝葉斯網(wǎng)絡(luò)。參數(shù)的學(xué)習(xí)實(shí)在最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的,本發(fā)明使用貝葉斯方法估計(jì)的參數(shù),節(jié)點(diǎn)的條件概率分布都是多項(xiàng)式分布,因此參數(shù)的共軛先驗(yàn)及其后驗(yàn)分布都是狄利克雷分布。從關(guān)聯(lián)規(guī)則的角度來(lái)看,貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程實(shí)際上是關(guān)聯(lián)規(guī)則的優(yōu)化過(guò)程。

步驟5:貝葉斯預(yù)測(cè)。目標(biāo)網(wǎng)址是否被訪問(wèn)是隨機(jī)變量,變量分為貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn),非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,所以若是非貝葉斯節(jié)點(diǎn),預(yù)測(cè)值是其邊緣概率;貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)條件獨(dú)立,貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)相互獨(dú)立,若是貝葉斯節(jié)點(diǎn),預(yù)測(cè)值是條件概率的乘積。

步驟6:做出推薦。將個(gè)網(wǎng)址的預(yù)測(cè)值排序,從中選出預(yù)測(cè)值top-n的網(wǎng)址推薦給當(dāng)前用戶。然后對(duì)模型從精度和時(shí)效兩方面進(jìn)行評(píng)價(jià)。統(tǒng)計(jì)精度方法采用指標(biāo)平均絕對(duì)誤差(mae)。決策支持精度指標(biāo)采用精確率(precision)和召回率(recall)。時(shí)效用響應(yīng)時(shí)間來(lái)衡量。

所述的步驟1具體說(shuō)明如下:

抽取某法律網(wǎng)站三個(gè)月內(nèi)(2015-02-01~2015-04-29)廣州地區(qū)用戶的訪問(wèn)數(shù)據(jù)作為原始數(shù)據(jù)集。其數(shù)據(jù)量總共有837450條記錄,其中包括用戶號(hào)、訪問(wèn)時(shí)間和訪問(wèn)頁(yè)面。從原始數(shù)據(jù)中對(duì)重復(fù)數(shù)據(jù)、與分析目標(biāo)無(wú)關(guān)的數(shù)據(jù)(律師登錄助手的頁(yè)面)和目錄網(wǎng)頁(yè)(無(wú)html后綴的網(wǎng)頁(yè))進(jìn)行清洗。翻頁(yè)的網(wǎng)址屬于同一類型的網(wǎng)頁(yè),這些網(wǎng)頁(yè)需要還原其原始類別。預(yù)處理后抽取245515條記錄,一共108204個(gè)用戶,48573個(gè)網(wǎng)址,作為實(shí)驗(yàn)數(shù)據(jù)集。記用戶集為,網(wǎng)址集為,時(shí)間間隔集為,將實(shí)驗(yàn)數(shù)據(jù)整理成形如數(shù)據(jù)源。

所述的步驟2具體說(shuō)明如下:

首先將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)化為事務(wù)數(shù)據(jù)庫(kù)dt,然后調(diào)用apriori算法利用迭代得到頻繁集集合,生成了二項(xiàng)頻繁集,根據(jù)支持度,提升度和置信度生成強(qiáng)關(guān)聯(lián)規(guī)則,并按提升度排序。關(guān)聯(lián)規(guī)則的生成算法具體如下:

輸入:事務(wù)數(shù)據(jù),最小支持度,最小提升度;最小置信度;。

輸出:關(guān)聯(lián)規(guī)則。

步驟:

1)計(jì)算1項(xiàng)集的支持度,找到1項(xiàng)頻繁集

2)根據(jù)apriori算法由生成2項(xiàng)頻繁集的候選集;

3)排列組合出候選集中的2項(xiàng)集,計(jì)算每個(gè)2項(xiàng)集的支持度;

篩選出2項(xiàng)頻繁集,

4)關(guān)聯(lián)規(guī)則初始化;

5)對(duì)任一2項(xiàng)頻繁集的2項(xiàng),如果,且滿足

,則有

6)將關(guān)聯(lián)規(guī)則按照提升度從大到小的順序排列。

所述的步驟3的具體說(shuō)明如下:

記融合了關(guān)聯(lián)規(guī)則的貝葉斯網(wǎng)絡(luò)為,其中是貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),為關(guān)聯(lián)規(guī)則前件和后件網(wǎng)址是否訪問(wèn)的隨機(jī)向量變量,有向邊集表示前后件網(wǎng)址間的條件依賴關(guān)系,如果存在從節(jié)點(diǎn)指向節(jié)點(diǎn)的有向邊,則在指向的方向上,的狀態(tài)條件依賴于的狀態(tài),稱的一個(gè)父節(jié)點(diǎn),的父節(jié)點(diǎn)集可以表示為;為條件概率分布的集合,由各節(jié)點(diǎn)的條件概率表值構(gòu)成。表示節(jié)點(diǎn)在其父節(jié)點(diǎn)集取值影響下的條件概率。

該貝葉斯網(wǎng)的成立還需滿足以下三條假設(shè):

假設(shè)一:假設(shè)所有前件對(duì)后件的影響都是獨(dú)立的。

假設(shè)二:假設(shè)已經(jīng)列盡了所有的前件。

假設(shè)三:假設(shè)沒(méi)有出現(xiàn)的前件對(duì)后件沒(méi)有影響。

貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)生成的算法如下:

輸入:事務(wù)數(shù)據(jù)集,待修正的關(guān)聯(lián)規(guī)則;

輸出:貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)

步驟:

1)初始化結(jié)構(gòu)式;

2)對(duì)于規(guī)則中的每一個(gè)頻繁集,如果,那么

3)構(gòu)造指針指向規(guī)則的起始位置。

4)取出指向的規(guī)則,,如果間不存在有向路徑,則;

5)如果還沒(méi)有到盡頭的話,指向下一條規(guī)則,回到步驟4;

6)刪除中沒(méi)有邊相連的節(jié)點(diǎn)。

所述的步驟4包括以下子步驟:

s4.1:貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí):

根據(jù)關(guān)聯(lián)規(guī)則的項(xiàng)集包含的網(wǎng)址集的被瀏覽記錄,找到相應(yīng)的用戶集,構(gòu)成用戶網(wǎng)址矩陣,作為訓(xùn)練數(shù)據(jù)矩陣:

本發(fā)明采用mcmc方法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),通過(guò)gibbs抽樣算法,將局部的弧增加、刪除和反向的均勻分布作為抽樣過(guò)程的建議分布,并利用抽樣過(guò)程收斂之后產(chǎn)生的來(lái)自目標(biāo)平穩(wěn)分布的網(wǎng)絡(luò)結(jié)構(gòu)樣本來(lái)估計(jì)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)特征。

添加輔助變量,

輔助變量的作用是描述貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),記向量:

,

gibbs抽樣算法的抽樣過(guò)程如下:

1)將根據(jù)關(guān)聯(lián)規(guī)則構(gòu)造的貝葉斯網(wǎng)絡(luò)作為初始狀態(tài),此時(shí)

2)對(duì)循環(huán)采樣

3)

4)…

5)

6)…

7)

8)…

9)

以上算法收斂后得到的的穩(wěn)定分布,由此構(gòu)造的貝葉斯網(wǎng)絡(luò)為所求的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)

s4.2:貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí):

本發(fā)明采用mcmc方法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的參數(shù),假設(shè)各分布參數(shù)的估計(jì)是相互獨(dú)立的。根據(jù)參數(shù)獨(dú)立性假設(shè),節(jié)點(diǎn)的條件概率

其中為網(wǎng)址被訪問(wèn)的次數(shù),為總的實(shí)例數(shù)。令,則有隨機(jī)變量條件分布的參數(shù)的聯(lián)合條件分布為

從參數(shù)的后驗(yàn)分布中應(yīng)用gibbs抽樣算法,具體抽樣過(guò)程如下:

1)將根據(jù)關(guān)聯(lián)規(guī)則構(gòu)造的貝葉斯網(wǎng)絡(luò)作為初始狀態(tài),此時(shí)

2)對(duì)循環(huán)采樣

3)

4)…

5)

6)…

7)

8)…

9)

其中。

后驗(yàn)分布的推導(dǎo)如下:

由于的似然函數(shù)是多項(xiàng)式分布,故的共軛先驗(yàn)分布為狄利克雷分布:

其中超先驗(yàn)參數(shù)

的后驗(yàn)分布為

其中,,,當(dāng)時(shí),為網(wǎng)址和網(wǎng)址同時(shí)被訪問(wèn)的次數(shù),當(dāng)時(shí),為網(wǎng)址被訪問(wèn)的次數(shù)。

所述的步驟5具體說(shuō)明如下:

把當(dāng)前用戶的歷史訪問(wèn)網(wǎng)址記錄,看成隨機(jī)變量的一個(gè)樣本,貝葉斯預(yù)測(cè)的目的就是在已知樣本數(shù)據(jù)的條件下,預(yù)測(cè)各網(wǎng)址被訪問(wèn)概率,網(wǎng)址被訪問(wèn)與否的隨機(jī)變量記,有貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)和非貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)兩種情況。

1.當(dāng)網(wǎng)址為訓(xùn)練樣本外的網(wǎng)址,即

2.當(dāng)網(wǎng)址為訓(xùn)練樣本內(nèi)的網(wǎng)址,即

這是一個(gè)高維積分,計(jì)算復(fù)雜,我們尋求另一種思路,考慮到,,,且獨(dú)立于,因此二項(xiàng)分布。

其中,記

則有的期望為:

因此

網(wǎng)址被訪問(wèn)的預(yù)測(cè)值為:

所述的步驟6具體說(shuō)明如下:

平均絕對(duì)誤差表示預(yù)測(cè)值與實(shí)際值的誤差,推薦結(jié)果的平均絕對(duì)誤差越小推薦質(zhì)量越好。精確率,召回率。其中是推薦結(jié)果中推薦正確的物品的數(shù)目,是推薦結(jié)果中錯(cuò)誤推薦的物品的數(shù)目,是應(yīng)該被推薦但沒(méi)有出現(xiàn)在推薦結(jié)果中的物品的數(shù)目。推薦結(jié)果的精確率和召回率越高,則最終得到的推薦結(jié)果越準(zhǔn)確。下面兩表分別就傳統(tǒng)的關(guān)聯(lián)規(guī)則算法,和關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成算法比較平均絕對(duì)誤差值和精確率與召回率。時(shí)間性能取決于數(shù)據(jù)規(guī)模,下面分別就傳統(tǒng)貝葉斯網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)集成算法比較響應(yīng)時(shí)間。

表1不同數(shù)據(jù)規(guī)模下的平均絕對(duì)誤差

表2不同推薦數(shù)目的精確率和召回率

表3不同數(shù)據(jù)規(guī)模下的時(shí)效

綜合以上分析,本發(fā)明將關(guān)聯(lián)規(guī)則和貝葉斯網(wǎng)絡(luò)兩種數(shù)據(jù)挖掘方法集成運(yùn)用在網(wǎng)站智能推薦上,使兩種方法結(jié)合互補(bǔ),提高了模型的精確度和運(yùn)算效率。關(guān)聯(lián)規(guī)則可以較快的得到節(jié)點(diǎn)之間的依賴關(guān)系,借助關(guān)聯(lián)規(guī)則的貝葉斯網(wǎng)絡(luò)可以快速學(xué)習(xí)達(dá)到最優(yōu)結(jié)構(gòu)。貝葉斯預(yù)測(cè)當(dāng)前用戶訪問(wèn)未知網(wǎng)址的概率,貝葉斯方法能夠使先驗(yàn)知識(shí)和數(shù)據(jù)有機(jī)的結(jié)合,在樣本數(shù)據(jù)稀疏時(shí),能夠充分利用先驗(yàn)知識(shí)得到可靠結(jié)果,一些過(guò)于冷門或熱門網(wǎng)址,作為分析的異常點(diǎn),在貝葉斯網(wǎng)絡(luò)分析中也能充分利用,并得到穩(wěn)健結(jié)果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
建昌县| 邢台市| 西林县| 怀柔区| 六盘水市| 黄陵县| 宜宾市| 昌吉市| 崇仁县| 涞水县| 同江市| 衡东县| 紫金县| 钟山县| 绥宁县| 安图县| 绥芬河市| 绥中县| 阿坝县| 洞口县| 闻喜县| 亚东县| 民县| 绥棱县| 东源县| 茶陵县| 从化市| 新野县| 黑水县| 诏安县| 白银市| 平阴县| 毕节市| 昭苏县| 高雄市| 金昌市| 永丰县| 洛浦县| 庆云县| 中西区| 松江区|