專利名稱:采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及門(mén)戶(Portal)技術(shù),特別是指一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法和系統(tǒng)。
背景技術(shù):
個(gè)性化推薦服務(wù)能夠主動(dòng)地為互聯(lián)網(wǎng)(Internet)用戶提供多樣化、智能化的個(gè)性化服務(wù),以最快捷的方式展現(xiàn)出來(lái),協(xié)助用戶高效全面地獲取有用的環(huán)球網(wǎng)(Web)資源信息。目前,能夠?qū)崿F(xiàn)個(gè)性化推薦服務(wù)的系統(tǒng)已經(jīng)成為網(wǎng)絡(luò)信息系統(tǒng)的重要組成部分,尤其是在電子商務(wù)、數(shù)字圖書(shū)館、遠(yuǎn)程教育等大型門(mén)戶應(yīng)用領(lǐng)域中的作用更為突出。隨著Web 2.0時(shí)代的到來(lái),資源整合及基于門(mén)戶平臺(tái)的個(gè)性化服務(wù)手段正愈發(fā)豐富。目前,有方法采用中央數(shù)據(jù)庫(kù)存儲(chǔ)所有基于規(guī)則的推薦算法,為用戶動(dòng)態(tài)靈活選擇進(jìn)行推薦,但這種方案在興趣挖掘和應(yīng)用擴(kuò)展方面的分析根本沒(méi)有或較為簡(jiǎn)單,主要應(yīng)用于電子商務(wù)等簡(jiǎn)單Web推薦系統(tǒng)中,不能提供門(mén)戶應(yīng)用的支持。由于門(mén)戶平臺(tái)所支持的服務(wù)和架構(gòu)各異、適應(yīng)需求不靈活等問(wèn)題,門(mén)戶個(gè)性化推薦服務(wù)領(lǐng)域存在著很多問(wèn)題。
首先,當(dāng)前門(mén)戶所提供的個(gè)性化推薦服務(wù)機(jī)制對(duì)平臺(tái)自身的依賴性都很大,需加載定制或二次開(kāi)發(fā)相同系列的服務(wù)構(gòu)件才能完成,與平臺(tái)的耦合非常緊密;同時(shí),利用門(mén)戶技術(shù)進(jìn)行個(gè)性化興趣挖掘和推薦服務(wù)的綜合應(yīng)用方案還根本沒(méi)有,無(wú)法提供較完備靈活的、面向門(mén)戶的個(gè)性化推薦服務(wù)體系架構(gòu),還需要對(duì)系統(tǒng)架構(gòu)集成、相關(guān)算法策略和接口設(shè)計(jì)方面進(jìn)行更深入的研究。
其次,近年來(lái)的個(gè)性化推薦服務(wù)的技術(shù)方案多關(guān)注于將各種成熟推薦算法綜合利用的組合推薦方式,但如何根據(jù)復(fù)雜情況,向用戶提供靈活、全面且高質(zhì)量的推薦結(jié)果,一直是討論熱點(diǎn)問(wèn)題。雖然已有一些組合推薦系統(tǒng)在元推薦模式方面進(jìn)行了嘗試性研究,但未能綜合考慮用戶興趣模型的作用及在門(mén)戶個(gè)性化實(shí)現(xiàn)中的應(yīng)用特點(diǎn)。用戶興趣模型主要用于個(gè)性化服務(wù)應(yīng)用中對(duì)用戶興趣的描述,也作為推薦服務(wù)的計(jì)算對(duì)象,前期在Web系統(tǒng)中研究較多,也包括結(jié)合Web的使用挖掘,目前門(mén)戶平臺(tái)中的用戶興趣模型創(chuàng)建方法較少有涉及。元推薦是指綜合多種預(yù)測(cè)分析算法,進(jìn)行更全面準(zhǔn)確的推薦計(jì)算。目前已有的采用中央數(shù)據(jù)庫(kù)存儲(chǔ)所有推薦算法,為用戶動(dòng)態(tài)靈活選擇進(jìn)行推薦的方法中,其元推薦系統(tǒng)架構(gòu)模式一般強(qiáng)調(diào)數(shù)據(jù)層集成各種推薦系統(tǒng)的異構(gòu)性處理,即將分散獨(dú)立的推薦系統(tǒng)整合在一起,相對(duì)都是不透明的,因此仍傾向于系統(tǒng)整合,未考慮推薦算法組合選擇策略細(xì)節(jié),不適用于易于部署、不受平臺(tái)和資源牽制的輕量級(jí)通用需求。
再次,為滿足更多應(yīng)用場(chǎng)景,重點(diǎn)不應(yīng)僅僅在于如何提升推薦算法的性能或伸縮性,而是應(yīng)該通過(guò)創(chuàng)新模式和途徑輔助用戶進(jìn)行高效便利的門(mén)戶個(gè)性化應(yīng)用。例如,將推薦控制模式從傳統(tǒng)的向用戶推薦什么擴(kuò)展為如何向用戶及該用戶的相似興趣用戶群推薦不重復(fù)的、有意義的內(nèi)容,并能夠生動(dòng)、直觀、快捷地展現(xiàn)出來(lái)。
綜上所述,基于門(mén)戶平臺(tái),將個(gè)性化興趣挖掘和推薦服務(wù)相結(jié)合,向用戶提供靈活、全面且高質(zhì)量的推薦結(jié)果,成為亟待解決的問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明一個(gè)目的在于提供一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)系統(tǒng),本發(fā)明的另一個(gè)目的在于提供一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法,將個(gè)性化興趣挖掘和推薦服務(wù)相結(jié)合,向用戶提供靈活、全面且高質(zhì)量的推薦結(jié)果。
為了達(dá)到上述目的,本發(fā)明提供的采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)系統(tǒng)包括數(shù)據(jù)管理單元、數(shù)據(jù)存儲(chǔ)單元、興趣挖掘單元、興趣模型構(gòu)建單元、訓(xùn)練分類單元、相似性計(jì)算單元、元推薦引擎和WWW資源索引存儲(chǔ)單元,
數(shù)據(jù)管理單元,用于輔助管理訓(xùn)練分類單元、或相似性計(jì)算單元與數(shù)據(jù)存儲(chǔ)單元的數(shù)據(jù)通信和調(diào)用;數(shù)據(jù)存儲(chǔ)單元,用于存儲(chǔ)門(mén)戶用戶和/或門(mén)戶用戶群的興趣模型庫(kù),該興趣模型庫(kù)包括門(mén)戶用戶和/或門(mén)戶用戶群的興趣度模型庫(kù)和訪問(wèn)事務(wù)集,數(shù)據(jù)存儲(chǔ)單元中進(jìn)一步存儲(chǔ)有推薦算法集;興趣挖掘單元,位于門(mén)戶平臺(tái)中,用于獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式,并將獲取到的信息提供給興趣模型構(gòu)建單元;興趣模型構(gòu)建單元,用于對(duì)獲取的興趣數(shù)據(jù)進(jìn)行規(guī)范化處理,根據(jù)處理后的信息構(gòu)建門(mén)戶用戶的興趣模型,并將構(gòu)建的門(mén)戶用戶興趣模型提供給訓(xùn)練分類單元和相似性計(jì)算單元;訓(xùn)練分類單元,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,將來(lái)自興趣模型構(gòu)建單元的興趣模型與來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型進(jìn)行近鄰聚類的反饋學(xué)習(xí),然后將反饋學(xué)習(xí)結(jié)果通過(guò)數(shù)據(jù)管理單元更新數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的門(mén)戶用戶興趣模型并提供給相似性計(jì)算單元;相似性計(jì)算單元,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自興趣模型構(gòu)建單元的興趣模型、來(lái)自訓(xùn)練分類單元的反饋學(xué)習(xí)更新結(jié)果及其他來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型進(jìn)行更精確的相似性計(jì)算,然后將相似性計(jì)算結(jié)果提供給元推薦引擎;元推薦引擎,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型和來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,然后根據(jù)來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,并根據(jù)預(yù)測(cè)分析結(jié)果和推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,根據(jù)確定的推薦結(jié)果調(diào)用萬(wàn)維網(wǎng)WWW資源索引存儲(chǔ)單元中存儲(chǔ)的WWW資源索引,將WWW資源封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶;
WWW資源索引存儲(chǔ)單元,用于存儲(chǔ)WWW資源索引。
所述元推薦引擎包括推薦選擇器、預(yù)測(cè)分析單元和推薦資源展現(xiàn)單元,推薦選擇器,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型和來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,然后提供給預(yù)測(cè)分析單元,并向預(yù)測(cè)分析單元提供來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果;預(yù)測(cè)分析單元,用于根據(jù)來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,并根據(jù)預(yù)測(cè)分析結(jié)果和來(lái)自推薦選擇器的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,確定的推薦結(jié)果通過(guò)調(diào)用WWW資源索引存儲(chǔ)單元中存儲(chǔ)的WWW資源索引提供給推薦資源展現(xiàn)單元;推薦資源展現(xiàn)單元,用于將來(lái)自預(yù)測(cè)分析單元的WWW資源封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
所述推薦資源展現(xiàn)單元,包括門(mén)戶組件Portlet配置管理單元、Portlet會(huì)話管理單元、請(qǐng)求命令分析單元、Web頁(yè)面獲取單元、響應(yīng)標(biāo)記處理單元和WSRP接口封裝單元,Portlet配置管理單元,用于維護(hù)當(dāng)前環(huán)球網(wǎng)Web應(yīng)用封裝為符合遠(yuǎn)程門(mén)戶組件Web服務(wù)Portlet的封裝機(jī)制WA2WP提供的所有Portlet的元數(shù)據(jù);Portlet會(huì)話管理單元,用于實(shí)現(xiàn)對(duì)會(huì)話對(duì)象的整個(gè)生命周期進(jìn)行管理;請(qǐng)求命令分析單元,用于接收推薦結(jié)果所包含的資源鏈接的封裝展現(xiàn)請(qǐng)求以及訪問(wèn)資源用戶請(qǐng)求,分析請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù)確定所要訪問(wèn)的目標(biāo)資源,定位目標(biāo)統(tǒng)一資源定位符URL,獲取和準(zhǔn)備訪問(wèn)目標(biāo)資源所需的請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù);Web頁(yè)面獲取單元,用于根據(jù)來(lái)自請(qǐng)求命令分析單元的目標(biāo)URL、請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù),訪問(wèn)Web應(yīng)用,獲得返回的頁(yè)面標(biāo)記內(nèi)容及Cookie數(shù)據(jù),并提供給響應(yīng)標(biāo)記處理單元;響應(yīng)標(biāo)記處理單元,用于對(duì)Web頁(yè)面獲取單元返回的超文本標(biāo)記信息進(jìn)行封裝前的預(yù)處理,得到Web資源頁(yè)面片斷,然后提供給WSRP接口封裝單元;WSRP接口封裝單元,用于將Web資源頁(yè)面片斷封裝為門(mén)戶組件顯示在門(mén)戶個(gè)性化桌面上。
訓(xùn)練分類單元進(jìn)一步用于對(duì)已建立興趣模型的用戶或用戶群標(biāo)識(shí)進(jìn)行存儲(chǔ),如果沒(méi)有存儲(chǔ)用戶或用戶群標(biāo)識(shí),則通過(guò)數(shù)據(jù)管理單元將訓(xùn)練分類后的興趣模型提供給數(shù)據(jù)存儲(chǔ)單元進(jìn)行存儲(chǔ)。
實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)進(jìn)一步包括隱私保護(hù)單元;興趣挖掘單元,用于將獲取到的信息提供給隱私保護(hù)單元;隱私保護(hù)單元,用于對(duì)來(lái)自興趣挖掘單元的信息嵌入安全標(biāo)記,以進(jìn)行私有化過(guò)濾保護(hù),然后提供給興趣模型構(gòu)建單元。
本發(fā)明提供的采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法包括A、對(duì)門(mén)戶用戶的興趣進(jìn)行挖掘,獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式;B、進(jìn)行規(guī)范化處理,抽取與門(mén)戶用戶興趣相關(guān)的信息,并判斷是否創(chuàng)建新的門(mén)戶用戶的興趣模型,如果是,則創(chuàng)建新的門(mén)戶用戶興趣模型,否則,對(duì)已有門(mén)戶用戶興趣模型進(jìn)行更新;C、將構(gòu)建的門(mén)戶用戶興趣模型與存儲(chǔ)的門(mén)戶用戶興趣模型進(jìn)行訓(xùn)練分類;D、根據(jù)構(gòu)建的門(mén)戶用戶興趣模型、存儲(chǔ)的門(mén)戶用戶興趣模型以及反饋學(xué)習(xí)結(jié)果,進(jìn)行更精確的相似性計(jì)算;E、根據(jù)存儲(chǔ)的興趣模型和相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,根據(jù)相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,然后根據(jù)預(yù)測(cè)分析結(jié)果和確定的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,并根據(jù)確定的推薦結(jié)果調(diào)用存儲(chǔ)的WWW資源索引;F、將調(diào)用的WWW資源索引封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
所述步驟A與步驟B之間,進(jìn)一步包括對(duì)獲取到的信息嵌入安全標(biāo)記。
所述步驟C為根據(jù)構(gòu)建的門(mén)戶用戶興趣模型進(jìn)行特征訓(xùn)練,提取興趣內(nèi)容、行為特征初步劃分興趣模型的類別以及興趣資源內(nèi)容的類別,并不斷對(duì)門(mén)戶用戶興趣模型進(jìn)行更新。
所述步驟D為在已有分類的基礎(chǔ)上進(jìn)行用戶興趣模型間的相似匹配和比較,產(chǎn)生目標(biāo)門(mén)戶用戶的近鄰集。
步驟E中所述預(yù)測(cè)過(guò)濾分析,為在選定目標(biāo)門(mén)戶用戶近鄰集的基礎(chǔ)之上,對(duì)該目標(biāo)門(mén)戶用戶未瀏覽或未知興趣的資源進(jìn)行預(yù)測(cè)。
本發(fā)明中,提出了門(mén)戶用戶興趣模型的構(gòu)建,包括初始創(chuàng)建門(mén)戶用戶興趣模型和后續(xù)對(duì)門(mén)戶用戶興趣模型的更新;提出采用元推薦引擎的獨(dú)立于門(mén)戶平臺(tái)的個(gè)性化推薦服務(wù)體系架構(gòu),元推薦引擎能夠分析用戶及用戶群的關(guān)聯(lián)及個(gè)性化興趣變化,將信息資源和推薦算法統(tǒng)一組織并合理選擇控制,優(yōu)化推送產(chǎn)生更全面多樣的個(gè)性化推薦結(jié)果;在資源展現(xiàn)方面,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)能夠?qū)㈩A(yù)測(cè)推薦的多種Web資源內(nèi)容對(duì)象封裝為門(mén)戶組件,向門(mén)戶用戶進(jìn)行生動(dòng)直觀的個(gè)性化顯示,提供一種更高層的個(gè)性化控制。綜合利用門(mén)戶平臺(tái)已有的個(gè)性化資源和技術(shù)手段,提供獨(dú)立靈活的服務(wù)中間件或服務(wù)代理,以完成個(gè)性化推薦服務(wù)。
圖1示出了本發(fā)明中實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)結(jié)構(gòu)示意圖;圖2示出了本發(fā)明中實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的流程圖;圖3示出了本發(fā)明中門(mén)戶用戶興趣模型構(gòu)建過(guò)程示意圖;圖4示出了本發(fā)明中數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)示意圖;圖5示出了本發(fā)明中元推薦控制策略示意圖;圖6示出了本發(fā)明中推薦資源展現(xiàn)機(jī)制示意圖;圖7示出了本發(fā)明中推薦資源展現(xiàn)實(shí)現(xiàn)流程圖。
具體實(shí)施例方式
本發(fā)明中,提出了門(mén)戶用戶興趣模型的構(gòu)建,包括初始創(chuàng)建門(mén)戶用戶興趣模型和后續(xù)對(duì)門(mén)戶用戶興趣模型的更新;提出采用元推薦引擎的獨(dú)立于門(mén)戶平臺(tái)的個(gè)性化推薦服務(wù)體系架構(gòu),元推薦引擎能夠分析用戶及用戶群的關(guān)聯(lián)及個(gè)性化興趣變化,將信息資源和推薦算法統(tǒng)一組織并合理選擇控制,優(yōu)化推送產(chǎn)生更全面多樣的個(gè)性化推薦結(jié)果;在資源展現(xiàn)方面,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)能夠?qū)㈩A(yù)測(cè)推薦的多種Web資源內(nèi)容對(duì)象封裝為門(mén)戶組件,向門(mén)戶用戶進(jìn)行生動(dòng)直觀的個(gè)性化顯示,提供一種更高層的個(gè)性化控制。
通過(guò)離線處理過(guò)程為在線處理過(guò)程提供前期數(shù)據(jù)維護(hù)保障,降低在線計(jì)算的復(fù)雜度,可由訓(xùn)練分類單元、數(shù)據(jù)管理單元和數(shù)據(jù)存儲(chǔ)單元三部分構(gòu)成。基于門(mén)戶用戶興趣內(nèi)容模型和歷史訪問(wèn)事務(wù)的信息進(jìn)行近鄰聚類和訓(xùn)練學(xué)習(xí),將數(shù)據(jù)按照與各種興趣相關(guān)的信息進(jìn)行分類,存儲(chǔ)于數(shù)據(jù)集的興趣度模型庫(kù)和訪問(wèn)事務(wù)集中,在進(jìn)行訓(xùn)練分類和相似性計(jì)算時(shí),對(duì)這些數(shù)據(jù)進(jìn)行調(diào)用。數(shù)據(jù)集選用輕量級(jí)數(shù)據(jù)組織方式,復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)可采用配置連接方式進(jìn)行數(shù)據(jù)通信,便于服務(wù)的靈活部署和應(yīng)用。此外,門(mén)戶個(gè)性化推薦服務(wù)所需的推薦算法集也集中存放于數(shù)據(jù)集中。輕量級(jí)數(shù)據(jù)組織方式是指僅保留存儲(chǔ)讀取功能的小型數(shù)據(jù)庫(kù),盡量不采用資源占用率較大的專門(mén)大型數(shù)據(jù)庫(kù)。
在線處理過(guò)程包括對(duì)門(mén)戶用戶的興趣挖掘、興趣構(gòu)型的創(chuàng)建及更新、以及元推薦引擎推送推薦內(nèi)容的三個(gè)步驟。
首先,對(duì)門(mén)戶用戶的興趣進(jìn)行挖掘,獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式。由于是隱式獲取門(mén)戶用戶的興趣信息,應(yīng)該在獲取后到規(guī)范化處理的過(guò)程中,保證用戶隱私的安全性,可通過(guò)對(duì)獲取到的信息嵌入安全標(biāo)記來(lái)進(jìn)行私有化過(guò)濾保護(hù)。
其次,對(duì)門(mén)戶用戶的個(gè)性化描述文件和訪問(wèn)事務(wù)集進(jìn)行規(guī)范化處理,構(gòu)建門(mén)戶用戶及其所屬用戶群的興趣模型,對(duì)門(mén)戶用戶每次的興趣衰減變化進(jìn)行動(dòng)態(tài)調(diào)整更新,并不斷用于進(jìn)行訓(xùn)練分類的反饋學(xué)習(xí),并且基于數(shù)據(jù)集中的興趣模型庫(kù)進(jìn)行更精確的用戶或用戶群的聚類以及興趣的相似性計(jì)算。
繼而,獲取門(mén)戶用戶的興趣模型和相似性分類后,通過(guò)門(mén)戶用戶及門(mén)戶用戶群的推薦控制策略動(dòng)態(tài)進(jìn)行推薦算法的選擇和組合,然后進(jìn)行相應(yīng)的預(yù)測(cè)過(guò)濾計(jì)算,推薦結(jié)果的具體內(nèi)容來(lái)源于通過(guò)萬(wàn)維網(wǎng)(World Wide Web,WWW)資源檢索得到的分類索引庫(kù),并最終轉(zhuǎn)化封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件推送給門(mén)戶用戶。
圖1示出了本發(fā)明中實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)結(jié)構(gòu)示意圖,如圖1所示,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)包括興趣挖掘單元101、興趣模型構(gòu)建單元103、訓(xùn)練分類單元104、數(shù)據(jù)管理單元105、相似性計(jì)算單元106、推薦選擇器107、數(shù)據(jù)存儲(chǔ)單元108、預(yù)測(cè)分析單元109、WWW資源索引存儲(chǔ)單元110和推薦資源展現(xiàn)單元111。
數(shù)據(jù)管理單元105用于輔助管理訓(xùn)練分類單元104、或相似性計(jì)算單元106與數(shù)據(jù)存儲(chǔ)單元108的數(shù)據(jù)通信和調(diào)用。
數(shù)據(jù)存儲(chǔ)單元108用于存儲(chǔ)門(mén)戶用戶和/或門(mén)戶用戶群的興趣模型庫(kù),該興趣模型庫(kù)包括門(mén)戶用戶和/或門(mén)戶用戶群的興趣度模型庫(kù)和訪問(wèn)事務(wù)集,數(shù)據(jù)存儲(chǔ)單元108中進(jìn)一步存儲(chǔ)有推薦算法集。
興趣挖掘單元101位于門(mén)戶平臺(tái)中,用于獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式,并將獲取到的信息提供給興趣模型構(gòu)建單元103。
興趣模型構(gòu)建單元103用于對(duì)獲取的興趣數(shù)據(jù)進(jìn)行規(guī)范化處理,根據(jù)處理后的信息構(gòu)建門(mén)戶用戶的興趣模型,并將構(gòu)建的門(mén)戶用戶興趣模型提供給訓(xùn)練分類單元104和相似性計(jì)算單元106。
如果門(mén)戶用戶的興趣模型還不存在,則訓(xùn)練分類單元104首先用于通過(guò)數(shù)據(jù)管理單元105將訓(xùn)練分類后的興趣模型提供給數(shù)據(jù)存儲(chǔ)單元108進(jìn)行存儲(chǔ);無(wú)論門(mén)戶用戶的興趣模型是否已經(jīng)存在,訓(xùn)練分類單元104均用于通過(guò)數(shù)據(jù)管理單元105調(diào)用數(shù)據(jù)存儲(chǔ)單元108中存儲(chǔ)的興趣模型,將來(lái)自興趣模型構(gòu)建單元103的興趣模型與來(lái)自數(shù)據(jù)存儲(chǔ)單元108的興趣模型進(jìn)行近鄰聚類的反饋學(xué)習(xí),然后將反饋學(xué)習(xí)結(jié)果通過(guò)數(shù)據(jù)管理單元105更新數(shù)據(jù)存儲(chǔ)單元108中存儲(chǔ)的門(mén)戶用戶興趣模型并提供給相似性計(jì)算單元106。訓(xùn)練分類單元104可對(duì)已建立興趣模型的用戶或用戶群標(biāo)識(shí)進(jìn)行存儲(chǔ),這樣,訓(xùn)練分類單元104可通過(guò)存儲(chǔ)的標(biāo)識(shí)確定來(lái)自興趣模型構(gòu)建單元103的興趣模型是否已經(jīng)存在。
相似性計(jì)算單元106用于通過(guò)數(shù)據(jù)管理單元105調(diào)用數(shù)據(jù)存儲(chǔ)單元108中存儲(chǔ)的興趣模型,根據(jù)來(lái)自興趣模型構(gòu)建單元103的興趣模型、來(lái)自訓(xùn)練分類單元104的反饋學(xué)習(xí)更新結(jié)果及其他來(lái)自數(shù)據(jù)存儲(chǔ)單元108的興趣模型進(jìn)行更精確的相似性計(jì)算,然后將相似性計(jì)算結(jié)果提供給推薦選擇器107。
推薦選擇器107用于通過(guò)數(shù)據(jù)管理單元105調(diào)用數(shù)據(jù)存儲(chǔ)單元108中存儲(chǔ)的興趣模型,根據(jù)來(lái)自數(shù)據(jù)存儲(chǔ)單元108的興趣模型和來(lái)自相似性計(jì)算單元106的相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,然后提供給預(yù)測(cè)分析單元109,并向預(yù)測(cè)分析單元109提供來(lái)自相似性計(jì)算單元106的相似性計(jì)算結(jié)果。
預(yù)測(cè)分析單元109用于根據(jù)來(lái)自相似性計(jì)算單元106的相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,并根據(jù)預(yù)測(cè)分析結(jié)果和來(lái)自推薦選擇器107的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,確定的推薦結(jié)果通過(guò)調(diào)用WWW資源索引存儲(chǔ)單元110中存儲(chǔ)的WWW資源索引提供給推薦資源展現(xiàn)單元111。
WWW資源索引存儲(chǔ)單元110用于存儲(chǔ)WWW資源索引。
推薦資源展現(xiàn)單元111用于將來(lái)自預(yù)測(cè)分析單元109的WWW資源封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
以上所述推薦選擇器107、預(yù)測(cè)分析單元109和推薦資源展現(xiàn)單元111組成了元推薦引擎。
興趣挖掘單元101與興趣模型構(gòu)建單元103之間可進(jìn)一步包括隱私保護(hù)單元102,興趣挖掘單元101用于將獲取到的信息提供給隱私保護(hù)單元102;隱私保護(hù)單元102用于對(duì)來(lái)自興趣挖掘單元101的信息嵌入安全標(biāo)記,以進(jìn)行私有化過(guò)濾保護(hù),然后提供給興趣模型構(gòu)建單元103。
圖2示出了本發(fā)明中實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的流程圖,如圖2所示,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的具體過(guò)程包括以下步驟步驟201對(duì)門(mén)戶用戶的興趣進(jìn)行挖掘,獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式。
步驟202由于是隱式獲取門(mén)戶用戶的興趣信息,應(yīng)該在獲取后到規(guī)范化處理的過(guò)程中,保證用戶隱私的安全性,可通過(guò)對(duì)獲取到的信息嵌入安全標(biāo)記來(lái)進(jìn)行私有化過(guò)濾保護(hù)。
步驟203對(duì)進(jìn)行了私有化過(guò)濾保護(hù)的信息進(jìn)行規(guī)范化處理,抽取與門(mén)戶用戶興趣相關(guān)的信息。
步驟204判斷是否創(chuàng)建新的門(mén)戶用戶的興趣模型,如果是,則執(zhí)行步驟205;否則,執(zhí)行步驟206??蓪?duì)已創(chuàng)建過(guò)興趣模型的門(mén)戶用戶的標(biāo)識(shí)進(jìn)行存儲(chǔ),這樣,如果已經(jīng)存儲(chǔ)有當(dāng)前門(mén)戶用戶的標(biāo)識(shí),則表示已經(jīng)針對(duì)相應(yīng)門(mén)戶用戶創(chuàng)建過(guò)興趣模型,不需要?jiǎng)?chuàng)建新的門(mén)戶用戶的興趣模型;如果未存儲(chǔ)當(dāng)前門(mén)戶用戶的標(biāo)識(shí),則表示還未針對(duì)相應(yīng)門(mén)戶用戶創(chuàng)建興趣模型,需要?jiǎng)?chuàng)建新的門(mén)戶用戶的興趣模型。
步驟205創(chuàng)建新的門(mén)戶用戶興趣模型,然后繼續(xù)執(zhí)行步驟207。
步驟206對(duì)已有門(mén)戶用戶興趣模型進(jìn)行更新,然后繼續(xù)執(zhí)行步驟207。
門(mén)戶用戶興趣模型是關(guān)于門(mén)戶用戶興趣偏好、使用行為模式的可計(jì)算描述,描述對(duì)象是指登錄門(mén)戶的具有個(gè)性化服務(wù)權(quán)限的各類用戶、登錄的已注冊(cè)用戶,結(jié)構(gòu)上可考慮門(mén)戶用戶個(gè)體及門(mén)戶用戶群兩種。本發(fā)明中所描述的門(mén)戶用戶群是一種區(qū)別于門(mén)戶用戶所屬組織結(jié)構(gòu)的、更靈活動(dòng)態(tài)的虛擬概念,根據(jù)門(mén)戶用戶實(shí)際的興趣相似度進(jìn)行聚類。隨著門(mén)戶用戶的興趣衰減變化,其所屬的門(mén)戶用戶群也會(huì)隨之變化。相對(duì)地,門(mén)戶用戶群保持的興趣比單一的門(mén)戶用戶更為穩(wěn)定持久,因此也可作為元推薦引擎在預(yù)測(cè)計(jì)算時(shí)的參考依據(jù)。
針對(duì)于步驟201~步驟206,創(chuàng)建和更新門(mén)戶用戶興趣模型的過(guò)程即是隱式實(shí)現(xiàn)將門(mén)戶用戶感興趣內(nèi)容和訪問(wèn)行為相結(jié)合的動(dòng)態(tài)興趣挖掘過(guò)程,包括如圖3所示的以下幾個(gè)環(huán)節(jié),首先,獲取門(mén)戶用戶的門(mén)戶平臺(tái)興趣描述文件(UserProfile,UP),然后對(duì)UP進(jìn)行隱私保護(hù),進(jìn)行私有化過(guò)濾保護(hù),將安全標(biāo)記嵌入U(xiǎn)P;其次,對(duì)UP進(jìn)行數(shù)據(jù)預(yù)處理,進(jìn)行特征擴(kuò)充、挖掘興趣類、規(guī)范化訪問(wèn)事務(wù)集;再次,構(gòu)建門(mén)戶用戶興趣模型,將UP擴(kuò)展為UP′,建立多元組<U,I(A+C),G>;最后,進(jìn)行降維的規(guī)范化處理,降低計(jì)算復(fù)雜度,生成門(mén)戶用戶興趣模型。
下面對(duì)圖3所述的具體操作進(jìn)行更為詳細(xì)的描述。
如果門(mén)戶用戶u在T時(shí)間段內(nèi)對(duì)其個(gè)性化桌面依次進(jìn)行了設(shè)置和訪問(wèn)操作,并瀏覽了M個(gè)各不相同頁(yè)面的Tab集合{t1,t2…,tM}以及N個(gè)門(mén)戶組件Portlet集合{p1,p2…,pN}。
一方面,廣度優(yōu)先提取相應(yīng)的興趣內(nèi)容主題進(jìn)行特征描述和擴(kuò)充,設(shè)置InterestContent(p,t)用于描述門(mén)戶用戶興趣內(nèi)容的興趣度函數(shù),則InterestContent(p,t)可表示為InterestContent(p,t)=F((Feature(p,t),Weight(p,t)),F(xiàn)eatureExpand(p,t))(1)其中,F(xiàn)eature()和Weight()分別為提取特征函數(shù)和權(quán)重函數(shù),提取特征是指提取內(nèi)容的主題、關(guān)鍵詞等;FeatureExpand()則用于擴(kuò)充對(duì)相關(guān)主題特征的描述。加權(quán)過(guò)程是對(duì)提取的特征按照興趣重要程度和關(guān)聯(lián)度分別進(jìn)行加權(quán)重的,通常可分等級(jí)表示。
另一方面,將門(mén)戶用戶的行為模式和訪問(wèn)過(guò)程進(jìn)行規(guī)范化處理,可重點(diǎn)針對(duì)點(diǎn)擊、布局、編輯和引用等幾種行為操作進(jìn)行動(dòng)態(tài)跟蹤和捕獲,近似反映典型的門(mén)戶用戶興趣行為。設(shè)置InterestAction(u,p,t)為描述門(mén)戶用戶行為的興趣度函數(shù),則InterestAction(u,p,t)可表示為InterestAction(u,p,t)=G(u,Click(p),Arrange(p),Edit(p),Quate(p),F(xiàn)req(t),Duration(t))(2)其中,Click(p)、Arrange(p)、Edit(p)和Quate(p)分別用于描述門(mén)戶用戶點(diǎn)擊、布局、編輯和引用門(mén)戶組件的行為,F(xiàn)req()為返回訪問(wèn)的次數(shù),Duration()為返回訪問(wèn)的駐留時(shí)間。
考慮到門(mén)戶用戶行為與內(nèi)容間興趣改變的交互適應(yīng)性,可利用圖論定義生成訪問(wèn)事務(wù)序列,定義每個(gè)門(mén)戶用戶的訪問(wèn)事務(wù)是門(mén)戶用戶對(duì)門(mén)戶的一條訪問(wèn)路徑as=(p,t,F(xiàn)eature(p,t),InterestAction(u,p,t)},門(mén)戶用戶訪問(wèn)事務(wù)集是每個(gè)門(mén)戶用戶在不同時(shí)間段里對(duì)門(mén)戶的訪問(wèn)路徑集AS={u,{as},T},進(jìn)而綜合比較門(mén)戶用戶間的興趣內(nèi)容、興趣行為及訪問(wèn)事務(wù)的相似性,設(shè)定門(mén)戶用戶所屬的門(mén)戶用戶群UserGroup類別。
將獲取到的UP進(jìn)行私有化過(guò)濾保護(hù)和數(shù)據(jù)清洗預(yù)處理后,進(jìn)行興趣內(nèi)容與行為相結(jié)合、穩(wěn)定與突出興趣相結(jié)合的興趣擴(kuò)展描述?;谡Z(yǔ)義結(jié)構(gòu)建立較完備的適用于門(mén)戶用戶的興趣描述文件UP′,UP或UP′多為基于可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)的資源定義框架(Resource DefinitionFramework,RDF)文件,抽取特征多元組<User,<InterestContent,InterestAction>,UserGroup>構(gòu)建門(mén)戶用戶興趣的矢量模型。
此外,引入菲波那契數(shù)列(The Fibonacci Numbers)描述函數(shù)Fibo(),采用將漸進(jìn)遺忘和滑動(dòng)窗口相結(jié)合的方式,解決因門(mén)戶用戶興趣漂移的模型更新問(wèn)題。限定用戶興趣類別的窗口數(shù)L,并且選定門(mén)戶用戶訪問(wèn)同一相關(guān)內(nèi)容的時(shí)間間隔,如天數(shù),動(dòng)態(tài)將門(mén)戶用戶關(guān)注度最小的一個(gè)興趣移出窗口,以保證門(mén)戶用戶興趣模型及時(shí)有效的更新。定義針對(duì)某一路徑的q=Interval(as,as′),并獲取門(mén)戶用戶的訪問(wèn)時(shí)間間隔,權(quán)重更新關(guān)系可表示為Weight′(p,t)=Weight(p,t)+Feedback(q)/Fibo(L)(3)其中,F(xiàn)eedback( )為描述門(mén)戶用戶興趣漂移的反饋函數(shù),表示為Feedback(q)=0if q=0-Fibo(q)if1≤q≤L,q∈N]]>所有興趣度模型庫(kù)和訪問(wèn)事務(wù)集都通過(guò)訓(xùn)練分類模塊加載到數(shù)據(jù)集中進(jìn)行集中維護(hù),其中,描述門(mén)戶用戶興趣內(nèi)容的興趣度函數(shù)InterestContent(p,t)和描述門(mén)戶用戶行為的興趣度函數(shù)InterestAction(u,p,t)可存儲(chǔ)于興趣度模型庫(kù)中,描述門(mén)戶用戶訪問(wèn)路徑的函數(shù)as和描述門(mén)戶用戶訪問(wèn)路徑集的函數(shù)AS可存儲(chǔ)于訪問(wèn)事務(wù)集中。這種數(shù)據(jù)處理的粒度和方式,充分考慮了用戶興趣模型的完備性以及門(mén)戶特點(diǎn),因此易于擴(kuò)展,既便于進(jìn)行門(mén)戶用戶相似度比較計(jì)算,同時(shí)又有利于與門(mén)戶整合的兼容和擴(kuò)展。
步驟207將構(gòu)建的門(mén)戶用戶興趣模型與存儲(chǔ)的門(mén)戶用戶興趣模型進(jìn)行訓(xùn)練分類。所述構(gòu)建的門(mén)戶用戶興趣模型包括初始創(chuàng)建的門(mén)戶用戶興趣模型和經(jīng)過(guò)更新的門(mén)戶用戶興趣模型。訓(xùn)練分類是根據(jù)構(gòu)建的門(mén)戶用戶興趣模型進(jìn)行特征訓(xùn)練,提取興趣內(nèi)容、行為特征等初步劃分興趣模型的類別以及興趣資源內(nèi)容的類別,并不斷對(duì)門(mén)戶用戶興趣模型進(jìn)行更新。其中劃分方法包括門(mén)戶用戶興趣模型間、資源間的相似性比較。需要綜合考慮門(mén)戶用戶興趣模型在興趣內(nèi)容、行為以及初步用戶群等方面的描述。
步驟208根據(jù)構(gòu)建的門(mén)戶用戶興趣模型、存儲(chǔ)的門(mén)戶用戶興趣模型以及反饋學(xué)習(xí)結(jié)果,進(jìn)行更精確的相似性計(jì)算。進(jìn)行步驟210中的預(yù)測(cè)過(guò)濾的近鄰計(jì)算依據(jù)就是相似性計(jì)算算法,即在已有分類的基礎(chǔ)上進(jìn)行用戶興趣模型間的相似匹配和比較。相似性越高,產(chǎn)生近鄰的概率就越大,因此是一個(gè)聚類過(guò)程。同時(shí)由于考慮了前端返回的門(mén)戶用戶興趣模型漂移更新結(jié)果,因此本步驟的相似性計(jì)算過(guò)程更加精確和充分。最后產(chǎn)生目標(biāo)門(mén)戶用戶的近鄰集。
步驟209根據(jù)存儲(chǔ)的興趣模型和相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合。
步驟210根據(jù)相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,然后根據(jù)預(yù)測(cè)分析結(jié)果和確定的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,并根據(jù)確定的推薦結(jié)果調(diào)用存儲(chǔ)的WWW資源索引,具體是指預(yù)測(cè)過(guò)程是在選定目標(biāo)門(mén)戶用戶u近鄰集的基礎(chǔ)之上,對(duì)該目標(biāo)門(mén)戶用戶未瀏覽或未知興趣的資源進(jìn)行預(yù)測(cè),通常是基于近鄰的相關(guān)興趣歷史或相似興趣內(nèi)容規(guī)則,然后從預(yù)測(cè)的結(jié)果中選出系統(tǒng)認(rèn)為目標(biāo)門(mén)戶用戶會(huì)感興趣的資源推薦給該目標(biāo)門(mén)戶用戶。
步驟211將調(diào)用的WWW資源索引封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
本發(fā)明中,個(gè)性化推薦服務(wù)中的元推薦是指通過(guò)綜合考慮門(mén)戶用戶個(gè)性化興趣的各種需求,將信息資源和推薦算法統(tǒng)一組織控制并選擇推送的過(guò)程,實(shí)現(xiàn)數(shù)據(jù)和計(jì)算的高度管理控制。不同的推薦算法模型可互為其它推薦模型的輸入,不同于組合推薦中特征互為輸入的概念,也就是說(shuō)不再以每次的計(jì)算結(jié)果作為下一次的輸入,而是直接將算法模型整體作為輸入,最后綜合考慮計(jì)算結(jié)果。
數(shù)據(jù)集統(tǒng)一存儲(chǔ)和維護(hù)元推薦服務(wù)相關(guān)的屬性集變量,并利用數(shù)據(jù)管理模塊統(tǒng)一操作調(diào)用,基本數(shù)據(jù)結(jié)構(gòu)的接口如圖4所示。包括興趣模型庫(kù)、訪問(wèn)事務(wù)集、推薦算法集、推薦記錄、推薦內(nèi)容索引、用戶索引和資源展現(xiàn)記錄等,并引入上下文三元組<Content,User,TimeStamp>,以保證元推薦引擎的靈活選擇。
表興趣內(nèi)容模型(InterestModel)和訪問(wèn)序列(AccessSquence)分別對(duì)應(yīng)興趣內(nèi)容模型庫(kù)和訪問(wèn)事務(wù)集。表用戶(User)維護(hù)門(mén)戶用戶的基本信息,作為更新及相似計(jì)算的參考。表推薦記錄(RecomRecord)用于記錄每次推薦過(guò)程的算法選擇和預(yù)測(cè)推送結(jié)果,其中,屬性用戶名(User)、推薦算法(RecomAlgorithem)、用戶推薦內(nèi)容(UserContent)和用戶群推薦內(nèi)容(UserGroupContent)都是輔助上下文的外鍵標(biāo)識(shí),即作為數(shù)據(jù)庫(kù)的外鍵,時(shí)間戳(TimeStamp)記錄推薦時(shí)間戳,是否推薦(IfPresented)標(biāo)識(shí)是否將資源展現(xiàn)在門(mén)戶上。表推薦內(nèi)容(Content)是作為WWW資源索引庫(kù)的同步映射,預(yù)測(cè)分析后提取資源鏈接等信息作為推薦資源展現(xiàn)模塊的配置參數(shù),并記錄在表(推薦展示)Presentation中。
推薦算法是實(shí)現(xiàn)推薦服務(wù)功能的特定計(jì)算方法的邏輯結(jié)構(gòu),是推薦任務(wù)的核心。根據(jù)興趣挖掘的輸入,通過(guò)相應(yīng)預(yù)測(cè)分析計(jì)算出推薦結(jié)果。本文的元推薦服務(wù)架構(gòu)中并未限制推薦算法的類別和數(shù)目,每種算法的初始鍵值用于啟動(dòng)相關(guān)推薦算法,表RecomAlgorithem中最大鍵值(MaxKey)設(shè)定該初始鍵值的最大閾值,最大閾值用于區(qū)分各算法的級(jí)別。在原型中,通過(guò)綜合考慮對(duì)門(mén)戶用戶/門(mén)戶用戶群興趣內(nèi)容和行為的特點(diǎn)分析,定義推薦算法如下幾種。
基于內(nèi)容的過(guò)濾不直接對(duì)頁(yè)面進(jìn)行聚類,抽取門(mén)戶組件內(nèi)容特征進(jìn)行聚類。其中內(nèi)容特征權(quán)重一致化處理的計(jì)算方法如下Weight(p,t)=Σj=1MWeight(p,tj)Σi=1MΣj=1MWeight(pi,tj)---(4)]]>權(quán)重的設(shè)定方法、即初始鍵值根據(jù)WWW資源內(nèi)容的索引間的相似性計(jì)算并獲得,然后設(shè)定等級(jí),便于數(shù)值的選定。
基于訪問(wèn)事務(wù)模式匹配通過(guò)訪問(wèn)事務(wù)的序列特征進(jìn)行檢索、匹配路徑的過(guò)程,與基于規(guī)則的預(yù)測(cè)計(jì)算相類似。同一事務(wù)聚類內(nèi)用戶之間的訪問(wèn)模式相似,不同事務(wù)聚類中用戶間的訪問(wèn)模式不同。其中訪問(wèn)事務(wù)序列特征權(quán)重表示訪問(wèn)力度,與相關(guān)序列特征有關(guān),計(jì)算方法如下Weight(as)=1|as|Σi∈|as|Weight(InterestAction(u,p,t),Feature(p,t))---(5)]]>基于項(xiàng)目的協(xié)同過(guò)濾基于相似項(xiàng)目興趣,構(gòu)造k近鄰集合{UserGroup}k,并根據(jù)k的互鄰關(guān)系發(fā)現(xiàn)興趣的自然聚類,依據(jù)最近鄰居評(píng)分向目標(biāo)門(mén)戶用戶產(chǎn)生參考推薦。定義Rate(u,p,t)=R(InterestAction(u,p,t)),通過(guò)隱式獲取門(mén)戶用戶行為反饋映射表示評(píng)分,則門(mén)戶用戶u通過(guò)最近鄰居集得到的對(duì)于內(nèi)容的協(xié)同預(yù)測(cè)算法如下Pu,p,t=Rate(u)‾+Σv∈{UserGroup}kSim(u,v)*(Rate(v,p,t)-Rate(v)‾)Σv∈{UserGroup}k|Sim(u,v)|---(6)]]>其中,v是屬于門(mén)戶用戶u的近鄰集合,即門(mén)戶用戶u的相似用戶;Sim()表示門(mén)戶用戶u與v之間的相似性,Rate()表示門(mén)戶用戶評(píng)分的平均值??山Y(jié)合興趣內(nèi)容的聯(lián)合出現(xiàn)頻率,定義初始鍵值。
綜合過(guò)濾排序(Top-N)綜合考慮門(mén)戶用戶及所屬門(mén)戶用戶群的興趣相互作用,按照全面優(yōu)先化原則進(jìn)行過(guò)濾篩選,并按Top-N方式分類排序。
元推薦控制策略是推薦選擇器107的核心,通過(guò)策略配置建立門(mén)戶用戶興趣模型與推薦算法的連接組合,包括門(mén)戶用戶/門(mén)戶用戶群推薦控制和推薦算法組合控制兩方面的策略,通過(guò)如圖5所示的并行組合調(diào)度方式提供靈活控制和全面新穎的資源預(yù)測(cè),其中,①表示基于內(nèi)容的過(guò)濾和/或基于訪問(wèn)事務(wù)模式的匹配,②表示基于團(tuán)體的部分匹配,③表示基于項(xiàng)目的協(xié)同過(guò)濾,④表示綜合過(guò)濾排序。本文原型采用的組合思路方式包括混合(mixed)、層疊(cascade)和特征擴(kuò)充(feature augmentation)。其中,混合是指同時(shí)采用多種技術(shù)給出多種推薦結(jié)果;層疊是指由一種推薦技術(shù)先產(chǎn)生粗糙算法,另一種推薦技術(shù)在此基礎(chǔ)上進(jìn)行進(jìn)一步精確計(jì)算;特征擴(kuò)充是指一種推薦技術(shù)獲得結(jié)果附加上特征嵌入另一種推薦技術(shù)作為輸入。
門(mén)戶用戶/門(mén)戶用戶群推薦控制策略將門(mén)戶用戶興趣模型先分解為作用于門(mén)戶用戶私有和門(mén)戶用戶群的兩個(gè)子部分,進(jìn)而分別提取門(mén)戶用戶突出的、變化的個(gè)性化興趣以及代表門(mén)戶用戶群的穩(wěn)定的、持久的個(gè)性化興趣,最后合并作用于預(yù)測(cè)分析的參考。對(duì)于門(mén)戶用戶興趣模型的優(yōu)化處理,可分步采用特征擴(kuò)充和層疊方式進(jìn)行,簡(jiǎn)化單值分解(Singular Value Decomposition,SVD),由粗糙到精確獲取鄰居集,降低計(jì)算復(fù)雜度,解決稀疏性和擴(kuò)展性問(wèn)題。
推薦算法組合控制策略用于在各環(huán)節(jié)自動(dòng)選取適當(dāng)?shù)耐扑]算法進(jìn)行預(yù)測(cè)分析,各自產(chǎn)生推薦結(jié)果作為下一步的輸入,最終獲得門(mén)戶用戶的突出興趣預(yù)測(cè)結(jié)果和門(mén)戶用戶群的興趣預(yù)測(cè)結(jié)果,再混合過(guò)濾不相關(guān)且無(wú)意義的推薦,可引入限定優(yōu)先級(jí)的選擇鍵值控制優(yōu)先級(jí),得到門(mén)戶用戶的個(gè)性化興趣預(yù)測(cè)結(jié)果。其中,為擴(kuò)展門(mén)戶用戶群的興趣內(nèi)容,可改進(jìn)優(yōu)化分類方式,采用基于團(tuán)體的部分相似性匹配方法,增大項(xiàng)目選取的廣度和未知內(nèi)容的新意,解決奇異發(fā)現(xiàn)問(wèn)題,以推薦更精確全面的鄰居預(yù)測(cè)推薦集,推薦結(jié)果可用于其他相似用戶群。
綜合過(guò)濾排序選取預(yù)測(cè)結(jié)果的基本思想是引入閾值Threshold作為保證推薦效率輔助門(mén)限,過(guò)濾時(shí)以用戶類別、時(shí)間條件、是否展示等作為判定條件,濾除無(wú)意義或權(quán)重不在興趣范圍內(nèi)的內(nèi)容,并按照鍵值KeyValue進(jìn)行Top-N方式的排序推選,成功推送后應(yīng)將IfPresented標(biāo)志位置為T(mén)URE。
不同的元推薦控制策略采用不同的模型和推薦算法提供不同的推薦服務(wù),并由元推薦引擎推動(dòng)。為滿足不同的推薦需求,元推薦引擎可同時(shí)啟動(dòng)多個(gè)元推薦控制策略,通過(guò)加載策略配置,啟動(dòng)不同的推薦過(guò)程。元推薦引擎的控制過(guò)程包括引擎的啟動(dòng)或停止、推薦算法的啟動(dòng)或停止。
預(yù)測(cè)分析單元109作為推薦算法的執(zhí)行體,遵循推薦控制器107的調(diào)用策略運(yùn)行相關(guān)推薦算法。采用前面所述的優(yōu)化改進(jìn)策略解決稀疏性、可擴(kuò)展性、冷開(kāi)始以及奇異發(fā)現(xiàn)等熱點(diǎn)問(wèn)題。
由于預(yù)測(cè)需要考慮結(jié)果的新穎程度和推薦時(shí)機(jī),不可重復(fù)和影響其它推薦的呈現(xiàn),因此,可引入基于更新的門(mén)戶用戶興趣模型的學(xué)習(xí)反饋機(jī)制進(jìn)行適當(dāng)?shù)膭?dòng)態(tài)調(diào)整。原則是內(nèi)容和權(quán)重優(yōu)于時(shí)間因素。
由于推薦資源多為普通的Web應(yīng)用,因此,面向門(mén)戶的推薦資源轉(zhuǎn)化表達(dá)是一個(gè)較為關(guān)鍵的問(wèn)題。本發(fā)明的推薦資源展現(xiàn)單元111可采用一種將Web應(yīng)用封裝為符合遠(yuǎn)程門(mén)戶組件Web服務(wù)(Web Services for Remote Portlets,WSRP)Portlet的封裝機(jī)制(Web Application to WSRP Portlet,WA2WP),如圖6所示。通過(guò)實(shí)現(xiàn)一個(gè)獨(dú)立于門(mén)戶平臺(tái)的WSRP生產(chǎn)者代理服務(wù),將推薦目標(biāo)資源映射并封裝為相應(yīng)的Portlet,并以符合WSRP接口規(guī)范的方式發(fā)布,從而實(shí)現(xiàn)與Portal的無(wú)縫集成和直觀展現(xiàn)。
WA2WP由Portlet配置管理單元、Portlet會(huì)話管理單元、WSRP接口封裝單元、請(qǐng)求命令分析單元、Web頁(yè)面獲取單元和響應(yīng)標(biāo)記處理單元。其中,Portlet配置管理單元用于維護(hù)當(dāng)前WA2WP提供的所有Portlet的元數(shù)據(jù),可從數(shù)據(jù)集表Presentation中提取相應(yīng)資源參數(shù),采用XML格式的文件進(jìn)行動(dòng)態(tài)配置,如圖所示;Portlet會(huì)話管理單元用于實(shí)現(xiàn)對(duì)會(huì)話對(duì)象的整個(gè)生命周期進(jìn)行管理;請(qǐng)求命令分析單元用于分析收到的、推薦結(jié)果所包含的資源鏈接的封裝展現(xiàn)請(qǐng)求以及訪問(wèn)資源用戶請(qǐng)求,定位目標(biāo)Portlet,進(jìn)而定位目標(biāo)統(tǒng)一資源定位符(Uniform Resource Locator,URL),獲取和準(zhǔn)備訪問(wèn)目標(biāo)資源所需的請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù);Web頁(yè)面獲取單元用于根據(jù)來(lái)自請(qǐng)求命令分析單元的目標(biāo)URL、請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù),訪問(wèn)Web應(yīng)用,獲得返回的頁(yè)面標(biāo)記內(nèi)容及Cookie數(shù)據(jù),并提供給響應(yīng)標(biāo)記處理單元;響應(yīng)標(biāo)記處理單元用于對(duì)獲取的頁(yè)面標(biāo)記內(nèi)容進(jìn)行處理,使其成為符合WSRP規(guī)范的合法有效的Portlet標(biāo)記片斷;WSRP接口封裝單元用于實(shí)現(xiàn)提供Portal或其他聚合程序訪問(wèn)的、符合WSRP規(guī)范的服務(wù)接口。
基本工作流程及數(shù)據(jù)交互過(guò)程如圖7所示請(qǐng)求命令分析單元接收推薦結(jié)果所包含的資源鏈接的封裝展現(xiàn)請(qǐng)求以及訪問(wèn)資源用戶請(qǐng)求,分析請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù)確定所要訪問(wèn)的目標(biāo)資源,通過(guò)Web頁(yè)面獲取單元訪問(wèn)并獲得Web資源頁(yè)面,可包括頁(yè)面標(biāo)記內(nèi)容及Cookie數(shù)據(jù),響應(yīng)標(biāo)記處理單元對(duì)Web頁(yè)面獲取單元返回的超文本標(biāo)記信息進(jìn)行封裝前的預(yù)處理,得到Web資源頁(yè)面片斷,然后提供給WSRP接口封裝單元,WSRP接口封裝單元最后將處理結(jié)果即Web資源頁(yè)面片斷封裝為門(mén)戶組件顯示在門(mén)戶個(gè)性化桌面上,Web資源頁(yè)面片斷為符合WSRP規(guī)范的合法有效的Portlet標(biāo)記片斷。
在資源展現(xiàn)的更新方面,考慮用戶的個(gè)性化興趣差異和使用習(xí)慣,組織形式基本依據(jù)推送權(quán)重分布進(jìn)行,推送權(quán)重可以依據(jù)時(shí)間重要性、新穎程度等進(jìn)行加權(quán)得到,通過(guò)推薦欄目頻道并標(biāo)識(shí)更新時(shí)間信息的方式逐步推送。如果門(mén)戶用戶修改布局或刪除項(xiàng)目,根據(jù)用戶興趣模型的更新反饋可以動(dòng)態(tài)調(diào)整適應(yīng)。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)系統(tǒng),其特征在于,該系統(tǒng)至少包括數(shù)據(jù)管理單元,用于輔助管理訓(xùn)練分類單元、或相似性計(jì)算單元與數(shù)據(jù)存儲(chǔ)單元的數(shù)據(jù)通信和調(diào)用;數(shù)據(jù)存儲(chǔ)單元,用于存儲(chǔ)門(mén)戶用戶和/或門(mén)戶用戶群的興趣模型庫(kù),該興趣模型庫(kù)包括門(mén)戶用戶和/或門(mén)戶用戶群的興趣度模型庫(kù)和訪問(wèn)事務(wù)集,數(shù)據(jù)存儲(chǔ)單元中進(jìn)一步存儲(chǔ)有推薦算法集;興趣挖掘單元,位于門(mén)戶平臺(tái)中,用于獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式,并將獲取到的信息提供給興趣模型構(gòu)建單元;興趣模型構(gòu)建單元,用于對(duì)獲取的興趣數(shù)據(jù)進(jìn)行規(guī)范化處理,根據(jù)處理后的信息構(gòu)建門(mén)戶用戶的興趣模型,并將構(gòu)建的門(mén)戶用戶興趣模型提供給訓(xùn)練分類單元和相似性計(jì)算單元;訓(xùn)練分類單元,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,將來(lái)自興趣模型構(gòu)建單元的興趣模型與來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型進(jìn)行近鄰聚類的反饋學(xué)習(xí),然后將反饋學(xué)習(xí)結(jié)果通過(guò)數(shù)據(jù)管理單元更新數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的門(mén)戶用戶興趣模型并提供給相似性計(jì)算單元;相似性計(jì)算單元,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自興趣模型構(gòu)建單元的興趣模型、來(lái)自訓(xùn)練分類單元的反饋學(xué)習(xí)更新結(jié)果及其他來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型進(jìn)行更精確的相似性計(jì)算,然后將相似性計(jì)算結(jié)果提供給元推薦引擎;元推薦引擎,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型和來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,然后根據(jù)來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,并根據(jù)預(yù)測(cè)分析結(jié)果和推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,根據(jù)確定的推薦結(jié)果調(diào)用萬(wàn)維網(wǎng)WWW資源索引存儲(chǔ)單元中存儲(chǔ)的WWW資源索引,將WWW資源封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶;WWW資源索引存儲(chǔ)單元,用于存儲(chǔ)WWW資源索引。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述元推薦引擎包括推薦選擇器,用于通過(guò)數(shù)據(jù)管理單元調(diào)用數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)的興趣模型,根據(jù)來(lái)自數(shù)據(jù)存儲(chǔ)單元的興趣模型和來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,然后提供給預(yù)測(cè)分析單元,并向預(yù)測(cè)分析單元提供來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果;預(yù)測(cè)分析單元,用于根據(jù)來(lái)自相似性計(jì)算單元的相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,并根據(jù)預(yù)測(cè)分析結(jié)果和來(lái)自推薦選擇器的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,確定的推薦結(jié)果通過(guò)調(diào)用WWW資源索引存儲(chǔ)單元中存儲(chǔ)的WWW資源索引提供給推薦資源展現(xiàn)單元;推薦資源展現(xiàn)單元,用于將來(lái)自預(yù)測(cè)分析單元的WWW資源封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述推薦資源展現(xiàn)單元,包括門(mén)戶組件Portlet配置管理單元,用于維護(hù)當(dāng)前環(huán)球網(wǎng)Web應(yīng)用封裝為符合遠(yuǎn)程門(mén)戶組件Web服務(wù)Portlet的封裝機(jī)制WA2WP提供的所有Portlet的元數(shù)據(jù);Portlet會(huì)話管理單元,用于實(shí)現(xiàn)對(duì)會(huì)話對(duì)象的整個(gè)生命周期進(jìn)行管理;請(qǐng)求命令分析單元,用于接收推薦結(jié)果所包含的資源鏈接的封裝展現(xiàn)請(qǐng)求以及訪問(wèn)資源用戶請(qǐng)求,分析請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù)確定所要訪問(wèn)的目標(biāo)資源,定位目標(biāo)統(tǒng)一資源定位符URL,獲取和準(zhǔn)備訪問(wèn)目標(biāo)資源所需的請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù);Web頁(yè)面獲取單元,用于根據(jù)來(lái)自請(qǐng)求命令分析單元的目標(biāo)URL、請(qǐng)求參數(shù)和會(huì)話數(shù)據(jù),訪問(wèn)Web應(yīng)用,獲得返回的頁(yè)面標(biāo)記內(nèi)容及Cookie數(shù)據(jù),并提供給響應(yīng)標(biāo)記處理單元;響應(yīng)標(biāo)記處理單元,用于對(duì)Web頁(yè)面獲取單元返回的超文本標(biāo)記信息進(jìn)行封裝前的預(yù)處理,得到Web資源頁(yè)面片斷,然后提供給WSRP接口封裝單元;WSRP接口封裝單元,用于將Web資源頁(yè)面片斷封裝為門(mén)戶組件顯示在門(mén)戶個(gè)性化桌面上。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,訓(xùn)練分類單元進(jìn)一步用于對(duì)已建立興趣模型的用戶或用戶群標(biāo)識(shí)進(jìn)行存儲(chǔ),如果沒(méi)有存儲(chǔ)用戶或用戶群標(biāo)識(shí),則通過(guò)數(shù)據(jù)管理單元將訓(xùn)練分類后的興趣模型提供給數(shù)據(jù)存儲(chǔ)單元進(jìn)行存儲(chǔ)。
5.根據(jù)權(quán)利要求1、2或3所述的系統(tǒng),其特征在于,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)進(jìn)一步包括隱私保護(hù)單元,興趣挖掘單元,用于將獲取到的信息提供給隱私保護(hù)單元;隱私保護(hù)單元,用于對(duì)來(lái)自興趣挖掘單元的信息嵌入安全標(biāo)記,以進(jìn)行私有化過(guò)濾保護(hù),然后提供給興趣模型構(gòu)建單元。
6.一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法,其特征在于,該方法包含以下步驟A、對(duì)門(mén)戶用戶的興趣進(jìn)行挖掘,獲取門(mén)戶用戶的個(gè)性化描述文件,隱式跟蹤并捕獲登錄門(mén)戶用戶的興趣內(nèi)容和訪問(wèn)行為模式;B、進(jìn)行規(guī)范化處理,抽取與門(mén)戶用戶興趣相關(guān)的信息,并判斷是否創(chuàng)建新的門(mén)戶用戶的興趣模型,如果是,則創(chuàng)建新的門(mén)戶用戶興趣模型,否則,對(duì)已有門(mén)戶用戶興趣模型進(jìn)行更新;C、將構(gòu)建的門(mén)戶用戶興趣模型與存儲(chǔ)的門(mén)戶用戶興趣模型進(jìn)行訓(xùn)練分類;D、根據(jù)構(gòu)建的門(mén)戶用戶興趣模型、存儲(chǔ)的門(mén)戶用戶興趣模型以及反饋學(xué)習(xí)結(jié)果,進(jìn)行更精確的相似性計(jì)算;E、根據(jù)存儲(chǔ)的興趣模型和相似性計(jì)算結(jié)果,確定推薦控制策略及推薦算法的選擇和組合,根據(jù)相似性計(jì)算結(jié)果進(jìn)行預(yù)測(cè)過(guò)濾分析,然后根據(jù)預(yù)測(cè)分析結(jié)果和確定的推薦控制策略及推薦算法,執(zhí)行計(jì)算確定推薦結(jié)果,并根據(jù)確定的推薦結(jié)果調(diào)用存儲(chǔ)的WWW資源索引;F、將調(diào)用的WWW資源索引封裝為含Web頁(yè)面內(nèi)容的門(mén)戶組件,并推送給門(mén)戶用戶。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟A與步驟B之間,進(jìn)一步包括對(duì)獲取到的信息嵌入安全標(biāo)記。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟C為根據(jù)構(gòu)建的門(mén)戶用戶興趣模型進(jìn)行特征訓(xùn)練,提取興趣內(nèi)容、行為特征初步劃分興趣模型的類別以及興趣資源內(nèi)容的類別,并不斷對(duì)門(mén)戶用戶興趣模型進(jìn)行更新。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟D為在已有分類的基礎(chǔ)上進(jìn)行用戶興趣模型間的相似匹配和比較,產(chǎn)生目標(biāo)門(mén)戶用戶的近鄰集。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟E中所述預(yù)測(cè)過(guò)濾分析,為在選定目標(biāo)門(mén)戶用戶近鄰集的基礎(chǔ)之上,對(duì)該目標(biāo)門(mén)戶用戶未瀏覽或未知興趣的資源進(jìn)行預(yù)測(cè)。
全文摘要
本發(fā)明公開(kāi)了一種采用元推薦引擎的門(mén)戶個(gè)性化推薦服務(wù)方法和系統(tǒng),提出了門(mén)戶用戶興趣模型的構(gòu)建,包括門(mén)戶用戶興趣模型的初始創(chuàng)建和后續(xù)更新;提出采用元推薦引擎的獨(dú)立于門(mén)戶平臺(tái)的個(gè)性化推薦服務(wù)體系架構(gòu),元推薦引擎能夠分析用戶及用戶群的關(guān)聯(lián)及個(gè)性化興趣變化,將信息資源和推薦算法統(tǒng)一組織并合理選擇控制,優(yōu)化推送產(chǎn)生更全面多樣的個(gè)性化推薦結(jié)果;在資源展現(xiàn)方面,實(shí)現(xiàn)門(mén)戶個(gè)性化推薦服務(wù)的系統(tǒng)能夠?qū)㈩A(yù)測(cè)推薦的多種Web資源內(nèi)容對(duì)象封裝為門(mén)戶組件,向門(mén)戶用戶進(jìn)行生動(dòng)直觀的個(gè)性化顯示,提供一種更高層的個(gè)性化控制。綜合利用門(mén)戶平臺(tái)已有的個(gè)性化資源和技術(shù)手段,提供獨(dú)立靈活的服務(wù)中間件或服務(wù)代理,以完成個(gè)性化推薦服務(wù)。
文檔編號(hào)G06Q30/00GK1967533SQ20061009886
公開(kāi)日2007年5月23日 申請(qǐng)日期2006年7月17日 優(yōu)先權(quán)日2006年7月17日
發(fā)明者熊璋, 吳晶, 劉永利, 李超 申請(qǐng)人:北京航空航天大學(xué)