本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種數(shù)據(jù)關(guān)聯(lián)方法,具體來(lái)說(shuō)就是一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法。
背景技術(shù):
隨著電子購(gòu)物平臺(tái)及其相關(guān)信息技術(shù)的飛速發(fā)展,電子網(wǎng)絡(luò)購(gòu)物已成為人們生活中不可或缺的組成部分。然而網(wǎng)絡(luò)中信息資源的數(shù)量大大超出了人們的處理能力,“網(wǎng)絡(luò)信息過(guò)載”問(wèn)題日趨嚴(yán)重。因此,新興電子購(gòu)物網(wǎng)絡(luò)在便利人們?nèi)粘I畹耐瑫r(shí),也對(duì)現(xiàn)有信息檢索、個(gè)性化推薦服務(wù)、精準(zhǔn)營(yíng)銷等數(shù)據(jù)關(guān)聯(lián)問(wèn)題帶來(lái)了巨大的機(jī)遇和挑戰(zhàn)。因此,為滿足用戶越來(lái)越高的信息服務(wù)要求,向用戶精準(zhǔn)推送感興趣數(shù)據(jù)項(xiàng)目的數(shù)據(jù)關(guān)聯(lián)技術(shù)應(yīng)運(yùn)而生,并引起了國(guó)內(nèi)外學(xué)者和用戶的廣泛關(guān)注。然而,現(xiàn)有數(shù)據(jù)關(guān)聯(lián)方法存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、精準(zhǔn)度不高等缺陷。
現(xiàn)有技術(shù)中,可將數(shù)據(jù)關(guān)聯(lián)方法歸納成三個(gè)主要類別:基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法、協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法和混合數(shù)據(jù)關(guān)聯(lián)方法。其中,基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法從內(nèi)容角度挖掘用戶信息需求與數(shù)據(jù)對(duì)象的關(guān)聯(lián),通過(guò)度量用戶模型與數(shù)據(jù)項(xiàng)模型的相似性來(lái)實(shí)現(xiàn)對(duì)備選數(shù)據(jù)項(xiàng)的關(guān)聯(lián)預(yù)測(cè);但由于其沒(méi)有充分利用用戶群體知識(shí),導(dǎo)致其關(guān)聯(lián)的數(shù)據(jù)項(xiàng)目與用戶模型耦合度過(guò)于緊密,無(wú)法發(fā)現(xiàn)用戶的潛在信息需求,很難實(shí)現(xiàn)具有一定聯(lián)想功能的數(shù)據(jù)關(guān)聯(lián)服務(wù)。協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法的應(yīng)用前景則更加廣泛,其基于群體知識(shí)進(jìn)行數(shù)據(jù)關(guān)聯(lián),即興趣和偏好相似的用戶之間可以共享各自的信息體驗(yàn),通過(guò)發(fā)現(xiàn)與用戶興趣相似的鄰居用戶,并將鄰居用戶感興趣的數(shù)據(jù)項(xiàng)與目標(biāo)用戶進(jìn)行關(guān)聯(lián);但實(shí)際應(yīng)用中,協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法也存在著一些其難以克服的問(wèn)題或缺陷,例如:當(dāng)用戶無(wú)任何數(shù)據(jù)關(guān)聯(lián)歷史,該模型則無(wú)法對(duì)該新用戶的興趣偏愛(ài)進(jìn)行建模;與此相對(duì)應(yīng)的就是新數(shù)據(jù)項(xiàng)問(wèn)題,當(dāng)出現(xiàn)新的數(shù)據(jù)項(xiàng)時(shí),很少甚至沒(méi)有用戶與其發(fā)生過(guò)關(guān)聯(lián),進(jìn)而導(dǎo)致關(guān)聯(lián)算法無(wú)法實(shí)現(xiàn)相似度計(jì)算和關(guān)聯(lián)度預(yù)測(cè)。如上所述,基于內(nèi)容的數(shù)據(jù)關(guān)聯(lián)方法和協(xié)同過(guò)濾數(shù)據(jù)關(guān)聯(lián)方法都是通過(guò)單一的、各不相同的關(guān)聯(lián)策略來(lái)實(shí)現(xiàn)信息與用戶的關(guān)聯(lián)服務(wù),其優(yōu)缺點(diǎn)各有不同?;诖耍绢I(lǐng)域技術(shù)人員提出并嘗試將上述兩種關(guān)聯(lián)方法通過(guò)不同形式進(jìn)行組合,進(jìn)而也就形成了基于多種關(guān)聯(lián)策略和機(jī)制的混合數(shù)據(jù)關(guān)聯(lián)方法,然而實(shí)踐證明混合數(shù)據(jù)關(guān)聯(lián)方法仍存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、精準(zhǔn)度不高等不足。
因此,本領(lǐng)域技術(shù)人員亟待研發(fā)出一種能夠適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng),匹配精準(zhǔn)度高,并且能夠發(fā)現(xiàn)用戶潛在信息需求的數(shù)據(jù)關(guān)聯(lián)方法。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明要解決的技術(shù)問(wèn)題在于提供一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法及裝置,解決了現(xiàn)有數(shù)據(jù)關(guān)聯(lián)方法存在數(shù)據(jù)稀疏、數(shù)據(jù)關(guān)聯(lián)冷啟動(dòng)、匹配精準(zhǔn)度不高等問(wèn)題。
為了解決上述技術(shù)問(wèn)題,本發(fā)明的具體實(shí)施方式提供一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法,包括:獲取網(wǎng)站上的用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合;根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖;根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度;將所述權(quán)威度與所述待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。
根據(jù)本發(fā)明的上述具體實(shí)施方式可知,基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法至少具有以下有益效果或特點(diǎn):深化分析用戶的歷史行為數(shù)據(jù),構(gòu)建用戶興趣畫(huà)像模型;通過(guò)對(duì)多個(gè)用戶間不同主題下的關(guān)聯(lián)度分析,構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);結(jié)合加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性,提出Urank算法,用以計(jì)算用戶在多個(gè)不同主題下的權(quán)威度與影響力,進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)精準(zhǔn)度,可以適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng),并且可以發(fā)現(xiàn)用戶的潛在信息需求,提高用戶體驗(yàn)度。
應(yīng)了解的是,上述一般描述及以下具體實(shí)施方式僅為示例性及闡釋性的,其并不能限制本發(fā)明所欲主張的范圍。
附圖說(shuō)明
下面的所附附圖是本發(fā)明的說(shuō)明書(shū)的一部分,其繪示了本發(fā)明的示例實(shí)施例,所附附圖與說(shuō)明書(shū)的描述一起用來(lái)說(shuō)明本發(fā)明的原理。
圖1為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例一的流程圖;
圖2為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例二的流程圖;
圖3為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例三的流程圖;
圖4為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)系統(tǒng)的示意框圖;
圖5為本發(fā)明具體實(shí)施方式提供的一種具體用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型;
圖6為本發(fā)明具體實(shí)施方式提供的一種面向不同主題維度的用戶影響力計(jì)算示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面將以附圖及詳細(xì)敘述清楚說(shuō)明本發(fā)明所揭示內(nèi)容的精神,任何所屬技術(shù)領(lǐng)域技術(shù)人員在了解本發(fā)明內(nèi)容的實(shí)施例后,當(dāng)可由本發(fā)明內(nèi)容所教示的技術(shù),加以改變及修飾,其并不脫離本發(fā)明內(nèi)容的精神與范圍。
本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限定。另外,在附圖及實(shí)施方式中所使用相同或類似標(biāo)號(hào)的元件/構(gòu)件是用來(lái)代表相同或類似部分。
關(guān)于本文中所使用的“第一”、“第二”、…等,并非特別指稱次序或順位的意思,也非用以限定本發(fā)明,其僅為了區(qū)別以相同技術(shù)用語(yǔ)描述的元件或操作。
關(guān)于本文中所使用的方向用語(yǔ),例如:上、下、左、右、前或后等,僅是參考附圖的方向。因此,使用的方向用語(yǔ)是用來(lái)說(shuō)明并非用來(lái)限制本創(chuàng)作。
關(guān)于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均為開(kāi)放性的用語(yǔ),即意指包含但不限于。
關(guān)于本文中所使用的“及/或”,包括所述事物的任一或全部組合。
關(guān)于本文中所使用的用語(yǔ)“大致”、“約”等,用以修飾任何可以微變化的數(shù)量或誤差,但這些微變化或誤差并不會(huì)改變其本質(zhì)。一般而言,此類用語(yǔ)所修飾的微變化或誤差的范圍在部分實(shí)施例中可為20%,在部分實(shí)施例中可為10%,在部分實(shí)施例中可為5%或是其他數(shù)值。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)了解,前述提及的數(shù)值可依實(shí)際需求而調(diào)整,并不以此為限。
某些用以描述本申請(qǐng)的用詞將于下或在此說(shuō)明書(shū)的別處討論,以提供本領(lǐng)域技術(shù)人員在有關(guān)本申請(qǐng)的描述上額外的引導(dǎo)。
圖1為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例一的流程圖,如圖1所示,利用網(wǎng)站上的用戶基本信息和用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖,再根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度,從而將權(quán)威度與待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。
該附圖所示的具體實(shí)施方式包括:
步驟101:獲取網(wǎng)站上的用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合。其中,用戶基本信息包括:年齡、性別、職業(yè)、所在城市、興趣愛(ài)好等;用戶歷史行為數(shù)據(jù)集合包括用戶歷史購(gòu)買行為、用戶電子商務(wù)網(wǎng)站瀏覽與評(píng)論行為等;待關(guān)聯(lián)數(shù)據(jù)集合為電子商務(wù)網(wǎng)站商品集(或電子商務(wù)網(wǎng)站商品子集)。
步驟102:根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖。用戶間關(guān)系結(jié)構(gòu)圖為面向主題維度的關(guān)聯(lián)度評(píng)估圖模型?;谒鶚?gòu)建的用戶間關(guān)系結(jié)構(gòu)圖,可以有效計(jì)算客戶不同主題維度下的權(quán)威度,以提升數(shù)據(jù)關(guān)聯(lián)效果。
步驟103:根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。利用URank算法根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。
步驟104:將所述權(quán)威度與所述待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行融合處理獲得數(shù)據(jù)關(guān)聯(lián)結(jié)果。
參見(jiàn)圖1,深化分析用戶的歷史行為數(shù)據(jù),構(gòu)建用戶興趣畫(huà)像模型;通過(guò)對(duì)多個(gè)用戶間不同主題下的關(guān)聯(lián)度分析,構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);結(jié)合加權(quán)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性,提出Urank算法,用以計(jì)算用戶在多個(gè)不同主題下的權(quán)威度與影響力,進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)精準(zhǔn)度,可以適應(yīng)于新用戶、新數(shù)據(jù)項(xiàng),并且可以發(fā)現(xiàn)用戶的潛在信息需求,提高用戶體驗(yàn)度。
圖2為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例二的流程圖,如圖2所示,根據(jù)用戶基本信息和用戶歷史行為數(shù)據(jù)集合進(jìn)行用戶興趣畫(huà)像。用戶興趣畫(huà)像最終用于數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊。
該附圖所示的具體實(shí)施方式中,在步驟102之前,該方法還包括:
步驟101-1:根據(jù)所述用戶基本信息和所述用戶歷史行為數(shù)據(jù)集合進(jìn)行用戶興趣畫(huà)像。
參見(jiàn)圖2,用戶歷史行為數(shù)據(jù)集合較好地折射出用戶的興趣愛(ài)好,用戶歷史行為數(shù)據(jù)集合中的某些數(shù)據(jù)也極好地反應(yīng)了用戶的個(gè)人偏好和側(cè)重點(diǎn),再結(jié)合用戶基本信息和待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行用戶興趣畫(huà)像,從而可以精準(zhǔn)反映用戶的興趣愛(ài)好。
圖3為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)方法的實(shí)施例三的流程圖,如圖3所示,根據(jù)用戶基本信息、用戶歷史行為數(shù)據(jù)集合和待關(guān)聯(lián)數(shù)據(jù)集合進(jìn)行用戶興趣畫(huà)像;根據(jù)用戶基本信息和用戶歷史行為數(shù)據(jù)集合構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖;根據(jù)用戶間關(guān)系結(jié)構(gòu)圖度量用戶在不同主題下的權(quán)威度。
該附圖所示的具體實(shí)施方式中,步驟101-1具體包括:
步驟101-11:根據(jù)所述用戶基本信息中的具體用戶uk確定該具體用戶uk對(duì)應(yīng)的歷史行為數(shù)據(jù)集合V。
步驟101-12:計(jì)算所述待關(guān)聯(lián)數(shù)據(jù)集合中的待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh與歷史行為數(shù)據(jù)集合V之間的相似度。
步驟101-13:根據(jù)所述相似度獲得具體用戶uk對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh的興趣度I(vh,uk)。
步驟101-14:根據(jù)所述興趣度I(vh,uk)進(jìn)行用戶興趣畫(huà)像。
本發(fā)明的具體實(shí)施例中,所述興趣度I(vh,uk)的具體計(jì)算公式為:
其中,t為某一具體相似度計(jì)算維度;T為相似度計(jì)算維度總數(shù);wt為維度權(quán)重因子;vo為用戶歷史行為數(shù)據(jù)項(xiàng);μt(vo,uk)為具體用戶uk對(duì)其歷史行為數(shù)據(jù)項(xiàng)vo的興趣偏好;St(vh,vo)為待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh與用戶歷史行為數(shù)據(jù)項(xiàng)vo在相似度計(jì)算維度t下的相似性。
步驟102具體包括:
步驟1021:根據(jù)所述用戶基本信息獲取具體用戶ui和具體用戶uj之間的基本信息相似度S(ij)。
步驟1022:根據(jù)所述基本信息相似度S(ij)獲取具體用戶ui和具體用戶uj在特定主題維度Al下的關(guān)聯(lián)度Tl(ij)。
步驟1023:獲取具體用戶ui的歷史行為數(shù)據(jù)集合和具體用戶uj的歷史行為數(shù)據(jù)集合在特定主題維度Al下的關(guān)聯(lián)緊密程度
步驟1024:根據(jù)所述關(guān)聯(lián)度Tl(ij)和所述關(guān)聯(lián)緊密程度構(gòu)建用戶間關(guān)系結(jié)構(gòu)圖。
本發(fā)明的具體實(shí)施例中,基本信息相似度S(ij)的表達(dá)式為:
其中,為對(duì)應(yīng)基本信息項(xiàng)的相似度,P為個(gè)人基本信息的條目數(shù);如果個(gè)人基本信息條目中的第p條屬性是離散型的(如,性別等),當(dāng)且僅當(dāng)具體用戶ui和具體用戶uj具有相同的屬性值時(shí),將設(shè)定為1,否則將設(shè)置成為0;對(duì)于連續(xù)型變量(如,年齡、身高等),的取值如下:
其中,和分別是具體用戶ui和具體用戶uj在屬性上的取值;K為用戶總數(shù)。
步驟103具體包括:
步驟1031:根據(jù)所述用戶間關(guān)系結(jié)構(gòu)圖建立面向主題維度的加權(quán)網(wǎng)絡(luò)模型。
步驟1032:對(duì)每個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)模型運(yùn)行URank算法,計(jì)算該主題維度下用戶的權(quán)威度。
本發(fā)明的具體實(shí)施例中,所述權(quán)威度URl的具體迭代求解公式具體為:
URl=(1-β)·El+β·PlN×URl
其中,PlN為規(guī)范化的轉(zhuǎn)移概率矩陣;β為阻尼因數(shù),用于保證傳播概率的穩(wěn)定性;El為均勻隱形傳態(tài)矢量。
進(jìn)一步地,所述轉(zhuǎn)移概率矩陣的具體計(jì)算公式為:
其中,為從具體用戶ui隨機(jī)沖浪到具體用戶uj的轉(zhuǎn)移概率;為從具體用戶ui隨機(jī)沖浪到其它具體用戶的轉(zhuǎn)移概率之和,其值為1;k為用戶總數(shù)。
進(jìn)一步地,所述轉(zhuǎn)移概率的具體計(jì)算公式為:
其中,udij用于標(biāo)識(shí)數(shù)據(jù)項(xiàng)dj是否是具體用戶ui的歷史行為數(shù)據(jù),當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)dj為具體用戶ui的歷史行為數(shù)據(jù)時(shí),udij=1,否則udij=0;Tl(ij)為具體用戶ui和具體用戶uj在特定主題維度Al下的關(guān)聯(lián)度;udik用于標(biāo)識(shí)數(shù)據(jù)項(xiàng)dk是否是具體用戶ui的歷史行為數(shù)據(jù),當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)dk為具體用戶ui的歷史行為數(shù)據(jù)時(shí),udik=1,否則udik=0。
本發(fā)明的具體實(shí)施例中,所述數(shù)據(jù)關(guān)聯(lián)結(jié)果R(vh,uk)的具體計(jì)算公式為:
其中,μ(vh,Al)為指示變量,用以表明待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh是否屬于特定主題維度Al;URtl為具體用戶ut(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh所屬主題維度Al下的權(quán)威度;ξ為權(quán)重因子;I(vh,ut)為具體用戶ut(t≠k)對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh的喜好程度;Tl(tk)為目標(biāo)用戶uk與具體用戶ut(t≠k)在待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh所屬主題維度Al下的關(guān)聯(lián)度。
本發(fā)明通過(guò)深化分析用戶的歷史行為數(shù)據(jù),構(gòu)建用戶興趣畫(huà)像模型;通過(guò)對(duì)多個(gè)用戶間不同主題維度下的關(guān)聯(lián)度分析,構(gòu)建可精準(zhǔn)描述用戶間關(guān)系譜系結(jié)構(gòu)的面向主題的加權(quán)網(wǎng)絡(luò)結(jié)構(gòu);結(jié)合拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)與用戶間歷史行為數(shù)據(jù)的關(guān)聯(lián)性,提出URank算法,用以計(jì)算用戶在多個(gè)不同主題維度下的權(quán)威度與影響力,進(jìn)而提升基于用戶行為的數(shù)據(jù)關(guān)聯(lián)質(zhì)量。
數(shù)據(jù)關(guān)聯(lián)系統(tǒng)主要由三部分組成:信息獲取模塊1、系統(tǒng)處理模塊2和數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3,上述模塊順序連接,圖4為本發(fā)明具體實(shí)施方式提供的一種基于用戶行為的數(shù)據(jù)關(guān)聯(lián)系統(tǒng)的示意框圖,圖4為各模塊間數(shù)據(jù)流向圖,其中:
信息獲取模塊1用于獲取用戶個(gè)人基本信息、用戶歷史行為數(shù)據(jù)、待關(guān)聯(lián)數(shù)據(jù)集,以上信息、數(shù)據(jù)主要由平臺(tái)所提供,如電子商務(wù)網(wǎng)站平臺(tái)等。其中個(gè)人基本信息主要包括:年齡、性別、職業(yè)、所在城市、興趣愛(ài)好等;用戶歷史行為數(shù)據(jù)則包括用戶的歷史購(gòu)買行為、用戶電子商務(wù)網(wǎng)站瀏覽與評(píng)論行為等;而待關(guān)聯(lián)數(shù)據(jù)集則為電子商務(wù)網(wǎng)站商品集(或其子集)。
系統(tǒng)處理模塊2基于系統(tǒng)數(shù)據(jù)輸入(用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù))進(jìn)行用戶興趣畫(huà)像,并構(gòu)建用戶間關(guān)系譜系結(jié)構(gòu),基于所構(gòu)建的用戶間關(guān)系譜系結(jié)構(gòu)有效度量用戶不同主題維度下的權(quán)威度與影響力。
數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3有效融合系統(tǒng)處理與待關(guān)聯(lián)數(shù)據(jù)集,并計(jì)算輸出數(shù)據(jù)關(guān)聯(lián)結(jié)果。
基于本系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)方法處理過(guò)程如下:
步驟1:信息獲取模塊1獲取用戶個(gè)人基本信息、用戶歷史行為數(shù)據(jù)、待關(guān)聯(lián)數(shù)據(jù)集;
步驟2:系統(tǒng)處理模塊2基于用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù)進(jìn)行用戶興趣畫(huà)像;
步驟3:系統(tǒng)處理模塊2基于用戶個(gè)人基本信息、用戶行為歷史數(shù)據(jù)構(gòu)建用戶間關(guān)系譜系結(jié)構(gòu);
步驟4:系統(tǒng)處理模塊2基于所構(gòu)建的用戶間關(guān)系譜系結(jié)構(gòu)度量用戶不同主題維度下的權(quán)威度與影響力;
步驟5:數(shù)據(jù)關(guān)聯(lián)結(jié)果輸出模塊3將用戶不同主題維度下的權(quán)威度與影響力計(jì)算結(jié)果與待關(guān)聯(lián)數(shù)據(jù)集進(jìn)行融合,并計(jì)算輸出數(shù)據(jù)關(guān)聯(lián)結(jié)果。
下面對(duì)該數(shù)據(jù)關(guān)聯(lián)方法主要組成部分用戶興趣畫(huà)像計(jì)算模型、用戶間不同主題維度下的關(guān)聯(lián)度計(jì)算圖模型、用戶在不同主題維度下的權(quán)威度與影響力計(jì)算算法和數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊分別加以闡述。
上述步驟2中用戶興趣畫(huà)像計(jì)算模型
用戶的歷史行為在某種程度上較好地折射出了用戶的興趣愛(ài)好,并且用戶歷史行為中的某些數(shù)據(jù)也極好地反應(yīng)了用戶的個(gè)人偏好和側(cè)重點(diǎn),而且這些數(shù)據(jù)具有如下共性:與該用戶的其他歷史行為數(shù)據(jù)極其相似或者相關(guān),也就是所說(shuō)的典型性歷史行為數(shù)據(jù)。
給定某個(gè)具體用戶uk及其歷史行為數(shù)據(jù)集合V={v1,v2,...,vH},對(duì)于某項(xiàng)待關(guān)聯(lián)數(shù)據(jù)vh而言,可以根據(jù)其與用戶歷史行為數(shù)據(jù)集合V的相似性推導(dǎo)出用戶uk對(duì)該項(xiàng)數(shù)據(jù)的重視程度,也就是用戶uk對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh的偏好程度。簡(jiǎn)言之,待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh與用戶歷史行為數(shù)據(jù)集合V越相似,說(shuō)明數(shù)據(jù)項(xiàng)vh在數(shù)據(jù)集合V中越處于“核心”地位,越能體現(xiàn)用戶uk的“核心”興趣,用戶uk對(duì)其的偏好度越強(qiáng)。為此,本發(fā)明將用戶uk對(duì)待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh的興趣度I(vh,uk)量化為:
其中,t為相似性計(jì)算維度;wt為維度權(quán)重因子;vo為用戶歷史行為數(shù)據(jù)項(xiàng);
μt(vo,uk)為用戶uk對(duì)其歷史行為數(shù)據(jù)項(xiàng)vo的興趣偏好;St(vh,vo)為待關(guān)聯(lián)數(shù)據(jù)項(xiàng)vh與用戶歷史行為數(shù)據(jù)項(xiàng)vo在衡量維度t下的相似性。
步驟3中所述客戶間關(guān)系譜系結(jié)構(gòu)計(jì)算圖模型
為了準(zhǔn)確計(jì)算不同用戶之間在不同主題維度下的關(guān)聯(lián)度,即構(gòu)建客戶間關(guān)系譜系結(jié)構(gòu),本發(fā)明構(gòu)建了面向主題維度的關(guān)聯(lián)度評(píng)估圖模型,圖5為本發(fā)明具體實(shí)施方式提供的一種具體用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型,如圖5所示。其構(gòu)建基礎(chǔ)有如下兩點(diǎn):
1.對(duì)于用戶ui和uj而言,二者個(gè)人基本信息的相似性S(ij)從某種意義上決定著二者在某一特定主題維度Al下的關(guān)聯(lián)度,記為Tl(ij);
2.與此同時(shí),用戶ui和uj在某一特定主題維度Al下的歷史行為數(shù)據(jù)關(guān)聯(lián)緊密程度在某種程度上也反映了二者在該主題維度下的關(guān)聯(lián)度。
為提高該圖模型計(jì)算的準(zhǔn)確性,本發(fā)明為每個(gè)變量引入輔助變量并對(duì)相關(guān)變量做如下說(shuō)明:
S(ij)為用戶ui和uj之間的個(gè)人基本信息相似性向量,且P為個(gè)人基本信息的條目數(shù)。如果個(gè)人基本信息條目中的第p條屬性是離散型的,那么本發(fā)明將設(shè)定為1,當(dāng)且僅當(dāng)用戶ui和uj具有相同的屬性值,否則將其設(shè)置成0。對(duì)于連續(xù)性變量,的取值處理如下:
其中,和分別是用戶ui和uj在屬性p上的取值,K為用戶總數(shù);Tl(ij)是指用戶ui和uj在特定主題維度Al上的關(guān)聯(lián)度;是指用戶ui和uj歷史行為數(shù)據(jù)在特定主題維度Al下的關(guān)聯(lián)緊密程度。
用戶間面向不同主題維度的關(guān)聯(lián)度評(píng)估圖模型,通過(guò)對(duì)條件依賴進(jìn)行建模,展示變量間的因果依存關(guān)系,基于這種依存關(guān)系,對(duì)其聯(lián)合概率分布進(jìn)行如下分解:
本發(fā)明采用已被廣泛引用的高斯分布(Gaussian Distribution)對(duì)條件概率P(Tl(ij)|S(ij))進(jìn)行建模求解,即:
其中,wl是待估計(jì)的P維權(quán)重向量,v是高斯模型中的方差。
同理,本發(fā)明對(duì)Tl(ij)和之間的依存關(guān)系做同樣模擬:
其中,αl和βl為L(zhǎng)維的系數(shù)向量。
為了有效避免過(guò)擬合問(wèn)題,本發(fā)明使用L2規(guī)則對(duì)參數(shù)wl、αl和βl進(jìn)行正則化,并將其視為高斯先驗(yàn)?zāi)P停?/p>
給定的用戶對(duì)μ=U×U,聯(lián)合概率分布可做如下推導(dǎo):
由于不同主題維度下的聯(lián)合概率分布是相互獨(dú)立地,本發(fā)明僅給出第l種主題維度下的對(duì)數(shù)似然函數(shù):
對(duì)數(shù)似然函數(shù)L是凹函數(shù),本發(fā)明采用梯度增量的方法分別對(duì)參數(shù)wl、αl、βl和變量Tl(ij)進(jìn)行優(yōu)化,其坐標(biāo)方向梯度分別為:
采用坐標(biāo)上升優(yōu)化方案對(duì)wl、αl、βl和Tl(ij)利用牛頓迭代法進(jìn)行更新直至收斂:
對(duì)于參數(shù)wl,本發(fā)明對(duì)其進(jìn)行領(lǐng)回歸(Ridge Regression):
wl=(λ1vI+STS)-1STTl
其中,
步驟4中用戶在不同主題維度下的權(quán)威度與影響力計(jì)算算法
本發(fā)明綜合利用用戶的個(gè)人基本信息、歷史行為數(shù)據(jù)等,深入研究用戶間的不同主題維度下的關(guān)聯(lián)度,基于其上,融入拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu),提出了URank算法用以計(jì)算用戶在不同主題維度下的權(quán)威度與影響力。圖6為本發(fā)明具體實(shí)施方式提供的一種面向不同主題維度的用戶影響力計(jì)算示意圖,如圖6所示,用戶在不同主題維度下的權(quán)威度與影響力的計(jì)算過(guò)程主要有如下幾個(gè)步驟:
1.首先,建立面向主題維度的加權(quán)網(wǎng)絡(luò)模型。
2.其次,抽取出各個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)模型。在主題維度Al所對(duì)應(yīng)的加權(quán)網(wǎng)絡(luò)Gl中,節(jié)點(diǎn)表示與主題Al相關(guān)的用戶,邊的權(quán)重標(biāo)示主題維度Al下用戶間的關(guān)聯(lián)度。
3.對(duì)每個(gè)主題維度下的加權(quán)網(wǎng)絡(luò)Gl運(yùn)行URank算法,計(jì)算該主題網(wǎng)絡(luò)下用戶的權(quán)威度與影響力。
定義1.面向主題的加權(quán)網(wǎng)絡(luò)對(duì)于給定的主題維度Al和初始的網(wǎng)絡(luò)結(jié)構(gòu)G,我們將網(wǎng)絡(luò)Gl稱為面向主題Al的加權(quán)網(wǎng)絡(luò),當(dāng)且僅當(dāng)Gl滿足如下兩個(gè)限定條件:
(1)網(wǎng)絡(luò)G中的節(jié)點(diǎn)用戶均出現(xiàn)在網(wǎng)絡(luò)Gl中;
(2)對(duì)于任意兩個(gè)節(jié)點(diǎn)用戶i和j,如果他們之間的面向主題維度Al的關(guān)聯(lián)度Tl(ij)大于零,那么在網(wǎng)絡(luò)Gl中節(jié)點(diǎn)ui和uj之間存在連接邊,并且邊的權(quán)值等于Tl(ij)。
在隨機(jī)沖浪過(guò)程(Random Surfer Process)中,在特定主題維度Al下,由節(jié)點(diǎn)ui到uj的轉(zhuǎn)移概率的定義如下:
定義2.給定某一具體的主題維度Al及與之對(duì)應(yīng)的面向主題的網(wǎng)絡(luò)Gl,轉(zhuǎn)移矩陣Pl中的每一個(gè)元素也就是說(shuō)由節(jié)點(diǎn)ui隨機(jī)沖浪到節(jié)點(diǎn)uj的轉(zhuǎn)移概率的定義如下:
其中,udij=1當(dāng)且僅當(dāng)數(shù)據(jù)項(xiàng)dj是具體用戶ui的歷史行為數(shù)據(jù),否則將其設(shè)置成為0。
轉(zhuǎn)移概率主要由用戶ui和uj之間的兩個(gè)因素所決定:第一個(gè)因素是用戶uj所關(guān)聯(lián)的數(shù)據(jù)項(xiàng)數(shù)。uj所關(guān)聯(lián)的數(shù)據(jù)項(xiàng)越多,那么ui所閱讀的數(shù)據(jù)項(xiàng)中源于uj的部分所占的比例就越高。因此,用戶ui將從用戶uj接收更多的信息,并且更可能受到用戶uj的影響;第二個(gè)因素就是用戶ui和uj在特定主題維度Al下的關(guān)聯(lián)度Tl(ij)。Tl(ij)的值越大,說(shuō)明用戶ui和uj在主題維度Al下的關(guān)聯(lián)性越強(qiáng)。因此,可以認(rèn)為用戶ui和uj在這一領(lǐng)域有著更相似的興趣偏好,并且彼此相互影響。值得注意的是:
并不等于1,。因此,我們需要對(duì)進(jìn)行規(guī)范化處理:
基于上述所定義的轉(zhuǎn)移概率,本發(fā)明提出了面向特定主題的UserRank算法以挖掘用戶在不同主題維度下的權(quán)威度與影響力。
定義3.將某一具體主題維度Al上的URank記為URl,其迭代求解公式如下:
URl=(1-β)·El+β·PlN×URl
其中PlN為上述定義的規(guī)范化的轉(zhuǎn)移概率矩陣,β為阻尼因數(shù)(Damping Factor),用于保證傳播概率的穩(wěn)定性,El為均勻隱形傳態(tài)矢量(Uniform Teleportation Vector0)?;谏鲜龇椒?,本發(fā)明分別求解每個(gè)用戶在不同主題維度下的權(quán)威性與影響力,并采用K×L矩陣UR來(lái)表示,其中K為用戶總數(shù),L為主題的維度數(shù),URil為用戶ui在主題維度Al下的權(quán)威度與影響力。
步驟5中數(shù)據(jù)關(guān)聯(lián)度計(jì)算模塊
目標(biāo)用戶uk與數(shù)據(jù)項(xiàng)vh之間的關(guān)聯(lián)性計(jì)算主要考慮如下三要素:
1.用戶ut(t≠k)對(duì)數(shù)據(jù)項(xiàng)vh的喜好程度,由“用戶興趣偏計(jì)算模型”求得,即I(vh,ut);
2.目標(biāo)用戶uk與用戶ut(t≠k)在數(shù)據(jù)項(xiàng)vh所屬主題維度Al下的關(guān)聯(lián)度Tl(tk);
3.用戶ut(t≠k)在數(shù)據(jù)項(xiàng)vh所屬主題維度Al下的權(quán)威度與影響力URtl。
具體求解公式:
其中,μ(vh,Al)為指示變量,用以表明數(shù)據(jù)項(xiàng)vh是否屬于特定主題維度Al。
上述的本發(fā)明實(shí)施例可在各種硬件、軟件編碼或兩者組合中進(jìn)行實(shí)施。例如,本發(fā)明的實(shí)施例也可為在數(shù)據(jù)信號(hào)處理器(Digital Signal Processor,DSP)中執(zhí)行上述方法的程序代碼。本發(fā)明也可涉及計(jì)算機(jī)處理器、數(shù)字信號(hào)處理器、微處理器或現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)執(zhí)行的多種功能??筛鶕?jù)本發(fā)明配置上述處理器執(zhí)行特定任務(wù),其通過(guò)執(zhí)行定義了本發(fā)明揭示的特定方法的機(jī)器可讀軟件代碼或固件代碼來(lái)完成。可將軟件代碼或固件代碼發(fā)展為不同的程序語(yǔ)言與不同的格式或形式。也可為不同的目標(biāo)平臺(tái)編譯軟件代碼。然而,根據(jù)本發(fā)明執(zhí)行任務(wù)的軟件代碼與其他類型配置代碼的不同代碼樣式、類型與語(yǔ)言不脫離本發(fā)明的精神與范圍。
以上所述僅為本發(fā)明示意性的具體實(shí)施方式,在不脫離本發(fā)明的構(gòu)思和原則的前提下,任何本領(lǐng)域的技術(shù)人員所做出的等同變化與修改,均應(yīng)屬于本發(fā)明保護(hù)的范圍。