用戶相似度的估算方法及估算系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其設(shè)及一種用戶的相似度的估算方法及估算系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及,信息資源呈指數(shù)膨脹,從而帶來(lái)了信息過(guò)載的問(wèn)題,使用戶時(shí) 常迷失在大量的信息空間中,無(wú)法順利找到自己需要的信息。因此,便出現(xiàn)了各類的信息推 薦技術(shù),基于用戶的操作習(xí)慣對(duì)用戶與項(xiàng)目建立一定的關(guān)聯(lián),比如觀看或點(diǎn)贊,進(jìn)而生成信 息推薦列表,比如,節(jié)目推薦列表、購(gòu)物推薦列表、或朋友推薦列表等。
[0003] 運(yùn)些推薦技術(shù)的原理,主要是依據(jù)用戶的相似度,為目標(biāo)用戶選取相似度高的已 知用戶的項(xiàng)目列表,作為推薦信息。
[0004] 傳統(tǒng)的用戶相似度的估算方法,主要是將用戶組的用戶兩兩估算相似度值,然后 將運(yùn)些相似度值進(jìn)行平均,即為組間相似度。
[0005] 但隨著用戶、及用戶操作行為的數(shù)據(jù)量越來(lái)越大,傳統(tǒng)估算方法的估算量也越來(lái) 越大,對(duì)運(yùn)算資源消耗較大,且費(fèi)時(shí)費(fèi)力,同時(shí)傳統(tǒng)算法中取平均值的誤差也會(huì)被海量數(shù)據(jù) 所放大,影響了對(duì)用戶的相似度的評(píng)估的準(zhǔn)確性,進(jìn)而影響推薦信息的有效性,降低了用戶 體驗(yàn)。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明的目的在于提供一種用戶的相似度的估算方法及估算系統(tǒng),可 W解決現(xiàn)有技術(shù)中估算方法復(fù)雜、誤差大,進(jìn)而影響估算速度和準(zhǔn)確性的技術(shù)問(wèn)題。
[0007] 為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了如下技術(shù)方案:
[000引一種用戶的相似度的估算方法,包括:
[0009] 獲取用戶屬性,并根據(jù)用戶屬性將不同的用戶分成多個(gè)用戶組;
[0010] 讀取所述用戶組中每一用戶所對(duì)應(yīng)的項(xiàng)目,W生成項(xiàng)目列表;
[0011] 將所述用戶組中的用戶與所述項(xiàng)目列表中的項(xiàng)目處理成二分圖;
[001^ 通過(guò)所述二分圖估算用戶的組內(nèi)相似度;和/或
[0013] 通過(guò)所述二分圖估算用戶的組間相似度。
[0014] 為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還提供了如下技術(shù)方案:
[0015] -種用戶的相似度的估算系統(tǒng),包括:
[0016] 分組模塊,用于獲取用戶屬性,并根據(jù)用戶屬性將不同的用戶分成多個(gè)用戶組;
[0017] 列表模塊,用于讀取所述用戶組中每一用戶所對(duì)應(yīng)的項(xiàng)目,W生成項(xiàng)目列表;
[0018] 二分圖模塊,用于將所述用戶組中的用戶與所述項(xiàng)目列表中的項(xiàng)目處理成二分 圖;W及
[0019] 相似度模塊,用于通過(guò)所述二分圖估算用戶的組內(nèi)相似度;和/或通過(guò)所述二分圖 估算用戶的組間相似度。
[0020] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的用戶的相似度的估算方法及估算系統(tǒng),通 過(guò)二分圖對(duì)用戶和項(xiàng)目進(jìn)行分析,具有算法簡(jiǎn)單、準(zhǔn)確率高的優(yōu)點(diǎn),而且可W適應(yīng)海量數(shù)據(jù) 的環(huán)境,對(duì)系統(tǒng)資源占用少、且估算速度快。
【附圖說(shuō)明】
[0021] 圖1是本發(fā)明實(shí)施例一提供的用戶的相似度的估算方法的流程示意圖;
[0022] 圖2是本發(fā)明實(shí)施例二提供的用戶的相似度的估算方法的流程示意圖;
[0023] 圖3是本發(fā)明實(shí)施例=提供的信息推薦方法的流程示意圖;
[0024] 圖4是本發(fā)明實(shí)施例四提供的用戶的相似度的估算系統(tǒng)的模塊示意圖;
[0025] 圖5是本發(fā)明實(shí)施例五提供的用戶的相似度的估算系統(tǒng)的模塊示意圖;
[0026] 圖6是本發(fā)明實(shí)施例六提供的信息推薦系統(tǒng)的模塊示意圖;
[0027] 圖7是本發(fā)明實(shí)施例中的用戶與項(xiàng)目所構(gòu)成的二分圖的示意圖;
[0028] 圖8是本發(fā)明實(shí)施例中的用戶之間的相似度的可視化示意圖;
[0029] 圖9是本發(fā)明實(shí)施例中的信息推薦方法的應(yīng)用環(huán)境示意圖。
【具體實(shí)施方式】
[0030] 請(qǐng)參照附圖中的圖式,其中相同的組件符號(hào)代表相同的組件,本發(fā)明的原理是W 實(shí)施在一適當(dāng)?shù)倪\(yùn)算環(huán)境中來(lái)舉例說(shuō)明。W下的說(shuō)明是基于所示例的本發(fā)明的具體實(shí)施 例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實(shí)施例。
[0031] 本發(fā)明原理W上述文字來(lái)說(shuō)明,其并不代表為一種限制,本領(lǐng)域技術(shù)人員將可了 解到W下所述的多種步驟及操作亦可實(shí)施在硬件當(dāng)中。本發(fā)明的原理使用許多其它泛用性 或特定目的運(yùn)算、通信環(huán)境或組態(tài)來(lái)進(jìn)行操作。
[0032] 本案可應(yīng)用于信息推薦方法或信息推薦系統(tǒng)中,比如:購(gòu)物網(wǎng)站、視頻網(wǎng)站、新聞 網(wǎng)站、交友網(wǎng)站等。請(qǐng)參照W下實(shí)施例,實(shí)施例一、二側(cè)重于用戶的相似度的估算方法,實(shí)施 例=側(cè)重于信息推薦方法,實(shí)施例四、五側(cè)重于用戶的相似度的估算系統(tǒng),實(shí)施例六側(cè)重于 信息推薦系統(tǒng)??蒞理解的是:雖然各實(shí)施例的側(cè)重不同,但其設(shè)計(jì)思想是一致的。且,在某 個(gè)實(shí)施例中沒有詳述的部分,可W參見說(shuō)明書全文的詳細(xì)描述,不再寶述。
[00削實(shí)施例一
[0034] 請(qǐng)參閱圖1,所示為用戶的相似度的估算方法的流程示意圖。所述用戶的相似度的 估算方法,通常執(zhí)行于服務(wù)器端,用于為信息推薦方法或系統(tǒng)等提供數(shù)據(jù)支持。
[0035] 所述用戶的相似度的估算方法,用于通過(guò)對(duì)已知用戶所關(guān)聯(lián)或關(guān)注的項(xiàng)目進(jìn)行分 析,W估算用戶之間的相似度,其中,所述項(xiàng)目包括但不限于:購(gòu)物清單、電視列表、和/或運(yùn) 動(dòng)消耗等。
[0036] 所述用戶的相似度的估算方法,包括:
[0037] 在步驟SlOl中,獲取用戶屬性,并根據(jù)用戶屬性將不同的用戶分成多個(gè)用戶組。
[0038] 其中,所述用戶屬性,是指用戶的狀態(tài),比如,年齡、性別、星座、學(xué)歷、婚戀狀態(tài)、 和/或興趣愛好等。W年齡為例,可W將10歲的用戶作為一組,11歲的用戶作為另一組,W此 類推。
[0039] 具體而言,本步驟還包括:
[0040] (1)統(tǒng)計(jì)每個(gè)用戶組內(nèi)的用戶數(shù);
[0041] (2)判斷所述用戶數(shù)是否超過(guò)用戶闊值;W及
[0042] (3)若所述用戶數(shù)超過(guò)所述用戶闊值,則從所對(duì)應(yīng)的用戶組中隨機(jī)抽取預(yù)設(shè)個(gè)數(shù) 的用戶作為樣本用戶,W減少計(jì)算量。
[0043] 可W理解的是,在上述步驟(2)中,可W通過(guò)設(shè)置用戶闊值來(lái)控制計(jì)算的數(shù)量。而 在上述步驟(3)中,所述預(yù)設(shè)個(gè)數(shù)的選擇,還包括如下步驟:分別抽取不同個(gè)數(shù)的樣本用戶, 通常為等間距抽取,并按照如下方式計(jì)算用戶的相似度,將數(shù)量與相似度分別作為橫軸和 縱軸畫一條曲線,找到相似度不隨數(shù)量變化的點(diǎn),作為一個(gè)合理抽樣數(shù)的經(jīng)驗(yàn)值,W此作為 預(yù)設(shè)個(gè)數(shù),W保障抽樣計(jì)算的準(zhǔn)確性。
[0044] 在步驟S102中,讀取所述用戶組中每一用戶所對(duì)應(yīng)的項(xiàng)目,W生成項(xiàng)目列表。
[0045] 具體而言,本步驟包括:
[0046] (1)設(shè)置項(xiàng)目的個(gè)數(shù)闊值N; W及
[0047] (2)分別讀取用戶組中每一用戶所對(duì)應(yīng)的N個(gè)項(xiàng)目,W生成項(xiàng)目列表。
[0048] 其中,對(duì)樣本用戶而言,本步驟具體為:根據(jù)所述用戶組中的樣本用戶所對(duì)應(yīng)的項(xiàng) 目,生成抽樣項(xiàng)目列表。
[0049] 在步驟S103中,將所述用戶組中的用戶與項(xiàng)目列表中的項(xiàng)目處理成二分圖 (Bipartite Graph)。
[0050] 請(qǐng)同時(shí)結(jié)合圖7,本步驟包括:
[0051] (1)將用戶組生成為第一集合,其中用戶為第一集合中的點(diǎn),如用戶A~E共5個(gè);
[0052] (2)將項(xiàng)目列表生成為第二集合,其中項(xiàng)目為第二集合中的點(diǎn),如項(xiàng)目1~4共4個(gè);
[0053] (3)將所述用戶與所述項(xiàng)目的對(duì)應(yīng)關(guān)系生成為邊,所述邊連接于所述第一集合中 的點(diǎn)與所述第二集合中的點(diǎn),如8條。
[0054] 在步驟S104中,通過(guò)所述二分圖估算用戶的之間的相似度。
[0055] 其中,相似度的區(qū)間為【0,1】,在本步驟中,主要通過(guò)余弦函數(shù)進(jìn)行表達(dá)。而用戶之 間的相似度,W組內(nèi)相似度為例,其估算方式如下:
[0056] (1)獲取第一集合中點(diǎn)的個(gè)數(shù),并計(jì)算出用戶組中的用戶對(duì)數(shù);
當(dāng)前第1頁(yè)
1 
2 
3 
4