一種從行為數(shù)據(jù)識(shí)別用戶特性的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體是一種從行為數(shù)據(jù)識(shí)別用戶特性的方法。
【背景技術(shù)】
[0002] 1.用戶行為數(shù)據(jù)
[0003] 用戶行為數(shù)據(jù)是指人作為行為個(gè)體,日常所有行為的數(shù)字化記錄結(jié)果。隨著互聯(lián) 網(wǎng)與移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,線上行為已經(jīng)成為人類日常行為的重要組成,而與之相對(duì)應(yīng) 的線上行為數(shù)據(jù),則占日??捎涗浀挠脩粜袨閿?shù)據(jù)總量的90%以上,從這個(gè)角度而言,可以 用線上行為數(shù)據(jù)來(lái)代表用戶行為數(shù)據(jù)。
[0004] 線上行為數(shù)據(jù),可由所屬行為場(chǎng)景劃分為幾大類別:移動(dòng)App行為、位置變化行 為、搜索行為、網(wǎng)頁(yè)瀏覽行為、購(gòu)物交易行為、社交行為等。每類數(shù)據(jù)的來(lái)源場(chǎng)景、屬性、生成 模式都不同。隨著互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)服務(wù)的開(kāi)展,線上用戶群規(guī)模大(已覆蓋日常人口 的7成以上),所產(chǎn)生的行為數(shù)據(jù)體量更是巨大。以每個(gè)用戶而言,每日行為數(shù)據(jù)可達(dá)上千 條,每年大于十萬(wàn)條。百度所記錄的用戶搜索行為數(shù)據(jù),每日就接近百億。
[0005] 如此豐富/大規(guī)模的行為數(shù)據(jù)可以揭示用戶的很多個(gè)人特性,有著非常大的商業(yè) 價(jià)值。如通過(guò)搜索、購(gòu)物交易行為數(shù)據(jù)可發(fā)現(xiàn)用戶的購(gòu)物特性(購(gòu)買產(chǎn)品和品牌偏好),電 商企業(yè)可基于此進(jìn)行精準(zhǔn)個(gè)性化的商品推薦。通過(guò)社交行為數(shù)據(jù)可發(fā)現(xiàn)用戶社會(huì)特性(如 興趣與價(jià)值觀),大量企業(yè)可基于興趣愛(ài)好為用戶提供更匹配的服務(wù)(如智能交友)。
[0006] 2.用戶特性
[0007] 用戶特性,在用戶研究領(lǐng)域是指用戶基于自身背景和行為所表現(xiàn)出的特點(diǎn)。該特 點(diǎn)可以定義/描述用戶的某個(gè)側(cè)面和傾向。用戶特性包括很多方面,如自然特性(如男性、 90后、老人、胖、住北京),生活特性(職務(wù)、職業(yè)、有私家車…),興趣(喜歡籃球、愛(ài)看電 影…)、購(gòu)物偏好(喜歡品牌,使用化妝品類型),價(jià)值觀和生活方式(如喜歡大牌、追求品 質(zhì)、小資、消費(fèi)能力強(qiáng))。
[0008] 用戶特性來(lái)自對(duì)用戶長(zhǎng)期觀察后得到的一種定性(非定量)、多維度的描述。它 來(lái)自用戶的原始屬性信息和長(zhǎng)期行為,但隱藏了原始屬性明細(xì),這樣既保護(hù)了用戶的隱私 (如從用戶的身份證信息,可以得到的用戶特性是女性、80后,但不會(huì)對(duì)應(yīng)具體生日),也更 具有泛化的推廣價(jià)值。
[0009] 當(dāng)前,用戶特性借鑒了互聯(lián)網(wǎng)的思路,通過(guò)標(biāo)簽化方式來(lái)定義具體的屬性。每個(gè) 用戶特性可認(rèn)為是用戶的一個(gè)標(biāo)簽,這樣用戶的所有特性可以通過(guò)一系列的標(biāo)簽來(lái)組合定 義。對(duì)用戶的特性的分析,就變成對(duì)用戶標(biāo)簽的分析。后文中用戶特性主要用戶標(biāo)簽來(lái)代 替。
[0010] 3.用戶特性(標(biāo)簽)分析識(shí)別
[0011] 因?yàn)橛脩魳?biāo)簽(用戶特性)體現(xiàn)了大量的用戶內(nèi)在信息(如興趣偏好),可帶來(lái)巨 大的商業(yè)價(jià)值(如針對(duì)用戶興趣類標(biāo)簽做相應(yīng)的商品服務(wù)推薦),所以如何分析和準(zhǔn)確識(shí) 別用戶標(biāo)簽,相關(guān)的方法從2014年以來(lái)受到了用戶研究與商業(yè)應(yīng)用領(lǐng)域的廣泛重視。
[0012] 用戶特性分析主要通過(guò)兩種機(jī)制。(1)基于大量用戶基本屬性信息(如身份證號(hào) /職位/居住地址等),這種方式數(shù)據(jù)涵蓋范圍窄,可分析的用戶特性有限,同時(shí)也存在泄露 用戶隱私的問(wèn)題,所以較少使用。(2)基于用戶行為數(shù)據(jù)。通過(guò)對(duì)用戶行為的挖掘來(lái)分析用 戶特性提取標(biāo)簽,這種模式不涉及用戶隱私,同時(shí)互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)的海量用戶行為數(shù) 據(jù)也提供了足夠的數(shù)據(jù)支持。因而成為了當(dāng)前主要的分析模式。
[0013] 基于用戶行為的分析機(jī)制中,并不需要用戶任何直接隱私數(shù)據(jù)(如家庭住址)和 現(xiàn)實(shí)生活的社會(huì)性標(biāo)識(shí)(如身份證號(hào)),是通過(guò)用戶持續(xù)的行為歷史來(lái)抽象歸納。每個(gè)用 戶被唯一標(biāo)示為無(wú)意義的數(shù)字id(無(wú)法對(duì)應(yīng)到現(xiàn)實(shí)生活中的具體人員,如為U001),通過(guò)該 id的長(zhǎng)期行為(比如手機(jī)App使用/網(wǎng)頁(yè)瀏覽/購(gòu)物交易等)數(shù)據(jù)來(lái)推導(dǎo)其真實(shí)特性并 打標(biāo)簽。舉一個(gè)直觀的例子,開(kāi)始我們對(duì)用戶U001 -無(wú)所知,但從其半年行為數(shù)據(jù)中發(fā)現(xiàn): 其手機(jī)App常用美圖秀秀自拍和打開(kāi)某瑜伽應(yīng)用,瀏覽網(wǎng)站愛(ài)去芭莎時(shí)尚和新浪旅游,網(wǎng) 上購(gòu)物常買進(jìn)口奶粉,我們很容易就能分析出該用戶(高可能性)特性標(biāo)簽包括:女性(辣 媽)、喜歡時(shí)尚、愛(ài)好瑜伽、家有嬰兒。在實(shí)際應(yīng)用中,由于行為數(shù)據(jù)場(chǎng)景多樣、規(guī)模巨大,要 分析的用戶的規(guī)模也都常常百萬(wàn)級(jí)別以上,必須用自動(dòng)化的分析方法來(lái)完成。
[0014] 自動(dòng)化分析用戶標(biāo)簽的方法,當(dāng)前主流是基于關(guān)鍵詞(行為特征關(guān)鍵詞)的模式 (多由互聯(lián)網(wǎng)/電商類企業(yè)采用)?;痉椒ㄈ缦拢?br>[0015] 定義行為中的關(guān)鍵詞,設(shè)定其對(duì)應(yīng)的分類和關(guān)聯(lián)的用戶標(biāo)簽(用戶特性)。
[0016] 計(jì)算關(guān)鍵詞在行為數(shù)據(jù)中出現(xiàn)的統(tǒng)計(jì)性信息(如頻度),并映射到關(guān)聯(lián)的用戶標(biāo) 簽的頻度。
[0017] 統(tǒng)計(jì)頻度高的用戶特性被認(rèn)為是用戶的最終特性,保留下來(lái)。
[0018] 以上方法用在在特定行為場(chǎng)景(購(gòu)物交易行為)中分析部分用戶標(biāo)簽(購(gòu)物與品 牌偏好類),很適合電商/互聯(lián)網(wǎng)的用戶標(biāo)簽識(shí)別與后續(xù)的精準(zhǔn)銷售推薦。但該方法難以用 于其他(如App使用/瀏覽行為等)更有價(jià)值的行為場(chǎng)景,從而無(wú)法發(fā)現(xiàn)更全面的用戶標(biāo) 簽。且相對(duì)簡(jiǎn)單的評(píng)估機(jī)制不僅準(zhǔn)確性較差,且只能分析用戶表面的特性(通常稱為表層 用戶標(biāo)簽),難以挖掘其深層特性(深層標(biāo)簽)。比如某用戶購(gòu)物行為中常購(gòu)買健怡可樂(lè)和 木糖醇,現(xiàn)有方法只能孤立的發(fā)現(xiàn)用戶標(biāo)簽是喜歡可樂(lè)、偏好可口可樂(lè)品牌以及吃木糖醇, 卻無(wú)法綜合來(lái)揭示用戶隱藏的特質(zhì):大量的無(wú)糖產(chǎn)品,說(shuō)明其可能是糖尿病患者。這種特質(zhì) 被稱為深層用戶標(biāo)簽(無(wú)法通過(guò)用戶行為數(shù)據(jù)直接推演的用戶標(biāo)簽)。很明顯,深層標(biāo)簽更 有意義且應(yīng)用價(jià)值更大(針對(duì)糖尿病患者的商品推薦更精準(zhǔn),用戶接受度也會(huì)更高)。
【發(fā)明內(nèi)容】
[0019] 本發(fā)明的目的在于針對(duì)現(xiàn)有基于行為數(shù)據(jù)自動(dòng)化分析用戶特性的相關(guān)方法的不 足,提供一種從行為數(shù)據(jù)識(shí)別用戶特性的方法。該方法基于更全面的用戶行為特征庫(kù),綜合 引入了行為特征的多種分布(自身、所屬分類、全局)特點(diǎn),將特征與用戶特性通過(guò)概率表 征達(dá)到更準(zhǔn)確的關(guān)聯(lián)。同時(shí)采用多級(jí)推導(dǎo)方法,通過(guò)表層特性進(jìn)一步發(fā)現(xiàn)深層用戶標(biāo)簽。與 現(xiàn)有分析算法相比,本發(fā)明的分析結(jié)果更加準(zhǔn)確且更具深度,并具有通用性,可適用于所有 行為場(chǎng)景,以便于研究更加全面的用戶特性。
[0020] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0021] -種從行為數(shù)據(jù)識(shí)別用戶特性的方法,包括以下步驟:
[0022] 1)建立行為特征數(shù)據(jù)庫(kù),包括行為特征定義庫(kù)、行為特征-用戶特性映射規(guī)則庫(kù)、 行為特征分布數(shù)據(jù)與用戶特性推演庫(kù);
[0023] 行為特征定義庫(kù)定義涉及的所有行為特征/用戶特性的基本屬性;
[0024] 行為特征-用戶特性映射規(guī)則庫(kù)定義每個(gè)行為特征如何映射到用戶特性;
[0025] 行為特征分布數(shù)據(jù)是從全量行為數(shù)據(jù)中計(jì)算行為特征的分布數(shù)據(jù);
[0026] 用戶特性推演庫(kù)定義淺層標(biāo)簽與深層標(biāo)簽的推演規(guī)則;
[0027] 2)對(duì)一個(gè)用戶,計(jì)算該用戶行為數(shù)據(jù)中出現(xiàn)的某行為特征的分布信息,再獲得該 行為特征對(duì)應(yīng)的個(gè)人分布、分類分布和全局分布;將分類分布和全局分布作為基準(zhǔn),結(jié)合加 權(quán)算法,通過(guò)個(gè)人分布、分類分布和全局分布,綜合計(jì)算該行為特征的最終分布結(jié)果;
[0028] 3)基于該用戶的行為特征的最終分布結(jié)果,評(píng)估所關(guān)聯(lián)的用戶特性的可能性評(píng)估 值,以概率表示;
[0029] 4)對(duì)用戶行為特征所涉及的所有標(biāo)簽計(jì)算完成后,基本的淺層用戶特性計(jì)算完 成;
[0030] 5)再基于用戶特性推演庫(kù),發(fā)現(xiàn)當(dāng)前用戶已被識(shí)別的淺層用戶特性所推演出的用 戶深層標(biāo)簽特性,并基于推演模式,進(jìn)一步計(jì)算用戶所具有的深層標(biāo)簽的最終評(píng)估結(jié)果,以 概率表示;
[0031] 6)上述方法計(jì)算得出的某個(gè)用戶的所有標(biāo)簽,即淺層標(biāo)簽和深層標(biāo)簽和相關(guān)評(píng)估 值,即是最終分析出的用戶特性。
[0032]