本發(fā)明涉及用戶畫像技術(shù)領(lǐng)域,具體涉及一種構(gòu)建用戶畫像的方法及裝置。
背景技術(shù):
用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費(fèi)行為等信息而抽象出的一個標(biāo)簽化的用戶模型。用戶畫像為公司或企業(yè)進(jìn)一步精準(zhǔn)、快速地分析用戶行為習(xí)慣、消費(fèi)習(xí)慣等重要信息,提供了足夠的數(shù)據(jù)基礎(chǔ),是支撐個性化推薦、自動化營銷等大數(shù)據(jù)應(yīng)用的基本方式。
目前,在用戶畫像的構(gòu)建過程中,多采用離線計(jì)算的方式對用戶行為數(shù)據(jù)進(jìn)行處理,以提取出用戶標(biāo)簽。但是,隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,用戶行為數(shù)據(jù)的數(shù)量也越來越多,這就使得對大量用戶行為數(shù)據(jù)進(jìn)行處理時,不僅消耗過多的硬件資源,還降低了用戶畫像的構(gòu)建效率。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供一種構(gòu)建用戶畫像的方法及裝置,能夠減少硬件資源的消耗并提高用戶畫像的構(gòu)建效率。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供如下技術(shù)方案:
一種構(gòu)建用戶畫像的方法,包括:
獲取用戶的原始行為日志;
對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;
對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;
調(diào)取所述用戶的歷史行為序列;
將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;
根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。
優(yōu)選的,所述獲取用戶的原始行為日志,包括:
定時獲取用戶的原始行為日志,以對所述用戶的屬性標(biāo)簽進(jìn)行更新。
優(yōu)選的,所述對所述原始行為日志進(jìn)行預(yù)處理,包括:
對所述原始行為日志進(jìn)行清洗以及對所述原始行為日志的格式規(guī)范化。
優(yōu)選的,所述對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列,包括:
將所述目標(biāo)行為日志推送給消息隊(duì)列;
從所述消息隊(duì)列中拉取目標(biāo)行為日志的數(shù)據(jù)進(jìn)行實(shí)時流計(jì)算處理解析得到所述用戶的每一次行為的屬性信息;
將所述用戶的每一次行為的屬性信息組合生成所述用戶的最新行為序列。
優(yōu)選的,所述調(diào)取所述用戶的歷史行為序列,包括:
調(diào)取與所述最新行為序列相鄰的前一批次的行為序列作為所述用戶的歷史行為序列。
一種構(gòu)建用戶畫像的裝置,包括:
獲取單元,用于獲取用戶的原始行為日志;
預(yù)處理單元,用于對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;
分析單元,用于對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;
調(diào)取單元,用于調(diào)取所述用戶的歷史行為序列;
融合單元,用于將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;
構(gòu)建單元,用于根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。
優(yōu)選的,所述獲取單元具體用于:
定時獲取用戶的原始行為日志,以對所述用戶的屬性標(biāo)簽進(jìn)行更新。
優(yōu)選的,所述預(yù)處理單元具體用于:
對所述原始行為日志進(jìn)行清洗以及對所述原始行為日志的格式規(guī)范化。
優(yōu)選的,所述分析單元包括:
推送子單元,用于將所述目標(biāo)行為日志推送給消息隊(duì)列;
計(jì)算子單元,用于從所述消息隊(duì)列中拉取目標(biāo)行為日志的數(shù)據(jù)進(jìn)行實(shí)時流計(jì)算處理解析得到所述用戶的每一次行為的屬性信息;
組合子單元,用于將所述用戶的每一次行為的屬性信息組合生成所述用戶的最新行為序列。
優(yōu)選的,所述調(diào)取單元具體用于:
調(diào)取與所述最新行為序列相鄰的前一批次的行為序列作為所述用戶的歷史行為序列。
基于上述技術(shù)方案,本發(fā)明實(shí)施例中公開了一種構(gòu)建用戶畫像的方法,獲取用戶的原始行為日志;對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;調(diào)取所述用戶的歷史行為序列;將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。由于對用戶的歷史行為序列的應(yīng)用,能夠使最消耗資源的生成用戶行為序列的部分避免重復(fù)計(jì)算,進(jìn)而節(jié)約了硬件資源,提高了用戶畫像的構(gòu)建效率。相應(yīng)的,本發(fā)明實(shí)施例還公開了一種構(gòu)建用戶畫像的裝置。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種構(gòu)建用戶畫像的方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種對所述目標(biāo)行為日志進(jìn)行分析生成所述用戶的最新行為序列的方法的流程示意圖;
圖3為本發(fā)明實(shí)施例提供的一種構(gòu)建用戶畫像的裝置的結(jié)構(gòu)框圖;
圖4為本發(fā)明實(shí)施例提供的一種分析單元的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
目前,在用戶畫像的構(gòu)建過程中,多采用離線計(jì)算的方式對用戶行為數(shù)據(jù)進(jìn)行處理,以提取出用戶標(biāo)簽。但是,隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,用戶行為數(shù)據(jù)的數(shù)量也越來越多,這就使得對大量用戶行為數(shù)據(jù)進(jìn)行處理時,不僅消耗過多的硬件資源,還降低了用戶畫像的構(gòu)建效率。
為此,本發(fā)明提供了一種構(gòu)建用戶畫像的方法及裝置,能夠減少硬件資源的消耗并提高用戶畫像的構(gòu)建效率。具體如下:
請參閱附圖1,為本發(fā)明提供的一種構(gòu)建用戶畫像的方法的流程示意圖,該方法具體包括如下步驟:
步驟s100、獲取用戶的原始行為日志。
具體的,可定時獲取用戶的原始行為日志,以對用戶的屬性標(biāo)簽進(jìn)行更新,從而構(gòu)建出最新的用戶畫像。
需要說明的是,用戶的原始行為日志可從分布式文件系統(tǒng)中獲取,也可以是其他數(shù)據(jù)來源,諸如用戶的需求調(diào)查問卷,論壇行為數(shù)據(jù)等多維度的行為,對此,本發(fā)明不進(jìn)行任何限定。而對于用戶的原始行為日志所包含的具體數(shù)據(jù),本發(fā)明也不進(jìn)行任何限定,比如,當(dāng)本申請公開的用戶畫像生成方法用于房產(chǎn)領(lǐng)域時,用戶的原始行為日志可包括用戶在系統(tǒng)中所有的搜索與篩選的行為,比如在搜索框中輸入的搜索詞條,以及,對房屋所在區(qū)域和房屋戶型的篩選等。
步驟s110、對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志。
由于獲取的用戶的原始行為日志中垃圾信息可能比較多,日志數(shù)據(jù)類型種類也比較多,因此,需要對所述原始行為日志進(jìn)行預(yù)處理,具體的,可對所述原始行為日志進(jìn)行清洗以及對所述原始行為日志的格式規(guī)范化。比如,用戶第一次點(diǎn)擊了戶型1,第二次又追加了區(qū)域1,那么第二次系統(tǒng)得到的原始行為日志是“戶型1”+“區(qū)域1”,在對原始行為日志進(jìn)行清洗的時候,就需要把第二次的原始行為日志中的“戶型1”識別并去掉。
步驟s120、對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列。
需要說明的是,用戶的行為序列為最小粒度的用戶行為序列,其中最小粒度的行為序列就是可以用于多個數(shù)據(jù)源融合的最小計(jì)算單元。
具體的,本發(fā)明公開了一種對所述目標(biāo)行為日志進(jìn)行分析生成所述用戶的最新行為序列的方法,請參閱圖2,該方法包括如下步驟:
步驟s1201、將所述目標(biāo)行為日志推送給消息隊(duì)列。
具體的,上述消息隊(duì)列可以為卡夫卡(kafka)消息隊(duì)列。
步驟s1202、從所述消息隊(duì)列中拉取目標(biāo)行為日志的數(shù)據(jù)進(jìn)行實(shí)時流計(jì)算處理解析得到所述用戶的每一次行為的屬性信息。
在本實(shí)施例中,當(dāng)用戶的原始行為日志包括用戶在系統(tǒng)中所有的搜索與篩選的行為時,用戶的每一次行為的屬性信息可以為用戶的每一次的點(diǎn)擊。
步驟s1203、將所述用戶的每一次行為的屬性信息組合生成所述用戶的最新行為序列,并存儲所述用戶的最新行為序列。
步驟s130、調(diào)取所述用戶的歷史行為序列。
具體的,由于用戶的原始行為日志均有生成時間,因此,可以對用戶的原始行為日志按照時間排序,并按照一定時間間隔劃分批次,每個批次的原始行為日志均對應(yīng)一個行為序列,相應(yīng)的,不同批次的原始行為日志也就對應(yīng)不同批次的行為序列,對應(yīng)最近一批原始行為日志的行為序列為最新行為序列,而在這之前生成的行為序列為歷史行為序列。
在本實(shí)施例中,可調(diào)取與所述最新行為序列相鄰的前一批次的行為序列作為所述用戶的歷史行為序列。
步驟s140、將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽。
需要說明的是,所述最新行為序列及所述歷史行為序列能夠融合,是因?yàn)樗鲎钚滦袨樾蛄屑八鰵v史行為序列中的數(shù)據(jù)滿足閉包特性,比如一個結(jié)果由多個參數(shù)通過加或乘得到,那么,其他數(shù)據(jù)源的結(jié)果只要能夠拆分成對應(yīng)的獨(dú)立參數(shù),就可以直接與原有的結(jié)果集進(jìn)行合并計(jì)算,并生成最終批次的結(jié)果集,不斷迭代。
步驟s150、根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。
標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識,用戶畫像可人為是用戶屬性標(biāo)簽的總和。
本實(shí)施例中公開了一種構(gòu)建用戶畫像的方法,獲取用戶的原始行為日志;對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;調(diào)取所述用戶的歷史行為序列;將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。由于對用戶的歷史行為序列的應(yīng)用,能夠使最消耗資源的生成用戶行為序列的部分避免重復(fù)計(jì)算,進(jìn)而節(jié)約了硬件資源,提高了用戶畫像的構(gòu)建效率。
下面對本發(fā)明實(shí)施例提供的構(gòu)建用戶畫像的裝置進(jìn)行介紹,下文描述的構(gòu)建用戶畫像的裝置可與上文構(gòu)建用戶畫像的方法相互對應(yīng)參照。
圖3為本發(fā)明實(shí)施例提供的一種構(gòu)建用戶畫像的裝置的結(jié)構(gòu)框圖,該構(gòu)建用戶畫像的裝置可以包括:
獲取單元100,用于獲取用戶的原始行為日志;
預(yù)處理單元110,用于對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;
分析單元120,用于對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;
調(diào)取單元130,用于調(diào)取所述用戶的歷史行為序列;
融合單元140,用于將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;
構(gòu)建單元150,用于根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。
所述獲取單元具體用于:
定時獲取用戶的原始行為日志,以對所述用戶的屬性標(biāo)簽進(jìn)行更新。
所述預(yù)處理單元具體用于:
對所述原始行為日志進(jìn)行清洗以及對所述原始行為日志的格式規(guī)范化。
圖4為本發(fā)明實(shí)施例提供的分析單元的結(jié)構(gòu)框圖,該分析單元可以包括:
推送子單元1201,用于將所述目標(biāo)行為日志推送給消息隊(duì)列;
計(jì)算子單元1202,用于從所述消息隊(duì)列中拉取目標(biāo)行為日志的數(shù)據(jù)進(jìn)行實(shí)時流計(jì)算處理解析得到所述用戶的每一次行為的屬性信息;
組合子單元1203,用于將所述用戶的每一次行為的屬性信息組合生成所述用戶的最新行為序列。
所述調(diào)取單元具體用于:
調(diào)取與所述最新行為序列相鄰的前一批次的行為序列作為所述用戶的歷史行為序列。
綜上所述:
本發(fā)明實(shí)施例中公開了一種構(gòu)建用戶畫像的方法,獲取用戶的原始行為日志;對所述原始行為日志進(jìn)行預(yù)處理,生成所述用戶的目標(biāo)行為日志;對所述目標(biāo)行為日志進(jìn)行分析,生成所述用戶的最新行為序列;調(diào)取所述用戶的歷史行為序列;將所述最新行為序列及所述歷史行為序列進(jìn)行融合計(jì)算得到所述用戶的屬性標(biāo)簽;根據(jù)所述屬性標(biāo)簽構(gòu)建所述用戶的用戶畫像。由于對用戶的歷史行為序列的應(yīng)用,能夠使最消耗資源的生成用戶行為序列的部分避免重復(fù)計(jì)算,進(jìn)而節(jié)約了硬件資源,提高了用戶畫像的構(gòu)建效率。相應(yīng)的,本發(fā)明實(shí)施例還公開了一種構(gòu)建用戶畫像的裝置。
本說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。