本發(fā)明涉及用戶畫像技術(shù)領(lǐng)域,特別涉及一種用戶畫像標(biāo)簽確定方法及裝置。
背景技術(shù):
在互聯(lián)網(wǎng)企業(yè)以及金融企業(yè)中,用戶畫像的概念逐漸興起,為相關(guān)企業(yè)的營銷活動提供可靠的數(shù)據(jù)支持。用戶畫像包括基本屬性(如年齡、性別)和一系列的標(biāo)簽(如高富帥),例如,張三的用戶畫像包括:男,30歲,高帥富、美食達人、旅游達人、網(wǎng)購達人。
在構(gòu)建客戶畫像的過程中,標(biāo)簽的確定是一個重要的環(huán)節(jié),如何充分利用數(shù)據(jù)資源,挖掘更多更好的用戶標(biāo)簽,成為當(dāng)前的重要任務(wù)。
而現(xiàn)有的標(biāo)簽確定方法只考慮了一度關(guān)系,標(biāo)簽挖掘不全面,確定方法不夠完善,需要對其進行補充。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種用戶畫像標(biāo)簽確定方法及裝置,以解決現(xiàn)有技術(shù)中僅考慮了一度關(guān)系所導(dǎo)致的標(biāo)簽挖掘不全面的問題。
為實現(xiàn)上述目的,本申請?zhí)峁┑募夹g(shù)方案如下:
一種用戶畫像標(biāo)簽確定方法,包括:
獲取用戶的金融交易數(shù)據(jù);
對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;
根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);
根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;
根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽。
優(yōu)選的,所述對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果,包括:
對所述金融交易數(shù)據(jù)進行提取和關(guān)聯(lián)整合,得到數(shù)據(jù)關(guān)聯(lián)表;
提取所述數(shù)據(jù)關(guān)聯(lián)表中的交易信息;
對所述交易信息中的客戶名稱進行分詞,得到分詞結(jié)果。
優(yōu)選的,所述根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò),包括:
根據(jù)所述金融交易數(shù)據(jù),進行迭代計算;
根據(jù)迭代結(jié)果中滿足第一預(yù)設(shè)條件的結(jié)果,生成用戶關(guān)系網(wǎng)絡(luò)。
優(yōu)選的,所述根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽,包括:
分別對所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)內(nèi)所有客戶名稱所對應(yīng)的分詞結(jié)果進行權(quán)重計算,得到各個分詞的分?jǐn)?shù);
取分?jǐn)?shù)滿足第二預(yù)設(shè)條件的分詞作為相應(yīng)社區(qū)的候選標(biāo)簽;
取候選標(biāo)簽滿足第三預(yù)設(shè)條件的標(biāo)簽作為相應(yīng)社區(qū)的正式標(biāo)簽;
匯總所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)的正式標(biāo)簽,生成所述社區(qū)標(biāo)簽。
優(yōu)選的,所述根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽,包括:
根據(jù)所述社區(qū)標(biāo)簽,將同一用戶所在不同重疊社區(qū)的正式標(biāo)簽合并,得到相應(yīng)用戶的標(biāo)簽。
一種用戶畫像標(biāo)簽確定裝置,包括:
數(shù)據(jù)獲取單元,用于獲取用戶的金融交易數(shù)據(jù);
數(shù)據(jù)預(yù)處理單元,用于對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;
社區(qū)計算單元,用于根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);
權(quán)重計算單元,用于根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;
標(biāo)簽處理單元,用于根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽。
優(yōu)選的,所述數(shù)據(jù)預(yù)處理單元包括:
關(guān)聯(lián)模塊,用于對所述金融交易數(shù)據(jù)進行提取和關(guān)聯(lián)整合,得到數(shù)據(jù)關(guān)聯(lián)表;
提取模塊,用于提取所述數(shù)據(jù)關(guān)聯(lián)表中的交易信息;
分詞模塊,用于對所述交易信息中的客戶名稱進行分詞,得到分詞結(jié)果。
優(yōu)選的,所述社區(qū)計算單元用于根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò)時,具體用于:
根據(jù)所述金融交易數(shù)據(jù),進行迭代計算;
根據(jù)迭代結(jié)果中滿足第一預(yù)設(shè)條件的結(jié)果,生成用戶關(guān)系網(wǎng)絡(luò);
所述權(quán)重計算單元用于根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽時,具體用于:
分別對所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)內(nèi)所有客戶名稱所對應(yīng)的分詞結(jié)果進行權(quán)重計算,得到各個分詞的分?jǐn)?shù);
取分?jǐn)?shù)滿足第二預(yù)設(shè)條件的分詞作為相應(yīng)社區(qū)的候選標(biāo)簽;
取候選標(biāo)簽滿足第三預(yù)設(shè)條件的標(biāo)簽作為相應(yīng)社區(qū)的正式標(biāo)簽;
匯總所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)的正式標(biāo)簽,生成所述社區(qū)標(biāo)簽;
所述標(biāo)簽處理單元用于根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽時,具體用于:
根據(jù)所述社區(qū)標(biāo)簽,將同一用戶所在不同重疊社區(qū)的正式標(biāo)簽合并,得到相應(yīng)用戶的標(biāo)簽。
優(yōu)選的,還包括輔助計算單元,用于存儲所述金融交易數(shù)據(jù)和所述用戶關(guān)系網(wǎng)絡(luò)。
本發(fā)明提供的所述用戶畫像標(biāo)簽確定方法,首先獲取用戶的金融交易數(shù)據(jù);對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;然后根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);再根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;最后根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽;進而通過社區(qū)發(fā)現(xiàn)算法和權(quán)重計算方法,考慮了社區(qū)到用戶的二度關(guān)系,相比現(xiàn)有技術(shù),實現(xiàn)了深層次標(biāo)簽挖掘,標(biāo)簽確定方法更為完善。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)內(nèi)的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述內(nèi)的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的用戶畫像標(biāo)簽確定方法的流程圖;
圖2是本發(fā)明另一實施例提供的用戶畫像標(biāo)簽確定方法的另一流程圖;
圖3是本發(fā)明另一實施例提供的用戶畫像標(biāo)簽確定方法的另一流程圖;
圖4是本發(fā)明另一實施例提供的用戶畫像標(biāo)簽確定裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明另一實施例提供的用戶畫像標(biāo)簽確定裝置的另一結(jié)構(gòu)示意圖;
圖6是本發(fā)明另一實施例提供的用戶畫像標(biāo)簽確定裝置的另一結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實施方式做詳細(xì)的說明。
本發(fā)明提供一種用戶畫像標(biāo)簽確定方法,以解決現(xiàn)有技術(shù)中僅考慮了一度關(guān)系所導(dǎo)致的標(biāo)簽挖掘不全面的問題。
具體的,所述用戶畫像標(biāo)簽確定方法,如圖1所示,包括:
S101、獲取用戶的金融交易數(shù)據(jù);
所述用戶包括對公客戶及個人客戶;
所述金融交易數(shù)據(jù)包括金融機構(gòu)各系統(tǒng)(個人存款系統(tǒng)、對公存款系統(tǒng)、信貸管理系統(tǒng)等)內(nèi)用戶的動態(tài)數(shù)據(jù)以及靜態(tài)數(shù)據(jù);其中,靜態(tài)數(shù)據(jù)包括:個人客戶的姓名、年齡、地址等,以及對公客戶的名稱、行業(yè)分類、注冊地址等開戶時提供的數(shù)據(jù);動態(tài)數(shù)據(jù)包括:轉(zhuǎn)賬等金融性交易流水、信用評級、擔(dān)保信息等動態(tài)屬性數(shù)據(jù)。
S102、對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;
比如,關(guān)聯(lián)和整合金融機構(gòu)各系統(tǒng)內(nèi)的數(shù)據(jù),并對關(guān)聯(lián)整合后的數(shù)據(jù)進行特征提取,對公司名稱進行分詞操作等。
S103、根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);
通過社區(qū)發(fā)現(xiàn)算法,設(shè)定參數(shù)閾值,能夠得到哪些用戶屬于一個社區(qū)的密切關(guān)系結(jié)構(gòu),即用戶關(guān)系網(wǎng)絡(luò)。
S104、根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;
通過權(quán)重計算,能夠得到該社區(qū)的重要特征,即社區(qū)標(biāo)簽。
S105、根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽。
屬于某個社區(qū)的用戶,由于與該社區(qū)內(nèi)其他用戶具有密切關(guān)系,所以根據(jù)標(biāo)簽傳遞算法,可以得到該社區(qū)內(nèi)的用戶具有該標(biāo)簽所表示特征的可能性非常大,進而可以通過社區(qū)與用戶的二度關(guān)系得到用戶的標(biāo)簽,作為一種現(xiàn)有技術(shù)的補充,使得用戶標(biāo)簽更全面。
本實施例提供的所述用戶畫像標(biāo)簽確定方法,通過社區(qū)發(fā)現(xiàn)算法和權(quán)重計算方法,考慮了社區(qū)到用戶的二度關(guān)系,相比現(xiàn)有技術(shù),實現(xiàn)了深層次標(biāo)簽挖掘,標(biāo)簽確定方法更為完善。
本發(fā)明另一實施例提供了另外一種具體的用戶畫像標(biāo)簽確定方法,參見圖1,包括:
S101、獲取用戶的金融交易數(shù)據(jù);
S102、對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;
S103、根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);
S104、根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;
S105、根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽。
其中,優(yōu)選的,參見圖2,步驟S102包括:
S121、對所述金融交易數(shù)據(jù)進行提取和關(guān)聯(lián)整合,得到數(shù)據(jù)關(guān)聯(lián)表;
具體的,通過梳理各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),分析并提取有用數(shù)據(jù),并進行關(guān)聯(lián)整合。比如選取個人存款系統(tǒng)中的個人靜態(tài)數(shù)據(jù)和個人動態(tài)數(shù)據(jù),選取信貸管理系統(tǒng)中的個人授信數(shù)據(jù)和個人違約數(shù)據(jù),通過客戶號將個人存款數(shù)據(jù)和授信、違約數(shù)據(jù)關(guān)聯(lián)起來,形成一個大寬表。
S122、提取所述數(shù)據(jù)關(guān)聯(lián)表中的交易信息;
具體的,提取大寬表數(shù)據(jù)中的客戶名稱、交易類型、交易金額等。
S123、對所述交易信息中的客戶名稱進行分詞,得到分詞結(jié)果;
對于客戶名稱進行分詞處理,以備后續(xù)計算使用。
優(yōu)選的,參見圖3,步驟S203包括:
S131、根據(jù)所述金融交易數(shù)據(jù),進行迭代計算;
S132、根據(jù)迭代結(jié)果中滿足第一預(yù)設(shè)條件的結(jié)果,生成用戶關(guān)系網(wǎng)絡(luò);
在客戶動態(tài)數(shù)據(jù)的基礎(chǔ)上,設(shè)定參數(shù)閾值,利用社區(qū)發(fā)現(xiàn)算法隨機選取一個節(jié)點進行迭代,迭代一定次數(shù)(比如利用樣本選取法,分別以0.1、1、10、100、1000作為參數(shù),分別迭代100、1000、100000次)之后,得到交易密切的客戶關(guān)系網(wǎng)絡(luò)。
利用社區(qū)發(fā)現(xiàn)算法,根據(jù)用戶的交易流水,迭代計算得到用戶的社區(qū)圈子,從而能夠確定用戶興趣標(biāo)簽。
優(yōu)選的,參見圖2,步驟S104包括:
S141、分別對所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)內(nèi)所有客戶名稱所對應(yīng)的分詞結(jié)果進行權(quán)重計算,得到各個分詞的分?jǐn)?shù);
S142、取分?jǐn)?shù)滿足第二預(yù)設(shè)條件的分詞作為相應(yīng)社區(qū)的候選標(biāo)簽;
S143、取候選標(biāo)簽滿足第三預(yù)設(shè)條件的標(biāo)簽作為相應(yīng)社區(qū)的正式標(biāo)簽;
S144、匯總所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)的正式標(biāo)簽,生成所述社區(qū)標(biāo)簽。
根據(jù)用戶關(guān)系網(wǎng)絡(luò),可知哪些客戶屬于一個社區(qū),然后使用文檔檢索中的TF*IDF權(quán)重計算概念,通過計算客戶名稱的權(quán)重,得到客戶的候選標(biāo)簽。
假設(shè)所有客戶名稱分詞后的社區(qū)集合為V,第i個社區(qū)的所有客戶名稱分詞后的集合為Vi,某個分詞在Vi中出現(xiàn)的次數(shù)為TF,在V中出現(xiàn)的次數(shù)為1/IDF,則這個詞的分?jǐn)?shù)為TF*IDF,分?jǐn)?shù)較高的詞為本社區(qū)的候選標(biāo)簽。
然后統(tǒng)計每個社區(qū)的候選標(biāo)簽及分?jǐn)?shù)、出現(xiàn)次數(shù),確定候選標(biāo)簽的分布,取次數(shù)出現(xiàn)較多的詞為正式標(biāo)簽,經(jīng)過匯總即可得到社區(qū)標(biāo)簽。
例如:有三個社區(qū)A、B、C,客戶數(shù)量及名稱分詞結(jié)果如表1所示。
表1社區(qū)詳情示例
按照權(quán)重計算的方法,得到每個分詞數(shù)量(表2)以及每個社區(qū)的權(quán)重分?jǐn)?shù)(表3)。
表2分詞統(tǒng)計示例
表3社區(qū)權(quán)重分?jǐn)?shù)示例
優(yōu)選的,參見圖2,步驟S205為:根據(jù)所述社區(qū)標(biāo)簽,將同一用戶所在不同重疊社區(qū)的正式標(biāo)簽合并,得到相應(yīng)用戶的標(biāo)簽。
值得說明的是,現(xiàn)有技術(shù)中的標(biāo)簽確定方法只考慮了一度關(guān)系,無法從一度關(guān)系中分析用戶所處的行業(yè),并且需要給用戶行業(yè)手工標(biāo)注訓(xùn)練數(shù)據(jù),不能通過公司名稱自動識別用戶所處行業(yè)。
而本實施例使用無監(jiān)督方法,利用客戶名稱數(shù)據(jù)得到同社區(qū)圈子的用戶興趣標(biāo)簽,方便快捷;同時為現(xiàn)有的用戶標(biāo)簽方法提供補充,特別是針對金融機構(gòu)的用戶興趣標(biāo)簽,效果顯著。
本發(fā)明另一實施例還提供了一種用戶畫像標(biāo)簽確定裝置,如圖4所示,包括:數(shù)據(jù)獲取單元101、數(shù)據(jù)預(yù)處理單元102、社區(qū)計算單元103、權(quán)重計算單元104及標(biāo)簽處理單元105;其中:
數(shù)據(jù)獲取單元101用于獲取用戶的金融交易數(shù)據(jù);
數(shù)據(jù)預(yù)處理單元102用于對所述金融交易數(shù)據(jù)進行處理,生成處理結(jié)果;
社區(qū)計算單元103用于根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò);
權(quán)重計算單元104用于根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽;
標(biāo)簽處理單元105用于根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽。
優(yōu)選的,在圖4的基礎(chǔ)之上,參見圖5,數(shù)據(jù)預(yù)處理單元102包括:關(guān)聯(lián)模塊201、提取模塊202及分詞模塊203;其中:
關(guān)聯(lián)模塊201用于對所述金融交易數(shù)據(jù)進行提取和關(guān)聯(lián)整合,得到數(shù)據(jù)關(guān)聯(lián)表;
提取模塊202用于提取所述數(shù)據(jù)關(guān)聯(lián)表中的交易信息;
分詞模塊203用于對所述交易信息中的客戶名稱進行分詞,得到分詞結(jié)果。
優(yōu)選的,社區(qū)計算單元103用于根據(jù)所述金融交易數(shù)據(jù),采用社區(qū)發(fā)現(xiàn)算法,生成用戶關(guān)系網(wǎng)絡(luò)時,具體用于:
根據(jù)所述金融交易數(shù)據(jù),進行迭代計算;
根據(jù)迭代結(jié)果中滿足第一預(yù)設(shè)條件的結(jié)果,生成用戶關(guān)系網(wǎng)絡(luò);
所述權(quán)重計算單元用于根據(jù)所述用戶關(guān)系網(wǎng)絡(luò)和所述處理結(jié)果,采用權(quán)重計算方法,生成社區(qū)標(biāo)簽時,具體用于:
分別對所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)內(nèi)所有客戶名稱所對應(yīng)的分詞結(jié)果進行權(quán)重計算,得到各個分詞的分?jǐn)?shù);
取分?jǐn)?shù)滿足第二預(yù)設(shè)條件的分詞作為相應(yīng)社區(qū)的候選標(biāo)簽;
取候選標(biāo)簽滿足第三預(yù)設(shè)條件的標(biāo)簽作為相應(yīng)社區(qū)的正式標(biāo)簽;
匯總所述用戶關(guān)系網(wǎng)絡(luò)中各個社區(qū)的正式標(biāo)簽,生成所述社區(qū)標(biāo)簽;
所述標(biāo)簽處理單元用于根據(jù)所述社區(qū)標(biāo)簽進行處理,得到用戶的標(biāo)簽時,具體用于:
將同一用戶所在不同重疊社區(qū)的正式標(biāo)簽合并,得到相應(yīng)用戶的標(biāo)簽。
優(yōu)選的,在圖4的基礎(chǔ)之上,參見圖6,還包括輔助計算單元106,用于存儲所述金融交易數(shù)據(jù)和所述用戶關(guān)系網(wǎng)絡(luò)。
輔助計算單元106主要用于客戶數(shù)據(jù)分類加載和過程數(shù)據(jù)緩沖存儲,為社區(qū)計算單元103提供所需的動態(tài)數(shù)據(jù),為權(quán)重計算單元104提供社區(qū)計算單元的計算結(jié)果,以及靜態(tài)數(shù)據(jù)。
具體的工作原理與上述實施例相同,此處不再一一贅述。
本發(fā)明中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制。雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā)明。任何熟悉本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的方法和技術(shù)內(nèi)容對本發(fā)明技術(shù)方案做出許多可能的變動和修飾,或修改為等同變化的等效實施例。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護的范圍內(nèi)。