本發(fā)明涉及一種用戶畫像方法及設(shè)備,具體說是一種旅客畫像及數(shù)據(jù)分析的方法及裝置。
背景技術(shù):
在交通運(yùn)輸和旅游行業(yè)中,每天都會產(chǎn)生大量的票務(wù)數(shù)據(jù)、線路數(shù)據(jù),甚至是周邊的酒店訂單數(shù)據(jù)、餐飲訂單數(shù)據(jù),當(dāng)然也包括旅客的個人身份數(shù)據(jù)。這些數(shù)據(jù)分散在不同的系統(tǒng),它們龐大而且分散,看似毫無規(guī)律,沒有任何價值。但如果采用科學(xué)合理的方法整合這些數(shù)據(jù),不僅可以得到旅客愛好興趣及行為特征的畫像,也可以用于預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,將為從業(yè)者帶來更大的價值。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種旅客畫像及數(shù)據(jù)分析的方法及裝置,通過整合、分析交通運(yùn)輸和旅游行業(yè)中產(chǎn)生的數(shù)據(jù)為旅客用戶進(jìn)行畫像,挖掘用戶愛好,解決旅客基本特征描述,細(xì)分客戶群,預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,并為旅客的個性化服務(wù)提供支撐。
本發(fā)明所述一種旅客畫像及數(shù)據(jù)分析的方法,其特征在于包括如下步驟:
A)建立數(shù)據(jù)庫;從數(shù)據(jù)源中獲取旅客身份信息和行為數(shù)據(jù),存入數(shù)據(jù)庫;
B)建立標(biāo)簽?zāi)P?;根?jù)數(shù)據(jù)庫中的旅客身份信息的特征和行為數(shù)據(jù)的特征建立相應(yīng)的標(biāo)簽并賦予每一標(biāo)簽相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);
C)計(jì)算標(biāo)簽權(quán)重;利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;
Tij=Rij*Wij
其中,
Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:
其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
Rijm是第m條記錄的時間因子。其計(jì)算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;
數(shù)據(jù)來源權(quán)重Wij表示為:
i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:
Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
D)預(yù)測分析;利用上述步驟獲得的數(shù)據(jù)建立時間序列分析模型,使用時間序列分析模型預(yù)測用戶未來的行為。
在步驟B),所述旅客身份信息的特征和行為數(shù)據(jù)的特征包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
一種旅客畫像及數(shù)據(jù)分析裝置,包括:
用于存儲旅客身份信息和行為數(shù)據(jù)的數(shù)據(jù)庫;
用于存儲標(biāo)簽并生成標(biāo)簽?zāi)P偷臉?biāo)簽庫;每一標(biāo)簽具有相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);
用于計(jì)算標(biāo)簽權(quán)重的計(jì)算器;該計(jì)算器利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;
Tij=Rij*Wij
其中,
Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:
其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
Rijm是第m條記錄的時間因子。其計(jì)算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;
數(shù)據(jù)來源權(quán)重Wij表示為:
i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:
Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
用于輸出的輸出設(shè)備。
由于采用上述技術(shù)方案,本發(fā)明通過整合、分析交通運(yùn)輸和旅游行業(yè)中產(chǎn)生的數(shù)據(jù)為旅客用戶進(jìn)行畫像,挖掘用戶愛好,解決旅客基本特征描述,細(xì)分客戶群,預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,并為旅客的個性化服務(wù)提供支撐。
具體實(shí)施方式
本發(fā)明所述一種旅客畫像及數(shù)據(jù)分析的方法,包括如下步驟:
A)建立數(shù)據(jù)庫;從數(shù)據(jù)源中獲取旅客身份信息和行為數(shù)據(jù),存入數(shù)據(jù)庫;該步驟從各類數(shù)據(jù)源系統(tǒng)中抽取原始數(shù)據(jù),包括但不限于票務(wù)系統(tǒng)中的訂票記錄,列車、飛機(jī)上的訂餐記錄,周邊酒店的訂單數(shù)據(jù),餐飲訂單數(shù)據(jù),其它平臺的標(biāo)簽數(shù)據(jù),用戶行為日志數(shù)據(jù),社交網(wǎng)絡(luò)中的用戶日常消息數(shù)據(jù),并將這些數(shù)據(jù)清洗,轉(zhuǎn)換為數(shù)據(jù)庫可識別的數(shù)據(jù),存入到數(shù)據(jù)庫中。
B)建立標(biāo)簽?zāi)P?;根?jù)數(shù)據(jù)庫中的旅客身份信息的特征和行為數(shù)據(jù)的特征建立相應(yīng)的標(biāo)簽并賦予每一標(biāo)簽相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);
該步驟產(chǎn)出標(biāo)簽、及部分標(biāo)簽對應(yīng)的權(quán)重。建模時選取的特征除了用戶的基本特征,包括但不限于姓名,性別,出生年月,學(xué)歷等外,結(jié)合鐵路,航空領(lǐng)域的特點(diǎn),還需要選擇出發(fā)時間,到達(dá)時間,行程時長,旅客選擇的座位,座位等級,旅途過程中旅客喜愛的娛樂等因素;以及在具體運(yùn)用場景中,各類數(shù)據(jù)源數(shù)據(jù)對結(jié)果數(shù)據(jù)的權(quán)重產(chǎn)生的影響;分別將信息歸屬到靜態(tài)屬性和動態(tài)屬性兩類中。對于特征的處理上,動態(tài)屬性還需要考慮時間對權(quán)重的影響。
具體的處理步驟是,
1)從用戶的基本特征中,抽取特征并轉(zhuǎn)換為標(biāo)簽;
2)從用戶的消費(fèi)記錄中,抽取訂票及其它訂單信息,轉(zhuǎn)換為標(biāo)簽,標(biāo)簽的權(quán)重則表示為時間衰減因子r*數(shù)據(jù)來源權(quán)重w;
3)使用改進(jìn)聚類的方法,從其它非結(jié)構(gòu)化數(shù)據(jù)中分離出用戶的特征標(biāo)簽,輸出的標(biāo)簽的權(quán)重受時間衰減因子的影響。
C)計(jì)算標(biāo)簽權(quán)重;利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;
Tij=Rij*Wij
其中,
Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:
其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
Rijm是第m條記錄的時間因子。其計(jì)算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;
數(shù)據(jù)來源權(quán)重Wij表示為:
i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:
Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
例如:在系統(tǒng)中定義,來源于訂票系統(tǒng)及其子系統(tǒng)的權(quán)重為0.6,其它的為0.4;
場景1:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,不存在標(biāo)簽“紅燒牛肉”,在用戶的SNS數(shù)據(jù)中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減權(quán)重為0.21;則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0*0.6+0.21*0.4。
場景2:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減后的權(quán)重為0.65,在用戶的SNS數(shù)據(jù)中,不存在標(biāo)簽“紅燒牛肉”,則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0.65*0.6+0*0.4。
場景3:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減后的權(quán)重為0.65,在用戶的SNS數(shù)據(jù)中,亦存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減權(quán)重為0.21;則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0.65*0.6+0.21*0.4。
D)預(yù)測分析;利用上述步驟獲得的數(shù)據(jù)建立時間序列分析模型,使用時間序列分析模型預(yù)測用戶未來的行為。當(dāng)然,利用該系統(tǒng),也可以通過標(biāo)簽分類的旅客,以某一特定標(biāo)簽作為特征,可以找到一組擁有此特征的旅客,實(shí)現(xiàn)對旅客的細(xì)分。或者以每個旅客為中心,找到其擁有的相關(guān)標(biāo)簽,即可知道旅客的興趣,習(xí)慣,并以此為精準(zhǔn)營銷提供支撐。
在上述步驟B),所述旅客身份信息的特征和行為數(shù)據(jù)的特征包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
一種旅客畫像及數(shù)據(jù)分析裝置,包括:
用于存儲旅客身份信息和行為數(shù)據(jù)的數(shù)據(jù)庫;
用于存儲標(biāo)簽并生成標(biāo)簽?zāi)P偷臉?biāo)簽庫;每一標(biāo)簽具有相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);
用于計(jì)算標(biāo)簽權(quán)重的計(jì)算器;該計(jì)算器利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;
Tij=Rij*Wij
其中,
Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:
其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
Rijm是第m條記錄的時間因子。其計(jì)算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;
數(shù)據(jù)來源權(quán)重Wij表示為:
i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:
Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);
用于輸出的輸出設(shè)備。