欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種旅客畫像及數(shù)據(jù)分析的方法及裝置與流程

文檔序號:11865670閱讀:567來源:國知局

本發(fā)明涉及一種用戶畫像方法及設(shè)備,具體說是一種旅客畫像及數(shù)據(jù)分析的方法及裝置。



背景技術(shù):

在交通運(yùn)輸和旅游行業(yè)中,每天都會產(chǎn)生大量的票務(wù)數(shù)據(jù)、線路數(shù)據(jù),甚至是周邊的酒店訂單數(shù)據(jù)、餐飲訂單數(shù)據(jù),當(dāng)然也包括旅客的個人身份數(shù)據(jù)。這些數(shù)據(jù)分散在不同的系統(tǒng),它們龐大而且分散,看似毫無規(guī)律,沒有任何價值。但如果采用科學(xué)合理的方法整合這些數(shù)據(jù),不僅可以得到旅客愛好興趣及行為特征的畫像,也可以用于預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,將為從業(yè)者帶來更大的價值。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種旅客畫像及數(shù)據(jù)分析的方法及裝置,通過整合、分析交通運(yùn)輸和旅游行業(yè)中產(chǎn)生的數(shù)據(jù)為旅客用戶進(jìn)行畫像,挖掘用戶愛好,解決旅客基本特征描述,細(xì)分客戶群,預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,并為旅客的個性化服務(wù)提供支撐。

本發(fā)明所述一種旅客畫像及數(shù)據(jù)分析的方法,其特征在于包括如下步驟:

A)建立數(shù)據(jù)庫;從數(shù)據(jù)源中獲取旅客身份信息和行為數(shù)據(jù),存入數(shù)據(jù)庫;

B)建立標(biāo)簽?zāi)P?;根?jù)數(shù)據(jù)庫中的旅客身份信息的特征和行為數(shù)據(jù)的特征建立相應(yīng)的標(biāo)簽并賦予每一標(biāo)簽相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);

C)計(jì)算標(biāo)簽權(quán)重;利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;

Tij=Rij*Wij

其中,

Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

Rijm是第m條記錄的時間因子。其計(jì)算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;

數(shù)據(jù)來源權(quán)重Wij表示為:

i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

D)預(yù)測分析;利用上述步驟獲得的數(shù)據(jù)建立時間序列分析模型,使用時間序列分析模型預(yù)測用戶未來的行為。

在步驟B),所述旅客身份信息的特征和行為數(shù)據(jù)的特征包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

一種旅客畫像及數(shù)據(jù)分析裝置,包括:

用于存儲旅客身份信息和行為數(shù)據(jù)的數(shù)據(jù)庫;

用于存儲標(biāo)簽并生成標(biāo)簽?zāi)P偷臉?biāo)簽庫;每一標(biāo)簽具有相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);

用于計(jì)算標(biāo)簽權(quán)重的計(jì)算器;該計(jì)算器利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;

Tij=Rij*Wij

其中,

Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

Rijm是第m條記錄的時間因子。其計(jì)算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;

數(shù)據(jù)來源權(quán)重Wij表示為:

i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

用于輸出的輸出設(shè)備。

由于采用上述技術(shù)方案,本發(fā)明通過整合、分析交通運(yùn)輸和旅游行業(yè)中產(chǎn)生的數(shù)據(jù)為旅客用戶進(jìn)行畫像,挖掘用戶愛好,解決旅客基本特征描述,細(xì)分客戶群,預(yù)測行業(yè)發(fā)展趨勢以及旅客的未來行為特征,并為旅客的個性化服務(wù)提供支撐。

具體實(shí)施方式

本發(fā)明所述一種旅客畫像及數(shù)據(jù)分析的方法,包括如下步驟:

A)建立數(shù)據(jù)庫;從數(shù)據(jù)源中獲取旅客身份信息和行為數(shù)據(jù),存入數(shù)據(jù)庫;該步驟從各類數(shù)據(jù)源系統(tǒng)中抽取原始數(shù)據(jù),包括但不限于票務(wù)系統(tǒng)中的訂票記錄,列車、飛機(jī)上的訂餐記錄,周邊酒店的訂單數(shù)據(jù),餐飲訂單數(shù)據(jù),其它平臺的標(biāo)簽數(shù)據(jù),用戶行為日志數(shù)據(jù),社交網(wǎng)絡(luò)中的用戶日常消息數(shù)據(jù),并將這些數(shù)據(jù)清洗,轉(zhuǎn)換為數(shù)據(jù)庫可識別的數(shù)據(jù),存入到數(shù)據(jù)庫中。

B)建立標(biāo)簽?zāi)P?;根?jù)數(shù)據(jù)庫中的旅客身份信息的特征和行為數(shù)據(jù)的特征建立相應(yīng)的標(biāo)簽并賦予每一標(biāo)簽相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);

該步驟產(chǎn)出標(biāo)簽、及部分標(biāo)簽對應(yīng)的權(quán)重。建模時選取的特征除了用戶的基本特征,包括但不限于姓名,性別,出生年月,學(xué)歷等外,結(jié)合鐵路,航空領(lǐng)域的特點(diǎn),還需要選擇出發(fā)時間,到達(dá)時間,行程時長,旅客選擇的座位,座位等級,旅途過程中旅客喜愛的娛樂等因素;以及在具體運(yùn)用場景中,各類數(shù)據(jù)源數(shù)據(jù)對結(jié)果數(shù)據(jù)的權(quán)重產(chǎn)生的影響;分別將信息歸屬到靜態(tài)屬性和動態(tài)屬性兩類中。對于特征的處理上,動態(tài)屬性還需要考慮時間對權(quán)重的影響。

具體的處理步驟是,

1)從用戶的基本特征中,抽取特征并轉(zhuǎn)換為標(biāo)簽;

2)從用戶的消費(fèi)記錄中,抽取訂票及其它訂單信息,轉(zhuǎn)換為標(biāo)簽,標(biāo)簽的權(quán)重則表示為時間衰減因子r*數(shù)據(jù)來源權(quán)重w;

3)使用改進(jìn)聚類的方法,從其它非結(jié)構(gòu)化數(shù)據(jù)中分離出用戶的特征標(biāo)簽,輸出的標(biāo)簽的權(quán)重受時間衰減因子的影響。

C)計(jì)算標(biāo)簽權(quán)重;利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;

Tij=Rij*Wij

其中,

Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

Rijm是第m條記錄的時間因子。其計(jì)算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;

數(shù)據(jù)來源權(quán)重Wij表示為:

i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

例如:在系統(tǒng)中定義,來源于訂票系統(tǒng)及其子系統(tǒng)的權(quán)重為0.6,其它的為0.4;

場景1:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,不存在標(biāo)簽“紅燒牛肉”,在用戶的SNS數(shù)據(jù)中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減權(quán)重為0.21;則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0*0.6+0.21*0.4。

場景2:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減后的權(quán)重為0.65,在用戶的SNS數(shù)據(jù)中,不存在標(biāo)簽“紅燒牛肉”,則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0.65*0.6+0*0.4。

場景3:從用戶在訂票系統(tǒng)點(diǎn)餐子系統(tǒng)的點(diǎn)餐記錄中,存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減后的權(quán)重為0.65,在用戶的SNS數(shù)據(jù)中,亦存在標(biāo)簽“紅燒牛肉”,其計(jì)算時間衰減權(quán)重為0.21;則其歸并后的標(biāo)簽“紅燒牛肉”,權(quán)重為0.65*0.6+0.21*0.4。

D)預(yù)測分析;利用上述步驟獲得的數(shù)據(jù)建立時間序列分析模型,使用時間序列分析模型預(yù)測用戶未來的行為。當(dāng)然,利用該系統(tǒng),也可以通過標(biāo)簽分類的旅客,以某一特定標(biāo)簽作為特征,可以找到一組擁有此特征的旅客,實(shí)現(xiàn)對旅客的細(xì)分。或者以每個旅客為中心,找到其擁有的相關(guān)標(biāo)簽,即可知道旅客的興趣,習(xí)慣,并以此為精準(zhǔn)營銷提供支撐。

在上述步驟B),所述旅客身份信息的特征和行為數(shù)據(jù)的特征包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

一種旅客畫像及數(shù)據(jù)分析裝置,包括:

用于存儲旅客身份信息和行為數(shù)據(jù)的數(shù)據(jù)庫;

用于存儲標(biāo)簽并生成標(biāo)簽?zāi)P偷臉?biāo)簽庫;每一標(biāo)簽具有相應(yīng)的值域和權(quán)重;所述標(biāo)簽權(quán)重的取值表示該標(biāo)簽對用戶行為影響的重要程度;標(biāo)簽的權(quán)重表示為時間衰減因子與數(shù)據(jù)來源權(quán)重的乘積;所述時間衰減因子與標(biāo)簽的形成時間相關(guān),所述數(shù)據(jù)來源權(quán)重與標(biāo)簽數(shù)據(jù)的來源相關(guān);

用于計(jì)算標(biāo)簽權(quán)重的計(jì)算器;該計(jì)算器利用如下算法計(jì)算標(biāo)簽的權(quán)重Tij,得到一組歸并的標(biāo)簽,形成當(dāng)前時間窗的用戶畫像;

Tij=Rij*Wij

其中,

Rij表示第i個標(biāo)簽中第j個值的時間因子,i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值,其計(jì)算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

Rijm是第m條記錄的時間因子。其計(jì)算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m條數(shù)據(jù)當(dāng)前時間,tstartm為第m條數(shù)據(jù)生成時間,(tnowm-tstartm)為數(shù)據(jù)生成距離當(dāng)前時間間隔,α為時間因子衰減率,tmax為時間窗口大小,即超過該時間窗口的數(shù)據(jù)記錄不用來計(jì)算標(biāo)簽權(quán)重;

數(shù)據(jù)來源權(quán)重Wij表示為:

i代表標(biāo)簽編號,j代表該標(biāo)簽中第j個值。Wij表示第i個標(biāo)簽中第j個值的數(shù)據(jù)權(quán)重;計(jì)算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mi>&Sigma;</mi> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij為數(shù)據(jù)集合中與第i個標(biāo)簽第j個值對應(yīng)的數(shù)據(jù)條數(shù);

用于輸出的輸出設(shè)備。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
女性| 会泽县| 开江县| 涞源县| 白城市| 高陵县| 昔阳县| 汪清县| 铅山县| 仁寿县| 邛崃市| 邹城市| 莲花县| 黔西县| 忻州市| 山阴县| 麻城市| 裕民县| 平邑县| 惠州市| 垫江县| 博乐市| 西乌珠穆沁旗| 平泉县| 南宁市| 通城县| 长沙县| 罗源县| 尼勒克县| 隆德县| 沂水县| 邛崃市| 延长县| 全州县| 湖南省| 墨玉县| 九江市| 长宁县| 济宁市| 永年县| 望谟县|