背景技術(shù):
:隨著直播行業(yè)的飛速發(fā)展,各個(gè)直播平臺之間的競爭也日益激烈,如何快速有效地將特定用戶從直播網(wǎng)站的全部用戶中挖掘出來,例如,如何有效地將潛在付費(fèi)用戶從直播網(wǎng)站的全部用戶中挖掘出來,便于運(yùn)營人員針對特定用戶做進(jìn)一步的精細(xì)化營銷方案,提升用戶體驗(yàn),提高特定用戶的付費(fèi)轉(zhuǎn)化率,成為各個(gè)直播網(wǎng)站迫切需要解決的問題。目前,由于直播網(wǎng)站的用戶數(shù)量呈現(xiàn)爆炸式增長,用戶行為趨于多樣化和復(fù)雜化,而且用戶行為變化迅速,直接導(dǎo)致用戶數(shù)據(jù)維度多,用戶數(shù)據(jù)更新快,數(shù)據(jù)量大,從而導(dǎo)致建立特定用戶預(yù)測模型的過程和模型本身較為復(fù)雜,建模周期較長,由此導(dǎo)致模型對特定用戶預(yù)測的準(zhǔn)確性和效率不高。技術(shù)實(shí)現(xiàn)要素:針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的主要目的在于提供一種基于樸素貝葉斯算法的特定用戶挖掘方法,本發(fā)明的另一目的在于提供一種基于樸素貝葉斯算法的特定用戶挖掘系統(tǒng),通過貝葉斯工具包,根據(jù)從用戶的行為信息指標(biāo)中選取的特征指標(biāo)構(gòu)建樸素貝葉斯分類器,能夠找到有效的特征指標(biāo)組合,準(zhǔn)確地識別特定用戶,而且樸素貝葉斯分類器的構(gòu)建效率高。本發(fā)明提供一種基于樸素貝葉斯算法的特定用戶挖掘方法,包括以下步驟:S1.從服務(wù)器采集設(shè)定時(shí)間段內(nèi)用戶的行為信息指標(biāo),選取部分行為信息指標(biāo)作為用戶的特征指標(biāo);S2.從采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)所述采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器;S3.將在所述設(shè)定時(shí)間段之后采集的用戶的所述特征指標(biāo)作為所述樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。在上述技術(shù)方案的基礎(chǔ)上,所述特定用戶為付費(fèi)用戶,所述行為信息指標(biāo)包括充值金額;將所述充值金額等于零的用戶劃分為未付費(fèi)用戶,將所述充值金額大于零的用戶劃分為付費(fèi)用戶。在上述技術(shù)方案的基礎(chǔ)上,對除充值金額之外的行為信息指標(biāo)與所述充值金額之間進(jìn)行相關(guān)分析,獲得特征指標(biāo);所述特征指標(biāo)包括觀看時(shí)長、觀看次數(shù)、發(fā)送彈幕數(shù)量、贈送虛擬禮物數(shù)量、在線領(lǐng)取虛擬禮物數(shù)量、贈送虛擬禮物金額、關(guān)注房間數(shù)和關(guān)注分區(qū)數(shù)。在上述技術(shù)方案的基礎(chǔ)上,所述采樣用戶包括分別從未付費(fèi)用戶和付費(fèi)用戶中抽樣的部分用戶。在上述技術(shù)方案的基礎(chǔ)上,步驟S2中,在通過貝葉斯工具包構(gòu)建所述樸素貝葉斯分類器之前,將所有所述特征指標(biāo)的取值歸一化到相同的范圍內(nèi),所述范圍為0和1之間,所述歸一化依據(jù)公式:y=[x-MinValue(x)]/[MaxValue(x)-MinValue(x)],其中,x為任一個(gè)所述特征指標(biāo)歸一化之前的取值,MinValue(x)和MaxValue(x)分別為x的最小值和最大值,y為歸一化之后該特征指標(biāo)的取值。在上述技術(shù)方案的基礎(chǔ)上,所述貝葉斯工具包為SparkMllib;通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器具體包括:對每一個(gè)所述特征指標(biāo)的取值范圍進(jìn)行劃分,并根據(jù)所有特征指標(biāo)的取值范圍的劃分,計(jì)算獲得概率P(yj>ajk|Ci)、P(Ci)和P(yj>ajk),其中,yj為第j個(gè)所述特征指標(biāo)的取值,j=1,2,…,N,N為所述特征指標(biāo)的總數(shù),ajk為第j個(gè)特征指標(biāo)yj的第k個(gè)劃分點(diǎn)的取值,0<ajk≤1,k為正整數(shù),Ci為所有用戶的類,i=1,2,C1為付費(fèi)用戶,C2為未付費(fèi)用戶,其中P(Ci)為Ci類用戶的概率,P(yj>ajk|Ci)為在Ci類用戶中特征指標(biāo)的取值yj>ajk出現(xiàn)的條件概率,P(yj>ajk)為特征指標(biāo)的取值yj>ajk的概率;設(shè)置迭代次數(shù),并計(jì)算所述樸素貝葉斯分類器的準(zhǔn)確率,當(dāng)樸素貝葉斯分類器的準(zhǔn)確率大于設(shè)定的閾值時(shí),獲得最終的所述樸素貝葉斯分類器。在上述技術(shù)方案的基礎(chǔ)上,步驟S3具體包括:在所述設(shè)定時(shí)間段之后采集用戶的所述特征指標(biāo),并進(jìn)行歸一化處理;對于其中任一個(gè)用戶的所有特征指標(biāo),計(jì)算概率:P(Ci,|y1,>a1k,...,yj,>ajk,...,yN,>aNk)=P(Ci)*Πj=1NP(yj>ajk|Ci)/Πj=1NP(yj>ajk)]]>其中,C1'為潛在付費(fèi)用戶,C2'為非潛在付費(fèi)用戶,C1'和C2'分別對應(yīng)于C1和C2,y'j為所述用戶的第j個(gè)所述特征指標(biāo)的取值,P(Ci'|y1'>a1k,…,y'j>ajk,…,y'N>aNk)表示所述用戶的特征指標(biāo)的取值分別為y1'>a1k,…,y'j>ajk,…,y'N>aNk的條件下,所述用戶為Ci'類的條件概率;選擇P(Ci'|y1'>a1k,…,yj'>ajk,…,yN'>aNk)中的最大值,將該最大值對應(yīng)的Ci'確定為所述用戶的類別。本發(fā)明還提供一種基于樸素貝葉斯算法的特定用戶挖掘系統(tǒng),包括:數(shù)據(jù)采集模塊,用于從服務(wù)器分別采集設(shè)定時(shí)間段內(nèi)以及所述設(shè)定時(shí)間段之后用戶的行為信息指標(biāo);特征指標(biāo)選取模塊,用于選取部分在設(shè)定時(shí)間段內(nèi)采集的所述行為信息指標(biāo)作為用戶的特征指標(biāo);分類器構(gòu)建模塊,用于從所述設(shè)定時(shí)間段內(nèi)采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)所述采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器;用戶識別模塊,用于將在所述設(shè)定時(shí)間段之后采集的用戶的所述特征指標(biāo)作為所述樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。在上述技術(shù)方案的基礎(chǔ)上,所述特定用戶為付費(fèi)用戶,所述行為信息指標(biāo)包括充值金額;特征指標(biāo)選取模塊將所述充值金額等于零的用戶劃分為未付費(fèi)用戶,將所述充值金額大于零的用戶劃分為付費(fèi)用戶,并通過對除所述充值金額之外的所述行為信息指標(biāo)與所述充值金額之間的相關(guān)分析,獲得所述特征指標(biāo);所述特征指標(biāo)包括觀看時(shí)長、觀看次數(shù)、發(fā)送彈幕數(shù)量、贈送虛擬禮物數(shù)量、在線領(lǐng)取虛擬禮物數(shù)量、贈送虛擬禮物金額、關(guān)注房間數(shù)和關(guān)注分區(qū)數(shù)。在上述技術(shù)方案的基礎(chǔ)上,所述貝葉斯工具包為SparkMLlib。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)如下:(1)本發(fā)明從服務(wù)器采集設(shè)定時(shí)間段內(nèi)用戶的行為信息指標(biāo),選取部分行為信息指標(biāo)作為用戶的特征指標(biāo);從采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器;將在設(shè)定時(shí)間段之后采集的用戶的特征指標(biāo)作為樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。本發(fā)明基于特征指標(biāo),樸素貝葉斯分類器能夠找到有效的特征指標(biāo)組合,準(zhǔn)確地識別特定用戶,而且樸素貝葉斯分類器的構(gòu)建效率高。(2)本發(fā)明采用相關(guān)分析方法從用戶的行為信息指標(biāo)中選取特征指標(biāo),特征指標(biāo)選取重復(fù)性好,反映實(shí)際情況,預(yù)測準(zhǔn)確率高。(3)本發(fā)明充分利用Spark基于內(nèi)存計(jì)算的優(yōu)點(diǎn),計(jì)算速度更快,大大縮短了構(gòu)建樸素貝葉斯分類器的時(shí)間。附圖說明圖1是本發(fā)明實(shí)施例基于樸素貝葉斯算法的特定用戶挖掘方法流程圖;圖2是本發(fā)明實(shí)施例基于樸素貝葉斯算法的特定用戶挖掘系統(tǒng)示意圖。附圖標(biāo)記:數(shù)據(jù)采集模塊1,特征指標(biāo)選取模塊2,分類器構(gòu)建模塊3,用戶識別模塊4。具體實(shí)施方式下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)描述。參見圖1所示,本發(fā)明實(shí)施例提供一種基于樸素貝葉斯算法的特定用戶挖掘方法,包括以下步驟:S1.從服務(wù)器采集設(shè)定時(shí)間段內(nèi)用戶的行為信息指標(biāo),選取部分行為信息指標(biāo)作為用戶的特征指標(biāo)。特定用戶為付費(fèi)用戶,行為信息指標(biāo)包括充值金額,行為信息指標(biāo)還包括除充值金額之外的其它行為信息指標(biāo)。將充值金額等于零的用戶劃分為未付費(fèi)用戶,將充值金額大于零的用戶劃分為付費(fèi)用戶。具體的,可以抽樣選取部分付費(fèi)用戶作為正樣本,標(biāo)記為1,抽樣選取部分未付費(fèi)用戶作為負(fù)樣本,標(biāo)記為0。對除充值金額之外的行為信息指標(biāo)與充值金額之間進(jìn)行相關(guān)分析,獲得特征指標(biāo)。具體的,計(jì)算除充值金額之外的行為信息指標(biāo)與充值金額之間的相關(guān)系數(shù),保留相關(guān)系數(shù)大于設(shè)定的閾值的行為信息指標(biāo)為特征指標(biāo)。特征指標(biāo)包括觀看時(shí)長、觀看次數(shù)、發(fā)送彈幕數(shù)量、贈送虛擬禮物數(shù)量、在線領(lǐng)取虛擬禮物數(shù)量、贈送虛擬禮物金額、關(guān)注房間數(shù)和關(guān)注分區(qū)數(shù)。本發(fā)明采用相關(guān)分析方法從用戶的行為信息指標(biāo)中選取特征指標(biāo),特征指標(biāo)選取重復(fù)性好,反映實(shí)際情況,預(yù)測準(zhǔn)確率高。S2.從采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器。采樣用戶包括分別從未付費(fèi)用戶和付費(fèi)用戶中抽樣的部分用戶。步驟S2中,在通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器之前,將所有特征指標(biāo)的取值歸一化到相同的范圍內(nèi),范圍為0和1之間,歸一化依據(jù)公式:y=[x-MinValue(x)]/[MaxValue(x)-MinValue(x)],其中,x為任一個(gè)特征指標(biāo)歸一化之前的取值,MinValue(x)和MaxValue(x)分別為x的最小值和最大值,y為歸一化之后該特征指標(biāo)的取值。歸一化之后的特征指標(biāo)的取值都集中在0和1之間,其目的是為了避免特征指標(biāo)的量綱不同對樸素貝葉斯分類器的結(jié)果造成影響。貝葉斯工具包為SparkMllib。通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器具體包括:對每一個(gè)特征指標(biāo)的取值范圍進(jìn)行劃分,并根據(jù)所有特征指標(biāo)的取值范圍的劃分,計(jì)算獲得概率P(yj>ajk|Ci)、P(Ci)和P(yj>ajk),其中,yj為第j個(gè)特征指標(biāo)的取值,j=1,2,…,N,N為特征指標(biāo)的總數(shù),ajk為第j個(gè)特征指標(biāo)yj的第k個(gè)劃分點(diǎn)的取值,0<ajk≤1,k為正整數(shù),而且對于任意兩個(gè)特征指標(biāo),k可以不相等,Ci為所有用戶的類,i=1,2,C1為付費(fèi)用戶,C2為未付費(fèi)用戶,其中P(Ci)為Ci類用戶的概率,P(yj>ajk|Ci)為在Ci類用戶中特征指標(biāo)的取值yj>ajk出現(xiàn)的條件概率,P(yj>ajk)為特征指標(biāo)的取值yj>ajk的概率。例如,任一個(gè)采樣用戶具有8種特征指標(biāo),即Y={y1,y2,…,y8},所有采樣用戶的8種特征指標(biāo)構(gòu)成訓(xùn)練數(shù)據(jù)集。根據(jù)樸素貝葉斯定理:P(Ci|yj)=P(yj|Ci)*P(Ci)/P(yj),其中,i=1,2,j=1,2,…,8。對于任一個(gè)特征指標(biāo)yj,P(yj)、P(Ci)以及條件概率P(yj|Ci)可以從訓(xùn)練數(shù)據(jù)集直接計(jì)算獲得。對任一個(gè)特征指標(biāo)yj的取值范圍進(jìn)行劃分,由樸素貝葉斯定理獲得:P(Ci|yj>ajk)=P(yj>ajk|Ci)*P(Ci)/P(yj>ajk),P(yj>ajk|Ci)、P(Ci)和P(yj>ajk)均可以從訓(xùn)練數(shù)據(jù)集直接計(jì)算獲得。設(shè)置迭代次數(shù),并計(jì)算樸素貝葉斯分類器的準(zhǔn)確率,當(dāng)樸素貝葉斯分類器的準(zhǔn)確率大于設(shè)定的閾值時(shí),獲得最終的樸素貝葉斯分類器?;贖adoop分布式系統(tǒng)基礎(chǔ)架構(gòu)的分布式文件處理系統(tǒng)HDFS以及分布式計(jì)算框架MapReduce被廣泛應(yīng)用于大數(shù)據(jù)分析領(lǐng)域。Spark是UCBerkeleyAMPlab所開源的類HadoopMapReduce的通用并行框架,Spark擁有HadoopMapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。本發(fā)明充分利用Spark基于內(nèi)存計(jì)算的優(yōu)點(diǎn),直接調(diào)用SparkMLlib提供的并行化接口,將選取的采樣用戶的特征指標(biāo)輸入SparkMLlib的樸素貝葉斯算法接口中,并設(shè)置好迭代次數(shù),SparkMLlib自動迭代計(jì)算,迭代完成后,獲得樸素貝葉斯分類器,使?jié)撛诟顿M(fèi)用戶的挖掘過程更智能化,挖掘的特征指標(biāo)組合更全面。本發(fā)明充分利用Spark基于內(nèi)存計(jì)算的優(yōu)點(diǎn),計(jì)算速度更快,大大縮短了構(gòu)建樸素貝葉斯分類器的時(shí)間。S3.將在設(shè)定時(shí)間段之后采集的用戶的特征指標(biāo)作為樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。步驟S3具體包括:在設(shè)定時(shí)間段之后采集用戶的特征指標(biāo),并進(jìn)行歸一化處理。對于其中任一個(gè)用戶的所有特征指標(biāo),計(jì)算概率:P(Ci,|y1,>a1k,...,yj,>ajk,...,yN,>aNk)=P(Ci)*Πj=1NP(yj>ajk|Ci)/Πj=1NP(yj>ajk)]]>其中,C1'為潛在付費(fèi)用戶,C2'為非潛在付費(fèi)用戶,C1'和C2'分別對應(yīng)于C1和C2,y'j為用戶的第j個(gè)特征指標(biāo)的取值,P(Ci'|y1'>a1k,…,y'j>ajk,…,y'N>aNk)表示用戶的特征指標(biāo)的取值分別為y1'>a1k,…,y'j>ajk,…,y'N>aNk的條件下,用戶為Ci'類的條件概率;選擇P(Ci'||y1'>a1k,…,yj'>ajk,…,yN'>aNk)中的最大值,將該最大值對應(yīng)的Ci'確定為用戶的類別。具體的,在設(shè)定時(shí)間段之后采集用戶的特征指標(biāo),并進(jìn)行歸一化處理,獲得用戶的所有8種特征指標(biāo),即Y={y1',y2',…,y8'}。根據(jù)樸素貝葉斯定理獲得:P(Ci'|y'j>ajk)=P(yj>ajk|Ci)P(Ci)/P(yj>ajk),其中,y'j為任一個(gè)用戶的第j個(gè)特征指標(biāo)的取值,j=1,2,…,8。又因?yàn)榧俣ㄌ卣髦笜?biāo)之間相互獨(dú)立,所以P(Ci,|y1,>a1k,...,yj,>ajk,...,yN,>aNk)=P(y1,>a1k,...,yj,>ajk,...,yN,>aNk|Ci)*P(Ci)/Πj=1NP(yj>ajk)=P(Ci)*Πj=1NP(yj>ajk|Ci)/Πj=1NP(yj>ajk)]]>選擇P(Ci'||y1'>a1k,…,y'j>ajk,…,y8'>a8k)中的最大值,將該最大值對應(yīng)的Ci'確定為該用戶的類別。本發(fā)明從服務(wù)器采集設(shè)定時(shí)間段內(nèi)用戶的行為信息指標(biāo),選取部分行為信息指標(biāo)作為用戶的特征指標(biāo);從采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器;將在設(shè)定時(shí)間段之后采集的用戶的特征指標(biāo)作為樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。本發(fā)明基于特征指標(biāo),樸素貝葉斯分類器能夠找到有效的特征指標(biāo)組合,準(zhǔn)確地識別特定用戶,而且樸素貝葉斯分類器的構(gòu)建效率高。參見圖2所示,本發(fā)明還提供一種基于樸素貝葉斯算法的特定用戶挖掘系統(tǒng),包括數(shù)據(jù)采集模塊1、特征指標(biāo)選取模塊2、分類器構(gòu)建模塊3和用戶識別模塊4。數(shù)據(jù)采集模塊1,用于從服務(wù)器分別采集設(shè)定時(shí)間段內(nèi)以及設(shè)定時(shí)間段之后用戶的行為信息指標(biāo)。特定用戶為付費(fèi)用戶,行為信息指標(biāo)包括充值金額。特征指標(biāo)選取模塊2,用于選取部分在設(shè)定時(shí)間段內(nèi)采集的行為信息指標(biāo)作為用戶的特征指標(biāo)。特征指標(biāo)選取模塊2將充值金額等于零的用戶劃分為未付費(fèi)用戶,將充值金額大于零的用戶劃分為付費(fèi)用戶,并通過對除充值金額之外的行為信息指標(biāo)與充值金額之間的相關(guān)分析,獲得特征指標(biāo)。特征指標(biāo)包括觀看時(shí)長、觀看次數(shù)、發(fā)送彈幕數(shù)量、贈送虛擬禮物數(shù)量、在線領(lǐng)取虛擬禮物數(shù)量、贈送虛擬禮物金額、關(guān)注房間數(shù)和關(guān)注分區(qū)數(shù)。分類器構(gòu)建模塊3,用于從設(shè)定時(shí)間段內(nèi)采集到的用戶中抽樣部分用戶作為采樣用戶,根據(jù)采樣用戶的特征指標(biāo),通過貝葉斯工具包構(gòu)建樸素貝葉斯分類器。貝葉斯工具包為SparkMLlib。用戶識別模塊4,用于將在設(shè)定時(shí)間段之后采集的用戶的特征指標(biāo)作為樸素貝葉斯分類器的輸入變量,獲得用戶是否為特定用戶的概率。本發(fā)明不局限于上述實(shí)施方式,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍之內(nèi)。本說明書中未作詳細(xì)描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員公知的現(xiàn)有技術(shù)。當(dāng)前第1頁1 2 3