本發(fā)明涉及一種網絡營銷領域,特別涉及一種基于建立網絡用戶年齡-行為模型的網絡用戶年齡識別方法和系統(tǒng)。
背景技術:
在精準化網絡營銷中,受眾群體的年齡是最重要的用戶細分指標之一。因此建立網絡用戶的年齡-行為模型以便更好的為用戶投放相關內容是網絡營銷成敗的關鍵。
目前實際應用中廣泛使用的年齡預測算法包括如下兩種:一種是多類別的神經網絡算法,其先將信息用符號表示,然后根據符號運算按串行模式進行邏輯推理,并將這一過程編寫指令由計算機執(zhí)行;另一種是多響應層面的回歸算法,其是一種確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。這兩種算法的共同缺點是:模型復雜度極高,模型中待訓練的參數的個數驚人,無論是前期訓練還是后期應用都要消耗大量的資源,為避免過擬合需要的訓練樣例的個數也是不切實際的;模型穩(wěn)定性差,計算結果往往會有巨大的偏差和不合理性;模型可解釋性差,無法直觀理解;模型適應性差,無法通過簡單微調來適應應用場景的變化。
技術實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種網絡用戶的年齡識別方法和系統(tǒng),通過深入研究年齡數據本身的特性,建立一種直觀、合理、有說服力的年齡預測模型,進而實現(xiàn)網絡用戶的年齡識別方法和系統(tǒng)。
本發(fā)明的第一個方面涉及一種網絡用戶的年齡識別方法,包括:提取多個調研樣本的年齡數據及行為數據;根據所述調研樣本的年齡數據及所述行為數據構建年齡-行為模型;接收待識別用戶的行為數據;根據所述待識別用戶的行為數據和所述年齡-行為模型計 算待識別用戶的年齡數據。
優(yōu)選地,所述行為數據為日志。更優(yōu)選地,所述行為數據包括廣告曝光(imp)和點擊(clk)。
優(yōu)選地,所述多個調研樣本的年齡符合人口分布比例,更優(yōu)選地,符合網民人口分布比例。
優(yōu)選地,其中在構建年齡-行為模型時,將所述調研樣本的年齡數據數值化,并建立年齡數據的先驗分布函數。
優(yōu)選地,其中通過統(tǒng)計學模型確定所述先驗分布函數的參數。
優(yōu)選地,所述統(tǒng)計學模型可采用高斯分布、logistic分布、或雙曲正割分布。
更優(yōu)選地,所述統(tǒng)計學模型為雙曲正割分布。
在本發(fā)明的一些實施方式中,建立年齡數據的先驗分布函數時采用交替優(yōu)化的策略迭代計算所述先驗分布函數的參數。
優(yōu)選地,所述先驗分布函數的參數包括均值參數和標準差參數。
優(yōu)選地,其中所述統(tǒng)計學模型利用了調研樣本的年齡數據和行為數據。
優(yōu)選地,其中根據用戶訪問和查看的網絡內容獲得所述待識別用戶的行為數據。
優(yōu)選地,其中計算待識別用戶的年齡數據時,根據待識別用戶的行為數據,利用先驗分布函數的參數,得到數據后驗分布。
優(yōu)選地,其中利用年齡數據數值化的規(guī)則,將數據后驗分布轉化為年齡后驗分布。
優(yōu)選地,其中接收待識別用戶的行為數據包括:將所述待識別用戶的行為數據推及為所述調研樣本的行為數據。
本發(fā)明的第二個方面涉及一種網絡用戶的年齡識別系統(tǒng),其中包括:提取模塊,提取多個調研樣本的年齡數據及行為數據;建模模塊,根據所述調研樣本的年齡數據及所述行為數據構建年齡-行為模型;接收模塊,接收待識別用戶的行為數據;和模擬模塊,根據所述待識別用戶的行為數據和所述年齡-行為模型計算待識別用戶的年齡數據。
優(yōu)選地,在建模模塊中,將所述調研樣本的年齡數據數值化,并建立年齡數據的先驗分布函數。
優(yōu)選的,還可以包含展示模塊,展示所述待識別用戶的年齡數據,所述展示包含展示年齡數據的分布曲線圖。
本發(fā)明的第三個方面涉及一種網絡用戶的年齡識別方法,包括:
提取樣本用戶互聯(lián)網數據特征;
使用連續(xù)概率分布對預測目標分類建模;
利用最大似然分析確定模型最佳參數估計;
將待識別的網絡用戶的互聯(lián)網數據特征帶入模型,得到該用戶的年齡分布概率。
優(yōu)選地,所述建模包括:預測目標轉化;連續(xù)概率分布選擇;分界點計算;年齡轉換為數值;和極大似然估計。
在本發(fā)明的一個實施方式中,所述連續(xù)概率分布使用雙曲正割分布
在本發(fā)明的一個實施方式中,使用兩個分界點的均值作為轉換數值。優(yōu)選地,在計算分界點時,閾值為(-8,8)。
在本發(fā)明的一個實施方式中,在計算分界點時
其中,y為自然數。優(yōu)選地,y為表示年齡的自然數。更優(yōu)選地,y為12~61。
在本發(fā)明的一個實施方式中,用極大似然估計估算參數每個樣例點的標準差參數σ和均值參數μ。
優(yōu)選地,根據
在本發(fā)明中,本發(fā)明的發(fā)明人深入研究年齡數據的特殊性,即: 年齡數據在分布上有規(guī)律性和穩(wěn)定性,以及年齡相近的用戶在行為模式上具有關聯(lián)性這兩個特點,通過對多個調研樣本的年齡數據和行為數據進行分析,構建年齡-行為模型,從而可以根據后續(xù)獲取的行為數據得到相應的年齡數據,由此在網絡營銷中更加精準的確定受眾群體,解決了網絡營銷中無目標投放帶來的困擾。同時,對于市場調研領域而言,由于大數據技術的介入,從調研樣本中挖掘出更大的價值,為實現(xiàn)大數據的利用邁出了堅實的一步。
附圖說明
下面將通過參照附圖詳細描述本發(fā)明的優(yōu)選實施例,使本領域的普通技術人員更清楚本發(fā)明的所述及其它特征和優(yōu)點,附圖中:
圖1是本發(fā)明的一些實施方式的年齡識別方法的流程圖。
圖2是本發(fā)明采用的雙曲正割分布圖。
圖3a是根據本發(fā)明的一些實施方式的方法確定概率z(12)圖示。
圖3b是根據本發(fā)明的一些實施方式的方法確定概率z(13)圖示。
具體實施方式
在下文的描述中,給出了大量具體的細節(jié)以便提供對本發(fā)明更為徹底的理解。然而,對于本領域技術人員來說顯而易見的是,本發(fā)明可以無需一個或多個這些細節(jié)而得以實施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對于本領域公知的一些技術特征未進行描述。
本發(fā)明中的術語“先驗分布”是貝葉斯統(tǒng)計中的術語,是指總體分布參數θ的一個概率分布。貝葉斯統(tǒng)計中的一個根本觀點是認為在關于總體分布參數θ的任何統(tǒng)計推斷問題中,除了使用樣本所提供的信息外,還必須規(guī)定一個先驗分布,它是在進行統(tǒng)計推斷時不可缺少的一個要素。先驗分布不必有客觀的依據,可以部分地或完全地基于主觀信念。在決策分析中,尚未通過試驗收集狀態(tài)信息 時所具有的信息叫先驗信息,由先驗信息所確定的概率分布叫先驗分布。設定先驗分布是bayesean分析的需要。
本發(fā)明中的術語“后驗分布”是指根據樣本x的分布pθ及θ的先驗分布π(θ),用概率論中求條件概率分布的方法,可算出在已知x=x的條件下,θ的條件分布π(θ|x)。因為這個分布是在抽樣以后才得到的,故稱為后驗分布。
本發(fā)明中的術語“數值化”是指將許多復雜多變的信息轉變?yōu)榭梢远攘康臄底?、數據,再以這些數字、數據建立起適當的數字化模型,把它們轉變?yōu)橐幌盗卸M制代碼,引入計算機內部,進行統(tǒng)一處理,這就是數值化的基本過程。
本發(fā)明中的術語“統(tǒng)計原理”是指通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其是一種廣泛應用的數據分析方法,其建模的方式有很多,技術也很成熟。本發(fā)明中所述統(tǒng)計原理分析模型并不限于哪種特定的模型,因為所用的維度有很多,因此需要建立多種不同的模型,也會根據需要不斷的增加模型或對已有模型進行改進。
本發(fā)明中的術語“年齡數據”包括調研樣本的年齡,其可以是具體的年齡值,也可以以年齡的范圍如31-35歲、61-70歲等方式呈現(xiàn)。
本發(fā)明中的術語“行為數據”根據用戶訪問和查看的網絡內容獲得,包括但不限于游戲、電影、網絡購物、瀏覽時政要聞、股票行情等。特別是所述行為數據是通過解讀日志得到的,所述日志包括但不限于互聯(lián)網廣告曝光和點擊形成的日志。
本發(fā)明中的術語“行為數據”還可以進一步拓展第二維度數據,包括但不限于時間信息,例如該行為具體發(fā)生在幾點或哪個時間區(qū)間。
本發(fā)明中的術語“極大似然估計”是一種統(tǒng)計方法,它用來求一個樣本集的相關概率密度函數的參數。已知某個隨機樣本滿足某種概率分布,但是其中具體的參數不詳,參數估計就是通過若干次試驗,觀察其結果,利用結果推出參數的大概值。極大似然估計是 建立在這樣的假設上:已知某個參數能使這個樣本出現(xiàn)的概率最大,則當然不再去選擇其他小概率的樣本,因此選擇該參數作為估計的真實值。
本發(fā)明中的術語“調研樣本”是指已知年齡數據以及行為數據的先驗信息數據,例如16歲的男性喜歡晚上10-12點玩網絡游戲、26-30歲女性喜歡晚上8-10點逛淘寶購物、31-40歲男性喜歡上午9:30-11:30查閱股票行情等。這些調研樣本的數據可以從調研公司獲得、或是廣告主直接提供,也可以是由廣告監(jiān)測公司積累的項目數據中獲得。
本發(fā)明中的術語“曲線”可以是由連續(xù)的點組成,也可以是由具有一定步長的點組成。
圖1是根據本發(fā)明的具體實施例的網絡用戶的年齡識別方法步驟圖。如圖1所示,根據本發(fā)明的具體實施例的網絡用戶的年齡識別方法,包括以下步驟:
步驟s101,提取多個調研樣本的年齡數據及行為數據。具體而言,所述行為數據根據用戶訪問和查看的網絡內容獲得,其中,所述年齡數據和行為數據來自于調研樣本。在選擇調研樣本時,優(yōu)選地,按照人口年齡比例進行選擇;更優(yōu)選地,按照網民人口年齡比例進行選擇。相關調研樣本數據可以由第三方調查公司或政府人口普查部門獲得。
步驟s102,根據所述調研樣本的年齡數據及所述行為數據構建年齡-行為模型。所述年齡-行為模型的分布參數通過統(tǒng)計原理確定,在構建年齡-行為模型時,將所述調研樣本的年齡數據數值化,并建立年齡數據的先驗分布函數。由于在選取調研樣本數據時是根據人口年齡比例,更優(yōu)選網民人口年齡比例選擇的,因此在此數據基礎上建立的先驗分布函數是符合客觀規(guī)律的。
優(yōu)選的,行為數據可以是分類類型的(例如“是否訪問過網站a”,結論非0即1,),亦可是數值類型的(例如“在網站b停留的小時數”,如:1.7小時、37分鐘、3.2元等等)。
以用戶已知年齡作為預測目標。對于已知的特征集合,將原始 日志轉化為特征輸入x和預測目標y。
由于待預測的年齡是多元有序數值,年齡類別的數目較大,若使用神經網絡模型,那么模型中待訓練的參數的個數將會是很驚人。而且,為避免過擬合所需要的訓練樣例的數量也是不切實際的。因而,發(fā)明人想到將該有序數值轉化為連續(xù)分布,使用連續(xù)分布對有序數值情景進行建模。本發(fā)明的一個重要特點是,描述一個給定類型的連續(xù)分布需要的參數很少,一般只需要均值和標準差。如果每個樣例點的年齡數值分布都服從同一類別的連續(xù)分布,每個樣例點的標準差參數σ和均值參數μ不同,即取決于不同樣例點的特征x取值:
μ=xtα,
那么該模型所需的參數個數只是樣例特征個數的兩倍,遠遠少于神經網絡模型的模型參數。
進一步的,將有序數值y轉化為連續(xù)分布數值z的轉化映射時,由于y與z存在一些共性:
有序性(y:30歲比20歲大,z:連續(xù)隨機數值取12.05比取6.32大);
距離有遠近之別(y:28歲與30歲的距離小于28歲與20歲的距離,z類似);
首位兩端不連續(xù)(y:10歲與71歲不相鄰,z:連續(xù)隨機變量取-∞與+∞不相鄰);
發(fā)明人意外地發(fā)現(xiàn):一個最直觀的映射是這樣的:在連續(xù)隨機變量z上設置分界點,兩個相鄰分界點之間的隨機變量區(qū)間對應于一個y的取值y,而相鄰兩個分界點之間的分布積分值是p(y=y(tǒng)),即y取值為y的概率。換句話說,當得到某網民的行為數據z時, 根據之前得到的先驗分布函數,可以得到該網民年齡為y的概率。而該網民在整個分布函數上年齡概率的總和為1(即100%)。
上述有序數值到連續(xù)分布數值的轉化可以選取為對稱、覆蓋整個實數r的分布,比如高斯分布、logistic分布、雙曲正割分布。
本發(fā)明中采用雙曲正割分布,如圖2所示:
αtype概率密度函數:
βtype概率密度函數:
令人驚訝地,發(fā)明人發(fā)現(xiàn)互聯(lián)網用戶的年齡分布符合βtype概率密度函數。
這樣的話,假定總分布符合雙曲正割分布p(y)~h(μ=0,σ=1),則對于大部分樣例點特征featurei,其條件分布也滿足雙曲正割分布
p(y|featurei=1)~h(μ=μi,σ=σi),其中μi和σi是常數。
μ(x)=xtα
其中x為特征,α和β為待估計參數。
當存在兩組待優(yōu)化參數需要優(yōu)化時,本發(fā)明使用交替優(yōu)化的方式來求解含有兩組待優(yōu)化參數的優(yōu)化問題:將y:age轉化為連續(xù)隨機變量z后,每個樣例點(xi,yi)轉化為(xi,zi),每個樣例點的z分布服從雙曲正割分布,則該分布取值為zi的概率可以計算得到。
假設n個樣例點互相獨立,則訓練集上的總體概率是上述各個樣例點概率的連乘πpi。
進而使用極大似然估計來估計模型中的兩組參數:均值參數μ、標準差參數σ。換句話說,y為年齡,z為行為數據數值化的隨機變量
這里優(yōu)選采用的交替優(yōu)化的策略迭代計算:在每輪迭代時,首先固定標準差參數σ,使用最優(yōu)化求解均值參數μ,當作最新的μ;然后使固定均值參數μ,使用最優(yōu)化求解標準差參數σ。重復以上迭代步驟,直到達到收斂條件。從而確定標準差參數σ和均值參數μ。
更具體地,由于
步驟s103,接收待識別用戶的行為數據。將所述行為數據數值化并帶入之前得到的標準差參數σ和均值參數μ,從而得到后驗數據分布函數。
步驟s104,根據所得的后驗數據分布和所述年齡-行為模型中行為數據與年齡的對應關系計算待識別用戶的年齡數據。
根據本發(fā)明的一些實施方式的網絡用戶的年齡識別系統(tǒng),其中 包括:提取模塊,提取多個調研樣本的年齡數據及行為數據;建模模塊,根據所述調研樣本的年齡數據及所述行為數據構建年齡-行為模型;接收模塊,接收待識別用戶的行為數據;模擬模塊,根據所述待識別用戶的行為數據對年齡-行為模型中的年齡數據進行計算;和展示模塊,展示所述待識別用戶的年齡數據。
根據本發(fā)明的具體實施例的網絡用戶的年齡識別方法和系統(tǒng)的常見的應用場景是為不同年齡段的用戶精準投放其感興趣的廣告或網絡內容。
實施例
采集樣本數據,從樣本用戶互聯(lián)網瀏覽行為中提取行為特征。用戶已知年齡為預測目標。
預測目標轉化
將多元有序分類的年齡數據類別分為50個,分別是:12歲及以下、13歲、...、60歲、61歲及以上。當年齡小于等于12歲時,設age=12,當年齡大于等于61歲時,設age=61,則每個離散的年齡y上的概率分布p(y)為:
此時應當滿足:
然后,將調研樣本的有序分類年齡數據數值化,即將離散年齡數據轉換為連續(xù)年齡數據。在本實施例中,使用雙曲正割分布作為連續(xù)分布。
首先根據每個年齡上的概率確定分界點。通常,選用-∞、∞做為上下邊界。但在本發(fā)明中,為了讓計算分界點成為可能,發(fā)明人將值域限制在一個有限的范圍內。
由于在雙曲正割分布中,
因而選取(-8,8)為值域范圍,此時樣本總體的概率近似于1。
根據累計分布確定各分界點的數值,概率p(age)為已知,要計 算分界點z(age),(----->是推出的意思)如下:
……
將年齡轉換為數值
圖3a和圖3b分別示出確定z(12)和z(13)的實例。其中,所述概率p(age)即為圖中曲線下陰影的面積(z是分界點,p是定積分的結果就是概率,而p已知,所以就能求出分界點)。
為了便于計算,發(fā)明人使用兩個分界點的均數
……
通過這樣的轉換,離散年齡概率p(age)被轉換為連續(xù)年齡數據
極大似然估計
對于任意一個樣本
其中,
因而,
其中μ為均值,σ為標準差,α和β為待估計參數。
最后,利用前述的極大似然估計來估計概率最大時α和β的取值。
對于α和β兩個待估計參數的計算,使用前述的交替優(yōu)化策略迭代計算,直至求得最佳參數估計
至此,年齡-行為模型已構建完成。
識別待預測用戶年齡
對于任意待預測用戶t,根據該用戶t的行為數據,應用包含最優(yōu)參數
根據各個分界點z(12)、z(13)……z(60),計算對應的各年齡分布
……
進而得到用戶t的年齡概率分布p(12)、p(13)……p(61)。
在本發(fā)明中,本發(fā)明的發(fā)明人深入研究年齡數據的特殊性,即:年齡數據在分布上有規(guī)律性和穩(wěn)定性,以及年齡相近的用戶在行為模式上具有關聯(lián)性這兩個特點,通過對多個調研樣本的年齡數據和行為數據進行識別,構建年齡-行為模型,從而可以根據后續(xù)獲取的行為數據得到相應的年齡數據,由此在網絡營銷中更加精準的確定 受眾群體,解決了網絡營銷中長期以來的困擾。與現(xiàn)有其他識別年齡的模型相比,本發(fā)明的模型參數少,只需要α和β兩個待估計參數,簡化了計算,提高了計算速度,能夠滿足互聯(lián)網營銷中對廣告推送時效性的要求。同時,基于這種迅速判斷網絡用戶年齡概率的技術,可以衍生出多種產品。因此,本發(fā)明的識別網絡用戶年齡的方法具有非常重要的經濟意義。該種方法也可應用到其他需要迅速反應的場景下,有很好的拓展性。
本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件完成,所述程序可以存儲于計算機可讀存儲介質中,如只讀存儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本申請不限制于任何特定形式的硬件和軟件的結合。
本發(fā)明已經通過所述實施例進行了說明,但應當理解的是,所述實施例只是用于舉例和說明的目的,而非意在將本發(fā)明限制于所描述的實施例范圍內。此外本領域技術人員可以理解的是,本發(fā)明并不局限于所述實施例,根據本發(fā)明的教導還可以做出更多種的變型和修改,這些變型和修改均落在本發(fā)明所要求保護的范圍以內。本發(fā)明的保護范圍由附屬的權利要求書及其等效范圍所界定。