欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)的制作方法

文檔序號:6426443閱讀:194來源:國知局
專利名稱:一種基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)用戶特征分析領(lǐng)域,尤其涉及一種通過跨網(wǎng)網(wǎng)絡(luò)報文對用戶上網(wǎng)的各種行為進(jìn)行關(guān)聯(lián)分析、從而得到一個特定人群在特定時間內(nèi)的上網(wǎng)特征的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶對互聯(lián)網(wǎng)內(nèi)容和應(yīng)用服務(wù)的要求已經(jīng)從海量演進(jìn)為個性,如何精準(zhǔn)的定位用戶的行為特性和網(wǎng)站本身的內(nèi)容特性和提供服務(wù)的級別,并將兩者有機(jī)的結(jié)合起來是急需解決的問題和技術(shù)難點。目前用來分析用戶上網(wǎng)特征的方法主要有以下幾種第一,通過在少量用戶電腦上裝插件、客戶端或者cookie,來收集各個網(wǎng)頁的訪問數(shù)據(jù),從而對網(wǎng)站網(wǎng)頁的流量、訪問用戶進(jìn)行統(tǒng)計分析。這種方法技術(shù)門檻低,使用簡便,是目前業(yè)內(nèi)較通用的分析方法,該方案的一個最大缺陷是由于收集的用戶數(shù)據(jù)較少,只能做抽樣統(tǒng)計分析工作,無法完成深度數(shù)據(jù)分析。與此同時,由于客戶端和cookie兩種形式都存安裝困難,有效期短的問題,在分析的準(zhǔn)確度上存在問題。客戶端的安裝需要用戶的支持和操作,一方面樣本庫完整性的建立是存在偏差的,同時在樣本的數(shù)量上也會存在困難。如果強(qiáng)行給用戶安裝客戶端,勢必會給用戶帶來煩惱同時也會引起投訴。Cookie的植入也會因為有效期的問題而產(chǎn)生統(tǒng)計上的缺失。第二,利用網(wǎng)絡(luò)爬蟲技術(shù),抓取網(wǎng)頁,分析網(wǎng)頁內(nèi)容和網(wǎng)頁之間的鏈接關(guān)系。通過分析網(wǎng)頁內(nèi)容,對網(wǎng)頁進(jìn)行分類、聚類或者關(guān)鍵詞抽取。通過分析網(wǎng)頁之間的鏈接關(guān)系,來衡量一個網(wǎng)頁的重要程度。這種方法存在如下缺陷,首先,無法從用戶維度出發(fā),對網(wǎng)頁進(jìn)行分析,也無法對網(wǎng)頁的流量特性和網(wǎng)頁的目標(biāo)受眾進(jìn)行評價。其次,需要網(wǎng)絡(luò)爬蟲、網(wǎng)頁抽取、中心詞抽取及鏈接分析等技術(shù),需要消耗大量的運算存儲資源。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供采用通訊報文分析方法來評價網(wǎng)站的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)。為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下本發(fā)明的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),包括用于將原始報文數(shù)據(jù)進(jìn)行歸類的報文分類模塊;用于通過對原始報文數(shù)據(jù)進(jìn)行挖掘、識別用戶身份的用戶身份識別模塊;用于根據(jù)報文分類模塊分類后的報文及用戶身份識別模塊識別出的用戶身份信息,對用戶在互聯(lián)網(wǎng)上的行為進(jìn)行還原的用戶行為還原模塊;用于存儲所述行為還原模塊還原的用戶行為的用戶行為庫;提取用戶行為庫中的用戶行為根據(jù)相關(guān)網(wǎng)站、網(wǎng)頁進(jìn)行統(tǒng)計整合的網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊;
用于根根網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊處理過的信息從多個維度統(tǒng)計網(wǎng)站網(wǎng)頁上各個用戶行為的執(zhí)行次數(shù),從而實現(xiàn)對網(wǎng)站網(wǎng)頁的評價的網(wǎng)站網(wǎng)頁評價模塊。優(yōu)選的,所述基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)還包括關(guān)聯(lián)分析模塊用于提取用戶行為庫中的用戶行為,采用關(guān)聯(lián)分析的方法進(jìn)行對分析,得出與網(wǎng)站或網(wǎng)頁相關(guān)聯(lián)的用戶行為;分類模塊用于提取關(guān)聯(lián)分析模塊提供網(wǎng)站網(wǎng)頁關(guān)聯(lián)的用戶行為,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行分類,得出網(wǎng)站網(wǎng)頁所屬的類別;所述的分類模塊將分析得到的網(wǎng)站網(wǎng)頁所屬類別傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。更優(yōu)選的,所述基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)還包括聚類模塊通過關(guān)聯(lián)分析模塊提供的與網(wǎng)站網(wǎng)頁關(guān)聯(lián)的用戶行為,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁;所述的聚類模塊將分析得到的與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。優(yōu)選的,所述基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)還包括搜索關(guān)鍵詞提取模塊通過提取用戶行為庫中的搜索點擊行為,分析搜索引擎帶到某個具體網(wǎng)站的點擊行為;分類模塊用于將通過搜索關(guān)鍵詞提取模塊提取的搜索關(guān)鍵詞,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行分類,得出網(wǎng)站網(wǎng)頁所屬的類別;所述的分類模塊將分析得到的網(wǎng)站網(wǎng)頁所屬類別傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。更優(yōu)選的,所述基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)還包括聚類模塊用于將通過搜索關(guān)鍵詞提取模塊提取的搜索關(guān)鍵詞,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁;所述的聚類模塊將分析得到的與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。優(yōu)選的,所述基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)還包括關(guān)聯(lián)分析模塊用于提取用戶行為庫中的用戶行為,采用關(guān)聯(lián)分析的方法進(jìn)行對分析,得出與網(wǎng)站或網(wǎng)頁相關(guān)聯(lián)的用戶行為,具體包括用戶與網(wǎng)站關(guān)系信息;搜索關(guān)鍵詞提取模塊通過提取用戶行為庫中的搜索點擊行為,分析搜索引擎帶到某個具體網(wǎng)站的點擊行為,得到查詢詞網(wǎng)站關(guān)系信息;分類模塊基于所述的查詢詞網(wǎng)站關(guān)系,利用網(wǎng)站分類器對網(wǎng)站進(jìn)行分類;用戶興趣挖掘模塊通過用戶與網(wǎng)站關(guān)系信息及網(wǎng)站分類信息,對用戶進(jìn)行興趣分析,得到用戶在每個類別上的頻次信息,作為用戶興趣的特征數(shù)據(jù);所述的用戶興趣挖掘模塊,將得到的用戶興趣的特征數(shù)據(jù)發(fā)送給網(wǎng)站網(wǎng)頁信息統(tǒng)計這個整合模塊進(jìn)行整合處理,所述的網(wǎng)站網(wǎng)頁評價模塊調(diào)用經(jīng)整合處理的數(shù)據(jù)進(jìn)行網(wǎng)站網(wǎng)頁評價。優(yōu)選的,所述的身份識別模塊通過識別報文數(shù)據(jù)中是否攜帶的在用戶客戶端多個網(wǎng)站域下植入的統(tǒng)一的cookie來識別用戶身份。優(yōu)選的,所述的報文分類模塊通過將報文數(shù)據(jù)輸入報文分類器,有報文分類器計算得到將報文進(jìn)行分類,所述的報文分類器中對應(yīng)設(shè)置有報文類型及其對應(yīng)的報文特征。優(yōu)選的,所述的關(guān)聯(lián)分析模塊根據(jù)用戶訪問網(wǎng)站的日志信息,得到網(wǎng)站-關(guān)鍵詞維度、網(wǎng)站-廣告維度、網(wǎng)站-網(wǎng)站維度的關(guān)聯(lián)關(guān)系。本發(fā)明的有益效果如下本發(fā)明的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)的基于報文的分析方式,可以還原出用戶對網(wǎng)站網(wǎng)頁的各種訪問行為,進(jìn)行統(tǒng)計分析,對網(wǎng)站網(wǎng)頁進(jìn)行評價。該評價系統(tǒng)有利于站長了解網(wǎng)站用戶的群體特征,優(yōu)化自己的網(wǎng)站。這種分析方式,還可以分析用戶訪問網(wǎng)站網(wǎng)頁以外的行為,有利于站長了解與自己網(wǎng)站網(wǎng)頁關(guān)系比較密切的其他信息,方便用戶來優(yōu)化自己的網(wǎng)站。


圖1為本發(fā)明的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)結(jié)構(gòu)框圖。
具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案和有益效果進(jìn)一步進(jìn)行闡述。本發(fā)明的系統(tǒng)實施時需要在多個地理位置部署網(wǎng)關(guān),獲取通過網(wǎng)關(guān)的所有用戶的通信網(wǎng)絡(luò)報文,基于這些報文,進(jìn)行處理,實現(xiàn)對網(wǎng)站網(wǎng)頁的評價,具體的,參見附圖1,網(wǎng)關(guān)采集到的原始報文被發(fā)送到報文分類模塊進(jìn)行分類,一個正常的頁面訪問通常包含了大量的請求報文,其中包括正常頁面報文、廣告報文、搜索報文等一系列報,報文分類模塊的作用就是將接收的原始報文進(jìn)行歸類,同時,為了更好的了解用戶的行為,需要通過用戶身份識別模塊來對報文數(shù)據(jù)進(jìn)行挖掘,識別每份報文發(fā)送者的身份,用戶行為還原模塊根據(jù)分類后的報文及識別的用戶身份對用戶行為進(jìn)行還原,還原出用戶在互連網(wǎng)上的瀏覽行為、 搜索行為、點擊行為、注冊行為等等,還原出的行為被存儲到用戶行為庫,供其他的分析模塊使用。在本發(fā)明的一些實施例中,分析模塊包括關(guān)聯(lián)分析模塊、分類模塊,還可以包含聚類模塊,分類模塊根據(jù)關(guān)聯(lián)分析模塊提供的與網(wǎng)站網(wǎng)頁相關(guān)聯(lián)的用戶行為進(jìn)行分類,分析出網(wǎng)站網(wǎng)頁所屬的類別,同樣的聚類模塊也根據(jù)關(guān)聯(lián)分析模塊提供的與網(wǎng)站網(wǎng)頁相關(guān)聯(lián)的用戶行為進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁,并把分類、聚類的結(jié)果發(fā)送給作為網(wǎng)站網(wǎng)頁的一個評價參數(shù)。在本發(fā)明的另一些實施例中,分析模塊包括搜索關(guān)鍵詞提取模塊、分類模塊,還可以包含聚類模塊,分類模塊根據(jù)搜索關(guān)鍵詞提取模塊提供的查詢詞網(wǎng)站關(guān)系,分析出網(wǎng)站網(wǎng)頁所屬的類別,同樣的聚類模塊也根據(jù)搜索關(guān)鍵詞提取模塊提供的查詢詞網(wǎng)站關(guān)系進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁,并把分類、聚類的結(jié)果發(fā)送給作為網(wǎng)站網(wǎng)頁的一個評價參數(shù)。
6
不管是根據(jù)網(wǎng)站網(wǎng)頁 相關(guān)聯(lián)的行為進(jìn)行分類,還是根據(jù)查詢詞網(wǎng)站關(guān)系進(jìn)行分類,分類模塊都采用網(wǎng)站分類器實現(xiàn),網(wǎng)站分類器構(gòu)建方法如下隨機(jī)抽取部分網(wǎng)站進(jìn)行人工標(biāo)注分類,并利用機(jī)器學(xué)習(xí)的分類模型進(jìn)行特征提取,從而形成網(wǎng)站分類器。還有一些實施例中,包含關(guān)聯(lián)分析模塊、搜索關(guān)鍵詞提取模塊、分類模塊、用戶興趣挖掘模塊,關(guān)聯(lián)分析模塊分析出用戶與網(wǎng)站的關(guān)系信息,搜索關(guān)鍵詞提取模塊分析出查詢詞網(wǎng)站關(guān)系信息,網(wǎng)站分類模塊根據(jù)查詢詞網(wǎng)站關(guān)系信息將網(wǎng)站進(jìn)行分類,得到網(wǎng)站類別關(guān)系信息,用戶興趣挖掘模塊根據(jù)用戶與網(wǎng)站的關(guān)系信息及網(wǎng)站類別關(guān)系信息,對用戶進(jìn)行興趣分析,形成統(tǒng)一的用戶輪廓,具體的,由用戶與網(wǎng)站關(guān)系信息可提取出{用戶,網(wǎng)站}關(guān)系;由網(wǎng)站分類結(jié)果可提取出{網(wǎng)站,類別}關(guān)系,基于這兩種關(guān)系,可得用戶興趣的特征數(shù)據(jù),即用戶在每個類別上的頻次信息{用戶,類別1,頻次,類別2,頻次,…}。由于用戶對網(wǎng)站的訪問是一個長期的用戶行為,可基于用戶興趣特征數(shù)據(jù)引入時間維度,形成時間序列(time series)。進(jìn)一步利用經(jīng)典的時間序列分析方法,對用戶未來的興趣進(jìn)行預(yù)測。各分析模塊得到網(wǎng)站網(wǎng)頁相關(guān)信息被發(fā)送到網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,將不同用戶、不同網(wǎng)站網(wǎng)頁相關(guān)的數(shù)據(jù)分門別類,最終,這些數(shù)據(jù)被網(wǎng)站網(wǎng)頁評價模塊進(jìn)行應(yīng)用,從多個維度統(tǒng)計網(wǎng)站網(wǎng)頁上各個用戶行為的執(zhí)行次數(shù)。具體包括pv、獨立IP、 獨立用戶、各種廣告點擊情況分析、用戶類別分布、類別、用戶訪問時間分布、用戶地域分布、網(wǎng)站相似網(wǎng)站、與網(wǎng)頁相似網(wǎng)頁、訪問網(wǎng)站網(wǎng)頁的用戶在互聯(lián)網(wǎng)上的其它行為特征。從而實現(xiàn)對網(wǎng)站網(wǎng)頁的評價。本發(fā)明的網(wǎng)站網(wǎng)頁評價系統(tǒng)的實現(xiàn),需要識別哪些報文是由同一個用戶發(fā)送的, 這在用戶訪問同一網(wǎng)站時并不難實現(xiàn),但是當(dāng)用戶訪問不同網(wǎng)站時,就難以識別,目前的一般做法是采用一個統(tǒng)一的標(biāo)識來對用戶進(jìn)行識別,這個標(biāo)識可以是IP,還可以是上網(wǎng)帳號, 本發(fā)明的身份識別模塊利用用戶訪問不同網(wǎng)站時攜帶的統(tǒng)一的cookie來跟蹤用戶,該統(tǒng)一的cookie通過如下方法種植Sll 捕捉用戶訪問網(wǎng)站A的GET報文,判斷該報文是否攜帶植入的統(tǒng)一 cookielD,如果沒有,則生成對該用戶唯一的cookie,并模擬網(wǎng)站A的服務(wù)器響應(yīng),回復(fù) 2000K報文給用戶客戶端,并將該cookie植入用戶客戶端“A. com”域下,同時在用戶客戶端瀏覽器創(chuàng)建兩層iframe,其中,第一層iframe內(nèi)嵌入網(wǎng)站A的鏈接,以引導(dǎo)用戶再次訪問 A網(wǎng)站;同時,在第二層iframe內(nèi)嵌入至少一個其它網(wǎng)站B的鏈接,當(dāng)嵌入網(wǎng)站鏈接為多個時,并發(fā)執(zhí)行訪問嵌入的網(wǎng)站,將第一層iframe設(shè)置為用戶可見,將第二層iframe設(shè)置為用戶不可見;如果攜帶有,則獲取該統(tǒng)一 cookie ID標(biāo)識,從而識別出該獨立用戶,則獲取該 cookielD,從而識別出該獨立用戶,同時,判斷此次訪問是初次訪問還是重定向后的二次訪問,如果是重定向后的二次訪問則不做處理,使用戶直接訪問網(wǎng)站A,如果是初次訪問,則進(jìn)行重定向操作,即模擬網(wǎng)站A的服務(wù)器響應(yīng),回復(fù)200 OK報文給用戶客戶端,并在用戶客戶端瀏覽器創(chuàng)建兩層iframe,其中,第一層iframe內(nèi)嵌入網(wǎng)站A的鏈接,以引導(dǎo)用戶再次訪問網(wǎng)站A ;同時,在第二層iframe內(nèi)嵌入至少一個其它網(wǎng)站B的鏈接,當(dāng)嵌入網(wǎng)站鏈接為多個時,并發(fā)執(zhí)行訪問嵌入的網(wǎng)站,將第一層iframe設(shè)置為可見,將第二層iframe設(shè)置為不可見;
S12 捕捉到訪問其它網(wǎng)站B的報文后,解析該報文,判斷其是否攜帶植入的統(tǒng)一 cookielD,如果沒有,在網(wǎng)站B回復(fù)之前,模擬網(wǎng)站B回復(fù)200 OK空函數(shù),即不執(zhí)行任何頁面操作,同時,在B. com域下植入所述的針對該用戶唯一的cookie或包含獲取的所述cookie ID的cookie,如果攜帶,則模擬網(wǎng)站B回復(fù)200 OK空函數(shù),即不執(zhí)行任何頁面操作。
解決了用戶身份識別問題,要實現(xiàn)用戶行為還原,如何對大量的各式各樣的報文進(jìn)行分類是本發(fā)明實施的也一個關(guān)鍵問題,本發(fā)明的報文分類模塊利用報文分類器來對報文進(jìn)行分類,該報文分類器通過如下方法構(gòu)建1.對用戶行為數(shù)據(jù)進(jìn)行收集和有效的存儲;2.對用戶數(shù)據(jù)進(jìn)行清洗,抽取用戶通訊網(wǎng)絡(luò)報文的特征,生成特征矩陣;3.使用人工方式對每個通訊網(wǎng)絡(luò)報文的類別進(jìn)行標(biāo)注,建立訓(xùn)練和評估模型性能使用的樣本;4.使用分類算法對訓(xùn)練集進(jìn)行學(xué)習(xí),在評估集上保證目標(biāo)準(zhǔn)確率和召回率,得出基本分類模型;5.進(jìn)行開放測試,通過不斷調(diào)整使模型滿足目標(biāo)準(zhǔn)確率和召回率,得出最后的模型;6.將模型用于預(yù)測通訊網(wǎng)絡(luò)報文的類別;7.在真實在線平臺上部署該系統(tǒng),通過使用,不斷的對模型進(jìn)行優(yōu)化,以提高系統(tǒng)在現(xiàn)實復(fù)雜情況下的魯棒性和模型精度。用戶還原模塊根據(jù)報文中攜帶的用戶信息來還原用戶行為,用戶信息分為兩種 用戶信息可分為如下兩種單點信息與多點信息單點信息用戶在某個時刻產(chǎn)生的信息,與一個元組{(用戶,時間點,網(wǎng)站,網(wǎng)絡(luò)報文)}相對應(yīng)。多點信息用戶在多個時間點產(chǎn)生的信息,與多個元組{(用戶,時間點1,網(wǎng)站1, 網(wǎng)絡(luò)報文1),(用戶,時間點2,網(wǎng)站2,網(wǎng)絡(luò)報文2),···}相對應(yīng)。其中多點信息可能是跨網(wǎng)信息,即可能是用戶訪問多個網(wǎng)站服務(wù)器產(chǎn)生的通信網(wǎng)絡(luò)報文信息。本發(fā)明除了可以基于單點信息的還原用戶行為外,還能基于多點信息的還原用戶行為,通常而言,單個用戶的上網(wǎng)行為是在一個時間段內(nèi)產(chǎn)生的,其所產(chǎn)生的通信網(wǎng)絡(luò)報文通常對應(yīng)于多點信息。同時,多點信息通常會對應(yīng)用戶的一個事件流。例如,用戶進(jìn)行網(wǎng)上購物時,首先會在網(wǎng)上調(diào)研欲購買物品的價格、性能等,然后選擇某購物平臺(比如淘寶網(wǎng)或京東商城)進(jìn)行相應(yīng)的物品瀏覽與購買。本發(fā)明利用用戶的事件流特征,基于多點信息還原用戶行為。用戶行為與很多因素相關(guān)聯(lián),比如用戶需求、網(wǎng)站服務(wù)器提供的服務(wù)、網(wǎng)站服務(wù)器之間的關(guān)聯(lián)度等等,這導(dǎo)致了用戶行為的多樣性與復(fù)雜性。在此,以搜索引擎查詢行為、廣告點擊行為、購物行為為例,進(jìn)行用戶行為還原分析。1)搜索引擎查詢行為部署的網(wǎng)關(guān)可獲取用戶在搜索引擎的查詢記錄示例如下(用戶A,時間點1,搜索引擎網(wǎng)址B,查詢的關(guān)鍵詞C)(用戶A,時間點2,點到的網(wǎng)址D)
基于如上信息,可以還原 用戶A的搜索引擎查詢行為,即可以知曉用戶A在時間點 1到時間點2之間使用搜索引擎B,進(jìn)行了關(guān)鍵詞C的查詢,并基于查詢結(jié)果,點到相應(yīng)的網(wǎng)址D。2)廣告點擊行為與上例相似,部署的網(wǎng)關(guān)可獲取用戶的廣告點擊記錄示例如下(用戶A,時間點1,廣告所在的網(wǎng)址B,廣告C的網(wǎng)址)(用戶A,時間點2,點到的廣告C網(wǎng)址)基于如上信息,可以還原用戶A的廣告點擊行為,即可以知曉用戶A在時間點1到時間點2之間在廣告所在的網(wǎng)址B,進(jìn)行了廣告C的點擊。3)購物行為與上例相似,部署的網(wǎng)關(guān)可獲取用戶的購物記錄示例如下(用戶A,時間點1,購物網(wǎng)址B)(用戶A,時間點2,商品名C,購物車網(wǎng)址)(用戶A,時間點3,支付頁面網(wǎng)址)基于如上信息,可以還原用戶A的購物行為,即可以知曉用戶A在時間點1到時間點3之間在購物網(wǎng)址B購買了商品C。為了更好的對網(wǎng)站網(wǎng)頁進(jìn)行評價,需要知道一些關(guān)聯(lián)關(guān)系,比如當(dāng)用戶訪問一個網(wǎng)站,為推薦其感興趣的其他同類網(wǎng)站時,需要知道網(wǎng)站-網(wǎng)站關(guān)聯(lián)關(guān)系;當(dāng)用戶搜索一個關(guān)鍵字,給他推薦更為準(zhǔn)確的相關(guān)網(wǎng)站時,需要知道網(wǎng)站-關(guān)鍵字關(guān)聯(lián)關(guān)系;當(dāng)用戶訪問某個網(wǎng)站,推薦系統(tǒng)給他推薦可能感興趣的廣告時,需要知道網(wǎng)站-廣告關(guān)聯(lián)關(guān)系,下面以分析網(wǎng)站_關(guān)鍵字維度的關(guān)聯(lián)關(guān)系為例來說明本發(fā)明的關(guān)聯(lián)分析模塊的分析方法用戶行為可分為如下三種訪問網(wǎng)站、通過搜索引擎查詢關(guān)鍵字和點擊廣告行為。訪問網(wǎng)站信息用戶在某個時刻訪問某個網(wǎng)站所產(chǎn)生的信息,對應(yīng)產(chǎn)生一條日志信息K用戶,訪問的網(wǎng)站,訪問時間)}。搜索關(guān)鍵詞信息用戶在某個時刻搜索某個關(guān)鍵字所產(chǎn)生的信息,對應(yīng)產(chǎn)生一條日志信息{(用戶,搜索的關(guān)鍵詞,搜索時間)}。點擊廣告信息用戶在某個時刻點擊某個廣告所產(chǎn)生的信息,對應(yīng)產(chǎn)生一條日志信息{(用戶,點擊的廣告,點擊時間)}。此方法的數(shù)據(jù)來源是用戶訪問網(wǎng)站信息和搜索關(guān)鍵詞信息,通過對這兩個信息的綜合分析得到訪問某個網(wǎng)站的的人群更傾向于搜索哪些關(guān)鍵詞。下面通過五個MapReduce 程序的說明來闡述此維度的關(guān)聯(lián)分析方法。Jobl從訪問網(wǎng)站的日志信息{(用戶,訪問的網(wǎng)站,訪問時間)}得到這個用戶訪問了哪些網(wǎng)站、何時訪問網(wǎng)站的列表信息K用戶,訪問的網(wǎng)站列表,訪問時間列表)};從搜索關(guān)鍵詞信息K用戶,搜索的關(guān)鍵詞,搜索時間)}得到這個用戶搜索了哪些關(guān)鍵詞以及何時搜索該關(guān)鍵詞的列表信息K用戶,搜索的關(guān)鍵詞列表,搜索時間列表)}Job2從Jobl我們得到每個用戶的一系列上網(wǎng)行為信息,這些信息包括用戶訪問的所有網(wǎng)站和搜索的所有關(guān)鍵詞以及這些行為發(fā)生的時間。在第二個Job里面,我們根據(jù)每一個用戶的用戶號進(jìn)行關(guān)聯(lián)得到網(wǎng)站和關(guān)鍵詞的對應(yīng)信息{(訪問的網(wǎng)站,搜索的關(guān)鍵詞)}。 其中這些對應(yīng)關(guān)系加上了時間窗口(如IHour)的限制,因為一個用戶在瀏覽網(wǎng)頁時有時會刷新網(wǎng)頁,在這里我們只計算一次,即一個時間段內(nèi)用戶訪問了多次某個網(wǎng)站和搜索了某個關(guān)鍵詞時只算一次。Job3
第三個Job比較簡單,主要是統(tǒng)計訪問網(wǎng)站和關(guān)鍵詞的頻次,得到的數(shù)據(jù)如下 {(訪問的網(wǎng)站,搜索的關(guān)鍵詞,兩者出現(xiàn)的頻次)}Job4得到了網(wǎng)站和相應(yīng)的關(guān)鍵詞信息后,就可以統(tǒng)計兩者之間的相關(guān)性了。這個Job 可以得到如下的數(shù)據(jù)信息K訪問的網(wǎng)站,搜索的關(guān)鍵詞,關(guān)鍵詞出現(xiàn)的頻次n,網(wǎng)站和關(guān)鍵詞都出現(xiàn)的頻次m,兩者的比例r (m/n) )}。r反映了這個關(guān)鍵詞在多大程度上與目標(biāo)網(wǎng)站的相關(guān)聯(lián),即訪問某個網(wǎng)站的人更傾向搜索某些關(guān)鍵詞的程度。Job5上面得到的信息中一個網(wǎng)站可能會在多行出現(xiàn),為了得出的結(jié)果更于方便查看, 我們在最后的job里面合并這些網(wǎng)站,并且統(tǒng)計出該網(wǎng)站出現(xiàn)的頻次{(訪問的網(wǎng)站,該網(wǎng)站出現(xiàn)的頻次,搜索的關(guān)鍵詞1,關(guān)鍵詞出現(xiàn)的頻次nl,網(wǎng)站和關(guān)鍵詞都出現(xiàn)的頻次ml,兩者的比例rl(ml/nl) |搜索的關(guān)鍵詞2,關(guān)鍵詞出現(xiàn)的頻次n2,網(wǎng)站和關(guān)鍵詞都出現(xiàn)的頻次 m2,兩者的比例r2 (m2/n2)…)}網(wǎng)站-廣告和網(wǎng)站_網(wǎng)站維度的關(guān)聯(lián)分析方法跟網(wǎng)站_關(guān)鍵詞的分析方法是一樣的,只不過是把關(guān)鍵詞換成廣告或者網(wǎng)站就可以得出相應(yīng)維度的關(guān)聯(lián)數(shù)據(jù)了,在此不再贅述。
權(quán)利要求
1.基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,包括 用于將原始報文數(shù)據(jù)進(jìn)行歸類的報文分類模塊;用于通過對原始報文數(shù)據(jù)進(jìn)行挖掘、識別用戶身份的用戶身份識別模塊; 用于根據(jù)報文分類模塊分類后的報文及用戶身份識別模塊識別出的用戶身份信息,對用戶在互聯(lián)網(wǎng)上的行為進(jìn)行還原的用戶行為還原模塊;用于存儲所述行為還原模塊還原的用戶行為的用戶行為庫;提取用戶行為庫中的用戶行為根據(jù)相關(guān)網(wǎng)站、網(wǎng)頁進(jìn)行統(tǒng)計整合的網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊;用于根根網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊處理過的信息從多個維度統(tǒng)計網(wǎng)站網(wǎng)頁上各個用戶行為的執(zhí)行次數(shù),從而實現(xiàn)對網(wǎng)站網(wǎng)頁的評價的網(wǎng)站網(wǎng)頁評價模塊。
2.根據(jù)權(quán)利要求1所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,還包括關(guān)聯(lián)分析模塊用于提取用戶行為庫中的用戶行為,采用關(guān)聯(lián)分析的方法進(jìn)行對分析, 得出與網(wǎng)站或網(wǎng)頁相關(guān)聯(lián)的用戶行為;分類模塊用于提取關(guān)聯(lián)分析模塊提供網(wǎng)站網(wǎng)頁關(guān)聯(lián)的用戶行為,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行分類,得出網(wǎng)站網(wǎng)頁所屬的類別;所述的分類模塊將分析得到的網(wǎng)站網(wǎng)頁所屬類別傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。
3.根據(jù)權(quán)利要求2所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,還包括聚類模塊通過關(guān)聯(lián)分析模塊提供的與網(wǎng)站網(wǎng)頁關(guān)聯(lián)的用戶行為,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁;所述的聚類模塊將分析得到的與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。
4.根據(jù)權(quán)利要求1所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,還包括搜索關(guān)鍵詞提取模塊通過提取用戶行為庫中的搜索點擊行為,分析搜索引擎帶到某個具體網(wǎng)站的點擊行為;分類模塊用于將通過搜索關(guān)鍵詞提取模塊提取的搜索關(guān)鍵詞,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行分類,得出網(wǎng)站網(wǎng)頁所屬的類別;所述的分類模塊將分析得到的網(wǎng)站網(wǎng)頁所屬類別傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。
5.根據(jù)權(quán)利要求4所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,還包括聚類模塊用于將通過搜索關(guān)鍵詞提取模塊提取的搜索關(guān)鍵詞,作為網(wǎng)站網(wǎng)頁特征向量的一部分,然后用數(shù)學(xué)模型對網(wǎng)站進(jìn)行聚類,找出與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁;所述的聚類模塊將分析得到的與目標(biāo)網(wǎng)站網(wǎng)頁相似的網(wǎng)站網(wǎng)頁傳遞給網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊進(jìn)行整合,并由網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊將整合后的數(shù)據(jù)傳遞給網(wǎng)站網(wǎng)頁評價模塊,用于其對網(wǎng)站網(wǎng)頁進(jìn)行評價。
6.根據(jù)權(quán)利要求1所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,還包括關(guān)聯(lián)分析模塊用于提取用戶行為庫中的用戶行為,采用關(guān)聯(lián)分析的方法進(jìn)行對分析, 得出與網(wǎng)站或網(wǎng)頁相關(guān)聯(lián)的用戶行為,具體包括用戶與網(wǎng)站關(guān)系信息;搜索關(guān)鍵詞提取模塊通過提取用戶行為庫中的搜索點擊行為,分析搜索引擎帶到某個具體網(wǎng)站的點擊行為,得到查詢詞網(wǎng)站關(guān)系信息;分類模塊基于所述的查詢詞網(wǎng)站關(guān)系,利用網(wǎng)站分類器對網(wǎng)站進(jìn)行分類; 用戶興趣挖掘模塊通過用戶與網(wǎng)站關(guān)系信息及網(wǎng)站分類信息,對用戶進(jìn)行興趣分析, 得到用戶在每個類別上的頻次信息,作為用戶興趣的特征數(shù)據(jù);所述的用戶興趣挖掘模塊,將得到的用戶興趣的特征數(shù)據(jù)發(fā)送給網(wǎng)站網(wǎng)頁信息統(tǒng)計這個整合模塊進(jìn)行整合處理,所述的網(wǎng)站網(wǎng)頁評價模塊調(diào)用經(jīng)整合處理的數(shù)據(jù)進(jìn)行網(wǎng)站網(wǎng)頁評價。
7.根據(jù)權(quán)利要求1至6任一所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特征在于,所述的身份識別模塊通過識別報文數(shù)據(jù)中是否攜帶的在用戶客戶端多個網(wǎng)站域下植入的統(tǒng)一的cookie來識別用戶身份。
8.根據(jù)權(quán)利要求1至6任一所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特在于, 所述的報文分類模塊通過將報文數(shù)據(jù)輸入報文分類器,有報文分類器計算得到將報文進(jìn)行分類,所述的報文分類器中對應(yīng)設(shè)置有報文類型及其對應(yīng)的報文特征。
9.根據(jù)權(quán)利要求1至6任一所述的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),其特在于, 所述的關(guān)聯(lián)分析模塊根據(jù)用戶訪問網(wǎng)站的日志信息,得到網(wǎng)站-關(guān)鍵詞維度、網(wǎng)站-廣告維度、網(wǎng)站-網(wǎng)站維度的關(guān)聯(lián)關(guān)系。
全文摘要
本發(fā)明公開了一種基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng),包括報文分類模塊、用戶身份識別模塊,用于根據(jù)分類后的報文及用戶身份信息對用戶在互聯(lián)網(wǎng)上的行為進(jìn)行還原的用戶行為還原模塊;用于存儲行為還原模塊還原的用戶行為的用戶行為庫;提取用戶行為庫中的用戶行為根據(jù)相關(guān)網(wǎng)站、網(wǎng)頁進(jìn)行統(tǒng)計整合的網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊;用于根根網(wǎng)站網(wǎng)頁信息統(tǒng)計整合模塊處理過的信息從多個維度統(tǒng)計網(wǎng)站網(wǎng)頁上各個用戶行為的執(zhí)行次數(shù),從而實現(xiàn)對網(wǎng)站網(wǎng)頁的評價的網(wǎng)站網(wǎng)頁評價模塊。本發(fā)明的基于通訊網(wǎng)絡(luò)報文的網(wǎng)站網(wǎng)頁評價系統(tǒng)的基于報文的分析方式,可以還原出用戶對網(wǎng)站網(wǎng)頁的各種訪問行為,進(jìn)行統(tǒng)計分析,對網(wǎng)站網(wǎng)頁進(jìn)行評價。
文檔編號G06F17/30GK102289447SQ201110162100
公開日2011年12月21日 申請日期2011年6月16日 優(yōu)先權(quán)日2011年6月16日
發(fā)明者劉書良, 劉生, 姚震環(huán), 張玉波, 李娜, 王琪, 羅峰, 閻飛飛, 黃蘇支 申請人:北京億贊普網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鲁山县| 上犹县| 丽江市| 乌鲁木齐市| 弥渡县| 托克托县| 苍南县| 犍为县| 普兰县| 曲阜市| 霍城县| 旺苍县| 福贡县| 循化| 九江县| 新巴尔虎左旗| 酉阳| 长子县| 屏南县| 郓城县| 五原县| 财经| 彭水| 泸溪县| 逊克县| 报价| 大丰市| 泊头市| 屯昌县| 新巴尔虎右旗| 迁西县| 咸丰县| 盐边县| 西城区| 阿城市| 南溪县| 上杭县| 延吉市| 拜城县| 寿光市| 韩城市|