欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種少數(shù)類用戶網絡訪問特征的選取方法

文檔序號:10594208閱讀:280來源:國知局
一種少數(shù)類用戶網絡訪問特征的選取方法
【專利摘要】本發(fā)明公開了一種少數(shù)類用戶網絡訪問特征的選取方法,涉及大數(shù)據(jù)分析領域,包括如下步驟:首先,從網關服務器下載日志,統(tǒng)計真實用戶的網絡訪問數(shù)據(jù),并組成初始數(shù)據(jù)集;其次,創(chuàng)建N名少數(shù)類的虛擬用戶,構建虛擬數(shù)據(jù)集;再次,對虛擬數(shù)據(jù)集進行相關性分析,選取出與少數(shù)類用戶顯著相關的訪問特征;最后,進行因子分析,進一步降低特征維數(shù)。本發(fā)明通過創(chuàng)建虛擬用戶,自動平衡少數(shù)類用戶的比例,使得在目標用戶人數(shù)占比很小時,依然可以提取的網絡訪問特征。
【專利說明】
-種少數(shù)類用戶網絡訪問特征的選取方法
技術領域
[0001] 本發(fā)明設及大數(shù)據(jù)分析領域,尤其設及一種少數(shù)類用戶網絡訪問特征的選取方 法。
【背景技術】
[0002] 隨著互聯(lián)網技術的流行,互聯(lián)網用戶的數(shù)量已經越來越龐大。網絡已經滲入了生 活的方方面面,因此對用戶的網絡行為進行分析是十分有意義的,它可W有助于理解用戶, 為開展決策提供科學的依據(jù)。例如,在電商領域,分析用戶的購買行為可W實現(xiàn)商品廣告的 精準投放;在教育領域,分析青少年的上網行為,可W及時矯正他們的不良網絡訪問;在信 息安全領域,檢測用戶的上網行為,可W及時阻止非法用戶的訪問。選取最能表達用戶網絡 行為的網絡訪問特征,是用戶行為分析過程中必不可少的,也是最重要的環(huán)節(jié)。
[0003] 目前的研究中最常見的用戶網絡訪問特征是訪問不同類型網址的頻次和時間。運 些特征的個數(shù)都是非常多的,有必要從中選取重要的特征來達到降低維數(shù)的目的?,F(xiàn)有的 研究選取特征的方法有很多,例如相關性分析就是一種簡單快速易執(zhí)行的特征選取方法。 但目前的特征選擇算法往往都沒有考慮到目標用戶屬于少數(shù)類用戶的情況,也就是說占全 體用戶的比例非常少,如瀏覽過某商品廣告的大量用戶中只有少部分用戶愿意購買。在運 種情況下,因為人數(shù)比例的不均衡,會造成選取的特征不夠全面,不能完全表達目標用戶的 訪問信息。因此如何在少數(shù)類用戶占全體比例很小的情況下,自適應地從大量的網絡訪問 特征中選取出重要的特征,就顯得非常具有研究意義和應用價值。

【發(fā)明內容】

[0004] 有鑒于現(xiàn)有技術的上述缺陷,本發(fā)明所要解決的技術問題是提供一種少數(shù)類用戶 網絡訪問特征的選取方法,能夠在少數(shù)類用戶占全體比例很小的情況下,自適應地從大量 的網絡訪問特征中選取出重要的特征。
[0005] 為實現(xiàn)上述目的,本發(fā)明提供了一種少數(shù)類用戶網絡訪問特征的選取方法,其特 征在于,包括如下步驟:
[0006] 步驟一、從網關服務器下載日志,統(tǒng)計真實用戶的網絡訪問數(shù)據(jù),并組成初始數(shù)據(jù) 集;其中,初始數(shù)據(jù)集的維數(shù)是m X d,m是總人數(shù),d是特征數(shù)目,初始數(shù)據(jù)集的數(shù)據(jù)包含有符 合指數(shù)分布的數(shù)據(jù);
[0007] 步驟二、創(chuàng)建N名少數(shù)類的虛擬用戶,構建虛擬數(shù)據(jù)集;其中,虛擬數(shù)據(jù)集的維度為 (m+N) XcU虛擬數(shù)據(jù)集與初始數(shù)據(jù)集的數(shù)據(jù)滿足概率同分布;
[000引步驟=、對虛擬數(shù)據(jù)集進行相關性分析,選取出與少數(shù)類用戶顯著相關的訪問特 征。
[0009] 進一步而言,一種少數(shù)類用戶網絡訪問特征的選取方法還包含步驟四:對已進行 相關性分析的虛擬數(shù)據(jù)集進行因子分析,進一步降低特征維數(shù)。
[0010] 進一步而言,步驟二具體包括:
[oow AO、標記少數(shù)類用戶Si,其中1£[1,9],9是少數(shù)類用戶的總人數(shù);
[0012] A1、計算每個特征的均值Jij, JG [l,d];
[0013] A2、計算需要創(chuàng)建的虛擬少數(shù)類用戶的總人數(shù):N=m-p;
[0014] A3、判斷P是否大于1,如果是,則繼續(xù)執(zhí)行A4,否則直接復制N名Si并執(zhí)行所述步驟
-* ? -?,
[0015] A4、計算每名真實少數(shù)類用戶需對應虛擬的人i 巧表了向下取整運 算;
[0016] A5、按照指數(shù)分布對Si增加 n名虛擬用戶。
[0017] 進一步而言,在步驟二的A5步驟中,具體包括如下:
[001引B0、判斷i是否超過真實少數(shù)類用戶人數(shù),如果是,則終止,否則繼續(xù)執(zhí)行;
[0019] 61、執(zhí)行1 = 1+1;
[0020] B2、判斷對Si創(chuàng)建的虛擬用戶人數(shù)是否超過n,如果沒有則繼續(xù)B3,否則跳轉BO繼 續(xù)執(zhí)行;
[0021] B3、找到min(p-l,5)名和其歐式距離最小的真實的少數(shù)類用戶;
[0022] B4、隨機選取min(p-l ,5)名用戶中的一名,記作鮮,kG [1 ,min(p-l ,5)];
[0023] B5、生成一個隨機數(shù)R,且R~U(0,1);
[0024] B6、創(chuàng)建虛擬用戶S^i,所述虛擬用戶的第j個特征S'i(j),表示為:
[0025]
[0026] 其中 jE[l,d];
[0027] B7、組合運些特征,獲得新創(chuàng)建的虛擬用戶的特征集合為:
[0028] S'i=[S'i(l),S'i(2),. . .,S'i(j),. . .,S'i(d)]。
[0029] 進一步而言,在步驟=中,所述相關性分析為簡單相關分析,其相關系數(shù)為皮爾森 相關系數(shù),顯著水平為0.05;輸出的顯著特征集合為[Sigi,Sig2, . . .,Sigs],其中S是顯著相 關的特征數(shù)目,Sigs是顯著相關的特征。
[0030] 進一步而言,步驟四具體包括:
[0031 ] Cl、計算Badlett統(tǒng)計量和KMO統(tǒng)計量;
[0032] C2、判斷Badlett統(tǒng)計量是否小于0.05并且KMO統(tǒng)計量是否小于0.5,如果否,則繼 續(xù)執(zhí)行,否則終止;
[0033] C3、選擇特征根大于1的公因子,所述公因子包含有若干少數(shù)類用戶網絡訪問的同 類特征;
[0034] C4、使用最大方差法進行因子軸的旋轉,凸顯少數(shù)類用戶網絡訪問特征。
[0035] 本發(fā)明的有益效果是:本發(fā)明能通過創(chuàng)建虛擬用戶,自動平衡少數(shù)類用戶的比例, 保證新增的虛擬用戶后,各個特征依然服從原有的指數(shù)分布,達到自適應提取少數(shù)類用戶 網絡訪問行為的特征的目的。
【附圖說明】
[0036] 圖1是本發(fā)明實施例一的流程示意圖;
[0037] 圖2是創(chuàng)建學業(yè)困難大學生虛擬用戶的流程示意圖;
[0038] 圖3是基于指數(shù)分布創(chuàng)建虛擬用戶的流程示意圖;
[0039] 圖4是因子分析法的流程示意圖。
【具體實施方式】
[0040] 下面結合附圖和實施例對本發(fā)明作進一步說明:
[0041] 本實施例W學業(yè)困難大學生為少數(shù)類,利用本發(fā)明分析其網絡訪問特征。
[0042] 如圖1至圖4所示,本實施例提供一種學業(yè)困難大學生網絡訪問特征的選取方法, 包括如下步驟:
[0043] 步驟一、從網關服務器下載日志,統(tǒng)計全體學生的網絡訪問數(shù)據(jù),并組成初始數(shù)據(jù) 集;在數(shù)據(jù)集中,包含有非學業(yè)困難大學生W及少數(shù)學業(yè)困難大學生。從網關服務器下載日 志包含有U化、學號等。主要分析學業(yè)困難大學生訪問網絡類型、網絡訪問頻次、網絡訪問時 長等。初始數(shù)據(jù)集的維數(shù)是mXd,m是總學生數(shù),d是特征數(shù)目,特征主要包括頻次、訪問時長 等。值得一提的是,頻次特征、訪問時長特征是符合指數(shù)分布的。此外,為了降低數(shù)據(jù)分析工 作量,通常按不同類型網址,對頻次和時間特征進行統(tǒng)計。一般網站可分為大型口戶網站、 行業(yè)網站、交易類網站、分類信息網站、論壇、政府網站、功能性質網站、娛樂類型網站、企業(yè) 網站等。
[0044] 步驟二、創(chuàng)建N名學業(yè)困難大學生虛擬用戶(少數(shù)類),構建虛擬數(shù)據(jù)集;m名真實用 戶和N名學業(yè)困難大學生虛擬用戶構成維度為(m+N) Xd的虛擬數(shù)據(jù)集。通過創(chuàng)建學業(yè)困難 大學生虛擬用戶,少數(shù)類數(shù)量將增大并加入數(shù)據(jù)集,有助于對其網絡訪問特征的提取。值得 一提的是,所創(chuàng)建的學業(yè)困難大學生虛擬用戶,其特征應與真實用戶的數(shù)據(jù)是滿足概率同 分布。示例性的,網絡訪問的頻次和訪問時長是無記憶性的,滿足指數(shù)分布,即新創(chuàng)建的虛 擬學業(yè)困難大學也應該滿足真實學業(yè)困難大學生指數(shù)分布。
[0045] 具體而言,如圖2所示W分析學業(yè)困難大學生網絡訪問特征,步驟二包括:
[0046] A0、標記真實的學業(yè)困難大學生用戶Si,其中i G [l,p],p是真實的學業(yè)困難大學 生用戶的總人數(shù);
[0047] A1、計算每個特征的均值Jij, JG [l,d];
[004引A2、計算需要創(chuàng)建的學業(yè)困難大學生虛擬用戶的總人數(shù):N=m-p;
[0049] A3、判斷P是否大于1,如果是,則繼續(xù)執(zhí)行A4,否則直接復制N名Si并執(zhí)行所述步驟 -* ? -?,
[0050] A4、計算每名真實學業(yè)困難大學生需對應虛擬用戶的人i
'戈表了向 下取整運算;
[0051] A5、按照指數(shù)分布對Si增加 n名學業(yè)困難大學生虛擬用戶;
[0052] 進一步而言,如圖3所示,A5所述的按照指數(shù)分布對Si增加 n名學業(yè)困難大學生虛 擬用戶的具體步驟如下:
[0053] B0、判斷i是否超過真實學業(yè)困難大學生用戶人數(shù),如果是,則終止,否則繼續(xù)執(zhí)行 BI;
[0化4] 61、執(zhí)行1 = 1+1;
[0055] B2、判斷對Si創(chuàng)建的學業(yè)困難大學生虛擬人數(shù)是否超過n,如果沒有則繼續(xù)B3,否 則跳轉BO繼續(xù)執(zhí)行;
[0056] B3、找到min(p-l,5)名和其歐式距離最小的真實的學業(yè)困難大學生;
[0化7] B4、隨機選取min(p-l,5)名用戶中的一名,記作鱗,kG[l,min(p-l,5)];
[0化引 65、生成一個隨機數(shù)1?,且1?~1](0,1);
[0059] B6、要保證創(chuàng)建學業(yè)困難大學生虛擬用戶少1后,所有學業(yè)困難大學生依然服從相 同的指數(shù).那/乂對豐倍個時征j而言,應該滿足:
[0060] (1)
[0061] 使用指數(shù)分布的分布函數(shù)求解(1)式,可得到新創(chuàng)建的學業(yè)困難大學生虛擬用戶 的第j個特征S'i(j),可W表示如下:
[0062]
^2)
[006;3]其中 jE[l,d]
[0064] B7、組合運些特征,獲得新創(chuàng)建的學業(yè)困難大學生虛擬用戶的特征集合為:
[00化]S'i=[S'i(l),S'i(2),...,S'i(j),...,S'i(d)] (3)
[0066] 步驟=、對虛擬數(shù)據(jù)集進行相關性分析,選取出與學業(yè)困難大學生顯著相關的訪 問特征。
[0067] 在本實施例中,采用簡單相關分析,其相關系數(shù)為皮爾森相關系數(shù),顯著水平為 0.05;輸出的顯著特征集合為[Sigi,Sig2, . . .,Sigs],其中S是顯著相關的特征數(shù)目,Sigs是 顯著相關的特征。
[0068] 步驟四、進行因子分析,進一步降低學業(yè)困難大學生特征維數(shù),具體包括:
[0069] Cl、計算Ba;rtlett統(tǒng)計量和KMO統(tǒng)計量;
[0070] C2、判斷Badlett統(tǒng)計量是否小于0.05并且KMO統(tǒng)計量是否小于0.5,如果否,則繼 續(xù)執(zhí)行,否則終止;
[0071] C3、選擇特征根大于1的公因子,每個公因子包含有少數(shù)類用戶網絡訪問的同類特 征,運些公因子是對特征的分類,每一個公因子代表了影響學生學業(yè)的一類特征;
[0072] C4、使用最大方差法進行因子軸的旋轉,凸顯少數(shù)類用戶網絡訪問特征,使獲得的 公因子可解釋性更加明顯,幫助理解影響大學生學業(yè)的主要因素。
[0073] 綜上,本實施例通過創(chuàng)建學業(yè)困難大學生虛擬用戶,自動平衡少數(shù)類用戶的比例, 同時也保證新增的虛擬用戶后,所有學業(yè)困難大學生虛擬用戶的各個特征依然服從原有的 指數(shù)分布,達到自適應提取少數(shù)類用戶網絡訪問行為的特征的目的。本實施例雖然是W學 業(yè)困難大學生為少數(shù)類并分析網絡訪問行為,同樣適用于其它少數(shù)類網絡訪問行為研究案 例,運里不再寶述。
[0074] W上詳細描述了本發(fā)明的較佳具體實施例。應當理解,本領域的普通技術人員無 需創(chuàng)造性勞動就可W根據(jù)本發(fā)明的構思作出諸多修改和變化。因此,凡本技術領域中技術 人員依本發(fā)明的構思在現(xiàn)有技術的基礎上通過邏輯分析、推理或者有限的實驗可W得到的 技術方案,皆應在由權利要求書所確定的保護范圍內。
【主權項】
1. 一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于,包括如下步驟: 步驟一、從網關服務器下載日志,統(tǒng)計真實用戶的網絡訪問數(shù)據(jù),并組成初始數(shù)據(jù)集; 其中,所述初始數(shù)據(jù)集的維數(shù)是m X d,m是總人數(shù),d是特征數(shù)目,所述初始數(shù)據(jù)集的數(shù)據(jù)包 含有符合指數(shù)分布的數(shù)據(jù); 步驟二、創(chuàng)建N名少數(shù)類的虛擬用戶,構建虛擬數(shù)據(jù)集;其中,所述虛擬數(shù)據(jù)集的維度為 (m+N)Xd,所述虛擬數(shù)據(jù)集與初始數(shù)據(jù)集的數(shù)據(jù)滿足概率同分布; 步驟三、對虛擬數(shù)據(jù)集進行相關性分析,選取出與少數(shù)類用戶顯著相關的訪問特征。2. 如權利要求1所述的一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于,所述選 取方法還包含步驟四:對已進行相關性分析的虛擬數(shù)據(jù)集進行因子分析,進一步降低特征 維數(shù)。3. 如權利要求1所述的一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于,所述步 驟二具體包括: A0、標記所述少數(shù)類用戶&,其中1£[1,1)],1)是所述少數(shù)類用戶的總人數(shù); A1、計算每個特征的均值μ」,j e [ 1,d]; A2、計算需要創(chuàng)建的所述虛擬少數(shù)類用戶的總人數(shù):N=m-p; A3、判斷p是否大于1,如果是,則繼續(xù)執(zhí)行A4,否則直接復制并執(zhí)行所述步驟三; A4、計算每名真實少數(shù)類用戶需對應虛擬的人數(shù)《 = μν/戶」; Α5、按照指數(shù)分布對&增加η名所述虛擬用戶。4. 如權利要求3所述的一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于:Α5所述 的按照指數(shù)分布對Si增加η名虛擬用戶的具體步驟如下: Β0、判斷i是否超過所述真實少數(shù)類用戶人數(shù),如果是,則終止,否則繼續(xù)執(zhí)行; Bl、iRi = i+l; B2、判斷對Sjij建的虛擬用戶人數(shù)是否超過n,如果沒有則繼續(xù)B3,否則跳轉BO繼續(xù)執(zhí) 行; B3、找到min(p-l,5)名和其歐式距離最小的真實的少數(shù)類用戶; B4、隨機選取min(p-l,5)名用戶中的一名,記作Sf[1,min(p-l,5)]; B5、生成一個隨機數(shù)R,且R~U(0,1); B6、創(chuàng)建虛擬用戶S',所述虛擬用戶的第j個特征S\(j),表示為: 其中 je[l,d];B7、組合這些特征,獲得新創(chuàng)建的虛擬用戶的特征集合為:5. 如權利要求1所述的一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于:在所述 步驟三中,所述相關性分析為簡單相關分析,其相關系數(shù)為皮爾森相關系數(shù),顯著水平為 0.05;輸出的顯著特征集合為[Sigl,Sig2,. . .,Sigs],其中s是顯著相關的特征數(shù)目,Sigs是 顯著相關的特征。6. 如權利要求2所述的一種少數(shù)類用戶網絡訪問特征的選取方法,其特征在于,所述步 驟四按以下步驟進行: C1、計算Bartlett統(tǒng)計量和KMO統(tǒng)計量; C2、判斷Bartlett統(tǒng)計量是否小于0.05并且KMO統(tǒng)計量是否小于0.5,如果否,則繼續(xù)執(zhí) 行步驟C3,否則終止; C3、選擇特征根大于1的公因子,所述公因子包含有若干少數(shù)類用戶網絡訪問的同類特 征; C4、使用最大方差法進行因子軸的旋轉,凸顯少數(shù)類用戶網絡訪問特征。
【文檔編號】G06F17/30GK105956187SQ201610394392
【公開日】2016年9月21日
【申請日】2016年6月3日
【發(fā)明人】牟超, 周慶, 胡月, 孫啟亮, 孟瑤, 全文君, 廖鳳露, 尹春梅
【申請人】重慶大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
镇坪县| 泾阳县| 桂平市| 潜山县| 沧州市| 灌云县| SHOW| 峨边| 金乡县| 琼中| 乐至县| 平山县| 从化市| 嘉兴市| 改则县| 阳信县| 井研县| 芷江| 镇巴县| 扬中市| 进贤县| 泌阳县| 苏州市| 沿河| 民勤县| 嘉鱼县| 常德市| 云霄县| 新郑市| 平定县| 论坛| 乌拉特前旗| 广饶县| 平舆县| 大港区| 韩城市| 龙游县| 阿拉善右旗| 平乡县| 平昌县| 桐庐县|