欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種生成網(wǎng)吧ip數(shù)據(jù)庫的方法及裝置制造方法

文檔序號:6489344閱讀:183來源:國知局
一種生成網(wǎng)吧ip數(shù)據(jù)庫的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法及裝置,該方法包括:從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內統(tǒng)計各IP地址的網(wǎng)吧IP特征;判斷各IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略,如果滿足則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。該方法及裝置簡單且不需要專業(yè)人員經過長時間通過多種手段的收集,并能夠保證網(wǎng)吧IP數(shù)據(jù)庫數(shù)據(jù)的可靠性和時效性。
【專利說明】—種生成網(wǎng)吧IP數(shù)據(jù)庫的方法及裝置
【技術領域】
[0001]本發(fā)明涉及通信領域,具體涉及一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法及裝置。
【背景技術】
[0002]IP(Internet Protocol,網(wǎng)絡協(xié)議)是為計算機網(wǎng)絡相互連接進行通信而設計的協(xié)議,是為了使連接到因特網(wǎng)上的所有計算機實現(xiàn)相互通信的一套規(guī)則。每個連接在因特網(wǎng)上的一臺計算機都會被分配一個或多個IP地址用于在網(wǎng)絡上進行通訊。全球的IP地址在從國家往下逐級分配的過程中產生了很強的地域性,因此IP地址經常被用于地域定位,例如互聯(lián)網(wǎng)廣告的地域定向投放,用戶定制的本地新聞推送或其他地域定向服務。
[0003]網(wǎng)吧是面向公眾的營利性上網(wǎng)服務提供場所,社會公眾可利用網(wǎng)吧內的電腦及其他上網(wǎng)接入設備等進行網(wǎng)頁瀏覽、學習、網(wǎng)游、聊天、視頻或其他網(wǎng)絡活動。網(wǎng)吧上網(wǎng)的人群結構具有鮮明的特點,例如以年輕人為主、男性較多、上網(wǎng)時間較穩(wěn)定、興趣愛好相近、喜愛游戲、消費取向集中等等。因此,針對網(wǎng)吧的商業(yè)定向,例如網(wǎng)吧定向的廣告投放,是非常具有價值的。目前,國內絕大部分正規(guī)網(wǎng)吧在向網(wǎng)絡運營商申請連接因特網(wǎng)時,都會申請使用固定的外網(wǎng)IP地址。這使得網(wǎng)吧定向的解決方案可以參考地域定向,基于上網(wǎng)行為發(fā)生時的IP地址來實現(xiàn)。
[0004]基于IP地址的網(wǎng)吧定向需要使用網(wǎng)吧IP數(shù)據(jù)庫,網(wǎng)吧IP數(shù)據(jù)庫是一張存放了大量的網(wǎng)吧IP地址的列表,每個IP地址代表著使用這個IP上網(wǎng)的電腦屬于某個網(wǎng)吧。網(wǎng)吧IP數(shù)據(jù)庫一般是由專業(yè)技術人員經過長時間通過多種手段收集而來的,例如,在運營商處申請網(wǎng)絡服務時登記的網(wǎng)吧IP地址,正在網(wǎng)吧上網(wǎng)的人即時分享的IP地址以及其他獲取方式。然而,由于中國各級網(wǎng)絡運營商構成的復雜性,想從所有運營商處獲取所有的網(wǎng)吧IP地址幾乎是不可能的。而互聯(lián)網(wǎng)用戶分享的網(wǎng)吧IP地址也局限于愿意分享IP地址和地理信息的用戶的數(shù)量,并且這種由非專業(yè)人員提供的信息的可靠性也有不足。此外,由于現(xiàn)實生活中舊網(wǎng)吧的不斷關閉和新網(wǎng)吧的不斷開啟,網(wǎng)吧IP地址還存在時效性的問題。
[0005]所以,急需提出一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法,簡單且不需要專業(yè)人員經過長時間通過多種手段的收集,并能夠保證網(wǎng)吧IP數(shù)據(jù)庫數(shù)據(jù)的可靠性和時效性。

【發(fā)明內容】

[0006]本發(fā)明需要解決的技術問題是提供一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法及裝置,簡單且不需要專業(yè)人員經過長時間通過多種手段的收集,并能夠保證網(wǎng)吧IP數(shù)據(jù)庫數(shù)據(jù)的可靠性和時效性。
[0007]為了解決上述技術問題,本發(fā)明提供了一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法,包括:
[0008]從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;
[0009]根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各IP地址的網(wǎng)吧IP特征;[0010]對于各IP地址,分別根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
[0011]進一步地,所述IP地址的網(wǎng)吧IP特征,包括以下一個或多個:
[0012]曾經使用過該IP地址的每個Cookie的存活時間;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔;
[0013]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù);
[0014]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例;
[0015]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例;
[0016]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
[0017]進一步地,所述根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址的步驟包括以下一種或多種情況:
[0018]如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0019]如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0020]如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0021]如果曾經使用過該IP地址的所有Cookie在所述全部行為日志時間范圍內從凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0022]如果曾經使用過該IP地址的所有Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0023]如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址;
[0024]其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的所有的Cookie。
[0025]進一步地,所述機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。
[0026]進一步地,所述方法還包括:
[0027]每隔一段固定的時間,重新在所述全部行為日志時間范圍內提取Cookie,按照如權利要求1所述的方法重新生成新的網(wǎng)吧IP數(shù)據(jù)庫。
[0028]為了解決上述技術問題,本發(fā)明還提供了一種生成網(wǎng)吧IP數(shù)據(jù)庫的裝置,包括:
[0029]Cookie網(wǎng)絡行為信息獲取模塊,用于從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;
[0030]IP地址特征統(tǒng)計模塊,用于根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各IP地址的網(wǎng)吧IP特征;
[0031]網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于對于各IP地址,分別根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
[0032]進一步地,所述IP地址的網(wǎng)吧IP特征,包括以下一個或多個:
[0033]曾經使用過該IP地址的每個Cookie的存活時間;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔;
[0034]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù);
[0035]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例;
[0036]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例;
[0037]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
[0038]進一步地,所述網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,包括以下一種或多種情況:
[0039]如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0040]如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0041]如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0042]如果曾經使用過該IP地址的所有Cookie在所述全部行為日志時間范圍內從凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0043]如果曾經使用過該IP地址的所有Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0044]如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址;
[0045]其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的所有的Cookie。
[0046]進一步地,所述機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。[0047]與現(xiàn)有技術相比,本發(fā)明提供的生成網(wǎng)吧IP數(shù)據(jù)庫的方法及裝置,簡單且不需要專業(yè)人員經過長時間通過多種手段的收集,并能夠保證網(wǎng)吧IP數(shù)據(jù)庫數(shù)據(jù)的可靠性和時效性。
【專利附圖】

【附圖說明】
[0048]圖1是實施例中生成網(wǎng)吧IP數(shù)據(jù)庫的方法流程圖;
[0049]圖2是一個應用示例中基于機器學習來判斷所述IP地址是否為網(wǎng)吧IP地址的流程圖;
[0050]圖3是實施例中生成網(wǎng)吧IP數(shù)據(jù)庫的裝置的結構圖;
[0051]圖4是一個應用示例中生成網(wǎng)吧IP數(shù)據(jù)庫的方法圖。
【具體實施方式】
[0052]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下文中將結合附圖對本發(fā)明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0053]實施例:
[0054]如圖1所示,本實施例提供了一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法,包括以下步驟:
[0055]SlOl:從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;
[0056]Cookie本身是存儲在電腦硬盤的文件之中的。當一臺電腦訪問某個被監(jiān)測了的網(wǎng)頁時,監(jiān)測使用的日志服務器會通過網(wǎng)絡接收到一條網(wǎng)絡行為日志,而這條日志里面能包含這臺電腦的Cookie文件里面的信息(例如Cookie的ID或編號等等)。因此服務器存儲的網(wǎng)絡行為日志里面已經包含了 Cookie的ID或編號,在分析網(wǎng)絡行為日志數(shù)據(jù)的時候,并不需要去每臺上網(wǎng)的電腦上讀取Cookie。
[0057]這里的Cookie指的是瀏覽器Cookie或Flash Cookie ;全部行為日志時間范圍是指觀察Cookie進行網(wǎng)絡行為的一段時間,例如一個月,以便從Cookie在一段時間內的網(wǎng)絡行為信息(Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間)統(tǒng)計出IP地址的網(wǎng)吧IP特征。
[0058]S102:根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各所述IP地址的網(wǎng)吧IP特征;
[0059]一般來說,網(wǎng)吧電腦在上網(wǎng)時具有如下特點:
[0060]I)網(wǎng)吧電腦一般會有多人使用,并且被其中一人連續(xù)使用的時間較短。此外,大部分的網(wǎng)吧電腦都安裝了自動還原系統(tǒng),在單人使用結束后瀏覽器Cookie或Flash Cookie立即會被清除。因此,在網(wǎng)絡行為日志中,使用網(wǎng)吧IP地址上網(wǎng)的Cookie的存活時間,即單人連續(xù)上網(wǎng)的時間,大部分情況下都在數(shù)個小時之內。
[0061]2)目前絕大部分網(wǎng)吧在連接因特網(wǎng)時申請的都是固定IP,因此一臺網(wǎng)吧電腦使用的IP地址會集中在幾個固定的IP地址上,因此,使用網(wǎng)吧IP地址上網(wǎng)的Cookie所使用的IP地址相對較少,使用固定的一個或幾個IP地址的可能性相對較高。
[0062]3)網(wǎng)吧電腦深夜使用的可能性更高,大部分的家庭/公司電腦的使用時間集中在早上9點到凌晨I點之間,在深夜休息時間的使用概率較??;但網(wǎng)吧電腦的用戶更多,且有包夜優(yōu)惠等增值服務,所以網(wǎng)吧電腦的深夜使用可能性更高。因此,使用網(wǎng)吧IP地址的深夜網(wǎng)絡行為的占比更高。
[0063]4)網(wǎng)吧電腦的使用頻率更高:由于網(wǎng)吧用戶眾多,網(wǎng)吧電腦被經常使用的可能性較高。因此,在一段較長的時間(例如一個月))的數(shù)據(jù)中,網(wǎng)吧的IP地址在每天的日志中都有活躍記錄的可能性相對較高。
[0064]基于如上思想,在本實施例中用于判別IP地址為網(wǎng)吧IP的特征,包括以下一個或多個的組合:
[0065](I)曾經使用過該IP地址的每個Cookie的存活時間的分布;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔;
[0066]例如,可以統(tǒng)計Cookie的存活時間分別為I小時以內,I?2小時,2?3小時,......24小時以上的個數(shù)分布情況。
[0067](2)曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù);
[0068](3)曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例;
[0069]例如,一個Cookie只使用過此IP地址,則比例為100%,又比如,一個Cookie使用過2個IP地址,但是使用此IP地址5次,使用另一個5次,則比例為50 %,如果使用過此IP地址9次,使用另一個I次,則比例為90%。
[0070](4)在所述全部行為日志時間范圍內,所有曾經使用過此IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例;
[0071]例如,全部行為日志時間范圍位一個月,那么,在一個月內每天的O點?I點、I
點?2點、2點?3點、......23點?O點時間段內,統(tǒng)計使用過此IP地址訪問互聯(lián)網(wǎng)的次
數(shù)占這一個月內使用過此IP地址的所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例。
[0072](5)在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
[0073]這里統(tǒng)計的是用該IP地址上網(wǎng)的總時間長度。
[0074]S103:對于各IP地址,分別根據(jù)所述IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷所述IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
[0075]在本實施例中,根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址的步驟包括以下一種或多種情況:
[0076](I)如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0077](2)如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0078](3)如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0079](4)如果曾經使用過該IP地址的所有Cookie在凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0080](5)如果曾經使用過該IP地址的所有Cookie中,第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0081](6)如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址;
[0082]其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的Cookie。
[0083]其中,第(6)種判別方式中,機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。
[0084]在一個應用示例中,如圖2所示,基于機器學習來判斷所述IP地址是否為網(wǎng)吧IP地址,具體包括以下步驟:
[0085]S201:收集真實的網(wǎng)吧IP地址和非網(wǎng)吧IP地址;
[0086]其中,真實的網(wǎng)絡IP地址可以通過多種方法收集,例如從網(wǎng)吧的電腦上直接獲取網(wǎng)吧的IP地址,從網(wǎng)絡運營商處獲取在此運營商處申請了固定IP的網(wǎng)吧列表,獲取正在網(wǎng)吧上網(wǎng)的用戶的IP地址信息以及其他方法。而非網(wǎng)吧IP地址可以通過收集在家庭或公司的上網(wǎng)用戶的IP地址信息來獲取。
[0087]S202:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從所述真實的網(wǎng)吧IP地址和非網(wǎng)吧IP地址中訓練出IP分類模型;
[0088]在IP分類模型的構建過程中,IP分類模型中的IP地址分類分為正類和負類,將真實網(wǎng)吧IP地址作為正類,將非網(wǎng)吧IP地址作為負類,從網(wǎng)絡行為日志中提取Cookie,根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各個IP地址(包括兩部分IP地址)的網(wǎng)吧IP特征。根據(jù)兩部分IP地址的特征計算結果,利用機器學習法自動地構建出機器學習分類模型。下面以支持向量機分類模型作為機器學習模型的一個樣例來描述分類模型的訓練過程。本發(fā)明并不局限于支持向量機這一種機器學習模型。
[0089]本實例利用步驟S201獲得的數(shù)據(jù),使用線性支持向量機算法來訓練分類模型。線性支持向量機采用特征的線性組合來判別正類和負類。將S103步驟中描述的5個特征的計算結果分別記為特征值1-5,那么線性支持向量機的分類函數(shù)可表示為權重IX特征值1+權重2乂特征值2+權重3 X特征值3+權重4 X特征值4+權重5 X特征值5+權重6,其中權重1-6通過模型的訓練過程獲得。
[0090]根據(jù)這個分類函數(shù)的判別正類和負類的方法為:對于任意一個IP地址,計算出5個特征的特征值后,將5個特征值代入到上述函數(shù)之中,若函數(shù)值大于等于0,線性支持向量機將其判別為正類;若干函數(shù)值小于0,則線性支持向量機將其判別為負類。
[0091]在機器學習模型的訓練過程中,最優(yōu)的權重根據(jù)步驟S201獲得的真實數(shù)據(jù)來計算。當為某個真實的網(wǎng)吧IP地址計算出特征值后,如果代入到分類函數(shù)中發(fā)現(xiàn)函數(shù)值小于O,則應相應地調整權重1-6,使得這個網(wǎng)吧IP地址對應的函數(shù)值大于O ;反之,對于真實的非網(wǎng)吧IP,應盡可能保證其所對應的函數(shù)值小于O。進一步地,最優(yōu)的權重應根據(jù)如下準則來計算:
[0092]優(yōu)化準則:最小化Σ i數(shù)據(jù)集中第i個IP地址的誤差,
[0093]其中IP地址取遍S201中獲取的數(shù)據(jù)集中的每一個IP地址,一個IP地址的誤差的定義為:當根據(jù)網(wǎng)吧IP特征計算出來的類別與IP地址的真實類別一致時,此IP地址的誤差為O;當根據(jù)網(wǎng)吧IP特征計算出來的類別與IP地址的真實類別不一致時,此IP地址的誤差為I。
[0094]根據(jù)如上準則,求解最優(yōu)權重的問題被表達為標準的約束優(yōu)化問題。約束優(yōu)化問題可以采用梯度下降、模擬退火等多種數(shù)值優(yōu)化的方法進行求解,從而獲取最優(yōu)的權重。
[0095]記數(shù)值優(yōu)化求出的最優(yōu)的6個權重為Wp W2> W3> W4> W5> W6,則訓練出來的線性支持向量機分類模型對應的分類函數(shù)可表示為
[0096]W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6。
[0097]S203:判斷該IP地址是否為機器學習得到的正類IP地址,如果是,則判斷該IP地址是網(wǎng)吧IP地址。
[0098]在判斷一個IP地址是否為正類IP地址時,首先從網(wǎng)絡行為日志中提取Cookie,根據(jù)Cookie的網(wǎng)絡行為統(tǒng)計出該IP地址所有的網(wǎng)吧IP特征,然后將該IP地址的網(wǎng)吧IP特征通過S202構建出的機器學習分類模型中的函數(shù)計算出該IP地址為正類IP地址還是負類IP地址。
[0099]具體地,對于待判斷類別的IP地址,首先根據(jù)其行為日志計算出S201中所述的5類網(wǎng)吧特征的特征值,再將計算出來的特征值代入到S202步驟訓練出來的分類函數(shù)中。
[0100]記此IP地址的5個特征值分別為特征值1-5,相應的判別標準為:
[0101]若W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6大于等于0,判別為正類;
[0102]若W1X特征值l+w2X特征值2+w3X特征值3+w4X特征值4+w5X特征值5+w6小于0,判別為負類;
[0103]除了上述操作步驟外,為了保證網(wǎng)吧IP數(shù)據(jù)庫的時效性,在實際應用中,每隔一段固定的時間,重新在所述全部行為日志時間范圍內提取Cookie,重新運行上述所有步驟,以實時地生成最新的網(wǎng)吧IP數(shù)據(jù)庫。
[0104]如圖3所示,本實施例提供了一種生成網(wǎng)吧IP數(shù)據(jù)庫的裝置,包括:
[0105]Cookie網(wǎng)絡行為信息獲取模塊,用于從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;
[0106]IP地址特征統(tǒng)計模塊,用于根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各IP地址的網(wǎng)吧IP特征;
[0107]網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于對于各IP地址,分別根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
[0108]其中,所述IP地址的網(wǎng)吧IP特征,包括以下一個或多個:
[0109]曾經使用過該IP地址的每個Cookie的存活時間;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔;
[0110]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù);
[0111]曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例;
[0112]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例;
[0113]在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
[0114]所述網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,包括以下一種或多種情況:
[0115]如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0116]如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0117]如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0118]如果曾經使用過該IP地址的所有Cookie在所述全部行為日志時間范圍內從凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0119]如果曾經使用過該IP地址的所有Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;
[0120]其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的所有的Cookie。
[0121]如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址;
[0122]其中,所述機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。
[0123]下面,在一個應用示例中,以根據(jù)所述IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷所述IP地址是否為網(wǎng)吧IP地址為例,對本發(fā)明進一步作詳細描述,如圖4所示,包括以下步驟:
[0124]S301:記錄Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間;
[0125]例如,如下表I所示,給出了來訪Cookie的信息記錄表:
[0126]
【權利要求】
1.一種生成網(wǎng)吧IP數(shù)據(jù)庫的方法,包括: 從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間; 根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各IP地址的網(wǎng)吧IP特征; 對于各IP地址,分別根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
2.如權利要求1所述的方法,其特征在于: 所述IP地址的網(wǎng)吧IP特征,包括以下一個或多個: 曾經使用過該IP地址的每個Cookie的存活時間;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔; 曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù); 曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例; 在所述全部 行為日志時間范圍內,所有曾經使用過該IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例; 在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
3.如權利要求2所述的方法,其特征在于: 所述根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址的步驟包括以下一種或多種情況: 如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果曾經使用過該IP地址的所有Cookie在所述全部行為日志時間范圍內從凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果曾經使用過該IP地址的所有Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址; 其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的所有的 Cookie。
4.如權利要求3所述的方法,其特征在于:所述機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。
5.如權利要求1~4任一項權利要求所述的方法,其特征在于:所述方法還包括: 每隔一段固定的時間,重新在所述全部行為日志時間范圍內提取Cookie,按照如權利要求I所述的方法重新生成新的網(wǎng)吧IP數(shù)據(jù)庫。
6.一種生成網(wǎng)吧IP數(shù)據(jù)庫的裝置,包括: Cookie網(wǎng)絡 行為信息獲取模塊,用于從服務器的網(wǎng)絡行為日志中提取Cookie,在全部行為日志時間范圍內,記錄該Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間; IP地址特征統(tǒng)計模塊,用于根據(jù)所述Cookie每次訪問互聯(lián)網(wǎng)所使用的IP地址及相應的訪問時間,在全部行為日志時間范圍內分別統(tǒng)計各IP地址的網(wǎng)吧IP特征; 網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于對于各IP地址,分別根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,如果滿足預設的判決策略則判斷該IP地址為網(wǎng)吧IP地址,并將所有判斷為網(wǎng)吧IP地址的IP地址生成網(wǎng)吧IP數(shù)據(jù)庫。
7.如權利要求6所述的裝置,其特征在于: 所述IP地址的網(wǎng)吧IP特征,包括以下一個或多個: 曾經使用過該IP地址的每個Cookie的存活時間;其中,每個Cookie的存活時間為每個Cookie在全部行為日志數(shù)據(jù)中第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔; 曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中曾經使用過的不同的IP地址的個數(shù); 曾經使用過該IP地址的每個Cookie在全部行為日志數(shù)據(jù)中使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占此Cookie訪問互聯(lián)網(wǎng)的總次數(shù)的比例; 在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie在每天每一小時內訪問互聯(lián)網(wǎng)的次數(shù)占所有Cookie訪問互聯(lián)網(wǎng)的次數(shù)的比例; 在所述全部行為日志時間范圍內,所有曾經使用過該IP地址的Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔。
8.如權利要求7所述的裝置,其特征在于: 所述網(wǎng)吧IP數(shù)據(jù)庫生成模塊,用于根據(jù)該IP地址的網(wǎng)吧IP特征是否滿足預設的判決策略來判斷該IP地址是否為網(wǎng)吧IP地址,包括以下一種或多種情況: 如果曾經使用過該IP地址的所有Cookie中,存活時間在24小時之內的Cookie總數(shù)占所有Cookie的比例大于第一預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;如果曾經使用過該IP地址的所有Cookie中,使用過不同的IP地址為預設個數(shù)的Cookie總數(shù)占所有Cookie的比例大于第二預設閾值,則判斷該IP地址是網(wǎng)吧IP地址;如果曾經使用過該IP地址的所有Cookie中,使用此IP地址訪問互聯(lián)網(wǎng)的次數(shù)占訪問互聯(lián)網(wǎng)的總次數(shù)的比例超過50%的Cookie的總數(shù)占所有Cookie的比例大于第三預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果曾經使用過該IP地址的所有Cookie在所述全部行為日志時間范圍內從凌晨I點到7點訪問互聯(lián)網(wǎng)的比例大于第四預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果曾經使用過該IP地址的所有Cookie第一次和最后一次訪問互聯(lián)網(wǎng)的時間間隔占全部行為日志時間范圍的比例大于第五預設閾值,則判斷該IP地址是網(wǎng)吧IP地址; 如果該IP地址為機器學習得到的IP分類模型中的正類IP地址,則判斷該IP地址是網(wǎng)吧IP地址; 其中,所有Cookie是指在所述全部行為日志時間范圍內曾經使用過此IP地址的所有的 Cookie。
9.如權利要求8所述的裝置,其特征在于: 所述機器學習得到的IP分類模型中的正類IP地址是指:根據(jù)所述IP地址的網(wǎng)吧IP特征應用機器學習法從真實的網(wǎng)吧IP地址中訓練出的IP分類模型中的IP地址分類。
【文檔編號】G06F17/30GK103699546SQ201210367803
【公開日】2014年4月2日 申請日期:2012年9月28日 優(yōu)先權日:2012年9月28日
【發(fā)明者】歐陽佑, 吳明輝 申請人:北京思博途信息技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
红原县| 宕昌县| 丰镇市| 五台县| 轮台县| 英吉沙县| 宁武县| 田阳县| 兰西县| 淄博市| 邓州市| 邻水| 冀州市| 林口县| 廉江市| 宁晋县| 曲麻莱县| 疏勒县| 德保县| 蒙山县| 乐业县| 喀喇沁旗| 新龙县| 定日县| 晋中市| 获嘉县| 三原县| 达孜县| 三门县| 栖霞市| 大城县| 武鸣县| 涟水县| 栾川县| 连云港市| 紫阳县| 山丹县| 柏乡县| 平果县| 卢湾区| 筠连县|