Ip地址數(shù)據(jù)的數(shù)據(jù)處理方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法和裝置。其中,該IP地址數(shù)據(jù)的數(shù)據(jù)處理方法包括:獲取第一數(shù)據(jù)庫中的第一IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二IP地址數(shù)據(jù);將第一IP地址的區(qū)間段和第二IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段;獲取多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,地理位置編碼包括第一地理位置編碼和第二地理位置編碼;以及計算由多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值。通過本發(fā)明,解決了現(xiàn)有技術(shù)中無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址信息的差異大小的問題,達(dá)到了計算不同數(shù)據(jù)庫中的IP地址信息的差異大小的效果。
【專利說明】IP地址數(shù)據(jù)的數(shù)據(jù)處理方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)行業(yè)飛速發(fā)展,根據(jù)IP地址對網(wǎng)絡(luò)數(shù)據(jù)分析變得越來越重要,由于IP地址能夠指示地理位置,因此,根據(jù)IP地址能夠分析網(wǎng)絡(luò)信息的來源的地理位置,例如,根據(jù)訪問網(wǎng)頁的訪客的IP地址確定其來自哪個國家、省份、城市。
[0003]目前,各大網(wǎng)站通過采集訪客的IP地址建立IP地理信息數(shù)據(jù)庫,但是IP地理信息數(shù)據(jù)庫來源多樣,格式不一,譬如國外有Maxmind、IP2Locat1n等,國內(nèi)有純真、IPB、淘寶、百度、騰訊等,并且這些數(shù)據(jù)庫隨著時間不斷更新。在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分析時,利用不同的IP地理信息數(shù)據(jù)庫得到的分析結(jié)果也有差異,并且無法得知根據(jù)哪個數(shù)據(jù)庫得到的分析結(jié)果是準(zhǔn)確的,也無法預(yù)期結(jié)果的差異大小。
[0004]針對現(xiàn)有技術(shù)中無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址信息的差異大小的問題,目如尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于提供一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法和裝置,以解決無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址信息的差異的問題。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法。根據(jù)本發(fā)明的IP地址數(shù)據(jù)的數(shù)據(jù)處理方法包括:獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,所述第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,所述第二 IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼;將所述第一 IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段;獲取所述多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,所述地理位置編碼包括第一地理位置編碼和第二地理位置編碼;以及計算由所述多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,所述第一數(shù)值為對應(yīng)的所述第一地理位置編碼和所述第二地理位置編碼為不同的地理位置編碼的IP地址的個數(shù),所述第二數(shù)值為由所述多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
[0007]進(jìn)一步地,在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,所述數(shù)據(jù)處理方法包括:獲取所述第一 IP地址數(shù)據(jù)中的第一地理位置信息和所述第二 IP地址數(shù)據(jù)中的第二地理位置信息;按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼。
[0008]進(jìn)一步地,按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼包括:獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼;依次組合所述國家級別、所述省份級別、所述城市級別和所述區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼;查找地理位置編碼與地理位置信息的映射關(guān)系;以及按照所述映射關(guān)系將所述第一地理位置信息映射為所述第一地理位置編碼,并且按照所述映射關(guān)系將所述第二地理位置信息映射為所述第二地理位置編碼。
[0009]進(jìn)一步地,在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,所述數(shù)據(jù)處理方法還包括:在所述第一數(shù)據(jù)庫和所述第二數(shù)據(jù)庫中查找處于相同級別的所述地理位置編碼對應(yīng)的IP地址區(qū)間段;將相同級別中屬于所述第一數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第一 IP地址的區(qū)間段,屬于所述第二數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第二 IP地址的區(qū)間段。
[0010]進(jìn)一步地,將所述第一 IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段包括:將所述第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn);將所述第二 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及依次將所述兩個第一端點(diǎn)和所述兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為所述多個子區(qū)間段中的一個子區(qū)間段。
[0011]進(jìn)一步地,依次將所述兩個第一端點(diǎn)和所述兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為所述多個子區(qū)間段中的一個子區(qū)間段包括:用半開半閉區(qū)間表示所述子區(qū)間,其中,所述半開半閉區(qū)間為左開右閉區(qū)間,或者所述半開半閉區(qū)間為左閉右開區(qū)間。
[0012]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置。根據(jù)本發(fā)明的IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置包括:第一獲取單元,用于獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,所述第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,所述第二 IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼;映射單元,用于將所述第一 IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段;第二獲取單元,用于獲取所述多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,所述地理位置編碼包括第一地理位置編碼和第二地理位置編碼;以及計算單元,用于計算由所述多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,所述第一數(shù)值為對應(yīng)的所述第一地理位置編碼和所述第二地理位置編碼為不同的地理位置編碼的IP地址的個數(shù),所述第二數(shù)值為由所述多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
[0013]進(jìn)一步地,所述數(shù)據(jù)處理裝置包括:第三獲取單元,用于在獲取第一數(shù)據(jù)庫中的第一IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,獲取所述第一 IP地址數(shù)據(jù)中的第一地理位置信息和所述第二 IP地址數(shù)據(jù)中的第二地理位置信息;轉(zhuǎn)換單元,用于按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼。
[0014]進(jìn)一步地,所述轉(zhuǎn)換單元包括:第四獲取模塊,用于獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼;組合模塊,用于依次組合所述國家級別、所述省份級別、所述城市級別和所述區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼;第一查找模塊,用于查找地理位置編碼與地理位置信息的映射關(guān)系;以及映射模塊,用于按照所述映射關(guān)系將所述第一地理位置信息映射為所述第一地理位置編碼,并且按照所述映射關(guān)系將所述第二地理位置信息映射為所述第二地理位置編碼。
[0015]進(jìn)一步地,所述數(shù)據(jù)處理裝置還包括:第二查找模塊,用于在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,在所述第一數(shù)據(jù)庫和所述第二數(shù)據(jù)庫中查找處于相同級別的所述地理位置編碼對應(yīng)的IP地址區(qū)間段;第一確定模塊,用于將相同級別中屬于所述第一數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第一 IP地址的區(qū)間段,屬于所述第二數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第二 IP地址的區(qū)間段。
[0016]進(jìn)一步地,所述映射單元包括:第一映射模塊,用于將所述第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn);第二映射模塊,用于將所述第二 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及第二確定模塊,用于依次將所述兩個第一端點(diǎn)和所述兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為所述多個子區(qū)間段中的一個子區(qū)間段。
[0017]進(jìn)一步地,所述第二確定模塊還用于用半開半閉區(qū)間表示所述子區(qū)間,其中,所述半開半閉區(qū)間為左開右閉區(qū)間,或者所述半開半閉區(qū)間為左閉右開區(qū)間。
[0018]通過本發(fā)明,用IP地址區(qū)間段和地理位置編碼表示IP地址數(shù)據(jù),并將兩個數(shù)據(jù)庫中的IP地址數(shù)據(jù)映射在同一個IP地址數(shù)據(jù)軸上,將兩個數(shù)據(jù)庫中的IP地址數(shù)據(jù)映射為多個子區(qū)間段,通過比較多個子區(qū)間段中屬于不同數(shù)據(jù)庫的IP地址的個數(shù)與由多個子區(qū)間段組成的整個區(qū)間段的IP地址的個數(shù)的比值,判斷兩個數(shù)據(jù)庫中的IP地址信息的差異率,解決了無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址信息的差異大小的問題,進(jìn)而達(dá)到了分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址的差異大小的效果。
【專利附圖】
【附圖說明】
[0019]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0020]圖1是根據(jù)本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理方法的流程圖;
[0021]圖2是根據(jù)本發(fā)明實(shí)施例的將IP地址映射到IP數(shù)據(jù)軸的示意圖;以及
[0022]圖3是根據(jù)本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置的示意圖。
【具體實(shí)施方式】
[0023]需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0024]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0025]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0026]本發(fā)明實(shí)施例提供了一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法。
[0027]圖1是根據(jù)本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理方法的流程圖。如圖所示,該IP地址數(shù)據(jù)的數(shù)據(jù)處理方法包括如下步驟:
[0028]步驟S102,獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,第二 IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼。
[0029]第一數(shù)據(jù)庫和第二數(shù)據(jù)庫為進(jìn)行對比的兩個數(shù)據(jù)庫,兩個數(shù)據(jù)庫中分別存儲了一套IP地址數(shù)據(jù),為了對比第一數(shù)據(jù)庫和第二數(shù)據(jù)庫中的IP地址數(shù)據(jù)的差異,分別從第一數(shù)據(jù)庫中獲取第一 IP地址數(shù)據(jù),從第二數(shù)據(jù)庫中獲取第二 IP地址數(shù)據(jù)。例如(以下數(shù)據(jù)均為虛構(gòu),不代表真實(shí)數(shù)據(jù)),第一 IP地址數(shù)據(jù)為[0.0.0.0, 0.0.0.100,11564400000100],[0.0.0.101,0.0.0.255,11564400000300],第二 IP 地址數(shù)據(jù)為[0.0.0.0, 0.0.0.150,11564400000100], [0.0.0.151,0.0.0.255,11564400000300]。其中,數(shù)據(jù)格式[0.0.0.0, 0.0.0.100,11564400000100]表示0.0.0.0?0.0.0.100區(qū)間段內(nèi)(包括端點(diǎn))的IP地址對應(yīng)的地理信息編碼為11564400000100,該編碼對應(yīng)的地理位置為廣東省廣州市。由第一 IP地址數(shù)據(jù)和第二 IP地址數(shù)據(jù)可知,第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段有交叉和重疊,本實(shí)施例就可以對比分析這兩個不同的IP地址數(shù)據(jù)之間的差異大小。
[0030]步驟S104,將第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段。
[0031]由于第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段有交叉和重疊的區(qū)間段,則將第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,可以得到如圖3所示的子區(qū)間段①、子區(qū)間段②和子區(qū)間段③。
[0032]步驟S106,獲取多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,地理位置編碼包括第一地理位置編碼和第二地理位置編碼。
[0033]如圖2所示,子區(qū)間段①是第一數(shù)據(jù)庫中[0.0.0.0,0.0.0.100,11564400000100]區(qū)間段的子集,對應(yīng)的第一地理位置編碼同樣為11564400000100。同時,子區(qū)間段①是第二數(shù)據(jù)庫中[0.0.0.0,0.0.0.150,11564400000100]的子集,對應(yīng)的第二地理位置編碼則為11564400000100 ;同理,子區(qū)間段②對應(yīng)的第一地理位置編碼為11564400000300,第二地理位置編碼為11564400000100 ;子區(qū)間段③對應(yīng)的第一地理位置編碼為11564400000300,第二地理位置編碼為11564400000300。
[0034]也就是說,在第一數(shù)據(jù)庫和第二數(shù)據(jù)庫中存在同一個IP地址的區(qū)間段對應(yīng)兩個不同的地理位置編碼,這就是IP數(shù)據(jù)庫的差異。
[0035]步驟S108,計算由多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,第一數(shù)值為同時對應(yīng)第一地理位置編碼和第二地理位置編碼的IP地址的個數(shù),第二數(shù)值為由多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
[0036]計算第一數(shù)值和第二數(shù)值的比值,即計算IP數(shù)據(jù)庫的差異大小。在上述示例中,子區(qū)間段①和③對應(yīng)的第一地理位置編碼和第二地理位置編碼都相同,而子區(qū)間段②對應(yīng)的第一地理位置編碼和第二地理位置編碼不同。其中,子區(qū)間段①、②、③內(nèi)IP地址數(shù)量分別為101、50、105,所以總數(shù)量為256,差異量為50,差異大小則為50/256。
[0037]通過上述實(shí)施例,為了便于比較兩個數(shù)據(jù)庫中的IP地址數(shù)據(jù)的差異,可以首先將IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,將有交叉重疊的IP地址區(qū)間段映射為多個沒有重疊的子區(qū)間段,并且通過查找子區(qū)間段所屬區(qū)間段,確定其對應(yīng)的地理位置編碼。在此基礎(chǔ)上,查找地理位置編碼不同的區(qū)間段,統(tǒng)計這些區(qū)間段的IP地址數(shù)量,與整體IP數(shù)據(jù)庫的IP地址數(shù)量做對比,得到IP數(shù)據(jù)庫的差異比例。解決了現(xiàn)有技術(shù)中無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址地理信息差異大小的問題。
[0038]優(yōu)選地,在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,數(shù)據(jù)處理方法包括:獲取第一 IP地址數(shù)據(jù)中的第一地理位置信息和第二 IP地址數(shù)據(jù)中的第二地理位置信息;按照預(yù)定格式將第一地理位置信息轉(zhuǎn)換為第一地理位置編碼,并且按照預(yù)定格式將第二地理位置信息轉(zhuǎn)換為第二地理位置編碼。
[0039]由于不同的IP地址數(shù)據(jù)庫中的存儲的IP地址數(shù)據(jù)的格式不一樣,就無法對不同的數(shù)據(jù)庫中的IP地址數(shù)據(jù)進(jìn)行比較,因此,需要首先將數(shù)據(jù)庫中的IP地址的格式統(tǒng)一。IP地址數(shù)據(jù)包括IP地址的區(qū)間段和地理位置編碼,為了便于地理位置信息的比較,將地理位置信息轉(zhuǎn)換為地理位置編碼。
[0040]例如,第一地理位置信息為廣東省廣州市,將其轉(zhuǎn)換為第一地理位置編碼11564400000100 ;第二地理位置信息為廣東省深圳市,第二地理位置編碼為11564400000300。
[0041]可選地,按照預(yù)定格式將第一地理位置信息轉(zhuǎn)換為第一地理位置編碼,并且按照預(yù)定格式將第二地理位置信息轉(zhuǎn)換為第二地理位置編碼包括:獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼;依次組合國家級別、省份級別、城市級別和區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼;查找地理位置編碼與地理位置信息的映射關(guān)系;以及按照映射關(guān)系將第一地理位置信息映射為第一地理位置編碼,并且按照映射關(guān)系將第二地理位置信息映射為第二地理位置編碼。
[0042]按照如下的方法獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼:
[0043]對于國外數(shù)據(jù),采用ISO標(biāo)準(zhǔn)。具體為:
[0044]國家級別采用ISO 3166-1標(biāo)準(zhǔn),編碼采用其中三位數(shù)字編碼,并在最高位補(bǔ)1,保證對齊。因為國家編碼中前兩位可能為O,譬如巴西國家編碼為076,如果不在最高位補(bǔ)I,三位的編碼076將變?yōu)閮晌坏?6,補(bǔ)I后則固定為四位1076,便于統(tǒng)一國家代碼的格式以進(jìn)行編碼比較。
[0045]省(或州)級別采用ISO 3166-2標(biāo)準(zhǔn),標(biāo)準(zhǔn)中編碼為兩位或三位英文字母,或者兩位數(shù)字。我們將其轉(zhuǎn)換為六位的數(shù)字編碼——每個英文字母按照其在字母表中的順序轉(zhuǎn)換為01-26的數(shù)字,不足六位的則在前面補(bǔ)零。譬如美國華盛頓的編碼為WA,轉(zhuǎn)換為數(shù)字為2301,補(bǔ)零后為002301。
[0046]國外不區(qū)分市、區(qū)縣,全部在最后補(bǔ)四個零。舉例:美國華盛頓編碼:18400023010000,其中前四位1840為美國編碼,接著六位002301表示華盛頓州,最后四個零代表不區(qū)分城市和區(qū)縣。
[0047]對于國內(nèi)數(shù)據(jù),采用國家統(tǒng)計局公布的最新縣及縣以上行政區(qū)劃編碼,以下參考國家標(biāo)準(zhǔn)GB/T 2260中對行政區(qū)劃編碼的說明。
[0048]國家編碼同樣采用ISO 3166-1標(biāo)準(zhǔn),編碼為156,高位補(bǔ)I后變?yōu)?156。
[0049]行政區(qū)劃編碼為六位數(shù)字,其中前兩位代表省份(包括自治區(qū)、直轄市、特別行政區(qū))、中間兩位代表城市(包括地區(qū)、自治州、盟、直轄市所屬市轄區(qū)、省直轄縣級行政單位匯總)、最后兩位代表區(qū)縣(包括自治縣、縣級市、旗、自治旗、市轄區(qū)、林區(qū)、特區(qū))。對于臺灣、香港、澳門,ISO 3166-1標(biāo)準(zhǔn)中將其作為國家級別,而在國家統(tǒng)計局的數(shù)據(jù)中將其歸為特別行政區(qū),我們采用國家統(tǒng)計局的標(biāo)準(zhǔn),將其作為中國的省份級別,采用省份編碼。將代表省份的前兩位數(shù)字補(bǔ)零,變?yōu)榱粩?shù)字,保證與國外省份編碼格式一致。
[0050]根據(jù)上述編碼就能確定每個地區(qū)的編碼。舉例:廣東省深圳市福田區(qū),中國國家編碼為156,廣東省編碼為440000,深圳市編碼為03,福田區(qū)代碼為04,則按照上述映射關(guān)系可以確定廣東省深圳市福田區(qū)的編碼為11564400000304。也就是說,在獲取地理位置信息之后,按照國家、省份、城市和區(qū)縣與編碼的映射關(guān)系可以確定每個地理位置信息對應(yīng)的地理位置編碼。
[0051]在進(jìn)行IP地址數(shù)據(jù)的對比時,可以采用逐級對比的方式。可以理解的是,當(dāng)兩個IP地址數(shù)據(jù)庫中低級別的IP地址的地理信息相同時,則高一級別的IP地址的地理信息也相同;當(dāng)兩個IP地址數(shù)據(jù)庫中高級別的IP地址的地理信息不相同時,則低級別的IP地址的地理信息也不相同;通過逐級比較兩個IP地址數(shù)據(jù)庫中的數(shù)據(jù),可以逐級判斷出兩個IP地址數(shù)據(jù)的差異率,從而確定兩個IP地址數(shù)據(jù)庫的各個地理等級的差異。
[0052]通過上述實(shí)施例,將地理位置信息轉(zhuǎn)換為地理位置編碼,實(shí)現(xiàn)了地理位置信息的標(biāo)準(zhǔn)化,編碼的形式不僅便于電腦進(jìn)行識別,還根據(jù)地理位置編碼與地理位置的一一對應(yīng),以及不同數(shù)據(jù)中的相同的編碼對應(yīng)相同的地理位置的特性,便于確定進(jìn)行對比的對象。從而能夠精確對比出不同數(shù)據(jù)庫中相同IP地址的地理位置的差異。另外,IP數(shù)據(jù)庫中IP地址的區(qū)間段可能不斷變化,但地理位置信息是不變的,轉(zhuǎn)換成相應(yīng)的地理位置編碼所需的映射關(guān)系是相同的,也就是說,只需要一次性將地理位置信息轉(zhuǎn)換為地理位置編碼即可,不需要重復(fù)的工作。
[0053]優(yōu)選地,將第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段包括:將第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn);將第二IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及依次將兩個第一端點(diǎn)和兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為多個子區(qū)間段中的一個子區(qū)間段。
[0054]如圖2 所示,第一 IP地址的區(qū)間段為 0.0.0.0, 0.0.0.100,0.0.0.101,0.0.0.255,其映射到IP數(shù)據(jù)軸上得到四個端點(diǎn),分別為0.0.0.0,0.0.0.100,0.0.0.101和0.0.0.255。。第二 IP地址的區(qū)間段映射到IP數(shù)據(jù)軸上同樣得到四個端點(diǎn):0.0.0.0,0.0.0.150,0.0.0.151,0.0.0.255,如圖2的IP數(shù)據(jù)軸上具有六個端點(diǎn),相鄰兩個端點(diǎn)構(gòu)成一個子區(qū)間段,那么六個端點(diǎn)構(gòu)成3個子區(qū)間段,也就是圖2中子區(qū)間段①、子區(qū)間段②和子區(qū)間段③。
[0055]優(yōu)選地,依次將多個第一端點(diǎn)和多個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為多個子區(qū)間段中的一個子區(qū)間段包括:用半開半閉區(qū)間表示子區(qū)間,其中,半開半閉區(qū)間為左開右閉區(qū)間,或者半開半閉區(qū)間為左閉右開區(qū)間。
[0056]為了便于對比兩個相同區(qū)間段的IP地址數(shù)據(jù),按照圖2所示的方式將IP地址區(qū)間段進(jìn)行拆分,使得拆分后得到的子區(qū)間段之間沒有重疊。IP地址區(qū)間段通常采用全閉區(qū)間的表示,但是這種方式容易導(dǎo)致數(shù)據(jù)重復(fù),為了避免數(shù)據(jù)重復(fù),則采用半開半閉區(qū)間。
[0057]例如,假設(shè)數(shù)據(jù)源A的區(qū)間是[1,10]、[11,20],數(shù)據(jù)源B的區(qū)間段是
[1.9],[10,20],按照圖2所示的拆分方法,得到的端點(diǎn)為1,9,10,11,20。拆分得到的區(qū)間段為[1,9],[9,10],[10,11],[11,20],因為是全閉區(qū)間,所以可以看到其中端點(diǎn)9、10、11出現(xiàn)在多個區(qū)間中,導(dǎo)致數(shù)據(jù)重復(fù)。由于IP地址數(shù)據(jù)為離散數(shù)據(jù),即使其考慮端點(diǎn)不重復(fù),生成子區(qū)間段[1,9],[10,11], [12,20],仍然是不正確的,而正確的區(qū)間范圍應(yīng)該為
[1.9],[10,10],[11,20]。
[0058]如果將區(qū)間段改為半開半閉區(qū)間,則上述例子將變?yōu)閿?shù)據(jù)源A的區(qū)間為[1,11),[11,21),其中,中括號是閉區(qū)間,表示包含,而小括號表示開區(qū)間,表示不包含。相應(yīng)的數(shù)據(jù)源B的區(qū)間則為[1,10),[10,21),合并后的IP數(shù)軸為1,10,11,21,拆分后的子區(qū)間段分別為[1,10),[10,11),[11,21),可以看到,拆分后的子區(qū)間段全部屬于原區(qū)間段內(nèi)的子區(qū)間段,數(shù)據(jù)完整且沒有數(shù)據(jù)重復(fù)。
[0059]需要說明的是,此時采用的半開半閉區(qū)間中,統(tǒng)一采用左開右閉區(qū)間或者左閉右開區(qū)間,以避免數(shù)據(jù)重復(fù)。
[0060]本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理方法可以通過本發(fā)明實(shí)施例所提供的IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置來執(zhí)行,本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置也可以用于執(zhí)行本發(fā)明實(shí)施例所提供的IP地址數(shù)據(jù)的數(shù)據(jù)處理方法。
[0061]本發(fā)明實(shí)施例還提供了一種IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置。
[0062]圖3是根據(jù)本發(fā)明實(shí)施例的IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置的示意圖。如圖所示,該IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置包括:第一獲取單元10、映射單元20、第二獲取單元30和計算單元40。
[0063]第一獲取單元10用于獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,第二IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼。
[0064]第一數(shù)據(jù)庫和第二數(shù)據(jù)庫為進(jìn)行對比的兩個數(shù)據(jù)庫,兩個數(shù)據(jù)庫中分別存儲了一套IP地址數(shù)據(jù),為了對比第一數(shù)據(jù)庫和第二數(shù)據(jù)庫中的IP地址數(shù)據(jù)的差異,分別從第一數(shù)據(jù)庫中獲取第一 IP地址數(shù)據(jù),從第二數(shù)據(jù)庫中獲取第二 IP地址數(shù)據(jù)。例如(以下數(shù)據(jù)均為虛構(gòu),不代表真實(shí)數(shù)據(jù)),第一 IP地址數(shù)據(jù)為[0.0.0.0,0.0.0.100,11564400000100],[0.0.0.101,0.0.0.255,11564400000300],第二 IP 地址數(shù)據(jù)為[0.0.0.0, 0.0.0.150,11564400000100], [0.0.0.151,0.0.0.255,11564400000300]。其中,數(shù)據(jù)格式[0.0.0.0, 0.0.0.100,11564400000100]表示0.0.0.0?0.0.0.100區(qū)間段內(nèi)(包括端點(diǎn))的IP地址對應(yīng)的地理信息編碼為11564400000100,該編碼對應(yīng)的地理位置為廣東省廣州市。由第一 IP地址數(shù)據(jù)和第二 IP地址數(shù)據(jù)可知,第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段有交叉和重疊,本實(shí)施例就可以對比分析這兩個不同的IP地址數(shù)據(jù)之間的差異大小。
[0065]映射單元20用于將第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段。
[0066]由于第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段有交叉和重疊的區(qū)間段,則將第一 IP地址的區(qū)間段和第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,可以得到如圖3所示的子區(qū)間段①、子區(qū)間段②和子區(qū)間段③。
[0067]第二獲取單元30用于獲取多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,地理位置編碼包括第一地理位置編碼和第二地理位置編碼。
[0068]如圖2所示,子區(qū)間段①是第一數(shù)據(jù)庫中[0.0.0.0,0.0.0.100,11564400000100]區(qū)間段的子集,對應(yīng)的第一地理位置編碼同樣為11564400000100。同時,子區(qū)間段①是第二數(shù)據(jù)庫中[0.0.0.0,0.0.0.150,11564400000100]的子集,對應(yīng)的第二地理位置編碼則為11564400000100 ;同理,子區(qū)間段②對應(yīng)的第一地理位置編碼為1564400000300,第二地理位置編碼為11564400000100 ;子區(qū)間段③對應(yīng)的第一地理位置編碼為11564400000300,第二地理位置編碼為11564400000300。
[0069]也就是說,在第一數(shù)據(jù)庫和第二數(shù)據(jù)庫中存在同一個IP地址的區(qū)間段對應(yīng)兩個不同的地理位置編碼,這就是IP數(shù)據(jù)庫的差異。
[0070]計算單元40用于計算由多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,第一數(shù)值為對應(yīng)的第一地理位置編碼和第二地理位置編碼為不同的地理位置編碼的IP地址的個數(shù),第二數(shù)值為由多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
[0071]計算第一數(shù)值和第二數(shù)值的比值,即計算IP數(shù)據(jù)庫的差異大小。在上述示例中,子區(qū)間段①和③對應(yīng)的第一地理位置編碼和第二地理位置編碼都相同,而子區(qū)間段②對應(yīng)的第一地理位置編碼和第二地理位置編碼不同。其中,子區(qū)間段①、②、③內(nèi)IP地址數(shù)量分別為101、50、105,所以總數(shù)量為256,差異量為50,差異大小則為50/256。
[0072]通過上述實(shí)施例,為了便于比較兩個數(shù)據(jù)庫中的IP地址數(shù)據(jù)的差異,可以首先將IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,將有交叉重疊的IP地址區(qū)間段映射為多個沒有重疊的子區(qū)間段,并且通過查找子區(qū)間段所屬區(qū)間段,確定其對應(yīng)的地理位置編碼。在此基礎(chǔ)上,查找地理位置編碼不同的區(qū)間段,統(tǒng)計這些區(qū)間段的IP地址數(shù)量,與整體IP數(shù)據(jù)庫的IP地址數(shù)量做對比,得到IP數(shù)據(jù)庫的差異比例。解決了現(xiàn)有技術(shù)中無法分析不同的IP地理信息數(shù)據(jù)庫中記錄的IP地址地理信息差異大小的問題。
[0073]優(yōu)選地,數(shù)據(jù)處理裝置包括:第三獲取單元,用于在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,獲取第一 IP地址數(shù)據(jù)中的第一地理位置信息和第二 IP地址數(shù)據(jù)中的第二地理位置信息;轉(zhuǎn)換單元,用于按照預(yù)定格式將第一地理位置信息轉(zhuǎn)換為第一地理位置編碼,并且按照預(yù)定格式將第二地理位置信息轉(zhuǎn)換為第二地理位置編碼。
[0074]由于不同的IP地址數(shù)據(jù)庫中的存儲的IP地址數(shù)據(jù)的格式不一樣,就無法對不同的數(shù)據(jù)庫中的IP地址數(shù)據(jù)進(jìn)行比較,因此,需要首先將數(shù)據(jù)庫中的IP地址的格式統(tǒng)一。IP地址數(shù)據(jù)包括IP地址的區(qū)間段和地理位置編碼,為了便于地理位置信息的比較,將地理位置信息轉(zhuǎn)換為地理位置編碼。
[0075]例如,第一地理位置信息為廣東省廣州市,將其轉(zhuǎn)換為第一地理位置編碼11564400000100 ;第二地理位置信息為廣東省深圳市,第二地理位置編碼為11564400000300。
[0076]可選地,轉(zhuǎn)換單元包括:第四獲取模塊,用于獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼;組合模塊,用于依次組合國家級別、省份級別、城市級別和區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼;第一查找模塊,用于查找地理位置編碼與地理位置信息的映射關(guān)系;以及映射模塊,用于按照映射關(guān)系將第一地理位置信息映射為第一地理位置編碼,并且按照映射關(guān)系將第二地理位置信息映射為第二地理位置編碼。
[0077]按照如下的方法獲取國家級別、身份級別、城市級別和區(qū)縣級別的編碼:
[0078]對于國外數(shù)據(jù),采用ISO標(biāo)準(zhǔn)。具體為:
[0079]國家級別采用ISO 3166-1標(biāo)準(zhǔn),編碼采用其中三位數(shù)字編碼,并在最高位補(bǔ)1,保證對齊。因為國家編碼中前兩位可能為O,譬如中國國家編碼為156,如果不在最高位補(bǔ)I,三位的編碼156將變?yōu)閮晌坏?,補(bǔ)I后則固定為四位1156,便于統(tǒng)一國家代碼的格式已進(jìn)行編碼比較。
[0080]省(或州)級別采用ISO 3166-2標(biāo)準(zhǔn),標(biāo)準(zhǔn)中編碼為兩位或三位英文字母,或者兩位數(shù)字。我們將其轉(zhuǎn)換為六位的數(shù)字編碼——每個英文字母按照其在字母表中的順序轉(zhuǎn)換為01-26的數(shù)字,不足六位的則在前面補(bǔ)零。譬如美國華盛頓的編碼為WA,轉(zhuǎn)換為數(shù)字為2301,補(bǔ)零后為002301。
[0081]國外不區(qū)分市、區(qū)縣,全部在最后補(bǔ)四個零。舉例:美國華盛頓編碼:18400023010000,其中前四位1840為美國編碼,接著六位002301表示華盛頓州,最后四個零代表不區(qū)分城市和區(qū)縣。
[0082]對于國內(nèi)數(shù)據(jù),采用國家統(tǒng)計局公布的最新縣及縣以上行政區(qū)劃編碼,以下參考國家標(biāo)準(zhǔn)GB/T 2260中對行政區(qū)劃編碼的說明。
[0083]國家編碼同樣采用ISO 3166-1標(biāo)準(zhǔn),編碼為156,高位補(bǔ)I后變?yōu)?156。
[0084]行政區(qū)劃編碼為六位數(shù)字,其中前兩位代表省份(包括自治區(qū)、直轄市、特別行政區(qū))、中間兩位代表城市(包括地區(qū)、自治州、盟、直轄市所屬市轄區(qū)、省直轄縣級行政單位匯總)、最后兩位代表區(qū)縣(包括自治縣、縣級市、旗、自治旗、市轄區(qū)、林區(qū)、特區(qū))。對于臺灣、香港、澳門,在國家統(tǒng)計局的數(shù)據(jù)中將其歸為特別行政區(qū),采用省份編碼。將代表省份的前兩位數(shù)字補(bǔ)零,變?yōu)榱粩?shù)字,保證與國外省份編碼格式一致。
[0085]根據(jù)上述編碼就能確定每個地區(qū)的編碼。舉例:廣東省深圳市福田區(qū),中國國家編碼為156,廣東省編碼為440000,深圳市編碼為03,福田區(qū)代碼為04,則按照上述映射關(guān)系可以確定廣東省深圳市福田區(qū)的編碼為11564400000304。也就是說,在獲取地理位置信息之后,按照國家、省份、城市和區(qū)縣與編碼的映射關(guān)系可以確定每個地理位置信息對應(yīng)的地理位置編碼。
[0086]優(yōu)選地,數(shù)據(jù)處理裝置還包括:第二查找模塊,用于在獲取第一數(shù)據(jù)庫中的第一IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,在第一數(shù)據(jù)庫和第二數(shù)據(jù)庫中查找處于相同級別的地理位置編碼對應(yīng)的IP地址區(qū)間段;第一確定模塊,用于將相同級別中屬于第一數(shù)據(jù)庫中的IP地址區(qū)間段作為第一 IP地址的區(qū)間段,屬于第二數(shù)據(jù)庫中的IP地址區(qū)間段作為第二 IP地址的區(qū)間段。
[0087]在進(jìn)行IP地址數(shù)據(jù)的對比時,可以采用逐級對比的方式??梢岳斫獾氖牵?dāng)兩個IP地址數(shù)據(jù)庫中低級別的IP地址數(shù)據(jù)均相同時,則高一級別的IP地址數(shù)據(jù)也相同;當(dāng)兩個IP地址數(shù)據(jù)庫中高級別的IP地址數(shù)據(jù)不相同時,則低級別的IP地址數(shù)據(jù)也不相同;通過逐級比較兩個IP地址數(shù)據(jù)庫中的數(shù)據(jù),可以逐級判斷出兩個IP地址數(shù)據(jù)的差異率,從而確定兩個IP地址數(shù)據(jù)庫的整體差異。
[0088]例如,對比兩個不同的IP地址數(shù)據(jù)庫中廣東省的數(shù)據(jù)差異。首先對比區(qū)縣級別的IP地址數(shù)據(jù)的差異,也就是對比編碼的前12位均為115644000003,最后兩位編碼不同的IP地址數(shù)據(jù)庫的差異,如果編碼的前12位均為115644000003的IP地址數(shù)據(jù)庫中的IP地址數(shù)據(jù)均相同,那么說明在兩個IP地址數(shù)據(jù)庫中廣東省深圳市的數(shù)據(jù)是相同的。然后在比較廣東省內(nèi)不同城市的IP地址數(shù)據(jù)的差異率,依次類推。
[0089]通過上述實(shí)施例,將地理位置信息轉(zhuǎn)換為地理位置編碼,實(shí)現(xiàn)了地理位置信息的標(biāo)準(zhǔn)化,編碼的形式不僅便于電腦進(jìn)行識別,還根據(jù)地理位置編碼與地理位置的一一對應(yīng),以及不同數(shù)據(jù)中的相同的編碼對應(yīng)相同的地理位置的特性,便于確定進(jìn)行對比的對象。從而能夠精確對比出不同數(shù)據(jù)庫中,相同地理位置的IP地址的差異。另外,將所有的IP地址數(shù)據(jù)庫中的地理位置信息都更新為標(biāo)準(zhǔn)地理位置編碼,并不會更改IP地址本身,因此,即時IP地址有變化,還可以將其對應(yīng)的地理位置信息轉(zhuǎn)換為相應(yīng)的地理位置編碼,而進(jìn)行轉(zhuǎn)換所需要的映射關(guān)系還同上述實(shí)施例中相同,也就是說,只需要一次性將地理位置信息轉(zhuǎn)換為地理位置編碼即可,不需要重復(fù)的工作。
[0090]優(yōu)選地,映射單元包括:第一映射模塊,用于將第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn);第二映射模塊,用于將第二 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及第二確定模塊,用于依次將兩個第一端點(diǎn)和兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為多個子區(qū)間段中的一個子區(qū)間段。
[0091]如圖2 所示,第一 IP地址的區(qū)間段為 0.0.0.0, 0.0.0.100,0.0.0.101,0.0.0.255,其映射到IP數(shù)據(jù)軸上得到四個端點(diǎn),分別為0.0.0.0,0.0.0.100,0.0.0.101和0.0.0.255。第二 IP地址的區(qū)間段映射到IP數(shù)據(jù)軸上同樣得到四個端點(diǎn):0.0.0.0,0.0.0.150,
0.0.0.151,0.0.0.255,如圖2的IP數(shù)據(jù)軸上具有六個端點(diǎn),相鄰兩個端點(diǎn)構(gòu)成一個子區(qū)間段,那么六個端點(diǎn)構(gòu)成3個子區(qū)間段,也就是圖2中子區(qū)間段①、子區(qū)間段②和子區(qū)間段③。
[0092]優(yōu)選地,第二確定模塊還用于用半開半閉區(qū)間表示子區(qū)間,其中,半開半閉區(qū)間為左開右閉區(qū)間,或者半開半閉區(qū)間為左閉右開區(qū)間。
[0093]為了便于對比兩個相同區(qū)間段的IP地址數(shù)據(jù),按照圖2所示的方式將IP地址區(qū)間段進(jìn)行拆分,使得拆分后得到的子區(qū)間段之間沒有重疊。表示一個區(qū)間段通常采用全閉區(qū)間的表示,但是這種方式容易導(dǎo)致數(shù)據(jù)重復(fù),為了避免數(shù)據(jù)重復(fù),則采用半開半閉區(qū)間。
[0094]例如,數(shù)據(jù)源A的區(qū)間是[I, 10]、[11,20],數(shù)據(jù)源B的區(qū)間段是[1,9], [10,20],按照圖2所示的拆分方法,得到的端點(diǎn)為1,9,10,11,20。拆分得到的區(qū)間段為[1,9],[9,10], [10,11],[11,20],因為是全閉區(qū)間,所以可以看到其中端點(diǎn)9、10、11出現(xiàn)在多個區(qū)間中,導(dǎo)致數(shù)據(jù)重復(fù)。由于IP地址數(shù)據(jù)為離散數(shù)據(jù),即使其考慮端點(diǎn)不重復(fù),生成子區(qū)間段[1,9],[10, 11], [12,20]仍然是不正確的,而正確的區(qū)間范圍應(yīng)該為[1,9],[10, 10],
[11, 20]ο
[0095]如果將區(qū)間段改為半開半閉區(qū)間,則上述例子將變?yōu)閿?shù)據(jù)源A的區(qū)間為[1,11),[11,21),其中,中括號是閉區(qū)間,表示包含,而小括號表示開區(qū)間,表示不包含。相應(yīng)的數(shù)據(jù)源B的區(qū)間則為[1,10),[10,21),合并后的IP數(shù)軸為1,10,11,21,拆分后的子區(qū)間段分別為[1,10),[10,11), [11,21),可以看到,拆分后的子區(qū)間段全部屬于原區(qū)間段內(nèi)的子區(qū)間段,數(shù)據(jù)完整且沒有數(shù)據(jù)重復(fù)。
[0096]需要說明的是,此時采用的半開半閉區(qū)間中,統(tǒng)一采用左開右閉區(qū)間或者左閉右開區(qū)間,以避免數(shù)據(jù)重復(fù)。
[0097]上述實(shí)施例中的集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在上述計算機(jī)可讀取的存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在存儲介質(zhì)中,包括若干指令用以使得一臺或多臺計算機(jī)設(shè)備(可為個人計算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。
[0098]在本發(fā)明的上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0099]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種IP地址數(shù)據(jù)的數(shù)據(jù)處理方法,其特征在于,包括: 獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,所述第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,所述第二 IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼; 將所述第一 IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段; 獲取所述多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,所述地理位置編碼包括第一地理位置編碼和第二地理位置編碼;以及 計算由所述多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,所述第一數(shù)值為對應(yīng)的所述第一地理位置編碼和所述第二地理位置編碼為不同的地理位置編碼的IP地址的個數(shù),所述第二數(shù)值為由所述多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,在獲取第一數(shù)據(jù)庫中的第一IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,所述數(shù)據(jù)處理方法包括: 獲取所述第一 IP地址數(shù)據(jù)中的第一地理位置信息和所述第二 IP地址數(shù)據(jù)中的第二地理位置信息; 按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理方法,其特征在于,按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼包括: 獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼; 依次組合所述國家級別、所述省份級別、所述城市級別和所述區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼; 查找地理位置編碼與地理位置信息的映射關(guān)系;以及 按照所述映射關(guān)系將所述第一地理位置信息映射為所述第一地理位置編碼,并且按照所述映射關(guān)系將所述第二地理位置信息映射為所述第二地理位置編碼。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其特征在于,在獲取第一數(shù)據(jù)庫中的第一IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù)之前,所述數(shù)據(jù)處理方法還包括: 在所述第一數(shù)據(jù)庫和所述第二數(shù)據(jù)庫中查找處于相同級別的所述地理位置編碼對應(yīng)的IP地址區(qū)間段; 將相同級別中屬于所述第一數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第一 IP地址的區(qū)間段,屬于所述第二數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第二 IP地址的區(qū)間段。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,將所述第一IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段包括: 將所述第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn); 將所述第二 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及 依次將所述兩個第一端點(diǎn)和所述兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為所述多個子區(qū)間段中的一個子區(qū)間段。
6.一種IP地址數(shù)據(jù)的數(shù)據(jù)處理裝置,其特征在于,包括: 第一獲取單元,用于獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二 IP地址數(shù)據(jù),其中,所述第一 IP地址數(shù)據(jù)表示第一 IP地址的區(qū)間段和第一地理位置編碼,所述第二 IP地址數(shù)據(jù)表示第二 IP地址區(qū)間段和第二地理位置編碼; 映射單元,用于將所述第一 IP地址的區(qū)間段和所述第二 IP地址的區(qū)間段映射到IP地址數(shù)據(jù)軸上,得到多個子區(qū)間段; 第二獲取單元,用于獲取所述多個子區(qū)間段中每個子區(qū)間段對應(yīng)的地理位置編碼,其中,所述地理位置編碼包括第一地理位置編碼和第二地理位置編碼;以及 計算單元,用于計算由所述多個子區(qū)間段構(gòu)成的區(qū)間段內(nèi)的第一數(shù)值與第二數(shù)值的比值,其中,所述第一數(shù)值為對應(yīng)的所述第一地理位置編碼和所述第二地理位置編碼為不同的地理位置編碼的IP地址的個數(shù),所述第二數(shù)值為由所述多個子區(qū)間段構(gòu)成的區(qū)間段對應(yīng)的IP地址的個數(shù)。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)處理裝置包括: 第三獲取單元,用于在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二IP地址數(shù)據(jù)之前,獲取所述第一 IP地址數(shù)據(jù)中的第一地理位置信息和所述第二 IP地址數(shù)據(jù)中的第二地理位置信息; 轉(zhuǎn)換單元,用于按照預(yù)定格式將所述第一地理位置信息轉(zhuǎn)換為所述第一地理位置編碼,并且按照所述預(yù)定格式將所述第二地理位置信息轉(zhuǎn)換為所述第二地理位置編碼。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)處理裝置,其特征在于,所述轉(zhuǎn)換單元包括: 第四獲取模塊,用于獲取國家級別、省份級別、城市級別和區(qū)縣級別的編碼; 組合模塊,用于依次組合所述國家級別、所述省份級別、所述城市級別和所述區(qū)縣級別的編碼,將組合結(jié)果作為地理位置編碼; 第一查找模塊,用于查找地理位置編碼與地理位置信息的映射關(guān)系;以及映射模塊,用于按照所述映射關(guān)系將所述第一地理位置信息映射為所述第一地理位置編碼,并且按照所述映射關(guān)系將所述第二地理位置信息映射為所述第二地理位置編碼。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理裝置,其特征在于,所述數(shù)據(jù)處理裝置還包括: 第二查找模塊,用于在獲取第一數(shù)據(jù)庫中的第一 IP地址數(shù)據(jù)和第二數(shù)據(jù)庫中的第二IP地址數(shù)據(jù)之前,在所述第一數(shù)據(jù)庫和所述第二數(shù)據(jù)庫中查找處于相同級別的所述地理位置編碼對應(yīng)的IP地址區(qū)間段; 第一確定模塊,用于將相同級別中屬于所述第一數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第一 IP地址的區(qū)間段,屬于所述第二數(shù)據(jù)庫中的所述IP地址區(qū)間段作為所述第二 IP地址的區(qū)間段。
10.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理裝置,其特征在于,所述映射單元包括: 第一映射模塊,用于將所述第一 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第一端點(diǎn); 第二映射模塊,用于將所述第二 IP地址的區(qū)間段的起始點(diǎn)和結(jié)束點(diǎn)映射到所述IP地址數(shù)據(jù)軸上,得到兩個第二端點(diǎn);以及 第二確定模塊,用于依次將所述兩個第一端點(diǎn)和所述兩個第二端點(diǎn)中的相鄰兩個端點(diǎn)作為所述多個子區(qū)間段中的一個子區(qū)間段。
【文檔編號】H04L29/12GK104202441SQ201410459082
【公開日】2014年12月10日 申請日期:2014年9月10日 優(yōu)先權(quán)日:2014年9月10日
【發(fā)明者】饒峰云, 楊基彬 申請人:北京國雙科技有限公司