欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)排重方法及系統(tǒng)的制作方法

文檔序號:10624795閱讀:579來源:國知局
數(shù)據(jù)排重方法及系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝藬?shù)據(jù)排重方法及系統(tǒng)。該方法包括:將待處理的數(shù)據(jù)集分配到多臺服務器,其中,每臺服務器被分配數(shù)據(jù)集中的多個子集,每個子集中的每個數(shù)據(jù)均包括具有相同屬性的第一數(shù)據(jù)元;每臺服務器至少針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集;以及至少針對多臺服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。在本申請中還給出了數(shù)據(jù)排重系統(tǒng)的示例架構(gòu),并給出了這樣的數(shù)據(jù)排重方法和系統(tǒng)的具體用例。本申請的技術(shù)方案大大減輕了每臺服務器的工作負載、節(jié)省了數(shù)據(jù)排重時間,有效地提高了數(shù)據(jù)排重的效率和精度、提高了系統(tǒng)響應速度。
【專利說明】
數(shù)據(jù)排重方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本申請一般地涉及數(shù)據(jù)處理領(lǐng)域,更具體地,本申請涉及數(shù)據(jù)排重方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著信息技術(shù)的不斷發(fā)展,各類數(shù)據(jù)大量涌現(xiàn),其中不乏重復性數(shù)據(jù),這些重復性數(shù)據(jù)不但給數(shù)據(jù)的存儲造成了負擔,有時數(shù)據(jù)的重復還會給后續(xù)操作帶來困難,比如,在電信行業(yè)中如果存在重復電話單就會造成重復收費、在互聯(lián)網(wǎng)廣告領(lǐng)域重復點擊也會造成重復計費、在文獻管理領(lǐng)域?qū)ν晃墨I的重復收錄和索引會給后續(xù)檢索帶來麻煩、在根據(jù)用戶量來預付費的情況下對用戶的重復計數(shù)也會導致重復計費等等。因此,對大量數(shù)據(jù)進行排重的需求越來越多。
[0003]隨著計算機的普及使用,人們很自然地想到使用計算機或服務器來進行海量數(shù)據(jù)的處理。但是,已有的數(shù)據(jù)排重方法通常使用單一服務器對大量數(shù)據(jù)進行處理,給服務器帶來巨大的工作負荷,并且數(shù)據(jù)排重過程往往是繁瑣且耗時的。
[0004]因此,希望提供簡單易行的數(shù)據(jù)排重解決方案,以快速、準確地對大量數(shù)據(jù)進行排重。

【發(fā)明內(nèi)容】

[0005]為了提供快速準確的數(shù)據(jù)排重解決方案,本申請?zhí)峁┝藬?shù)據(jù)排重方法及系統(tǒng)。
[0006]—方面,本申請?zhí)峁┝艘环N數(shù)據(jù)排重方法。該方法包括:
[0007]將待處理的數(shù)據(jù)集分配到多臺服務器,其中,每臺服務器被分配所述數(shù)據(jù)集中的多個子集,每個子集中的每個數(shù)據(jù)均包括具有相同屬性的第一數(shù)據(jù)元;
[0008]每臺服務器至少針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集;以及
[0009]至少針對所述多臺服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。
[0010]可選地,在上述數(shù)據(jù)排重方法中,每個子集對應于多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息。
[0011]可選地,在上述數(shù)據(jù)排重方法中,每臺服務器監(jiān)視多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息,并將每個地理區(qū)域內(nèi)的用戶信息存儲為一個子集。
[0012]可選地,在上述數(shù)據(jù)排重方法中,所述第一數(shù)據(jù)元是用戶ID。
[0013]可選地,在上述數(shù)據(jù)排重方法中,所述位置信息包括用戶所處的經(jīng)度和瑋度信息。
[0014]可選地,在上述數(shù)據(jù)排重方法中,與相鄰的地理區(qū)域?qū)淖蛹环峙涞剿龆嗯_服務器中的不同服務器上。
[0015]可選地,在上述數(shù)據(jù)排重方法中,每個子集中的各個數(shù)據(jù)具有不同的第一數(shù)據(jù)元。
[0016]可選地,在上述數(shù)據(jù)排重方法中,所述數(shù)據(jù)集與指定的時間單元相關(guān)聯(lián)。
[0017]可選地,在上述數(shù)據(jù)排重方法中,所述數(shù)據(jù)集中的每個數(shù)據(jù)還包括與用戶ID對應的經(jīng)瑋度信息。
[0018]另一方面,本申請還提供了一種數(shù)據(jù)排重系統(tǒng)。該系統(tǒng)包括:
[0019]多臺第一服務器,其中,每臺第一服務器被分配有待處理的數(shù)據(jù)集中的多個子集,每個子集中的每個數(shù)據(jù)均包括具有相同屬性的第一數(shù)據(jù)元;
[0020]每臺第一服務器被配置為至少針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集;以及
[0021]第二服務器,所述第二服務器被配置為至少針對所述多臺第一服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。
[0022]再一方面,本申請還提供了一種有形、非易失性計算機可讀介質(zhì),其上存儲有指令,當這些指令被一個或多個處理器執(zhí)行時,使得這些處理器,執(zhí)行上面描述的數(shù)據(jù)排重方法。
[0023]本申請的實施例的技術(shù)方案通過將待處理的數(shù)據(jù)集分配到多臺服務器,由每臺服務器分別對各自的數(shù)據(jù)集執(zhí)行預排重,然后對多臺服務器形成的全部預排重數(shù)據(jù)集執(zhí)行排重得到排重數(shù)據(jù)集,將存儲和計算負載分布到多臺服務器上,通過并行處理若干被切分的小規(guī)模問題(例如,每臺服務器各自的預排重運算),然后再對運算結(jié)果進行進一步求精來實現(xiàn)一項計算任務(例如,對多臺服務器形成的全部預排重數(shù)據(jù)集執(zhí)行排重),大大減輕了每臺服務器的工作負載、節(jié)省了數(shù)據(jù)處理時間,有效地提高了數(shù)據(jù)處理的效率,提高了系統(tǒng)響應速度。
【附圖說明】
[0024]為了更清楚地說明本申請的實施例的技術(shù)方案,下面將結(jié)合附圖對實施例進行描述,這些附圖形成了本文的一部分并通過圖解的方式示出了具體示例實施例,其中:
[0025]圖1為根據(jù)一個實施例的數(shù)據(jù)排重系統(tǒng)的架構(gòu)示意圖。
[0026]圖2為根據(jù)另一實施例的據(jù)排重系統(tǒng)的另一架構(gòu)示意圖。
[0027]圖3為示出了根據(jù)實施例的數(shù)據(jù)排重方法的過程的流程圖。
[0028]圖4為示出了根據(jù)一具體用例的數(shù)據(jù)排重方法的過程的流程圖。
【具體實施方式】
[0029]在下面對本申請的詳細描述中闡述了很多具體細節(jié),以便于充分理解本申請。但是,在沒有這些具體細節(jié)的情況下也可以實施本申請,對于本領(lǐng)域的技術(shù)人員來說是很明顯的。在另外一些示例里,沒有對公知的方法、過程和部件進行詳細的描述,以避免喧賓奪主、淡化了本申請的主要內(nèi)容。
[0030]在整個說明書和權(quán)利要求書中,術(shù)語或短語可能具有明確表述的意思之外的在上下文中暗示或暗指的有細微差別的含義。例如,術(shù)語“數(shù)據(jù)集”可以表示任何數(shù)據(jù)的集合,可以是多元數(shù)據(jù)也可以是一元數(shù)據(jù)的集合,可以是數(shù)字、字母、字符串、符號、文字等等多種形式。術(shù)語“數(shù)據(jù)元”表示數(shù)據(jù)集中的數(shù)據(jù)的組成元素,數(shù)據(jù)可以由一個或多個數(shù)據(jù)元組成。并且數(shù)據(jù)集可以根據(jù)預定的規(guī)則(例如,可以根據(jù)其中的某一數(shù)據(jù)元)被拆分成預定數(shù)目的子集。術(shù)語“服務器”也可以指代處理器、運算器等能夠?qū)崿F(xiàn)本申請描述的技術(shù)方案的任何計算器件與存儲器件的組合。短語“網(wǎng)格式的地理區(qū)域”在本申請中意指在地圖上進行劃分得到一系列網(wǎng)格,其中每個格子表示一個網(wǎng)格式的地理區(qū)域。短語“在一個實施例中”不一定指相同的實施例,并且短語“在另一實施例中”不一定指不同的實施例。例如,要求保護的主題旨在包括示例實施例全部或部分的組合。
[0031 ] 為了提供快速準確的數(shù)據(jù)排重解決方案,本申請的實施例提供了數(shù)據(jù)排重的方法和系統(tǒng)。
[0032]圖1給出了這樣的數(shù)據(jù)排重系統(tǒng)100的一個示例。如圖所示,系統(tǒng)100包括多臺第一服務器101和第二服務器102。在本申請中,服務器可以是傳統(tǒng)意義上的服務器,也可以是們能夠?qū)崿F(xiàn)其功能的其他器件,比如,處理器或運算器與存儲器的組合等等。在一個實施例中,第一服務器101和第二服務器102可以是相同的服務器。在另一實施例中,第二服務器102可由多臺第一服務器101之一來擔任。這些服務器通過網(wǎng)絡互連,以發(fā)送或接收數(shù)據(jù)和信令,并進行同步。網(wǎng)絡可以是任何類型的網(wǎng)絡,例如,公共交換電話網(wǎng)(PSTN)、互聯(lián)網(wǎng)(Internet)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAM)、有線網(wǎng)絡、無線網(wǎng)絡等的任意組合。
[0033]首先,假定待處理的數(shù)據(jù)集中的每個數(shù)據(jù)存在至少一個可供比較的數(shù)據(jù)元,稱為相同屬性的數(shù)據(jù)元。優(yōu)選地,數(shù)據(jù)集中的每個數(shù)據(jù)的每個相應數(shù)據(jù)元屬性都相同,即數(shù)據(jù)集中的數(shù)據(jù)全部按照相同的格式進行存儲。待處理的數(shù)據(jù)集中可能存在一個或多個重復數(shù)據(jù)。所謂重復數(shù)據(jù)并不是指數(shù)據(jù)完全相同,而是在數(shù)據(jù)處理中將要考慮的一個或多個數(shù)據(jù)元相同。待處理的數(shù)據(jù)集被劃分為多個子集。優(yōu)選地,數(shù)據(jù)集的每個子集中的數(shù)據(jù)具有不同的第一數(shù)據(jù)元。這些子集被分配給多臺第一服務器101,使得每臺第一服務器101被分配有待處理的數(shù)據(jù)集中的一個或多個子集。接下來,每臺第一服務器101針對分配給該服務器的全部子集中的至少第一數(shù)據(jù)元取交集。全部多臺第一服務器101的處理結(jié)果組成預排重數(shù)據(jù)集。預排重數(shù)據(jù)集被傳輸?shù)降诙掌?02。第二服務器102同樣針對預排重數(shù)據(jù)集中的至少第一數(shù)據(jù)元取交集。從而得到針對至少第一數(shù)據(jù)元的排重數(shù)據(jù)集。在其他實施例中,排重可以針對兩個或更多個數(shù)據(jù)元進行。
[0034]在需要排重的數(shù)據(jù)量非常龐大,而且可以用于排重的服務器足夠多的情況下,可以使用圖2所提供的數(shù)據(jù)排重系統(tǒng)200。在圖2中,數(shù)據(jù)排重系統(tǒng)200包括多臺第一服務器201、多臺第二服務器202和第三服務器203,其中第二服務器202的數(shù)目小于第一服務器201的數(shù)目。在一個實施例中,第一服務器201、第二服務器202和第三服務器203可以是相同的服務器。在另一實施例中,多臺第二服務器202和第三服務器203可由多臺第一服務器201中的一部分來擔任。這些服務器通過網(wǎng)絡互連,以發(fā)送或接收數(shù)據(jù)和信令,并進行同步。
[0035]首先,假定待處理的數(shù)據(jù)集中的每個數(shù)據(jù)存在至少一個可供比較的數(shù)據(jù)元,稱為相同屬性的數(shù)據(jù)元。優(yōu)選地,數(shù)據(jù)集中的每個數(shù)據(jù)的每個相應數(shù)據(jù)元屬性都相同,即數(shù)據(jù)集中的數(shù)據(jù)全部按照相同的格式進行存儲。待處理的數(shù)據(jù)集中可能存在一個或多個重復數(shù)據(jù)。所謂重復數(shù)據(jù)并不是指數(shù)據(jù)完全相同,而是在數(shù)據(jù)處理中將要考慮的一個或多個數(shù)據(jù)元相同。待處理的數(shù)據(jù)集被劃分為多個子集。優(yōu)選地,數(shù)據(jù)集的每個子集中的數(shù)據(jù)具有不同的第一數(shù)據(jù)元。這些子集被分配給多臺第一服務器201,使得每臺第一服務器201被分配有待處理的數(shù)據(jù)集中的一個或多個子集。接下來,每臺第一服務器201針對分配給該服務器的全部子集中的至少第一數(shù)據(jù)元取交集。此形成第一預排重數(shù)據(jù)集。第一預排重數(shù)據(jù)集被進一步分配給多臺第二服務器202。第二服務器202同樣針對預排重數(shù)據(jù)集中的至少第一數(shù)據(jù)元取交集。從而得到針對至少第一數(shù)據(jù)元的第二預排重數(shù)據(jù)集。第二預排重數(shù)據(jù)集被傳輸至第三服務器203,由第三服務器203進一步針對至少第一數(shù)據(jù)元取交集,得到排重后的數(shù)據(jù)集。
[0036]可選地,在其他實施例中,多臺第一服務器201中的每臺第一服務器201針對第一數(shù)據(jù)元對分配給該服務器的全部子集求交集,得到第一預排重數(shù)據(jù)集。接著,多臺第一服務器202中的每臺第一服務器202針對第二數(shù)據(jù)元對分配給該服務器的全部第一預排重數(shù)據(jù)集的子集求交集,得到第二預排重數(shù)據(jù)集。而第三服務器203可以同時針對第一數(shù)據(jù)元和第二數(shù)據(jù)元對第二預排重數(shù)據(jù)集的各個子集求交集,從而得出待處理數(shù)據(jù)集關(guān)于第一數(shù)據(jù)元和第二數(shù)據(jù)元的排重數(shù)據(jù)集。當然,排重也可以針對更多的數(shù)據(jù)元進行。
[0037]雖然,在上面的實施例中僅給出了 2級和3級服務器架構(gòu),但是本領(lǐng)域普通技術(shù)人員將理解的是,在適當?shù)那闆r下,本申請的數(shù)據(jù)排重系統(tǒng)可以具有更多級的服務器架構(gòu),可以處理更多的數(shù)據(jù),可以針對更多的數(shù)據(jù)元對數(shù)據(jù)集進行排重運算。上面的實施例僅是示例性的而不是限制性的。
[0038]圖3示出了根據(jù)實施例的數(shù)據(jù)排重方法300的流程圖。如前面所描述的,假定待處理的數(shù)據(jù)集中的每個數(shù)據(jù)存在至少一個可供比較的數(shù)據(jù)元,稱為相同屬性的數(shù)據(jù)元。優(yōu)選地,數(shù)據(jù)集中的每個數(shù)據(jù)的每個相應數(shù)據(jù)元屬性都相同,即數(shù)據(jù)集中的數(shù)據(jù)全部按照相同的格式進行存儲。待處理的數(shù)據(jù)集中可能存在一個或多個重復數(shù)據(jù)。所謂重復數(shù)據(jù)并不是指數(shù)據(jù)完全相同,而是在數(shù)據(jù)處理中將要考慮的一個或多個數(shù)據(jù)元相同。待處理的數(shù)據(jù)集被劃分為多個子集。優(yōu)選地,數(shù)據(jù)集的每個子集中的數(shù)據(jù)具有不同的第一數(shù)據(jù)元。過程300開始于步驟S310,在步驟S310中,將數(shù)據(jù)集的多個子集分配給多臺服務器。每臺服務器分配有待處理數(shù)據(jù)的多個子集,每個子集中的每個數(shù)據(jù)均至少包括具有相同屬性的第一數(shù)據(jù)元。在步驟S320中,多臺服務器中的每臺服務器針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集。接下來,在步驟S330中,針對多臺服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。過程300結(jié)束。
[0039]應該指出的是,上面僅描述了數(shù)據(jù)排重的一般過程,即包括預排重和排重,在一些實施例中,這樣的預排重步驟可能不止執(zhí)行一次,而且可以針對不止一個數(shù)據(jù)元進行,比如,第一預排重可以由多臺第一服務器中的每臺第一服務器分別針對第一數(shù)據(jù)元對待處理數(shù)據(jù)的多個子集進行預排重,得到第一預排重數(shù)據(jù)集;第二預排重可以由多臺第二服務器中的每臺第二服務器分別針對第二數(shù)據(jù)元(也可以繼續(xù)針對第一數(shù)據(jù)元)對第一預排重數(shù)據(jù)集的多個子集進行預排重,得到第二預排重數(shù)據(jù)集;接著,可以由第三服務器針對第一數(shù)據(jù)元和第二數(shù)據(jù)元(也可以只針對第一數(shù)據(jù)元)對第二預排重數(shù)據(jù)集的多個子集進行排重,最后得到針對第一數(shù)據(jù)元和第二數(shù)據(jù)元的排重數(shù)據(jù)集。根據(jù)上述描述,本領(lǐng)域普通技術(shù)人員可以想到本申請的技術(shù)方案可以通過更多級預排重針對數(shù)據(jù)所包含的更多數(shù)據(jù)元對待處理數(shù)據(jù)進行排重。
[0040]下面將結(jié)合具體實例介紹上面描述的數(shù)據(jù)排重方法的應用,但是本領(lǐng)域普通技術(shù)人員應當理解本申請的數(shù)據(jù)排重方法還可以應用于其他實例。
[0041]隨著智能移動終端的普及使用,越來越多得用戶開始借助于移動終端上安裝的各種應用來獲取信息,這使得商家看到了商機,越來越多的商家借助移動終端上安裝的各種應用來向移動終端的用戶推送信息,從而推廣其產(chǎn)品或服務。往往,商家所推送的產(chǎn)品或服務信息對其周圍一定距離范圍內(nèi)的移動終端的用戶而言是有用信息,而對于處于較遠地域的用戶而言就不那么有用了。因此,商家希望僅向其周圍一定距離范圍內(nèi)的移動終端推送產(chǎn)品或服務信息,從而控制成本、提高回報率。這就涉及到預估一定距離范圍內(nèi)、在某一時間單元(比如,一天)內(nèi)的凈用戶數(shù),從而合理規(guī)劃信息投放時間段和地域范圍,獲得期望的回報率。
[0042]在指定時間單元內(nèi),用戶可能被重復登記在關(guān)于一定距離范圍的統(tǒng)計數(shù)據(jù)中(比如,用戶移動到一定距離范圍之外的地域之后又返回一定距離范圍之內(nèi),或者用戶退出或重新登錄相關(guān)應用等)。因此,簡單地記錄在在指定時間單元內(nèi)出現(xiàn)在一定距離范圍內(nèi)的用戶,會存在重復計數(shù),需要對用戶信息進行排重以得出一定距離范圍內(nèi)、在指定時間單元內(nèi)的凈用戶數(shù)。
[0043]在本實例中,應用上面描述的數(shù)據(jù)排重方法來對一定距離范圍內(nèi)、在指定時間單元內(nèi)的用戶信息進行排重。
[0044]在現(xiàn)有技術(shù)中,通過墨卡托投影將地球球面投影在二維平面上,對投影所得的二維平面進行四等分,并根據(jù)預定的距離單位(比如,I千米、2千米等等)逐步細分(比如,N次),得到多個(比如,#個)網(wǎng)格式的地理區(qū)域。從而,一定的地理范圍由一個或多個網(wǎng)格式的地理區(qū)域構(gòu)成。
[0045]在此情景下,數(shù)據(jù)集是一定距離范圍內(nèi)、在指定時間單元內(nèi)的用戶信息。數(shù)據(jù)集中的每個子集與多個網(wǎng)格式的地理區(qū)域中的不同的地理區(qū)域內(nèi)的用戶信息相對應。在實施例中,待處理的數(shù)據(jù)集被分配到多臺服務器,可以是將已有的用戶信息的多個子集分配到多臺服務器,或者,將多個網(wǎng)格式的地理區(qū)域分配給多臺服務器中的每臺服務器,由每臺服務器分別監(jiān)測被分配給該服務器的所有網(wǎng)格式的地理區(qū)域內(nèi)的用戶信息,并針對指定的時間單元(比如,一天)存儲為用戶信息的一個子集。
[0046]為了統(tǒng)計一定距離范圍內(nèi)、在指定時間單元內(nèi)的用戶信息,為每個用戶分配一個用戶ID,并將用戶ID作為用戶信息的第一數(shù)據(jù)元來存儲用戶信息。可選地,用戶信息還可以包括對應的位置信息(比如,經(jīng)瑋度、地理標志等),以及用戶出現(xiàn)在該地理位置的時間
?目息O
[0047]如上面所述的,將待處理的數(shù)據(jù)集分配到多臺服務器例如可以是將與相鄰的地理區(qū)域?qū)淖蛹峙涞蕉嗯_服務器中的不同服務器。優(yōu)選地,每個子集中的各條用戶信息具有不同的用戶ID,即在每個子集中,針對同一用戶ID僅保存一條用戶信息。由于同一用戶在同一時間單元內(nèi)出現(xiàn)在不相鄰地理區(qū)域內(nèi)的幾率相對出現(xiàn)在相鄰地理區(qū)域內(nèi)的幾率小得多,將相鄰地理區(qū)域?qū)淖蛹峙浣o不同服務器,這大大減輕了每臺服務器的運算負載,有效地提高了運算速率。
[0048]在可替代的實施例中,將待處理的數(shù)據(jù)集分配到多臺服務器例如可以通過將多個網(wǎng)格式的地理區(qū)域分配給多臺服務器中的每臺服務器,由每臺服務器分別監(jiān)測被分配給該服務器的所有網(wǎng)格式的地理區(qū)域內(nèi)的用戶信息,并針對指定的時間單元(比如,一天)將每個地理區(qū)域內(nèi)的用戶信息存儲為一個子集。優(yōu)選地,每個子集中的各條用戶信息具有不同的用戶ID,即每臺服務器在指定時間單元內(nèi)針對同一用戶ID在屬于一個地理區(qū)域的子集內(nèi)僅存儲一條用戶信息。由于同一用戶在同一時間單元內(nèi)出現(xiàn)在不相鄰地理區(qū)域內(nèi)的幾率相對出現(xiàn)在相鄰地理區(qū)域內(nèi)的幾率小得多,將相鄰地理區(qū)域分配給不同服務器進行監(jiān)測并存儲,這大大減輕了每臺服務器的運算負載,有效地提高了運算速率。下面參考圖4描述根據(jù)該具體實施例的數(shù)據(jù)排重方法。
[0049]圖4示出了在該實施例中的數(shù)據(jù)排重方法400的流程圖。過程400開始于步驟S410,首先,在步驟S410,將二維地圖劃分為多個網(wǎng)格式的地理區(qū)域。在步驟S420,將多個網(wǎng)格式的地理區(qū)域分配到多臺服務器。優(yōu)選地,相鄰地理區(qū)域被分配給多臺服務器中的不同服務器。在步驟S430中,每臺服務器監(jiān)測被分配給該服務器的每個地理區(qū)域內(nèi)的用戶,并針對指定時間單元將用戶ID作為第一數(shù)據(jù)元來存儲用戶信息,將每個地理區(qū)域內(nèi)的用戶信息存儲為用戶信息的一個子集。優(yōu)選地,每個子集中的各個用戶信息具有不同的用戶ID0另外,用戶ID可以與用戶所處的地理位置信息,以及用戶在該地理位置的時間信息相關(guān)聯(lián)地存儲。在步驟S440,每臺服務器針對該服務器監(jiān)測得到的全部子集中的用戶ID取交集,獲得預排重用戶信息。接下來,在步驟S450,針對多臺服務器形成的全部預排重用戶信息中的用戶ID取交集,以得到排重用戶信息。過程400結(jié)束。
[0050]上述實施例的技術(shù)方案,通過將網(wǎng)格狀的地理區(qū)域均勻地分配到多臺服務器,由每臺服務器分別監(jiān)測分配給該服務器的每個地理區(qū)域內(nèi)的用戶,并針對指定時間單元將用戶ID作為第一數(shù)據(jù)元來存儲用戶信息,將每個地理區(qū)域內(nèi)的用戶信息存儲為一個子集,將監(jiān)測、存儲和計算負載分布到多臺服務器上進行,通過并行處理若干被切分的小規(guī)模問題(例如,每臺服務器各自的交集運算),然后再對處理結(jié)果進行匯總和進一步求精來實現(xiàn)一項計算任務(例如,針對預排重用戶信息再進行交集運算得到排重用戶信息),大大減輕了每臺服務器的工作負載、節(jié)省了數(shù)據(jù)處理時間,有效地提高了數(shù)據(jù)處理的效率和精度。
[0051]上面給出了本申請所提供的數(shù)據(jù)排重方法和系統(tǒng)的一個用例,但是本申請普通技術(shù)人員應當理解,本申請所提供的數(shù)據(jù)排重方法和系統(tǒng)還可以用于其他各種數(shù)據(jù)的排重,比如,在電信領(lǐng)域用于話單的排重、在文獻管理領(lǐng)域用于文獻資料的排重、等等,在此不逐一例舉。
[0052]另外,本申請的數(shù)據(jù)排重方法可以作為邏輯指令被編碼在一個或多個有形計算機可讀介質(zhì)中以供一個或多個處理器執(zhí)行。例如,計算機可讀介質(zhì)例如可以是電子介質(zhì)(例如,RAM (隨機存取存儲器)、R0M(只讀存儲器)、EPROM (可擦除可編程只讀存儲器))、磁介質(zhì)、光介質(zhì)(例如,⑶、DVD)、電磁介質(zhì)、半導體技術(shù)介質(zhì)或任意其他合適的介質(zhì)。
[0053]以上在實施例中描述了本申請的優(yōu)選實施例。盡管在特定實施例中描述了本申請,但是應當理解在不脫離本發(fā)明的范圍的情況下可以進行許多變化和修改。因此,希望以上詳細描述被認為是示意性的而不是限制性的,并且要理解意欲限定本發(fā)明的精神和范圍的是所附的權(quán)利要求,包括所有等同物。
【主權(quán)項】
1.一種數(shù)據(jù)排重方法,包括: 將待處理的數(shù)據(jù)集分配到多臺服務器,其中,每臺服務器被分配所述數(shù)據(jù)集中的多個子集,每個子集中的每個數(shù)據(jù)均包括具有相同屬性的第一數(shù)據(jù)元; 每臺服務器至少針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集;以及 至少針對所述多臺服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。2.根據(jù)權(quán)利要求1所述的方法,其中,每個子集對應于多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息。3.根據(jù)權(quán)利要求1所述的方法,其中,每臺服務器監(jiān)視多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息,并將每個地理區(qū)域內(nèi)的用戶信息存儲為一個子集。4.根據(jù)權(quán)利要求2或3所述的方法,其中,所述第一數(shù)據(jù)元是用戶ID。5.根據(jù)權(quán)利要求2所述的方法,其中,將待處理的數(shù)據(jù)集分配到多臺服務器包括: 將與所述多個網(wǎng)格式的地理區(qū)域中的相鄰地理區(qū)域?qū)淖蛹峙浣o所述多臺服務器中的不同服務器。6.根據(jù)權(quán)利要求1所述的方法,其中,每個子集中的各個數(shù)據(jù)具有不同的第一數(shù)據(jù)元。7.根據(jù)權(quán)利要求1所述的方法,其中,所述數(shù)據(jù)集與指定的時間單元相關(guān)聯(lián)。8.根據(jù)權(quán)利要求4所述的方法,其中,所述數(shù)據(jù)集中的每個數(shù)據(jù)還包括與用戶ID對應的經(jīng)瑋度信息。9.一種數(shù)據(jù)排重系統(tǒng),包括: 多臺第一服務器,其中,每臺第一服務器被分配有待處理的數(shù)據(jù)集中的多個子集,每個子集中的每個數(shù)據(jù)均包括具有相同屬性的第一數(shù)據(jù)元; 每臺第一服務器被配置為至少針對分配給該服務器的全部子集中的第一數(shù)據(jù)元取交集,以形成預排重數(shù)據(jù)集;以及 第二服務器,所述第二服務器被配置為至少針對所述多臺第一服務器形成的全部預排重數(shù)據(jù)集中的第一數(shù)據(jù)元取交集,以得到排重數(shù)據(jù)集。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,每個子集對應于多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息。11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,每臺服務器監(jiān)視多個網(wǎng)格式的地理區(qū)域中的不同地理區(qū)域內(nèi)的用戶信息,并將每個地理區(qū)域內(nèi)的用戶信息存儲為一個子集。12.根據(jù)權(quán)利要求10或11所述的系統(tǒng),其中,所述第一數(shù)據(jù)元是用戶ID。13.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,與所述多個網(wǎng)格式的地理區(qū)域中的相鄰地理區(qū)域?qū)淖蛹环峙涞剿龆嗯_第一服務器中的不同第一服務器上。14.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,每個子集中的各個數(shù)據(jù)具有不同的第一數(shù)據(jù)J L ο15.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述數(shù)據(jù)集與指定的時間單元相關(guān)聯(lián)。16.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,所述數(shù)據(jù)集中的每個數(shù)據(jù)還包括與用戶ID對應的經(jīng)瑋度信息。17.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,所述第二服務器可由所述第一服務器之一來擔任。18.一種存儲有指令的有形、非易失性計算機可讀介質(zhì),當所述指令被一個或多個處理器運行時,使得所述一個或多個處理器執(zhí)行如權(quán)利要求1-8中的任一項所述的數(shù)據(jù)排重方法。
【文檔編號】G06F17/30GK105989022SQ201510050583
【公開日】2016年10月5日
【申請日】2015年1月30日
【發(fā)明人】張艷魁, 高永芝
【申請人】北京陌陌信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
莱州市| 慈利县| 翁源县| 德钦县| 龙游县| 泾阳县| 大渡口区| 舞阳县| 四子王旗| 获嘉县| 德兴市| 宜都市| 孝感市| 文登市| 太仓市| 葵青区| 阳信县| 鹿泉市| 伊宁县| 夏津县| 宜良县| 宁城县| 许昌市| 许昌县| 厦门市| 齐齐哈尔市| 专栏| 澳门| 通山县| 元朗区| 栖霞市| 柳林县| 屏山县| 孟州市| 若尔盖县| 钟祥市| 松江区| 北票市| 河东区| 北川| 百色市|