欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種海量數(shù)據(jù)統(tǒng)計方法

文檔序號:6555508閱讀:241來源:國知局
專利名稱:一種海量數(shù)據(jù)統(tǒng)計方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息技術(shù),尤其涉及一種海量數(shù)據(jù)統(tǒng)計方法。
背景技術(shù)
傳統(tǒng)大型應(yīng)用軟件系統(tǒng)對其應(yīng)用的管理對象采集必要的數(shù)據(jù)進(jìn)行統(tǒng)計分析,一般而言,統(tǒng)計分析的數(shù)據(jù)量都非常巨大,如中國移動在進(jìn)行業(yè)務(wù)推廣過程中需要針對不同的用戶群采用不同的推廣策略。目前分析用戶群主要是根據(jù)用戶產(chǎn)生的話單來分析,每個省的短信話單每天就有好幾百萬甚至上千萬,并且數(shù)據(jù)還要保存3個月。要從如此海量的數(shù)據(jù)中找出各類用戶群,并針對性地開展業(yè)務(wù)推廣,傳統(tǒng)的方法是先把話單數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,由于許多數(shù)據(jù)分布在不同的表中,因此需要根據(jù)多表關(guān)聯(lián)遍歷數(shù)據(jù)庫,當(dāng)同時關(guān)聯(lián)表超過3-4個時,查詢效率明顯降低,逐條記錄查詢、插入用戶話單和其他統(tǒng)計報表又將嚴(yán)重影響統(tǒng)計分析性能。況且,用戶按其屬性分類包括免費用戶群(黑名單),點播業(yè)務(wù)用戶群,點播業(yè)務(wù)高端用戶群,包月業(yè)務(wù)用戶群,包月業(yè)務(wù)高端用戶群,白銀用戶,黃金用戶,鉆石用戶。每一種用戶都有各自的查詢條件,每月還需根據(jù)上月的話單情況更新用戶分類數(shù)據(jù),完成如此多的業(yè)務(wù)統(tǒng)計分析按傳統(tǒng)的方法需要單獨的系統(tǒng),而且運行非常低,如和其他業(yè)務(wù)平臺共同運行則會嚴(yán)重影響其他業(yè)務(wù)的正常運行。
免費用戶群(黑名單)此類用戶只使用SP提供的免費業(yè)務(wù)或只在業(yè)務(wù)的免費期使用業(yè)務(wù),從不使用付費業(yè)務(wù)。這些用戶對短信業(yè)務(wù)費用非常敏感,是造成短信業(yè)務(wù)投訴的主要用戶群。我們將其定義為″黑名單″,是指在短信業(yè)務(wù)推廣過程中要盡量避免此類用戶。
點播業(yè)務(wù)用戶群此類用戶只使用SP提供的點播業(yè)務(wù),從不使用包月定制業(yè)務(wù)。這些用戶往往對SP的業(yè)務(wù)非常熟悉,對業(yè)務(wù)的及時性、專業(yè)性要求較高,對短信資費較為敏感,不過一旦業(yè)務(wù)定位符合其需要,此類用戶也極易成為點播業(yè)務(wù)的高端用戶。
點播業(yè)務(wù)高端用戶群此類用戶是點播業(yè)務(wù)的高端用戶。除了具備點播業(yè)務(wù)用戶的特點之外,此類用戶在點播業(yè)務(wù)上的支出較大,往往也能在短信中獲利。他們是點播業(yè)務(wù)的忠實用戶,較易接受短信業(yè)務(wù)的推廣。
高端的界定標(biāo)準(zhǔn)是每月點播的條數(shù)。可由用戶選擇。
包月業(yè)務(wù)用戶群此類用戶只使用SP提供的包月定制業(yè)務(wù)。這些用戶對SP的業(yè)務(wù)不是非常熟悉,對業(yè)務(wù)的成熟度要求較高,對短信資費不是非常敏感,較易接受短信業(yè)務(wù)的推廣。
包月業(yè)務(wù)高端用戶群此類用戶是包月業(yè)務(wù)的高端用戶。這些用戶對SP的業(yè)務(wù)非常熟悉,對業(yè)務(wù)的接納程度高,對短信資費不敏感,很容易接受短信業(yè)務(wù)的推廣。
高端的界定標(biāo)準(zhǔn)是每月包月業(yè)務(wù)的總項目數(shù)??捎捎脩暨x擇。
白銀用戶此類用戶屬于短信業(yè)務(wù)的高端用戶。這些用戶在短信業(yè)務(wù)上的花費較高。是運營商應(yīng)該采取一定的獎勵策略保有的用戶群。
此類用戶的界定標(biāo)準(zhǔn)是每月包月業(yè)務(wù)的總項目數(shù)與點播業(yè)務(wù)總條數(shù)的加權(quán)和。可由用戶選擇。
黃金用戶此類用戶屬于短信業(yè)務(wù)的高端用戶。這些用戶在短信業(yè)務(wù)上的花費較白銀用戶高。是運營商應(yīng)該采取更高的獎勵策略保有的用戶群。
此類用戶的界定標(biāo)準(zhǔn)是每月包月業(yè)務(wù)的總項目數(shù)與點播業(yè)務(wù)總條數(shù)的加權(quán)和??捎捎脩暨x擇。
鉆石用戶此類用戶屬于短信業(yè)務(wù)的高端用戶。這些用戶在短信業(yè)務(wù)上的花費較黃金用戶高。是運營商應(yīng)該想盡一切辦法保有的用戶群。
此類用戶的界定標(biāo)準(zhǔn)是每月包月業(yè)務(wù)的總項目數(shù)與點播業(yè)務(wù)總條數(shù)的加權(quán)和??捎捎脩暨x擇。

發(fā)明內(nèi)容
本發(fā)明的目的,在于提供一種海量數(shù)據(jù)統(tǒng)計方法。
本發(fā)明的目的是這樣實現(xiàn)的一種海量數(shù)據(jù)統(tǒng)計方法,包括以下內(nèi)容A、建立MT、MC、MO三個數(shù)據(jù)庫表結(jié)構(gòu)A1、把MT、MC、MO三個表分別分成多個分區(qū),每個分區(qū)相當(dāng)于一個數(shù)據(jù)庫小表,數(shù)據(jù)插入按分區(qū)進(jìn)行,按日期劃分分區(qū),分區(qū)號根據(jù)日期產(chǎn)生且值在分區(qū)號范圍內(nèi)循環(huán)更新;A2、在MT、MC、MO三個表中分別建立五個數(shù)據(jù)表空間,一個分區(qū)使用一個表空間,相隔五個號的分區(qū)使用相同的表空間,即第6個分區(qū)使用和第1個分區(qū)相同的表空間,其他類推;A3、將CDR話單按屬性區(qū)分為免費用戶群、點播用戶群和包月用戶群,將免費用戶群話單數(shù)據(jù)存放在MT表中、將點播用戶群話單數(shù)據(jù)存放在MC表中、將包月用戶群話單數(shù)據(jù)存放在MO表中;A4、各分區(qū)分別根據(jù)手機(jī)號建立索引;A5、建立免費用戶群表,該表包含用戶手機(jī)號碼和狀態(tài)二個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;A6、建立點播用戶群表,該表包含用戶手機(jī)號碼、狀態(tài)和點播數(shù)三個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;A7、建立包月用戶群表,該表包含用戶手機(jī)號碼、狀態(tài)和包月業(yè)務(wù)的項目數(shù)三個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;B、對特定屬性的用戶群從月初到月尾按天統(tǒng)計一個月的數(shù)據(jù)B1、查詢并保存該月CDR中的只使用免費業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;B2、查詢并保存該月CDR中的只使用點播業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;
B3、查詢并保存該月CDR中的只使用包月業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;B4、對免費用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效B5、對點播用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效;B6、對包月用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效。
步驟A1中所述的MT、MC、MO三個表分別分成91個分區(qū),用于保存連續(xù)90天的數(shù)據(jù),每天的數(shù)據(jù)依序插入各個分區(qū),當(dāng)90天的數(shù)據(jù)分別插入90個分區(qū)后,第91天的數(shù)據(jù)插入第91個分區(qū),然后刪除第1個分區(qū)的數(shù)據(jù),實現(xiàn)始終保存最近90天的數(shù)據(jù)。
步驟B1、中所述的查詢并保存該月CDR中的只使用免費業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄、步驟B2中所述的查詢并保存該月CDR中的只使用點播業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄、步驟B3中所述的查詢并保存該月CDR中的只使用包月業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄方法相同,步驟如下a、根據(jù)統(tǒng)計任務(wù)運行時間,計算上月第一天的日期;b、計算上月最后一天的日期;c、計算上月第一天的分區(qū)號;d、初始化參數(shù)計算日期=上月的第一天的日期;e、初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號;f、根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)插入用戶進(jìn)行查詢。
上述步驟f中所述的根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)插入用戶進(jìn)行查詢的方法如下f1、在特定屬性的用戶群表中根據(jù)分區(qū)號查詢所有特定屬性用戶的唯一的手機(jī)號,該手機(jī)號必須同時不在其它用戶群表中,該查詢結(jié)果不包含已存在特定屬性用戶群表中的手機(jī)號;f2、將查詢結(jié)果每100條作為一批插入數(shù)據(jù)庫,直到全部插完;f3、循環(huán)計算下一天的日期;f4、循環(huán)計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù);步驟B4中所述的對免費用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效、步驟B5中所述的對點播用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效、步驟B4中所述的對包月用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效的方法相同,步驟如下a、初始化參數(shù)計算日期=上月的第一天的日期;b、初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號;c、根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)更新用戶群表。
上述步驟c中所述的根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)更新用戶群表的方法如下c1、查詢特定屬性用戶群表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢特定用戶群表中其它用戶群的用戶手機(jī)號,取二者查詢結(jié)果的交集作為查詢結(jié)果;c2、將查詢結(jié)果每100條作為一批更新特定屬性用戶群表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完;c3、查詢特定屬性用戶群表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢另一特定屬性用戶群表中第三類特定屬性用戶群的用戶手機(jī)號,取二者查詢結(jié)果的交集作為查詢結(jié)果;c4、將查詢結(jié)果每100條作為一批更新特定用戶群表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完;c5、循環(huán)計算下一天日期;c6、循環(huán)計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù);步驟c1和c3中所述的交集為使用過其他業(yè)務(wù)的用戶。
本發(fā)明海量數(shù)據(jù)統(tǒng)計方法能夠避免由于數(shù)據(jù)量大而降低整個應(yīng)用系統(tǒng)性能,進(jìn)而降低整個軟件系統(tǒng)運行平臺的費用,提高其運行效率。例如當(dāng)將分區(qū)設(shè)置為91個時,由于90天的CDR數(shù)據(jù)被分別插到90個分區(qū)里,每個分區(qū)只有一天的數(shù)據(jù),分區(qū)上建有索引,數(shù)據(jù)的查詢和統(tǒng)計分析時可根據(jù)日期計算要查詢的分區(qū)號,根據(jù)分區(qū)號查找指定分區(qū)的數(shù)據(jù),由于每個分區(qū)的數(shù)據(jù)量只相當(dāng)于總數(shù)據(jù)的九十分之一,因此查詢和保存數(shù)據(jù)的速度也得到了極大的提高。多表關(guān)聯(lián)改為單表查詢大大提高了查詢速度。查詢結(jié)果的差集和交集技術(shù)又使需處理的數(shù)據(jù)量極大地減少,從而極大地提高了統(tǒng)計性能。批插入和更新技術(shù)的應(yīng)用使統(tǒng)計數(shù)據(jù)的保存速度也得到了極大的提高。系統(tǒng)還能自動保存90天的數(shù)據(jù)。該技術(shù)的應(yīng)用使得對系統(tǒng)的硬件投資大大地降低,充分滿足了中國移動對業(yè)務(wù)的需求。


圖1為本發(fā)明的應(yīng)用程序流程圖。
具體實施例方式
本發(fā)明提出了一種海量數(shù)據(jù)統(tǒng)計分析方法和處理系統(tǒng),下面結(jié)合免費用戶群(黑名單)的統(tǒng)計技術(shù)對發(fā)明的海量數(shù)據(jù)統(tǒng)計方法作進(jìn)一步的說明。
首先建立MT、MC、MO三個數(shù)據(jù)庫表,把每個表分成多個分區(qū),每個分區(qū)相當(dāng)一個小表,數(shù)據(jù)插入按分區(qū)進(jìn)行,按日期劃分分區(qū)。如需保存90天的數(shù)據(jù),則建立91個分區(qū),每天的數(shù)據(jù)插入各自的分區(qū),當(dāng)90天的數(shù)據(jù)分別插入90個分區(qū)后,第91天的數(shù)據(jù)插入第91個分區(qū),然后刪除第一個分區(qū)的數(shù)據(jù),這樣始終能保存最近90天的數(shù)據(jù)。分區(qū)號根據(jù)日期產(chǎn)生且值在1-91之間循環(huán)。本發(fā)明采用這一分區(qū)方案。
為進(jìn)一步提高數(shù)據(jù)庫并行插入和查詢效率,對三個數(shù)據(jù)庫表分別建立五個數(shù)據(jù)表空間,一個分區(qū)一個表空間,相隔五個的分區(qū)號使用相同的表空間,即第六個分區(qū)使用和第一個分區(qū)相同的表空間,其他類推。
然后根據(jù)CDR話單屬性,把話單數(shù)據(jù)分別存放在MT、MC、MO三個表中,即將免費用戶群話單數(shù)據(jù)存放在MT表中,將點播用戶群話單數(shù)據(jù)存放在MC表中,將包月用戶群話單數(shù)據(jù)存放在MO表中。這樣可減少每個表的數(shù)據(jù)量,提高查詢和保存速度。并在分區(qū)上根據(jù)手機(jī)號建立索引,以提高查詢效率。
建完了MT、MC、MO表后,還需建立免費用戶群(黑名單)表、點播用戶群表和包月用戶群表。免費用戶群表包含用戶手機(jī)號碼和狀態(tài)(無效,有效)二個字段。數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間。點播用戶群表包含用戶手機(jī)號碼,狀態(tài)(無效,有效)和點播數(shù)三個字段。數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間。包月用戶群表包含用戶手機(jī)號碼,狀態(tài)(無效,有效)和包月業(yè)務(wù)的項目數(shù)三個字段。數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間。
建立完數(shù)據(jù)庫表結(jié)構(gòu)后即可執(zhí)行相關(guān)統(tǒng)計。我們統(tǒng)計一個月的數(shù)據(jù)是根據(jù)按天統(tǒng)計的原理,即從該月的第一天統(tǒng)計到該月的最后一天,這樣就可以利用分區(qū)查詢和插入的方法大幅度提高數(shù)據(jù)查詢和插入的速度。圖1為本發(fā)明的應(yīng)用程序流程圖。下面結(jié)合圖1對本發(fā)明的海量數(shù)據(jù)統(tǒng)計方法說明如下首先查詢并保存該月CDR中的只使用免費業(yè)務(wù)并過濾已經(jīng)存在的記錄,方法如下1、根據(jù)統(tǒng)計任務(wù)運行時間,計算上月第一天的日期,2、計算上月最后一天的日期,3、計算上月第一天的分區(qū)號,4、初始化參數(shù)計算日期=上月的第一天的日期,5、初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號,6、根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)插入黑名單,方法如下61、在MT表中根據(jù)分區(qū)號查詢所有付費類型為免費的唯一的手機(jī)號,該手機(jī)號必須同時不在點播用戶群表和包月用戶群表中,該查詢結(jié)果不包含已存在黑名單表中的手機(jī)號。該方法采用了二種關(guān)鍵技術(shù)來提高性能。一是把多表關(guān)聯(lián)改為多個單表的查詢,從而大大加快查詢速度;二是通過取查詢結(jié)果的差集來大大減少查詢的結(jié)果從而極大地提高數(shù)據(jù)插入的速度。
62、將查詢結(jié)果每100條作為一批插入數(shù)據(jù)庫,直到全部插完。批處理的應(yīng)用極大地提高了數(shù)據(jù)插入的速度。
63、循環(huán)計算下一天的日期。
64、循環(huán)計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù)。
用同黑名單處理的方式查詢并保存該月CDR中的只使用點播業(yè)務(wù)并過濾已經(jīng)存在的記錄。
用同黑名單處理的方式查詢并保存該月CDR中的只使用包月業(yè)務(wù)并過濾已經(jīng)存在的記錄。
完成查詢并保存該月cdr中的只使用免費業(yè)務(wù)、只使用點播業(yè)務(wù)、只使用包月業(yè)務(wù)的用戶群后還需對免費用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效,方法如下1)初始化參數(shù)計算日期=上月的第一天的日期,2)初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號,3)根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)更新黑名單表,方法如下31)查詢黑名單表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢MT表中付費類型為按條和包月的用戶手機(jī)號。取二者查詢結(jié)果的交集(該交集即為使用過其他業(yè)務(wù)的用戶)作為查詢結(jié)果。該方法采用了二種技術(shù)來提高性能。一是把多個大表的關(guān)聯(lián)查詢改為多次單個表的查詢來提高性能;另一方面是通過取二個大表的查詢結(jié)果的交集,來減少需更新的數(shù)據(jù),從而大大提高統(tǒng)計性能。
32)將查詢結(jié)果每100條作為一批更新黑名單表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完。該方法同樣應(yīng)用了批處理技術(shù)來大幅度地提高更新數(shù)據(jù)庫的性能。
33)查詢黑名單表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢MC表中付費類型為包月的用戶手機(jī)號。取二者查詢結(jié)果的交集(該交集即為使用過其他業(yè)務(wù)的用戶)作為查詢結(jié)果34)將查詢結(jié)果每100條作為一批更新黑名單表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完。
35)循環(huán)計算計算下一天日期。
36)循環(huán)計算計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù)。
采用和黑名單相同的處理方法對點播用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效。
采用和黑名單相同的處理方法對包月業(yè)務(wù)群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效。
由于其他用戶群的統(tǒng)計分析技術(shù)和黑名單統(tǒng)計分析技術(shù)相同,所以不再一一重復(fù)。
權(quán)利要求
1.一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于,包括以下內(nèi)容A、建立MT、MC、MO三個數(shù)據(jù)庫表結(jié)構(gòu)A1、把MT、MC、MO三個表分別分成多個分區(qū),每個分區(qū)相當(dāng)于一個數(shù)據(jù)庫小表,數(shù)據(jù)插入按分區(qū)進(jìn)行,按日期劃分分區(qū),分區(qū)號根據(jù)日期產(chǎn)生且值在分區(qū)號范圍內(nèi)循環(huán)更新;A2、在MT、MC、MO三個表中分別建立五個數(shù)據(jù)表空間,一個分區(qū)使用一個表空間,相隔五個號的分區(qū)使用相同的表空間,即第6個分區(qū)使用和第1個分區(qū)相同的表空間,其他類推;A3、將CDR話單按屬性區(qū)分為免費用戶群、點播用戶群和包月用戶群,將免費用戶群話單數(shù)據(jù)存放在MT表中、將點播用戶群話單數(shù)據(jù)存放在MC表中、將包月用戶群話單數(shù)據(jù)存放在MO表中;A4、各分區(qū)分別根據(jù)手機(jī)號建立索引;A5、建立免費用戶群表,該表包含用戶手機(jī)號碼和狀態(tài)二個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;A6、建立點播用戶群表,該表包含用戶手機(jī)號碼、狀態(tài)和點播數(shù)三個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;A7、建立包月用戶群表,該表包含用戶手機(jī)號碼、狀態(tài)和包月業(yè)務(wù)的項目數(shù)三個字段,數(shù)據(jù)存放在特定的表空間,用戶手機(jī)號碼為主鍵,并使用索引表空間;B、對特定屬性的用戶群從月初到月尾按天統(tǒng)計一個月的數(shù)據(jù)B1、查詢并保存該月CDR中的只使用免費業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;B2、查詢并保存該月CDR中的只使用點播業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;B3、查詢并保存該月CDR中的只使用包月業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄;B4、對免費用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效B5、對點播用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效;B6、對包月用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效。
2.根據(jù)權(quán)利要求1所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟A1中所述的MT、MC、MO三個表分別分成91個分區(qū),用于保存連續(xù)90天的數(shù)據(jù),每天的數(shù)據(jù)依序插入各個分區(qū),當(dāng)90天的數(shù)據(jù)分別插入90個分區(qū)后,第91天的數(shù)據(jù)插入第91個分區(qū),然后刪除第1個分區(qū)的數(shù)據(jù),實現(xiàn)始終保存最近90天的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟B1、中所述的查詢并保存該月CDR中的只使用免費業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄、步驟B2中所述的查詢并保存該月CDR中的只使用點播業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄、步驟B3中所述的查詢并保存該月CDR中的只使用包月業(yè)務(wù)的用戶并過濾已經(jīng)存在的記錄方法相同,步驟如下a、根據(jù)統(tǒng)計任務(wù)運行時間,計算上月第一天的日期;b、計算上月最后一天的日期;c、計算上月第一天的分區(qū)號;d、初始化參數(shù)計算日期=上月的第一天的日期;e、初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號;f、根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)插入用戶進(jìn)行查詢。
4.根據(jù)權(quán)利要求3所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟f中所述的根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)插入用戶進(jìn)行查詢的方法如下f1、在特定屬性的用戶群表中根據(jù)分區(qū)號查詢所有特定屬性用戶的唯一的手機(jī)號,該手機(jī)號必須同時不在其它用戶群表中,該查詢結(jié)果不包含已存在特定屬性用戶群表中的手機(jī)號;f2、將查詢結(jié)果每100條作為一批插入數(shù)據(jù)庫,直到全部插完;f3、循環(huán)計算下一天的日期;f4、循環(huán)計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù);
5.根據(jù)權(quán)利要求1所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟B4中所述的對免費用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效、步驟B5中所述的對點播用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效、步驟B4中所述的對包月用戶群中有使用過其他業(yè)務(wù)的記錄將其狀態(tài)設(shè)置為無效的方法相同,步驟如下a、初始化參數(shù)計算日期=上月的第一天的日期;b、初始化參數(shù)計算分區(qū)號=上月的第一天的分區(qū)號;c、根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)更新用戶群表。
6.根據(jù)權(quán)利要求5所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟c中所述的根據(jù)計算日期是否小于等于上月最后一天的日期的判斷按天循環(huán)更新用戶群表的方法如下c1、查詢特定屬性用戶群表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢特定用戶群表中其它用戶群的用戶手機(jī)號,取二者查詢結(jié)果的交集作為查詢結(jié)果;c2、將查詢結(jié)果每100條作為一批更新特定屬性用戶群表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完;c3、查詢特定屬性用戶群表中狀態(tài)為有效的手機(jī)號,根據(jù)分區(qū)號查詢另一特定屬性用戶群表中第三類特定屬性用戶群的用戶手機(jī)號,取二者查詢結(jié)果的交集作為查詢結(jié)果;c4、將查詢結(jié)果每100條作為一批更新特定用戶群表的用戶手機(jī)號對應(yīng)的狀態(tài)為無效,直到全部更新完;c5、循環(huán)計算下一天日期;c6、循環(huán)計算下一天的分區(qū)號直到處理完該月的所有數(shù)據(jù);
7.根據(jù)權(quán)利要求6所述的一種海量數(shù)據(jù)統(tǒng)計方法,其特征在于步驟c1和c3中所述的交集為使用過其他業(yè)務(wù)的用戶。
全文摘要
本發(fā)明提供了一種海量數(shù)據(jù)統(tǒng)計方法,該方法建有MT、MC、MO三個數(shù)據(jù)庫表,并在三個表中分別建立五個數(shù)據(jù)表空間。三個表分別分成91個分區(qū),用于保存連續(xù)90天的數(shù)據(jù)。數(shù)據(jù)的查詢和統(tǒng)計分析可根據(jù)日期計算要查詢的分區(qū)號,根據(jù)分區(qū)號查找指定分區(qū)的數(shù)據(jù)。由于每個分區(qū)的數(shù)據(jù)量只相當(dāng)于總數(shù)據(jù)的九十分之一,因此查詢和保存數(shù)據(jù)的速度得到了極大的提高。多表關(guān)聯(lián)改為單表查詢大大提高了查詢速度。查詢結(jié)果的差集和交集技術(shù)又使需處理的數(shù)據(jù)量極大地減少,從而極大地提高了統(tǒng)計性能。該技術(shù)的應(yīng)用使得對系統(tǒng)的硬件投資大大地降低,充分滿足了中國移動對業(yè)務(wù)的需求。
文檔編號G06F17/30GK101087203SQ20061002756
公開日2007年12月12日 申請日期2006年6月11日 優(yōu)先權(quán)日2006年6月11日
發(fā)明者馮謐 申請人:上海全成通信技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
营山县| 江油市| 张家港市| 泰顺县| 东阳市| 沙雅县| 紫阳县| 乌拉特前旗| 青冈县| 屯昌县| 澄城县| 永德县| 宕昌县| 莱州市| 开鲁县| 弥渡县| 双峰县| 体育| 华蓥市| 华安县| 渭源县| 荣成市| 永靖县| 成安县| 云霄县| 灵璧县| 蕉岭县| 张家界市| 永顺县| 长治县| 大化| 曲松县| 绵阳市| 科尔| 祥云县| 威宁| 九寨沟县| 三都| 璧山县| 佛冈县| 长兴县|