一種動(dòng)態(tài)切換維度觀察角度的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)技術(shù)的大數(shù)據(jù)、商業(yè)智能領(lǐng)域,尤其設(shè)及一種動(dòng)態(tài)切換維度觀 察角度的方法。
【背景技術(shù)】
[0002] 在計(jì)算機(jī)技術(shù)的大數(shù)據(jù)、商業(yè)智能領(lǐng)域中,維度是一個(gè)基本概念,也是一類數(shù)據(jù)。 如從年齡角度分析數(shù)據(jù)的構(gòu)成情況,了解少年、青年、中年、老年人的數(shù)據(jù)量各是多少,則運(yùn) 個(gè)年齡就是觀察角度,也是一個(gè)維度,而"少年"、"青年"、"中年"、"老年"都是運(yùn)個(gè)維度的成 員。在商業(yè)智能領(lǐng)域的數(shù)據(jù)統(tǒng)計(jì)分析過(guò)程中會(huì)使用多個(gè)維度,舉例如年齡、性別、職業(yè)、學(xué) 歷、愛(ài)好等等,運(yùn)些維度是限制過(guò)濾數(shù)據(jù)和統(tǒng)計(jì)分析數(shù)據(jù)的重要手段,維度的多少也直接影 響了統(tǒng)計(jì)分析數(shù)據(jù)的豐富及細(xì)致程度,對(duì)于數(shù)據(jù)價(jià)值發(fā)掘、利用意義重大。
[0003] 大數(shù)據(jù)數(shù)據(jù)中屯、通常也存有很多非結(jié)構(gòu)化數(shù)據(jù),有些非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含有豐富的 信息,可用于限制過(guò)濾數(shù)據(jù)和統(tǒng)計(jì)分析數(shù)據(jù)。如送貨地址不只是一個(gè)非結(jié)構(gòu)化的字符串,同 時(shí)還是一個(gè)確定的地理位置及坐標(biāo),能夠按行政級(jí)別進(jìn)行多級(jí)劃分。再舉例如身份證包含 了人的出生地、生日、性別等信息,進(jìn)一步還能計(jì)算年齡、過(guò)生日的月份、星座等信息,不但 可W用于限制過(guò)濾數(shù)據(jù)和統(tǒng)計(jì)分析數(shù)據(jù),同時(shí)還可W用于客戶關(guān)懷、向上銷售的目標(biāo)客戶 群圈定。另外看似結(jié)構(gòu)化數(shù)據(jù)的手機(jī)號(hào)、日期如按非結(jié)合化看待也都蘊(yùn)含豐富的信息,均可 用于圈定和分析數(shù)據(jù)。
[0004] 大數(shù)據(jù)數(shù)據(jù)中屯、、商業(yè)智能系統(tǒng)不論是使用hadoop還是使用關(guān)系型數(shù)據(jù)庫(kù)構(gòu)建, 都不能直接利用其中存儲(chǔ)的地址、身份證號(hào)、手機(jī)號(hào)、日期類型數(shù)據(jù)中蘊(yùn)含的信息。如果通 過(guò)編程手段把上述數(shù)據(jù)蘊(yùn)含信息預(yù)先全部解析出來(lái)存儲(chǔ)并用于后續(xù)分析,雖然能夠達(dá)到利 用數(shù)據(jù)的目的,但是由于提前解析存儲(chǔ)一則導(dǎo)致計(jì)算年齡不準(zhǔn)確,再則存儲(chǔ)也浪費(fèi)磁盤空 間并導(dǎo)致系統(tǒng)復(fù)雜性的提高,容易出錯(cuò)并且不利于系統(tǒng)的維護(hù)。
[0005] 針對(duì)大數(shù)據(jù)數(shù)據(jù)中屯、、商業(yè)智能系統(tǒng)中蘊(yùn)含豐富信息的非結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)只存儲(chǔ) 數(shù)據(jù)本身,而在使用時(shí)又能即時(shí)解析并W蘊(yùn)含豐富信息呈現(xiàn),或用于數(shù)據(jù)過(guò)濾限制,或用于 數(shù)據(jù)統(tǒng)計(jì)分析的觀察角度就變得更有價(jià)值了。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對(duì)大數(shù)據(jù)數(shù)據(jù)中屯、、商業(yè)智能系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)的利用不足,提供了 一種動(dòng)態(tài)切換維度觀察角度的方法。將非結(jié)構(gòu)化數(shù)據(jù)理解為維度,通過(guò)定義特殊的維度類 型、設(shè)置缺省觀察角度、即時(shí)非結(jié)構(gòu)化數(shù)據(jù)解析、數(shù)據(jù)轉(zhuǎn)換為缺省觀察角度值等步驟、方法 實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)即時(shí)轉(zhuǎn)換為確切信息,進(jìn)一步或用于數(shù)據(jù)過(guò)濾限制,或用于數(shù)據(jù)統(tǒng)計(jì) 分析的觀察角度,即時(shí)切換觀察角度實(shí)現(xiàn)一非結(jié)構(gòu)化數(shù)據(jù)當(dāng)多種維度來(lái)使用的效果。
[0007] 發(fā)明方法、步驟的定義特殊的維度類型是判斷非結(jié)構(gòu)化數(shù)據(jù)是否屬于地址、身份 證號(hào)、電話號(hào)碼、日期類型中的一種,如果是則分別設(shè)置為地址維度類型、身份證維度類型、 電話號(hào)維度類型、日期維度類型W便后續(xù)進(jìn)行區(qū)別處理。
[0008] 發(fā)明方法、步驟的設(shè)置缺省觀察角度是判斷特殊維度類型,設(shè)置相應(yīng)的缺省觀察 角度。特殊維度均有多個(gè)可用的觀察角度及一個(gè)缺省的觀察角度,而缺省觀察角度在使用 的一刻代表了特殊維度,特殊維度的多個(gè)可用觀察角度只有在成為缺省觀察角度時(shí)才能發(fā) 揮作用,不同特殊維度類型可用維度、缺省觀察角度不同。設(shè)置新的缺省觀察角度,之前的 缺省觀察角度就不再起作用了,等同于動(dòng)態(tài)切換了觀察角度,效果上如同切換了維度。
[0009] 設(shè)置缺省觀察角度功能需要放在界面上,由使用人員按需設(shè)置、切換并觸發(fā)數(shù)據(jù) 提取、解析、轉(zhuǎn)換及統(tǒng)計(jì)匯總操作。
[0010] 發(fā)明方法、步驟的即時(shí)非結(jié)構(gòu)化數(shù)據(jù)解析是獲取非結(jié)構(gòu)化數(shù)據(jù),根據(jù)其缺省觀察 角度定義,根據(jù)其特殊維度數(shù)據(jù)的編碼特征,即時(shí)進(jìn)行數(shù)據(jù)解析。其中:
[0011] 1、地址解析出省直轄市的第一級(jí)地域,地市州盟的第二級(jí)地域,區(qū)縣旗的第Ξ級(jí) 地域,鄉(xiāng)鎮(zhèn)的第四級(jí)地域,村莊的第五級(jí)地域;
[0012] 2、身份證號(hào)解析出出生地,出生月,星座,性別,年齡分檔等幾項(xiàng)數(shù)據(jù);
[0013] 3、日期解析出年,季,月,周,日粒度標(biāo)簽;
[0014] 4、電話號(hào)碼解析出網(wǎng)段,號(hào)段,AAAA,AABB,ABAB,ABCD等幾類特征數(shù)據(jù)。
[0015] 發(fā)明方法、步驟的數(shù)據(jù)轉(zhuǎn)換為缺省觀察角度值是提取即時(shí)解析后缺省觀察角度對(duì) 應(yīng)的數(shù)據(jù),并當(dāng)作特殊維度值使用。
[0016] 本發(fā)明一種動(dòng)態(tài)切換維度觀察角度的方法,彌補(bǔ)了大數(shù)據(jù)數(shù)據(jù)中屯、、商業(yè)智能系 統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)的利用不足,不用提前解析非結(jié)構(gòu)化數(shù)據(jù),避免提前解析導(dǎo)致計(jì)算的不 準(zhǔn)確和信息衰減,仍只存儲(chǔ)原始的非結(jié)構(gòu)化數(shù)據(jù),減小系統(tǒng)存儲(chǔ)開銷,同時(shí)提高系統(tǒng)的可維 護(hù)性、可靠性。即時(shí)切換觀察角度更是實(shí)現(xiàn)了一個(gè)非結(jié)構(gòu)化數(shù)據(jù)當(dāng)做多種維度來(lái)進(jìn)行數(shù)據(jù) 過(guò)濾限制和統(tǒng)計(jì)分析的使用效果。
【附圖說(shuō)明】
[0017] 圖1為本發(fā)明之步驟方法示意。
[0018] 圖2為本發(fā)明之地址維度觀察角度動(dòng)態(tài)切換并用做數(shù)據(jù)過(guò)濾限制的實(shí)現(xiàn)截圖。
[0019] 圖3為本發(fā)明之身份證維度觀察角度動(dòng)態(tài)切換并用做數(shù)據(jù)過(guò)濾限制的實(shí)現(xiàn)截圖。
[0020] 圖4為本發(fā)明之日期維度觀察角度動(dòng)態(tài)切換并用做數(shù)據(jù)過(guò)濾限制的實(shí)現(xiàn)截圖。
[0021] 圖5為本發(fā)明之電話號(hào)碼維度觀察角度動(dòng)態(tài)切換并用做數(shù)據(jù)過(guò)濾限制的實(shí)現(xiàn)截 圖。
【具體實(shí)施方式】
[0022] 為使本發(fā)明一種動(dòng)態(tài)切換維度觀察角度的方法之目的、技術(shù)方案和優(yōu)點(diǎn)更加清 楚,W下結(jié)合優(yōu)先實(shí)施例地址、身份證號(hào)、日期、電話號(hào)碼及附圖來(lái)詳細(xì)說(shuō)明實(shí)現(xiàn)的方法和 技術(shù)細(xì)節(jié)。借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段解決技術(shù)問(wèn)題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程能 充分理解并據(jù)W實(shí)施。其中附圖構(gòu)成本申請(qǐng)的一部分,并與本發(fā)明的實(shí)施例一起用于闡釋 本發(fā)明的原理。
[0023] 通過(guò)定義特殊的維度類型
[0024] 根據(jù)非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)存儲(chǔ)數(shù)據(jù)內(nèi)容、特點(diǎn)定義特殊維度類型,其中:
[0025] 1、存儲(chǔ)內(nèi)容是一個(gè)合法的地址信息,如送貨地址、家庭住址、辦公地點(diǎn)、公司注冊(cè) 地等均定義為地址維度類型DIM_REGION。
[00%] 2、存儲(chǔ)內(nèi)容是中華人民共和國(guó)居民身份證號(hào)碼,不論是15位還是18位均設(shè)置為 身份證維度類型DIM_IDCA畑。
[0027] 3、存儲(chǔ)內(nèi)容是日期的,如開戶日期、合同日期、付款日期等均設(shè)置為日期維度類型 DIM-DATE。
[0028] 4、存儲(chǔ)內(nèi)容是手機(jī)號(hào)、電話號(hào)碼、車牌號(hào)等均可設(shè)定為電話號(hào)碼維度類型DIM_ P冊(cè)肥。
[0029] 設(shè)置缺省觀察角度
[0030] 標(biāo)識(shí)非結(jié)構(gòu)化數(shù)據(jù)的特殊維度起作用的觀察角度,在界面上提供單選和設(shè)置功