專利名稱:一種通用的數(shù)據(jù)抽取轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本系統(tǒng)涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,具體的說是一種通用的數(shù)據(jù)抽取轉(zhuǎn)換方法。
背景技術(shù):
目前我國(guó)各個(gè)領(lǐng)域的基礎(chǔ)數(shù)據(jù)都已經(jīng)完善,各業(yè)務(wù)系統(tǒng)積累了大量數(shù)據(jù),蘊(yùn)藏了豐富的信息資源,數(shù)據(jù)利用方面的需求日益增多。數(shù)據(jù)挖掘、決策支持日益興起,如何從海量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù),如何有效應(yīng)對(duì)業(yè)務(wù)需求的變化帶來的數(shù)據(jù)處理規(guī)則變化,是軟件公司和客戶急于解決的問題。目前實(shí)現(xiàn)數(shù)據(jù)抽取轉(zhuǎn)換的方式有很多,如直接寫腳本處理數(shù)據(jù)、ETL軟件產(chǎn)品,但無論是寫腳本還是ETL產(chǎn)品,都無法避免需要專業(yè)技術(shù)人員進(jìn)行數(shù)據(jù)加載與維護(hù),對(duì)業(yè)務(wù)需求的變更不能及時(shí)響應(yīng),并且對(duì)技術(shù)人員要求非常高,不但要懂技術(shù)同時(shí)需要對(duì)業(yè)務(wù)很熟。因此,需要一套比較科學(xué)的方法及方法幫助軟件公司及客戶適應(yīng)快速變化的需求,快速的完成數(shù)據(jù)抽取處理,實(shí)現(xiàn)業(yè)務(wù)人員(客戶)自行加載業(yè)務(wù)、自行維護(hù)需求,提高技術(shù)對(duì)業(yè)務(wù)變化的響應(yīng)能力。傳統(tǒng)數(shù)據(jù)抽取處理方法幾乎都是面向技術(shù)人員使用,業(yè)務(wù)人員提出需求,技術(shù)人員理解需求后做相應(yīng)的數(shù)據(jù)抽取處理。技術(shù)人員需要既·懂業(yè)務(wù)有懂技術(shù),對(duì)技術(shù)人員要求比較高,且對(duì)于需求的變動(dòng)不能及時(shí)做出反映。通用的數(shù)據(jù)抽取處理方法實(shí)現(xiàn)了與行業(yè)(業(yè)務(wù))的無關(guān)性,其重點(diǎn)轉(zhuǎn)向了對(duì)業(yè)務(wù)需求變化的管理,其系統(tǒng)功能的關(guān)注重點(diǎn)也隨之轉(zhuǎn)向了提供支持業(yè)務(wù)變化的服務(wù),通過這些方法提供的功能,加載和實(shí)現(xiàn)各類業(yè)務(wù)的處理和加工。實(shí)現(xiàn)業(yè)務(wù)人員(客戶)自行加載業(yè)務(wù)、自行維護(hù)需求,提高技術(shù)對(duì)業(yè)務(wù)變化的響應(yīng)能力。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種通用的適合非技術(shù)人員使用的數(shù)據(jù)抽取轉(zhuǎn)換方法。根據(jù)目前數(shù)據(jù)應(yīng)用領(lǐng)域的應(yīng)用規(guī)模及應(yīng)用內(nèi)容分析,隨著信息技術(shù)不斷的發(fā)展,將來的數(shù)據(jù)應(yīng)用會(huì)不斷的增加,因此技術(shù)架構(gòu)必須重點(diǎn)考慮整個(gè)系統(tǒng)的跨平臺(tái)性、安全性、可靠性、靈活性、穩(wěn)定性及易管理性,同時(shí)技術(shù)架構(gòu)應(yīng)該有非常好的可擴(kuò)展能力,并符合整個(gè)項(xiàng)目的建設(shè)原則和技術(shù)要求。本發(fā)明是按以下方式實(shí)現(xiàn)的,通過分析各類數(shù)據(jù)抽取處理加載及調(diào)度方法,總結(jié)出數(shù)據(jù)抽取處理的公共特征,采用數(shù)據(jù)結(jié)構(gòu)、抽取規(guī)則、抽取計(jì)劃分別進(jìn)行定義管理的方式,進(jìn)行源表數(shù)據(jù)字典定義、目標(biāo)表結(jié)構(gòu)設(shè)置、抽取規(guī)則設(shè)置、抽取計(jì)劃設(shè)置,其中,
數(shù)據(jù)字典定義定義源數(shù)據(jù)所在的數(shù)據(jù)庫信息、表信息、字段信息、表及字段的業(yè)務(wù)含義各元數(shù)據(jù)信息;
目標(biāo)表結(jié)構(gòu)設(shè)置用來定義數(shù)據(jù)抽取處理后的結(jié)果表,包括基本信息、索引信息、表及字段的業(yè)務(wù)含義各元數(shù)據(jù)信息;
抽取規(guī)則設(shè)置使用拖拽方式實(shí)現(xiàn)抽取規(guī)則,其中需要用到的源表信息、目標(biāo)表信息、規(guī)則信息均用業(yè)務(wù)語言描述,抽取規(guī)則設(shè)置內(nèi)容包括查詢組件、修改組件、刪除組件、擴(kuò)展組件、血緣分析;引導(dǎo)抽取規(guī)則設(shè)置包括以下內(nèi)容1)新建規(guī)則信息,設(shè)置內(nèi)容包括抽取類型、規(guī)則名稱、規(guī)則描述、規(guī)則備注;
2)參數(shù)維護(hù),維護(hù)整個(gè)規(guī)則的參數(shù),定義的參數(shù),在所有組件中都能使用,參數(shù)內(nèi)容包括參數(shù)名稱、顯示名稱、參數(shù)描述、參數(shù)值類型、參數(shù)長(zhǎng)度、備注;
3)抽取規(guī)則組件定義,根據(jù)業(yè)務(wù)需求邏輯規(guī)則,選擇并定義多個(gè)抽取組件,組件信息包括組件類型、組件名稱、組件描述、是否已校驗(yàn)、是否使用、備注;
4)規(guī)則校驗(yàn),定義完成抽取規(guī)則組件后,驗(yàn)證規(guī)則的正確性,優(yōu)化提示;
抽取計(jì)劃設(shè)置抽取計(jì)劃分為手動(dòng)和自動(dòng)抽取計(jì)劃,自動(dòng)抽取可自定義抽取頻率,滿足通常用到的各種抽取計(jì)劃;
以上抽取轉(zhuǎn)換過程都是通過二維關(guān)系表方式來存儲(chǔ),采用本地元數(shù)據(jù)管理方式,將業(yè)務(wù)加載過程中的字典、結(jié)構(gòu)、規(guī)則、計(jì)劃內(nèi)容沉淀為元數(shù)據(jù),每一步的元數(shù)據(jù)為下一步提供信息支撐,具體步驟如下
1)準(zhǔn)備數(shù)據(jù)庫環(huán)境
在數(shù)據(jù)庫中創(chuàng)建I個(gè)表空間和用戶,如下表 _
權(quán)利要求
1.一種通用的數(shù)據(jù)抽取轉(zhuǎn)換方法,其特征在于通過分析各類數(shù)據(jù)抽取處理加載及調(diào)度方法,總結(jié)出數(shù)據(jù)抽取處理的公共特征,采用數(shù)據(jù)結(jié)構(gòu)、抽取規(guī)則、抽取計(jì)劃分別進(jìn)行定義管理的方式,進(jìn)行源表數(shù)據(jù)字典定義、目標(biāo)表結(jié)構(gòu)設(shè)置、抽取規(guī)則設(shè)置、抽取計(jì)劃設(shè)置,其中, 數(shù)據(jù)字典定義定義源數(shù)據(jù)所在的數(shù)據(jù)庫信息、表信息、字段信息、表及字段的業(yè)務(wù)含義各元數(shù)據(jù)信息; 目標(biāo)表結(jié)構(gòu)設(shè)置用來定義數(shù)據(jù)抽取處理后的結(jié)果表,包括基本信息、索引信息、表及字段的業(yè)務(wù)含義各元數(shù)據(jù)信息; 抽取規(guī)則設(shè)置使用拖拽方式實(shí)現(xiàn)抽取規(guī)則,其中需要用到的源表信息、目標(biāo)表信息、規(guī)則信息均用業(yè)務(wù)語言描述,抽取規(guī)則設(shè)置內(nèi)容包括查詢組件、修改組件、刪除組件、擴(kuò)展組件、血緣分析;引導(dǎo)抽取規(guī)則設(shè)置包括以下內(nèi)容 1)新建規(guī)則信息,設(shè)置內(nèi)容包括抽取類型、規(guī)則名稱、規(guī)則描述、規(guī)則備注; 2)參數(shù)維護(hù),維護(hù)整個(gè)規(guī)則的參數(shù),定義的參數(shù),在所有組件中都能使用,參數(shù)內(nèi)容包括參數(shù)名稱、顯示名稱、參數(shù)描述、參數(shù)值類型、參數(shù)長(zhǎng)度、備注; 3)抽取規(guī)則組件定義,根據(jù)業(yè)務(wù)需求邏輯規(guī)則,選擇并定義多個(gè)抽取組件,組件信息包括組件類型、組件名稱、組件描述、是否已校驗(yàn)、是否使用、備注; 4)規(guī)則校驗(yàn),定義完成抽取規(guī)則組件后,驗(yàn)證規(guī)則的正確性,優(yōu)化提示; 抽取計(jì)劃設(shè)置抽取計(jì)劃分為手動(dòng)和自動(dòng)抽取計(jì)劃,自動(dòng)抽取可自定義抽取頻率,滿足通常用到的各種抽取計(jì)劃; 以上抽取轉(zhuǎn)換過程都是通過二維關(guān)系表方式來存儲(chǔ),采用本地元數(shù)據(jù)管理方式,將業(yè)務(wù)加載過程中的字典、結(jié)構(gòu)、規(guī)則、計(jì)劃內(nèi)容沉淀為元數(shù)據(jù),每一步的元數(shù)據(jù)為下一步提供信息支撐,具體步驟如下 1)準(zhǔn)備數(shù)據(jù)庫環(huán)境 在數(shù)據(jù)庫中創(chuàng)建I個(gè)表空間和用戶,如下表
全文摘要
本發(fā)明提供一種通用的數(shù)據(jù)抽取轉(zhuǎn)換方法,通過分析各類數(shù)據(jù)抽取處理規(guī)則及調(diào)度方法,總結(jié)出數(shù)據(jù)抽取處理的公共特征,然后,采用數(shù)據(jù)結(jié)構(gòu)、抽取規(guī)則、抽取計(jì)劃分別進(jìn)行定義管理、源表數(shù)據(jù)字典定義、目標(biāo)表結(jié)構(gòu)設(shè)置、抽取規(guī)則設(shè)置、抽取計(jì)劃設(shè)置,每類都可以靈活的設(shè)置相應(yīng)的參數(shù),用二維關(guān)系表記錄數(shù)據(jù)結(jié)構(gòu)、抽取規(guī)則、計(jì)劃的信息,并作為元數(shù)據(jù)信息供其他服務(wù)或接口使用,提供數(shù)據(jù)全過程的血緣分析,用戶界面采用具有業(yè)務(wù)含義的中文信息展現(xiàn)給使用者,采用業(yè)務(wù)與技術(shù)的低耦合,減少使用者對(duì)專業(yè)技術(shù)人員的依賴,滿足業(yè)務(wù)人員在簡(jiǎn)單了解數(shù)據(jù)庫知識(shí)的情況下,做出符合需求的復(fù)雜業(yè)務(wù)邏輯數(shù)據(jù)處理。
文檔編號(hào)G06F17/30GK102902750SQ20121034960
公開日2013年1月30日 申請(qǐng)日期2012年9月20日 優(yōu)先權(quán)日2012年9月20日
發(fā)明者周秀強(qiáng), 崔永生, 呂亞偉, 曹苗苗 申請(qǐng)人:浪潮齊魯軟件產(chǎn)業(yè)有限公司