一種基于插件和組件的數(shù)據(jù)預(yù)處理系統(tǒng)及其實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)預(yù)處理技術(shù)領(lǐng)域,特別是一種基于插件和組件的數(shù)據(jù)預(yù)處理系統(tǒng)及其實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]數(shù)據(jù)質(zhì)量問題普遍存在于企業(yè)的應(yīng)用系統(tǒng)中,為了使數(shù)據(jù)挖掘更加高效,必須先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要是為了實(shí)現(xiàn)提高數(shù)據(jù)質(zhì)量而產(chǎn)生的一種技術(shù),通過數(shù)據(jù)預(yù)處理,可以提高數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和可靠性等。然而,一般的數(shù)據(jù)預(yù)處理系統(tǒng)雖然能實(shí)現(xiàn)數(shù)據(jù)預(yù)處理功能,但在易維護(hù)性、通用性方面有所欠缺,同時(shí)也無法很好的集成、復(fù)用和擴(kuò)展。
【發(fā)明內(nèi)容】
[0003]本發(fā)明解決的技術(shù)問題之一在于提供一種基于插件和組件的數(shù)據(jù)預(yù)處理系統(tǒng);通用性好,便于維護(hù),同時(shí)具有很好的集成、復(fù)用和擴(kuò)展性能。
[0004]本發(fā)明解決的技術(shù)問題之二在于提供一種基于插件和組件的數(shù)據(jù)預(yù)處理實(shí)現(xiàn)方法;解決系統(tǒng)的復(fù)用、擴(kuò)展等問題。
[0005]本發(fā)明解決上述技術(shù)問題之一的技術(shù)方案是:
[0006]所述的系統(tǒng)由數(shù)據(jù)封裝器、數(shù)據(jù)預(yù)處理控制器、插件適配器、數(shù)據(jù)預(yù)處理插件、數(shù)據(jù)預(yù)處理組件和預(yù)處理結(jié)果庫組成;
[0007]所述的數(shù)據(jù)封裝器負(fù)責(zé)對(duì)作為原始數(shù)據(jù)的數(shù)據(jù)源進(jìn)行封裝,將原始數(shù)據(jù)封裝成滿足數(shù)據(jù)預(yù)處理控制器要求的數(shù)據(jù)規(guī)范;
[0008]所述的數(shù)據(jù)預(yù)處理控制器負(fù)責(zé)總體調(diào)控,并將最終的預(yù)處理結(jié)果入庫;數(shù)據(jù)預(yù)處理控制器通過插件適配器,集成數(shù)據(jù)預(yù)處理插件和組件;
[0009]所述的插件適配器負(fù)責(zé)數(shù)據(jù)預(yù)處理控制器與數(shù)據(jù)預(yù)處理插件及組件之間的通信;
[0010]所述的數(shù)據(jù)預(yù)處理插件分別由若干個(gè)數(shù)據(jù)預(yù)處理組件構(gòu)成,是一系列同類的數(shù)據(jù)預(yù)處理功能組件的集合;
[0011 ]所述的預(yù)處理結(jié)果庫負(fù)責(zé)存儲(chǔ)數(shù)據(jù)預(yù)處理的結(jié)果;
[0012]所述的數(shù)據(jù)預(yù)處理插件和數(shù)據(jù)預(yù)處理組件都具備可復(fù)用性,可以通過插件適配器集成到不同的系統(tǒng)中。
[0013]所述的數(shù)據(jù)預(yù)處理插件包括有數(shù)據(jù)清洗插件、數(shù)據(jù)轉(zhuǎn)化插件、數(shù)據(jù)集成插件和數(shù)據(jù)歸約插件;
[0014]所述的數(shù)據(jù)清洗插件主要是實(shí)現(xiàn)臟數(shù)據(jù)清洗,去掉數(shù)據(jù)噪聲和無用數(shù)據(jù);
[0015]所述的數(shù)據(jù)轉(zhuǎn)換插件實(shí)現(xiàn)將原始數(shù)據(jù)轉(zhuǎn)化成適合數(shù)據(jù)挖掘的數(shù)據(jù)形式;
[0016]所述的數(shù)據(jù)集成插件實(shí)現(xiàn)將多個(gè)數(shù)據(jù)源的數(shù)據(jù)按照要求整合成統(tǒng)一的數(shù)據(jù);
[0017]所述的數(shù)據(jù)歸約實(shí)現(xiàn)數(shù)據(jù)壓縮、數(shù)值歸約、離散化和概念分層等。
[0018]所述的數(shù)據(jù)預(yù)處理組件是實(shí)現(xiàn)數(shù)據(jù)預(yù)處理功能的最小單位,每個(gè)數(shù)據(jù)預(yù)處理組件負(fù)責(zé)一個(gè)獨(dú)立的功能,其中重復(fù)數(shù)據(jù)清理組件負(fù)責(zé)刪除重復(fù)的數(shù)據(jù)。
[0019]所述的數(shù)據(jù)預(yù)處理組件是實(shí)現(xiàn)數(shù)據(jù)預(yù)處理功能的最小單位,每個(gè)數(shù)據(jù)預(yù)處理組件負(fù)責(zé)一個(gè)獨(dú)立的功能,其中的空行清理組件、重復(fù)數(shù)據(jù)清理組件可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗。
[0020]本發(fā)明解決上述技術(shù)問題之二的技術(shù)方案是:
[0021 ]所述的方法按照以下流程步驟處理:
[0022]第一步,根據(jù)數(shù)據(jù)預(yù)處理請(qǐng)求,將待處理的數(shù)據(jù)源的原始數(shù)據(jù)提交到數(shù)據(jù)封裝器;
[0023]第二步,數(shù)據(jù)封裝器將待處理的原始數(shù)據(jù)封裝成標(biāo)準(zhǔn)的規(guī)范格式,并提交到數(shù)據(jù)預(yù)處理控制器;
[0024]第三步,數(shù)據(jù)預(yù)處理控制器根據(jù)數(shù)據(jù)預(yù)處理請(qǐng)求,首先發(fā)送查詢請(qǐng)求到插件適配器查詢合適的數(shù)據(jù)預(yù)處理組件,插件適配器到對(duì)應(yīng)的數(shù)據(jù)預(yù)處理插件查詢?cè)摻M件,若沒有合適的數(shù)據(jù)預(yù)處理組件則返回失敗,若有則進(jìn)行下一步操作;
[0025]第四步,數(shù)據(jù)預(yù)處理控制器通過插件適配器循環(huán)調(diào)用所需的數(shù)據(jù)預(yù)處理組件,將數(shù)據(jù)預(yù)處理請(qǐng)求發(fā)送到插件適配器,由插件適配器解析后轉(zhuǎn)發(fā)給對(duì)應(yīng)的數(shù)據(jù)預(yù)處理插件;
[0026]第五步,數(shù)據(jù)預(yù)處理插件根據(jù)數(shù)據(jù)預(yù)處理請(qǐng)求,分配合適的數(shù)據(jù)預(yù)處理組件進(jìn)行處理;
[0027]第六步,數(shù)據(jù)預(yù)處理組件完成數(shù)據(jù)預(yù)處理后,由數(shù)據(jù)預(yù)處理插件通過插件適配器將預(yù)處理結(jié)果返回給數(shù)據(jù)預(yù)處理控制器;
[0028]第七步,數(shù)據(jù)預(yù)處理控制器對(duì)預(yù)處理后的數(shù)據(jù)校驗(yàn)確認(rèn),最后將確認(rèn)后的數(shù)據(jù)提交到預(yù)處理結(jié)果庫存儲(chǔ),完成整個(gè)數(shù)據(jù)預(yù)處理流程。
[0029]本發(fā)明由數(shù)據(jù)封裝器實(shí)現(xiàn)原始數(shù)據(jù)的封裝,由插件適配器負(fù)責(zé)數(shù)據(jù)預(yù)處理控制器與數(shù)據(jù)預(yù)處理插件及組件之間的通信,由數(shù)據(jù)預(yù)處理組件實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,并由數(shù)據(jù)預(yù)處理控制器實(shí)現(xiàn)總體調(diào)控和預(yù)處理結(jié)果入庫。通過數(shù)據(jù)預(yù)處理控制器集成數(shù)據(jù)預(yù)處理插件和組件,由數(shù)據(jù)預(yù)處理控制器選擇調(diào)用數(shù)據(jù)預(yù)處理插件和組件完成數(shù)據(jù)預(yù)處理,同時(shí)還可以實(shí)現(xiàn)插件和組件的可復(fù)用,以及數(shù)據(jù)預(yù)處理系統(tǒng)的可擴(kuò)展。因此,本發(fā)明的系統(tǒng)及方法,具有以下有益效果:(I)適用于數(shù)據(jù)預(yù)處理領(lǐng)域;(2)采用插件化和組件化的方式,提高系統(tǒng)的靈活性及易維護(hù)性;(3)采用插件化和組件化的方式,提高系統(tǒng)的可擴(kuò)展性、可集成性及可復(fù)用性;(4)不受系統(tǒng)平臺(tái)的限制;(5)高內(nèi)聚、低耦合。
【附圖說明】
[0030]下面結(jié)合附圖對(duì)本發(fā)明進(jìn)一步說明:
[0031]圖1是本發(fā)明的架構(gòu)示意圖。
【具體實(shí)施方式】
[0032]如圖1所示,本發(fā)明的系統(tǒng)主要由數(shù)據(jù)封裝器、數(shù)據(jù)預(yù)處理控制器、插件適配器、數(shù)據(jù)預(yù)處理插件、數(shù)據(jù)預(yù)處理組件和預(yù)處理結(jié)果庫幾大模塊組成。
[0033]1、數(shù)據(jù)源:數(shù)據(jù)源是待處理的原始數(shù)據(jù);
[0034]2、數(shù)據(jù)封裝器:數(shù)據(jù)封裝器負(fù)責(zé)對(duì)原始數(shù)據(jù)進(jìn)行封裝,將原始數(shù)據(jù)封裝成滿足數(shù)據(jù)預(yù)處理控制器要求的數(shù)據(jù)規(guī)范;
[0035]3、數(shù)據(jù)預(yù)處理控制器:數(shù)據(jù)預(yù)處理控制器負(fù)責(zé)總體調(diào)控,并將最終的預(yù)處理結(jié)果入庫;數(shù)據(jù)預(yù)處理控制器通過插件適配器,集成數(shù)據(jù)預(yù)處理插件和組件;
[0036]4、插件適配器:插件適配器負(fù)責(zé)數(shù)據(jù)預(yù)處理控制器與數(shù)據(jù)預(yù)處理插件及組件之間的通信;
[0037]5、數(shù)據(jù)預(yù)處理插件:每個(gè)數(shù)據(jù)預(yù)處理插件分別由若干個(gè)數(shù)據(jù)預(yù)處理組件構(gòu)成,是一系列同類的數(shù)據(jù)預(yù)處理功能組件的集合;例如數(shù)據(jù)清洗插件主要是負(fù)責(zé)去掉數(shù)據(jù)噪聲和無關(guān)