欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法及清洗系統(tǒng)的制作方法

文檔序號:6466575閱讀:284來源:國知局
專利名稱:提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法及清洗系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫領(lǐng)域,特別是涉及對數(shù)據(jù)倉庫中目標(biāo)數(shù)據(jù)進(jìn)行清洗的 數(shù)據(jù)清洗方法及數(shù)據(jù)清洗系統(tǒng)。
背景技術(shù)
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題、集成的、與時間相關(guān)的、不
可修改的數(shù)據(jù)集合。也就是說,對所有的應(yīng)用系統(tǒng),例如客戶關(guān)系管理(CRM, Customer Relationship Management)系統(tǒng)、財務(wù)系統(tǒng)等,按主題進(jìn)行集成,并 記錄整個歷史變化情況。隨著企業(yè)信息化程度的不斷提高,企業(yè)內(nèi)部積累了 大量的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)倉庫用于對這些相互獨立、分散的數(shù)據(jù)進(jìn)行統(tǒng)一處理, 以滿足企業(yè)高層決策與分析需要。
參照圖1,其為數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)框圖。整個數(shù)據(jù)倉庫系統(tǒng)是一個 包含四個層次的體系結(jié)構(gòu),包括數(shù)據(jù)源101、數(shù)據(jù)倉庫102、聯(lián)機(jī)分析處理 (OLAP, on-line analytical processing)系統(tǒng)103及前端工具104,其中
數(shù)據(jù)源101,是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),通常包括企業(yè)內(nèi)部信息和外部信息。 內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù),外部信息包括各類法律法 規(guī)、市場信息和竟?fàn)帉κ值男畔⒌?。例如,CRM系統(tǒng),財務(wù)系統(tǒng)。
數(shù)據(jù)倉庫102,是以數(shù)據(jù)表的結(jié)構(gòu)存儲所述數(shù)據(jù)源101的數(shù)據(jù),每個數(shù)據(jù) 表對應(yīng) 一個數(shù)據(jù)對象, 一個數(shù)據(jù)源可以對應(yīng)多個數(shù)據(jù)對像。
OLAP系統(tǒng)103,用于對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以 組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
前端工具104,主要包括各種報表工具,查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù) 挖掘工具以及各種基于數(shù)據(jù)倉庫的應(yīng)用開發(fā)工具,實現(xiàn)對數(shù)據(jù)倉庫102的訪 問。其中,數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,才艮表工具、數(shù)據(jù)挖掘工具 主要針對數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫的ETL模塊是對數(shù)據(jù)抽取(extract)、轉(zhuǎn)換(Transform )、清洗 (Cleansing)、裝載(Load)的過程,是對OLAP系統(tǒng)開發(fā)的過程。其中,所述數(shù)據(jù)抽取是指從源系統(tǒng)中提取數(shù)據(jù);所述數(shù)據(jù)轉(zhuǎn)換是指開發(fā)者將提取的數(shù)據(jù) 進(jìn)行轉(zhuǎn)換,lt據(jù)清洗是指將提取的數(shù)據(jù)按照業(yè)務(wù)需要轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu), 并實現(xiàn)匯總;所述數(shù)據(jù)裝載是指加載經(jīng)轉(zhuǎn)換和匯總的數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉庫中。 每一ETL模塊用于完成對數(shù)據(jù)的一項處理,如上述提及的數(shù)據(jù)抽取、轉(zhuǎn)換、 清洗、裝載,并對處理結(jié)果以數(shù)據(jù)表的形式保存在數(shù)據(jù)倉庫中,以提供企業(yè) 管理和決策中使用。
在現(xiàn)有的ETL過程中,數(shù)據(jù)源101中的數(shù)據(jù)質(zhì)量是一個非常令人頭疼的 問題,沒有良好數(shù)據(jù)質(zhì)量的數(shù)據(jù)源,使得ELT模塊處理后的數(shù)據(jù)表,并不一 定能體現(xiàn)用戶的真實信息,很容易誤導(dǎo)公司的決策。特別是在互聯(lián)網(wǎng)上,通 常存在很多用戶不能信任服務(wù)提供商或者保護(hù)自身的隱私的角度不填寫真實 信息的情況發(fā)生,基于這些不準(zhǔn)確或沒有填寫的資料進(jìn)行數(shù)據(jù)清洗時,通常 是通過一個原始數(shù)據(jù)的簡單加工輸出至目標(biāo)數(shù)據(jù),這種清選得到的數(shù)據(jù)準(zhǔn)確 性差,容易使得數(shù)據(jù)準(zhǔn)備性偏差,這給后續(xù)的分析和模型實踐帶來一定的誤 差,從而一定程度上誤導(dǎo)決策者的決策支持作用。

發(fā)明內(nèi)容
本發(fā)明的第一目的在于提供一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法, 以解決現(xiàn)有技術(shù)中從數(shù)據(jù)源中得到的目標(biāo)數(shù)據(jù)質(zhì)量不好,從而給后續(xù)的分析 和模型實踐帶來一定誤差的技術(shù)問題。
本發(fā)明的第二目的在于提供一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗系統(tǒng)。 為了達(dá)到上述目的,本發(fā)明進(jìn)一步提供了提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清 洗方法,用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性,包括以下步驟
(1) 從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項Al,A2…An;
(2) 建立邏輯處理模型
(21) 根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始字 段項的權(quán)重值ql, q2…qn;
(22) 確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An))) 其中,Al,A2…An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中l(wèi)t據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項 的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù);
(3)在每一次數(shù)據(jù)清洗時,找到所有的原始字段項,根據(jù)邏輯處理模型確 定目標(biāo)數(shù)據(jù)的數(shù)值。
較優(yōu)地,步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率, 所述所有權(quán)重值為相同,所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值; 步驟(3)進(jìn)一步包括,先找到所有的原始字段項,然后統(tǒng)計每一原始字段項中 每一變量出現(xiàn)的概率,隨后將不同字段項中相同值的變量的概率值進(jìn)行相加, 其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
較優(yōu)地,步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率, 所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值;步驟(3)進(jìn)一步包括,先找 到所有的原始字段項,然后統(tǒng)計每一原始字段項中每一變量出現(xiàn)的概率,每 一原始字段項的影響函數(shù)值為該原始字段中概率最高的變量值,隨后統(tǒng)計所 有影響函數(shù)值,其相同值最多的影響函數(shù)值為本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的 數(shù)據(jù)值。
較優(yōu)地,步驟(2)中確定每一原始字段項的權(quán)重值中某一字段項的權(quán)重為 最大比重值;步驟(3)進(jìn)一步包括找到該原始字段項,按照預(yù)先設(shè)定的該原 始字段項的影響函數(shù)來確定本次lt據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
本發(fā)明還包括定期或事件觸發(fā)式地修改邏輯處理模型,至少刪除、增 加或修改原始字段項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其 中之一操作;當(dāng)進(jìn)行數(shù)據(jù)清洗時,按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù) 據(jù)值的清洗。
本發(fā)明進(jìn)一步包括定期或事件觸發(fā)式地修改邏輯處理模型,在該邏輯 處理模型中增加新目標(biāo)數(shù)據(jù)清洗的確定函數(shù);當(dāng)進(jìn)行數(shù)據(jù)清洗時,清洗新增 目標(biāo)數(shù)據(jù)的數(shù)據(jù)寸直。
一種數(shù)據(jù)清洗系統(tǒng),包括數(shù)據(jù)庫和服務(wù)器,其中,數(shù)據(jù)庫包括數(shù)據(jù)源和數(shù)據(jù)倉庫,所述數(shù)據(jù)源用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù)據(jù),所述數(shù)據(jù)倉
庫還用于存儲每一 目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))
其中,Al,A2.,.An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為 反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項 的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù);
服務(wù)器至少包括一智能清洗單元,用于在每一數(shù)據(jù)清洗過程中找到所有 的原始字段項,根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
而本發(fā)現(xiàn),可以在原有的數(shù)據(jù)基礎(chǔ)上,通過更成熟和智能化的算法實現(xiàn) 數(shù)據(jù)的加工處理,充分利用各個源數(shù)據(jù)共同服務(wù)于目標(biāo)數(shù)據(jù),避免了以前的 那種使用單一某項數(shù)據(jù)或數(shù)據(jù)缺失帶來的數(shù)據(jù)偏差,^使得數(shù)據(jù)清洗不再無序 和單一,使得目標(biāo)數(shù)據(jù)表中的數(shù)據(jù)更加完整,提高了數(shù)據(jù)質(zhì)量。


圖1為數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)框圖2為本發(fā)明提供的一種數(shù)據(jù)清洗系統(tǒng)的結(jié)構(gòu)示意圖3為智能清洗單元的一處理邏輯示意圖4為本發(fā)明的一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法的流程圖。
具體實施例方式
以下結(jié)合附圖,具體說明本發(fā)明。
請參閱圖2,本發(fā)明提供了一種數(shù)據(jù)清洗系統(tǒng)的結(jié)構(gòu)示意圖。它包括數(shù)據(jù) 庫21和服務(wù)器22,其中,數(shù)據(jù)庫21包括數(shù)據(jù)源211和數(shù)據(jù)倉庫212,數(shù)據(jù) 源211用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫212還用于存儲每 一目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))
其中,Al,A2…An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為 反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項
8的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù);
服務(wù)器22至少包括一智能清洗單元221,用于在每一數(shù)據(jù)清洗過程中找 到所有的原始字^R項,根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
事實上,在服務(wù)器22上通過軟件設(shè)置一智能清洗單元221即可完成本發(fā) 明的清洗功能。
請參閱圖3,其為智能清洗單元221的一處理邏輯示意圖。它包括原始數(shù) 據(jù)池223、邏輯處理模型224和目標(biāo)數(shù)據(jù)項單元225。
原始數(shù)據(jù)池223中存儲與該目標(biāo)數(shù)據(jù)相關(guān)的原始字段項。
邏輯處理模型224保存每一目標(biāo)數(shù)據(jù)值的所包含的原始字段項、每一原 始字段項的屬性函數(shù)、影響函數(shù)及確定函數(shù)
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An))) 其中,Al,A2…An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為 反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項 的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù)。
目標(biāo)數(shù)據(jù)項單元225用于保存每一次清洗的目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。 請參閱圖4,其為本發(fā)明的一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法的流 程圖。它用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性,包括以下步驟
S110:從lt據(jù)源中找到與目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項Al,A2…An;
S120:建立邏輯處理模型
S121:根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始 字段項的權(quán)重值ql, q2…qn;
S122:確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))其中,Al,A2…An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為 反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項 的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù);
S130:在每一次數(shù)據(jù)清洗時,找到所有的原始字段項,根據(jù)邏輯處理模 型確定目標(biāo)數(shù)據(jù)的數(shù)值。
以下就舉一應(yīng)用例來說明本發(fā)明。
考慮到很多用戶在填寫其所在地址時,存在"不填寫"或"填寫信息不 準(zhǔn)確,,這些情況,為此可以以目標(biāo)數(shù)據(jù)"用戶地址,,來建成邏輯處理;溪型。
預(yù)先確定原始字段項,如包括用戶填寫的字段項"收貨地址"、"用戶所 在的IP地址"、用戶用于支付銀行卡的"銀行卡開戶行所在地址"。
可以由很多方式確定"用戶地址,,的邏輯處理模型。
第一種方式為確定每一原始字段項的權(quán)重值都為1;
目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))
G1(A1)為"收貨地址"出現(xiàn)的字段變量,G2(A2)為"用戶所在的IP地址" 所在的地址的字段變量,Gn(An)為"銀行卡開戶行所在地址"的字段變量, Ml(ql,Gl(Al))為"收貨地址"出現(xiàn)的字段變量中每一變量的概率值;M2(q2, G2(A2))為"用戶所在的IP地址"所在的地址的字段變量中每一變量的概率值; Mn(qn,Gn(An))為"銀行卡開戶行所在地址"的字段變量中每一變量的概率值; 所述f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))為概率最高的變量 為目標(biāo)數(shù)據(jù)值,即影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率,所述所有 權(quán)重值為相同,所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值。
在每一次數(shù)據(jù)清洗時,比如一個月后進(jìn)行數(shù)據(jù)清洗,統(tǒng)計每一原始字段項 中每一變量出現(xiàn)的概率,隨后將不同字段項中相同值的變量的概率值進(jìn)行相 加,其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
第二種方式為影響函^:為每一原始字段中的變量出現(xiàn)的概率,確定函數(shù)是
10指概率最高的變量為目標(biāo)數(shù)據(jù)值。
在每一次數(shù)據(jù)清洗時,先找到所有的原始字段項,然后統(tǒng)計每一原始字 段項中每一 變量出現(xiàn)的概率,每一原始字段項的影響函數(shù)值為該原始字段中 概率最高的變量值,隨后統(tǒng)計所有影響函數(shù)值,其相同值最多的影響函數(shù)值 為本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
第三種方式為確定每一原始字段項的權(quán)重值中某 一字段項的權(quán)重為最大
比重值。比如,確定"銀行卡開戶行所在地址,,的字段項的權(quán)重為80%。
在每一次數(shù)據(jù)清洗,找到該原始字段項,按照預(yù)先設(shè)定的該原始字段項 的影響函數(shù)來確定本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。如果"銀行卡開戶 行所在地址,,在哪,哪就是目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
上述所舉的僅是本發(fā)明的應(yīng)用例,本發(fā)明并非局限于此。
本發(fā)明通過目前系統(tǒng)中已有的數(shù)據(jù)信息進(jìn)行加工和處理,將原先用戶并 未直接填寫或者未有任何直接數(shù)據(jù)的前提下(其它場景也類似),通過若干個原 始數(shù)據(jù)關(guān)系信息的運算和相關(guān)權(quán)重,得到"最匹配"的信息,從而將某些缺 失數(shù)據(jù)或者低質(zhì)量數(shù)據(jù)得到質(zhì)量提升,以滿足應(yīng)用和數(shù)據(jù)分析的需要。請注 意,這里是有若干個原始數(shù)據(jù)會被同時處理,該技術(shù)通過幾個都可以影響目 標(biāo)變量的原始變量進(jìn)行邏輯運算,根據(jù)一系列條件和因素,得到最符合目標(biāo) 變量值的處理過程,然后再將該過程后的變量值填寫到目標(biāo)變量或數(shù)據(jù)中。
本發(fā)明還可以定期或事件觸發(fā)式地修改邏輯處理模型,至少刪除、增加 或修改原始字)炎項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其中 之一操作;當(dāng)進(jìn)行數(shù)據(jù)清洗時,按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù)據(jù) 值的清洗。
本發(fā)明也可以定期或事件觸發(fā)式地修改邏輯處理;f莫型,在該邏輯處理模 型中增加新目標(biāo)數(shù)據(jù)清洗的確定函數(shù);當(dāng)進(jìn)行數(shù)據(jù)清洗時,清洗新增目標(biāo)數(shù) 據(jù)的數(shù)據(jù)值。
以上公開的僅為本發(fā)明的幾個具體實施例,但本發(fā)明并非局限于此,任 何本領(lǐng)域的技術(shù)人員能思之的變化,都應(yīng)落在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1、一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,用以提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性,其特征在于,包括以下步驟(1)從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項A1,A2...An;(2)建立邏輯處理模型(21)根據(jù)每一原始字段項中影響目標(biāo)數(shù)據(jù)的因素大小確定每一原始字段項的權(quán)重值q1,q2...qn;(22)確定該目標(biāo)數(shù)據(jù)值的邏輯處理模型目標(biāo)數(shù)據(jù)量=f(M1(q1,G1(A1)),M2(q2,G2(A2)),...Mn(qn,Gn(An)))其中,A1,A2...An分別為原始字段項,G1(A1)、G2(A2)...Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),q1,q2...qn為每一原始字段項的權(quán)重值;M1(q1,G1(A1),M2(q2,G2(A2))..Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù)值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù);(3)在每一次數(shù)據(jù)清洗時,找到所有的原始字段項,根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
2、 如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,其特征在于,步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率,所述所有 權(quán)重值為相同,所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值;步驟(3)進(jìn)一步包括,先找到所有的原始字段項,然后統(tǒng)計每一原始字段 項中每一變量出現(xiàn)的概率,隨后將不同字段項中相同值的變量的概率值進(jìn)行 相加,其概率值最大的變量為本次數(shù)據(jù)清洗的目標(biāo)數(shù)據(jù)值。
3、 如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,其特征在于,步驟(2)中所述影響函數(shù)為每一原始字段中的變量出現(xiàn)的概率,所述確定函數(shù)是指概率最高的變量為目標(biāo)數(shù)據(jù)值;步驟(3)進(jìn)一步包括,先找到所有的原始字段項,然后統(tǒng)計每一原始字殺: 項中每一變量出現(xiàn)的概率,每一原始字段項的影響函數(shù)值為該原始字段中概 率最高的變量值,隨后統(tǒng)計所有影響函數(shù)值,其相同值最多的影響函數(shù)值為 本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
4、 如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,其特征在于,步驟(2)中確定每一原始字段項的權(quán)重值中某一字段項的權(quán)重為最大比重值;步驟(3)進(jìn)一步包括找到該原始字段項,按照預(yù)先設(shè)定的該原始字段項 的影響函數(shù)來確定本次數(shù)據(jù)清洗時該目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
5、 如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,其特征在 于,還包括定期或事件觸發(fā)式地修改邏輯處理模型,至少刪除、增加或修改原始字 段項、修改屬性函數(shù)、各權(quán)重值、影響函數(shù)、確定函數(shù)的其中之一操作;當(dāng)進(jìn)行數(shù)據(jù)清洗時,按照修改后的邏輯處理模型進(jìn)行該目標(biāo)數(shù)據(jù)值的清洗。
6、 如權(quán)利要求1所述的提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,其特征在 于,還包括定期或事件觸發(fā)式地修改邏輯處理模型,在該邏輯處理模型中增加新目 標(biāo)數(shù)據(jù)清洗的確定函數(shù);當(dāng)進(jìn)行數(shù)梧清洗時,清洗新增目標(biāo)數(shù)據(jù)的數(shù)據(jù)值。
7、 一種數(shù)據(jù)清洗系統(tǒng),其特征在于,包括數(shù)據(jù)庫和服務(wù)器,其中,數(shù)據(jù) 庫包括數(shù)據(jù)源和數(shù)據(jù)倉庫,所述數(shù)據(jù)源用于實時存儲用戶進(jìn)行商務(wù)處理的數(shù) 據(jù),所述數(shù)據(jù)倉庫還用于存儲每一 目標(biāo)數(shù)據(jù)值的邏輯處理模型目標(biāo)數(shù)據(jù)量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))其中,Al,A2…An分別為原始字段項,G1(A1)、 G2(A2)…Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),ql, q2…qn為每一原始字段項 的權(quán)重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù) 值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值 的確定函數(shù);所述服務(wù)器至少包括一智能清洗單元,用于在每一數(shù)據(jù)清洗過程中找到 所有的原始字段項,根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。
全文摘要
一種提高目標(biāo)數(shù)據(jù)準(zhǔn)確性的數(shù)據(jù)清洗方法,包括(1)從數(shù)據(jù)源中找到與所述目標(biāo)數(shù)據(jù)相關(guān)的若干原始字段項A1,A2...An;(2)建立邏輯處理模型目標(biāo)數(shù)據(jù)量=f(M1(q1,G1(A1)),M2(q2,G2(A2)),...Mn(qn,Gn(An)))其中,A1,A2...An分別為原始字段項,G1(A1)、G2(A2)...Gn(An)分別為反映每一原始字段項中數(shù)據(jù)屬性的屬性函數(shù),q1,q2...qn為每一原始字段項的權(quán)重值;M1(q1,G1(A1),M2(q2,G2(A2))..Mn(qn,Gn(An))為影響目標(biāo)數(shù)據(jù)值的每一原始字段分值的影響函數(shù),f()為根據(jù)每一影響函數(shù)確定目標(biāo)數(shù)據(jù)值的確定函數(shù);(3)在每一次數(shù)據(jù)清洗時,找到所有的原始字段項,根據(jù)邏輯處理模型確定目標(biāo)數(shù)據(jù)的數(shù)值。本發(fā)明能夠提高從數(shù)據(jù)源中清洗出來的目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
文檔編號G06F17/30GK101676900SQ20081014903
公開日2010年3月24日 申請日期2008年9月18日 優(yōu)先權(quán)日2008年9月18日
發(fā)明者向繼新, 徐建軍 申請人:阿里巴巴集團(tuán)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
上虞市| 吴堡县| 建阳市| 图木舒克市| 青海省| 多伦县| 金湖县| 大连市| 闸北区| 辽中县| 汉寿县| 同德县| 金山区| 乌拉特后旗| 逊克县| 天等县| 中卫市| 新昌县| 灵宝市| 新乡市| 萍乡市| 揭东县| 金堂县| 屯留县| 孟连| 德安县| 白城市| 剑河县| 平遥县| 通榆县| 积石山| 六盘水市| 红原县| 金沙县| 洞口县| 瑞丽市| 济宁市| 都江堰市| 铜陵市| 瑞丽市| 修武县|