互聯(lián)網(wǎng)交易信息的數(shù)據(jù)清洗算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機應(yīng)用領(lǐng)域,具體地,涉及一種互聯(lián)網(wǎng)交易信息的數(shù)據(jù)清洗算法。
【背景技術(shù)】
[0002] 近年來我國互聯(lián)網(wǎng)交易持續(xù)保持高速發(fā)展,近5年來平均增速達(dá)到80%。2013年 電子商務(wù)總交易額超過10萬億元人民幣,網(wǎng)絡(luò)零售市場規(guī)模已經(jīng)超過美國成為世界最大 的網(wǎng)絡(luò)零售市場。隨著電子商務(wù)的發(fā)展,也出現(xiàn)了一些市場自身難以解決的問題,包括產(chǎn)品 虛假宣傳、假貨泛濫、網(wǎng)絡(luò)詐騙及釣魚網(wǎng)站很行、物流配送服務(wù)不規(guī)范、退貨難及逆向物流 不暢通以及網(wǎng)民個人信息泄露等問題。主要是由于不同的電商平臺的信用評價體系的規(guī)范 各不相同;同時電商信息系統(tǒng)中的數(shù)據(jù)越來越多,甚至達(dá)到了 TB、PB以上的海量數(shù)據(jù)級別 導(dǎo)致海量數(shù)據(jù)聚集之后由于內(nèi)容過時、輸入錯誤、重復(fù)輸入、屬性值沖突等嚴(yán)重影響著數(shù)據(jù) 質(zhì)量,進(jìn)而導(dǎo)致無法保證系統(tǒng)中數(shù)據(jù)的質(zhì)量能滿足監(jiān)管系統(tǒng)的需求。
[0003] 為了克服由于數(shù)據(jù)質(zhì)量而引發(fā)的問題,采取數(shù)據(jù)處理的技術(shù)是非常必要的。目前 很多通過處理數(shù)據(jù)來獲得更高質(zhì)量的數(shù)據(jù)的方法已經(jīng)被提出,在這些技術(shù)當(dāng)中,數(shù)據(jù)清洗 技術(shù)至關(guān)重要。
[0004] 針對數(shù)據(jù)清洗的處理方法主要包括以下幾種:
[0005] 1.通過關(guān)系數(shù)據(jù)中鍵與鍵之間的函數(shù)依賴進(jìn)行數(shù)據(jù)清洗是比較直接的方法,但是 對于和互聯(lián)網(wǎng)那個交易信息這種海量數(shù)據(jù)的規(guī)則挖掘并不充分。
[0006] 2.基于條件函數(shù)依賴的數(shù)據(jù)方法采用函數(shù)依賴作為基礎(chǔ)并且增加了語義上的約 束條件,這樣可以有效的清洗存在函數(shù)依賴的關(guān)系的數(shù)據(jù)元組,但是互聯(lián)網(wǎng)交易信息來自 不同的電商平臺,很多數(shù)據(jù)的函數(shù)依賴并不明確,同時一些數(shù)據(jù)在進(jìn)行清洗之前是無法獲 得函數(shù)關(guān)系的。
[0007] 3.采用人為參與的數(shù)據(jù)清洗,即在數(shù)據(jù)清洗的過程中,若系統(tǒng)遭遇無法處理的情 況時,需通過人的反饋操作進(jìn)行下一步的清洗步驟。這種方法的優(yōu)點是由于人的參與準(zhǔn)確 性會大大提高,但處理的時間消耗比較大;同時不同的人對于依賴關(guān)系的規(guī)則判斷標(biāo)準(zhǔn)并 不能保證完全一致,主觀依賴性過強。
[0008] 4.采用機器學(xué)習(xí)的反饋方式,即用機器學(xué)習(xí)的方法替代人的反饋過程,在清洗過 程之前先讓機器學(xué)習(xí)正確的清洗操作,然后在清洗過程中不斷積累學(xué)習(xí),這樣可以提成算 法的時間效率,但是精確度有所下降,并且學(xué)習(xí)過程會增加系統(tǒng)的額外開銷,同時清洗過程 中對數(shù)據(jù)之間的依賴關(guān)系要求依然比較高。
[0009] 綜上所述,當(dāng)前的數(shù)據(jù)清洗方法對于互聯(lián)網(wǎng)交易信息的處理的需求存在著一定的 局限性。
【發(fā)明內(nèi)容】
[0010] 針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種互聯(lián)網(wǎng)交易信息的數(shù)據(jù)清洗算 法。
[0011] 根據(jù)本發(fā)明提供的一種互聯(lián)網(wǎng)交易信息的數(shù)據(jù)清洗算法,包括:
[0012] 將待清洗的互聯(lián)網(wǎng)交易信息數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量問題檢測獲得干凈元組、正確元組 和問題元組;
[0013] 對所述干凈元組:直接送入干凈數(shù)據(jù)庫;
[0014] 對所述正確元組:生成需要向?qū)<抑R庫檢索關(guān)鍵語句,根據(jù)所述關(guān)鍵語句在所 述專家知識庫中進(jìn)行查詢獲得專家知識庫模式,所述專家知識庫模式包括文本依賴關(guān)系語 句,對所述專家知識庫模式進(jìn)行數(shù)據(jù)清洗后送入所述干凈數(shù)據(jù)庫;
[0015] 對所述問題元組:進(jìn)行可行元組的判斷獲得適合基于專家知識庫模式清洗的可行 元組和不適合基于專家知識庫模式清洗的不可行元組,
[0016] 對所述可行元組生成向所述專家知識庫檢索關(guān)鍵語句后從該專家知識庫中查詢 獲得專家知識庫模式,再經(jīng)過數(shù)據(jù)清洗后送入所述干凈數(shù)據(jù)庫,
[0017] 對所述不可行元組進(jìn)行其他策略數(shù)據(jù)清洗后送入所述干凈數(shù)據(jù)庫。
[0018] 作為一種優(yōu)化方案,所述專家知識庫采用BP神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)自學(xué)習(xí),所述BP神 經(jīng)網(wǎng)絡(luò)算法具體為:
[0019] -個m層的神經(jīng)網(wǎng)絡(luò),對于給定的互聯(lián)網(wǎng)交易信息樣本集X1Q = 1,2,…,n),設(shè) 第k層的i個神經(jīng)元的輸入總和表示為對,輸出總和為< ;從第k-Ι層的第j個神經(jīng)元到 第k層的第i個神經(jīng)元的權(quán)系數(shù)為W1,,各個神經(jīng)元的激發(fā)函數(shù)為f (·),則各個變量的關(guān)系 可表示為:
[0022] 式中,輸入層節(jié)點數(shù)為n,隱藏層節(jié)點數(shù)為h,輸出層節(jié)點數(shù)為〇,分別確定輸入層 與隱藏層、隱藏層與輸出層間的鏈接權(quán)值矩陣為W h、W。以及閥值b h、b。;
[0023] 作為一種優(yōu)化方案,期望輸出和實際輸出之差的平方和為所述專家知識庫的誤差 函數(shù),所述專家知識庫的誤差函數(shù)為:
[0025] Y1是輸出單元的期望值,第m層是輸出層,式M是實際輸出;BP算法采用非線性規(guī) 劃中的最速下降方法,按誤差函數(shù)e的負(fù)梯度方向修改權(quán)系數(shù)。
[0026] 作為一種優(yōu)化方案,一個互聯(lián)網(wǎng)交易信息樣本中所有向量之間的差異采用機器學(xué) 習(xí)中的馬氏距離衡量;對于1個向量X 1- X i,確立最合理向量Xk作為BP神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)輸出 展開樣本訓(xùn)練;一個所述樣本中包含的向量的協(xié)方差矩陣記為S,向量&與X ,之間的馬氏 距離為:
[0029] 所述協(xié)方差矩陣S中每個元素是各個矢量元素之間的協(xié)方差Cov(X,Y), CM足F) =?{ [X-£(X}] [F-五(F)]},其中E為一個所述樣本中包含的向量的數(shù)學(xué)期望。
[0030] 作為一種優(yōu)化方案,所述問題元組包括丟失值,和/或錯誤值,和/或沖突值;
[0031] 所述丟失值為數(shù)據(jù)屬性存在空缺的值;對于丟失值的檢測方法是:對于待清洗的 互聯(lián)網(wǎng)交易信息數(shù)據(jù)D (T1, T2, ...,Tn)中的每個元組T (A1, A2, ...,AJ的屬性A進(jìn)行檢測,若 存在缺失的屬性值則為包含丟失至的問題元組;
[0032] 所述錯誤值為數(shù)據(jù)存在的屬性被認(rèn)定為是錯誤的值;對于錯誤值的檢測方法是: 對于待清洗的互聯(lián)網(wǎng)交易信息數(shù)據(jù)D (T1, T2, ...,Tn)中的每個元組T (A1, A2, ...,AJ進(jìn)行基 于條件依賴函數(shù)的條件依賴檢測,若該數(shù)據(jù)的屬性不滿足所述條件依賴函數(shù)則該元組為包 含錯誤值的問題元組;
[0033] 所述沖突值為一個數(shù)據(jù)的屬性值出現(xiàn)多個對應(yīng)值;對于沖突值的檢測方法是:首 先對于待清洗的互聯(lián)網(wǎng)交易信息數(shù)據(jù)進(jìn)行元組匹配找出可能沖突的元組對,然后對所述可 能沖突的元組對進(jìn)行聚類得到包含沖突值的問題元組。
[0034] 作為一種優(yōu)化方案,所述元組匹配具體為:
[0035] Sl :對于待清洗的互聯(lián)網(wǎng)交易信息數(shù)據(jù)中的元組進(jìn)行相似性兩兩匹配,若元組對 的相似程度達(dá)到預(yù)設(shè)的相似閾值則該元組對指向同一實體,將指向同一實體的元組作為一 個組群;
[0036] S2 :為所述組群創(chuàng)建與元組屬性對應(yīng)的Bloom Filter數(shù)組,檢查所述組群中的各 元組的逐項屬性是否在對應(yīng)的Bloom Filter數(shù)組中,在同一 Bloom Filter數(shù)組的元組則 累加該元組的權(quán)值,
[0037] S3,所述元組權(quán)值超過預(yù)設(shè)的上限則提取出來作為所述可能沖突的元組。
[0038] 作為一種優(yōu)化方案,根據(jù)所述關(guān)鍵語句在所述專家知識庫中進(jìn)行查詢獲得專家知 識庫模式的過程具體為:
[0039] 將所述關(guān)鍵語句發(fā)送給專家知識庫的搜索引擎,獲取并解析專家知識庫反饋的查 詢結(jié)果,采用最優(yōu)模糊匹配方法進(jìn)行模式挖掘獲得所述專家知識庫模式。
[0040] 作為一種優(yōu)化方案,所述不可行元組包括:
[0041] 數(shù)據(jù)屬性數(shù)量少于預(yù)設(shè)屬性數(shù)量下限值或?qū)傩灾g的關(guān)聯(lián)度弱于預(yù)設(shè)關(guān)聯(lián)度下 限值的元組;
[0042] 屬性存在質(zhì)量問題并且無法通過專家知識庫模式對應(yīng)修復(fù)的元組;
[0043] 不同屬性的數(shù)據(jù)同時出現(xiàn)錯誤并且無法修