欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種時間序列自動預處理方法

文檔序號:9667390閱讀:761來源:國知局
一種時間序列自動預處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大數(shù)據(jù)技術(shù)領(lǐng)域,更具體地,涉及一種時間序列自動預處理方法。
【背景技術(shù)】
[0002] 信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展產(chǎn)生了海量數(shù)據(jù),為各行各業(yè)的智能決策提供了依據(jù)。 由于時序序列反映了數(shù)據(jù)隨時間變化的模式、異常和趨勢,用戶能從中發(fā)現(xiàn)系統(tǒng)異常、挖掘 行為模式、預測未來狀態(tài)。單時間序列本身具有時效性、數(shù)據(jù)格式和取值標準具有較大變 化、此外還存在缺失、異常和不一致等情況。因此,對時間序列數(shù)據(jù)的預處理異常重要?,F(xiàn)有 的時間序列預處理基本是人工完成,在大數(shù)據(jù)分析處理中工作量達到甚至超過百分之八 十。事實上,隨著互聯(lián)網(wǎng)的發(fā)展,時序數(shù)據(jù)和流式數(shù)據(jù)動態(tài)性較大,靠人工分析通常滯后較 多,無法滿足數(shù)據(jù)模型構(gòu)建及數(shù)據(jù)挖掘的需求。
[0003] 鑒于此,業(yè)內(nèi)開始研究自適應(yīng)和自動數(shù)據(jù)預處理模型和挖掘算法,其重心主要集 中在預處理自動參數(shù)調(diào)整和自動化預處理算法組合。包括采用領(lǐng)域知識、信息熵和粒子群 進行參數(shù)調(diào)整,或采用遺傳算法和工作流進行自動預處理算法組合。
[0004] 然而,目前的自動預處理算法存在以下問題:
[0005] 1、自動化預處理流程復雜:為實現(xiàn)時間序列的自動預處理,需遵循一套可擴展、靈 活和全面的預處理流程,涵蓋格式處理、數(shù)據(jù)集成、數(shù)據(jù)采樣、模式提取和數(shù)據(jù)變換等各方 面,但具體的組合方式與時間序列本身的模式及數(shù)據(jù)挖掘的目標密切相關(guān);
[0006] 2、預處理參數(shù)調(diào)整會影響后期數(shù)據(jù)挖掘:預處理過程中不僅涉及到流程,還涉及 到每個預處理單元門限參數(shù)的設(shè)置,門限設(shè)置不僅影響到樣本的歸屬,還將對后期的數(shù)據(jù) 挖掘處理產(chǎn)生影響;
[0007] 時空顆粒度選擇會產(chǎn)生不可預測的結(jié)果:時間序列預處理與其他數(shù)據(jù)最大的區(qū)別 在于,不同時間粒度的聚合將會產(chǎn)生不同的結(jié)果。如,對收入序列來說,每天的收入幾乎無 規(guī)律可循,但周收入則呈現(xiàn)明顯的周期性,疊加收入將呈現(xiàn)明顯的線性特征。

【發(fā)明內(nèi)容】

[0008] 針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種時間序列自動預處理方 法,其目的在于,解決現(xiàn)有方法中存在的自動化預處理流程復雜、預處理參數(shù)調(diào)整會影響后 期數(shù)據(jù)挖掘、時空顆粒度選擇產(chǎn)生不可預測結(jié)果的技術(shù)問題。
[0009] 為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種時間序列自動預處理方法, 包括以下步驟:
[0010] (1)對待處理的時間序列進行行列掃描;
[0011] (2)提取步驟(1)處理后時間序列的數(shù)據(jù)模式特征;
[0012] (3)根據(jù)步驟(2)處理得到的不同模式特征和狀態(tài)進行預處理元組合;
[0013] (4)根據(jù)預處理元組合的結(jié)果對數(shù)據(jù)清洗的數(shù)據(jù)質(zhì)量進行評估。
[0014] 優(yōu)選地,步驟(1)包括以下子步驟:
[0015] (1.1)對時間序列的行進行掃描,其中若第i行中的元素個數(shù)nu與時間序列的屬性 個數(shù)Μ不一致時,則將該行直接剔除,其中i為自然數(shù);
[0016](1.2)對時間序列的列進行掃描,該列空值數(shù)為η,相鄰的三個有值、空值和有值次 數(shù)分別為m+1,m,n1+1,當滿足下式時保留該列,否則將該列剔除;
[0017]
[0018]其中,N為列總數(shù),e為自然常數(shù);
[0019] (1.3)對行列剔除后的時間序列進行數(shù)據(jù)格式規(guī)范的一致性檢查。
[0020] 優(yōu)選地,步驟(1.3)包括以下子步驟:
[0021 ] (1.3.1)對于時間序列中的二值型數(shù)據(jù)屬性,對該時間序列進行頻度統(tǒng)計,按頻度 由高到低進行排名,排名第3位及以后的數(shù)據(jù)即可標示數(shù)據(jù)格式不一致;
[0022] (1.3.2)對于標簽型數(shù)據(jù),檢查頻度由低到高前3位,并檢查其字符長度,若長度與 其他標簽型數(shù)據(jù)的字符長度相差超過2個字節(jié),直接剔除,若長度與其他標簽型數(shù)據(jù)的字符 長度相似,則利用概念樹進行剔除.
[0023]優(yōu)選地,步驟(2)包括如下步驟:
[0024] (2-1)從時間序列中抽取某一屬性列^,其中0<i<n,判斷該列是否為數(shù)值型,若 是,則以小時、天、周和月為單位對樣本數(shù)據(jù)進行歸集合并,并對其進行基礎(chǔ)的統(tǒng)計方法,以 獲得平均值V、方差〇、極大值max(Xl)以及極小值min(Xl),然后進入步驟(2-2),若不是數(shù)值 型,則進入步驟(2-6);
[0025] (2-2)判斷方差〇 = 0和下式是否同時成立,若成立則將該屬性列的狀態(tài)記為Ai,然 后進入步驟(3),否則進入步驟(2-3);
[0026]
[0027] (2-3)判斷方差〇矣0和下式是否同時成立,若成立則將該屬性列的狀態(tài)記為m,然 后進入步驟(3),否則進入步驟(2-4);
[0028]
[0029]其中a為常數(shù),其用于表示yi按照比例遞增或者遞減。
[0030] (2-4)分別以小時、天、周和月為單位對樣本數(shù)據(jù)進行歸集合并,并重復步驟(2-1) 至步驟(2-3),以形成不同時間顆粒度的模式特征,若無法獲取模式特征,則將該屬性列的 狀態(tài)記為Ci;
[0031] (2-5)判斷步驟(2-2)或(2-3)的模式特征與步驟(2-4)中的模式特征是否一致,若 不一致,則進入步驟(3),若一致則進入步驟(2-6);
[0032] (2-6)統(tǒng)計非數(shù)值型屬性列中不同的值出現(xiàn)的頻次?1,并構(gòu)建該屬性的概率直方 圖特征;
[0033] (2-7)以小時、天、周和月為單位對樣本數(shù)據(jù)進行歸集合并,重復步驟2-6來構(gòu)建新 的概率直方圖特征,判斷新構(gòu)建的概率直方圖特征是否與步驟2-6構(gòu)建出來的不一致,若不 一致則將該屬性列的狀態(tài)記SDi,然后進入步驟(3),否則進入步驟(2-8);
[0034] (2-8)以標識屬性為關(guān)聯(lián),統(tǒng)計非數(shù)值屬性兩個不同值同時出現(xiàn)的次數(shù)P1;J,
[0035] (2-9)以小時、天、周和月為單位對樣本數(shù)據(jù)進行歸集合并,重復步驟(2-8)來統(tǒng)計 新出現(xiàn)次數(shù),判斷新統(tǒng)計出來的次數(shù)是否與步驟(2-8)統(tǒng)計出來的不一致,若不一致則將該 屬性列的狀態(tài)記為Ei,并進入步驟(3),否則直接進入步驟(3)。
[0036] 優(yōu)選地,步驟(3)包括如下步驟:
[0037] 具體包括如下步驟,如圖5所示:
[0038] (3-1)構(gòu)建包括抽樣Sa、差分Di、積分In、概率密度Ps、相似度Si、數(shù)據(jù)變換Tr、數(shù)據(jù) 規(guī)范Un、回歸Re、頻繁項集Pi、分類Ca和聚類Cu在內(nèi)的預處理元,其中第i個處理元記做Pro⑴;
[0039] (3-2)分別設(shè)置每個預處理元的前置條件Pr(i)和后置條件Su(i);
[0040] (3-3)對于步驟(2)中的四種不同狀態(tài),分別建立可用預處理元集合;
[0041] (3-4)根據(jù)步驟(2)中確定的狀態(tài)構(gòu)建預處理元組合;
[0042] (3-5)若為狀態(tài)41,引入序列11,依次遍歷3&、0;[、111、?8、3;[、1'1'、1]11、1^,每遍歷一個 預處理元,計算是否滿足公¥
,若連續(xù)不滿足的次數(shù)超過10次,則將 該預處理元剔除,最終形成預處理元組合Com{Pro(i)};
[0043] (3-6)完成預處理元組合后,對不滿足式2條件的樣本Xl,需對其進行清洗,清洗后 的樣本修正為Vi,該Vi滿足下式確定的平方和最小條件;
[0044]
[0045] (3-7)若為狀態(tài)〇4陽1,計算是否滿足相似度條件或保證概率分布保持一致,若連 續(xù)10次不滿足,則將該預處理元剔除,最終形成預處理元組合C〇m{Pr〇(i),0 <i<η};
[0046] (3-8)完成預處理元組合后,不滿足相似度條件的樣本Xl,需對其進行清洗,清洗 后的樣本修正為V:,該V:應(yīng)是的概率相似度最大。
[0047]優(yōu)選地,步驟(4)包括如下步驟:
[0048] (4-1)對于清洗后的數(shù)據(jù)評估其平穩(wěn)性,具體方法為將時間序列進行等時間間隔, 并判斷平均值和方差是否為常數(shù),若為常數(shù)則結(jié)束清洗,否則進入步驟(4-2);
[0049] (4-2)若上述均值發(fā)生變換,可進行η階差分變換,若方差變化,可對其使用均方根 變換或?qū)?shù)變換,判斷是否獲得穩(wěn)定的時間序列,若滿足則結(jié)束清洗,否則進入步驟(4-3);
[0050] (4-3)將清洗后的時間序列按皮爾遜X2檢驗判斷其正態(tài)性,如式4所示,判斷是否 滿足X2正態(tài)性條件,若滿足則結(jié)束清洗,否則進入步驟(4-4);
[0051]
[0052] (4-4)按下式檢驗清洗后時間序列的樣本熵,判斷其樣本熵是否不再發(fā)生變化,若 不再發(fā)生變化則可結(jié)束清洗,否則返回步驟(2)重新清洗;
[0053]
[0054]
[0055]
[0056] 其中,sample表示時間序列的樣本熵,N表示時間長度,r為相似容限,m為維數(shù),一 般情況下,m取1或者2,r在0.1到0.25之間任意取值;d[xm+i(i),xm+i(j)]表示兩個元素xm+i (i),Xm+l(j)的距離;對每一個i值,統(tǒng)計d[Xm+l(i),Xm+
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
顺平县| 万山特区| 新余市| 达孜县| 绍兴县| 漳浦县| 巢湖市| 武威市| 馆陶县| 通榆县| 巴里| 巴林右旗| 永福县| 泾阳县| 论坛| 天峻县| 镇赉县| 雅江县| 河津市| 平湖市| 柳河县| 锡林郭勒盟| 蒲城县| 麻城市| 博湖县| 德令哈市| 万州区| 定日县| 乌兰县| 富民县| 宁都县| 嘉荫县| 瑞金市| 威宁| 轮台县| 海丰县| 屏边| 宿松县| 西林县| 池州市| 镶黄旗|