專利名稱:一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法
技術(shù)領(lǐng)域:
本專利涉及數(shù)據(jù)分析方法,尤其是計算機(jī)實現(xiàn)的流數(shù)據(jù)分析和關(guān)聯(lián)方法以及數(shù)據(jù)關(guān)聯(lián)分析系統(tǒng)。
背景技術(shù):
現(xiàn)在很多系統(tǒng)都可以生成流數(shù)據(jù),典型的比如計算機(jī)系統(tǒng)的性能監(jiān)測數(shù)據(jù),不同地區(qū)的天氣數(shù)據(jù),金融數(shù)據(jù)(包括股票、債券、石油價格)等等。這些數(shù)據(jù)的共同特點是每個時間點都會生成一個新的數(shù)據(jù),生成頻率非常高,從而導(dǎo)致無法長時間的存儲數(shù)據(jù)并分析。在每個時間點上的數(shù)據(jù)我們稱之為一個數(shù)據(jù)點。如何能快速的發(fā)現(xiàn)這些數(shù)據(jù)之間關(guān)聯(lián)性是一個值得研究的問題。比如,在金融數(shù) 據(jù)中,如果存在幾個金融數(shù)據(jù),比如石油價格為A,匯率價格為B,當(dāng)我們觀察股票C的漲跌情況的時候,我們希望能知道股票A的漲跌與石油價格A和匯率價格B之間是否存在關(guān)聯(lián)?;蛘哒f,當(dāng)前股票C的價格變動,是不是由于A或者B的價格變動引起的,或者是別的因素。這個方法也同樣適用于多個股票之間的關(guān)系的分析。復(fù)雜的系統(tǒng),比如衛(wèi)星系統(tǒng)、計算機(jī)網(wǎng)絡(luò)系統(tǒng)或者一個數(shù)據(jù)庫系統(tǒng),一般都是由很多的部件構(gòu)成的。比如數(shù)據(jù)庫系統(tǒng)中存在內(nèi)存緩存,硬盤(或者外部存儲),CPU等的部件。針對每個部件,監(jiān)控裝置可以監(jiān)控他們的運行狀態(tài),并記錄下來。每個部件記錄下來的數(shù)據(jù)就成為一個流數(shù)據(jù)。同時,我們針對整個的系統(tǒng)可能有其他的監(jiān)控指標(biāo),比如系統(tǒng)的吞吐量,響應(yīng)時間等。當(dāng)我們在系統(tǒng)的響應(yīng)時間上發(fā)現(xiàn)異常(比如特別慢)的時候,我們希望能自動分析內(nèi)部每個部件的監(jiān)測數(shù)據(jù),并能夠定位到哪個部件的狀態(tài)數(shù)據(jù)與這個狀態(tài)特別相關(guān)。這樣,我們就可以很容易的發(fā)現(xiàn)系統(tǒng)問題出在什么地方。目前已經(jīng)有一些方法通過計算流數(shù)據(jù)之間的相關(guān)系數(shù)來實現(xiàn)。典型的有Pearson相關(guān)系數(shù),余弦(Cosine)相關(guān)性等。另外,還可以在計算相關(guān)性之前進(jìn)行多種變換,比如傅里葉(Fourier)變換,小波(Haar Wavelet)變換等。這些方法的共同點是他們計算的都是全局的相關(guān)性,比如可以計算兩個股票之間在全局的相關(guān)性,或者兩個部件的監(jiān)測數(shù)據(jù)的全局相關(guān)性。另外,有些方法也可以在局部區(qū)域計算相關(guān)性。比如可以把一段時間(或稱之為滑動窗口)的數(shù)據(jù)內(nèi)部計算相關(guān)性。另外,還可以做特征值分解(SVD)變換后計算滑動窗口內(nèi)的相關(guān)性。這種方法的問題是只能考慮當(dāng)前窗口的變換,而不能利用歷史的信息。高斯混合模型(Gaussian Mixture Model,記為GMM)是利用多個高斯分布(Gaussian DistributionddSG)來擬合現(xiàn)實數(shù)據(jù)的一個模型。每個高斯分布按照附圖I的公式定義。
多個高斯分布線性可以按照附圖2的公式組合就構(gòu)成了一個高斯混合模型GMM(X)。得到一個分布模型后(比如GMM(X)),如果有一個新的數(shù)據(jù)點X,可以輸入到函數(shù)中,得到這個數(shù)據(jù)點的分布概率PU)。最大似然方法(Expectation Maximization,簡稱EM)方法是根據(jù)數(shù)據(jù)通過不斷的迭代擬合一個分布模型的方法。這個方法里面的每個迭代包括計算似然(E)和最大化似然(M)兩個步驟。在E步驟里面,根據(jù)固定的分布參數(shù)來調(diào)整每個數(shù)據(jù)點屬于不同的分布模型的概率,在M步驟里面,把每個數(shù)據(jù)點屬于不同的分布固定,然后最大化每個分布模型的參數(shù)。最大似然方法可以用來擬合各種分布模型,其中包括高斯混合模型。在前面提到的技術(shù)的基礎(chǔ)上,本專利中提出了一種分析框架,這個分析框架根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個分布模型,然后利用分布模型針對當(dāng)前的流數(shù)據(jù)計算不同流數(shù)據(jù)直接相關(guān)性的方法。同時,本專利提出了利用高斯混合模型實現(xiàn)這種框架的方法和系統(tǒng)。
發(fā)明內(nèi)容
本專利是一個可以根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個分布模型,然后利用分布模型針對當(dāng)前的流數(shù)據(jù)計算不同流數(shù)據(jù)之間相關(guān)度的方法。如何訓(xùn)練分布模型 本方法的模型訓(xùn)練的輸入是多個數(shù)據(jù)流的歷史數(shù)據(jù),假定有N個數(shù)據(jù)點,每個數(shù)據(jù)點上每個數(shù)據(jù)流有一個數(shù)據(jù)。根據(jù)用戶對于這些數(shù)據(jù)流的業(yè)務(wù)理解,這些數(shù)據(jù)流可以分成兩類源數(shù)據(jù)流X和目標(biāo)數(shù)據(jù)流Y。其中目標(biāo)數(shù)據(jù)流Y—般是能夠描述整個系統(tǒng)的指標(biāo),而源數(shù)據(jù)流則一般可以描述系統(tǒng)中的子系統(tǒng)的狀態(tài)。我們希望能夠針對子系統(tǒng)的狀態(tài)和整個系統(tǒng)的狀態(tài)之間的復(fù)雜關(guān)系建立一個模型。在特殊的情況下,如果需要,用戶可以把所有的數(shù)據(jù)流都作為目標(biāo)數(shù)據(jù)流,同時把所有的數(shù)據(jù)流都作為源數(shù)據(jù)流。首先聲明本專利中用到的一些符號
GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布模型,Xi和Y的順序可以改變,不影響模型,也就是GMM (Y,Xi) =GMM (Xi, Y)。GMM(Xi)代表Xi的條件高斯混合分布模型。GMM (YXi)代表Y相對于Xi的條件高斯混合分布模型;
同樣的用麗(Xi)代表任意的一個分布模型,MM(Xi, Y)代表任意的一個Xi和Y的聯(lián)合分布模型;
P(Xi)代表Xi的分布概率,對于任意一個數(shù)據(jù)點,可以根據(jù)麗(Xi)或者GMM(Xi)計算 P (Xi)。P (Xi, Y)代表Xi和Y的聯(lián)合分布概率。P (Y I Xi)代表Y相對于Xi的條件分布概率。假定存在M個源數(shù)據(jù)流,每個源數(shù)據(jù)流記做Xi,其中下標(biāo)i為從I到M的整數(shù)值,代表第i個源數(shù)據(jù)流。Xi中的每個數(shù)據(jù)記做Xit,其中t代表第t個時間點的數(shù)據(jù)。在每次的訓(xùn)練處理中,為簡單起見,我們假定只存在一個目標(biāo)數(shù)據(jù)流。如果需要有多個數(shù)據(jù)流作為目標(biāo)數(shù)據(jù)流分析,我們可以每次取一個目標(biāo)數(shù)據(jù)流作為Y,然后依次循環(huán)處理。我們同時假定所有的數(shù)據(jù)流的長度相等(假定為N),如果長度不相等,則在對應(yīng)的數(shù)據(jù)流空位上填一個缺省值(比如0)使其相等。確定M個Xi和一個Y之后,把每個Xi和Y兩兩組合,得到M個2個數(shù)據(jù)流構(gòu)成的數(shù)據(jù)流對〈Xi, Y〉。如果其中Xi和Y是同一個,則掠過這個組合,繼續(xù)處理下一個。比如我們有2個源數(shù)據(jù)流X1, X2和一個目標(biāo)數(shù)據(jù)流Y,其中
Xf2,3,I, 5,3,4,2,6,9,I, 2,3X2=8, 4,2,2,I, 2,2,3,2,4,I, 5Y = 8,4,2,5,3,4,2,6,9,4,2,5上面的例子里面三個數(shù)據(jù)流的長度都是N=12。那么,我們可以組合出兩個數(shù)據(jù)流對〈^>和〈X2, Y〉。下面我們說明這兩個數(shù)據(jù)流對每個是如何拼接出來的。首先,我們說明如何在一維上拼接每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流,用來尋找直接的一維上的關(guān)聯(lián)關(guān)系,也就是每個點上Xi和Y之間的關(guān)聯(lián)度。這種情況等同于滑動窗口的維度L=I。在處理一維數(shù)據(jù)關(guān)聯(lián)的時候,把每個數(shù)據(jù)流對的對應(yīng)的數(shù)據(jù)點上的數(shù)據(jù)重新組合成兩維數(shù)據(jù)對,也就是〈X” Y〉= (<Xn,Y1^OCi2, Y2>,…,<X1N,YN>)。比如在上面的例子里面,我們最后可以得到
<X1,Y> = 2, 8>,〈3,4>,〈1,2>,〈5,5>,〈3,3>,〈4,4>,〈2,2>,〈6,6>,〈9,9>,〈1,4>,〈2,2>,〈3,5 。其次,如果要針對每個數(shù)據(jù)流選擇多維(假設(shè)是L維)數(shù)據(jù)來識別連續(xù)多值的事件,首先定義一個滑動窗口,假定其長度為L。每個數(shù)據(jù)流中每個數(shù)據(jù)點開始的L個數(shù)據(jù)成為一個滑動窗口中的數(shù)據(jù)點。如果一個滑動窗口從Xit開始,那么它所包含的數(shù)據(jù)就是
〈Xit,Xi(t+1), , Xia+L—o〉。同樣的,從Yt開始的目標(biāo)數(shù)據(jù)流的滑動窗口所包含的數(shù)據(jù)就是
<Yt,Y(t+1),…,Y(t+H)>。把源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的同一個位置的滑動窗口中的所有2L個數(shù)據(jù)點拼接成一個新的數(shù)據(jù)點的數(shù)據(jù)。最終得到M個2L維的數(shù)據(jù)流對。我們有
(Xi, Y〉— (〈Xn, Xi2, ,Xi (1+L), Y1, Xi2, ,Xi (1+L)〉,
〈Xn,Xi2, ,Xj(1+L), Y1, Xi2, ,Xj(1+L)〉,
〈Xi(N-L+l),(N-L+2)) , XiN, Y(n_l+1), Xi (N_L+2), , XiN〉)
這些數(shù)據(jù)流對的長度為N-L+1,每個數(shù)據(jù)點的維度為2L。比如按照上面的數(shù)據(jù),如果我們選擇窗口長度L=3,那么拼接后得到的數(shù)據(jù)流對為
<X1,Y> = (〈2,3,1,8,4,2>,〈3,1,5,4,2,5>,-<1,2, 3,4, 2, 5
其中,第一個數(shù)據(jù)點中〈2,3,1,8,4, 2>的前三個數(shù)據(jù)值〈2,3,1>是來自X1的,〈8,4,2>是來自Y的。上面的這個過程,我們稱之為數(shù)據(jù)轉(zhuǎn)換的過程。然后,我們進(jìn)行模型的訓(xùn)練。如果我們分布模型選擇使用高斯混合模型,在訓(xùn)練的開始,需要給定一個參數(shù)K。K代表針對轉(zhuǎn)換后的數(shù)據(jù)流對訓(xùn)練多少個狀態(tài),也就是附圖2中高斯混合模型公式中的K。這個K的值我們?nèi)笔≡O(shè)置比較大,這個值一般根據(jù)實際系統(tǒng)的經(jīng)驗初審給定。比如K=20個。這個參數(shù)可以根據(jù)用戶的業(yè)務(wù)經(jīng)驗和對于數(shù)據(jù)的理解設(shè)定。利用最大似然(EM)算法,針對每個數(shù)據(jù)流對〈X” Y〉我們可以訓(xùn)練得到一個高斯混合模型GMM (Xi, Y)。這個GMM (Xi, Y)的維度是與前面轉(zhuǎn)換后的數(shù)據(jù)流對〈X” Y〉的維度一致的。如果〈Xi, Y >是21維的,那么GMM(XiJ)的每個高斯函數(shù)也是2L維的。在訓(xùn)練的過程中,如果出現(xiàn)最大似然算法不能收斂的情況,我們設(shè)定一個閥值(t匕如1000次迭代),達(dá)到這個迭代次數(shù)后,就停止算法,然后把狀態(tài)數(shù)K減一,重新開始訓(xùn)練。這個閥值是訓(xùn)練算法的一個參數(shù),一開始的時候確定。最大似然算法完成后,我們得到M個高斯混合模型,其中每個高斯混合模型GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布概率。針對每個數(shù)據(jù)流對訓(xùn)練完成后,我們同時要訓(xùn)練每個源數(shù)據(jù)流Xi的分布模型GMM(Xi)。這個訓(xùn)練過程中,模型輸入的數(shù)據(jù)維度與前面聯(lián)合分布概率的L一致。比如如果前面訓(xùn)練用的L=3,那么同樣的把Xi變換成為3維的(N-3+1)個數(shù)據(jù)點。然后用最大似然算法擬合一個3維的高斯混合模型。最后得到M個源數(shù)據(jù)流對應(yīng)的M個高斯混合模型GMM(Xi)。在分布模型為高斯模型的情況下,我們可以利用高斯模型的特殊性質(zhì),根據(jù)GMM(Xi, Y)計算偏概率分布(partial Distribution)得到GMM(Xi),計算的方法是把高斯混合模型中的中心點u和方差s中的Xi部分取出,構(gòu)成一個新的模型就可以。同樣類似的方法,也可以計算條件概率(Conditional Distribution)得到GMM(Y | Xi)。這兩個計算相關(guān)概率的方法是已有方法,不是本專利內(nèi)容。為了簡化本法的描述,我們用高斯混合模型作為分布模型來描述我們的數(shù)據(jù)關(guān)聯(lián)分析方法,但是本方法可以使用其他分布模型來替代高斯混合模型,所以分布模型使用高斯混合模型不應(yīng)成為本專利的限制。如何計算相關(guān)性
在一個新的時間點,我們會觀測到一批新的數(shù)據(jù)。這些數(shù)據(jù)跟原來用于訓(xùn)練高斯混合模型的歷史的格式是相同的。這里我們同樣假定輸入為M個源數(shù)據(jù)流Xi和I個目標(biāo)數(shù)據(jù) 流Y。但是每次處理的數(shù)據(jù)流長度不是N,而是前面訓(xùn)練的時候設(shè)定的數(shù)據(jù)流匹配的維度L。然后,按照訓(xùn)練的時候同樣的組合方式,把每個源數(shù)據(jù)流Xi與目標(biāo)數(shù)據(jù)流Y組合,得到M個數(shù)據(jù)流對〈Xi, Y〉的一個或者多個數(shù)據(jù)點。在計算相關(guān)度的時候,我們每次針對一個數(shù)據(jù)點(時間點)進(jìn)行,如果有多個數(shù)據(jù)點,則依次處理。比如在前面的例子里面,假定我們用L=I來訓(xùn)練的高斯混合模型。在一個新的數(shù)據(jù)點上,我們收集到這樣的數(shù)據(jù)
Xi=6X2=I
Y= 6
我們按照訓(xùn)練模型是對于數(shù)據(jù)整理的同樣的方式,得到兩個2維的數(shù)據(jù)流對 <X1,Y>=<6, 6>, <X2,Y>=〈1,6>。然后,我們可以使用兩種方法來計算相關(guān)性。第一種方法是把〈Xi, Y〉輸入到分布模型麗(YI Xi)可以直接求得M個Xi與Y的相關(guān)性P (Y I Xi)。這種情況適用于條件分布模型可以直接算出的情況,比如分布模型用高斯混合模型的情況下可以用GMM(Y| Xi)直接計算P (Y I Xi)。第二種方法是把〈Xi, Y〉輸入到分布模型MM (Xi, Y)得到聯(lián)合概率P (Xi, Y),然后把
<Xi >輸入到源數(shù)據(jù)流的分布模型MM(Xi)中求得源數(shù)據(jù)流的分布概率P(Xi)。然后,根據(jù)公式
P(Y I Xi)= P(XilY)/ P(Xi)
就可以求得M個Xi與Y的相關(guān)性P (Y I Xi)。在這M個相關(guān)性P (Y I Xi)中,找最大的值,就可以找出哪個源數(shù)據(jù)流對應(yīng)的系統(tǒng)部件跟現(xiàn)在的系統(tǒng)狀態(tài)最相關(guān)。前面的兩個方法中,麗(Xi)代表Xi的分布模型,如果使用GMM,則成為GMM(Xi)。如何嵌入其他變換
在前面數(shù)據(jù)轉(zhuǎn)換的過程中,除了簡單的按照滑動窗口展開的方式,我們還可以嵌入其他的轉(zhuǎn)換函數(shù)。這里按照小波變換(Haar Wavelet)來作為例子講解怎么把變換后的結(jié)果嵌入到數(shù)據(jù)轉(zhuǎn)換的過程。其他的變換如傅里葉,余弦變換等的嵌入方式是相同的。數(shù)據(jù)變換過程需要定義一個參數(shù),那就是變換后保留的數(shù)據(jù)的維度,我們記做L’。嵌入其他變換的方法一般適用在滑動窗口中,并且L>1。不同的變換函數(shù)對參數(shù)有不同的要求,一般L’遠(yuǎn)小于L。L’也可以選擇比L大,則稱之為升維變換。一般為達(dá)到最好性能,小波變換要求L是2的乘方數(shù),比如2,4,8等。按照“如何訓(xùn)練分布模型” 一章所述,在數(shù)據(jù)變換的過程中,針對每個數(shù)據(jù)流,比如Xi,在每一個Xit開始的滑動窗口中,在轉(zhuǎn)換的過程中,我們有L個數(shù)據(jù)<Xit,Xi(t+1),…,Xi(t+L—I)〉° 針對這些數(shù)據(jù),我們可以做小波變換,然后只保留前面少部分的L’個變換后的系數(shù)。比如L=S的時候,我們可以保留前面L’=2個或者L’=4個變換后的系數(shù)。仍然按照前面的例子,我們有數(shù)據(jù)
Xf2,3,I, 5,3,4,2,6,9,I, 2,3 X2=8, 4,2,2,I, 2,2,3,2,4,I, 5
Y= 8,4,2,5,3,4,2,6,9,4,2,5 進(jìn)行小波變換的時候,需要先先構(gòu)造每個滑動窗口的數(shù)據(jù)。我們以計算〈X” Y〉的變換為例。首先得到Xl和Y的第一個滑動窗口的數(shù)據(jù)
<Xn>=<2, 3,I, 5,3,4,2,6>
<¥^=<8, 4,2,5,3,4,2,6>
經(jīng)過小波變換后的,滑動窗口內(nèi)的數(shù)據(jù)變成為
<Xn,>=〈26,2,0.5,0.5,0.5,2,0.5,2>
〈Y/ >=〈34,-2,-2. 5 -0.5,-2,I. 5, 0.5,2>
我們從小波變換后的數(shù)據(jù)中取前面的兩個L’ =2,我們得到
<Xn,>=〈26,2>
〈Y/ >=〈34, -2〉
然后我們把兩個變換后的結(jié)果拼接在一起,得到
〈X/ ,Y,>=〈26,2,34,-2〉,
然后把這些轉(zhuǎn)換后的數(shù)據(jù)點送入最大似然算法進(jìn)行訓(xùn)練,跟“如何訓(xùn)練分布模型”后面的訓(xùn)練方法一樣,得到一個高斯混合模型GMM(XI,Y)。同樣的方法,可以對每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流組合訓(xùn)練轉(zhuǎn)換后的GMM(Xi, Y)。拿到新的數(shù)據(jù)點后,首先按照同樣的轉(zhuǎn)換方法得到新的數(shù)據(jù)對〈Xi, Y〉。這個數(shù)據(jù)對是同樣L個數(shù)據(jù)轉(zhuǎn)換到L’個數(shù)據(jù)的。然后通過訓(xùn)練好的模型,用相同的方法計算P(Y|Xi),得到每個源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)度。子系統(tǒng)實現(xiàn)
本專利同時提供一個實現(xiàn)該分析方法的分析系統(tǒng)。在這個分析系統(tǒng)中,我們有一個數(shù)據(jù)收集裝置,針對每個系統(tǒng)部件收集他們的狀態(tài)數(shù)據(jù),形成M個源數(shù)據(jù)流\,和多個目標(biāo)數(shù)據(jù)流Y。每個源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y對應(yīng)了需要監(jiān)測和關(guān)聯(lián)的一個系統(tǒng)部件。收集到的數(shù)據(jù)Xi和Y傳送給分析計算機(jī)系統(tǒng)。分析計算機(jī)系統(tǒng)使用前面三節(jié)“如何訓(xùn)練分布模型”,“如何計算相關(guān)性”,和“如何嵌入其他變換”的方法對數(shù)據(jù)進(jìn)行處理,最后得到每個源數(shù)據(jù)流和每個目標(biāo)數(shù)據(jù)流的相關(guān)度P (YI Xi)。該系統(tǒng)可以針對每個目標(biāo)數(shù)據(jù)流顯示那些最相關(guān)的源數(shù)據(jù)流供系統(tǒng)分析人員對比分析。
附圖I展示了高斯分布的公式。附圖2展示了高斯混合模型的公式。附圖3展示了訓(xùn)練分布模型和計算相關(guān)性的流程。附圖4展示了在數(shù)據(jù)轉(zhuǎn)換過程中嵌入小波變換的過程。附圖5展示了一個實現(xiàn)本專利方法的分析系統(tǒng)。附圖I展示了高斯分布公式,該公式不是本專利要求的權(quán)利,僅用于說明本專利的實施方式。公式中,u為模型的中點(平均值),S為方差,P為圓周率常數(shù)3. 14,exp(x)代表取自然對數(shù)的X次方,上標(biāo)T代表取矩陣的轉(zhuǎn)置。
附圖2展示了高斯混合分布模型公式。公式中,qk為第k個高斯函數(shù)的權(quán)重,所有qk相加為I。G(x uk, Sk)為第k個按照附圖I公式定義的關(guān)于X的高斯分布函數(shù)。在“如何訓(xùn)練分布模型”一節(jié)中,我們使用高斯混合分布模型來擬合源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的關(guān)系。附圖3展示了訓(xùn)練分布模型和計算相關(guān)性的流程。在圖中,橢圓形框為輸入輸出,矩形框為系統(tǒng)中間的處理步驟。在附圖3中,輸入訓(xùn)練數(shù)據(jù)XJPY 101輸入用來訓(xùn)練模型的數(shù)據(jù),這些數(shù)據(jù)是中所有的Xi和Y是等長的,都有N個數(shù)據(jù)點。然后這些數(shù)據(jù)Xi和Y都輸入到數(shù)據(jù)轉(zhuǎn)換102中,數(shù)據(jù)轉(zhuǎn)換102負(fù)責(zé)把Xi和Y轉(zhuǎn)換成為兩兩配對的數(shù)據(jù)流〈Xi, Y〉。數(shù)據(jù)轉(zhuǎn)換102可以處理一維上或者多維上的轉(zhuǎn)換,假定滑動窗口的長度為L,那么轉(zhuǎn)換后的訓(xùn)練數(shù)據(jù)成為N個2L維的數(shù)據(jù)點。轉(zhuǎn)換后的數(shù)據(jù)流對〈X” Y〉送入到訓(xùn)練分布模型103步驟中,該步驟訓(xùn)練分布模型103使用最大似然算法(EM)根據(jù)輸入數(shù)據(jù)訓(xùn)練分布模型。訓(xùn)練分布模型103步驟中訓(xùn)練好的模型會送入步驟使用分布模型計算關(guān)聯(lián)概率104中。當(dāng)我們在步驟輸入待關(guān)聯(lián)數(shù)據(jù)Xi和Y 121收到新的數(shù)據(jù)后,把新收到的數(shù)據(jù)同樣輸入到數(shù)據(jù)轉(zhuǎn)換102中,進(jìn)行與訓(xùn)練過程相同的轉(zhuǎn)換過程。轉(zhuǎn)換后的數(shù)據(jù)成為1*2L維的數(shù)據(jù)。然后把這個1*2L維的數(shù)據(jù)送入到步驟使用分布模型計算關(guān)聯(lián)概率104中。該步驟負(fù)責(zé)把數(shù)據(jù)輸入到前面訓(xùn)練好的模型,按照“如何計算相關(guān)性” 一章中的方法,可以計算并輸出相關(guān)概率。最后輸出關(guān)聯(lián)概率P(Y| Xi) 105的步驟輸出最終的相關(guān)度P(YI XD。附圖4是附圖3中的數(shù)據(jù)轉(zhuǎn)換102步驟的內(nèi)部設(shè)計。附圖4中,輸入為附圖3的步驟輸入訓(xùn)練數(shù)據(jù)<Xi>和〈Y〉101中的訓(xùn)練數(shù)據(jù)〈Xi)和〈Y〉。針對每個數(shù)據(jù)流對〈Xi, Y〉,按照“如何訓(xùn)練分布模型” 一章中的方法把每個數(shù)據(jù)點的數(shù)據(jù)之間轉(zhuǎn)換成為2*L維的一個數(shù)據(jù)點。這一步在數(shù)據(jù)流拼接133中完成。數(shù)據(jù)流拼接133輸出〈X” Y〉的拼接后2*L維的數(shù)據(jù)。得到這個數(shù)據(jù)后,進(jìn)入是否變換131部分進(jìn)行判斷。如果我們要做一維或者多維的原始數(shù)據(jù)的關(guān)聯(lián),也就是是否變換131的結(jié)論是“是“,那么就可以直接輸出拼接后的2*L維的數(shù)據(jù)到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)
<Xi,Y>134。如果用戶選擇在數(shù)據(jù)轉(zhuǎn)換的過程中使用其他的變換函數(shù),也就是是否變換131的結(jié)論是“否”,那么進(jìn)入步驟嵌入變換132。嵌入變換132步驟利用“如何嵌入其他變換”一章中描述的方法,把2*L的數(shù)據(jù),轉(zhuǎn)換成為2*L’的數(shù)據(jù)。嵌入變換132可以利用小波變換或者傅里葉變換等實現(xiàn)。嵌入變換132針對每個數(shù)據(jù)流(Xi或者Y)輸出變換后的2*L’維的數(shù)據(jù)輸出到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi,Y>134。最后輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi,Y>134負(fù)責(zé)輸出到下一步。附圖5描述了一個實現(xiàn)本專利方法的數(shù)據(jù)分析系統(tǒng)的內(nèi)部結(jié)構(gòu)圖。附圖5中,被監(jiān)測系統(tǒng)201為被監(jiān)測的系統(tǒng),它可以一個系統(tǒng),或者是多個系統(tǒng)的綜合。比如一個數(shù)據(jù)庫系統(tǒng),多個計算機(jī)構(gòu)成的計算機(jī)集群系統(tǒng),或者一個全球的金融系統(tǒng)(包括股票,債券等)。被監(jiān)測系統(tǒng)201由多個被監(jiān)測子系統(tǒng)系統(tǒng)202構(gòu)成。比如一個數(shù)據(jù)庫系統(tǒng)是由外存(磁盤),內(nèi)存緩存,CPU等構(gòu)成的。其中CPU可以是一個被監(jiān)測子系統(tǒng)系統(tǒng)202,內(nèi)存緩存也是一個被監(jiān)測子系統(tǒng)系統(tǒng)202。數(shù)據(jù)收集裝置203安裝在被監(jiān)測系統(tǒng)201一端,可以是外置的或者內(nèi)置的監(jiān)測器。如果是內(nèi)置的,那么一般是被監(jiān)測子系統(tǒng)系統(tǒng)202本身提供監(jiān)測數(shù)據(jù)。最終,針對每個被監(jiān)測子系統(tǒng)系統(tǒng)202,我們得到一個或者多個監(jiān)測數(shù)據(jù)流。
所有的監(jiān)測數(shù)據(jù)流被送往數(shù)據(jù)匯集裝置305。分析系統(tǒng)主機(jī)301利用數(shù)據(jù)匯集裝置305收到數(shù)據(jù)流后,根據(jù)用戶的分析需要,部分的數(shù)據(jù)流被分作為源數(shù)據(jù)流Xi,部分的數(shù)據(jù)流被分作為目標(biāo)數(shù)據(jù)流Y。分析系統(tǒng)主機(jī)301把過去一段時間的數(shù)據(jù)作為歷史數(shù)據(jù),利用“如何訓(xùn)練分布模型” 一章中的方法訓(xùn)練多個分布模型。過去一段時間的長短作為一個系統(tǒng)參數(shù),可以選擇一天的,或者一個月的。分析系統(tǒng)主機(jī)301不間斷的通過數(shù)據(jù)匯集裝置305獲取新的數(shù)據(jù)。針對這些新的數(shù)據(jù),利用“如何計算相關(guān)性” 一章中的方法,計算源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y之間的關(guān)聯(lián)度。得到數(shù)據(jù)流之間的關(guān)聯(lián)度后,用戶可以在顯示模塊302中顯示那些與選定目標(biāo)數(shù)據(jù)流關(guān)聯(lián)度最高的數(shù)據(jù)流。顯示模塊302把選定的數(shù)據(jù)流顯示在一起,用戶可以很容易的檢視數(shù)據(jù),驗證關(guān)聯(lián)度是否真正的合理。分析系統(tǒng)主機(jī)301中內(nèi)存304,外存303,中央處理器303和顯示模塊302直接的關(guān)系是通用的計算機(jī)處理結(jié)構(gòu),他們之間的組合關(guān)系不是本專利要求的權(quán)利。
權(quán)利要求
1.一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)分析方法,該方法的特征是根據(jù)輸入的多個數(shù)據(jù)流的歷史數(shù)據(jù),選定其中某些作為目標(biāo)數(shù)據(jù)流,某些是源數(shù)據(jù)流,然后訓(xùn)練一組分布模型;在得到一批新的數(shù)據(jù)后,根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度,從而發(fā)現(xiàn)哪一個源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是用條件概率P(YlXi)來定義兩個數(shù)據(jù)流之間的數(shù)據(jù)相關(guān)性,其中Xi代表第i個源數(shù)據(jù)流,并且條件概率有兩種計算方法,一種是P (Y,Xi) /P (Xi),另外一種是直接按照條件概率的表達(dá)式P (YI Xi)計算。
3.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是輸入到分布模型的訓(xùn)練數(shù)據(jù)和計算數(shù)據(jù)可以是I維的,也可以在時間窗口上的多維數(shù)據(jù);并且,時間窗口內(nèi)的多維數(shù)據(jù)可以經(jīng)過函數(shù)變換后輸入。
4.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法,其特征是每個目標(biāo)數(shù)據(jù)流和需要關(guān)聯(lián)分析的所有源數(shù)據(jù)流兩兩形成高斯混合模型,并處理關(guān)于源數(shù)據(jù)流與每個目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)關(guān)系。
5.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法實現(xiàn)的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是實現(xiàn)的方法中分布模型使用高斯混合模型。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)關(guān)聯(lián)分析方法,其特征是在選定的目標(biāo)數(shù)據(jù)流的過程中,同一個數(shù)據(jù)流可以根據(jù)業(yè)務(wù)需要作為源數(shù)據(jù)流或者目標(biāo)數(shù)據(jù)流,之后,把每個不同的源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流結(jié)對組合訓(xùn)練成為一個高斯混合模型,最后根據(jù)這些目標(biāo)數(shù)據(jù)流對的高斯混合模型,計算每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的相關(guān)度。
7.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法實現(xiàn)的數(shù)據(jù)分析系統(tǒng),其特征是從被監(jiān)測的系統(tǒng)中獲取每個子系統(tǒng)的監(jiān)測數(shù)據(jù),其中一部做為源數(shù)據(jù)流,另一部做為目標(biāo)數(shù)據(jù)流; 然后根據(jù)權(quán)利要求I描述的數(shù)據(jù)關(guān)聯(lián)分析方法,計算哪一個子系統(tǒng)對應(yīng)的源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的相關(guān)性最大,從而判定當(dāng)前系統(tǒng)的觀測現(xiàn)象最有可能是哪個被監(jiān)測的子系統(tǒng)造成的。
全文摘要
一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法。使用這種數(shù)據(jù)關(guān)聯(lián)方法,計算機(jī)分析系統(tǒng)可以自動的快速為用戶自動選定與某些監(jiān)測數(shù)據(jù)最相關(guān)的其他監(jiān)測數(shù)據(jù),從而幫助用戶快速定位系統(tǒng)問題。比如當(dāng)用戶發(fā)現(xiàn)一個數(shù)據(jù)庫系統(tǒng)的響應(yīng)時間變慢后,使用本方法的分析系統(tǒng)可以自動分析內(nèi)存,磁盤,CPU等子系統(tǒng)的使用情況,發(fā)現(xiàn)那個子系統(tǒng)導(dǎo)致了這個問題。這種數(shù)據(jù)關(guān)聯(lián)方法根據(jù)輸入的多個數(shù)據(jù)流的歷史數(shù)據(jù),選定其中某些作為目標(biāo)數(shù)據(jù)流,某些是源數(shù)據(jù)流,然后訓(xùn)練一組分布模型;在得到一批新的數(shù)據(jù)后,根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度,從而發(fā)現(xiàn)哪一個源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。實現(xiàn)本方法時分布模型可以使用高斯混合模型。
文檔編號G06F17/30GK102750373SQ201210205098
公開日2012年10月24日 申請日期2012年6月20日 優(yōu)先權(quán)日2012年6月20日
發(fā)明者段起陽 申請人:段起陽