一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法

文檔序號：6371813閱讀：281來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法
技術(shù)領(lǐng)域：
本專利涉及數(shù)據(jù)分析方法，尤其是計算機(jī)實現(xiàn)的流數(shù)據(jù)分析和關(guān)聯(lián)方法以及數(shù)據(jù)關(guān)聯(lián)分析系統(tǒng)。
背景技術(shù)：
現(xiàn)在很多系統(tǒng)都可以生成流數(shù)據(jù)，典型的比如計算機(jī)系統(tǒng)的性能監(jiān)測數(shù)據(jù)，不同地區(qū)的天氣數(shù)據(jù)，金融數(shù)據(jù)(包括股票、債券、石油價格)等等。這些數(shù)據(jù)的共同特點是每個時間點都會生成一個新的數(shù)據(jù)，生成頻率非常高，從而導(dǎo)致無法長時間的存儲數(shù)據(jù)并分析。在每個時間點上的數(shù)據(jù)我們稱之為一個數(shù)據(jù)點。如何能快速的發(fā)現(xiàn)這些數(shù)據(jù)之間關(guān)聯(lián)性是一個值得研究的問題。比如，在金融數(shù) 據(jù)中，如果存在幾個金融數(shù)據(jù)，比如石油價格為A，匯率價格為B，當(dāng)我們觀察股票C的漲跌情況的時候，我們希望能知道股票A的漲跌與石油價格A和匯率價格B之間是否存在關(guān)聯(lián)?；蛘哒f，當(dāng)前股票C的價格變動，是不是由于A或者B的價格變動引起的，或者是別的因素。這個方法也同樣適用于多個股票之間的關(guān)系的分析。復(fù)雜的系統(tǒng)，比如衛(wèi)星系統(tǒng)、計算機(jī)網(wǎng)絡(luò)系統(tǒng)或者一個數(shù)據(jù)庫系統(tǒng)，一般都是由很多的部件構(gòu)成的。比如數(shù)據(jù)庫系統(tǒng)中存在內(nèi)存緩存，硬盤(或者外部存儲)，CPU等的部件。針對每個部件，監(jiān)控裝置可以監(jiān)控他們的運行狀態(tài)，并記錄下來。每個部件記錄下來的數(shù)據(jù)就成為一個流數(shù)據(jù)。同時，我們針對整個的系統(tǒng)可能有其他的監(jiān)控指標(biāo)，比如系統(tǒng)的吞吐量，響應(yīng)時間等。當(dāng)我們在系統(tǒng)的響應(yīng)時間上發(fā)現(xiàn)異常(比如特別慢)的時候，我們希望能自動分析內(nèi)部每個部件的監(jiān)測數(shù)據(jù)，并能夠定位到哪個部件的狀態(tài)數(shù)據(jù)與這個狀態(tài)特別相關(guān)。這樣，我們就可以很容易的發(fā)現(xiàn)系統(tǒng)問題出在什么地方。目前已經(jīng)有一些方法通過計算流數(shù)據(jù)之間的相關(guān)系數(shù)來實現(xiàn)。典型的有Pearson相關(guān)系數(shù)，余弦(Cosine)相關(guān)性等。另外，還可以在計算相關(guān)性之前進(jìn)行多種變換，比如傅里葉(Fourier)變換,小波(Haar Wavelet)變換等。這些方法的共同點是他們計算的都是全局的相關(guān)性，比如可以計算兩個股票之間在全局的相關(guān)性，或者兩個部件的監(jiān)測數(shù)據(jù)的全局相關(guān)性。另外，有些方法也可以在局部區(qū)域計算相關(guān)性。比如可以把一段時間(或稱之為滑動窗口)的數(shù)據(jù)內(nèi)部計算相關(guān)性。另外，還可以做特征值分解(SVD)變換后計算滑動窗口內(nèi)的相關(guān)性。這種方法的問題是只能考慮當(dāng)前窗口的變換，而不能利用歷史的信息。高斯混合模型(Gaussian Mixture Model,記為GMM)是利用多個高斯分布(Gaussian DistributionddSG)來擬合現(xiàn)實數(shù)據(jù)的一個模型。每個高斯分布按照附圖I的公式定義。
多個高斯分布線性可以按照附圖2的公式組合就構(gòu)成了一個高斯混合模型GMM(X)。得到一個分布模型后(比如GMM(X))，如果有一個新的數(shù)據(jù)點X，可以輸入到函數(shù)中，得到這個數(shù)據(jù)點的分布概率PU)。最大似然方法(Expectation Maximization,簡稱EM)方法是根據(jù)數(shù)據(jù)通過不斷的迭代擬合一個分布模型的方法。這個方法里面的每個迭代包括計算似然(E)和最大化似然(M)兩個步驟。在E步驟里面，根據(jù)固定的分布參數(shù)來調(diào)整每個數(shù)據(jù)點屬于不同的分布模型的概率，在M步驟里面，把每個數(shù)據(jù)點屬于不同的分布固定，然后最大化每個分布模型的參數(shù)。最大似然方法可以用來擬合各種分布模型，其中包括高斯混合模型。在前面提到的技術(shù)的基礎(chǔ)上，本專利中提出了一種分析框架，這個分析框架根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個分布模型，然后利用分布模型針對當(dāng)前的流數(shù)據(jù)計算不同流數(shù)據(jù)直接相關(guān)性的方法。同時，本專利提出了利用高斯混合模型實現(xiàn)這種框架的方法和系統(tǒng)。

發(fā)明內(nèi)容
本專利是一個可以根據(jù)歷史的流數(shù)據(jù)訓(xùn)練一個分布模型，然后利用分布模型針對當(dāng)前的流數(shù)據(jù)計算不同流數(shù)據(jù)之間相關(guān)度的方法。如何訓(xùn)練分布模型本方法的模型訓(xùn)練的輸入是多個數(shù)據(jù)流的歷史數(shù)據(jù)，假定有N個數(shù)據(jù)點，每個數(shù)據(jù)點上每個數(shù)據(jù)流有一個數(shù)據(jù)。根據(jù)用戶對于這些數(shù)據(jù)流的業(yè)務(wù)理解，這些數(shù)據(jù)流可以分成兩類源數(shù)據(jù)流X和目標(biāo)數(shù)據(jù)流Y。其中目標(biāo)數(shù)據(jù)流Y—般是能夠描述整個系統(tǒng)的指標(biāo)，而源數(shù)據(jù)流則一般可以描述系統(tǒng)中的子系統(tǒng)的狀態(tài)。我們希望能夠針對子系統(tǒng)的狀態(tài)和整個系統(tǒng)的狀態(tài)之間的復(fù)雜關(guān)系建立一個模型。在特殊的情況下，如果需要，用戶可以把所有的數(shù)據(jù)流都作為目標(biāo)數(shù)據(jù)流，同時把所有的數(shù)據(jù)流都作為源數(shù)據(jù)流。首先聲明本專利中用到的一些符號
GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布模型，Xi和Y的順序可以改變，不影響模型，也就是GMM (Y，Xi) =GMM (Xi, Y)。GMM(Xi)代表Xi的條件高斯混合分布模型。GMM (YXi)代表Y相對于Xi的條件高斯混合分布模型；
同樣的用麗(Xi)代表任意的一個分布模型，MM(Xi, Y)代表任意的一個Xi和Y的聯(lián)合分布模型；
P(Xi)代表Xi的分布概率，對于任意一個數(shù)據(jù)點，可以根據(jù)麗(Xi)或者GMM(Xi)計算 P (Xi)。P (Xi, Y)代表Xi和Y的聯(lián)合分布概率。P (Y I Xi)代表Y相對于Xi的條件分布概率。假定存在M個源數(shù)據(jù)流，每個源數(shù)據(jù)流記做Xi，其中下標(biāo)i為從I到M的整數(shù)值，代表第i個源數(shù)據(jù)流。Xi中的每個數(shù)據(jù)記做Xit，其中t代表第t個時間點的數(shù)據(jù)。在每次的訓(xùn)練處理中，為簡單起見，我們假定只存在一個目標(biāo)數(shù)據(jù)流。如果需要有多個數(shù)據(jù)流作為目標(biāo)數(shù)據(jù)流分析，我們可以每次取一個目標(biāo)數(shù)據(jù)流作為Y，然后依次循環(huán)處理。我們同時假定所有的數(shù)據(jù)流的長度相等(假定為N)，如果長度不相等，則在對應(yīng)的數(shù)據(jù)流空位上填一個缺省值(比如0)使其相等。確定M個Xi和一個Y之后，把每個Xi和Y兩兩組合，得到M個2個數(shù)據(jù)流構(gòu)成的數(shù)據(jù)流對〈Xi, Y〉。如果其中Xi和Y是同一個，則掠過這個組合，繼續(xù)處理下一個。比如我們有2個源數(shù)據(jù)流X1, X2和一個目標(biāo)數(shù)據(jù)流Y，其中
Xf2，3，I, 5，3，4，2，6，9，I, 2，3X2=8, 4，2，2，I, 2，2，3，2，4，I, 5Y = 8，4，2，5，3，4，2，6，9，4，2，5上面的例子里面三個數(shù)據(jù)流的長度都是N=12。那么，我們可以組合出兩個數(shù)據(jù)流對〈^>和〈X2, Y〉。下面我們說明這兩個數(shù)據(jù)流對每個是如何拼接出來的。首先，我們說明如何在一維上拼接每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流，用來尋找直接的一維上的關(guān)聯(lián)關(guān)系，也就是每個點上Xi和Y之間的關(guān)聯(lián)度。這種情況等同于滑動窗口的維度L=I。在處理一維數(shù)據(jù)關(guān)聯(lián)的時候，把每個數(shù)據(jù)流對的對應(yīng)的數(shù)據(jù)點上的數(shù)據(jù)重新組合成兩維數(shù)據(jù)對，也就是〈X” Y〉= (<Xn，Y1^OCi2, Y2>，…，<X1N，YN>)。比如在上面的例子里面，我們最后可以得到
<X1,Y> = 2, 8>，〈3，4>，〈1，2>，〈5，5>，〈3，3>，〈4，4>，〈2，2>，〈6，6>，〈9，9>，〈1，4>，〈2，2>，〈3，5 。其次，如果要針對每個數(shù)據(jù)流選擇多維(假設(shè)是L維)數(shù)據(jù)來識別連續(xù)多值的事件，首先定義一個滑動窗口，假定其長度為L。每個數(shù)據(jù)流中每個數(shù)據(jù)點開始的L個數(shù)據(jù)成為一個滑動窗口中的數(shù)據(jù)點。如果一個滑動窗口從Xit開始，那么它所包含的數(shù)據(jù)就是
〈Xit，Xi(t+1)，， Xia+L—o〉。同樣的，從Yt開始的目標(biāo)數(shù)據(jù)流的滑動窗口所包含的數(shù)據(jù)就是
<Yt,Y(t+1),…，Y(t+H)>。把源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的同一個位置的滑動窗口中的所有2L個數(shù)據(jù)點拼接成一個新的數(shù)據(jù)點的數(shù)據(jù)。最終得到M個2L維的數(shù)據(jù)流對。我們有
(Xi, Y〉— (〈Xn, Xi2, ，Xi (1+L), Y1, Xi2, ，Xi (1+L)〉，
〈Xn，Xi2, ，Xj(1+L), Y1, Xi2, ，Xj(1+L)〉，
〈Xi(N-L+l)，(N-L+2)) ， XiN， Y(n_l+1), Xi (N_L+2), ， XiN〉)
這些數(shù)據(jù)流對的長度為N-L+1，每個數(shù)據(jù)點的維度為2L。比如按照上面的數(shù)據(jù)，如果我們選擇窗口長度L=3，那么拼接后得到的數(shù)據(jù)流對為
<X1,Y> = (〈2,3，1，8，4，2>，〈3，1,5，4,2，5>，-<1,2, 3,4, 2, 5
其中，第一個數(shù)據(jù)點中〈2，3，1,8,4, 2>的前三個數(shù)據(jù)值〈2，3，1>是來自X1的，〈8，4，2>是來自Y的。上面的這個過程，我們稱之為數(shù)據(jù)轉(zhuǎn)換的過程。然后，我們進(jìn)行模型的訓(xùn)練。如果我們分布模型選擇使用高斯混合模型，在訓(xùn)練的開始，需要給定一個參數(shù)K。K代表針對轉(zhuǎn)換后的數(shù)據(jù)流對訓(xùn)練多少個狀態(tài)，也就是附圖2中高斯混合模型公式中的K。這個K的值我們?nèi)笔≡O(shè)置比較大，這個值一般根據(jù)實際系統(tǒng)的經(jīng)驗初審給定。比如K=20個。這個參數(shù)可以根據(jù)用戶的業(yè)務(wù)經(jīng)驗和對于數(shù)據(jù)的理解設(shè)定。利用最大似然(EM)算法，針對每個數(shù)據(jù)流對〈X” Y〉我們可以訓(xùn)練得到一個高斯混合模型GMM (Xi, Y)。這個GMM (Xi, Y)的維度是與前面轉(zhuǎn)換后的數(shù)據(jù)流對〈X” Y〉的維度一致的。如果〈Xi, Y >是21維的，那么GMM(XiJ)的每個高斯函數(shù)也是2L維的。在訓(xùn)練的過程中，如果出現(xiàn)最大似然算法不能收斂的情況，我們設(shè)定一個閥值(t匕如1000次迭代),達(dá)到這個迭代次數(shù)后,就停止算法,然后把狀態(tài)數(shù)K減一,重新開始訓(xùn)練。這個閥值是訓(xùn)練算法的一個參數(shù)，一開始的時候確定。最大似然算法完成后，我們得到M個高斯混合模型，其中每個高斯混合模型GMM(Xi, Y)代表Xi和Y的聯(lián)合高斯混合分布概率。針對每個數(shù)據(jù)流對訓(xùn)練完成后，我們同時要訓(xùn)練每個源數(shù)據(jù)流Xi的分布模型GMM(Xi)。這個訓(xùn)練過程中，模型輸入的數(shù)據(jù)維度與前面聯(lián)合分布概率的L一致。比如如果前面訓(xùn)練用的L=3，那么同樣的把Xi變換成為3維的(N-3+1)個數(shù)據(jù)點。然后用最大似然算法擬合一個3維的高斯混合模型。最后得到M個源數(shù)據(jù)流對應(yīng)的M個高斯混合模型GMM(Xi)。在分布模型為高斯模型的情況下，我們可以利用高斯模型的特殊性質(zhì)，根據(jù)GMM(Xi, Y)計算偏概率分布(partial Distribution)得到GMM(Xi),計算的方法是把高斯混合模型中的中心點u和方差s中的Xi部分取出，構(gòu)成一個新的模型就可以。同樣類似的方法，也可以計算條件概率(Conditional Distribution)得到GMM(Y | Xi)。這兩個計算相關(guān)概率的方法是已有方法，不是本專利內(nèi)容。為了簡化本法的描述，我們用高斯混合模型作為分布模型來描述我們的數(shù)據(jù)關(guān)聯(lián)分析方法，但是本方法可以使用其他分布模型來替代高斯混合模型，所以分布模型使用高斯混合模型不應(yīng)成為本專利的限制。如何計算相關(guān)性
在一個新的時間點，我們會觀測到一批新的數(shù)據(jù)。這些數(shù)據(jù)跟原來用于訓(xùn)練高斯混合模型的歷史的格式是相同的。這里我們同樣假定輸入為M個源數(shù)據(jù)流Xi和I個目標(biāo)數(shù)據(jù) 流Y。但是每次處理的數(shù)據(jù)流長度不是N，而是前面訓(xùn)練的時候設(shè)定的數(shù)據(jù)流匹配的維度L。然后，按照訓(xùn)練的時候同樣的組合方式，把每個源數(shù)據(jù)流Xi與目標(biāo)數(shù)據(jù)流Y組合，得到M個數(shù)據(jù)流對〈Xi, Y〉的一個或者多個數(shù)據(jù)點。在計算相關(guān)度的時候，我們每次針對一個數(shù)據(jù)點(時間點)進(jìn)行，如果有多個數(shù)據(jù)點，則依次處理。比如在前面的例子里面，假定我們用L=I來訓(xùn)練的高斯混合模型。在一個新的數(shù)據(jù)點上，我們收集到這樣的數(shù)據(jù)
Xi=6X2=I
Y= 6
我們按照訓(xùn)練模型是對于數(shù)據(jù)整理的同樣的方式，得到兩個2維的數(shù)據(jù)流對 <X1,Y>=<6, 6>, <X2，Y>=〈1，6>。然后，我們可以使用兩種方法來計算相關(guān)性。第一種方法是把〈Xi, Y〉輸入到分布模型麗(YI Xi)可以直接求得M個Xi與Y的相關(guān)性P (Y I Xi)。這種情況適用于條件分布模型可以直接算出的情況，比如分布模型用高斯混合模型的情況下可以用GMM(Y| Xi)直接計算P (Y I Xi)。第二種方法是把〈Xi, Y〉輸入到分布模型MM (Xi, Y)得到聯(lián)合概率P (Xi, Y)，然后把
<Xi >輸入到源數(shù)據(jù)流的分布模型MM(Xi)中求得源數(shù)據(jù)流的分布概率P(Xi)。然后，根據(jù)公式
P(Y I Xi)= P(XilY)/ P(Xi)
就可以求得M個Xi與Y的相關(guān)性P (Y I Xi)。在這M個相關(guān)性P (Y I Xi)中，找最大的值，就可以找出哪個源數(shù)據(jù)流對應(yīng)的系統(tǒng)部件跟現(xiàn)在的系統(tǒng)狀態(tài)最相關(guān)。前面的兩個方法中，麗(Xi)代表Xi的分布模型，如果使用GMM，則成為GMM(Xi)。如何嵌入其他變換
在前面數(shù)據(jù)轉(zhuǎn)換的過程中，除了簡單的按照滑動窗口展開的方式，我們還可以嵌入其他的轉(zhuǎn)換函數(shù)。這里按照小波變換(Haar Wavelet)來作為例子講解怎么把變換后的結(jié)果嵌入到數(shù)據(jù)轉(zhuǎn)換的過程。其他的變換如傅里葉，余弦變換等的嵌入方式是相同的。數(shù)據(jù)變換過程需要定義一個參數(shù)，那就是變換后保留的數(shù)據(jù)的維度，我們記做L’。嵌入其他變換的方法一般適用在滑動窗口中，并且L>1。不同的變換函數(shù)對參數(shù)有不同的要求，一般L’遠(yuǎn)小于L。L’也可以選擇比L大，則稱之為升維變換。一般為達(dá)到最好性能，小波變換要求L是2的乘方數(shù)，比如2，4，8等。按照“如何訓(xùn)練分布模型” 一章所述，在數(shù)據(jù)變換的過程中，針對每個數(shù)據(jù)流，比如Xi,在每一個Xit開始的滑動窗口中，在轉(zhuǎn)換的過程中，我們有L個數(shù)據(jù)<Xit，Xi(t+1),…，Xi(t+L—I)〉° 針對這些數(shù)據(jù)，我們可以做小波變換，然后只保留前面少部分的L’個變換后的系數(shù)。比如L=S的時候，我們可以保留前面L’=2個或者L’=4個變換后的系數(shù)。仍然按照前面的例子，我們有數(shù)據(jù)
Xf2，3，I, 5，3，4，2，6，9，I, 2，3 X2=8, 4，2，2，I, 2，2，3，2，4，I, 5
Y= 8，4，2，5，3，4，2，6，9，4，2，5 進(jìn)行小波變換的時候，需要先先構(gòu)造每個滑動窗口的數(shù)據(jù)。我們以計算〈X” Y〉的變換為例。首先得到Xl和Y的第一個滑動窗口的數(shù)據(jù)
<Xn>=<2, 3，I, 5，3，4，2，6>
<￥^=<8, 4，2，5，3，4，2，6>
經(jīng)過小波變換后的，滑動窗口內(nèi)的數(shù)據(jù)變成為
<Xn，>=〈26，2，0.5，0.5，0.5，2，0.5，2>
〈Y/ >=〈34，-2，-2. 5 -0.5，-2，I. 5, 0.5，2>
我們從小波變換后的數(shù)據(jù)中取前面的兩個L’ =2，我們得到
<Xn，>=〈26，2>
〈Y/ >=〈34， -2〉
然后我們把兩個變換后的結(jié)果拼接在一起，得到
〈X/ ,Y，>=〈26，2，34，-2〉，
然后把這些轉(zhuǎn)換后的數(shù)據(jù)點送入最大似然算法進(jìn)行訓(xùn)練，跟“如何訓(xùn)練分布模型”后面的訓(xùn)練方法一樣，得到一個高斯混合模型GMM(XI，Y)。同樣的方法，可以對每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流組合訓(xùn)練轉(zhuǎn)換后的GMM(Xi, Y)。拿到新的數(shù)據(jù)點后，首先按照同樣的轉(zhuǎn)換方法得到新的數(shù)據(jù)對〈Xi, Y〉。這個數(shù)據(jù)對是同樣L個數(shù)據(jù)轉(zhuǎn)換到L’個數(shù)據(jù)的。然后通過訓(xùn)練好的模型，用相同的方法計算P(Y|Xi)，得到每個源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)度。子系統(tǒng)實現(xiàn)
本專利同時提供一個實現(xiàn)該分析方法的分析系統(tǒng)。在這個分析系統(tǒng)中，我們有一個數(shù)據(jù)收集裝置，針對每個系統(tǒng)部件收集他們的狀態(tài)數(shù)據(jù)，形成M個源數(shù)據(jù)流\，和多個目標(biāo)數(shù)據(jù)流Y。每個源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y對應(yīng)了需要監(jiān)測和關(guān)聯(lián)的一個系統(tǒng)部件。收集到的數(shù)據(jù)Xi和Y傳送給分析計算機(jī)系統(tǒng)。分析計算機(jī)系統(tǒng)使用前面三節(jié)“如何訓(xùn)練分布模型”，“如何計算相關(guān)性”，和“如何嵌入其他變換”的方法對數(shù)據(jù)進(jìn)行處理，最后得到每個源數(shù)據(jù)流和每個目標(biāo)數(shù)據(jù)流的相關(guān)度P (YI Xi)。該系統(tǒng)可以針對每個目標(biāo)數(shù)據(jù)流顯示那些最相關(guān)的源數(shù)據(jù)流供系統(tǒng)分析人員對比分析。

附圖I展示了高斯分布的公式。附圖2展示了高斯混合模型的公式。附圖3展示了訓(xùn)練分布模型和計算相關(guān)性的流程。附圖4展示了在數(shù)據(jù)轉(zhuǎn)換過程中嵌入小波變換的過程。附圖5展示了一個實現(xiàn)本專利方法的分析系統(tǒng)。附圖I展示了高斯分布公式，該公式不是本專利要求的權(quán)利，僅用于說明本專利的實施方式。公式中，u為模型的中點(平均值)，S為方差，P為圓周率常數(shù)3. 14，exp(x)代表取自然對數(shù)的X次方，上標(biāo)T代表取矩陣的轉(zhuǎn)置。
附圖2展示了高斯混合分布模型公式。公式中，qk為第k個高斯函數(shù)的權(quán)重，所有qk相加為I。G(x uk, Sk)為第k個按照附圖I公式定義的關(guān)于X的高斯分布函數(shù)。在“如何訓(xùn)練分布模型”一節(jié)中，我們使用高斯混合分布模型來擬合源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的關(guān)系。附圖3展示了訓(xùn)練分布模型和計算相關(guān)性的流程。在圖中，橢圓形框為輸入輸出，矩形框為系統(tǒng)中間的處理步驟。在附圖3中，輸入訓(xùn)練數(shù)據(jù)XJPY 101輸入用來訓(xùn)練模型的數(shù)據(jù)，這些數(shù)據(jù)是中所有的Xi和Y是等長的，都有N個數(shù)據(jù)點。然后這些數(shù)據(jù)Xi和Y都輸入到數(shù)據(jù)轉(zhuǎn)換102中，數(shù)據(jù)轉(zhuǎn)換102負(fù)責(zé)把Xi和Y轉(zhuǎn)換成為兩兩配對的數(shù)據(jù)流〈Xi, Y〉。數(shù)據(jù)轉(zhuǎn)換102可以處理一維上或者多維上的轉(zhuǎn)換，假定滑動窗口的長度為L，那么轉(zhuǎn)換后的訓(xùn)練數(shù)據(jù)成為N個2L維的數(shù)據(jù)點。轉(zhuǎn)換后的數(shù)據(jù)流對〈X” Y〉送入到訓(xùn)練分布模型103步驟中，該步驟訓(xùn)練分布模型103使用最大似然算法(EM)根據(jù)輸入數(shù)據(jù)訓(xùn)練分布模型。訓(xùn)練分布模型103步驟中訓(xùn)練好的模型會送入步驟使用分布模型計算關(guān)聯(lián)概率104中。當(dāng)我們在步驟輸入待關(guān)聯(lián)數(shù)據(jù)Xi和Y 121收到新的數(shù)據(jù)后，把新收到的數(shù)據(jù)同樣輸入到數(shù)據(jù)轉(zhuǎn)換102中，進(jìn)行與訓(xùn)練過程相同的轉(zhuǎn)換過程。轉(zhuǎn)換后的數(shù)據(jù)成為1*2L維的數(shù)據(jù)。然后把這個1*2L維的數(shù)據(jù)送入到步驟使用分布模型計算關(guān)聯(lián)概率104中。該步驟負(fù)責(zé)把數(shù)據(jù)輸入到前面訓(xùn)練好的模型，按照“如何計算相關(guān)性” 一章中的方法，可以計算并輸出相關(guān)概率。最后輸出關(guān)聯(lián)概率P(Y| Xi) 105的步驟輸出最終的相關(guān)度P(YI XD。附圖4是附圖3中的數(shù)據(jù)轉(zhuǎn)換102步驟的內(nèi)部設(shè)計。附圖4中，輸入為附圖3的步驟輸入訓(xùn)練數(shù)據(jù)<Xi>和〈Y〉101中的訓(xùn)練數(shù)據(jù)〈Xi)和〈Y〉。針對每個數(shù)據(jù)流對〈Xi, Y〉，按照“如何訓(xùn)練分布模型” 一章中的方法把每個數(shù)據(jù)點的數(shù)據(jù)之間轉(zhuǎn)換成為2*L維的一個數(shù)據(jù)點。這一步在數(shù)據(jù)流拼接133中完成。數(shù)據(jù)流拼接133輸出〈X” Y〉的拼接后2*L維的數(shù)據(jù)。得到這個數(shù)據(jù)后，進(jìn)入是否變換131部分進(jìn)行判斷。如果我們要做一維或者多維的原始數(shù)據(jù)的關(guān)聯(lián)，也就是是否變換131的結(jié)論是“是“，那么就可以直接輸出拼接后的2*L維的數(shù)據(jù)到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)
<Xi，Y>134。如果用戶選擇在數(shù)據(jù)轉(zhuǎn)換的過程中使用其他的變換函數(shù)，也就是是否變換131的結(jié)論是“否”，那么進(jìn)入步驟嵌入變換132。嵌入變換132步驟利用“如何嵌入其他變換”一章中描述的方法，把2*L的數(shù)據(jù)，轉(zhuǎn)換成為2*L’的數(shù)據(jù)。嵌入變換132可以利用小波變換或者傅里葉變換等實現(xiàn)。嵌入變換132針對每個數(shù)據(jù)流(Xi或者Y)輸出變換后的2*L’維的數(shù)據(jù)輸出到步驟輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi，Y>134。最后輸出轉(zhuǎn)換后的數(shù)據(jù)〈Xi，Y>134負(fù)責(zé)輸出到下一步。附圖5描述了一個實現(xiàn)本專利方法的數(shù)據(jù)分析系統(tǒng)的內(nèi)部結(jié)構(gòu)圖。附圖5中，被監(jiān)測系統(tǒng)201為被監(jiān)測的系統(tǒng)，它可以一個系統(tǒng)，或者是多個系統(tǒng)的綜合。比如一個數(shù)據(jù)庫系統(tǒng)，多個計算機(jī)構(gòu)成的計算機(jī)集群系統(tǒng)，或者一個全球的金融系統(tǒng)(包括股票，債券等)。被監(jiān)測系統(tǒng)201由多個被監(jiān)測子系統(tǒng)系統(tǒng)202構(gòu)成。比如一個數(shù)據(jù)庫系統(tǒng)是由外存(磁盤)，內(nèi)存緩存，CPU等構(gòu)成的。其中CPU可以是一個被監(jiān)測子系統(tǒng)系統(tǒng)202，內(nèi)存緩存也是一個被監(jiān)測子系統(tǒng)系統(tǒng)202。數(shù)據(jù)收集裝置203安裝在被監(jiān)測系統(tǒng)201一端，可以是外置的或者內(nèi)置的監(jiān)測器。如果是內(nèi)置的，那么一般是被監(jiān)測子系統(tǒng)系統(tǒng)202本身提供監(jiān)測數(shù)據(jù)。最終，針對每個被監(jiān)測子系統(tǒng)系統(tǒng)202，我們得到一個或者多個監(jiān)測數(shù)據(jù)流。
所有的監(jiān)測數(shù)據(jù)流被送往數(shù)據(jù)匯集裝置305。分析系統(tǒng)主機(jī)301利用數(shù)據(jù)匯集裝置305收到數(shù)據(jù)流后，根據(jù)用戶的分析需要，部分的數(shù)據(jù)流被分作為源數(shù)據(jù)流Xi，部分的數(shù)據(jù)流被分作為目標(biāo)數(shù)據(jù)流Y。分析系統(tǒng)主機(jī)301把過去一段時間的數(shù)據(jù)作為歷史數(shù)據(jù)，利用“如何訓(xùn)練分布模型” 一章中的方法訓(xùn)練多個分布模型。過去一段時間的長短作為一個系統(tǒng)參數(shù)，可以選擇一天的，或者一個月的。分析系統(tǒng)主機(jī)301不間斷的通過數(shù)據(jù)匯集裝置305獲取新的數(shù)據(jù)。針對這些新的數(shù)據(jù)，利用“如何計算相關(guān)性” 一章中的方法，計算源數(shù)據(jù)流Xi和目標(biāo)數(shù)據(jù)流Y之間的關(guān)聯(lián)度。得到數(shù)據(jù)流之間的關(guān)聯(lián)度后，用戶可以在顯示模塊302中顯示那些與選定目標(biāo)數(shù)據(jù)流關(guān)聯(lián)度最高的數(shù)據(jù)流。顯示模塊302把選定的數(shù)據(jù)流顯示在一起，用戶可以很容易的檢視數(shù)據(jù)，驗證關(guān)聯(lián)度是否真正的合理。分析系統(tǒng)主機(jī)301中內(nèi)存304，外存303，中央處理器303和顯示模塊302直接的關(guān)系是通用的計算機(jī)處理結(jié)構(gòu)，他們之間的組合關(guān)系不是本專利要求的權(quán)利。
權(quán)利要求
1.一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)分析方法，該方法的特征是根據(jù)輸入的多個數(shù)據(jù)流的歷史數(shù)據(jù)，選定其中某些作為目標(biāo)數(shù)據(jù)流，某些是源數(shù)據(jù)流，然后訓(xùn)練一組分布模型；在得到一批新的數(shù)據(jù)后，根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度，從而發(fā)現(xiàn)哪一個源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是用條件概率P(YlXi)來定義兩個數(shù)據(jù)流之間的數(shù)據(jù)相關(guān)性，其中Xi代表第i個源數(shù)據(jù)流，并且條件概率有兩種計算方法，一種是P (Y，Xi) /P (Xi)，另外一種是直接按照條件概率的表達(dá)式P (YI Xi)計算。
3.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是輸入到分布模型的訓(xùn)練數(shù)據(jù)和計算數(shù)據(jù)可以是I維的，也可以在時間窗口上的多維數(shù)據(jù)；并且，時間窗口內(nèi)的多維數(shù)據(jù)可以經(jīng)過函數(shù)變換后輸入。
4.根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法，其特征是每個目標(biāo)數(shù)據(jù)流和需要關(guān)聯(lián)分析的所有源數(shù)據(jù)流兩兩形成高斯混合模型，并處理關(guān)于源數(shù)據(jù)流與每個目標(biāo)數(shù)據(jù)流的關(guān)聯(lián)關(guān)系。
5.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)分析方法實現(xiàn)的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是實現(xiàn)的方法中分布模型使用高斯混合模型。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)關(guān)聯(lián)分析方法，其特征是在選定的目標(biāo)數(shù)據(jù)流的過程中，同一個數(shù)據(jù)流可以根據(jù)業(yè)務(wù)需要作為源數(shù)據(jù)流或者目標(biāo)數(shù)據(jù)流，之后，把每個不同的源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流結(jié)對組合訓(xùn)練成為一個高斯混合模型，最后根據(jù)這些目標(biāo)數(shù)據(jù)流對的高斯混合模型，計算每個源數(shù)據(jù)流和目標(biāo)數(shù)據(jù)流的相關(guān)度。
7.一種使用根據(jù)權(quán)利要求I所述的數(shù)據(jù)關(guān)聯(lián)方法實現(xiàn)的數(shù)據(jù)分析系統(tǒng)，其特征是從被監(jiān)測的系統(tǒng)中獲取每個子系統(tǒng)的監(jiān)測數(shù)據(jù)，其中一部做為源數(shù)據(jù)流，另一部做為目標(biāo)數(shù)據(jù)流；然后根據(jù)權(quán)利要求I描述的數(shù)據(jù)關(guān)聯(lián)分析方法，計算哪一個子系統(tǒng)對應(yīng)的源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流的相關(guān)性最大，從而判定當(dāng)前系統(tǒng)的觀測現(xiàn)象最有可能是哪個被監(jiān)測的子系統(tǒng)造成的。
全文摘要
一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法。使用這種數(shù)據(jù)關(guān)聯(lián)方法，計算機(jī)分析系統(tǒng)可以自動的快速為用戶自動選定與某些監(jiān)測數(shù)據(jù)最相關(guān)的其他監(jiān)測數(shù)據(jù)，從而幫助用戶快速定位系統(tǒng)問題。比如當(dāng)用戶發(fā)現(xiàn)一個數(shù)據(jù)庫系統(tǒng)的響應(yīng)時間變慢后，使用本方法的分析系統(tǒng)可以自動分析內(nèi)存，磁盤，CPU等子系統(tǒng)的使用情況，發(fā)現(xiàn)那個子系統(tǒng)導(dǎo)致了這個問題。這種數(shù)據(jù)關(guān)聯(lián)方法根據(jù)輸入的多個數(shù)據(jù)流的歷史數(shù)據(jù)，選定其中某些作為目標(biāo)數(shù)據(jù)流，某些是源數(shù)據(jù)流，然后訓(xùn)練一組分布模型；在得到一批新的數(shù)據(jù)后，根據(jù)訓(xùn)練得到的分布模型和新數(shù)據(jù)計算源數(shù)據(jù)流與目標(biāo)數(shù)據(jù)流之間的條件概率作為相關(guān)度，從而發(fā)現(xiàn)哪一個源數(shù)據(jù)流跟目標(biāo)數(shù)據(jù)流相關(guān)性最大。實現(xiàn)本方法時分布模型可以使用高斯混合模型。
文檔編號G06F17/30GK102750373SQ201210205098
公開日2012年10月24日申請日期2012年6月20日優(yōu)先權(quán)日2012年6月20日
發(fā)明者段起陽申請人:段起陽

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：段起陽
技術(shù)所有人：段起陽
我是此專利的發(fā)明人

上一篇：學(xué)習(xí)支持系統(tǒng)以及學(xué)習(xí)支持方法
上一篇：用手機(jī)短信多重碼查詢商品真?zhèn)蔚姆纻畏椒?/a>

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法相關(guān)技術(shù)

大數(shù)據(jù)關(guān)聯(lián)分析方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于概率分布的數(shù)據(jù)關(guān)聯(lián)方法