本發(fā)明屬于大數(shù)據(jù)、數(shù)據(jù)庫、數(shù)據(jù)挖掘等領域,具體涉及一種多元動態(tài)時間彎曲距離度量學習方法及系統(tǒng)。
背景技術:
1、時間序列廣泛存在于人們的日常生活及工業(yè)生產(chǎn)中,如基金或股票的實時交易數(shù)據(jù),零售市場的日銷量數(shù)據(jù),流程工業(yè)的傳感器監(jiān)測數(shù)據(jù),天文觀測數(shù)據(jù),航空航天雷達、衛(wèi)星監(jiān)測數(shù)據(jù),實時天氣溫度及空氣質量指數(shù)等。工業(yè)界迄今提出了許多時間序列分析方法,包括相似性查詢方法、分類方法、聚類方法、預測方法、異常檢測方法等。其中,許多方法都需要對時間序列進行距離度量,如knn分類器、k-means聚類方法等,因此,時間序列距離度量方法在工業(yè)界有著廣泛的應用需求。
2、目前最常用的時間序列距離度量方法可分為鎖步度量方法和彈性度量方法。前者采用了點對點的度量方式,即兩條時間序列的距離是通過嚴格比較二者每個時刻采樣值的距離,再進行累加得到,最常見的有曼哈頓距離、歐氏距離和切比雪夫距離,它們都是lp范數(shù)距離在p取不同值時的特例。該類方法具有易實現(xiàn)、計算復雜度低、滿足距離三角不等式、無參等優(yōu)點,但是度量精度對噪聲、幅值伸縮和漂移、相位偏移等影響因素非常敏感,而且只能用于度量等長時間序列。彈性度量方法采用了一點對多點的度量方式,即一條時間序列的一個采樣值可以與另一條序列的多個采樣值對應,通過動態(tài)規(guī)劃方法遍歷兩條序列的所有采樣值,該類方法最常見的有動態(tài)時間彎曲距離和編輯距離。與鎖步度量相比,彈性度量能夠實現(xiàn)兩條時間序列采樣值的最佳匹配對齊,可以有效處理時間彎曲、相位偏移、幅值伸縮和漂移等基本形態(tài)變化,對噪聲和異常值具有魯棒性,因此具有較高的度量精度。
技術實現(xiàn)思路
1、為了高效學習多元動態(tài)時間彎曲距離,本發(fā)明采用如下技術方案:
2、一種多元動態(tài)時間彎曲距離度量學習方法,包括如下步驟:
3、(1)多元加權動態(tài)時間彎曲距離計算;獲取一對多維度環(huán)境監(jiān)測數(shù)據(jù)作為多元時間序列,以加權歐氏距離作為度量方法,計算兩個多元時間序列對應元素的點對距離矩陣,在該矩陣上利用動態(tài)規(guī)劃算法尋找最優(yōu)彎曲路徑,使路徑上元素值的累加和最小,以該路徑累加和作為最終距離度量值,計算動態(tài)時間彎曲距離;
4、(2)點對距離權重學習;以多元加權動態(tài)時間彎曲距離作為內(nèi)核距離度量,基于大間隔最近鄰分類方法構造目標函數(shù),利用坐標下降方法迭代優(yōu)化最優(yōu)彎曲路徑和點對距離權重參數(shù),直至目標函數(shù)收斂,利用訓練好的權重參數(shù)進行一對多維度環(huán)境監(jiān)測數(shù)據(jù)的相似性比較。
5、進一步地,所述步驟(2)點對距離權重學習包括以下子步驟:
6、(2.1)根據(jù)最優(yōu)彎曲路徑重對齊多元時間序列,基于對應的元素計算兩者的加權歐氏距離;
7、(2.2)將加權歐氏距離代入大間隔最近鄰分類方法的損失函數(shù),得到目標函數(shù)及其約束條件;
8、(2.3)保持最優(yōu)彎曲路徑不變,采用梯度下降法優(yōu)化目標函數(shù)直至收斂;
9、(2.4)保持權重系數(shù)不變,重新尋找多元時間序列之間的最優(yōu)彎曲路徑;
10、(2.5)重復步驟(2.3)至(2.4),直至最優(yōu)彎曲路徑不再改變且目標函數(shù)收斂。
11、進一步地,所述步驟(1)中,以第一多維度環(huán)境監(jiān)測數(shù)據(jù)的多元時間序列q的元素q1,q2,…,qm為橫軸,以第二多維度環(huán)境監(jiān)測數(shù)據(jù)的多元時間序列k的元素k1,k2,…,kn為縱軸,構建點對距離矩陣,路徑中每個單元采用加權歐氏距離進行計算,即wed(q1,k1)=w1(a1-b1)2+w2(a2-b2)2+…+wp(ap-bp)2,其中,a1,a2,…,ap表示序列元素q1不同維度的環(huán)境數(shù)據(jù),b1,b2,…,bp表示序列元素k1不同維度的環(huán)境數(shù)據(jù),w1,w?2,…,w?p表示對應的權重系數(shù);在點對距離矩陣中,以第一個單元格作為起始點,以對角線的最后單元格作為終止點,通過動態(tài)規(guī)劃算法尋找最優(yōu)彎曲路徑,將路徑單元格累加值作為動態(tài)時間彎曲距離;
12、進一步地,所述步驟(2)中,根據(jù)最優(yōu)彎曲路徑重對齊多元時間序列,具體如下:
13、
14、根據(jù)最優(yōu)彎曲路徑的匹配元素索引,將兩條時間序列的元素q和k進行一一對應,計算兩者的加權歐氏距離。
15、進一步地,所述步驟(2.1)中,將多元動態(tài)時間彎曲距離轉化為l2范數(shù)的計算形式:
16、
17、其中,x和y表示給定的多元時間序列,和分別表示根據(jù)x和y的最優(yōu)彎曲路徑重對齊的序列及序列中的元素,wi表示加權歐氏距離權重系數(shù),||·||2表示l2范數(shù)計算,d(·)表示距離函數(shù),l表示對應的元素的數(shù)量。
18、進一步地,所述步驟(2.1)中,將公式(1)代入大間隔最近鄰分類方法的損失函數(shù),得到目標函數(shù)(2)及其約束條件:
19、
20、
21、其中,表示包含n個樣本的數(shù)據(jù)集,表示第i個多元時間序列樣本,表示其類別標簽,φi是樣本xi的目標近鄰集合,w表示所有權重系數(shù)集合,m和n分別是樣本xi與標簽不同的最近鄰xlm和標簽相同的最近鄰xz的重對齊序列長度,和分別表示xi對應的重對齊元素的第s和第r個維度值,表示xlm對應的重對齊元素的第s個維度值,表示重對齊元素的第r個維度值,w表示權重向量,ws和wr分別表示第s和第r個權重系數(shù)。
22、一種多元動態(tài)時間彎曲距離度量學習系統(tǒng),應用于環(huán)境監(jiān)測數(shù)據(jù)的比較,包括:多元加權動態(tài)時間彎曲距離生成模塊和點對距離權重學習模塊,分別用于所述多元加權動態(tài)時間彎曲距離計算和所述點對距離權重學習。
23、本發(fā)明的優(yōu)勢和有益效果在于:
24、1、在傳統(tǒng)多元動態(tài)時間彎曲距離中引入權重系數(shù),顯著提升了距離度量的數(shù)據(jù)適應性,有效區(qū)分了多元時間序列不同維度的重要性,進而約束各維度在距離度量中的貢獻程度,提高了度量準確率;
25、2、基于大間隔最近鄰的學習方法具有較低的計算復雜度和較強的可解釋性,對噪聲樣本的抗干擾性較強;
26、3、通過對最優(yōu)彎曲路徑和權重系數(shù)的迭代優(yōu)化,有效解決了非凸目標函數(shù)的優(yōu)化問題,顯著提高了距離度量學習效率。
1.一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于包括如下步驟:
2.根據(jù)權利要求1所述的一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于:所述步驟(2)點對距離權重學習包括以下子步驟:
3.根據(jù)權利要求1或2所述的一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于:所述步驟(1)中,以第一個多維度環(huán)境監(jiān)測數(shù)據(jù)的多元時間序列q的元素q1,q2,…,qm為橫軸,以第二個多維度環(huán)境監(jiān)測數(shù)據(jù)的多元時間序列k的元素k1,k2,…,kn為縱軸,構建點對距離矩陣,路徑中每個單元格采用加權歐氏距離進行計算,得到wed(q1,k1)=w1(a1-b1)2+w2(a2-b2)2+…+wp(ap-bp)2,其中,a1,a2,…,ap表示序列元素q1不同維度的環(huán)境數(shù)據(jù),b1,b2,…,bp表示序列元素k1不同維度的環(huán)境數(shù)據(jù),w1,w?2,…,w?p表示對應的權重;在點對距離矩陣中,以第一個單元格作為起始點,以對角線的最后單元格作為終止點,通過動態(tài)規(guī)劃算法尋找最優(yōu)彎曲路徑,將路徑單元格累加值作為動態(tài)時間彎曲距離。
4.根據(jù)權利要求3所述的一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于:所述步驟(2)中,根據(jù)最優(yōu)彎曲路徑重對齊多元時間序列,具體如下:
5.根據(jù)權利要求1所述的一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于:所述步驟(2.1)中,將多元動態(tài)時間彎曲距離轉化為l2范數(shù)的計算形式:
6.根據(jù)權利要求5所述的一種多元動態(tài)時間彎曲距離度量學習方法,其特征在于:所述步驟(2.1)中,將多元動態(tài)時間彎曲距離代入大間隔最近鄰分類方法的損失函數(shù),得到目標函數(shù)及其約束條件:
7.一種根據(jù)權利要求1所述的一種多元動態(tài)時間彎曲距離度量學習方法的系統(tǒng),應用于環(huán)境監(jiān)測數(shù)據(jù)的比較,其特征在于,包括:多元加權動態(tài)時間彎曲距離生成模塊和點對距離權重學習模塊,分別用于所述多元加權動態(tài)時間彎曲距離計算和所述點對距離權重學習。