本發(fā)明涉及狀態(tài)識別不確定性量化,具體涉及一種燃氣輪機的透平葉片狀態(tài)識別不確定性量化方法。
背景技術:
1、燃氣輪機作為新型的動力設備具有結構緊湊、運行平穩(wěn)、安全可靠、可以快速啟動并帶動負載具有較高的熱效率等優(yōu)點日益受到人們的重視應用范圍也越來越廣。燃氣輪機在航空航天領域是獨一無二、不可替代的動力設備;在航海和陸上交通領域也占有越來越重要的地位由于其較高的熱效率較小的排氣污染在電力和能源部門也日益成為原動機的主流產(chǎn)品,它們一旦出現(xiàn)故障或發(fā)生事故就會給生產(chǎn)經(jīng)營帶來嚴重的影響。因此維護燃氣輪機在正常狀態(tài)下運行避免或及時狀態(tài)識別處理燃氣輪機運行故障就顯得越來越重要。由于燃氣輪機狀態(tài)監(jiān)控和故障狀態(tài)識別能大大提高機組運行的安全性和可靠性,幫助進行預警、狀態(tài)識別和維修,所以燃氣輪機故障狀態(tài)識別模型的研究有著重要的理論意義和較高的應用價值。
2、狀態(tài)監(jiān)測與故障狀態(tài)識別技術的由來及發(fā)展,與十分可觀的故障損失以及設備維修費密切相關,而狀態(tài)監(jiān)測與故障狀態(tài)識別的意義則是有效地遏制了故障損失和設備維修費用。具體可歸納如下幾個方面:一是為了能更及時地發(fā)現(xiàn)故障的早期癥狀,避免、減緩、減少重大事故的發(fā)生;二是一旦發(fā)生故障,能自動紀錄下故障過程的完整信息,以便事后進行故障原因分析,避免再次發(fā)生同類事故;三是可充分地了解設備性能,為改進設計、制造與維修水平提供有力證據(jù);四是為之后的故障預警和故障狀態(tài)識別提供了更為有效的依據(jù)。
3、因此對燃氣輪機透平葉片采用合適的機器學習分類方法進行故障的狀態(tài)識別至關重要。目前對透平葉片故障進行狀態(tài)識別的方法有很多,既有傳統(tǒng)統(tǒng)計方法、也有很多機器學習方法或神經(jīng)網(wǎng)絡方法,但是這些方法在給出分類類別后,我們難以確定這些結果是否合理,即可信度有多少,或者說是不確定性有多少。這也是為什么要引入不確定性:在處理模型時,準確的不確定性估計會帶來更大的便利。預測不一定每次都準,而準確性的判斷可以更好的輔助決策。實際操作中往往應該為每個模型預測基于不同的準確度分配不同的決策。例如,當不確定性較高時可以決定完全不信任預測結果;或是在出現(xiàn)預測不準的情況,將特定的數(shù)據(jù)段交給人進行最后的決策;或是在模型準確性不足的時候,估計不確定性可作為重新設計模型和訓練模型的依據(jù)。
4、簡單來說,不確定性大的分類對其結果的可信度就小,就不能太過信任其分類結果,反之,不確定性小的分類結果通??梢韵嘈牌浣Y果。目前不確定性量化在計算機視覺及深度學習、神經(jīng)網(wǎng)絡領域應用較多,但是在旋轉機械領域,尤其是針對燃氣輪機復雜的透平葉片故障狀態(tài)識別及不確定性量化的研究幾乎沒有。同時現(xiàn)有燃氣輪機的狀態(tài)識別發(fā)明均是基于確定性結果,對其分類結果進行不確定性分析的研究比較匱乏,在不考慮不確定性的情況下使用模型的分類結果時,我們并不能對于此結果有一個清晰的認識,即不能知道此結果是模型準確預測還是“猜測”到的,不能很好地幫助我們在實際工作中根據(jù)模型結果進行決策。
5、對于燃氣輪機高溫透平部件來說,其運行工況十分復雜,產(chǎn)生的大量非線性、高維度監(jiān)測數(shù)據(jù)難以處理及利用,且在目前進行不確定性量化的研究較少,難以找到合適的且實用的不確定量化指標,更難以建立完整的能輸出包含數(shù)據(jù)不確定性和模型不確定性的最終不確定性的流程。除此之外,如何對得到的不確定性進行合理的可視化也是一大難題,需要耗費大量的人力物力。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術中存在的問題,本發(fā)明提供了一種燃氣輪機的透平葉片狀態(tài)識別不確定性量化方法,目前燃氣輪機的透平葉片狀態(tài)識別往往只能給出狀態(tài)識別分類的結果,而沒有考慮潛藏在數(shù)據(jù)中的不確定性即數(shù)據(jù)不確定性和模型分類識別時的不確定性即模型不確定性,但是在工程實際中,預測不一定每次都準確,而準確性的判斷可以更好的輔助決策。實際操作中往往應該為每個模型預測基于不同的準確度分配不同的決策。例如,當不確定性較高時可以決定完全不信任預測結果;或是在出現(xiàn)預測不準的情況,將特定的數(shù)據(jù)段交給人進行最后的決策;或是在模型準確性不足的時候,估計不確定性可作為重新設計模型和訓練模型的依據(jù)。所以對燃氣輪機透平葉片狀態(tài)識別分類的結果進行不確定性量化是十分有必要的,本發(fā)明將不確定性進行量化并且可視化不僅可以直觀地幫助觀察每個分類結果的可信程度,也可更好地幫助工程實際做出更好的更準確的決策,解決了上述背景技術中提到的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種燃氣輪機的透平葉片狀態(tài)識別不確定性量化方法,包括如下步驟:
3、s1、通過數(shù)據(jù)采集裝備獲取燃氣輪機設備運行過程中的運行數(shù)據(jù);
4、s2、進行數(shù)據(jù)預處理并劃定分類標簽、訓練集和測試集;
5、s3、模型訓練并對測試集進行預測:使用劃分好的訓練集對分類模型進行訓練,在訓練過程中設置參數(shù)自動尋優(yōu),在參數(shù)庫中選擇模型合適的參數(shù),然后使用訓練好的分類模型對測試集進行預測;
6、s4、得到測試集分類結果及概率分布:在模型對測試集完成預測后,輸出每個樣本點的預測概率分布;
7、s5、根據(jù)概率分布與真實類別計算對數(shù)交叉熵:將真實的標簽轉換成one-hot分布,然后將預測概率分布與真實標簽的one-hot分布計算對數(shù)交叉熵;
8、s6、得到數(shù)據(jù)不確定性:計算得到熵結果后,也得到了測試數(shù)據(jù)的每個樣本點的預測結果的數(shù)據(jù)不確定性;
9、s7、多模型在概率層面進行融合,得到多模型預測概率分布和預測結果;
10、s8、將多個模型的數(shù)據(jù)不確定性求標準差,得到模型不確定性;
11、s9、輸出每個預測類別的不確定性并可視化。
12、優(yōu)選的,在步驟s2中,數(shù)據(jù)預處理包括數(shù)據(jù)清洗、數(shù)據(jù)降采樣、數(shù)據(jù)去噪、數(shù)據(jù)降維以及數(shù)據(jù)標準化;對數(shù)據(jù)劃定故障和健康區(qū)域后,分別標定標簽,標簽劃定后進行數(shù)據(jù)集的劃分,按照3:1的比例將數(shù)據(jù)劃分為訓練集和測試集。
13、優(yōu)選的,在步驟s6中,所述數(shù)據(jù)不確定性的計算公式如下:
14、
15、其中c為分類的類別個數(shù),cj為每個類別真實的one-hot分布,pi_j為每個模型每種類別的預測概率。
16、優(yōu)選的,在步驟s7中,具體包括:應用ensembles思想,將六種機器學習分類方法在概率分布層面進行相加后求均值來完成融合;融合后得到基于ensembles思想的多模型的預測概率分布,同時根據(jù)此分布得到預測的one-hot分布和預測標簽。
17、優(yōu)選的,所述六種機器學習分類方法包括k近鄰、決策樹、樸素貝葉斯、邏輯回歸、支持向量機以及隨機森林。
18、優(yōu)選的,在步驟s8中,具體包括:同樣應用ensembles思想,將多個模型得到的模型不確定性進行求標準差的操作后,也就得到了測試數(shù)據(jù)的每個樣本點的預測結果的模型不確定性;
19、所述模型不確定性的計算公式如下:
20、
21、其中,mean(datas)為多個模型的數(shù)據(jù)不確定性的均值,而datas_i是上文提到的每種模型的數(shù)據(jù)不確定性,models即為最終得到的模型不確定性,也是后續(xù)作圖時的標準差來源,m為機器學習分類方法的個數(shù)。
22、優(yōu)選的,在步驟s9中,具體包括:將預測的one-hot分布轉換成預測標簽作為“均值”,最終計算的熵(模型不確定性)作為“標準差”,然后根據(jù)2σ準則即95%置信區(qū)間的方式來輸出對每個樣本點預測結果的不確定性并進行可視化。
23、優(yōu)選的,得到預測標簽的多模型平均概率pm_j計算公式如下:
24、
25、其中,pi_j為每個模型每種類別的預測概率,pm_j為多模型在概率層面進行平均疊加的多模型預測概率,m為機器學習分類方法的個數(shù)。
26、本發(fā)明的有益效果是:本發(fā)明開發(fā)可用于求解燃氣輪機透平葉片狀態(tài)識別分類問題中的不確定性問題,為解決透平葉片狀態(tài)識別分類結果難以明確置信度提供了一種簡易、高效、直觀的方法,用簡易、通用的量化指標和流程獲得合理的置信度結果,來解決該問題。最后針對六種成熟常用的機器學習分類識別方法,采用ensembles思想將多種模型的預測結果概率在概率層面進行求和平均,得到多模型的預測概率及結果,并最終得到包含了數(shù)據(jù)不確定性和模型不確定性的最終不確定性結果,并且以兩倍標準差即95%置信區(qū)間給出了每個分類結果的不確定性(置信度)來進行可視化。