本發(fā)明涉及數(shù)據(jù)分析,尤其涉及一種基于改進(jìn)分類器模型的固態(tài)硬盤剩余壽命分析方法及系統(tǒng)。
背景技術(shù):
1、固態(tài)硬盤(solid?state?drive,簡稱ssd)是一種非易失性存儲設(shè)備,使用閃存來存儲數(shù)據(jù),且不依賴傳統(tǒng)的機(jī)械部件來存取數(shù)據(jù),相比機(jī)械硬盤,固態(tài)硬盤具有更快的讀寫速度、更高的抗震性和更低的功耗,但其壽命有限,主要受限于閃存芯片的擦寫次數(shù)影響,隨著存儲設(shè)備逐步老化,固態(tài)硬盤的性能會下降,并最終達(dá)到壽命終點(diǎn),因此,對固態(tài)硬盤進(jìn)行剩余壽命分析是評估硬盤健康狀態(tài)、保證數(shù)據(jù)安全性和維護(hù)存儲系統(tǒng)正常運(yùn)行的關(guān)鍵。
2、現(xiàn)有的固態(tài)硬盤剩余壽命分析方法多是基于統(tǒng)計分析的壽命分析方法,通常依賴于經(jīng)驗(yàn)公式和統(tǒng)計分析,通過硬盤的擦寫次數(shù)、溫度、故障率等因素估算壽命,實(shí)際應(yīng)用時,基于統(tǒng)計分析的壽命分析方法的精度較低,無法適應(yīng)現(xiàn)代固態(tài)硬盤的復(fù)雜運(yùn)行模式,在捕捉復(fù)雜時序特征和長期趨勢方面存在不足,可能會導(dǎo)致進(jìn)行剩余壽命分析時的精確度較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于改進(jìn)分類器模型的固態(tài)硬盤剩余壽命分析方法及系統(tǒng),其主要目的在于解決進(jìn)行剩余壽命分析時的精確度較低的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種基于改進(jìn)分類器模型的固態(tài)硬盤剩余壽命分析方法,包括:
3、從固態(tài)硬盤的監(jiān)控日志中提取出硬盤監(jiān)控數(shù)據(jù),并對所述硬盤監(jiān)控數(shù)據(jù)進(jìn)行異常值篩除以及時序平滑插值操作,得到硬盤數(shù)據(jù)序列;
4、對所述硬盤數(shù)據(jù)序列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化操作,得到標(biāo)準(zhǔn)數(shù)據(jù)序列,并對所述標(biāo)準(zhǔn)數(shù)據(jù)序列進(jìn)行多通道特征提取以及互信息降維操作,得到硬盤屬性特征序列,其中,所述對所述硬盤數(shù)據(jù)序列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化操作,得到標(biāo)準(zhǔn)數(shù)據(jù)序列,包括:對所述硬盤數(shù)據(jù)序列進(jìn)行非負(fù)值域變換,得到非負(fù)數(shù)據(jù)序列;初始化變換系數(shù),利用如下的數(shù)據(jù)變換算法根據(jù)所述變換系數(shù)對所述非負(fù)數(shù)據(jù)序列進(jìn)行數(shù)據(jù)變換,得到變換數(shù)據(jù)序列:
5、
6、其中,是指當(dāng)所述變換系數(shù)為時,所述變換數(shù)據(jù)序列中的第個數(shù)據(jù)的數(shù)據(jù)值,是指所述變換系數(shù),是數(shù)據(jù)索引,是所述非負(fù)數(shù)據(jù)序列中的第個數(shù)據(jù);根據(jù)如下的正態(tài)性校驗(yàn)算法計算出所述變換數(shù)據(jù)序列的正態(tài)系數(shù):
7、
8、其中,是指所述正態(tài)系數(shù),是數(shù)據(jù)索引,是所述變換數(shù)據(jù)序列的總數(shù),是圓周率符號,是所述變換數(shù)據(jù)序列的標(biāo)準(zhǔn)差,是指當(dāng)所述變換系數(shù)為時,所述變換數(shù)據(jù)序列中的第個數(shù)據(jù)的數(shù)據(jù)值,是所述變換數(shù)據(jù)序列的均值;根據(jù)所述正態(tài)系數(shù)對所述變換系數(shù)進(jìn)行最大似然更新,得到標(biāo)準(zhǔn)變換系數(shù);利用所述數(shù)據(jù)變換算法根據(jù)所述標(biāo)準(zhǔn)變換系數(shù)對所述非負(fù)數(shù)據(jù)序列進(jìn)行數(shù)據(jù)變換,得到標(biāo)準(zhǔn)數(shù)據(jù)序列;
9、對所述硬盤屬性特征序列進(jìn)行雙向時序編碼以及全局注意力編碼,得到硬盤屬性時序特征;
10、對所述硬盤屬性時序特征進(jìn)行變分故障分類以及故障標(biāo)注,得到標(biāo)注時序特征;
11、對所述標(biāo)注時序特征進(jìn)行時序膨脹卷積,得到標(biāo)準(zhǔn)時序特征,并根據(jù)所述標(biāo)注時序特征以及所述標(biāo)準(zhǔn)時序特征對所述固態(tài)硬盤進(jìn)行壽命分析,得到硬盤剩余壽命。
12、可選地,所述對所述硬盤監(jiān)控數(shù)據(jù)進(jìn)行異常值篩除以及時序平滑插值操作,得到硬盤數(shù)據(jù)序列,包括:
13、對所述硬盤監(jiān)控數(shù)據(jù)進(jìn)行時序排序,得到監(jiān)控數(shù)據(jù)序列;
14、對所述監(jiān)控數(shù)據(jù)序列進(jìn)行離群值檢測,得到離群數(shù)據(jù)組;
15、逐個選取所述離群數(shù)據(jù)組中的離群數(shù)據(jù)作為目標(biāo)離群數(shù)據(jù),從所述監(jiān)控數(shù)據(jù)序列中篩選出所述目標(biāo)離群數(shù)據(jù)的鄰域監(jiān)控數(shù)據(jù)組;
16、利用如下的時序鄰域插值算法根據(jù)所述鄰域監(jiān)控數(shù)據(jù)組計算出所述目標(biāo)離群數(shù)據(jù)對應(yīng)的目標(biāo)初級插值數(shù)據(jù):
17、
18、其中,是所述目標(biāo)初級插值數(shù)據(jù),是所述目標(biāo)初級插值數(shù)據(jù)對應(yīng)的所述目標(biāo)離群數(shù)據(jù)在所述監(jiān)控數(shù)據(jù)序列中的時間戳,是數(shù)據(jù)索引,是所述鄰域監(jiān)控數(shù)據(jù)組的數(shù)據(jù)總數(shù),是所述鄰域監(jiān)控數(shù)據(jù)組中第個數(shù)據(jù)在所述監(jiān)控數(shù)據(jù)序列中的時間戳,是所述鄰域監(jiān)控數(shù)據(jù)組中第個數(shù)據(jù);
19、將所述離群數(shù)據(jù)組中所有目標(biāo)離群數(shù)據(jù)的目標(biāo)初級插值數(shù)據(jù)匯集成初級插值數(shù)據(jù)組;
20、利用所述初級插值數(shù)據(jù)組對所述監(jiān)控數(shù)據(jù)序列中的離群數(shù)據(jù)組進(jìn)行更新替換,得到初級數(shù)據(jù)序列;
21、對所述初級數(shù)據(jù)序列進(jìn)行多項(xiàng)式平滑插值,得到硬盤數(shù)據(jù)序列。
22、可選地,所述對所述初級數(shù)據(jù)序列進(jìn)行多項(xiàng)式平滑插值,得到硬盤數(shù)據(jù)序列,包括:
23、對所述初級數(shù)據(jù)序列進(jìn)行稀疏度統(tǒng)計,得到序列稀疏度;
24、根據(jù)所述序列稀疏度從所述初級數(shù)據(jù)序列中提取出稀疏數(shù)據(jù)序列;
25、分別從所述稀疏數(shù)據(jù)序列中提取出邊界條件、連續(xù)性條件以及插值條件;
26、根據(jù)所述邊界條件、所述連續(xù)性條件以及所述插值條件生成插值方程組;
27、根據(jù)所述插值方程組對所述稀疏數(shù)據(jù)序列進(jìn)行平滑插值,得到插值數(shù)據(jù)序列;
28、利用所述插值數(shù)據(jù)序列對所述初級數(shù)據(jù)序列中的稀疏數(shù)據(jù)序列進(jìn)行數(shù)據(jù)更新,得到硬盤數(shù)據(jù)序列。
29、可選地,所述對所述標(biāo)準(zhǔn)數(shù)據(jù)序列進(jìn)行多通道特征提取以及互信息降維操作,得到硬盤屬性特征序列,包括:
30、對所述標(biāo)準(zhǔn)數(shù)據(jù)序列進(jìn)行分組卷積,得到初級屬性特征序列組;
31、對所述初級屬性特征序列組進(jìn)行深度卷積,得到次級屬性特征序列組;
32、計算出所述次級屬性特征序列組中各次級屬性特征序列之間的互信息值;
33、根據(jù)所述次級屬性特征序列組中所有的次級屬性特征序列的互信息值對所述次級屬性特征序列組進(jìn)行互信息降維,得到硬盤屬性特征序列。
34、可選地,所述根據(jù)所述次級屬性特征序列組中所有的次級屬性特征序列的互信息值對所述次級屬性特征序列組進(jìn)行互信息降維,得到硬盤屬性特征序列,包括:
35、根據(jù)所述次級屬性特征序列組中所有的次級屬性特征序列的互信息值生成互信息矩陣;
36、根據(jù)所述互信息矩陣以及所述次級屬性特征序列組生成特征序列圖結(jié)構(gòu);
37、對所述特征序列圖結(jié)構(gòu)進(jìn)行譜聚類,得到屬性特征序列類組;
38、逐個選取所述屬性特征序列類組中的屬性特征序列類作為目標(biāo)屬性特征序列類,對所述目標(biāo)屬性特征序列類進(jìn)行特征值分解,得到目標(biāo)特征序列向量以及目標(biāo)特征值;
39、根據(jù)所述目標(biāo)特征值從所述目標(biāo)特征序列向量中篩選出標(biāo)準(zhǔn)屬性特征序列;
40、根據(jù)所述屬性特征序列類組中所有目標(biāo)屬性特征序列類的標(biāo)準(zhǔn)屬性特征序列生成硬盤屬性特征序列。
41、可選地,所述計算出所述次級屬性特征序列組中各次級屬性特征序列之間的互信息值,包括:
42、利用如下的互信息算法計算出所述次級屬性特征序列組中各次級屬性特征序列之間的互信息值:
43、
44、其中,是所述次級屬性特征序列組中次級屬性特征序列與次級屬性特征序列之間的互信息值,是所述次級屬性特征序列中的特征,是所述次級屬性特征序列中的特征,是所述特征與所述特征之間的聯(lián)合概率分布,是預(yù)設(shè)的互信息系數(shù),是特征的邊緣概率,是特征的邊緣概率。
45、可選地,所述對所述硬盤屬性時序特征進(jìn)行變分故障分類以及故障標(biāo)注,得到標(biāo)注時序特征,包括:
46、對所述硬盤屬性時序特征進(jìn)行低維空間投影,得到時序特征分布;
47、對所述時序特征分布進(jìn)行重參數(shù)化操作,得到屬性變量特征;
48、對所述屬性變量特征進(jìn)行高維空間投影,得到重建硬盤時序特征;
49、計算出所述硬盤屬性時序特征與所述重建硬盤時序特征之間的變分故障誤差;
50、對所述變分故障誤差進(jìn)行故障分類,得到硬盤故障事件;
51、根據(jù)所述硬盤故障事件對所述硬盤屬性時序特征進(jìn)行故障標(biāo)注,得到標(biāo)注時序特征。
52、可選地,所述對所述標(biāo)注時序特征進(jìn)行時序膨脹卷積,得到標(biāo)準(zhǔn)時序特征,包括:
53、從所述標(biāo)注時序特征中提取出硬盤故障事件,并從所述硬盤故障事件中提取出事件時間戳;
54、對所述標(biāo)注時序特征進(jìn)行自相關(guān)分析,得到時序自相關(guān)系數(shù);
55、根據(jù)所述時序自相關(guān)系數(shù)從所述標(biāo)注時序特征中提取出自相關(guān)時間戳;
56、根據(jù)所述事件時間戳以及所述自相關(guān)時間戳生成膨脹時間戳;
57、根據(jù)所述膨脹時間戳生成膨脹卷積核組,并利用所述膨脹卷積核組對所述標(biāo)注時序特征進(jìn)行膨脹卷積,得到膨脹時序特征組;
58、對所述膨脹時序特征組進(jìn)行特征融合,得到標(biāo)準(zhǔn)時序特征。
59、可選地,所述根據(jù)所述標(biāo)注時序特征以及所述標(biāo)準(zhǔn)時序特征對所述固態(tài)硬盤進(jìn)行壽命分析,得到硬盤剩余壽命,包括:
60、對所述標(biāo)注時序特征以及所述標(biāo)準(zhǔn)時序特征進(jìn)行殘差連接,得到殘差時序特征;
61、對所述殘差時序特征進(jìn)行特征分解以及特征節(jié)點(diǎn)提取,得到時序特征節(jié)點(diǎn)集;
62、根據(jù)所述殘差時序特征對所述時序特征節(jié)點(diǎn)集進(jìn)行獨(dú)立性校驗(yàn),得到節(jié)點(diǎn)依賴集;
63、根據(jù)所述時序特征節(jié)點(diǎn)集以及所述節(jié)點(diǎn)依賴集生成特征依賴結(jié)構(gòu)圖;
64、對所述特征依賴結(jié)構(gòu)圖進(jìn)行貪婪迭代,得到標(biāo)準(zhǔn)特征結(jié)構(gòu)圖;
65、根據(jù)所述標(biāo)準(zhǔn)特征結(jié)構(gòu)圖對所述殘差時序特征進(jìn)行迭代健康狀態(tài)分析,得到硬盤健康狀態(tài)序列;
66、根據(jù)所述硬盤健康狀態(tài)序列對所述固態(tài)硬盤進(jìn)行壽命分析,得到硬盤剩余壽命。
67、為了解決上述問題,本發(fā)明還提供一種基于改進(jìn)分類器模型的固態(tài)硬盤剩余壽命分析系統(tǒng),所述系統(tǒng)包括:
68、數(shù)據(jù)插值模塊,用于從固態(tài)硬盤的監(jiān)控日志中提取出硬盤監(jiān)控數(shù)據(jù),并對所述硬盤監(jiān)控數(shù)據(jù)進(jìn)行異常值篩除以及時序平滑插值操作,得到硬盤數(shù)據(jù)序列;
69、數(shù)據(jù)標(biāo)準(zhǔn)化模塊,用于對所述硬盤數(shù)據(jù)序列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化操作,得到標(biāo)準(zhǔn)數(shù)據(jù)序列,并對所述標(biāo)準(zhǔn)數(shù)據(jù)序列進(jìn)行多通道特征提取以及互信息降維操作,得到硬盤屬性特征序列,其中,所述對所述硬盤數(shù)據(jù)序列進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化操作,得到標(biāo)準(zhǔn)數(shù)據(jù)序列,包括:對所述硬盤數(shù)據(jù)序列進(jìn)行非負(fù)值域變換,得到非負(fù)數(shù)據(jù)序列;初始化變換系數(shù),利用如下的數(shù)據(jù)變換算法根據(jù)所述變換系數(shù)對所述非負(fù)數(shù)據(jù)序列進(jìn)行數(shù)據(jù)變換,得到變換數(shù)據(jù)序列:
70、
71、其中,是指當(dāng)所述變換系數(shù)為時,所述變換數(shù)據(jù)序列中的第個數(shù)據(jù)的數(shù)據(jù)值,是指所述變換系數(shù),是數(shù)據(jù)索引,是所述非負(fù)數(shù)據(jù)序列中的第個數(shù)據(jù);根據(jù)如下的正態(tài)性校驗(yàn)算法計算出所述變換數(shù)據(jù)序列的正態(tài)系數(shù):
72、
73、其中,是指所述正態(tài)系數(shù),是數(shù)據(jù)索引,是所述變換數(shù)據(jù)序列的總數(shù),是圓周率符號,是所述變換數(shù)據(jù)序列的標(biāo)準(zhǔn)差,是指當(dāng)所述變換系數(shù)為時,所述變換數(shù)據(jù)序列中的第個數(shù)據(jù)的數(shù)據(jù)值,是所述變換數(shù)據(jù)序列的均值;根據(jù)所述正態(tài)系數(shù)對所述變換系數(shù)進(jìn)行最大似然更新,得到標(biāo)準(zhǔn)變換系數(shù);利用所述數(shù)據(jù)變換算法根據(jù)所述標(biāo)準(zhǔn)變換系數(shù)對所述非負(fù)數(shù)據(jù)序列進(jìn)行數(shù)據(jù)變換,得到標(biāo)準(zhǔn)數(shù)據(jù)序列;
74、時序分析模塊,用于對所述硬盤屬性特征序列進(jìn)行雙向時序編碼以及全局注意力編碼,得到硬盤屬性時序特征;
75、故障分析模塊,用于對所述硬盤屬性時序特征進(jìn)行變分故障分類以及故障標(biāo)注,得到標(biāo)注時序特征;
76、壽命分析模塊,用于對所述標(biāo)注時序特征進(jìn)行時序膨脹卷積,得到標(biāo)準(zhǔn)時序特征,并根據(jù)所述標(biāo)注時序特征以及所述標(biāo)準(zhǔn)時序特征對所述固態(tài)硬盤進(jìn)行壽命分析,得到硬盤剩余壽命。
77、本發(fā)明通過并對所述硬盤監(jiān)控數(shù)據(jù)進(jìn)行異常值篩除以及時序平滑插值操作,得到硬盤數(shù)據(jù)序列,能夠篩除硬盤監(jiān)控數(shù)據(jù)中的異常值,且擴(kuò)充硬盤數(shù)據(jù),解決了硬盤數(shù)據(jù)中樣本量較少的問題,提高了剩余壽命分析的準(zhǔn)確性,通過進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化操作,能夠?qū)?shù)據(jù)的量綱與數(shù)量集進(jìn)行統(tǒng)一,從而提高特征提取的效率,通過進(jìn)行多通道特征提取以及互信息降維操作,能夠根據(jù)不同屬性的特征序列之間相關(guān)度進(jìn)行特征降維,從而提高特征計算的效率,通過進(jìn)行雙向時序編碼以及全局注意力編碼,能夠提取出硬盤屬性特征序列各個前后時間步驟的時序特征,增強(qiáng)特征的上下文敏感性,并能捕捉序列中各個時間點(diǎn)之間的復(fù)雜相互依賴,提高剩余壽命分析的準(zhǔn)確率。
78、通過進(jìn)行變分故障分類以及故障標(biāo)注,能夠結(jié)合硬盤數(shù)據(jù)的時序特征靈活的擬合分析出硬盤的潛在故障以及可能出現(xiàn)的故障,從而對硬盤剩余壽命進(jìn)行輔助分析,提高硬盤剩余壽命分析的準(zhǔn)確性,通過進(jìn)行時序膨脹卷積,能夠進(jìn)一步實(shí)現(xiàn)全局的特征提取,減少梯度爆炸的影響,提高壽命分析的準(zhǔn)確性。因此本發(fā)明提出的基于改進(jìn)分類器模型的固態(tài)硬盤剩余壽命分析方法及系統(tǒng),可以解決進(jìn)行剩余壽命分析時的精確度較低的問題。