本發(fā)明涉及海上事故預(yù)測(cè),具體而言,尤其涉及一種基于特征工程的海上交通事故嚴(yán)重程度預(yù)測(cè)方法。
背景技術(shù):
1、近年來(lái),隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)(ml)被廣泛應(yīng)用于分析并預(yù)測(cè)海事事故。機(jī)器學(xué)習(xí)模型可以利用大量數(shù)據(jù)或以往經(jīng)驗(yàn),自動(dòng)學(xué)習(xí)和優(yōu)化模型,以最大程度地準(zhǔn)確分析海事事故。海事事故數(shù)據(jù)往往包括大量的樣本以及復(fù)雜的數(shù)據(jù)信息。這使得常規(guī)的統(tǒng)計(jì)方法預(yù)測(cè)結(jié)果不夠準(zhǔn)確。機(jī)器學(xué)習(xí)在識(shí)別影響事故發(fā)生的風(fēng)險(xiǎn)影響因素和預(yù)測(cè)事故頻率方面比傳統(tǒng)研究方法要有效得多。機(jī)器學(xué)習(xí)具有一定的泛化能力,能夠更好地處理這些復(fù)雜的數(shù)據(jù)模式,適用于解決高維度特征下的事故嚴(yán)重程度預(yù)測(cè)問(wèn)題。然而,如何利用最少的特征來(lái)預(yù)測(cè)更準(zhǔn)確的結(jié)果是提高海上事故預(yù)測(cè)的關(guān)鍵科學(xué)問(wèn)題。
2、特征工程是指在機(jī)器學(xué)習(xí)中提取出對(duì)模型有用的特征的過(guò)程,直接影響了模型的性能和效果。合適的特征工程技術(shù)可以幫助優(yōu)化模型的輸入數(shù)據(jù),使輸入數(shù)據(jù)更容易被模型理解,最終提高機(jī)器學(xué)習(xí)模型的性能。因此,融合特征工程技術(shù)的機(jī)器學(xué)習(xí)模型能夠更準(zhǔn)確地預(yù)測(cè)海事事故嚴(yán)重程度。在現(xiàn)有研究中,許多研究?jī)H僅關(guān)注單一因素對(duì)海事事故嚴(yán)重程度的影響,而忽視了多種因素之間的耦合作用。同時(shí),大多數(shù)研究沒(méi)有注意到數(shù)據(jù)不平衡問(wèn)題,預(yù)測(cè)模型性能仍有可提高的空間。最后,大多數(shù)研究中模型的使用較為單一,缺乏多種預(yù)測(cè)模型性能的比較。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)上述提出的技術(shù)問(wèn)題,針對(duì)當(dāng)前海上事故嚴(yán)重性預(yù)測(cè)研究不足的現(xiàn)狀,以預(yù)防嚴(yán)重海上事故及提供安全的海洋環(huán)境為目標(biāo),而提供一種基于特征工程的海上交通事故嚴(yán)重程度預(yù)測(cè)方法。從安全系統(tǒng)工程角度分析相關(guān)的海上事故調(diào)查報(bào)告,以識(shí)別風(fēng)險(xiǎn)影響因素并建立事故嚴(yán)重程度標(biāo)簽,并在此基礎(chǔ)上提出了一種三階段的特征工程方法。第一階段利用特征融合方法,將多個(gè)相互關(guān)聯(lián)的風(fēng)險(xiǎn)影響因素簡(jiǎn)化為一個(gè)綜合因素。第二階段,采用svm-smote方法,解決原始數(shù)據(jù)中類(lèi)別不平衡的問(wèn)題。第三階段,使用基于預(yù)測(cè)模型的特征選擇方法,篩選出對(duì)預(yù)測(cè)模型有積極影響的特征。針對(duì)該特征工程的輸出,利用多種先進(jìn)的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè),并選擇出了最優(yōu)的預(yù)測(cè)器。同時(shí)進(jìn)行了一系列消融實(shí)驗(yàn),驗(yàn)證了特征工程方法內(nèi)各模塊對(duì)整體模型性能的貢獻(xiàn)。最終,對(duì)關(guān)鍵風(fēng)險(xiǎn)影響因素進(jìn)行解釋和分析,以了解控制特定風(fēng)險(xiǎn)影響因素的顯著益處。
2、本發(fā)明采用的技術(shù)手段如下:
3、一種基于特征工程的海上交通事故嚴(yán)重程度預(yù)測(cè)方法,包括:
4、s1、根據(jù)歷史數(shù)據(jù)中的風(fēng)險(xiǎn)影響因素和事故嚴(yán)重程度,構(gòu)建海上事故風(fēng)險(xiǎn)影響因素?cái)?shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;
5、s2、通過(guò)特征融合算法將s1中的影響因素進(jìn)行耦合,挖掘關(guān)聯(lián)規(guī)則;
6、s3、運(yùn)用svm-smote過(guò)采樣方法進(jìn)行數(shù)據(jù)平衡分析,平衡嚴(yán)重事故和非嚴(yán)重事故的樣本比例;
7、s4、利用多種機(jī)器學(xué)習(xí)模型對(duì)原始影響因素進(jìn)行訓(xùn)練,通過(guò)計(jì)算影響因素的重要度,篩選出關(guān)鍵影響因素子集;
8、s5、通過(guò)uar評(píng)價(jià)指標(biāo)評(píng)估出機(jī)器學(xué)習(xí)模型中的最優(yōu)模型,利用最優(yōu)模型,結(jié)合s4中的關(guān)鍵影響因素子集預(yù)測(cè)海上交通事故的嚴(yán)重程度。
9、進(jìn)一步地,所述步驟s1具體包括:
10、所述海上事故風(fēng)險(xiǎn)影響因素?cái)?shù)據(jù)集通過(guò)提取海上事故數(shù)據(jù)集的歷史數(shù)據(jù),并標(biāo)注事故嚴(yán)重性,提取事故特征的方法構(gòu)建,所述海上事故風(fēng)險(xiǎn)影響因素?cái)?shù)據(jù)集將每起事故的風(fēng)險(xiǎn)影響因素作為事故特征,將事故的嚴(yán)重程度標(biāo)簽作為目標(biāo)類(lèi)別;所述數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗和對(duì)數(shù)據(jù)進(jìn)行獨(dú)熱編碼,所述數(shù)據(jù)清洗包括填充缺失值、替換異常值以及刪除重復(fù)值,所述獨(dú)熱編碼將離散的多類(lèi)別屬性轉(zhuǎn)換為二進(jìn)制。
11、進(jìn)一步地,所述步驟s2具體包括:
12、關(guān)聯(lián)規(guī)則挖掘,通過(guò)挖掘數(shù)據(jù)集中的頻繁項(xiàng)集,從而發(fā)現(xiàn)與事故嚴(yán)重程度有關(guān)的關(guān)聯(lián)規(guī)則,利用fp-growth算法挖掘頻繁項(xiàng)集:
13、
14、
15、
16、其中,x和y代表影響因素的項(xiàng)集,x→y代表從項(xiàng)集x到項(xiàng)集y的關(guān)聯(lián)規(guī)則,transactions?containing?x指包含x項(xiàng)集的事務(wù)數(shù),total?transactions表示事務(wù)總數(shù),support代表支持度,即項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率,confidence(x→y)表示已經(jīng)包含項(xiàng)集x的情況下,包含項(xiàng)集y的概率,life(x→y)代表在給定項(xiàng)集x出現(xiàn)的情況下,項(xiàng)集y出現(xiàn)的概率提高的程度;
17、將具有關(guān)聯(lián)規(guī)則的影響因素進(jìn)行特征融合,將相關(guān)特征融合成一個(gè)新的特征。
18、進(jìn)一步地,所述步驟s3具體包括:
19、采用svm-smote采樣平衡數(shù)據(jù)方法,進(jìn)行數(shù)據(jù)平衡分析,結(jié)合svm分類(lèi)器和smote算法,增強(qiáng)對(duì)少數(shù)類(lèi)樣本的關(guān)注程度;
20、給定一個(gè)少數(shù)類(lèi)樣本xi和隨機(jī)選取的近鄰xzi,生成新樣本xnew:
21、xnew=xi+δ×(xzi-xi)
22、使用新樣本和原始樣本訓(xùn)練svm分類(lèi)器,svm分類(lèi)器的目標(biāo)函數(shù)為:
23、
24、其中,δ是介于[0,1]之間的隨機(jī)數(shù),w是決策平面法向量,b是偏置項(xiàng),ξi是松弛變量,c是懲罰參數(shù)。
25、進(jìn)一步地,所述步驟s4具體包括:
26、通過(guò)計(jì)算特征重要度評(píng)估特征的貢獻(xiàn)程度,選擇出最具代表性的特征子集,特征重要度的計(jì)算公式為:
27、
28、其中,importance(xj)代表特征xj的重要性,m是梯度提升樹(shù)集成中的樹(shù)的數(shù)量;l代表葉子節(jié)點(diǎn)的數(shù)量;vt代表與節(jié)點(diǎn)t相關(guān)的特征;g是在節(jié)點(diǎn)t處分裂導(dǎo)致平方損失減少的量;
29、利用特征子集建立預(yù)測(cè)模型,邏輯回歸模型采用coefficients表示每個(gè)特征對(duì)于模型的貢獻(xiàn),coefficients的計(jì)算公式為:
30、
31、其中,m是樣本數(shù)量,xi是第i個(gè)樣本的特征向量,yi是第i個(gè)樣本的標(biāo)簽,hθ(xi)是sigmoid函數(shù)。
32、進(jìn)一步地,所述機(jī)器學(xué)習(xí)模型包括:logistic?regression、gbdt、xgboost以及l(fā)ightgbm,其中:
33、所述logistic?regression分類(lèi)算法,通過(guò)將線性回歸模型的輸出經(jīng)過(guò)邏輯函數(shù)映射到0和1之間,預(yù)測(cè)樣本屬于某個(gè)類(lèi)別的概率,通過(guò)最大化似然函數(shù)或最小化損失函數(shù)來(lái)擬合訓(xùn)練數(shù)據(jù);
34、所述gbdt集成學(xué)習(xí)算法,通過(guò)串行地訓(xùn)練多個(gè)決策樹(shù)模型,每個(gè)模型修正前一個(gè)模型的錯(cuò)誤,在每一輪迭代中,gbdt會(huì)計(jì)算損失函數(shù)的負(fù)梯度,作為下一個(gè)決策樹(shù)模型的訓(xùn)練目標(biāo),通過(guò)加權(quán)組合多個(gè)樹(shù)模型的預(yù)測(cè)結(jié)果,得到集成模型;
35、所述xgboost集合學(xué)習(xí)方法,使用基于二階泰勒擴(kuò)展的梯度提升方法,針對(duì)訓(xùn)練不足的樣本,不斷調(diào)整實(shí)際樣本的標(biāo)簽;
36、所述lightgbm是基于梯度提升和二階泰勒擴(kuò)展的預(yù)測(cè)模型,使用了直方圖優(yōu)化算法和基于梯度的單邊采樣技術(shù),同時(shí)結(jié)合最大深度限制策略防止過(guò)擬合。
37、進(jìn)一步地,所述步驟s5具體包括:
38、采用uar評(píng)價(jià)指標(biāo),對(duì)每個(gè)類(lèi)別給予相同的權(quán)重,針對(duì)不同機(jī)器學(xué)習(xí)模型,以u(píng)ar分?jǐn)?shù)的變化表明不同機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能指標(biāo),計(jì)算公式如下:
39、
40、其中,qc是類(lèi)別c的數(shù)量,recall表示召回率;
41、利用預(yù)測(cè)性能最高的機(jī)器學(xué)習(xí)模型和特征子集對(duì)影響因素所能達(dá)到的預(yù)防嚴(yán)重事故的效益進(jìn)行評(píng)估。
42、較現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
43、本發(fā)明提供的基于特征工程的海上交通事故嚴(yán)重程度預(yù)測(cè)方法,提出了新的預(yù)測(cè)海事事故嚴(yán)重程度框架。通過(guò)采用先進(jìn)的特征工程方法以及多種機(jī)器學(xué)習(xí)模型,提高了海事事故嚴(yán)重程度預(yù)測(cè)的準(zhǔn)確性。本發(fā)明對(duì)海事行業(yè)的各方利益相關(guān)者和研究人員具有重大的實(shí)際意義。本發(fā)明提出的特征工程方法對(duì)海事事故數(shù)據(jù)進(jìn)行了有效處理和分析,顯著提高了海事事故數(shù)據(jù)的利用率和預(yù)測(cè)準(zhǔn)確性。特征工程方法不僅為機(jī)器學(xué)習(xí)模型預(yù)測(cè)海上事故嚴(yán)重程度提供了重要的鋪墊,該框架中所運(yùn)用的方法以及結(jié)構(gòu)設(shè)計(jì)還可以作為一種通用特征工程,為特征處理方法構(gòu)建提供了新思路。此外,本發(fā)明提出的特征融合方法能夠更好地識(shí)別和理解海事事故的關(guān)鍵影響因素,可以幫助深入理解海事事故風(fēng)險(xiǎn)演化模式。結(jié)合事故嚴(yán)重程度預(yù)測(cè)模型對(duì)海事事故進(jìn)行分析,可以幫助海事安全管理人員完善具有針對(duì)性的船舶安全管理制度,最終降低發(fā)生事故的風(fēng)險(xiǎn),減少海事事故發(fā)生的概率。
44、從實(shí)用價(jià)值方面來(lái)看,首先,相關(guān)部門(mén)可以應(yīng)用本發(fā)明提出的事故嚴(yán)重程度預(yù)測(cè)模型及時(shí)獲得預(yù)警信息,迅速采取最有效的行動(dòng),減少事故造成的損失。并且可以根據(jù)預(yù)測(cè)結(jié)果優(yōu)化救援資源的調(diào)度,合理安排人員和物資的分配,確保救援行動(dòng)的有效性,最大程度地減少人員傷亡和財(cái)產(chǎn)損失。其次,本發(fā)明的成果為海上事故調(diào)查機(jī)構(gòu)或?qū)<姨峁┝擞锌茖W(xué)依據(jù)支撐的調(diào)查技術(shù),為進(jìn)一步完善海事事故調(diào)查的流程和方法提供技術(shù)支持。最后,本發(fā)明還可以為學(xué)生提供更多的實(shí)踐教學(xué)機(jī)會(huì),如模擬事故場(chǎng)景的教學(xué)材料以及實(shí)踐活動(dòng)。這可以幫助學(xué)生將理論知識(shí)應(yīng)用到實(shí)際情境中,培養(yǎng)他們?cè)趶?fù)雜的海事情景中解決實(shí)際問(wèn)題的能力。
45、基于上述理由本發(fā)明可在海上事故預(yù)測(cè)領(lǐng)域廣泛推廣。