一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法
【專利摘要】本發(fā)明公開(kāi)了一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,屬于機(jī)場(chǎng)航班延誤預(yù)警技術(shù)領(lǐng)域。本方法的具體步驟如下:首先,對(duì)航班延誤實(shí)測(cè)數(shù)據(jù)集的目標(biāo)屬性進(jìn)行離散化處理并清除噪聲點(diǎn),得到規(guī)范化的數(shù)據(jù)集;接著,使用進(jìn)化欠抽樣方法對(duì)這個(gè)類不平衡的數(shù)據(jù)集的多數(shù)類進(jìn)行T次欠抽樣,構(gòu)建T個(gè)平衡的訓(xùn)練集;然后,使用網(wǎng)格搜索技術(shù)在每個(gè)平衡訓(xùn)練集上進(jìn)行分類回歸決策樹(shù)分類器的參數(shù)尋優(yōu)并生成分類器;最后,確定一種最佳集成方式將這些分類器構(gòu)成一個(gè)集成系統(tǒng)EUS?Bag,即為一個(gè)航班延誤預(yù)警模型。該預(yù)警模型可為空管部門進(jìn)行合理的空中交通調(diào)度提供決策依據(jù)。本方法智能化程度高,能有效的提高機(jī)場(chǎng)航班延誤預(yù)警的準(zhǔn)確度和可靠性。
【專利說(shuō)明】
-種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)譬方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,屬于機(jī)場(chǎng)航班延 誤預(yù)警方法技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著國(guó)民經(jīng)濟(jì)的持續(xù)快速健康發(fā)展,航空運(yùn)輸需求也在不斷增加。然而近年來(lái),大 面積航班延誤現(xiàn)象日益凸顯,成為困擾著民航部口和廣大旅客的一個(gè)世界性難題。由于航 班延誤導(dǎo)致的旅客拒絕登機(jī)、霸機(jī)、沖擊機(jī)場(chǎng)、毆打工作人員等惡性事件屢見(jiàn)不鮮,造成民 航優(yōu)質(zhì)服務(wù)形象受損,嚴(yán)重影響了機(jī)場(chǎng)的安全運(yùn)行秩序。為了降低由于航空公司自身原因, 尤其是因航班計(jì)劃制定不當(dāng)而導(dǎo)致的延誤,民航總局提出了《民航局開(kāi)展保障航班正常和 大面積航班延誤應(yīng)急處置專項(xiàng)整治工作方案》,旨在降低航班平均延誤時(shí)間,提升航班運(yùn)行 效率。然而,造成航班發(fā)生延誤的原因很多,主要原因是機(jī)場(chǎng)和空域的容量不足,其他的一 些原因,例如天氣、機(jī)場(chǎng)調(diào)度、公司計(jì)劃、旅客、行李等也都可能導(dǎo)致航班延誤。另外,航班延 誤還存在一個(gè)鏈?zhǔn)椒磻?yīng)的問(wèn)題:當(dāng)一架航班發(fā)生延誤,如果計(jì)劃緊湊,就會(huì)影響到下一個(gè)航 班的正點(diǎn)到達(dá)或起飛,從而間接波及到更多下游航班和機(jī)場(chǎng)。由于眾多不確定性因素的存 在,不可能完全避免飛機(jī)延誤事件,但是若能在預(yù)測(cè)到某個(gè)不確定事件將會(huì)發(fā)生后來(lái)及時(shí) 進(jìn)行預(yù)警并采取應(yīng)對(duì)措施,就可W減小航班延誤波及、降低經(jīng)濟(jì)損失、并提高民航信譽(yù)。因 此,航班延誤預(yù)警具有重要的現(xiàn)實(shí)意義。
[0003] 國(guó)內(nèi)外對(duì)航班延誤的預(yù)測(cè)和預(yù)警研究已經(jīng)開(kāi)展了多年并取得了一定的成果,研究 內(nèi)容主要集中在對(duì)智能算法的研究及其在航班延誤預(yù)警中的應(yīng)用。其中設(shè)及到的方法種類 繁多,各有利弊,問(wèn)題主要體現(xiàn)在W下兩個(gè)方面:
[0004] ①基于機(jī)器學(xué)習(xí)算法的預(yù)警模型種類繁多,難W在同一條件下客觀評(píng)價(jià)其性能
[0005] 現(xiàn)有的各種基于機(jī)器學(xué)習(xí)算法的航班延誤預(yù)警模型,均在各自的實(shí)驗(yàn)條件下得出 了相應(yīng)的結(jié)論。考慮到各種算法均有自己的適用場(chǎng)合,因此還無(wú)法確定哪一種預(yù)警模型更 有效,或者總是最有效的。實(shí)際上,對(duì)于在航班延誤數(shù)據(jù)集上使用某種分類器學(xué)習(xí)算法生成 的一個(gè)預(yù)警模型而言,有時(shí)它不能充分的學(xué)習(xí)到數(shù)據(jù)集中所蘊(yùn)含的分類知識(shí)。也就是說(shuō),個(gè) 體預(yù)警模型的泛化能力是有限的。
[0006] ②各種算法普遍沒(méi)有考慮實(shí)際航班延誤數(shù)據(jù)集的類不平衡性
[0007] 對(duì)實(shí)際采集的航班延誤數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)可知,各個(gè)延誤等級(jí)的樣例分布是不平衡 的,有的延誤級(jí)別所含樣例極少,而有的級(jí)別所含樣例很多。運(yùn)種不平衡的樣例分布對(duì)分類 器學(xué)習(xí)算法的分類性能會(huì)產(chǎn)生很大的負(fù)面影響,從而容易導(dǎo)致預(yù)警失效。由于訓(xùn)練分類器 時(shí)大多數(shù)分類器學(xué)習(xí)算法的優(yōu)化目標(biāo)是總體分類精度(overall classification accuracy),而包含樣例的數(shù)目占訓(xùn)練集規(guī)模絕大多數(shù)的多數(shù)類通常對(duì)總體分類精度貢獻(xiàn) 最大,從而導(dǎo)致運(yùn)些算法生成的分類器往往對(duì)多數(shù)類樣例能夠很好的進(jìn)行分類,而對(duì)少數(shù) 類樣例的分類性能則非常差。然而少數(shù)類卻通常包含一些對(duì)我們很有價(jià)值的信息并且比多 數(shù)類重要的多,因此如何有效的改善對(duì)少數(shù)類延誤級(jí)別的預(yù)警性能是需要解決的一個(gè)重要 問(wèn)題。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明針對(duì)現(xiàn)有航班延誤預(yù)警技術(shù)存在的缺陷,提出了一種基于進(jìn)化欠抽樣集成 學(xué)習(xí)的航班延誤預(yù)警方法,有效的提高航班延誤預(yù)警的準(zhǔn)確性和可靠性。
[0009] 本發(fā)明為解決其技術(shù)問(wèn)題采用如下技術(shù)方案:
[0010] -種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,包括如下步驟:
[0011] 步驟1:獲取機(jī)場(chǎng)航班延誤實(shí)測(cè)數(shù)據(jù)集;
[0012] 步驟2:對(duì)實(shí)測(cè)數(shù)據(jù)集依次進(jìn)行目標(biāo)屬性離散化、噪聲數(shù)據(jù)點(diǎn)清除處理,創(chuàng)建航班 延誤數(shù)據(jù)集;
[0013] 步驟3:利用進(jìn)化欠抽樣方法,對(duì)航班延誤數(shù)據(jù)集的多數(shù)類進(jìn)行T次欠抽樣,分別與 初始少數(shù)類數(shù)據(jù)子集合并,得到T個(gè)平衡的訓(xùn)練集;
[0014] 步驟4:在每個(gè)平衡訓(xùn)練集上,使用網(wǎng)格捜索方法生成T個(gè)分類回歸決策樹(shù)分類器, 構(gòu)成一個(gè)集成系統(tǒng)抓S-Bag;
[0015] 步驟5:確定集成系統(tǒng)抓S-Bag中基分類器的一種集成方式,使得該系統(tǒng)能獲得最 佳的分類性能,并將該集成系統(tǒng)作為航班延誤預(yù)警模型。
[0016] 所述步驟2的具體內(nèi)容為:
[0017] 通過(guò)設(shè)定4個(gè)闊值,將實(shí)測(cè)數(shù)據(jù)集中每個(gè)樣例的目標(biāo)屬性"延誤時(shí)間長(zhǎng)度',分另臘 換為0、1、2、3、4,五種類別標(biāo)簽,即五個(gè)延誤等級(jí);采用基于k近鄰樣例的類標(biāo)簽對(duì)比方法來(lái) 識(shí)別并清除實(shí)測(cè)數(shù)據(jù)集中的孤立點(diǎn),得到航班延誤數(shù)據(jù)集。
[0018] 在步驟3中,所述對(duì)航班延誤數(shù)據(jù)集的多數(shù)類進(jìn)行T次欠抽樣,采用了一種同時(shí)考 慮預(yù)測(cè)性能和多樣性的適應(yīng)度函數(shù)先選擇出T個(gè)優(yōu)質(zhì)的多數(shù)類子集,再分別與初始少數(shù)類 子集合并形成T個(gè)平衡的訓(xùn)練集。
[0019] 所述步驟4的具體內(nèi)容為:
[0020] 利用網(wǎng)格捜索技術(shù)和交叉驗(yàn)證分別在T個(gè)平衡訓(xùn)練集上訓(xùn)練并選取平均分類精度 最高的決策樹(shù),進(jìn)而訓(xùn)練T個(gè)分類回歸決策樹(shù)分類器,構(gòu)成了一個(gè)集成系統(tǒng)抓S-Bag。
[0021] 所述步驟5的具體內(nèi)容為:
[0022] 分別用幾種經(jīng)典的分類器集成方法對(duì)抓S-Bag中的T個(gè)分類回歸決策樹(shù)分類器進(jìn) 行集成,選取分類精度最高的集成方式作為集成系統(tǒng)EUS-Bag的分類器集成方式,將EUS- Bag作為機(jī)場(chǎng)航班延誤預(yù)警模型。
[0023] 本發(fā)明的有益效果如下:
[0024] 1、本方法具有智能學(xué)習(xí)能力,訓(xùn)練預(yù)警模型所需的航班延誤數(shù)據(jù)集易于獲取。
[0025] 2、采用進(jìn)化欠抽樣方法作為平衡訓(xùn)練集獲取方法,進(jìn)化欠抽樣方法根據(jù)設(shè)計(jì)的新 適應(yīng)度函數(shù)在實(shí)測(cè)數(shù)據(jù)集的多數(shù)類上自動(dòng)運(yùn)行多次,從而得到一些平衡的訓(xùn)練集。
[0026] 3、采用Q統(tǒng)計(jì)多樣性度量來(lái)衡量不同多數(shù)類子集之間的多樣性程度,W客觀的評(píng) 估不同多數(shù)類子集之間的差別,從而確保得到的各個(gè)平衡訓(xùn)練集之間的多樣性。
[0027] 4、本方法通過(guò)結(jié)合進(jìn)化欠抽樣和集成學(xué)習(xí)的優(yōu)勢(shì),能夠生成一個(gè)由一些精確的且 多樣化的分類器構(gòu)成的集成系統(tǒng)。將該集成系統(tǒng)作為航班延誤預(yù)警模型,從而有效地提高 航班延誤預(yù)警的準(zhǔn)確性和可靠性。
【附圖說(shuō)明】
[0028] 圖1為本發(fā)明的方法流程圖。
【具體實(shí)施方式】
[0029] 下面結(jié)合附圖對(duì)本發(fā)明創(chuàng)造做進(jìn)一步詳細(xì)說(shuō)明。
[0030] 本發(fā)明基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法的流程如圖1所示,具體包 括如下步驟:
[0031 ]步驟1:獲取機(jī)場(chǎng)航班延誤實(shí)測(cè)數(shù)據(jù)集。
[0032] 根據(jù)機(jī)場(chǎng)航空管理部口提供的每一架次航班的相關(guān)信息,如飛機(jī)機(jī)型、載客人數(shù)、 天氣情況、起飛時(shí)間、降落時(shí)間、延誤時(shí)間等,構(gòu)造機(jī)場(chǎng)航班延誤實(shí)測(cè)數(shù)據(jù)集D=Kxii, ..., xid,yi),(X21, . . .,X2d,y2),. . .,(XM1, . . .,XMd,yM)}。其中,D的每一個(gè)元組表示一個(gè)航班的具 體信息,例如元組(xi,yi) = (xii, ...,xid,yi) (XiGRd)中的前d個(gè)值(xii, ...,xid)表示第i(l 《i《M)個(gè)航班的各個(gè)非目標(biāo)屬性的取值,最后一個(gè)目標(biāo)屬性值yi(yi>0,yiGR)表示該航 班具體的延誤時(shí)間。
[0033] 步驟2:對(duì)實(shí)測(cè)數(shù)據(jù)集D依次進(jìn)行目標(biāo)屬性離散化、噪聲數(shù)據(jù)點(diǎn)清除處理,從而得到 規(guī)范化的航班延誤數(shù)據(jù)集D '。
[0034] 根據(jù)經(jīng)驗(yàn)為航班延誤時(shí)間設(shè)置若干個(gè)區(qū)間P1,. . .,PQ(化=[Vq_l,Vq_2),0<Vq_l< Vq_2,l《q《Q),運(yùn)樣就可按如下方式將每個(gè)樣例的目標(biāo)屬性值轉(zhuǎn)換成離散的類標(biāo)簽:根據(jù) 數(shù)據(jù)集D'中樣例(xii,. . .,xid,yi)(l《i《M)的目標(biāo)屬性值yi,即該航班的具體延誤時(shí)間(如 10分鐘、30分鐘、60分鐘等),通過(guò)判斷yi屬于哪個(gè)區(qū)間來(lái)將其轉(zhuǎn)換成相應(yīng)的類別標(biāo)簽。例 如,若yi G pq( 1《q《Q),則將q作為其類標(biāo)簽W表示第q個(gè)航班延誤預(yù)警級(jí)別。將每個(gè)樣例的 目標(biāo)屬性值轉(zhuǎn)換成離散的類標(biāo)簽后,就可利用基于k近鄰樣例的類標(biāo)簽對(duì)比技術(shù)來(lái)對(duì)D'中 的噪聲樣例進(jìn)行識(shí)別并清除,其基本思想如下。對(duì)每個(gè)樣例(xii,. . . ,xid,yi)(l《i《M),首 先使用歐氏距離找到它在數(shù)據(jù)集D'中的k(如k = 5)個(gè)鄰居樣例s, = {Cx>,>'j,)}jli(wGRdj' G {1,2,. . .,M},j '聲i);然后將該樣例的類標(biāo)簽yi與它k個(gè)鄰居樣例Si中最普遍的類標(biāo)簽y ' 進(jìn)行比較,若兩者不一致:yi聲y',則認(rèn)為樣例(XII,...,xid,yi)是一個(gè)噪聲樣例;最后,將所 有被檢測(cè)為噪聲的樣例從實(shí)測(cè)數(shù)據(jù)集D'中直接清除,從而得到凈化的數(shù)據(jù)集Dref。
[0035] 步驟3:利用進(jìn)化欠抽樣方法,對(duì)具有不平衡類分布的數(shù)據(jù)集Dref中的多數(shù)類 A,,,。,( A胃EAw-)進(jìn)行T次欠抽樣,從而得到T個(gè)平衡的訓(xùn)練集。
[0036] 為了使進(jìn)化欠抽樣方法更加適用于套袋(Bagging)集成學(xué)習(xí)框架,為進(jìn)化欠抽樣方 法設(shè)計(jì)了一種同時(shí)考慮預(yù)測(cè)性能和多樣性的新適應(yīng)度函數(shù):昨-.0X如。'_徑., 其中:GMs為使用染色體Chroms編碼的當(dāng)前多數(shù)類子集構(gòu)成訓(xùn)練集時(shí),生成的分類器所取得 的分類性能;a和e是反映第二項(xiàng)和第=項(xiàng)的相對(duì)重要程度的兩個(gè)系數(shù);AverJ^s為當(dāng)前多數(shù) 類子集與為前t-1個(gè)分類器選擇的最優(yōu)多數(shù)類子集之間的平均Q統(tǒng)計(jì)多樣性;Dtrmin為初始訓(xùn) 練集中少數(shù)類的規(guī)模;Dtrmats為染色體Chroms編碼的當(dāng)前多數(shù)類子集,W選擇出一些能夠提 供良好預(yù)測(cè)性能且多樣化的多數(shù)類子集,從而生成一些具有良好分類性能且多樣化的分類 器,W確保生成的集成系統(tǒng)具有理想的泛化性能。其中,適應(yīng)度函數(shù)中的第一項(xiàng)GMs表示,使 用決策樹(shù)作為基分類器時(shí),在染色體Chroms (I《s《ps)編碼的當(dāng)前多數(shù)類子集 ?與少數(shù)類樣例集Dtrmin組成的訓(xùn)練集上(即Dtrmaj_s U Dtrmin)運(yùn)行一次5重交叉 驗(yàn)證后得到的平均geometric mean(GM)值。因此,第一項(xiàng)用于衡量當(dāng)前多數(shù)類子集所能提 供的預(yù)測(cè)性能;第二項(xiàng)用于衡量當(dāng)前多數(shù)類子集〇*,"3^_3與少數(shù)類訓(xùn)練集 化.,?!ㄇ?。,血〔公)在規(guī)模上的平衡程度,當(dāng)DtrmaLS的規(guī)模比Dtrm…的規(guī)模過(guò)大或過(guò)小時(shí)給 出一個(gè)懲罰;第=項(xiàng)表示,當(dāng)使用進(jìn)化欠抽樣為第t(l<t《T)個(gè)分類器選擇最優(yōu)多數(shù)類子 集時(shí),考察的當(dāng)前多數(shù)類子集DtrmaLS與為前面的t-1個(gè)分類器Cl, ... ,Ct-I選擇出的那些最優(yōu) 多數(shù)類子集句U/,...,巧;;;之間的平均Q統(tǒng)計(jì)多樣性。
[0037] 具體的,首先通過(guò)在航班延誤數(shù)據(jù)集Dref的多數(shù)類訓(xùn)練集馬胃似(Xj G R d )上運(yùn)行T ( T > 3 )次進(jìn)化欠抽樣,可得到T個(gè)多樣化的最優(yōu)多數(shù)類子集: 化。。.,化.,...,化W.;然后將它們分別與Dre沖的初始少數(shù)類訓(xùn)練集Dtrmin結(jié)合,可得到T個(gè)平 衡的訓(xùn)練集:Dtr_l,Dtr_2,. . .,Dtr_T,其中馬二 AU U D。,,。':。( 1《t《T )。
[0038] 步驟4:在每個(gè)平衡訓(xùn)練集上,使用網(wǎng)格捜索技術(shù)進(jìn)行分類回歸決策樹(shù)分類器的參 數(shù)尋優(yōu),并使用得到的最優(yōu)參數(shù)在相應(yīng)訓(xùn)練集上生成一個(gè)分類器。運(yùn)樣在T個(gè)訓(xùn)練集上可生 成T個(gè)分類器,它們構(gòu)成一個(gè)集成系統(tǒng)抓S-Bag。
[0039] 具體的,在平衡訓(xùn)練集Dtr_t(l《t《T)上,使用網(wǎng)格捜索(grid search)技術(shù)來(lái)確 定分類回歸決策樹(shù)的最優(yōu)深度(depth)和葉子結(jié)點(diǎn)中的最少樣例數(shù)目(min_eplnum),其基 本思想如下。使運(yùn)兩個(gè)參數(shù)在一定范圍內(nèi)按某一步長(zhǎng)(如步長(zhǎng)為〇.1、〇. 5等)取值,對(duì)于平衡 訓(xùn)練集Dtr_t,首先通過(guò)運(yùn)行5重交叉驗(yàn)證來(lái)計(jì)算在每一對(duì)參數(shù)值(depth, min_eplnum)下生 成的決策樹(shù)所取得的平均分類性能,并將得到最優(yōu)分類性能的那對(duì)參數(shù)作為當(dāng)前訓(xùn)練集上 分類回歸決策樹(shù)的最優(yōu)訓(xùn)練參數(shù);然后使用運(yùn)一參數(shù)組合在訓(xùn)練集Dtr_t上生成一個(gè)分類回 歸決策樹(shù)分類器:Ct = Learn(Dtr_tKLearn表示分類回歸決策樹(shù)學(xué)習(xí)算法)。
[0040] 通過(guò)W上方式可生成T個(gè)多樣化的分類回歸決策樹(shù)分類器Ci,C2, ...,打,它們構(gòu)成 了一個(gè)集成系統(tǒng)抓S-Bag。
[0041] 步驟5:確定集成系統(tǒng)抓S-Bag中基分類器的最佳集成方式,并將該集成系統(tǒng)作為 航班延誤預(yù)警模型,W對(duì)未來(lái)航班的延誤等級(jí)進(jìn)行預(yù)測(cè)。
[0042] 通過(guò)對(duì)集成學(xué)習(xí)領(lǐng)域中幾種經(jīng)典的分類器集成方式,如簡(jiǎn)單多數(shù)投票、加權(quán)多數(shù) 投票等,進(jìn)行實(shí)證比較來(lái)確定一種最適合于當(dāng)前應(yīng)用領(lǐng)域的集成方式。對(duì)于每種集成方式, 探討使用該方式對(duì)集成系統(tǒng)EUS-Bag中的所有基分類器進(jìn)行組合時(shí)所取得的集成分類性 能,然后將取得最優(yōu)分類性能的那種方式作為集成系統(tǒng)抓S-Bag的分類器集成方式。
[0043] 將包含T個(gè)分類器的集成系統(tǒng)抓S-Bag作為航班延誤預(yù)警模型,對(duì)一個(gè)新航班的延 誤等級(jí)進(jìn)行預(yù)測(cè)時(shí),首先使用每個(gè)分類器分別對(duì)該航班對(duì)應(yīng)的屬性元組Xt=Utl, Xt2, ..., Xtd)進(jìn)行分類,得至IjT個(gè)分類結(jié)果:Cl(Xt),C2(Xt),...,CT(Xt);然后使用所確定的分類器集成 方式f( ?)將運(yùn)些分類結(jié)果進(jìn)行集成,從而得到對(duì)該航班延誤等級(jí)的最終集成預(yù)測(cè)結(jié)果:f (Xt) = f (Ci(Xt) ,C2(xt),,Or(Xt))。
【主權(quán)項(xiàng)】
1. 一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,其特征在于包括如下步驟: 步驟1:獲取機(jī)場(chǎng)航班延誤實(shí)測(cè)數(shù)據(jù)集; 步驟2:對(duì)實(shí)測(cè)數(shù)據(jù)集依次進(jìn)行目標(biāo)屬性離散化、噪聲數(shù)據(jù)點(diǎn)清除處理,創(chuàng)建航班延誤 數(shù)據(jù)集; 步驟3:利用進(jìn)化欠抽樣方法,對(duì)航班延誤數(shù)據(jù)集的多數(shù)類進(jìn)行Γ次欠抽樣,分別與初始 少數(shù)類數(shù)據(jù)子集合并,得到Γ個(gè)平衡的訓(xùn)練集; 步驟4:在每個(gè)平衡訓(xùn)練集上,使用網(wǎng)格搜索方法生成Γ個(gè)分類回歸決策樹(shù)分類器,構(gòu)成 一個(gè)集成系統(tǒng)EUS-Bag; 步驟5:確定集成系統(tǒng)EUS-Bag中基分類器的一種集成方式,使得該系統(tǒng)能獲得最佳的 分類性能,并將該集成系統(tǒng)作為航班延誤預(yù)警模型。2. 根據(jù)權(quán)利要求1所述的一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,其特征 在于:所述步驟2的具體內(nèi)容為: 通過(guò)設(shè)定4個(gè)閾值,將實(shí)測(cè)數(shù)據(jù)集中每個(gè)樣例的目標(biāo)屬性"延誤時(shí)間長(zhǎng)度",分別轉(zhuǎn)換為 0、1、2、3、4,五種類別標(biāo)簽,即五個(gè)延誤等級(jí);采用基于k近鄰樣例的類標(biāo)簽對(duì)比方法來(lái)識(shí)別 并清除實(shí)測(cè)數(shù)據(jù)集中的孤立點(diǎn),得到航班延誤數(shù)據(jù)集。3. 根據(jù)權(quán)利要求1所述的一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,其特征 在于:在步驟3中,所述對(duì)航班延誤數(shù)據(jù)集的多數(shù)類進(jìn)行Γ次欠抽樣,采用了一種同時(shí)考慮預(yù) 測(cè)性能和多樣性的適應(yīng)度函數(shù)先選擇出Γ個(gè)優(yōu)質(zhì)的多數(shù)類子集,再分別與初始少數(shù)類子集 合并形成Γ個(gè)平衡的訓(xùn)練集。4. 根據(jù)權(quán)利要求1所述的一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,其特征 在于:所述步驟4的具體內(nèi)容為: 利用網(wǎng)格搜索技術(shù)和交叉驗(yàn)證分別在Γ個(gè)平衡訓(xùn)練集上訓(xùn)練并選取平均分類精度最高 的決策樹(shù),進(jìn)而訓(xùn)練Γ個(gè)分類回歸決策樹(shù)分類器,構(gòu)成了一個(gè)集成系統(tǒng)EUS-Bag。5. 根據(jù)權(quán)利要求1所述的一種基于進(jìn)化欠抽樣集成學(xué)習(xí)的航班延誤預(yù)警方法,其特征 在于:所述步驟5的具體內(nèi)容為: 分別用幾種經(jīng)典的分類器集成方法對(duì)EUS-Bag中的7個(gè)分類回歸決策樹(shù)分類器進(jìn)行集 成,選取分類精度最高的集成方式作為集成系統(tǒng)EUS-Bag的分類器集成方式,將EUS-Bag作 為機(jī)場(chǎng)航班延誤預(yù)警模型。
【文檔編號(hào)】G06K9/62GK105956621SQ201610279614
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】陳海燕, 孫博, 謝華
【申請(qǐng)人】南京航空航天大學(xué)