本發(fā)明提供了一種基于大數(shù)據(jù)挖掘分類剔除飛行參數(shù)野值的方法,屬于飛行控制系統(tǒng)中數(shù)據(jù)處理領(lǐng)域,主要應(yīng)用于無人機飛行數(shù)據(jù)野值處理。
背景技術(shù):
:在無人機飛行試驗中,需要測量無人機飛行中的各種飛行參數(shù),并將其保存在數(shù)據(jù)記錄儀中供事后分析。但測量中由于設(shè)備或信號的問題,記錄的數(shù)據(jù)含有野值,這種野值如果不剔除的話,會為飛機性能事后分析帶來較大影響,因此在數(shù)據(jù)分析前有必要采取一定的方法來剔除野值,保證數(shù)據(jù)的完備性和可靠性。在已有的剔野值方法中,一般采用多點平滑濾波計算先驗均值,然后采用當前值與先驗均值比較的方法來判斷是否當前值為野值;或者采用kalman濾波的方法,估計先驗值的統(tǒng)計信息,計算kalman方程來預(yù)測,判斷當前值是否為野值。但上述方法均有計算量大,處理時間長或計算方法較為復(fù)雜的缺點,當飛行數(shù)據(jù)較大時,會花費較多的時間。如何采用數(shù)據(jù)挖掘的思想來處理飛行數(shù)據(jù)的野值問題,是本領(lǐng)域亟待解決的技術(shù)問題。技術(shù)實現(xiàn)要素:本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供了一種基于大數(shù)據(jù)挖掘分類剔除飛行參數(shù)野值的方法,實現(xiàn)了對無人機海量飛行數(shù)據(jù)快速提取野值。本發(fā)明的技術(shù)解決方案是:提供一種基于大數(shù)據(jù)挖掘分類剔除飛行參數(shù)野值的方法,步驟如下:(1)設(shè)置輸入矩陣p∈r3×4,其中列向量為飛行參數(shù),包括經(jīng)度、緯度、高度的擬合方差,行向量代表四類門限,分別為每個飛行參數(shù)不含野值,只有經(jīng)度含野值,只有緯度含野值和只有高度含野值含野值情況下的門限;采用徑向基神經(jīng)網(wǎng)絡(luò)(rbn)訓(xùn)練矩陣p∈r3×4;(2)讀入經(jīng)度,緯度和高度飛行數(shù)據(jù),每個飛行參數(shù)數(shù)據(jù)量為n,將每個飛行參數(shù)分為m個一段,共分為n/m段;采用多項式擬合方法對每個飛行參數(shù)每段數(shù)據(jù)進行擬合,得到擬合統(tǒng)計均方差矩陣cov_∈r3×(n/m);(3)將步驟(2)得到的擬合統(tǒng)計均方差矩陣cov_∈r3×(n/m)用矩陣p∈r3×4進行門限檢驗,共產(chǎn)生n/m個分類量,將它們放置到分類向量組里class_seri_∈r(n/m)×1,實現(xiàn)數(shù)據(jù)段的粗分檢;(4)對步驟(3)中產(chǎn)生的分類向量組class_seri_∈r(n/m)×1進行識別,當分辨出class_seri_含有不為第一類門限的分類時,說明該數(shù)據(jù)段含有野值;對經(jīng)度、緯度、高度分別將含野值的數(shù)據(jù)段抽取最大值、最小值和均值max(i),min(i),mean(i),i∈[1,n/m];計算判斷所處范圍,當時,將第i段中的數(shù)據(jù)中的最大值max(i)替換為均值mean(i);當時,將第i段中的數(shù)據(jù)中的最小值min(i)替換為均值mean(i);當時,不進行處理;對所有數(shù)據(jù)段處理完成后,獲得剔除飛行參數(shù)野值后的正常數(shù)據(jù)。優(yōu)選的,步驟(4)中還包括當時,將最大值max(i)的位置記入野值記錄向量wild_point中,當時,將最小值min(i)記入野值記錄向量wild_point中。優(yōu)選的,將wild_point中的位置數(shù)據(jù)按冒泡排序的方法按照從小到大排列,并將同位置進行刪除,得到按位置從小到大排列的數(shù)組wild_point。優(yōu)選的,步驟(2)中還包括對每段數(shù)據(jù)進行歸一化處理,歸一化處理后再采用多項式擬合方法對每個飛行參數(shù)每段數(shù)據(jù)進行擬合。優(yōu)選的,當時,將第i段中的數(shù)據(jù)中的最大值max(i)替換為卡爾曼濾波估計出來的當前值;當時,將第i段中的數(shù)據(jù)中的最小值min(i)替換為卡爾曼濾波估計出來的當前值。優(yōu)選的,產(chǎn)生n/m個分類量的方法為:將某一向量第一個擬合方差與只有經(jīng)度含野值門限對比,如果大于等于該門限值,則該向量為第二類;如果小于該門限值,則將第二個擬合方差與只有緯度含野值門限對比,如果大于等于該門限值,則該向量為第三類;如果小于該門限值,則將第三個擬合方差與只有高度含野值含野值門限對比,如果大于等于該門限值,則該向量為第四類;如果小于該門限值,則該向量為第一類。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果是:(1)本發(fā)明采用大數(shù)據(jù)挖掘的思想來處理飛行數(shù)據(jù)的野值問題,當數(shù)據(jù)量巨大時尤其合適。它擯棄了現(xiàn)有技術(shù)需要逐點分析花費時間較多的缺點,采用曲線擬合統(tǒng)計和神經(jīng)網(wǎng)絡(luò)分類的方法實現(xiàn)了對大數(shù)據(jù)中野值點的快速分類和提取,通過野值的特征來發(fā)掘野值符合大數(shù)據(jù)挖掘的思想,滿足對飛行數(shù)據(jù)野值預(yù)處理的要求。(2)本發(fā)明首先采用神經(jīng)網(wǎng)絡(luò)進行原始數(shù)據(jù)粗分類,再采用門限比較進行野值點提取,既兼顧了數(shù)據(jù)處理效率,又保證了野值提取的準確性。(3)本發(fā)明對原始數(shù)據(jù)進行分段處理,每段計算方差,采用方差與神經(jīng)網(wǎng)絡(luò)對比的方式,進一步提升了對大數(shù)據(jù)的處理能力。(4)本發(fā)明提供了包含原始數(shù)據(jù)中所有野值位置點的數(shù)據(jù)集合,滿足后續(xù)故障檢測和正常處理數(shù)據(jù)的需求。附圖說明圖1為本發(fā)明流程圖;圖2為飛行數(shù)據(jù)經(jīng)度、緯度和高度野值分布情況;圖3為選取500點數(shù)據(jù)段無野值經(jīng)度、緯度和高度多項式擬合的曲線(上圖:經(jīng)度;中圖:緯度;下圖:高度);圖4為選取500點數(shù)據(jù)段含野值經(jīng)度、緯度和高度多項式擬合的曲線(上圖:經(jīng)度;中圖:緯度;下圖:高度);圖5為選取500點數(shù)據(jù)段野值分類圖;圖6為選取500點數(shù)據(jù)段經(jīng)過排序和合并處理后最終野值分布圖。具體實施方式本發(fā)明中無人機采用gps實現(xiàn)導(dǎo)航定位,在飛行過程中數(shù)據(jù)記錄儀將gps信號和其他傳感器信號記錄下來,待到無人機停飛時,將數(shù)據(jù)記錄儀中記錄的gps數(shù)據(jù)讀取出來,供事后處理和分析。但在gps信號中,經(jīng)常會遇到不合常理的野值,它們的存在導(dǎo)致飛機飛行性能分析處于不利的影響,干擾人們對飛機性能的認識,因此,在對gps數(shù)據(jù)處理前,需要先一步對野值進行處理,滿足后續(xù)分析需求。如圖1所示,本發(fā)明提供的一種基于大數(shù)據(jù)挖掘分類剔除飛行參數(shù)野值的方法,步驟如下:(1)本發(fā)明首先需要訓(xùn)練rbn神經(jīng)網(wǎng)絡(luò)作為經(jīng)緯高數(shù)據(jù)點擬合曲線方差的檢測門限。設(shè)置輸入矩陣p∈r3×4,其中列向量代表經(jīng)度、緯度、高度三個擬合方差組合,行向量代表每個飛參含野值的門限,共四組。設(shè)置輸出向量t=[1,2,3,4]∈r1×4對應(yīng)列向量不同飛參出現(xiàn)不同野值的類型。訓(xùn)練rbn成為飛參方差檢驗的門限。采用不同的特征數(shù)據(jù)檢驗rbn檢驗門限的可靠性,輸入矩陣p陣中的方差門限需要經(jīng)過大量飛行參數(shù)檢驗才行,它需要有效識別經(jīng)緯高三個參數(shù)中不含野值情況,只有經(jīng)度含野值,只有緯度含野值和只有高度含野值四種類型,為各類型設(shè)置的門限應(yīng)能在大概率范圍內(nèi)識別該野值屬于那種類型,當滿足上述要求時,才認為rbn訓(xùn)練完畢,可以用于下一步檢測。(2)從數(shù)據(jù)記錄儀上下載的飛行數(shù)據(jù)文獻中讀入經(jīng)度,緯度和高度飛行參數(shù)數(shù)據(jù)data,假設(shè)每個參數(shù)數(shù)據(jù)量為n,分別表示為lon∈rn×1,lat∈rn×1,hig∈rn×1,將每個飛行參數(shù)按m個數(shù)據(jù)點取一段,共可分為n/m段,每段可表示為lon(i)∈rm×1,lat(i)∈rm×1,hig(i)∈rm×1,(i=1...n/m)。采用2階多項式按照最小二乘算法對每段數(shù)據(jù)m個數(shù)據(jù)點進行擬合,將每段獲得的方差,按行列排列,得到擬合統(tǒng)計均方差向量cov_=[cov_lon,cov_lat,cov_hig]∈r3×(n/m),cov_列包含經(jīng)、緯、高三個參數(shù)對相同位置處m個數(shù)據(jù)點擬合方差,行代表處理了n/m次。(3)將(2)中擬合的均方差向量組cov_∈r3×(n/m)用(1)中訓(xùn)練的rbn檢驗門限逐行對比,分別確定每行的分類,共可產(chǎn)生n/m個分類量,將它們放置到分類向量組里class_seri_∈r(n/m)×1,實現(xiàn)數(shù)據(jù)段的粗分檢,在粗分檢中,分類1代表三個飛參在相同位置數(shù)據(jù)段產(chǎn)生的擬合方差在rbn檢驗門限范圍內(nèi),即數(shù)據(jù)段中不含野值,而2,3,4三種分類分別代表了經(jīng)度,緯度和高度三種參數(shù)各自數(shù)據(jù)段出現(xiàn)野值的情況,在本方法中,如果這三種參數(shù)在相同位置數(shù)據(jù)段同時出現(xiàn)野值,則按照序號序號最小的原則標出分類。(4)將(3)中產(chǎn)生的分類向量組class_seri_∈r(n/m)×1進行識別,當分辨出class_seri_含有不為1類型的單元時,說明該數(shù)據(jù)段含有野值。將含野值相關(guān)的第i段數(shù)據(jù)段抽取最大值、最小值和均值max(i),min(i),mean(i),i∈[1,n/m],然后判斷它們之間的關(guān)系是否滿足公式(1),其中為判斷野值是否存在的門限:當滿足公式(1)中第1式時,說明野值在均值上方,將最大點對應(yīng)位置記錄在野值數(shù)組wild_point中,同時將此野值點對應(yīng)的數(shù)據(jù)采用均值替換,獲得了剔除飛行參數(shù)野值的數(shù)據(jù);當滿足公式(1)中第3式時,說明野值在均值下方,將最小點對應(yīng)位置記錄在野值數(shù)組wild_point中,同時將此野值點對應(yīng)的數(shù)據(jù)采用均值替換;若不滿足上述兩式,則說明數(shù)據(jù)段i中所有值在均值所在的上下門限內(nèi)散布,不存在野值,不對此數(shù)據(jù)段做處理。本發(fā)明采用均值替換野值,也可以采用卡爾曼濾波的方式估計當前值的方式,替換野值。此方法針對經(jīng)度,緯度和高度三個飛參各執(zhí)行一次,共執(zhí)行三次數(shù)據(jù)段識別,生成野值記錄向量wild_point∈rk×1,其中共包含k個野值位置。(5)由于在產(chǎn)生野值記錄向量wild_point過程中,是按照最大最小值位置方法記錄的,因此wild_point中的位置數(shù)據(jù)不是按照由小到大的順序設(shè)置,而且三個飛參各執(zhí)行一次此過程,將所有野值位置都記錄在同一個數(shù)組中,也可能會出現(xiàn)有相同位置的野值記錄,因此需要將wild_point產(chǎn)生的野值記錄向量wild_point用冒泡法排序,并將同位置記錄合并刪除,最終生成實際的野值位置記錄點wild_point∈r(k-p)×1,這其中會刪除p個相同的位置點,而且按照從小到大排列。其中冒泡法是指將數(shù)組中的當前點放置在第1點上,并與其后的數(shù)據(jù)一次進行比較,當發(fā)現(xiàn)后面第i點數(shù)據(jù)比第1點小時,則將兩個數(shù)據(jù)互換,這樣將后續(xù)數(shù)據(jù)遍歷后,最小點則放置到第一點上,然后將當前點放置在第2點上,依上法同樣遍歷一遍,找到第2最小點放在位置2上,當前點依此法持續(xù)進行到數(shù)組末尾,則此數(shù)組會按照從小到大順序排列。但冒泡法會將兩個相同位置點也擺放在一起,這樣需要再將數(shù)組遍歷一遍,找到緊挨在一起的數(shù)據(jù)點,將其合并為一個,并將數(shù)組相應(yīng)的減小大小,直到數(shù)組中無相同位置數(shù),程序結(jié)束。(6)最終生成的wild_point的數(shù)組就是包含原始數(shù)據(jù)中所有野值位置點的數(shù)據(jù)集合。進而獲得最終野值分布圖,為后續(xù)設(shè)備故障檢測或者數(shù)據(jù)處理,提供依據(jù)。使用本發(fā)明的飛行控制方法進行飛行參數(shù)野值剔除計算,初始條件為飛行參數(shù)記錄共53040個點,其中野值點共21個,初始野值分布如圖2所示。本發(fā)明首先需要訓(xùn)練作為野值分類門限的徑向基神經(jīng)網(wǎng)絡(luò)(rbn),設(shè)置分類如表1rbn神經(jīng)網(wǎng)絡(luò)門限參數(shù)p陣與分類t設(shè)置參數(shù)對應(yīng)關(guān)系所示,其中正常門限經(jīng)度/緯度/高度分別對應(yīng)1/1/3,其分類標志為1類;當只出現(xiàn)經(jīng)度野值時,它們門限分別對應(yīng)1.1/1/3,其分類標志為2類;當只出現(xiàn)緯度野值時,它們門限分別對應(yīng)1/1.1/3,其分類標志為3類;當只出現(xiàn)緯度野值時,它們門限分別對應(yīng)1/1/3.1,其分類標志為4類。這樣通過訓(xùn)練rbn神經(jīng)網(wǎng)絡(luò),可以將擬合后的方差門限做到精確分類。表1rbn神經(jīng)網(wǎng)絡(luò)門限參數(shù)p陣與分類t設(shè)置參數(shù)對應(yīng)關(guān)系p陣正常經(jīng)度野值緯度野值高度野值經(jīng)度11.111緯度111.11高度3333.1t分類1234設(shè)置數(shù)據(jù)段為500個一組,進行多項式數(shù)據(jù)擬合,尋找對應(yīng)于經(jīng)度/緯度/高度的方差cov_=[cov_lon,cov_lat,cov_hig]∈r3×106。無野值情況的500點數(shù)據(jù)擬合如圖3所示,含野值情況的500點數(shù)據(jù)擬合如圖4所示。經(jīng)過rbn對cov_進行分類,可找到分類向量組class_seri_∈r106×1,其分布情況如圖5所示,圖中分類1代表相關(guān)500數(shù)據(jù)點中不含野值分布。將class_seri中含野值的500數(shù)據(jù)點進行最大、最小和均值識別,確定的野值數(shù)據(jù)保存在野值數(shù)組wild_point∈r25×1中,隨后進行排序和合并最終生成按照順序排列的野值數(shù)組wild_point∈r21×1,其位置分布如圖6所示。這樣,經(jīng)過本發(fā)明處理,含野值的大數(shù)據(jù)可快速定位野值位置,滿足飛行數(shù)據(jù)事后處理的需要。以上所述,僅為本發(fā)明最佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。本發(fā)明說明書中未作詳細描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員的公知技術(shù)。當前第1頁12