本發(fā)明屬于數(shù)據(jù)壓縮領(lǐng)域,具體涉及到一種基于K-means聚類的數(shù)據(jù)壓縮方法,實(shí)現(xiàn)對電子對抗領(lǐng)域全脈沖數(shù)據(jù)的無損壓縮。
背景技術(shù):
在現(xiàn)代軍事中,電子對抗在戰(zhàn)略攻防中起著至關(guān)重要的作用。電子對抗是敵我雙方采取各種電子措施和行動(dòng),用以削弱或破壞對方電子設(shè)備使用效能、保障己方電子設(shè)備發(fā)揮效能的一種作戰(zhàn)方式。電子對抗偵察是電子對抗的重要組成部分,優(yōu)良的電子對抗偵察技術(shù)是電子戰(zhàn)中贏得先機(jī)的關(guān)鍵所在。
全脈沖數(shù)據(jù)是將偵察機(jī)中頻脈沖所包含的關(guān)鍵特征參數(shù)以二進(jìn)制進(jìn)行存儲(chǔ)的一種數(shù)據(jù)類型。全脈沖數(shù)據(jù)的特點(diǎn)為:(1)每個(gè)數(shù)據(jù)點(diǎn)包含五個(gè)參數(shù),分別是脈沖到達(dá)時(shí)間(TOA)、脈沖寬度(PW)、脈沖幅值(PA)、脈沖載頻(CF)和脈沖到達(dá)角(DOA);(2)數(shù)據(jù)以二進(jìn)制格式表示,每個(gè)參數(shù)占用4個(gè)字節(jié);(3)全脈沖數(shù)據(jù)量很大,不便于存儲(chǔ)和傳輸;(4)全脈沖數(shù)據(jù)由于包含來自同一雷達(dá)發(fā)射源的大量重復(fù)脈沖的特征參數(shù)值,這些數(shù)據(jù)具有較強(qiáng)的相關(guān)性,因此存在大量的冗余。由于全脈沖數(shù)據(jù)量大,有必要對其進(jìn)行壓縮,以降低數(shù)據(jù)的大小,便于存儲(chǔ)和傳輸;并且因?yàn)閿?shù)據(jù)存在冗余,所以能夠被壓縮。全脈沖數(shù)據(jù)包含偵察機(jī)中頻脈沖的關(guān)鍵特征信息,壓縮和解壓過程不能丟失任何信息,因此需要采用無損壓縮。
聚類分析作為統(tǒng)計(jì)學(xué)的一個(gè)分支,主要用于數(shù)據(jù)挖掘領(lǐng)域。聚類算法包括K-means聚類、FCM聚類、Canopy聚類等等。K-means聚類算法易于描述,具有速度快且適用于處理大規(guī)模數(shù)據(jù)等優(yōu)點(diǎn)。本發(fā)明首次提出將K-means聚類算法用于全脈沖數(shù)據(jù)的無損壓縮。全脈沖數(shù)據(jù)記錄了來自多個(gè)發(fā)射源的不同時(shí)刻的脈沖數(shù)據(jù)參數(shù)。來自同一發(fā)射源的多個(gè)脈沖,其特征參數(shù)值差異較小,具有很強(qiáng)的相關(guān)性,通過K-means聚類將其歸于同一類簇中。對每個(gè)類簇中的數(shù)據(jù),用數(shù)據(jù)點(diǎn)相對中心點(diǎn)的差值替代原數(shù)據(jù)值,得到的差值與原值相比數(shù)值較小。對差值編碼后,輸出碼流占用的信息位較少,從而達(dá)到數(shù)據(jù)壓縮的目的。
技術(shù)實(shí)現(xiàn)要素:
目前在數(shù)據(jù)壓縮領(lǐng)域,通用的無損壓縮算法(例如LZ系列編碼)通常針對文本數(shù)據(jù)進(jìn)行壓縮,而對二進(jìn)制格式的數(shù)據(jù)源壓縮效果并不好。本發(fā)明提出一種基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮方法,該方法壓縮效果好,可靠性高,能較好地將全脈沖數(shù)據(jù)進(jìn)行無損壓縮。
本發(fā)明采用的技術(shù)方案為先將數(shù)據(jù)做K-means聚類處理,數(shù)據(jù)相似性較大的點(diǎn)形成同一類簇,在每個(gè)類簇中保留中心點(diǎn)的數(shù)值,并用數(shù)據(jù)點(diǎn)與中心點(diǎn)的差值代替原數(shù)據(jù),處理后差值會(huì)比原數(shù)據(jù)值小很多。然后將差值先做行程編碼,再做區(qū)間編碼。由于編碼后的碼流占用的信息位較少,能夠取得較好的壓縮效果。
為實(shí)現(xiàn)上述目的,本發(fā)明主要包括以下步驟:
步驟一:對包含偵察機(jī)中頻數(shù)據(jù)關(guān)鍵參數(shù)信息的全脈沖數(shù)據(jù)進(jìn)行K-means聚類,得到多個(gè)類簇及每個(gè)類簇的中心點(diǎn)。
K-means聚類需要事先指定聚類數(shù)K。一般情況下,聚類數(shù)K取值在之間,其中n為數(shù)據(jù)集的樣本個(gè)數(shù)。實(shí)際應(yīng)用中,真實(shí)的聚類數(shù)未知。經(jīng)驗(yàn)表明,聚類數(shù)K在大于真實(shí)值情況下,壓縮效果變化不大,而在聚類數(shù)K小于真實(shí)值時(shí),壓縮效果較差。一般電子戰(zhàn)中,目標(biāo)個(gè)數(shù)(即聚類數(shù))在二十以內(nèi),所以本發(fā)明選擇聚類數(shù)此種K值選擇方法在時(shí)間復(fù)雜度與壓縮效果上都有良好表現(xiàn)。
步驟二:將每個(gè)類簇內(nèi)部所有數(shù)據(jù)點(diǎn)與該類簇中心點(diǎn)做差,得到差值數(shù)據(jù)。
步驟三:將差值做行程編碼。
步驟四:將行程編碼后的數(shù)據(jù)做區(qū)間編碼。
步驟五:將區(qū)間編碼后的碼流與中心值一起輸出得到壓縮結(jié)果。
采用本發(fā)明提出的技術(shù)方案能夠獲得以下有益效果:本發(fā)明能夠?qū)θ}沖數(shù)據(jù)進(jìn)行無損壓縮,并且以較小的時(shí)間開銷獲得2倍左右的壓縮比。本發(fā)明相對于直接將數(shù)據(jù)進(jìn)行編碼而不進(jìn)行K-means聚類預(yù)處理而言,可以獲得約20%左右的壓縮倍數(shù)提升。這是因?yàn)楸景l(fā)明提出的基于K-means聚類的無損壓縮方法有以下特點(diǎn):1)K-means聚類對高維數(shù)據(jù)有較好的相關(guān)性,并且計(jì)算速度較快;2)聚類中采用預(yù)先確定聚類數(shù)目的處理方法,以較小的時(shí)間開銷獲得較好的壓縮效果;3)對差值數(shù)據(jù)進(jìn)行編碼與直接對原始數(shù)據(jù)編碼相比,更有利于提高編碼效率。
附圖說明
圖1是基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮流程圖。
圖2是K-means聚類算法流程圖。
圖3是K-means聚類效果示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加明確,下面詳述基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮算法的具體實(shí)施步驟。
如圖1所示,基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮方法包括以下步驟:
步驟一:對輸入的全脈沖數(shù)據(jù)進(jìn)行K-means聚類變換,將數(shù)據(jù)源X重新組合成一系列類簇的集合C={C1,C2,……,CK}。其中,C1∪C2∪…∪CK=X,i≠j;i,j=1,2,……,K。
K-means聚類的具體流程如圖2所示:
1)輸入數(shù)據(jù)源X包含n個(gè)數(shù)據(jù)點(diǎn){x1,x2,…,xn},每個(gè)數(shù)據(jù)點(diǎn)為包含p個(gè)特征參數(shù)的
p維數(shù)據(jù)。
2)隨機(jī)選取K個(gè)數(shù)據(jù)點(diǎn)作為各個(gè)類簇的初始聚類中心,分別計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到K個(gè)聚
類中心的歐氏距離,若滿足某個(gè)數(shù)據(jù)點(diǎn)與某一類簇中心的距離小于其與所有其他聚類
中心的距離,則把該數(shù)據(jù)點(diǎn)劃分到這一聚類中心所代表的類簇中,得到初始K個(gè)聚
類劃分;
3)重新計(jì)算K個(gè)新的聚類中心:
其中,μi表示第i個(gè)類簇的中心點(diǎn),Ni表示第i個(gè)類簇中的數(shù)據(jù)點(diǎn)個(gè)數(shù),xij表示第i
個(gè)類簇中第j個(gè)數(shù)據(jù)點(diǎn);
4)計(jì)算每個(gè)類簇?cái)?shù)據(jù)點(diǎn)與其中心點(diǎn)的歐氏距離,求出各類簇總的距離和(也即偏差)J。
具體計(jì)算公式如下:
5)不斷重復(fù)步驟3)和4)的計(jì)算,對算法的收斂性進(jìn)行判斷:聚類的目標(biāo)是使各類簇總
的距離和,即偏差J達(dá)到最小。若經(jīng)過反復(fù)迭代后求得的偏差J的變化小于某一預(yù)設(shè)
精度值ε,(假設(shè)ε=10-6),則表明算法收斂,計(jì)算結(jié)束,否則返回2)重新計(jì)算。
K-means聚類效果示意圖如圖3所示。隨機(jī)生成150個(gè)二維數(shù)據(jù),每50個(gè)隨機(jī)數(shù)據(jù)為一類,均值分別為[-1,-1],[1,1],[1,-1],方差均為[1,1]。經(jīng)過K-means聚類處理后,數(shù)據(jù)被準(zhǔn)確分為三類,每類的中心點(diǎn)與其均值非常接近,聚類效果較好。
步驟二:經(jīng)過K-means聚類算法處理過的數(shù)據(jù)形成K個(gè)類簇,對于每個(gè)類簇,求數(shù)據(jù)點(diǎn)與中心點(diǎn)的差值。
步驟三:將每個(gè)點(diǎn)的差值數(shù)據(jù)看成字節(jié)流,對其進(jìn)行行程編碼。
步驟四:將行程編碼后的數(shù)據(jù)進(jìn)行區(qū)間編碼。
為了獲得較好的壓縮效果,本發(fā)明采用了區(qū)間編碼算法。區(qū)間編碼是將所輸入數(shù)據(jù)映射到某一整數(shù)區(qū)間內(nèi),最終輸出一個(gè)屬于該區(qū)間的整數(shù)作為輸出編碼。區(qū)間編碼能夠?qū)崿F(xiàn)比霍夫曼編碼一個(gè)符號(hào)一位這個(gè)壓縮上限還要高的壓縮率。
區(qū)間編碼主要包括以下步驟:
1)以字節(jié)為單位對行程編碼后的數(shù)據(jù)進(jìn)行讀取,每個(gè)字節(jié)數(shù)據(jù)看作一個(gè)符號(hào),統(tǒng)計(jì)符號(hào)的種類數(shù)N,作為所有符號(hào)的總計(jì)頻度T的初始值。
2)設(shè)定一個(gè)初始整數(shù)區(qū)間[L,H],并初始化區(qū)間的上、下界:上界H=0xf0000000,下界L=0x00000000,則初始區(qū)間的范圍R=0xf0000000。另外,設(shè)定區(qū)間正規(guī)化的最小范圍Rmin=0x00010000。
3)計(jì)算不同符號(hào)所對應(yīng)的初始映射區(qū)間。根據(jù)某一符號(hào)S當(dāng)前的頻度fs、累積頻度Fs以及所有符號(hào)的總計(jì)頻度T,計(jì)算出符號(hào)S的初始映射區(qū)間[L',H']。
符號(hào)S的累積頻度Fs是指符號(hào)值小于S的其它符號(hào)(x<S)的頻度總和,可利用公式(3)進(jìn)行計(jì)算:
初始映射區(qū)間[L',H']的上、下界H'、L'及范圍R'具體見公式(4)、(5)、(6)。其中,div表示整除運(yùn)算。
R'=RdivT×fs (4)
L'=L+RdivT×Fs (5)
H'=L'+R'-1=L+RdivT×(Fs+fs)-1 (6)
4)對含有多個(gè)符號(hào)的數(shù)據(jù)進(jìn)行編碼時(shí),根據(jù)當(dāng)前輸入的符號(hào)不斷更新其映射區(qū)間。更新原則是下個(gè)輸入符號(hào)映射區(qū)間的計(jì)算是基于上個(gè)符號(hào)的映射區(qū)間進(jìn)行的。具體計(jì)算仍采用公式(4)至(6),公式中的參數(shù)采用自適應(yīng)的方法進(jìn)行更新。即當(dāng)前輸入符號(hào)S后,其頻度fs加1,累積頻度Fs和所有符號(hào)的總計(jì)頻度T也相應(yīng)地進(jìn)行計(jì)算更新。根據(jù)更新后的頻度fs、累積頻度Fs以及所有符號(hào)的總計(jì)頻度T,得到更新后的符號(hào)S的映射區(qū)間[L',H']。
5)當(dāng)更新后的映射區(qū)間范圍R'<Rmin(Rmin表示最小區(qū)間范圍)或以字節(jié)為單位比較新區(qū)間的上、下界,當(dāng)上下界的高位字節(jié)相等時(shí),移出相同的高位字節(jié)作為輸出碼流,并對區(qū)間進(jìn)行正規(guī)化處理。
6)按照以上步驟對所有輸入數(shù)據(jù)進(jìn)行編碼。編碼結(jié)束時(shí),移出映射區(qū)間內(nèi)所有的位作為輸出碼流,并保存為二進(jìn)制文件。
步驟五:將區(qū)間編碼后形成的二進(jìn)制文件與中心值一起保存為輸出文件。
應(yīng)用實(shí)例:
選用一段全脈沖數(shù)據(jù)作為樣本,大小為3721KB,數(shù)據(jù)點(diǎn)個(gè)數(shù)n=10000,每個(gè)數(shù)據(jù)點(diǎn)包含5個(gè)特征參數(shù)。數(shù)據(jù)源為6類,聚類數(shù)K選為50,經(jīng)過K-means聚類壓縮后,大小為1868KB,壓縮率為50.2%。全脈沖數(shù)據(jù)的無損壓縮效果與具體的數(shù)據(jù)樣本有密切關(guān)系,對有些全脈沖數(shù)據(jù),壓縮率可以達(dá)到30%左右。
本發(fā)明提出的方法不限于具體實(shí)施方式中所述的實(shí)例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施例,只要是利用K-means聚類變換對全脈沖數(shù)據(jù)進(jìn)行無損壓縮的算法,包括實(shí)現(xiàn)相應(yīng)功能的裝置,也同樣屬于本發(fā)明的創(chuàng)新范圍,需要受到保護(hù)。