專利名稱:一種融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法
技術(shù)領(lǐng)域:
本發(fā)明涉及農(nóng)業(yè)動(dòng)態(tài)數(shù)據(jù)流壓縮技術(shù),尤其是一種農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法。
背景技術(shù):
隨著計(jì)算機(jī)、網(wǎng)絡(luò)和通信技術(shù)的迅猛發(fā)展,許多應(yīng)用領(lǐng)域出現(xiàn)了海量、高速和動(dòng)態(tài)的數(shù)據(jù),如電子商務(wù)、傳感器網(wǎng)絡(luò)、網(wǎng)絡(luò)監(jiān)測等等。這些領(lǐng)域中的數(shù)據(jù)常常以數(shù)據(jù)流的形式出現(xiàn),如傳感器網(wǎng)絡(luò)獲得的實(shí)時(shí)數(shù)據(jù)就是典型的數(shù)據(jù)流。其主要特點(diǎn)為1)數(shù)據(jù)流動(dòng)態(tài)增長,長度可能無限;2)對流中的數(shù)據(jù)只能一次掃描,利用一次掃描建立數(shù)據(jù)流的近似概要結(jié)構(gòu),其后的處理只能依賴該概要結(jié)構(gòu)。精細(xì)農(nóng)業(yè)是綜合應(yīng)用地球空間信息技術(shù)、計(jì)算機(jī)輔助決策技術(shù)、農(nóng)業(yè)工程技術(shù)等現(xiàn)代高新技術(shù),以獲得農(nóng)田“高產(chǎn)、優(yōu)質(zhì)、高效”的現(xiàn)代化生產(chǎn)模式和技術(shù)體系。其核心技術(shù)包括地理信息系統(tǒng)GIS、全球定位系統(tǒng)GPS、遙感技術(shù)RS和計(jì)算機(jī)自動(dòng)控制技術(shù)。目前國內(nèi)的農(nóng)作物生長環(huán)境的數(shù)據(jù)采集主要是使用專用數(shù)據(jù)采集儀進(jìn)行人工田間測量,再將測量數(shù)據(jù)帶回實(shí)驗(yàn)室傳輸?shù)接?jì)算機(jī)進(jìn)行實(shí)驗(yàn)分析。對于需要長時(shí)間定時(shí)采集的數(shù)據(jù),如溫濕度、光照強(qiáng)度、作物生長特征等數(shù)據(jù),則需要反復(fù)多次到田間測量,這種做法的時(shí)間成本和人力成本較高。相對發(fā)達(dá)國家來說,國內(nèi)在農(nóng)作物生長環(huán)境的信息采集技術(shù)方面的研究和應(yīng)用都相對滯后。無線傳感網(wǎng)絡(luò)(WSN,Wireless Sensor Networks)是當(dāng)前在國際上備受關(guān)注的、涉及多學(xué)科高度交叉、知識(shí)高度集成的前沿?zé)狳c(diǎn)研究領(lǐng)域。它綜合了傳感器技術(shù)、嵌入式計(jì)算技術(shù)、現(xiàn)代網(wǎng)絡(luò)及無線通信技術(shù)、分布式信息處理技術(shù)等,能夠通過各類集成化的微型傳感器協(xié)作地實(shí)時(shí)監(jiān)測、感知和采集各種環(huán)境或監(jiān)測對象的信息,該技術(shù)被我國逐漸應(yīng)用于農(nóng)業(yè)中。由于無線傳感器網(wǎng)絡(luò)獲得的實(shí)時(shí)數(shù)據(jù)通常具有數(shù)量大、數(shù)據(jù)流量突發(fā)性高等特點(diǎn),如何保存如此龐大的實(shí)時(shí)數(shù)據(jù)以及如何訪問這些保存的歷史數(shù)據(jù)一直是個(gè)難題。數(shù)據(jù)壓縮主要是通過去除數(shù)據(jù)間存在的冗余度或者對數(shù)據(jù)間具有相關(guān)性的數(shù)據(jù)進(jìn)行二次表達(dá),以達(dá)到減少存儲(chǔ)資源的目的,同時(shí)丟棄的這些數(shù)據(jù)又保證在一定的誤差控制中不影響對歷史數(shù)據(jù)的重構(gòu),方便之后對歷史數(shù)據(jù)的查詢處理。目前,數(shù)據(jù)壓縮的方法有很多,主要包括完全可逆的冗余度壓縮和實(shí)際上不可逆的熵壓縮兩類。冗余度壓縮常用于磁盤文件、數(shù)據(jù)通信和氣象衛(wèi)星云圖等不允許在壓縮過程中有絲毫損失的場合中。但它的壓縮比通常只有幾倍,遠(yuǎn)遠(yuǎn)不能滿足數(shù)字視聽?wèi)?yīng)用的要求。在實(shí)踐的數(shù)字視聽設(shè)備中,差不多都采用壓縮比更高、但實(shí)際有損的熵壓縮技術(shù)。只要作為最終用戶的人覺察不出或者能夠容忍這些失真,就允許對數(shù)字音像信號(hào)進(jìn)一步壓縮以換取更高的編碼效率。但是這些方法的壓縮比不高,存儲(chǔ)數(shù)據(jù)的空間有限,常常導(dǎo)致數(shù)據(jù)失真。顯然,現(xiàn)有的數(shù)據(jù)壓縮方法不能有效適用于農(nóng)業(yè)無線傳感數(shù)據(jù)流
發(fā)明內(nèi)容
、
為了克服已有現(xiàn)有動(dòng)態(tài)數(shù)據(jù)流壓縮方法的壓縮比不高、數(shù)據(jù)失真度較高、存儲(chǔ)數(shù)據(jù)空間受限的不足,本發(fā)明提供一種壓縮比較高、數(shù)據(jù)失真少、有效減少數(shù)據(jù)存儲(chǔ)空間的融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)壓縮方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是—種融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法,所述壓縮方法包括以下步驟I)數(shù)據(jù)節(jié)點(diǎn)閾值過濾先將農(nóng)業(yè)無線傳感數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第I層,即在相同的時(shí)間內(nèi)到來的數(shù)據(jù)序列表示為X = Ix1, X2,..., XnI,該序列由n個(gè)數(shù)據(jù)組成,假設(shè)序列中平均數(shù)據(jù)個(gè)數(shù)為n',將這n'個(gè)數(shù)據(jù)組成為一個(gè)數(shù)據(jù)節(jié)點(diǎn),則第I層的數(shù)據(jù)節(jié)點(diǎn)
數(shù)有^,其中M為數(shù)據(jù)流的總數(shù)據(jù)個(gè)數(shù); n2)數(shù)據(jù)預(yù)處理假設(shè)數(shù)據(jù)序列X中數(shù)據(jù)Xi的屬性個(gè)數(shù)為m,如果空缺屬性個(gè)數(shù) ^■,則認(rèn)為該條數(shù)據(jù)流是噪聲,直接過濾;反之,將空缺屬性補(bǔ)充為所有該屬性的加
權(quán)平均;3)壓縮處理將第I層每n'個(gè)數(shù)據(jù)組成的子序列進(jìn)行壓縮,構(gòu)成第2層的一個(gè)數(shù)據(jù)節(jié)點(diǎn),記該子序列為屯,該數(shù)據(jù)節(jié)點(diǎn)為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)的不
斷到來,第2層上的數(shù)據(jù)節(jié)點(diǎn)不斷增加,當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點(diǎn)個(gè)數(shù)2 #時(shí),將最老的Pi個(gè)
數(shù)據(jù)節(jié)點(diǎn)進(jìn)行歸并,合并成第3層上的I個(gè)數(shù)據(jù)節(jié)點(diǎn),并計(jì)算數(shù)據(jù)節(jié)點(diǎn)的概要信息,以此逐層向上,從而使得該農(nóng)業(yè)無線傳感數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點(diǎn),最后構(gòu)造一棵能夠存儲(chǔ)小波系數(shù)的誤差樹; 誤差樹中,節(jié)點(diǎn)Ci對應(yīng)小波系數(shù),葉節(jié)點(diǎn)Xu對應(yīng)原始數(shù)據(jù),對一給定的誤差樹T和T中的內(nèi)節(jié)點(diǎn)ck,令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點(diǎn)集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點(diǎn)集合,rightleavesk表示Ck的右子樹的葉節(jié)點(diǎn)集合,pathk為T中從Ck或Xij到根的路徑上全體非零系數(shù)的集合,設(shè)ak是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleavesk中數(shù)據(jù)的均值,則Ck =C1是全部數(shù)據(jù)的均值;首先數(shù)據(jù)流Xi = {xn, xi2, A , xiq},將Xi = {xn, xi2, A , xiq}中的數(shù)據(jù)兩兩分對求其均值和均值與第二個(gè)數(shù)據(jù)的差值,則差值就是第2層的數(shù)據(jù)節(jié)點(diǎn),也是相應(yīng)的小波系數(shù) c2k;其次計(jì)算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點(diǎn)集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點(diǎn)集合,rightleavesk表示Ck的右子樹的葉節(jié)點(diǎn)集合,設(shè)ak是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleavesk中數(shù)據(jù)的均值,則C3k =(ak-bk) /2 ;最后依次繼續(xù)計(jì)算,直至誤差樹的最高層的小波系數(shù),它也等于全部數(shù)據(jù)的平均值;4)小波系數(shù)的篩選運(yùn)用誤差平方和觀(A")= - A if來進(jìn)行小波系數(shù)的
i=\
篩選,其中D表示壓縮之前的數(shù)據(jù)序列,D'表示壓縮之后的數(shù)據(jù)序列,Xi是數(shù)據(jù)序列D的第i個(gè)數(shù)據(jù),X' i是數(shù)據(jù)序列D'的第i個(gè)數(shù);
設(shè)對子序列Xi = {xn, xi2, A,xiq},提取得到的數(shù)據(jù)節(jié)點(diǎn)Pi概要信息表示成四元
組
權(quán)利要求
1.一種融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法,其特征在于所述壓縮方法包括以下步驟 1)數(shù)據(jù)節(jié)點(diǎn)閾值過濾先將農(nóng)業(yè)無線傳感數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第I層,即在相同的時(shí)間內(nèi)到來的數(shù)據(jù)序列表示為X = {χ1; X2,. · ·,X1J,該序列由η個(gè)數(shù)據(jù)組成,假設(shè)序列中平均數(shù)據(jù)個(gè)數(shù)為n',將這n'個(gè)數(shù)據(jù)組成為一個(gè)數(shù)據(jù)節(jié)點(diǎn),則第I層的數(shù)據(jù)節(jié)點(diǎn)數(shù)有 ,其中M為數(shù)據(jù)流的總數(shù)據(jù)個(gè)數(shù);η 2)數(shù)據(jù)預(yù)處理假設(shè)數(shù)據(jù)序列X中數(shù)據(jù)Xi的屬性個(gè)數(shù)為m,如果空缺屬性個(gè)數(shù)m2 ^·,則認(rèn)為該條數(shù)據(jù)流是噪聲,直接過濾;反之,將空缺屬性補(bǔ)充為所有該屬性的加權(quán)平均; 3)壓縮處理將第I層每n'個(gè)數(shù)據(jù)組成的子序列進(jìn)行壓縮,構(gòu)成第2層的一個(gè)數(shù)據(jù)節(jié)點(diǎn),記該子序列為屯,該數(shù)據(jù)節(jié)點(diǎn)為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)的不斷到來,第2層上的數(shù)據(jù)節(jié)點(diǎn)不斷增加,當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點(diǎn)個(gè)數(shù)2 $時(shí),將最老的Pi個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行歸并,合并成第3層上的I個(gè)數(shù)據(jù)節(jié)點(diǎn),并計(jì)算數(shù)據(jù)節(jié)點(diǎn)的概要信息,以此逐層向上,從而使得該農(nóng)業(yè)無線傳感數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點(diǎn),最后構(gòu)造一棵能夠存儲(chǔ)小波系數(shù)的誤差樹; 誤差樹中,節(jié)點(diǎn)Ci對應(yīng)小波系數(shù),葉節(jié)點(diǎn)對應(yīng)原始數(shù)據(jù),對一給定的誤差樹T和T中的內(nèi)節(jié)點(diǎn)ck,令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點(diǎn)集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點(diǎn)集合,rightleavesk表示Ck的右子樹的葉節(jié)點(diǎn)集合,pathk為T中從Ck或Xij到根的路徑上全體非零系數(shù)的集合,設(shè)ak是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleavesk中數(shù)據(jù)的均值,則Ck = (4-\)/2,而C1是全部數(shù)據(jù)的均值; 首先數(shù)據(jù)流Xi = {xn,χ 2 Λ,xiq},將Xi = {xn, xi2, A , XiqI中的數(shù)據(jù)兩兩分對求其均值和均值與第二個(gè)數(shù)據(jù)的差值,則差值就是第2層的數(shù)據(jù)節(jié)點(diǎn),也是相應(yīng)的小波系數(shù)C2k ;其次計(jì)算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點(diǎn)集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點(diǎn)集合,rightleavesk表示Ck的右子樹的葉節(jié)點(diǎn)集合,設(shè)ak是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleavesk中數(shù)據(jù)的均值,則C3k =(ak-bk) /2 ; 最后依次繼續(xù)計(jì)算,直至誤差樹的最高層的小波系數(shù),它也等于全部數(shù)據(jù)的平均值; 4)小波系數(shù)的篩選運(yùn)用誤差平方和觀-χ/)2來進(jìn)行小波系數(shù)的篩選,i=\其中D表示壓縮之前的數(shù)據(jù)序列,D'表示壓縮之后的數(shù)據(jù)序列,Xi是數(shù)據(jù)序列D的第i個(gè)數(shù)據(jù),V i是數(shù)據(jù)序列D'的第i個(gè)數(shù); 設(shè)對子序列 ,提取得到的數(shù)據(jù)節(jié)點(diǎn)Pi概要信息表示成四元組
全文摘要
一種融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法。首先對從無線傳感器提取的實(shí)時(shí)數(shù)據(jù)進(jìn)行預(yù)處理,然后對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行基于小波變換的數(shù)據(jù)壓縮,得到能夠反應(yīng)數(shù)據(jù)重要特征的小波概要,然后再應(yīng)用主成分分析,進(jìn)行二次壓縮,最后得到壓縮率很高又保留了重要數(shù)據(jù)特征的壓縮數(shù)據(jù)。本發(fā)明提供一種壓縮比較高、數(shù)據(jù)失真少、有效減少數(shù)據(jù)存儲(chǔ)空間的融入小波變換和主成分的農(nóng)業(yè)無線傳感數(shù)據(jù)流壓縮方法。
文檔編號(hào)H04L1/00GK102630092SQ20121005175
公開日2012年8月8日 申請日期2012年3月1日 優(yōu)先權(quán)日2012年3月1日
發(fā)明者劉東升, 周怡, 王冰, 王蓓, 琚春華, 許翀寰, 陳庭貴 申請人:浙江工商大學(xué)