本發(fā)明涉及葉綠素a濃度預測領域,特別涉及一種基于1d-dscam的次表層葉綠素a濃度的反演方法。
背景技術:
1、目前對次表層葉綠素a濃度的反演研究主要依賴于遙感數(shù)據(jù)和原位數(shù)據(jù)兩種數(shù)據(jù)源。遙感數(shù)據(jù)能夠提供大范圍覆蓋的海表面環(huán)境要素信息,例如海表溫度(sst)和海表葉綠素a濃度,但其局限在于無法直接提供表層以下信息;原位數(shù)據(jù)通過沿海監(jiān)測項目、有限期的海洋考察以及諸如生物地球化學浮標(biogeochemical?argo,bgc-argo)等平臺獲得,這些數(shù)據(jù)雖然提供了水柱各層的精細局部描述,但在時間和空間尺度上的廣泛覆蓋能力較為有限。
2、為了解決這一問題,研究者們結合使用這兩類數(shù)據(jù),采用機器學習方法,特別是人工神經網絡,來進行次表層葉綠素a濃度的反演。該方法使用衛(wèi)星觀測的表面變量作為輸入,與原位測量的次表層葉綠素a濃度剖面相匹配,通過訓練神經網絡模型,使模型學習從表面觀測推測次表層特征的映射關系。這樣不僅充分發(fā)揮了遙感數(shù)據(jù)廣泛覆蓋的優(yōu)勢,還結合了原位數(shù)據(jù)的高精度特點,有效提升了預測的準確性。
3、目前,利用衛(wèi)星數(shù)據(jù)反演葉綠素a垂直剖面的技術已得到廣泛的應用,然而,基于bgc-argo浮標所獲取的溫度和鹽度剖面數(shù)據(jù)來反演葉綠素a垂直剖面的研究則較為有限。即便在已有應用中,也鮮少見到對溫度和鹽度剖面數(shù)據(jù)進行深入的特征提取與分析。此外,現(xiàn)有反演葉綠素a垂直剖面的方法中,普遍存在對小尺度現(xiàn)象訓練不足的問題,即大多數(shù)數(shù)據(jù)集中于0-0.5?區(qū)間內,而對于高于0.5?的高濃度情況,則難以獲得充分的訓練效果。
技術實現(xiàn)思路
1、為解決上述技術問題,本發(fā)明提供了一種基于1d-dscam的次表層葉綠素a濃度的反演方法,以達到提高預測精度的目的。
2、為達到上述目的,本發(fā)明的技術方案如下:
3、一種基于1d-dscam的次表層葉綠素a濃度的反演方法,包括如下步驟:
4、步驟1,獲取衛(wèi)星遙感的海表溫度和海表葉綠素a濃度數(shù)據(jù)以及生物地球化學浮標的次表層葉綠素a濃度、次表層溫度和鹽度剖面數(shù)據(jù),并進行預處理,將預處理后的經度、緯度、年份、采樣日期、海表溫度、海表葉綠素a濃度、次表層溫度和鹽度剖面數(shù)據(jù)整合為模型的輸入特征矩陣,次表層葉綠素a濃度剖面數(shù)據(jù)作為模型的目標輸出,構建數(shù)據(jù)集,并劃分為訓練集和測試集;
5、步驟2,將訓練集輸入1d-dscam-gru深度學習模型中進行模型訓練,并用測試集的數(shù)據(jù)對模型精度進行評估;
6、所述1d-dscam-gru深度學習模型包括embedding模塊、1d-dscam模塊和多層gru模塊;
7、構建的輸入特征矩陣中經度、緯度、年份、采樣日期輸入到embedding模塊進行升維;溫度與鹽度的剖面數(shù)據(jù)沿通道維度堆疊,形成初始的雙通道輸入,輸入到1d-dscam模塊進行處理,將1d-dscam模塊輸出后的數(shù)據(jù)和海表溫度、海表葉綠素a濃度以及經過embedding模塊處理后的數(shù)據(jù)沿著特征維度連接在一起,輸入到多層gru模塊進行預測;
8、所述1d-dscam模塊包括通道注意力模塊和空間注意力模塊,輸入數(shù)據(jù)首先通過通道注意力模塊,分別經過平均池化層和最大池化層后,分別進入多層感知器一和多層感知器二,隨后兩個多層感知器的輸出進行相加后經過sigmoid函數(shù),生成0到1之間的通道注意力權重;加權后的信號再通過空間注意力模塊中,分別計算經過通道注意力模塊后的通道的平均值和最大值,將平均值和最大值特征拼接后,通過一個一維卷積層,輸出再通過sigmoid函數(shù),生成空間注意力權重;最終輸出是輸入特征乘以通道注意力權重和空間注意力權重的結果;
9、步驟3,將待預測海域的衛(wèi)星遙感獲得的海表溫度和海表葉綠素a濃度數(shù)據(jù)以及由生物地球化學浮標獲得的次表層溫度和鹽度剖面數(shù)據(jù)進行預處理后,輸入到評估合格的模型中進行次表層葉綠素a濃度預測。
10、上述方案中,模型訓練中采用混合損失函數(shù)如下:
11、;
12、其中,??=?0.5,用于平衡兩種損失函數(shù)的貢獻,n是所有樣本的總數(shù),是smooth?l1損失,定義為:
13、;
14、其中,?=?0.5,為預測值,為真實值;是各個樣本所占權重歸一化后的結果,根據(jù)樣本在不同區(qū)間中的分布動態(tài)計算。
15、上述方案中,計算如下:
16、(1)定義真實值的區(qū)間:將次表層葉綠素a濃度的真實值劃分為0-0.5?、0.5-1.0?、1-1.5?三個區(qū)間,并將大于1.5?的濃度值統(tǒng)一歸入1-1.5的類別中;
17、(2)計算每個區(qū)間的樣本數(shù);
18、(3)更新累計和,采用動量平滑機制來更新每個區(qū)間的累計計數(shù):
19、;
20、其中,的作用是幫助動態(tài)調整每個區(qū)間內樣本的權重,動量參數(shù)momentum=0.2;
21、(4)計算每個區(qū)間內的樣本權重,并進行歸一化處理:
22、;
23、;
24、其中,是所有樣本的總數(shù),是所有區(qū)間內樣本數(shù)量的總和。
25、上述方案中,步驟1中預處理包括插值處理、整合匹配、日期轉換和歸一化處理。
26、進一步的技術方案中,所述插值處理為:對次表層葉綠素a濃度、次表層溫度和鹽度剖面數(shù)據(jù)采用一維線性插值方法進行處理,以次表層葉綠素a濃度的線性插值為例,具體方法如下:
27、;
28、其中,,和,?分別是兩個已知數(shù)據(jù)點的深度和次表層葉綠素a濃度,是需要插值的深度點,是插值得到的次表層葉綠素a濃度值。
29、進一步的技術方案中,所述整合匹配如下:采用近鄰匹配法將海表溫度數(shù)據(jù)與海表葉綠素a濃度數(shù)據(jù)同次表層葉綠素a濃度、次表層溫度和鹽度剖面數(shù)據(jù)進行整合,具體如下:將從次表層葉綠素a濃度剖面數(shù)據(jù)中提取的經度與緯度坐標視作匹配中心點,從衛(wèi)星遙感獲取的海表溫度和海表葉綠素a濃度數(shù)據(jù)中篩選出距離該中心點最近的觀測點的數(shù)據(jù),作為后續(xù)輸入模型的數(shù)據(jù)。
30、進一步的技術方案中,所述日期轉換如下:將從次表層葉綠素a濃度剖面數(shù)據(jù)中提取的采樣日期轉換為年份和以弧度表示的一年中對應日期的位置:
31、;
32、其中,指的是一年中的第幾天,取值范圍是1-365,如果是閏年則是366。
33、進一步的技術方案中,所述歸一化處理如下:將插值后的次表層葉綠素a濃度剖面數(shù)據(jù)進行歸一化,歸一化公式為:
34、;
35、其中,z表示歸一化后的次表層葉綠素a濃度值;是插值處理后次表層葉綠素a濃度的實際觀測值;和分別代表觀測值的均值和標準差。
36、上述方案中,所述多層感知器一和多層感知器二都是由兩個串聯(lián)的一維卷積層以及relu激活函數(shù)組成,多層感知器一經過了8倍放縮,多層感知器二經過了16倍放縮,放縮是通過兩個1×1的一維卷積層實現(xiàn)的,即多層感知器一的第一個一維卷積層在通道維度上將輸入的128個通道減少到16個,第二個卷積層恢復128個通道,而多層感知器二的第一個卷積層在通道維度上將輸入的128個通道減少到8個,第二個卷積層恢復128個通道。
37、上述方案中,所述多層gru模塊具有四層結構,在每個時間步,模型會接收輸入向量,并通過四層gru網絡進行處理,每層網絡都包含300個隱藏狀態(tài)單元,從而實現(xiàn)對序列數(shù)據(jù)的有效學習和處理;
38、gru網絡有兩個門控機制:更新門和重置門;
39、更新門決定了前一時刻的隱藏狀態(tài)有多少信息需要保留到當前時刻,更新門的計算公式如下:
40、;
41、其中,是更新門的輸出;是sigmoid激活函數(shù),輸出值在0到1之間,是更新門的權重矩陣;是隱藏狀態(tài)到更新門的權重矩陣;是更新門的偏置項;是前一時刻的隱藏狀態(tài);是當前時刻的輸入;
42、重置門決定了前一時刻的隱藏狀態(tài)有多少信息需要被遺忘,重置門的計算公式如下:
43、;
44、其中,是重置門的輸出;是重置門的權重矩陣;是隱藏狀態(tài)到重置門的權重矩陣;是重置門的偏置項;
45、候選隱藏狀態(tài)是根據(jù)當前輸入和前一時刻的隱藏狀態(tài)計算得出的,其計算公式如下:
46、;
47、其中,是雙曲正切激活函數(shù),輸出值在-1到1之間;是候選隱藏狀態(tài)的權重矩陣;?是隱藏狀態(tài)到候選隱藏狀態(tài)的權重矩陣;是候選隱藏狀態(tài)的偏置項;
48、當前時刻的隱藏狀態(tài)是前一時刻的隱藏狀態(tài)和候選隱藏狀態(tài)的加權組合,權重由更新門控制,計算公式如下:
49、。
50、通過上述技術方案,本發(fā)明提供的基于1d-dscam的次表層葉綠素a濃度的反演方法具有如下有益效果:
51、本發(fā)明使用衛(wèi)星遙感數(shù)據(jù)和從bgc-argo中獲得的溫度和鹽度垂直剖面數(shù)據(jù)來預測次表層葉綠素a濃度。首先,對溫度和鹽度剖面進行了深入的特征提取?,F(xiàn)有特征提取方法有cnn、transformer等,本發(fā)明創(chuàng)新性地采用了一維雙尺度通道注意力模塊?(1d?dual-scale?channel?attention?module,?1d-dscam)作為特征提取手段。1d-dscam是cbam(convolutional?block?attention?module)的一種變體,針對溫度和鹽度垂直剖面的特征提取進行了優(yōu)化,可以提升特征提取的準確度和效果。此外,在模型訓練階段引入了新設計的損失函數(shù)-?mixedtdwsmoothl1loss,該損失函數(shù)結合了tdwloss(target?distributedweighted?loss)和smooth?l1?loss,該損失函數(shù)能夠提升小尺度現(xiàn)象在訓練時的重要性,減少對常見目標值的過擬合,使模型學習更加均衡,且能夠適應數(shù)據(jù)分布的變化,穩(wěn)定訓練過程,提高模型的泛化能力和魯棒性。