本發(fā)明涉及成礦預(yù)測,尤其是涉及一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法。
背景技術(shù):
1、成礦預(yù)測是地質(zhì)勘探領(lǐng)域中的重要組成部分。傳統(tǒng)的勘探方法依賴于大量的實地作業(yè),往往耗時費(fèi)力且成本高昂。獲取大量高質(zhì)量的礦樣本數(shù)據(jù)常受到地理位置、經(jīng)濟(jì)條件以及時間等因素的限制,因此礦產(chǎn)資源勘探數(shù)據(jù)往往存在數(shù)據(jù)集不平衡問題。具體而言,成礦樣本數(shù)量遠(yuǎn)遠(yuǎn)少于未成礦樣本,這種不平衡性對機(jī)器學(xué)習(xí)模型的訓(xùn)練和預(yù)測精度產(chǎn)生了顯著的負(fù)面影響。
2、為了應(yīng)對數(shù)據(jù)不平衡問題,尤其是對于成礦數(shù)據(jù)的擴(kuò)充問題。許多研究者提出了一系列方法。比如欠采樣法、過采樣法、合成少數(shù)類過采樣技術(shù)smote以及自適應(yīng)合成抽樣adasyn等集成學(xué)習(xí)方法。盡管前人提出的多種方法取得了一定進(jìn)展,但在礦產(chǎn)勘探中特有的高復(fù)雜性和成礦數(shù)據(jù)稀少的情況下,仍存在一定挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,能夠生成高質(zhì)量、多樣化的成礦樣本,顯著提升礦產(chǎn)資源預(yù)測模型的性能,在成礦預(yù)測領(lǐng)域具有重大意義,具有廣泛的應(yīng)用前景。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,包括以下步驟:
3、s1、采集已知礦點和非礦點的地物化遙數(shù)據(jù),對采集的地物化遙數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建成礦預(yù)測數(shù)據(jù)集;
4、s2、采用層次聚類算法對成礦預(yù)測數(shù)據(jù)集中的樣本進(jìn)行分類,并對樣本進(jìn)行類別劃分;
5、s3、通過計算每個類別的頻率分布,確定相應(yīng)的類別權(quán)重,并對類別權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化的權(quán)重;
6、s4、在生成對抗網(wǎng)絡(luò)模型中構(gòu)造一個包含標(biāo)準(zhǔn)化的權(quán)重的可選參數(shù),用于傳遞每個類別的權(quán)重信息;
7、s5、根據(jù)標(biāo)準(zhǔn)化的權(quán)重的可選參數(shù),采用加權(quán)采樣策略,結(jié)合預(yù)設(shè)的指定條件,如生成數(shù)據(jù)數(shù)量、特定類別數(shù)值等,生成合成數(shù)據(jù);
8、s6、對合成數(shù)據(jù)進(jìn)行質(zhì)量評估。
9、優(yōu)選的,步驟s1中,地物化遙數(shù)據(jù)包括區(qū)域地質(zhì)數(shù)據(jù)、遙感數(shù)據(jù)、土壤地球化學(xué)數(shù)據(jù)和地球物理數(shù)據(jù)。
10、優(yōu)選的,步驟s1中,預(yù)處理包括缺失值處理和重分類。
11、優(yōu)選的,步驟s3中,每個類別的頻率分布如下:
12、
13、其中,fi是類別i的頻率分布;ni為每個類別i的樣本數(shù)量;ntotal為總樣本數(shù)量;
14、類別權(quán)重設(shè)置為每個類別的頻率分布:
15、wi=fi??(2)
16、其中,wi為類別權(quán)重;
17、對類別權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理的公式為:
18、
19、其中,w'i是標(biāo)準(zhǔn)化的類別權(quán)重;是所有類別權(quán)重的總和;k是類別總數(shù)。
20、優(yōu)選的,步驟s4中,在生成對抗網(wǎng)絡(luò)模型中構(gòu)造一個包含標(biāo)準(zhǔn)化的權(quán)重的可選參數(shù),用于傳遞每個類別的權(quán)重信息,具體操作為:
21、首先,在生成對抗網(wǎng)絡(luò)模型的構(gòu)造函數(shù)中添加一個可選參數(shù)weights,可選參數(shù)weights在訓(xùn)練過程中根據(jù)每個類別的標(biāo)準(zhǔn)化的權(quán)重調(diào)整生成器的生成策略和判別器的判別策略;
22、然后,調(diào)整生成器和判別器;
23、生成器根據(jù)輸入的隨機(jī)噪聲和條件信息生成樣本,在訓(xùn)練過程中,生成器使用可選參數(shù)weights來進(jìn)行加權(quán)采樣,生成符合權(quán)重要求的樣本;
24、生成器的損失函數(shù)如下:
25、
26、其中,g(z,ci)是生成器生成的樣本,d是判別器的輸出,ci是類別條件;lg為生成器的損失函數(shù);為期望值操作符,表示對隨機(jī)噪聲向量z的所有可能值的平均;z為隨機(jī)噪聲向量;pz(z)為隨機(jī)噪聲向量z的概率分布;
27、判別器區(qū)分真實樣本和生成樣本;
28、判別器的損失函數(shù)如下:
29、
30、其中,pdata(x)是真實樣本分布;d(x,ci)是判別器對真實樣本x的預(yù)測概率;g(z,ci)是生成器生成的樣本;ld為判別器的損失函數(shù);為對真實樣本x的期望值操作符,表示真實樣本的所有可能值的平均;x為真實樣本;pdata(x)為真實數(shù)據(jù)的概率分布。
31、優(yōu)選的,步驟s6中,對合成數(shù)據(jù)進(jìn)行質(zhì)量評估,采用的評估指標(biāo)包括均方誤差、auc和f1分?jǐn)?shù)。
32、因此,本發(fā)明采用上述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,能夠生成高質(zhì)量、多樣化的成礦樣本,顯著提升礦產(chǎn)資源預(yù)測模型的性能。本發(fā)明為解決礦產(chǎn)資源勘探中的數(shù)據(jù)不平衡問題提供了一種有效的新方法,在成礦預(yù)測領(lǐng)域具有重大意義,具有廣泛的應(yīng)用前景。
1.一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,步驟s1中,地物化遙數(shù)據(jù)包括區(qū)域地質(zhì)數(shù)據(jù)、遙感數(shù)據(jù)、土壤地球化學(xué)數(shù)據(jù)和地球物理數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,步驟s1中,預(yù)處理包括缺失值處理和重分類。
4.根據(jù)權(quán)利要求3所述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,步驟s3中,每個類別的頻率分布如下:
5.根據(jù)權(quán)利要求4所述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,步驟s4中,在生成對抗網(wǎng)絡(luò)模型中構(gòu)造一個包含標(biāo)準(zhǔn)化的權(quán)重的可選參數(shù),用于傳遞每個類別的權(quán)重信息,具體操作為:
6.根據(jù)權(quán)利要求5所述的一種基于生成對抗網(wǎng)絡(luò)的成礦數(shù)據(jù)擴(kuò)充方法,其特征在于,步驟s6中,對合成數(shù)據(jù)進(jìn)行質(zhì)量評估,采用的評估指標(biāo)包括均方誤差、auc和f1分?jǐn)?shù)。