本發(fā)明涉及一種天然氣勘探工作量分類方法,具體涉及一種研究天然氣勘探工作量自動(dòng)分類預(yù)測(cè)的方法。
背景技術(shù):
1、天然氣勘探是能源開發(fā)的重要環(huán)節(jié),其工作量預(yù)測(cè)的準(zhǔn)確性直接影響到勘探?jīng)Q策和投資效益。傳統(tǒng)的預(yù)測(cè)方法往往基于經(jīng)驗(yàn)或簡(jiǎn)單的統(tǒng)計(jì)分析,缺乏系統(tǒng)性和準(zhǔn)確性。因此,開發(fā)一種能夠自動(dòng)分類并預(yù)測(cè)天然氣勘探工作量的方法,對(duì)于提高勘探效率和降低成本具有重要意義。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種研究天然氣勘探工作量自動(dòng)分類預(yù)測(cè)的方法,解決了現(xiàn)有預(yù)測(cè)方法是基于經(jīng)驗(yàn)或簡(jiǎn)單的統(tǒng)計(jì)分析,缺乏系統(tǒng)性和準(zhǔn)確性的問題,采用自動(dòng)分類、自動(dòng)尋優(yōu)和自動(dòng)預(yù)測(cè),具有非常廣泛的應(yīng)用前景。
2、為了達(dá)到上述目的,本發(fā)明提供了一種研究天然氣勘探工作量自動(dòng)分類預(yù)測(cè)的方法,該方法包含:
3、步驟一、基于多元回歸,建立自動(dòng)分類模型
4、假設(shè)所有樣本數(shù)據(jù)分別為x1n,x2n……xpn,影響指標(biāo)為p個(gè),所有樣本數(shù)據(jù)的個(gè)數(shù)為n個(gè),勘探工作量為y,若所有勘探工作量與所有樣本數(shù)據(jù)之間滿足一種線性關(guān)系,將所有樣本數(shù)據(jù)分為一類,如下公式:
5、yj=a0+α1x1j+a2x2j+a3x3j+…+apxpj?(1)
6、在公式(1)中:j代表從n個(gè)樣本中隨機(jī)選的第j個(gè)樣本數(shù)據(jù)的編號(hào),j=0,1……n;n代表所有樣本數(shù)據(jù)的總個(gè)數(shù);p代表影響指標(biāo)的個(gè)數(shù);ap代表第p個(gè)影響指標(biāo)的系數(shù);xpj代表第p個(gè)影響指標(biāo)中第j個(gè)樣本數(shù)據(jù);yj代表第j個(gè)勘探工作量。
7、若所有勘探工作量與所有樣本數(shù)據(jù)之間滿足不同的線性關(guān)系,將滿足同一線性關(guān)系的數(shù)據(jù)點(diǎn)分為一類,假設(shè)所有樣本數(shù)據(jù)可分為k類,每一類中樣本個(gè)數(shù)為nk,nk≥p+1,則每一類滿足以下公式:
8、yj,k=a0,k+a1,kx1j,k+a2j,kx2j,k+..+apj,kxpj,k?(2)
9、在公式(2)中:k代表總的分類數(shù),k∈[1,n);j代表第k分類中的第j個(gè)樣本數(shù)據(jù)的編號(hào),j=0,1……nk;nk代表第k分類的樣本數(shù)據(jù)個(gè)數(shù);p代表影響指標(biāo)的個(gè)數(shù),yj,k代表第k類第j個(gè)勘探工作量的擬合值;xpj,k代表第p個(gè)影響指標(biāo)在第k類中第j個(gè)樣本數(shù)據(jù);ap,k代表第p個(gè)影響指標(biāo)在第k類中的回歸參數(shù);
10、根據(jù)最小二乘法原理得到公式(2)中所述回歸參數(shù)a的最優(yōu)解為:
11、
12、在公式(3)中:
13、
14、識(shí)別所有樣本數(shù)據(jù)中哪些樣本數(shù)據(jù)可分為一類的步驟如下:
15、(1)設(shè)定每一類的樣本數(shù)據(jù)個(gè)數(shù)nk≥p+1;
16、(2)通過循環(huán)次,樣本數(shù)n越多,循環(huán)次數(shù)越大,因此隨機(jī)選取樣本循環(huán)次數(shù)設(shè)為1000次,在所有樣本數(shù)據(jù)中隨機(jī)選取不重復(fù)的nk個(gè)樣本數(shù)據(jù)進(jìn)行多元回歸分析,得到回歸參數(shù)使得樣本數(shù)據(jù)的勘探工作量的擬合值與實(shí)際值擬合誤差平方和值最小計(jì)算第k分類中樣本數(shù)據(jù)的勘探工作量的擬合值與實(shí)際值的相對(duì)誤差絕對(duì)值中的最大值rmax=max{|r1,k|,|r2,k|,…|rj,k|};其中計(jì)算k分類樣本數(shù)據(jù)的勘探工作量的相對(duì)誤差為:其中所述yjk均代表第k分類由所述公式(2)計(jì)算得到的勘探工作量的擬合值;所述均代表第k分類的第j個(gè)勘探工作量的實(shí)際值
17、(3)利用步驟(2)中的回歸參數(shù)再計(jì)算剩余樣本數(shù)據(jù)的勘探工作量的擬合值與實(shí)際值的相對(duì)誤差絕對(duì)值|ro|,其中所述|ro|中的o為剩余樣本的個(gè)數(shù),o=1,2,…,nk.
18、若|ro|<rmax,將該樣本數(shù)據(jù)歸到該類,此時(shí)nk=nk+1;當(dāng)所有剩余樣本數(shù)據(jù)分類完后,不能分類的樣本數(shù)據(jù)個(gè)數(shù)為n-nk,若n-nk≥p重復(fù)步驟(1)~(3),直到n-nk<p分類完成,則滿足n-nk<p的每個(gè)樣本數(shù)據(jù)為單獨(dú)一大類;
19、步驟二、構(gòu)建預(yù)測(cè)樣本數(shù)據(jù),由自動(dòng)分類模型計(jì)算預(yù)測(cè)樣本數(shù)據(jù)的勘探工作量
20、構(gòu)建預(yù)測(cè)樣本數(shù)據(jù),計(jì)算樣本數(shù)據(jù)與預(yù)測(cè)樣本數(shù)據(jù)的分類距離,得到分類距離的最小值;根據(jù)分類距離的最小值,得到樣本數(shù)據(jù)的編號(hào),由樣本數(shù)據(jù)的編號(hào)查詢出所述自動(dòng)分類模型中所有分類中的回歸參數(shù),由回歸參數(shù)計(jì)算得到預(yù)測(cè)樣本數(shù)據(jù)的預(yù)測(cè)值和預(yù)測(cè)樣本數(shù)據(jù)的擬合誤差平方和。
21、優(yōu)選地,設(shè)所有樣本數(shù)據(jù)的個(gè)數(shù)n=20,影響指標(biāo)p=7,在步驟一中,假設(shè)nk=p+2=9時(shí),樣本數(shù)據(jù)分類為四大類,其中滿足多元回歸的有兩大類,記為第一大類和第二大類。
22、更優(yōu)選地,所述第一大類的回歸參數(shù)為得到所述第一大類的樣本數(shù)據(jù)n1=9,相對(duì)誤差絕對(duì)值的最大值為0.017328571%。
23、更優(yōu)選地,在剩余的20-9=11個(gè)樣本數(shù)據(jù)中,重復(fù)步驟(1)至步驟(3),得到所述第二大類的樣本數(shù)據(jù)n2=9;所述第二大類的回歸參數(shù)為相對(duì)誤差絕對(duì)值的最大值為0.107075%。
24、更優(yōu)選地,剩余樣本個(gè)數(shù)為20-18=2個(gè),滿足nk<p+1,因此剩余數(shù)據(jù)各分為一大類。一共分為四大類。
25、優(yōu)選地,設(shè)所有樣本數(shù)據(jù)的個(gè)數(shù)n=20,影響指標(biāo)p=7,在步驟一中,假設(shè)nk=p+3=10,樣本數(shù)據(jù)分類為2類,記為第一大類和第二大類。
26、更優(yōu)選地,所述第一大類的回歸參數(shù)為得到所述第一大類的樣本數(shù)據(jù)n1=10,相對(duì)誤差絕對(duì)值的最大值為0.93307%。
27、更優(yōu)選地,所述第二大類的回歸參數(shù)為得到所述第二大類的樣本數(shù)據(jù)n2=10,相對(duì)誤差絕對(duì)值的最大值為32.67453333%。
28、更優(yōu)選地,剩余樣本個(gè)數(shù)為20-20=0個(gè),因此樣本數(shù)據(jù)剛好分為二大類。
29、優(yōu)選地,在步驟二中,在步驟二中,所述分類距離的計(jì)算公式如下:
30、
31、在公式(4)中:
32、
33、在公式(4)中,xi,n為預(yù)測(cè)樣本數(shù)據(jù)中第i個(gè)影響指標(biāo)的第n項(xiàng)數(shù)據(jù),i=1,2,...p;xi,j,k為樣本數(shù)據(jù)的第k類中第i個(gè)影響指標(biāo)的第j項(xiàng)數(shù)據(jù),j=1,2,...,nk;dj,k代表預(yù)測(cè)樣本數(shù)據(jù)中第n項(xiàng)數(shù)據(jù)到樣本數(shù)據(jù)第k類中第j項(xiàng)數(shù)據(jù)的分類距離。
34、所述分類距離的最小值的計(jì)算如下:
35、djmin=min{dj,1,dj,2,…,dj,k}?(5)
36、在公式(5)中,dj,1代表預(yù)測(cè)樣本數(shù)據(jù)中第n項(xiàng)數(shù)據(jù)到樣本數(shù)據(jù)第1類中第j項(xiàng)數(shù)據(jù)的分類距離,dj,k代表預(yù)測(cè)樣本數(shù)據(jù)中第n項(xiàng)數(shù)據(jù)到樣本數(shù)據(jù)第k類中第j項(xiàng)數(shù)據(jù)的分類距離;
37、所述預(yù)測(cè)樣本數(shù)據(jù)的預(yù)測(cè)值的計(jì)算如下:
38、yj,m=a0,m+a1,mx1j+a2,mx2j+a3,mx3j+…+ap,mxpj?(6)
39、在公式(6)中,m代表樣本數(shù)據(jù)中第m類,m=1,2,...,k;j代表預(yù)測(cè)樣本數(shù)據(jù)中的第j個(gè)樣本數(shù)據(jù),j=1,2……nk;nk代表預(yù)測(cè)樣本數(shù)據(jù)個(gè)數(shù);p代表影響指標(biāo)的個(gè)數(shù);yj,m代表第m類中預(yù)測(cè)樣本數(shù)據(jù)的預(yù)測(cè)值;qp,m代表第p個(gè)影響指標(biāo)在第m類中的系數(shù);xpj代表第p個(gè)影響指標(biāo)的第j個(gè)預(yù)測(cè)樣本數(shù)據(jù)
40、優(yōu)選地,若所述預(yù)測(cè)樣本數(shù)據(jù)的擬合誤差平方和最小時(shí),則預(yù)測(cè)樣本數(shù)據(jù)的預(yù)測(cè)值為預(yù)測(cè)樣本數(shù)據(jù)的勘探工作量。
41、優(yōu)選地,若所述自動(dòng)分類模型中分類的樣本個(gè)數(shù)nk<p+1時(shí),無法得到回歸參數(shù),采用就近原則,預(yù)測(cè)樣本數(shù)據(jù)的勘探工作量就取第j個(gè)樣本數(shù)據(jù)的勘探工作量的實(shí)際值。
42、本發(fā)明的一種研究天然氣勘探工作量自動(dòng)分類預(yù)測(cè)的方法,解決了現(xiàn)有預(yù)測(cè)方法是基于經(jīng)驗(yàn)或簡(jiǎn)單的統(tǒng)計(jì)分析,缺乏系統(tǒng)性和準(zhǔn)確性的問題,具有以下優(yōu)點(diǎn):
43、1、本發(fā)明的方法原理簡(jiǎn)單,容易實(shí)現(xiàn),計(jì)算耗時(shí)短,采用自動(dòng)分類、自動(dòng)尋優(yōu)和自動(dòng)預(yù)測(cè),具有非常廣泛的應(yīng)用前景。
44、2、該方法可以擴(kuò)展到非線性的分類預(yù)測(cè),它可以為勘探?jīng)Q策提供科學(xué)依據(jù),幫助決策者更好地了解勘探工作量的分布和變化趨勢(shì),從而制定更加合理的勘探計(jì)劃和投資策略。同時(shí),該方法還可以應(yīng)用于其他類似領(lǐng)域,如石油勘探和礦產(chǎn)資源開發(fā)。