本發(fā)明涉及數(shù)據(jù)比對領(lǐng)域,尤其涉及一種基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對方法及系統(tǒng)。
背景技術(shù):
1、區(qū)域標(biāo)準(zhǔn)化是指處于同一地區(qū)的城市或國家開展的標(biāo)準(zhǔn)化活動,是為了促進(jìn)本地區(qū)或毗鄰地區(qū)之間貿(mào)易便利化、技術(shù)互通與經(jīng)濟(jì)發(fā)展的重要手段。量化模型主要基于歷史數(shù)據(jù)通過數(shù)學(xué)和統(tǒng)計方法來分析和預(yù)測數(shù)據(jù)的行為。
2、區(qū)域標(biāo)準(zhǔn)化在全球一體化的進(jìn)程中扮演重要作用,不同區(qū)域的標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)具有多樣性、復(fù)雜性和異構(gòu)性等特點(diǎn),直接比較和分析這些數(shù)據(jù)較為困難。目前的區(qū)域的標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)的比對技術(shù)存在數(shù)據(jù)預(yù)處理能力不足、模型構(gòu)建單一、比對效率低下和結(jié)果解釋性差等問題。結(jié)合量化模型能夠協(xié)助決策者及標(biāo)準(zhǔn)化工作者在復(fù)雜多變的區(qū)域環(huán)境中精準(zhǔn)匹配關(guān)鍵指標(biāo)進(jìn)行數(shù)據(jù)比對、量化評估標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù),進(jìn)而實現(xiàn)區(qū)域標(biāo)準(zhǔn)的優(yōu)化制定與有效實施。因此,設(shè)計一種基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對方法來克服現(xiàn)有比對方法的不足,為區(qū)域標(biāo)準(zhǔn)化工作的深入推進(jìn)有重要意義。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是要提供一種基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對方法及系統(tǒng)。
2、為達(dá)到上述目的,本發(fā)明是按照以下技術(shù)方案實施的:
3、本發(fā)明包括以下步驟:
4、獲取區(qū)域標(biāo)準(zhǔn)化的發(fā)展數(shù)據(jù),對所述發(fā)展數(shù)據(jù)進(jìn)行預(yù)處理;所述發(fā)展數(shù)據(jù)包括歷史指標(biāo)和待比對指標(biāo);
5、提取所述歷史指標(biāo)和所述待比對指標(biāo)的特征獲得歷史特征因子和比對特征因子,對所述歷史特征因子進(jìn)行特征篩選獲得特征子集,處理所述特征子集獲得指標(biāo)特征庫;所述特征篩選包括第一特征篩選和第二特征篩選;所述特征子集包括第一特征子集和第二特征子集;
6、根據(jù)關(guān)聯(lián)度選擇待比對指標(biāo)獲得重點(diǎn)指標(biāo),將所述重點(diǎn)指標(biāo)與所述指標(biāo)特征庫的標(biāo)準(zhǔn)指標(biāo)匹配獲取待比對指標(biāo)組;
7、根據(jù)所述指標(biāo)特征庫構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型,將所述待比對指標(biāo)組輸入所述區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型輸出所述待比對指標(biāo)與所述指標(biāo)特征庫的比對結(jié)果。
8、進(jìn)一步的,對所述發(fā)展數(shù)據(jù)進(jìn)行預(yù)處理的方法,包括:
9、對所述發(fā)展數(shù)據(jù)進(jìn)行清洗、去重和歸一化處理,采用決策樹算法將所述發(fā)展數(shù)據(jù)進(jìn)行分類,按照分類結(jié)果對所述發(fā)展數(shù)據(jù)進(jìn)行貼標(biāo)簽操作。
10、進(jìn)一步的,所述第一特征篩選的方法,包括:
11、采用線性判別分析特征提取歷史指標(biāo)和待比對指標(biāo)得到歷史特征因子和比對特征因子;
12、定義tij為第i個歷史指標(biāo)對應(yīng)的j維特征,1<i<m,1<j<n,m為歷史指標(biāo)數(shù)量,n為歷史特征因子數(shù)量,采用改進(jìn)后的哈里斯鷹優(yōu)化算法對第i個歷史指標(biāo)進(jìn)行特征篩選獲得第一特征組成第一特征子集;
13、改進(jìn)后的哈里斯鷹優(yōu)化算法具體包括:
14、對歷史特征因子二進(jìn)制編碼,歷史特征因子取值按照被選擇和未被選擇取1和0,計算鷹的個體適應(yīng)度:
15、
16、其中fitness為鷹的個體適應(yīng)度,(1-accurcy)為分類誤差率,n為特征長度,∝為分類的精確性,β=1-∝為所選特征在適應(yīng)度函數(shù)中所占的權(quán)重;
17、引入混沌映射更新兔子逃逸能量公式:
18、
19、其中ek+1為兔子更新的逃逸能量,e0為兔子逃逸初始能量,ek=2e0(1-t/t)為兔子逃逸能量,t為當(dāng)前迭代次數(shù),為t為總的迭代次數(shù);
20、根據(jù)更新的兔子逃逸能量ek+1和鷹的位置更新規(guī)則獲得鷹的位置更新x(t+1);
21、鷹的位置更新規(guī)則為:
22、在全局搜索階段鷹的位置更新表示為:
23、
24、其中x(t)為當(dāng)前鷹的位置,x(t+1)為鷹更新的位置,t為迭代次數(shù),xrabbit為兔子的位置,鷹的平均位置n為鷹的總數(shù),r1、r2、r3、r4、q為(0,1)的隨機(jī)數(shù),ub和lb為變量上下界,q為鷹的棲息模式;
25、在局部搜索階段根據(jù)兔子狀態(tài)展開四種不同開展不同搜獵模式,設(shè)r為兔子在突襲前逃離的機(jī)會,r<0.5有成功逃離可能,r≥0.5未成功逃離,結(jié)合更新的兔子逃逸能量ek+1,當(dāng)r≥0.5且|ek+1|≥0.5時,鷹群采用策略1圍攻,位置更新表示為:
26、x(t+1)=xrabbit(t)-x(t)-ek+1|jxrabbit(t)-x(t)|
27、其中,為每次迭代中表示兔子運(yùn)動性質(zhì)數(shù)值;
28、當(dāng)r≥0.5且|ek+1|<0.5時,鷹群采用策略2圍攻,位置更新表示為:
29、x(t+1)=xrabbit(t)-ek+1|xrabbit(t)-x(t)|
30、當(dāng)r<0.5且|ek+1|≥0.5時,鷹群采用策略3圍攻,位置更新表示為:
31、
32、其中s是[0,1]之間的n維隨機(jī)向量元素值,γ(·)為概率密度函數(shù),μ和v為(0,1)的隨機(jī)數(shù),β為“跳躍”特性參數(shù)取1.5;
33、當(dāng)r<0.5且|ek+1|<0.5時,鷹群采用策略4圍攻,位置更新表示為:
34、
35、加入正態(tài)分布隨機(jī)數(shù)對鷹的位置更新進(jìn)行高斯變異:
36、
37、其中x(t+2)為高斯變異后鷹的位置更新,xbest(t+2)=x(t+1)[1+n(μ,σ2)]為將鷹的位置x(t)進(jìn)行高斯變異后的取值,n為正態(tài)分布隨機(jī)數(shù),μ為均值,σ2為方差,f(·)為適應(yīng)度函數(shù),表示當(dāng)前位置的適應(yīng)度,rand為隨機(jī)數(shù),p為優(yōu)勝劣汰的概率;
38、采用knn建立包裹式特征選擇模型評估特征子集的質(zhì)量,其中k=5,繼續(xù)計算鷹的個體適應(yīng)度和更新鷹群位置,不斷迭代直到達(dá)到最大迭代次數(shù)后輸出第一特征,組合m個歷史指標(biāo)的第一特征獲得第一特征子集。
39、進(jìn)一步的,所述第二特征篩選的方法,包括:
40、定義歷史指標(biāo)集合e={e1,e2,…,em},m為歷史指標(biāo)的數(shù)量,第i個歷史指標(biāo)ei對應(yīng)歷史特征因子集合ti={ti1,ti2,…,tin},n為歷史特征因子數(shù)量;
41、ei對應(yīng)樣本,tij對應(yīng)樣本ei的j特征,將半徑為r的樣本中心圓中均分成a份,采用多方向鄰居搜索方法找到k個相同類別最近hit命中點(diǎn)hj和k個不同類別最近miss未命中點(diǎn)hj,采用特征權(quán)重目標(biāo)方程計算權(quán)重:
42、
43、其中w(tij)為特征tij權(quán)重,c為類別,y為類別標(biāo)簽集合,class(ei)是樣本ei得類別,y(ei)是instance標(biāo)簽,p(c)是類別c的先驗概率,c為類別數(shù)量,n為特征數(shù)量,diff(a,b,c)為差異性函數(shù),表示a在b和c中的差異性,ml(class(ei))為類別c中最接近的miss,hl為同類中最近的hit,ui為樣本與最遠(yuǎn)miss的相似性較大時為樣本賦予的較小權(quán)重系數(shù),hi為樣本與最遠(yuǎn)hit相似性較大時為樣本賦予的較大權(quán)重系數(shù);
44、由最大皮爾斯相關(guān)系數(shù)和最大相關(guān)距離進(jìn)行過濾式特征選擇:
45、
46、其中mpmd(tij)為tij的特征權(quán)重,t為當(dāng)前迭代次數(shù),t為總迭代次數(shù),a為常數(shù),pe(·)為皮爾森相關(guān)系數(shù),計算規(guī)則為
47、計算特征tij被選中的概率:
48、
49、其中pp(tij)為特征tij被選中的概率,β為mpmd(tij)和w(tij)之間的平衡常數(shù),此處認(rèn)定β=1二者同等重要,按照被選中的概率大小排序篩選歷史特征因子,篩選m個歷史指標(biāo)的第二特征得到第二特征子集。
50、進(jìn)一步的,處理所述特征子集獲得指標(biāo)特征庫的方法,包括:
51、取第一特征子集和第二特征子集的交集為特征代表,取第一特征子集和第二特征子集未相交的部分s1、s2組成待定特征代表,對待定特征代表進(jìn)行二次篩選得到剩余的特征代表,組合所有特征代表和對應(yīng)的歷史指標(biāo)得到指標(biāo)特征庫;
52、對待定特征代表進(jìn)行二次篩選的方法,包括:
53、定義待定特征代表集ti={ti1,ti2,…,tij,…,til},tij為第i個指標(biāo)對應(yīng)的j維特征,1<i<m,1<j<l,m為指標(biāo)數(shù)量,l為未相交的歷史特征因子數(shù)量,對tij進(jìn)行隨機(jī)初始賦值:
54、
55、其中rand∈(0,1)為隨機(jī)數(shù)值;
56、采用鳥群算法對歷史特征因子二次篩選,鳥群速度和位置更新公式為:
57、
58、xij(t+1)=xij(t)+vij(t+1)
59、其中和xij(t+1)為鳥在t+1次迭代時的速度和位置,ω為慣性權(quán)重,c1和c2為學(xué)習(xí)因子,rand1、rand2∈(0,1),pbestij和gbest分別代表鳥和鳥群的最優(yōu)位置;
60、對指標(biāo)進(jìn)行擾動,表達(dá)式為:
61、
62、引入鄧恩指標(biāo)結(jié)合穩(wěn)定性度量準(zhǔn)則計算適應(yīng)度:
63、
64、其中fitness為適應(yīng)度,0.33為系數(shù)權(quán)重,errorrate為分類誤差率,dimension=l為特征維度,n為原始總特征數(shù),minδ(s1,s2)為兩個不相交集合間歷史特征因子距離的最小值,為兩個不相交集合間歷史特征因子距離的平均值;
65、按照適應(yīng)度計算結(jié)果篩選待定特征代表得到剩余的特征代表。
66、進(jìn)一步的,根據(jù)關(guān)聯(lián)度選擇待比對指標(biāo)獲得重點(diǎn)指標(biāo)的方法,包括:
67、將待比對指標(biāo)i輪流設(shè)置為參考指標(biāo)xi(j),i∈(0,m),m為待比對指標(biāo)數(shù)量,剩余待比對指標(biāo)設(shè)置為對照指標(biāo)yi(j),j∈(0,n)為比對指標(biāo)i的特征因子序號,n為比對特征因子數(shù)量;
68、計算參考指標(biāo)和對照指標(biāo)的關(guān)系數(shù):
69、
70、其中di(k)為參考指標(biāo)xi(j)和對照指標(biāo)yi(j)在比對特征因子j的關(guān)聯(lián)系數(shù),ρ為分辨系數(shù)取0.5;
71、根據(jù)比對特征因子的權(quán)重wj計算參考指標(biāo)和對照指標(biāo)的關(guān)聯(lián)度分?jǐn)?shù):
72、
73、其中ri為參考指標(biāo)xi(j)和對照指標(biāo)yi(j)總的關(guān)聯(lián)度分?jǐn)?shù),a為關(guān)聯(lián)度分?jǐn)?shù)系數(shù),取a=10將關(guān)聯(lián)度改成10分制形式;
74、綜合灰色關(guān)聯(lián)度分?jǐn)?shù)評價待比對指標(biāo)的關(guān)聯(lián)度,選擇關(guān)聯(lián)度高的待比對指標(biāo)獲得重點(diǎn)指標(biāo)。
75、進(jìn)一步的,將所述重點(diǎn)指標(biāo)與所述指標(biāo)特征庫的標(biāo)準(zhǔn)指標(biāo)匹配獲取待比對指標(biāo)組的方法,包括:
76、粗匹配:定義重點(diǎn)指標(biāo)ai=(ai1,ai2,…,aix,…,aim)和指標(biāo)特征庫中標(biāo)準(zhǔn)指標(biāo)bj=(bj1,bj2,…,bjy,…,bjn),按照指標(biāo)分類情況計算重點(diǎn)指標(biāo)ai與同一類別所有標(biāo)準(zhǔn)指標(biāo)bj的余弦值,根據(jù)余弦值識別相似特征因子組合獲取粗匹配指標(biāo)組;
77、所述重點(diǎn)指標(biāo)ai與同一類別所有標(biāo)準(zhǔn)指標(biāo)b,的余弦值計算公式為:
78、
79、其中cos(ai,bj)為重點(diǎn)指標(biāo)ai與標(biāo)準(zhǔn)指標(biāo)bj特征向量的余弦值,重點(diǎn)指標(biāo)ai的第x個重點(diǎn)特征因子向量為aix,特征向量數(shù)量為m,標(biāo)準(zhǔn)指標(biāo)bj的第y個標(biāo)準(zhǔn)特征因子向量為bjy,特征向量數(shù)量為n;
80、根據(jù)計算結(jié)果保留與重點(diǎn)指標(biāo)ai余弦值最大的5個標(biāo)準(zhǔn)指標(biāo)bj;
81、細(xì)匹配:將重點(diǎn)指標(biāo)ai和對應(yīng)標(biāo)準(zhǔn)指標(biāo)特征對齊獲得具有相同維度的特征因子向量,計算重點(diǎn)指標(biāo)ai與標(biāo)準(zhǔn)指標(biāo)的加權(quán)馬氏距離,根據(jù)加權(quán)馬氏距離計算結(jié)果匹配重點(diǎn)指標(biāo)ai與標(biāo)準(zhǔn)指標(biāo)
82、重點(diǎn)指標(biāo)ai的重點(diǎn)特征因子向量為ai=(ai1,ai2,…,aix,…,ain),1≤i≤m,m為重點(diǎn)指標(biāo)數(shù)量,n為特征向量長度,對應(yīng)標(biāo)準(zhǔn)指標(biāo)標(biāo)準(zhǔn)特征因子向量為j取[1,5]的整數(shù);
83、通過層次分析法計算主觀權(quán)重,表達(dá)式為:
84、
85、其中wz為層次分析法計算的標(biāo)準(zhǔn)特征因子的主觀權(quán)重,為用算數(shù)平均法歸一化計算得出的權(quán)重,為用幾何平均法歸一化計算得出的權(quán)重,wz3為用特征值法計算得出的權(quán)重;
86、通過critic法計算客觀權(quán)重,表達(dá)式為:
87、
88、其中wk為critic法計算的標(biāo)準(zhǔn)特征因子的客觀權(quán)重,σj為比對強(qiáng)度,rj為沖突性指標(biāo);
89、根據(jù)主觀權(quán)重和客觀權(quán)重獲得綜合權(quán)重,表達(dá)式為:
90、wij=τwz(ij)+vwk(ij)
91、其中wij為標(biāo)準(zhǔn)特征因子的綜合權(quán)重,τ和v為權(quán)重系數(shù),τ+v=1;
92、均值向量協(xié)方差為重點(diǎn)指標(biāo)ai與標(biāo)準(zhǔn)指標(biāo)的加權(quán)馬氏距離計算表示為:
93、
94、取最小加權(quán)馬氏距離對應(yīng)的重點(diǎn)指標(biāo)ai和標(biāo)準(zhǔn)指標(biāo)為一對匹配待比對指標(biāo),將m對匹配待比對指標(biāo)組成待比對指標(biāo)組。
95、進(jìn)一步的,根據(jù)所述指標(biāo)特征庫構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型的方法,包括:
96、將指標(biāo)特征庫內(nèi)的標(biāo)準(zhǔn)指標(biāo)、標(biāo)準(zhǔn)指標(biāo)類別、標(biāo)準(zhǔn)指標(biāo)的特征代表組成標(biāo)準(zhǔn)向量集,將標(biāo)準(zhǔn)向量集分為訓(xùn)練集和測試集;
97、將訓(xùn)練集輸入xgboost增強(qiáng)的bp神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;
98、采用xgboost模型對輸入的訓(xùn)練集進(jìn)行預(yù)測,輸出新特征并添加到原始訓(xùn)練集中,將訓(xùn)練集輸入bp神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,選擇交叉熵?fù)p失函數(shù)評估模型,根據(jù)評估選擇sgd優(yōu)化器更新網(wǎng)絡(luò)參數(shù)輸出發(fā)展數(shù)據(jù)量化函數(shù);
99、采用測試集評估發(fā)展數(shù)據(jù)量化函數(shù),構(gòu)建區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型:
100、
101、其中si為第i個指標(biāo)的量化模型比對得分,s為用戶整體的量化模型比對得分,ni為第i個指標(biāo)的特征數(shù)量,m為用戶的指標(biāo)數(shù)量,為第i個指標(biāo)的類別權(quán)重,為第i個指標(biāo)的指標(biāo)權(quán)重,iij為第i個指標(biāo)的第j個特征代表的評分;
102、將待比對指標(biāo)組輸入?yún)^(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型輸出待比對指標(biāo)與指標(biāo)特征庫的比對結(jié)果。
103、第二方面,一種基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對系統(tǒng),包括:
104、數(shù)據(jù)采集模塊:用于采集區(qū)域標(biāo)準(zhǔn)化的發(fā)展數(shù)據(jù),對所述發(fā)展數(shù)據(jù)預(yù)處理,將所述發(fā)展數(shù)據(jù)傳送至篩選模塊和匹配模塊;所述發(fā)展數(shù)據(jù)包括歷史指標(biāo)和待比對指標(biāo);
105、篩選模塊:用于篩選所述歷史特征因子獲得指標(biāo)特征庫;
106、匹配模塊:用于根據(jù)關(guān)聯(lián)度選擇待比對指標(biāo)獲得重點(diǎn)指標(biāo),將所述重點(diǎn)指標(biāo)與所述指標(biāo)特征庫的標(biāo)準(zhǔn)指標(biāo)匹配獲取待比對指標(biāo)組;
107、機(jī)器學(xué)習(xí)模塊:用于將所述標(biāo)特征庫輸入xgboost增強(qiáng)的bp神經(jīng)網(wǎng)絡(luò)中獲得區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型;
108、比對模塊:用于管理所述發(fā)展數(shù)據(jù)、所述指標(biāo)特征庫和所述待比對指標(biāo)組,將所述待比對指標(biāo)組輸入所述區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)量化模型輸出所述待比對指標(biāo)與所述指標(biāo)特征庫的比對結(jié)果。
109、本發(fā)明的有益效果是:
110、本發(fā)明是一種基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對方法及系統(tǒng),與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:
111、本發(fā)明通過提取指標(biāo)特征、特征篩選、獲得指標(biāo)特征庫、獲得重點(diǎn)指標(biāo)、獲取待比對指標(biāo)組、構(gòu)建模型步驟,可以在區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對中提升數(shù)據(jù)預(yù)處理的能力和增強(qiáng)模型適應(yīng)性,從而提高區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對的比對效率與精度,將區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對技術(shù)優(yōu)化,可以大大節(jié)省資源,提高工作效率,可以實現(xiàn)對區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對,為決策和規(guī)劃的制定提供有力支持,對區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)比對具有重要意義,可以適應(yīng)不同基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)的比對系統(tǒng)、不同用戶的基于量化模型的區(qū)域標(biāo)準(zhǔn)化發(fā)展數(shù)據(jù)的比對系統(tǒng)的終端數(shù)據(jù)比對需求,具有一定的普適性。