一種股票價格優(yōu)化預(yù)測方法
【專利摘要】本發(fā)明涉及一種股票價格優(yōu)化預(yù)測方法。其特征在于,采用泛化能力較強,且不容易陷入局部最優(yōu)和過擬合現(xiàn)象的支持向量回歸機模型作為股票價格預(yù)測的核心部分,克服人工神經(jīng)網(wǎng)絡(luò)算法的缺點;引入流形學(xué)習(xí)中的線性局部切空間排列算法,將股票原始數(shù)據(jù)看作嵌入在高維歐式空間中的低維流形,提取股票數(shù)據(jù)中的非線性子流形結(jié)構(gòu),使得提取的特征更加具有區(qū)分度和代表性,并同時降低股票數(shù)據(jù)噪聲;最后再利用遺傳算法優(yōu)化支持向量回歸機的訓(xùn)練參數(shù),解決了單一支持向量回歸機模型參數(shù)選擇困難的問題,最終提高股價的預(yù)測精度。
【專利說明】
一種股票價格優(yōu)化預(yù)測方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于金融數(shù)據(jù)分析處理領(lǐng)域,尤其涉及一種采用流形學(xué)習(xí)和支持向量回歸機的股票價格優(yōu)化預(yù)測方法。
【背景技術(shù)】
[0002]股票市場受到多方面因素的影響,導(dǎo)致股票價格變化多端,也正是因為這種變化,使得投資者能夠通過買賣股票賺得差價收益。然而,若沒有敏銳的市場直覺和豐富的金融知識是不能立足于股票交易市場并從中獲利的。因此為了更加準(zhǔn)確地識別股市動蕩的規(guī)律,預(yù)測股價走勢從而盡可能降低虧損的風(fēng)險,前人總結(jié)了很多股票價格預(yù)測的經(jīng)驗和方法,大致可以分為三大類:人工經(jīng)驗預(yù)測法、時間序列預(yù)測法和機器學(xué)習(xí)預(yù)測法。
[0003]I)人工經(jīng)驗預(yù)測法
[0004]也稱證券投資分析法,是一種依靠人力分析各種影響因素,從而對股票未來價格或趨勢做出判斷的方法。包括基本面分析和技術(shù)分析兩個大的類型?;久娣治鰪挠绊懝善眱r格的外部因素入手,如分析國家經(jīng)濟形勢、金融政策的變化、上市公司的經(jīng)營情況、內(nèi)部穩(wěn)定性等,通過分析這些外部影響因素,定性地判斷未來股票價格的漲幅趨勢或價格高低定位等,該方法一般為大型基金和機構(gòu)所采用。技術(shù)分析則是利用各種圖表、指標(biāo)和分析工具來歸納分析市場的變化,依靠統(tǒng)計和歸納發(fā)現(xiàn)股價的波動規(guī)律,將發(fā)現(xiàn)的周期性規(guī)律用來指導(dǎo)股票交易的一種方法,也是廣大股民最常用的一種方法。人工經(jīng)驗預(yù)測法主要依靠人力手工進行各種分析預(yù)測,在這個數(shù)據(jù)量暴增的時代,人工的方法顯然耗時耗力,且人的情緒容易波動,從而直接影響到對趨勢的判斷造成虧損。
[0005]2)時間序列預(yù)測法
[0006]時間序列分析方法的應(yīng)用對象包括所有隨著時間推移變化的變量,其基本思想是依據(jù)時間序列變量與時間之間的相關(guān)性,利用統(tǒng)計模型對歷史的時間序列對象建立數(shù)學(xué)模型,以此預(yù)測未來值。然而時間序列分析法雖然在對線性系統(tǒng)的處理上具有較好效果,但股票價格具有非線性的特征,不適合用時間序列分析法進行建模預(yù)測。
[0007]3)機器學(xué)習(xí)預(yù)測法
[0008]機器學(xué)習(xí)預(yù)測法是利用機器學(xué)習(xí)的算法對影響股票價格波動的各種因素和指標(biāo),與股票價格之間的非線性關(guān)系建模,將學(xué)習(xí)到的關(guān)鍵模式用于指導(dǎo)對未來股票價格的預(yù)測。機器學(xué)習(xí)預(yù)測法對人工操作的要求不高,只需要機器自動地進行學(xué)習(xí)即可預(yù)測,提高了效率且避免了人的情緒和失誤所造成的損失。
【發(fā)明內(nèi)容】
[0009]我們采用泛化能力較強,且不容易陷入局部最優(yōu)和過擬合現(xiàn)象的支持向量回歸機(SVR)模型作為股票價格預(yù)測的核心部分,克服人工神經(jīng)網(wǎng)絡(luò)算法的缺點;引入流形學(xué)習(xí)中的線性局部切空間排列算法(LLTSA),將股票原始數(shù)據(jù)看作嵌入在高維歐式空間中的低維流形,提取股票數(shù)據(jù)中的非線性子流形結(jié)構(gòu),使得提取的特征更加具有區(qū)分度和代表性,并同時降低股票數(shù)據(jù)噪聲;最后再利用遺傳算法(GA)優(yōu)化SVR的訓(xùn)練參數(shù),解決了單一 SVR模型參數(shù)選擇困難的問題,最終提高股價的預(yù)測精度。
[0010]選取基于結(jié)構(gòu)風(fēng)險最小化原則的支持向量回歸機作為預(yù)測模型,具有很好的泛化能力且不容易陷入局部極小,并利用遺傳算法對其核參數(shù)、懲罰因子和不敏感系數(shù)進行尋優(yōu)操作,解決了人工查找參數(shù)困難的問題。將線性局部切空間排列算法與經(jīng)過遺傳算法優(yōu)化的支持向量回歸機模型組合,提出了一個新的股票價格優(yōu)化預(yù)測模型,即LLTSA-GA-SVR模型。
【附圖說明】
[0011]圖1.LLTSA-GA-SVR模型預(yù)測流程
[0012]圖2.LLTSA特征提取過程
【具體實施方式】
[0013]我們提出的LLTSA-GA-SVR模型如圖1所示,預(yù)測股價的流程如下:
[0014]I)數(shù)據(jù)預(yù)處理
[0015]收集股票數(shù)據(jù)后,首先需對股票數(shù)據(jù)進行預(yù)處理,將其轉(zhuǎn)換為適合模型處理的形式。比如根據(jù)模型的預(yù)測形式,將原始股票數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)樣本集,并劃分訓(xùn)練集和測試集;以及對股票數(shù)據(jù)進行歸一化處理,消除量綱差異。
[0016]2) LLTSA 特征提取
[0017]對原始股票數(shù)據(jù)進行預(yù)處理后,利用LLTSA算法提取數(shù)據(jù)樣本集的特征,進行降維和降噪的操作,其處理過程如圖2所示。LLTSA算法首先對輸入的數(shù)據(jù)樣本集進行PCA投影操作,即將原始數(shù)據(jù)樣本集映射到PCA的主子空間,預(yù)先降低數(shù)據(jù)噪聲和維度,使得后續(xù)的處理更加高效和方便。然后對樣本集中所有的數(shù)據(jù)點求其鄰域,通過線性逼近數(shù)據(jù)點及其鄰域?qū)?yīng)的切空間,將數(shù)據(jù)樣本點投影到切空間上,得到局部坐標(biāo)。通過將所有局部坐標(biāo)進行全局排列,整合局部信息,構(gòu)造全局排列矩陣。最后將目標(biāo)函數(shù)轉(zhuǎn)換為特征值的求解,求得能夠?qū)⒏呔S原始數(shù)據(jù)樣本集映射到低維樣本集的轉(zhuǎn)換矩陣,根據(jù)該轉(zhuǎn)換矩陣得到降維去噪后的低維特征集。
[0018]3)生成初始種群
[0019]本文選定二進制編碼方案對三個參數(shù)進行編碼,具體做法為將每個參數(shù)轉(zhuǎn)化為20位二進制數(shù)然后再拼接起來,形成一個候選解。該候選解由三個參數(shù)的編碼組合即60位二進制數(shù)組成。經(jīng)過編碼的個體稱為一條染色體。
[0020]4)訓(xùn)練SVR評估個體適應(yīng)度
[0021]將種群中的每個個體重新拆分為三個參數(shù)的二進制序列并分別轉(zhuǎn)化為十進制數(shù),則總共得到20組、和的值。將SVR模型的參數(shù)設(shè)為其中一組參數(shù)值,并對劃分的訓(xùn)練樣本集進行建模訓(xùn)練,得到預(yù)測值與真實值計算MSE,以此評估這組參數(shù)對應(yīng)個體的適應(yīng)度大小。對種群中20組參數(shù)候選值都進行同樣的適應(yīng)度評估,最后將個體按適應(yīng)度大小排序。
[0022]5)選擇、交叉和突變遺傳形成新的種群
[0023]對上一步形成的種群按設(shè)定的選擇概率、交叉概率和突變概率進行選擇、交叉和突變?nèi)N遺傳操作。進行選擇操作時按一定的選擇概率淘汰種群中不滿足適應(yīng)度要求的個體。進行交叉操作時根據(jù)一定的模式和概率對選中的個體進行其部分基因序列交換從而產(chǎn)生新的個體延續(xù)至下一代,兩個被選擇進行交叉遺傳操作的個體Cl和C2,C1的高位第12位開始的序列“111”與C2的低三位“000”發(fā)生交換,產(chǎn)生如圖所示的下一代個體Cl’和C2’。
[0024]進行突變操作時按突變概率選擇種群中的個體改變其某個位置的基因符號,得到下一代的個體,其中個體Cl的高位第12位的“I”發(fā)生變異,變?yōu)椤癘”,形成新的下一代個體Cl,。
[0025]6)判斷迭代條件
[0026]對新生成的種群用步驟4)判斷其中包含個體的適應(yīng)度大小,若有個體的適應(yīng)度滿足設(shè)定最優(yōu)值或總體迭代次數(shù)達到上限,則停止迭代,適應(yīng)度最優(yōu)個體即為所求;若不滿足以上兩個條件,則轉(zhuǎn)至步驟4)循環(huán)執(zhí)行直到滿足停止條件為止。當(dāng)?shù)V购?,就可以得到最?yōu)的個體,至此遺傳算法對三個參數(shù)的優(yōu)化完成。
[0027]7)組成最優(yōu)SVR模型
[0028]將遺傳算法處理得到的最優(yōu)個體分解為三個參數(shù)對應(yīng)的二進制序列再進行十進制轉(zhuǎn)換,即可得到的最優(yōu)的參數(shù)(:、0和£的值,將SVR模型的參數(shù)設(shè)置為這三個最優(yōu)值,即可得到經(jīng)過遺傳算法優(yōu)化的SVR模型。
[0029]8)預(yù)測股票價格
[0030]將步驟2)得到的經(jīng)過LLTSA算法提取特征之后的特征樣本集輸入到遺傳算法優(yōu)化的SVR模型中,利用其中訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練好的模型在測試集上進行檢驗,得出股票收盤價的預(yù)測值。
【主權(quán)項】
1.一種股票價格優(yōu)化預(yù)測方法,其特征在于,包括以下關(guān)鍵步驟: 1)線性局部切空間排列算法特征提取 對原始股票數(shù)據(jù)進行預(yù)處理后,利用線性局部切空間排列提取數(shù)據(jù)樣本集的特征,進行降維和降噪的操作;求得能夠?qū)⒏呔S原始數(shù)據(jù)樣本集映射到低維樣本集的轉(zhuǎn)換矩陣,根據(jù)該轉(zhuǎn)換矩陣得到降維去噪后的低維特征集; 2)支持向量回歸機參數(shù)優(yōu)化 具體又包括: a.生成初始種群 將每個參數(shù)轉(zhuǎn)化為20位二進制數(shù)然后再拼接起來,形成一個候選解; b.訓(xùn)練支持向量回歸機評估個體適應(yīng)度 對劃分的訓(xùn)練樣本集進行建模訓(xùn)練,得到預(yù)測值與真實值計算MSE,以此評估這組參數(shù)對應(yīng)個體的適應(yīng)度大小。對種群中20組參數(shù)候選值都進行同樣的適應(yīng)度評估,最后將個體按適應(yīng)度大小排序; c.選擇、交叉和突變遺傳形成新的種群 按設(shè)定的選擇概率、交叉概率和突變概率進行選擇、交叉和突變?nèi)N遺傳操作; d.判斷迭代條件 對新生成的種群判斷其中包含個體的適應(yīng)度大小,若有個體的適應(yīng)度滿足設(shè)定最優(yōu)值或總體迭代次數(shù)達到上限,則停止迭代,適應(yīng)度最優(yōu)個體即為所求;若不滿足以上兩個條件,則循環(huán)執(zhí)行直到滿足停止條件為止;當(dāng)?shù)V购?,就可以得到最?yōu)的個體; 3)組成最優(yōu)支持向量回歸機模型 將遺傳算法處理得到的最優(yōu)個體分解為三個參數(shù)對應(yīng)的二進制序列再進行十進制轉(zhuǎn)換,即可得到的最優(yōu)的參數(shù)(:、0和£的值,將支持向量回歸機的參數(shù)設(shè)置為這三個最優(yōu)值,gp可得到經(jīng)過遺傳算法優(yōu)化的支持向量回歸機模型; 4)預(yù)測股票價格 將前述步驟得到的經(jīng)過線性局部切空間排列算法提取特征之后的特征樣本集輸入到遺傳算法優(yōu)化的支持向量回歸機模型中,利用其中訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練好的模型在測試集上進行檢驗,得出股票收盤價的預(yù)測值。
【文檔編號】G06Q10/04GK106056244SQ201610368834
【公開日】2016年10月26日
【申請日】2016年5月30日
【發(fā)明人】陳遠, 羅必輝, 蔣維琛, 陳文欣
【申請人】重慶大學(xué)