一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法及系統(tǒng)與流程

文檔序號(hào)：12735076閱讀：295來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法及系統(tǒng)與流程

本發(fā)明涉及一種證券數(shù)據(jù)分析處理方法及系統(tǒng)，尤其涉及一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)復(fù)制模型構(gòu)建技術(shù)，屬于數(shù)據(jù)分析及預(yù)測(cè)技術(shù)領(lǐng)域。

背景技術(shù)：

股票價(jià)格指數(shù)是通過(guò)對(duì)股票市場(chǎng)上一些有代表性的公司發(fā)行的股票價(jià)格進(jìn)行平均計(jì)算和動(dòng)態(tài)對(duì)比后得出的數(shù)值。股票價(jià)格指數(shù)能綜合考察股票市場(chǎng)的動(dòng)態(tài)變化過(guò)程，反映股票市場(chǎng)的價(jià)格水平，為社會(huì)公眾提供股票投資和合法的股票增值活動(dòng)的參考依據(jù)，這些有代表性的公司股票被籠統(tǒng)的稱(chēng)為成份股。比如，上證180指數(shù)和深證100指數(shù)就是滬、深股市中兩個(gè)具有典型代表性的指數(shù)，而構(gòu)成上述指數(shù)的股票就分別稱(chēng)為上證180指數(shù)成份股和深圳100指數(shù)成份股。成份股的選擇主要考慮兩條標(biāo)準(zhǔn)：一是成份股的市價(jià)總值要占在交易所上市的全部股票市價(jià)總值的相當(dāng)部分；二是成份股價(jià)格變動(dòng)趨勢(shì)必須能反映股票市場(chǎng)價(jià)格變動(dòng)的總趨勢(shì)。

期現(xiàn)套利涉及股指期貨市場(chǎng)和證券現(xiàn)貨市場(chǎng)，能間接反映市場(chǎng)的有效性和成熟度，對(duì)提高兩個(gè)市場(chǎng)的流動(dòng)性和增強(qiáng)兩個(gè)市場(chǎng)的價(jià)格發(fā)現(xiàn)功能具有重要意義。期現(xiàn)套利主要是對(duì)股指期貨與現(xiàn)貨之間基差進(jìn)行套利。股指期貨與對(duì)應(yīng)現(xiàn)貨間理論上具有穩(wěn)定的均衡關(guān)系，但是現(xiàn)實(shí)中由于信息不對(duì)稱(chēng)、投資者情緒、市場(chǎng)波動(dòng)等因素會(huì)出現(xiàn)股指期貨價(jià)格相對(duì)于現(xiàn)貨價(jià)格被高估或者低估的不平衡現(xiàn)象，而呈現(xiàn)動(dòng)態(tài)均衡關(guān)系。可見(jiàn)，想要實(shí)現(xiàn)期現(xiàn)套利，主要取決于以下兩個(gè)條件：一是股指期貨的標(biāo)的指數(shù)跟蹤效果良好；二是指數(shù)基金流動(dòng)性好，股指期貨與現(xiàn)貨的基差動(dòng)態(tài)均衡。所以，指數(shù)復(fù)制(跟蹤預(yù)測(cè)指數(shù)漲跌)是規(guī)避風(fēng)險(xiǎn)和套利投機(jī)中必不可少的操作手段。

目前的指數(shù)復(fù)制技術(shù)主要包括以下幾種：

基于市值排序方法的指數(shù)復(fù)制：市值排序法是對(duì)標(biāo)的指數(shù)(如滬深300指數(shù))成份股按照日均市值降序排序，依次選取一定數(shù)量股票構(gòu)建股票池，利用二次指數(shù)跟蹤模型確定最優(yōu)投資權(quán)重，進(jìn)行標(biāo)的指數(shù)的復(fù)制。

基于權(quán)重排序方法的指數(shù)復(fù)制：權(quán)重排序法是對(duì)標(biāo)的指數(shù)成份股按照日均權(quán)重均值降序，依次選取一定數(shù)量股票構(gòu)建股票池，利用二次指數(shù)跟蹤模型確定最優(yōu)投資權(quán)重，進(jìn)行標(biāo)的指數(shù)的復(fù)制。

現(xiàn)有基于成份股的指數(shù)復(fù)制技術(shù)，過(guò)多考慮的是市值因素和權(quán)重因素等，忽視了一些小市值股票在指數(shù)構(gòu)成中的作用；選股的股票所屬行業(yè)單一，分散化程度低；沒(méi)有考慮股票間的關(guān)聯(lián)性，股票的相關(guān)性較高。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問(wèn)題是：提出一種新的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)跟蹤預(yù)測(cè)方法，在全面考慮個(gè)股間的關(guān)聯(lián)性的條件下，通過(guò)聚類(lèi)分析提取相關(guān)性較低且具有代表性的股票構(gòu)建股票池進(jìn)行指數(shù)復(fù)制研究。

本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案：

一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，包括以下步驟：

(1)、從第三方數(shù)據(jù)庫(kù)中采集上月和當(dāng)月的指數(shù)以及成份股數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行清洗，得到能用于研究的樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù)；所述樣本內(nèi)數(shù)據(jù)為指數(shù)及其成份股上月的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)，所述樣本外數(shù)據(jù)為指數(shù)及其成份股當(dāng)月的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)；

(2)、根據(jù)樣本內(nèi)數(shù)據(jù)構(gòu)建訓(xùn)練模型，對(duì)成份股采用社會(huì)網(wǎng)絡(luò)聚類(lèi)模型構(gòu)建股票池，并用指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重；

(3)、將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外數(shù)據(jù)的指數(shù)跟蹤，得到預(yù)測(cè)的指數(shù)。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，在步驟(1)中，對(duì)所有收盤(pán)價(jià)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，包括：剔除缺失嚴(yán)重的股票、刪除第一天和最后一天停市或數(shù)據(jù)缺失的股票、刪除所有股票和指數(shù)及期貨缺失超過(guò)一半的時(shí)刻、對(duì)缺失數(shù)據(jù)進(jìn)行線性插值補(bǔ)全、再次對(duì)首末存在缺失的時(shí)刻進(jìn)行刪除，最終得到研究的樣本內(nèi)、樣本外數(shù)據(jù)。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，在步驟(2)中，是從成份股中提取相關(guān)性低且具有代表性的股票構(gòu)建股票池，具體流程包括：用成份股間的相關(guān)系數(shù)計(jì)算度量距離，構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò)，用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)，提取每簇的聚類(lèi)中心形成股票池。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，在步驟(2)中，所述指數(shù)跟蹤優(yōu)化模型是通過(guò)最優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤，具體為：用股票池股票的線性組合得到跟蹤指數(shù)，以跟蹤指數(shù)與標(biāo)的指數(shù)的跟蹤誤差最小為目標(biāo)，進(jìn)行二次優(yōu)化模型求解股票的最優(yōu)線性組合，確定最優(yōu)權(quán)重。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，在步驟(2)中，用成份股間的相關(guān)系數(shù)計(jì)算度量距離，構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò)，用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)，提取每簇的聚類(lèi)中心形成股票池，具體如下：

A、計(jì)算研究樣本的對(duì)數(shù)收益率r_i(t)，r_i(t)＝lnp_i(t)-lnp_i(t-1)，得到指數(shù)以及成份股的對(duì)數(shù)收益率序列；其中，p_i(t)表示第i只成分股在第t時(shí)間的前復(fù)權(quán)收盤(pán)價(jià)；

B、基于對(duì)數(shù)收益率序列，計(jì)算任意兩只股票i和j在觀測(cè)時(shí)間內(nèi)股價(jià)波動(dòng)的線性相關(guān)系數(shù)ρ_ij，其中E(r_i)表示第i只股票在樣本內(nèi)的平均對(duì)數(shù)收益率，t₁表示樣本內(nèi)總交易天數(shù)；

C、根據(jù)任意兩只股票間的相關(guān)系數(shù)構(gòu)建相應(yīng)的相關(guān)系數(shù)矩陣C，其中C為對(duì)角線為1的對(duì)稱(chēng)矩陣；

D、將相關(guān)系數(shù)ρ_ij轉(zhuǎn)化為對(duì)應(yīng)的度量距離d_ij，將相關(guān)系數(shù)矩陣C轉(zhuǎn)化為距離矩陣D，以距離矩陣D表示任意兩只股票間的度量距離，得到成份股間的社會(huì)網(wǎng)絡(luò)，其中D為對(duì)角線為0的對(duì)稱(chēng)矩陣；

E、對(duì)成份股間的社會(huì)網(wǎng)絡(luò)進(jìn)行自適應(yīng)仿射傳播AAP聚類(lèi)，通過(guò)不斷調(diào)整偏向參數(shù)值確定一系列包含不同簇的聚類(lèi)結(jié)果，并提取每一組聚類(lèi)結(jié)果的每簇的聚類(lèi)中心分別構(gòu)建股票池。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，在步驟(2)中，針對(duì)每組聚類(lèi)結(jié)果，通過(guò)二次指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重，并引入跟蹤誤差TE度量指數(shù)跟蹤效果的好壞。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，所述二次指數(shù)跟蹤優(yōu)化模型為：

minε′ε＝(R_I-R_Xw)′(R_I-R_Xw)

其中，ε代表指數(shù)跟蹤優(yōu)化模型的跟蹤誤差，ε＝R_I-R_Xw，R_I表示指數(shù)的收益率向量，R_X＝(R₁,R₂,…R_N)為股票的收益率矩陣，w＝(w₁,w₂,…,w_N)′為股票權(quán)重向量，N代表聚類(lèi)中心股票的數(shù)量；

所述跟蹤誤差：

當(dāng)跟蹤誤差最小時(shí)，可以確定指數(shù)跟蹤的最優(yōu)權(quán)重。

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，當(dāng)?shù)玫降臋?quán)重需要進(jìn)行修正時(shí)，修正方法如下：

a)計(jì)算投資使用的資金總量：依據(jù)實(shí)際投資需求或相應(yīng)期貨價(jià)格，確定投資自己可使用總量M；

b)計(jì)算各股票的最優(yōu)投資量：每只股票的最優(yōu)投資量為：

n_i＝w_i×M/P_i(t₁)

其中：P_i(t₁)表示第i只股票第一個(gè)月最后一個(gè)交易日的收盤(pán)價(jià)；

c)計(jì)算各股票的實(shí)際投資量：對(duì)n_i取2位整數(shù)，得到實(shí)際投資量

d)計(jì)算各股票真實(shí)的權(quán)重：利用實(shí)際投資量和股票價(jià)格P_i(t₁)，計(jì)算各股票的真實(shí)權(quán)重公式如下：

同時(shí)，利用真實(shí)權(quán)重計(jì)算真實(shí)的跟蹤誤差，即：

進(jìn)一步，本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法，利用各股票的實(shí)際投資量及第一個(gè)月每分鐘的收盤(pán)價(jià)可計(jì)算復(fù)制的指數(shù)價(jià)格P_X(t)，定義為：

通過(guò)對(duì)每組聚類(lèi)結(jié)果分別計(jì)算真實(shí)跟蹤誤差并繪制跟蹤誤差隨聚類(lèi)結(jié)果數(shù)變化曲線圖，通過(guò)對(duì)曲線圖的走勢(shì)分析確定既定最終的股票個(gè)數(shù)及最優(yōu)的投資權(quán)重；將股票池以及最優(yōu)權(quán)重帶入樣本外，即可得到樣本的跟蹤指數(shù)。

本發(fā)明還提出一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)系統(tǒng)方法，具體包括：

數(shù)據(jù)處理模塊，用于從第三方數(shù)據(jù)庫(kù)中采集上月和當(dāng)月的指數(shù)以及成份股數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行清洗，得到能用于研究的樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù)；所述樣本內(nèi)數(shù)據(jù)為上月的指數(shù)及其成份股前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)，所述樣本外數(shù)據(jù)為當(dāng)月的指數(shù)及其成份股前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)；

訓(xùn)練模塊，用成份股間的相關(guān)系數(shù)計(jì)算度量距離，構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò)，用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)，提取每簇的聚類(lèi)中心形成股票池,并用指數(shù)跟蹤優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤，確定指數(shù)跟蹤的最優(yōu)權(quán)重；

預(yù)測(cè)模塊，將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外數(shù)據(jù)的指數(shù)跟蹤，得到預(yù)測(cè)的指數(shù)。

本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下技術(shù)效果：

本發(fā)明構(gòu)建的股票池相關(guān)性低、跟蹤誤差較小、復(fù)制結(jié)果穩(wěn)定性好，可以與股指期貨結(jié)合進(jìn)行期現(xiàn)套利。相對(duì)于已有指數(shù)復(fù)制模型，本發(fā)明取得了對(duì)指數(shù)的精確跟蹤。

附圖說(shuō)明

圖1是本發(fā)明的指數(shù)復(fù)制系統(tǒng)結(jié)構(gòu)圖。

圖2是本發(fā)明的社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊流程圖。

圖3是本發(fā)明的指數(shù)跟蹤優(yōu)化模塊流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明，通過(guò)參考附圖描述的實(shí)施方式是示例性的，僅用于解釋本發(fā)明，而不能解釋為對(duì)本發(fā)明的限制。

如圖1所示，圖中列出了本發(fā)明的指數(shù)復(fù)制系統(tǒng)結(jié)構(gòu)圖。主要可分為數(shù)據(jù)源，訓(xùn)練集和測(cè)試集三個(gè)部分。

其中，數(shù)據(jù)源主要涉及數(shù)據(jù)的采集與處理等內(nèi)容，即從第三方數(shù)據(jù)庫(kù)(如萬(wàn)得數(shù)據(jù)庫(kù)等)中采集指數(shù)以及成份股上月和當(dāng)月的1分鐘前復(fù)權(quán)收盤(pán)價(jià)數(shù)據(jù)，并從股票停盤(pán)、數(shù)據(jù)缺失等方面對(duì)數(shù)據(jù)進(jìn)行清洗，得到可以用于研究的樣本內(nèi)數(shù)據(jù)(上月數(shù)據(jù))和樣本外數(shù)據(jù)(當(dāng)月數(shù)據(jù))。

訓(xùn)練集用于訓(xùn)練模型，得到可用于指數(shù)復(fù)制的股票池和最優(yōu)權(quán)重，即對(duì)成份股進(jìn)行社會(huì)網(wǎng)絡(luò)聚類(lèi)模型提取股票池，并用指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重。

測(cè)試集用于樣本外的預(yù)測(cè)研究，即將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外的指數(shù)復(fù)制，得到跟蹤指數(shù)。

特別地，社會(huì)網(wǎng)絡(luò)聚類(lèi)模型和指數(shù)跟蹤優(yōu)化模型可繼續(xù)深入展開(kāi)，具體如圖2和圖3。

圖2列出了社會(huì)網(wǎng)絡(luò)聚類(lèi)模型的流程圖，主要功能是從指數(shù)成份股中提取相關(guān)性低且具有代表性的股票用于構(gòu)建股票池。主要流程包括，用成份股間的相關(guān)系數(shù)計(jì)算度量距離，構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò)，用自適應(yīng)仿射傳播聚類(lèi)(AAP聚類(lèi))算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)，提取每簇的聚類(lèi)中心形成股票池。

圖3列出了指數(shù)跟蹤優(yōu)化模型的流程圖，主要是通過(guò)最優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤，確定復(fù)制的最優(yōu)權(quán)重。用股票池股票的線性組合得到跟蹤指數(shù)，以跟蹤指數(shù)與標(biāo)的指數(shù)的跟蹤誤差最小為目標(biāo)，進(jìn)行二次優(yōu)化模型求解股票的最優(yōu)線性組合，確定最優(yōu)權(quán)重。

本發(fā)明的目的是提供一種新的指數(shù)復(fù)制模型，模型在考慮個(gè)股差異性的同時(shí)，綜合考慮股票間的關(guān)聯(lián)性，經(jīng)社會(huì)網(wǎng)絡(luò)聚類(lèi)篩選中心股票構(gòu)建股票池進(jìn)行標(biāo)的指數(shù)精確跟蹤。

一、系統(tǒng)組成

本發(fā)明系統(tǒng)由數(shù)據(jù)源、測(cè)試集和訓(xùn)練集等構(gòu)成。本發(fā)明以上月和當(dāng)月指數(shù)以及成份股的1分鐘收盤(pán)價(jià)數(shù)據(jù)為輸入源，通過(guò)對(duì)上月數(shù)據(jù)的訓(xùn)練得到股票池和最優(yōu)權(quán)重，用于當(dāng)月的指數(shù)復(fù)制。

二、核心模塊

本發(fā)明系統(tǒng)包含兩個(gè)核心模塊：即社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊和指數(shù)跟蹤優(yōu)化模塊，分別用于確定股票池和最優(yōu)權(quán)重。

(1)社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊

社會(huì)網(wǎng)絡(luò)聚類(lèi)模型主要利用自適應(yīng)仿射傳播聚類(lèi)(AAP聚類(lèi))算法對(duì)成份股間的社會(huì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)分析，提出中心股票用于構(gòu)建股票池，流程圖如圖2所示。

成份股的社會(huì)網(wǎng)絡(luò)構(gòu)建主要通過(guò)成份股間的相關(guān)系數(shù)轉(zhuǎn)化為度量距離，以度量距離為標(biāo)準(zhǔn)形成成份股網(wǎng)絡(luò)。設(shè)p_it表示第i只成分股在第t(樣本內(nèi))時(shí)間的前復(fù)權(quán)收盤(pán)價(jià)，其對(duì)數(shù)收益率定義為：

r_i(t)＝lnp_i(t)-lnp_i(t-1)

這樣，可得到每只股票的對(duì)數(shù)收益率序列。根據(jù)對(duì)數(shù)收益率序列可計(jì)算任意兩只股票i和j在觀測(cè)時(shí)間內(nèi)股價(jià)波動(dòng)的線性相關(guān)系數(shù)ρ_ij，即：

其中：E(r_i)表示第i只股票在樣本內(nèi)的平均對(duì)數(shù)收益率，t₁表示樣本內(nèi)總交易天數(shù)。可根據(jù)任意兩只股票間的相關(guān)系數(shù)構(gòu)建相應(yīng)的相關(guān)系數(shù)矩陣C，其中C為對(duì)角線為1的對(duì)稱(chēng)矩陣。

由于相關(guān)系數(shù)集合不滿足度量空間的條件，為便于進(jìn)一步研究股票間的內(nèi)在性質(zhì)，需要將相關(guān)系數(shù)ρ_ij轉(zhuǎn)化為對(duì)應(yīng)的度量距離d_ij，即

式中：隨著股票i與j間的相關(guān)性越高，ρ_ij越大，相應(yīng)的d_ij越小。此時(shí)d_ij集合已滿足度量空間的基本條件。此時(shí)，相關(guān)系數(shù)矩陣C可轉(zhuǎn)化為距離矩陣D，D為對(duì)角線為0的對(duì)稱(chēng)陣。以度量矩陣D表示任意兩只股票間的距離，可以張成成份股的社會(huì)網(wǎng)絡(luò)。

自適應(yīng)仿射傳播(Adaptive Affinity Propagation,AAP)聚類(lèi)算法是仿射傳播(AffinityPropagation,AP)聚類(lèi)的改進(jìn)算法，因其高效的運(yùn)算速度與準(zhǔn)確度，外加AP聚類(lèi)自有的少量信息需求等特點(diǎn)，而被認(rèn)定為較為有效的聚類(lèi)算法。AP聚類(lèi)算法無(wú)需實(shí)現(xiàn)確定聚類(lèi)數(shù)目，而將所有節(jié)點(diǎn)都作為潛在的聚類(lèi)中心。AP算法包含兩種信息傳遞：吸引度R(i,k)(Responsibility，稱(chēng)為節(jié)點(diǎn)k對(duì)i的吸引度)和歸屬度A(i,k)(Availability，稱(chēng)為節(jié)點(diǎn)i對(duì)k的歸屬度)。R(i,k)和A(i,k)值越大，節(jié)點(diǎn)k成為聚類(lèi)中心的可能性越大。AP算法有兩個(gè)信息傳遞的參數(shù)：偏向參數(shù)p和阻尼因子l_am。其中，p表示節(jié)點(diǎn)成為聚類(lèi)中心的傾向性，l_am表示R(i,k)和A(i,k)更新的權(quán)重。p將決定最終的聚類(lèi)數(shù)目，值越大得到的聚類(lèi)數(shù)越多，默認(rèn)為所有節(jié)點(diǎn)相似度的中值。p與R、A和S之間的關(guān)系如下：

其中：S表示相似度矩陣，可表示為S(i,j)＝-d_ij。由上述關(guān)系可知，當(dāng)p(k)增大時(shí)，使得R(k,k)增加，進(jìn)而A(i,k)變大，從而使得股票k成為聚類(lèi)中心的傾向性增大。故增大或降低p值，可以有效增加或減少最終的聚類(lèi)數(shù)目。

在傳統(tǒng)的AP算法迭代中，吸引度和歸屬度需要與上一步結(jié)果通過(guò)阻尼因子l_am進(jìn)行加權(quán)更新：

R_old(i,k)＝(1-l_am)·R(i,k)+l_am·R_old(i,k)

A_new(i,k)＝(1-l_am)·A(i,k)+l_am·A_old(i,k)

其中：阻尼因子l_am∈[0,1]，默認(rèn)為0.5。當(dāng)l_am過(guò)小時(shí)，算法運(yùn)行速度加快，但可能出現(xiàn)震蕩不收斂現(xiàn)象；當(dāng)l_am過(guò)大時(shí)，雖可避免震蕩，但算法運(yùn)行速度會(huì)變慢。如何在效率與準(zhǔn)確率之間合理權(quán)衡是一個(gè)亟需解決的問(wèn)題。

因此可以發(fā)現(xiàn)，傳統(tǒng)AP算法存在如下缺陷：一是很難確定偏向參數(shù)p的取值，使算法能夠產(chǎn)生最優(yōu)的聚類(lèi)數(shù)；二是當(dāng)?shù)霈F(xiàn)震蕩時(shí)，算法不能自動(dòng)消除并趨于收斂。為此，王開(kāi)軍等人提出了AAP聚類(lèi)算法，以改善AP聚類(lèi)算法的缺陷。主要通過(guò)以下技術(shù)實(shí)現(xiàn)：自適應(yīng)掃描，逐步減小p值直至收斂，將會(huì)產(chǎn)生不同聚類(lèi)數(shù)目的聚類(lèi)結(jié)果；自適應(yīng)阻尼，當(dāng)震蕩發(fā)生時(shí)，逐步增加阻尼因子l_am直至消除震蕩；自適應(yīng)逃離，當(dāng)阻尼效果不佳時(shí)，降低p值直至擺脫震蕩。AAP聚類(lèi)算法通過(guò)不斷調(diào)整偏向參數(shù)p值，快速產(chǎn)生一系列聚類(lèi)結(jié)果，人們可以依據(jù)需求選擇包含既定簇?cái)?shù)的聚類(lèi)結(jié)果進(jìn)行研究。本文將從初始值開(kāi)始逐步減小p值直至得到簇?cái)?shù)為2終止，可以得到一系列包含不同簇?cái)?shù)的聚類(lèi)結(jié)果。選取包含不少于N的最大簇?cái)?shù)聚類(lèi)結(jié)果，并提取每簇的中心節(jié)點(diǎn)所代表的股票構(gòu)建股票池用于接下來(lái)的研究。

(2)指數(shù)跟蹤優(yōu)化模塊

指數(shù)跟蹤優(yōu)化模型主要通過(guò)二次優(yōu)化模型求解股票池股票的線性組合與標(biāo)的指數(shù)間跟蹤誤差最小化，確定最優(yōu)的跟蹤權(quán)重，流程圖如圖3所示。設(shè)有N只中心股票，R_I表示指數(shù)的收益率向量，R_X＝(R₁,R₂,…R_N)為股票的收益率矩陣，w＝(w₁,w₂,…,w_N)′為股票權(quán)重向量，則指數(shù)跟蹤模型的跟蹤誤差定義為：

ε＝R_I-R_Xw

則二次指數(shù)跟蹤優(yōu)化模型可定義為：

minε′ε＝(R_I-R_Xw)′(R_I-R_Xw)

為進(jìn)一步衡量指數(shù)跟蹤的效果，可引入跟蹤誤差(Tracking Error，TE)評(píng)價(jià)指標(biāo)，定義為

當(dāng)跟蹤誤差最小時(shí)，可以確定指數(shù)跟蹤的最優(yōu)權(quán)重。

三、模型算法流程

本節(jié)將對(duì)基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)復(fù)制模型的算法進(jìn)行詳細(xì)介紹，算法對(duì)應(yīng)的流程圖如1所示。具體算法如下：

(1)以股票交易時(shí)間為準(zhǔn)，從數(shù)據(jù)庫(kù)(如萬(wàn)得數(shù)據(jù)庫(kù)等)中下載指數(shù)(如滬深300指數(shù)和中證500指數(shù)等)及其成份股上月和當(dāng)月(此兩個(gè)月是按照期貨交易時(shí)間算的，即從當(dāng)月期貨最后交割日之后的交易日到兩個(gè)月后的最后交割日)的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)(每天交易時(shí)間為9:30～11:30，13:00～15:00，而在1分鐘數(shù)據(jù)中，只有9:30～11:29，13:00～14:59，共240個(gè)交易分鐘時(shí)間)。其中，由于指數(shù)成份股調(diào)整(中證指數(shù)專(zhuān)家委員會(huì)一般在每年5月和11月的下旬開(kāi)會(huì)審核滬深300指數(shù)樣本股，樣本股調(diào)整實(shí)施時(shí)間分別是每年6月和12月的第二個(gè)星期五收盤(pán)后的下一交易日)，若所選時(shí)間段有6月或12月，則以第一個(gè)月最后一個(gè)交易日指數(shù)的成份股為準(zhǔn)，否則無(wú)需調(diào)整。

(2)對(duì)所有收盤(pán)價(jià)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，包括：剔除缺失嚴(yán)重的股票、刪除第一天和最后一天停市或數(shù)據(jù)缺失的股票、刪除所有股票和指數(shù)及期貨缺失超過(guò)一半的“時(shí)刻”(分鐘)、對(duì)缺失數(shù)據(jù)進(jìn)行線性插值補(bǔ)全、再次對(duì)首末存在缺失的“時(shí)刻”進(jìn)行刪除，最終得到研究的樣本(包含指數(shù)及其成份股數(shù)據(jù))；

(3)計(jì)算研究樣本的對(duì)數(shù)收益率，即：r_i(t)＝lnP_i(t)-lnP_i(t-1)，得到指數(shù)以及成份股的對(duì)數(shù)收益率序列；

(4)基于對(duì)數(shù)收益率序列，對(duì)第一個(gè)月(t∈[1,t₁])的成份股構(gòu)建社會(huì)網(wǎng)絡(luò)并進(jìn)行AAP聚類(lèi)，通過(guò)調(diào)節(jié)p值確定一系列包含不同簇的聚類(lèi)結(jié)果(每組聚類(lèi)結(jié)果包含2，3，4，……等個(gè)簇)，并提取每一組聚類(lèi)結(jié)果的每簇的聚類(lèi)中心(又稱(chēng)作簇的類(lèi)代表)分別構(gòu)建股票池；

(5)針對(duì)每組聚類(lèi)結(jié)果，通過(guò)二次指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重w＝(w₁,w₂,…,w_N)′，并引入跟蹤誤差TE度量指數(shù)跟蹤效果的好壞；

(6)因股票最低手?jǐn)?shù)和資金量等限制，上述求解的權(quán)重w非真正投資時(shí)的下單權(quán)重，故需要對(duì)上述權(quán)重進(jìn)行修正，修正方法如下：

a)計(jì)算投資使用的資金總量：依據(jù)實(shí)際投資需求或相應(yīng)期貨價(jià)格，確定投資自己可使用總量M；

b)計(jì)算各股票的最優(yōu)投資量：每只股票的最優(yōu)投資量為

n_i＝w_i×M/P_i(t₁)

其中：P_i(t₁)表示第i只股票第一個(gè)月最后一個(gè)交易日的收盤(pán)價(jià)；

c)計(jì)算各股票的實(shí)際投資量：由于股票每次至少買(mǎi)一手即100股，故需要對(duì)n_i取2位整數(shù)，得到實(shí)際投資量

d)計(jì)算各股票真實(shí)的權(quán)重：利用實(shí)際投資量和股票價(jià)格P_i(t₁)可計(jì)算各股票的真實(shí)權(quán)重公式如下：

同時(shí)，利用真實(shí)權(quán)重可計(jì)算真實(shí)的跟蹤誤差，即

(7)利用各股票的實(shí)際投資量及第一個(gè)月每分鐘的收盤(pán)價(jià)可計(jì)算復(fù)制的指數(shù)價(jià)格P_X(t)，定義為：

(8)通過(guò)對(duì)每組聚類(lèi)結(jié)果分別計(jì)算真實(shí)跟蹤誤差并繪制跟蹤誤差隨聚類(lèi)結(jié)果數(shù)變化曲線圖，通過(guò)對(duì)曲線圖的走勢(shì)分析確定既定最終的股票個(gè)數(shù)及最優(yōu)的投資權(quán)重。特別的，研究發(fā)現(xiàn)一般50只股票即可滿足要求。將股票池以及最優(yōu)權(quán)重帶入樣本外，即可得到樣本的跟蹤指數(shù)。

以上所述僅是本發(fā)明的部分實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉海飛;許金濤
技術(shù)所有人：南京大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

股票指數(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法及系統(tǒng)與流程