本發(fā)明涉及一種證券數(shù)據(jù)分析處理方法及系統(tǒng),尤其涉及一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)復(fù)制模型構(gòu)建技術(shù),屬于數(shù)據(jù)分析及預(yù)測(cè)技術(shù)領(lǐng)域。
背景技術(shù):
股票價(jià)格指數(shù)是通過(guò)對(duì)股票市場(chǎng)上一些有代表性的公司發(fā)行的股票價(jià)格進(jìn)行平均計(jì)算和動(dòng)態(tài)對(duì)比后得出的數(shù)值。股票價(jià)格指數(shù)能綜合考察股票市場(chǎng)的動(dòng)態(tài)變化過(guò)程,反映股票市場(chǎng)的價(jià)格水平,為社會(huì)公眾提供股票投資和合法的股票增值活動(dòng)的參考依據(jù),這些有代表性的公司股票被籠統(tǒng)的稱(chēng)為成份股。比如,上證180指數(shù)和深證100指數(shù)就是滬、深股市中兩個(gè)具有典型代表性的指數(shù),而構(gòu)成上述指數(shù)的股票就分別稱(chēng)為上證180指數(shù)成份股和深圳100指數(shù)成份股。成份股的選擇主要考慮兩條標(biāo)準(zhǔn):一是成份股的市價(jià)總值要占在交易所上市的全部股票市價(jià)總值的相當(dāng)部分;二是成份股價(jià)格變動(dòng)趨勢(shì)必須能反映股票市場(chǎng)價(jià)格變動(dòng)的總趨勢(shì)。
期現(xiàn)套利涉及股指期貨市場(chǎng)和證券現(xiàn)貨市場(chǎng),能間接反映市場(chǎng)的有效性和成熟度,對(duì)提高兩個(gè)市場(chǎng)的流動(dòng)性和增強(qiáng)兩個(gè)市場(chǎng)的價(jià)格發(fā)現(xiàn)功能具有重要意義。期現(xiàn)套利主要是對(duì)股指期貨與現(xiàn)貨之間基差進(jìn)行套利。股指期貨與對(duì)應(yīng)現(xiàn)貨間理論上具有穩(wěn)定的均衡關(guān)系,但是現(xiàn)實(shí)中由于信息不對(duì)稱(chēng)、投資者情緒、市場(chǎng)波動(dòng)等因素會(huì)出現(xiàn)股指期貨價(jià)格相對(duì)于現(xiàn)貨價(jià)格被高估或者低估的不平衡現(xiàn)象,而呈現(xiàn)動(dòng)態(tài)均衡關(guān)系。可見(jiàn),想要實(shí)現(xiàn)期現(xiàn)套利,主要取決于以下兩個(gè)條件:一是股指期貨的標(biāo)的指數(shù)跟蹤效果良好;二是指數(shù)基金流動(dòng)性好,股指期貨與現(xiàn)貨的基差動(dòng)態(tài)均衡。所以,指數(shù)復(fù)制(跟蹤預(yù)測(cè)指數(shù)漲跌)是規(guī)避風(fēng)險(xiǎn)和套利投機(jī)中必不可少的操作手段。
目前的指數(shù)復(fù)制技術(shù)主要包括以下幾種:
基于市值排序方法的指數(shù)復(fù)制:市值排序法是對(duì)標(biāo)的指數(shù)(如滬深300指數(shù))成份股按照日均市值降序排序,依次選取一定數(shù)量股票構(gòu)建股票池,利用二次指數(shù)跟蹤模型確定最優(yōu)投資權(quán)重,進(jìn)行標(biāo)的指數(shù)的復(fù)制。
基于權(quán)重排序方法的指數(shù)復(fù)制:權(quán)重排序法是對(duì)標(biāo)的指數(shù)成份股按照日均權(quán)重均值降序,依次選取一定數(shù)量股票構(gòu)建股票池,利用二次指數(shù)跟蹤模型確定最優(yōu)投資權(quán)重,進(jìn)行標(biāo)的指數(shù)的復(fù)制。
現(xiàn)有基于成份股的指數(shù)復(fù)制技術(shù),過(guò)多考慮的是市值因素和權(quán)重因素等,忽視了一些小市值股票在指數(shù)構(gòu)成中的作用;選股的股票所屬行業(yè)單一,分散化程度低;沒(méi)有考慮股票間的關(guān)聯(lián)性,股票的相關(guān)性較高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是:提出一種新的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)跟蹤預(yù)測(cè)方法,在全面考慮個(gè)股間的關(guān)聯(lián)性的條件下,通過(guò)聚類(lèi)分析提取相關(guān)性較低且具有代表性的股票構(gòu)建股票池進(jìn)行指數(shù)復(fù)制研究。
本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:
一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,包括以下步驟:
(1)、從第三方數(shù)據(jù)庫(kù)中采集上月和當(dāng)月的指數(shù)以及成份股數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗,得到能用于研究的樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù);所述樣本內(nèi)數(shù)據(jù)為指數(shù)及其成份股上月的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù),所述樣本外數(shù)據(jù)為指數(shù)及其成份股當(dāng)月的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù);
(2)、根據(jù)樣本內(nèi)數(shù)據(jù)構(gòu)建訓(xùn)練模型,對(duì)成份股采用社會(huì)網(wǎng)絡(luò)聚類(lèi)模型構(gòu)建股票池,并用指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重;
(3)、將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外數(shù)據(jù)的指數(shù)跟蹤,得到預(yù)測(cè)的指數(shù)。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,在步驟(1)中,對(duì)所有收盤(pán)價(jià)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括:剔除缺失嚴(yán)重的股票、刪除第一天和最后一天停市或數(shù)據(jù)缺失的股票、刪除所有股票和指數(shù)及期貨缺失超過(guò)一半的時(shí)刻、對(duì)缺失數(shù)據(jù)進(jìn)行線性插值補(bǔ)全、再次對(duì)首末存在缺失的時(shí)刻進(jìn)行刪除,最終得到研究的樣本內(nèi)、樣本外數(shù)據(jù)。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,在步驟(2)中,是從成份股中提取相關(guān)性低且具有代表性的股票構(gòu)建股票池,具體流程包括:用成份股間的相關(guān)系數(shù)計(jì)算度量距離,構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò),用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi),提取每簇的聚類(lèi)中心形成股票池。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,在步驟(2)中,所述指數(shù)跟蹤優(yōu)化模型是通過(guò)最優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤,具體為:用股票池股票的線性組合得到跟蹤指數(shù),以跟蹤指數(shù)與標(biāo)的指數(shù)的跟蹤誤差最小為目標(biāo),進(jìn)行二次優(yōu)化模型求解股票的最優(yōu)線性組合,確定最優(yōu)權(quán)重。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,在步驟(2)中,用成份股間的相關(guān)系數(shù)計(jì)算度量距離,構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò),用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi),提取每簇的聚類(lèi)中心形成股票池,具體如下:
A、計(jì)算研究樣本的對(duì)數(shù)收益率ri(t),ri(t)=lnpi(t)-lnpi(t-1),得到指數(shù)以及成份股的對(duì)數(shù)收益率序列;其中,pi(t)表示第i只成分股在第t時(shí)間的前復(fù)權(quán)收盤(pán)價(jià);
B、基于對(duì)數(shù)收益率序列,計(jì)算任意兩只股票i和j在觀測(cè)時(shí)間內(nèi)股價(jià)波動(dòng)的線性相關(guān)系數(shù)ρij,其中E(ri)表示第i只股票在樣本內(nèi)的平均對(duì)數(shù)收益率,t1表示樣本內(nèi)總交易天數(shù);
C、根據(jù)任意兩只股票間的相關(guān)系數(shù)構(gòu)建相應(yīng)的相關(guān)系數(shù)矩陣C,其中C為對(duì)角線為1的對(duì)稱(chēng)矩陣;
D、將相關(guān)系數(shù)ρij轉(zhuǎn)化為對(duì)應(yīng)的度量距離dij,將相關(guān)系數(shù)矩陣C轉(zhuǎn)化為距離矩陣D,以距離矩陣D表示任意兩只股票間的度量距離,得到成份股間的社會(huì)網(wǎng)絡(luò),其中D為對(duì)角線為0的對(duì)稱(chēng)矩陣;
E、對(duì)成份股間的社會(huì)網(wǎng)絡(luò)進(jìn)行自適應(yīng)仿射傳播AAP聚類(lèi),通過(guò)不斷調(diào)整偏向參數(shù)值確定一系列包含不同簇的聚類(lèi)結(jié)果,并提取每一組聚類(lèi)結(jié)果的每簇的聚類(lèi)中心分別構(gòu)建股票池。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,在步驟(2)中,針對(duì)每組聚類(lèi)結(jié)果,通過(guò)二次指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重,并引入跟蹤誤差TE度量指數(shù)跟蹤效果的好壞。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,所述二次指數(shù)跟蹤優(yōu)化模型為:
minε′ε=(RI-RXw)′(RI-RXw)
其中,ε代表指數(shù)跟蹤優(yōu)化模型的跟蹤誤差,ε=RI-RXw,RI表示指數(shù)的收益率向量,RX=(R1,R2,…RN)為股票的收益率矩陣,w=(w1,w2,…,wN)′為股票權(quán)重向量,N代表聚類(lèi)中心股票的數(shù)量;
所述跟蹤誤差:
當(dāng)跟蹤誤差最小時(shí),可以確定指數(shù)跟蹤的最優(yōu)權(quán)重。
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,當(dāng)?shù)玫降臋?quán)重需要進(jìn)行修正時(shí),修正方法如下:
a)計(jì)算投資使用的資金總量:依據(jù)實(shí)際投資需求或相應(yīng)期貨價(jià)格,確定投資自己可使用總量M;
b)計(jì)算各股票的最優(yōu)投資量:每只股票的最優(yōu)投資量為:
ni=wi×M/Pi(t1)
其中:Pi(t1)表示第i只股票第一個(gè)月最后一個(gè)交易日的收盤(pán)價(jià);
c)計(jì)算各股票的實(shí)際投資量:對(duì)ni取2位整數(shù),得到實(shí)際投資量
d)計(jì)算各股票真實(shí)的權(quán)重:利用實(shí)際投資量和股票價(jià)格Pi(t1),計(jì)算各股票的真實(shí)權(quán)重公式如下:
同時(shí),利用真實(shí)權(quán)重計(jì)算真實(shí)的跟蹤誤差,即:
進(jìn)一步,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)方法,利用各股票的實(shí)際投資量及第一個(gè)月每分鐘的收盤(pán)價(jià)可計(jì)算復(fù)制的指數(shù)價(jià)格PX(t),定義為:
通過(guò)對(duì)每組聚類(lèi)結(jié)果分別計(jì)算真實(shí)跟蹤誤差并繪制跟蹤誤差隨聚類(lèi)結(jié)果數(shù)變化曲線圖,通過(guò)對(duì)曲線圖的走勢(shì)分析確定既定最終的股票個(gè)數(shù)及最優(yōu)的投資權(quán)重;將股票池以及最優(yōu)權(quán)重帶入樣本外,即可得到樣本的跟蹤指數(shù)。
本發(fā)明還提出一種基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的股票指數(shù)跟蹤預(yù)測(cè)系統(tǒng)方法,具體包括:
數(shù)據(jù)處理模塊,用于從第三方數(shù)據(jù)庫(kù)中采集上月和當(dāng)月的指數(shù)以及成份股數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗,得到能用于研究的樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù);所述樣本內(nèi)數(shù)據(jù)為上月的指數(shù)及其成份股前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù),所述樣本外數(shù)據(jù)為當(dāng)月的指數(shù)及其成份股前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù);
訓(xùn)練模塊,用成份股間的相關(guān)系數(shù)計(jì)算度量距離,構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò),用自適應(yīng)仿射傳播聚類(lèi)算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi),提取每簇的聚類(lèi)中心形成股票池,并用指數(shù)跟蹤優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤,確定指數(shù)跟蹤的最優(yōu)權(quán)重;
預(yù)測(cè)模塊,將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外數(shù)據(jù)的指數(shù)跟蹤,得到預(yù)測(cè)的指數(shù)。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
本發(fā)明構(gòu)建的股票池相關(guān)性低、跟蹤誤差較小、復(fù)制結(jié)果穩(wěn)定性好,可以與股指期貨結(jié)合進(jìn)行期現(xiàn)套利。相對(duì)于已有指數(shù)復(fù)制模型,本發(fā)明取得了對(duì)指數(shù)的精確跟蹤。
附圖說(shuō)明
圖1是本發(fā)明的指數(shù)復(fù)制系統(tǒng)結(jié)構(gòu)圖。
圖2是本發(fā)明的社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊流程圖。
圖3是本發(fā)明的指數(shù)跟蹤優(yōu)化模塊流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明,通過(guò)參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
如圖1所示,圖中列出了本發(fā)明的指數(shù)復(fù)制系統(tǒng)結(jié)構(gòu)圖。主要可分為數(shù)據(jù)源,訓(xùn)練集和測(cè)試集三個(gè)部分。
其中,數(shù)據(jù)源主要涉及數(shù)據(jù)的采集與處理等內(nèi)容,即從第三方數(shù)據(jù)庫(kù)(如萬(wàn)得數(shù)據(jù)庫(kù)等)中采集指數(shù)以及成份股上月和當(dāng)月的1分鐘前復(fù)權(quán)收盤(pán)價(jià)數(shù)據(jù),并從股票停盤(pán)、數(shù)據(jù)缺失等方面對(duì)數(shù)據(jù)進(jìn)行清洗,得到可以用于研究的樣本內(nèi)數(shù)據(jù)(上月數(shù)據(jù))和樣本外數(shù)據(jù)(當(dāng)月數(shù)據(jù))。
訓(xùn)練集用于訓(xùn)練模型,得到可用于指數(shù)復(fù)制的股票池和最優(yōu)權(quán)重,即對(duì)成份股進(jìn)行社會(huì)網(wǎng)絡(luò)聚類(lèi)模型提取股票池,并用指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重。
測(cè)試集用于樣本外的預(yù)測(cè)研究,即將樣本內(nèi)訓(xùn)練得到的股票池和最優(yōu)權(quán)重運(yùn)用于樣本外的指數(shù)復(fù)制,得到跟蹤指數(shù)。
特別地,社會(huì)網(wǎng)絡(luò)聚類(lèi)模型和指數(shù)跟蹤優(yōu)化模型可繼續(xù)深入展開(kāi),具體如圖2和圖3。
圖2列出了社會(huì)網(wǎng)絡(luò)聚類(lèi)模型的流程圖,主要功能是從指數(shù)成份股中提取相關(guān)性低且具有代表性的股票用于構(gòu)建股票池。主要流程包括,用成份股間的相關(guān)系數(shù)計(jì)算度量距離,構(gòu)建成份股間的社會(huì)網(wǎng)絡(luò),用自適應(yīng)仿射傳播聚類(lèi)(AAP聚類(lèi))算法對(duì)網(wǎng)絡(luò)進(jìn)行聚類(lèi),提取每簇的聚類(lèi)中心形成股票池。
圖3列出了指數(shù)跟蹤優(yōu)化模型的流程圖,主要是通過(guò)最優(yōu)化模型實(shí)現(xiàn)股票池股票對(duì)標(biāo)的指數(shù)的最優(yōu)跟蹤,確定復(fù)制的最優(yōu)權(quán)重。用股票池股票的線性組合得到跟蹤指數(shù),以跟蹤指數(shù)與標(biāo)的指數(shù)的跟蹤誤差最小為目標(biāo),進(jìn)行二次優(yōu)化模型求解股票的最優(yōu)線性組合,確定最優(yōu)權(quán)重。
本發(fā)明的目的是提供一種新的指數(shù)復(fù)制模型,模型在考慮個(gè)股差異性的同時(shí),綜合考慮股票間的關(guān)聯(lián)性,經(jīng)社會(huì)網(wǎng)絡(luò)聚類(lèi)篩選中心股票構(gòu)建股票池進(jìn)行標(biāo)的指數(shù)精確跟蹤。
一、系統(tǒng)組成
本發(fā)明系統(tǒng)由數(shù)據(jù)源、測(cè)試集和訓(xùn)練集等構(gòu)成。本發(fā)明以上月和當(dāng)月指數(shù)以及成份股的1分鐘收盤(pán)價(jià)數(shù)據(jù)為輸入源,通過(guò)對(duì)上月數(shù)據(jù)的訓(xùn)練得到股票池和最優(yōu)權(quán)重,用于當(dāng)月的指數(shù)復(fù)制。
二、核心模塊
本發(fā)明系統(tǒng)包含兩個(gè)核心模塊:即社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊和指數(shù)跟蹤優(yōu)化模塊,分別用于確定股票池和最優(yōu)權(quán)重。
(1)社會(huì)網(wǎng)絡(luò)聚類(lèi)模塊
社會(huì)網(wǎng)絡(luò)聚類(lèi)模型主要利用自適應(yīng)仿射傳播聚類(lèi)(AAP聚類(lèi))算法對(duì)成份股間的社會(huì)網(wǎng)絡(luò)進(jìn)行聚類(lèi)分析,提出中心股票用于構(gòu)建股票池,流程圖如圖2所示。
成份股的社會(huì)網(wǎng)絡(luò)構(gòu)建主要通過(guò)成份股間的相關(guān)系數(shù)轉(zhuǎn)化為度量距離,以度量距離為標(biāo)準(zhǔn)形成成份股網(wǎng)絡(luò)。設(shè)pit表示第i只成分股在第t(樣本內(nèi))時(shí)間的前復(fù)權(quán)收盤(pán)價(jià),其對(duì)數(shù)收益率定義為:
ri(t)=lnpi(t)-lnpi(t-1)
這樣,可得到每只股票的對(duì)數(shù)收益率序列。根據(jù)對(duì)數(shù)收益率序列可計(jì)算任意兩只股票i和j在觀測(cè)時(shí)間內(nèi)股價(jià)波動(dòng)的線性相關(guān)系數(shù)ρij,即:
其中:E(ri)表示第i只股票在樣本內(nèi)的平均對(duì)數(shù)收益率,t1表示樣本內(nèi)總交易天數(shù)。可根據(jù)任意兩只股票間的相關(guān)系數(shù)構(gòu)建相應(yīng)的相關(guān)系數(shù)矩陣C,其中C為對(duì)角線為1的對(duì)稱(chēng)矩陣。
由于相關(guān)系數(shù)集合不滿足度量空間的條件,為便于進(jìn)一步研究股票間的內(nèi)在性質(zhì),需要將相關(guān)系數(shù)ρij轉(zhuǎn)化為對(duì)應(yīng)的度量距離dij,即
式中:隨著股票i與j間的相關(guān)性越高,ρij越大,相應(yīng)的dij越小。此時(shí)dij集合已滿足度量空間的基本條件。此時(shí),相關(guān)系數(shù)矩陣C可轉(zhuǎn)化為距離矩陣D,D為對(duì)角線為0的對(duì)稱(chēng)陣。以度量矩陣D表示任意兩只股票間的距離,可以張成成份股的社會(huì)網(wǎng)絡(luò)。
自適應(yīng)仿射傳播(Adaptive Affinity Propagation,AAP)聚類(lèi)算法是仿射傳播(AffinityPropagation,AP)聚類(lèi)的改進(jìn)算法,因其高效的運(yùn)算速度與準(zhǔn)確度,外加AP聚類(lèi)自有的少量信息需求等特點(diǎn),而被認(rèn)定為較為有效的聚類(lèi)算法。AP聚類(lèi)算法無(wú)需實(shí)現(xiàn)確定聚類(lèi)數(shù)目,而將所有節(jié)點(diǎn)都作為潛在的聚類(lèi)中心。AP算法包含兩種信息傳遞:吸引度R(i,k)(Responsibility,稱(chēng)為節(jié)點(diǎn)k對(duì)i的吸引度)和歸屬度A(i,k)(Availability,稱(chēng)為節(jié)點(diǎn)i對(duì)k的歸屬度)。R(i,k)和A(i,k)值越大,節(jié)點(diǎn)k成為聚類(lèi)中心的可能性越大。AP算法有兩個(gè)信息傳遞的參數(shù):偏向參數(shù)p和阻尼因子lam。其中,p表示節(jié)點(diǎn)成為聚類(lèi)中心的傾向性,lam表示R(i,k)和A(i,k)更新的權(quán)重。p將決定最終的聚類(lèi)數(shù)目,值越大得到的聚類(lèi)數(shù)越多,默認(rèn)為所有節(jié)點(diǎn)相似度的中值。p與R、A和S之間的關(guān)系如下:
其中:S表示相似度矩陣,可表示為S(i,j)=-dij。由上述關(guān)系可知,當(dāng)p(k)增大時(shí),使得R(k,k)增加,進(jìn)而A(i,k)變大,從而使得股票k成為聚類(lèi)中心的傾向性增大。故增大或降低p值,可以有效增加或減少最終的聚類(lèi)數(shù)目。
在傳統(tǒng)的AP算法迭代中,吸引度和歸屬度需要與上一步結(jié)果通過(guò)阻尼因子lam進(jìn)行加權(quán)更新:
Rold(i,k)=(1-lam)·R(i,k)+lam·Rold(i,k)
Anew(i,k)=(1-lam)·A(i,k)+lam·Aold(i,k)
其中:阻尼因子lam∈[0,1],默認(rèn)為0.5。當(dāng)lam過(guò)小時(shí),算法運(yùn)行速度加快,但可能出現(xiàn)震蕩不收斂現(xiàn)象;當(dāng)lam過(guò)大時(shí),雖可避免震蕩,但算法運(yùn)行速度會(huì)變慢。如何在效率與準(zhǔn)確率之間合理權(quán)衡是一個(gè)亟需解決的問(wèn)題。
因此可以發(fā)現(xiàn),傳統(tǒng)AP算法存在如下缺陷:一是很難確定偏向參數(shù)p的取值,使算法能夠產(chǎn)生最優(yōu)的聚類(lèi)數(shù);二是當(dāng)?shù)霈F(xiàn)震蕩時(shí),算法不能自動(dòng)消除并趨于收斂。為此,王開(kāi)軍等人提出了AAP聚類(lèi)算法,以改善AP聚類(lèi)算法的缺陷。主要通過(guò)以下技術(shù)實(shí)現(xiàn):自適應(yīng)掃描,逐步減小p值直至收斂,將會(huì)產(chǎn)生不同聚類(lèi)數(shù)目的聚類(lèi)結(jié)果;自適應(yīng)阻尼,當(dāng)震蕩發(fā)生時(shí),逐步增加阻尼因子lam直至消除震蕩;自適應(yīng)逃離,當(dāng)阻尼效果不佳時(shí),降低p值直至擺脫震蕩。AAP聚類(lèi)算法通過(guò)不斷調(diào)整偏向參數(shù)p值,快速產(chǎn)生一系列聚類(lèi)結(jié)果,人們可以依據(jù)需求選擇包含既定簇?cái)?shù)的聚類(lèi)結(jié)果進(jìn)行研究。本文將從初始值開(kāi)始逐步減小p值直至得到簇?cái)?shù)為2終止,可以得到一系列包含不同簇?cái)?shù)的聚類(lèi)結(jié)果。選取包含不少于N的最大簇?cái)?shù)聚類(lèi)結(jié)果,并提取每簇的中心節(jié)點(diǎn)所代表的股票構(gòu)建股票池用于接下來(lái)的研究。
(2)指數(shù)跟蹤優(yōu)化模塊
指數(shù)跟蹤優(yōu)化模型主要通過(guò)二次優(yōu)化模型求解股票池股票的線性組合與標(biāo)的指數(shù)間跟蹤誤差最小化,確定最優(yōu)的跟蹤權(quán)重,流程圖如圖3所示。設(shè)有N只中心股票,RI表示指數(shù)的收益率向量,RX=(R1,R2,…RN)為股票的收益率矩陣,w=(w1,w2,…,wN)′為股票權(quán)重向量,則指數(shù)跟蹤模型的跟蹤誤差定義為:
ε=RI-RXw
則二次指數(shù)跟蹤優(yōu)化模型可定義為:
minε′ε=(RI-RXw)′(RI-RXw)
為進(jìn)一步衡量指數(shù)跟蹤的效果,可引入跟蹤誤差(Tracking Error,TE)評(píng)價(jià)指標(biāo),定義為
當(dāng)跟蹤誤差最小時(shí),可以確定指數(shù)跟蹤的最優(yōu)權(quán)重。
三、模型算法流程
本節(jié)將對(duì)基于社會(huì)網(wǎng)絡(luò)聚類(lèi)的指數(shù)復(fù)制模型的算法進(jìn)行詳細(xì)介紹,算法對(duì)應(yīng)的流程圖如1所示。具體算法如下:
(1)以股票交易時(shí)間為準(zhǔn),從數(shù)據(jù)庫(kù)(如萬(wàn)得數(shù)據(jù)庫(kù)等)中下載指數(shù)(如滬深300指數(shù)和中證500指數(shù)等)及其成份股上月和當(dāng)月(此兩個(gè)月是按照期貨交易時(shí)間算的,即從當(dāng)月期貨最后交割日之后的交易日到兩個(gè)月后的最后交割日)的前復(fù)權(quán)1分鐘收盤(pán)價(jià)數(shù)據(jù)(每天交易時(shí)間為9:30~11:30,13:00~15:00,而在1分鐘數(shù)據(jù)中,只有9:30~11:29,13:00~14:59,共240個(gè)交易分鐘時(shí)間)。其中,由于指數(shù)成份股調(diào)整(中證指數(shù)專(zhuān)家委員會(huì)一般在每年5月和11月的下旬開(kāi)會(huì)審核滬深300指數(shù)樣本股,樣本股調(diào)整實(shí)施時(shí)間分別是每年6月和12月的第二個(gè)星期五收盤(pán)后的下一交易日),若所選時(shí)間段有6月或12月,則以第一個(gè)月最后一個(gè)交易日指數(shù)的成份股為準(zhǔn),否則無(wú)需調(diào)整。
(2)對(duì)所有收盤(pán)價(jià)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括:剔除缺失嚴(yán)重的股票、刪除第一天和最后一天停市或數(shù)據(jù)缺失的股票、刪除所有股票和指數(shù)及期貨缺失超過(guò)一半的“時(shí)刻”(分鐘)、對(duì)缺失數(shù)據(jù)進(jìn)行線性插值補(bǔ)全、再次對(duì)首末存在缺失的“時(shí)刻”進(jìn)行刪除,最終得到研究的樣本(包含指數(shù)及其成份股數(shù)據(jù));
(3)計(jì)算研究樣本的對(duì)數(shù)收益率,即:ri(t)=lnPi(t)-lnPi(t-1),得到指數(shù)以及成份股的對(duì)數(shù)收益率序列;
(4)基于對(duì)數(shù)收益率序列,對(duì)第一個(gè)月(t∈[1,t1])的成份股構(gòu)建社會(huì)網(wǎng)絡(luò)并進(jìn)行AAP聚類(lèi),通過(guò)調(diào)節(jié)p值確定一系列包含不同簇的聚類(lèi)結(jié)果(每組聚類(lèi)結(jié)果包含2,3,4,……等個(gè)簇),并提取每一組聚類(lèi)結(jié)果的每簇的聚類(lèi)中心(又稱(chēng)作簇的類(lèi)代表)分別構(gòu)建股票池;
(5)針對(duì)每組聚類(lèi)結(jié)果,通過(guò)二次指數(shù)跟蹤優(yōu)化模型確定最優(yōu)權(quán)重w=(w1,w2,…,wN)′,并引入跟蹤誤差TE度量指數(shù)跟蹤效果的好壞;
(6)因股票最低手?jǐn)?shù)和資金量等限制,上述求解的權(quán)重w非真正投資時(shí)的下單權(quán)重,故需要對(duì)上述權(quán)重進(jìn)行修正,修正方法如下:
a)計(jì)算投資使用的資金總量:依據(jù)實(shí)際投資需求或相應(yīng)期貨價(jià)格,確定投資自己可使用總量M;
b)計(jì)算各股票的最優(yōu)投資量:每只股票的最優(yōu)投資量為
ni=wi×M/Pi(t1)
其中:Pi(t1)表示第i只股票第一個(gè)月最后一個(gè)交易日的收盤(pán)價(jià);
c)計(jì)算各股票的實(shí)際投資量:由于股票每次至少買(mǎi)一手即100股,故需要對(duì)ni取2位整數(shù),得到實(shí)際投資量
d)計(jì)算各股票真實(shí)的權(quán)重:利用實(shí)際投資量和股票價(jià)格Pi(t1)可計(jì)算各股票的真實(shí)權(quán)重公式如下:
同時(shí),利用真實(shí)權(quán)重可計(jì)算真實(shí)的跟蹤誤差,即
(7)利用各股票的實(shí)際投資量及第一個(gè)月每分鐘的收盤(pán)價(jià)可計(jì)算復(fù)制的指數(shù)價(jià)格PX(t),定義為:
(8)通過(guò)對(duì)每組聚類(lèi)結(jié)果分別計(jì)算真實(shí)跟蹤誤差并繪制跟蹤誤差隨聚類(lèi)結(jié)果數(shù)變化曲線圖,通過(guò)對(duì)曲線圖的走勢(shì)分析確定既定最終的股票個(gè)數(shù)及最優(yōu)的投資權(quán)重。特別的,研究發(fā)現(xiàn)一般50只股票即可滿足要求。將股票池以及最優(yōu)權(quán)重帶入樣本外,即可得到樣本的跟蹤指數(shù)。
以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。