一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法
【專(zhuān)利摘要】本發(fā)明涉及一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法,包括以下步驟:信息采集:針對(duì)新浪網(wǎng)財(cái)經(jīng)新聞網(wǎng)頁(yè),利用網(wǎng)絡(luò)爬蟲(chóng)Heritrix采集財(cái)經(jīng)新聞網(wǎng)頁(yè);信息預(yù)處理:對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)進(jìn)行正文抽取、分詞、詞性標(biāo)注,以及停用詞和標(biāo)點(diǎn)符號(hào)過(guò)濾;語(yǔ)料構(gòu)建:構(gòu)建股票領(lǐng)域相關(guān)語(yǔ)料庫(kù);情感分析:對(duì)股票領(lǐng)域相關(guān)語(yǔ)料進(jìn)行情感分析;股市技術(shù)分析:獲取股市技術(shù)分析指標(biāo);采用基于情感分析和隱馬爾科夫模型融合的預(yù)測(cè)方法預(yù)測(cè)股市走向。本發(fā)明通過(guò)利用財(cái)經(jīng)新聞網(wǎng)頁(yè)中的情感傾向性信息,提高了股市預(yù)測(cè)的準(zhǔn)確性,在傾向性分析、主題檢測(cè)、股市預(yù)測(cè)、網(wǎng)絡(luò)內(nèi)容監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景。
【專(zhuān)利說(shuō)明】一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法,屬于意見(jiàn)挖掘和股市預(yù)測(cè)領(lǐng)域,適用于傾向性分析、主題檢測(cè)、網(wǎng)絡(luò)內(nèi)容監(jiān)控等。
【背景技術(shù)】
[0002]證券市場(chǎng)與金融投資在現(xiàn)代社會(huì)中占有重要的地位。股市行情受?chē)?guó)際環(huán)境、國(guó)家政策、經(jīng)濟(jì)形勢(shì)、社會(huì)問(wèn)題,以及投資者心理等諸多因素的影響。股市預(yù)測(cè)是經(jīng)濟(jì)、系統(tǒng)科學(xué)領(lǐng)域的重要研究問(wèn)題。
[0003]常用的股市預(yù)測(cè)方法包括證券投資分析法、時(shí)間序列預(yù)測(cè)分析法、非線(xiàn)性預(yù)測(cè)法。證券投資分析法包括基本分析法和技術(shù)分析法?;痉治龇ㄖ饕ê暧^(guān)經(jīng)濟(jì)分析和產(chǎn)業(yè)周期分析等,技術(shù)分析法是根據(jù)股市行情變化進(jìn)行分析的方法。時(shí)間序列預(yù)測(cè)分析法是根據(jù)股市行情的歷史數(shù)據(jù)來(lái)預(yù)測(cè)股票價(jià)格未來(lái)的發(fā)展趨勢(shì)和特點(diǎn)。非線(xiàn)性預(yù)測(cè)法包括基于統(tǒng)計(jì)學(xué)理論的預(yù)測(cè)方法、神經(jīng)網(wǎng)絡(luò)方法、模糊邏輯預(yù)測(cè)法等。
[0004]互聯(lián)網(wǎng)的迅猛發(fā)展和廣泛普及,使得人們能夠及時(shí)獲得眾多財(cái)經(jīng)新聞。由于財(cái)經(jīng)新聞反映了政府與相關(guān)機(jī)構(gòu)對(duì)證券市場(chǎng)發(fā)展變化的觀(guān)點(diǎn),這些觀(guān)點(diǎn)信息不斷在影響投資者對(duì)于市場(chǎng)趨勢(shì)的判斷,進(jìn)而影響市場(chǎng)走勢(shì)。另外,隨著情感分析技術(shù)的發(fā)展,情感分析技術(shù)已被應(yīng)用于證券領(lǐng)域。在現(xiàn)有的基于情感分析的股票預(yù)測(cè)方法中,處理對(duì)象主要包括互聯(lián)網(wǎng)金融留言板和微博信息,處理方法是發(fā)現(xiàn)這些信息的情感傾向與股市行情的關(guān)聯(lián),進(jìn)而預(yù)測(cè)未來(lái)股市的走勢(shì)。
[0005]情感分析技術(shù)是指利用機(jī)器學(xué)習(xí)、信息抽取、自然語(yǔ)言處理等方法來(lái)判定文本所持有情感的傾向性和強(qiáng)度的技術(shù)。根據(jù)文本粒度不同,情感分析可以分為詞匯級(jí)、句子級(jí)和篇章級(jí)。情感傾向性通常分為積極、消極和中性。情感分析方法可以分為基于監(jiān)督、半監(jiān)督和無(wú)監(jiān)督的方法。情感傾向性分類(lèi)方法主要包括貝葉斯、支持向量機(jī)、最大熵、條件隨機(jī)場(chǎng)和決策樹(shù)等。
[0006]隱馬爾科夫模型最早被應(yīng)用于語(yǔ)音識(shí)別和生物信息學(xué)等領(lǐng)域。目前,隱馬爾科夫模型、以及它與人工神經(jīng)網(wǎng)絡(luò)的混合模型、與因果預(yù)測(cè)法和時(shí)間序列預(yù)測(cè)法的混合方法已被應(yīng)用于股市預(yù)測(cè)。
【發(fā)明內(nèi)容】
[0007]現(xiàn)有的基于隱馬爾科夫模型的股市預(yù)測(cè)方法主要使用了股市運(yùn)行過(guò)程中的基本信息,包括開(kāi)盤(pán)價(jià)和收盤(pán)價(jià)等,而忽略了新聞媒體的觀(guān)點(diǎn)和投資者的心理對(duì)股市波動(dòng)的影響。由于中國(guó)股市易受政策影響等特點(diǎn),僅僅利用這些基本信息難以反映股市的性質(zhì)。
[0008]本發(fā)明的目的在于提出一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法。將新聞網(wǎng)頁(yè)的情感傾向性與股市技術(shù)指標(biāo)有機(jī)地結(jié)合,構(gòu)建了連續(xù)型隱馬爾科夫模型來(lái)預(yù)測(cè)中國(guó)股市走勢(shì)。該方法的特點(diǎn)是,其一,處理新數(shù)據(jù)具有較強(qiáng)的魯棒性,能夠有效地預(yù)測(cè)相似的模式信息。其二,通過(guò)利用新聞網(wǎng)頁(yè)的情感傾向性信息,提高了股市預(yù)測(cè)的準(zhǔn)確性。
[0009]本發(fā)明提供了一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法,包括以下步驟:
[0010]步驟1、信息采集:針對(duì)新浪網(wǎng)財(cái)經(jīng)新聞網(wǎng)頁(yè),利用網(wǎng)絡(luò)爬蟲(chóng)Heritrix采集財(cái)經(jīng)新聞網(wǎng)頁(yè),將其保存到本地計(jì)算機(jī);
[0011]在網(wǎng)絡(luò)爬蟲(chóng)中,分別輸入四個(gè)種子網(wǎng)頁(yè)地址,即新浪網(wǎng)財(cái)經(jīng)新聞的“股市及時(shí)雨”、“主力動(dòng)向”、“宏觀(guān)研究”和“市場(chǎng)研究”四個(gè)頻道的首頁(yè)地址,下載這些頻道的財(cái)經(jīng)新聞網(wǎng)頁(yè),下載后的財(cái)經(jīng)新聞網(wǎng)頁(yè)按照新聞的發(fā)布時(shí)間順序以超文本標(biāo)記語(yǔ)言Html文件形式保存在本地計(jì)算機(jī);
[0012]步驟2、信息預(yù)處理:對(duì)信息采集步驟中獲取的財(cái)經(jīng)新聞網(wǎng)頁(yè)進(jìn)行正文抽取、分詞、詞性標(biāo)注,以及停用詞和標(biāo)點(diǎn)符號(hào)過(guò)濾;
[0013]首先,針對(duì)采集到的財(cái)經(jīng)新聞網(wǎng)頁(yè),抽取新聞網(wǎng)頁(yè)的標(biāo)題、發(fā)布時(shí)間和正文文本信息,去除網(wǎng)頁(yè)中的噪音信息;其次,人工構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典,由于財(cái)經(jīng)領(lǐng)域新聞網(wǎng)頁(yè)包含眾多的專(zhuān)業(yè)詞匯,因此通過(guò)構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典來(lái)提高分詞的準(zhǔn)確率;然后,利用分詞工具ICTCLAS和這兩個(gè)詞典,對(duì)正文文本進(jìn)行分詞和詞性標(biāo)注?’最后,去除標(biāo)點(diǎn)符號(hào)和停用詞;
[0014]步驟3、語(yǔ)料構(gòu)建:構(gòu)建股票領(lǐng)域相關(guān)語(yǔ)料庫(kù),包括對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)的主題詞抽取、股票領(lǐng)域相關(guān)語(yǔ)料的識(shí)別;
[0015]對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)的主題詞,采用一種基于規(guī)則和統(tǒng)計(jì)的混合抽取方法,具體步驟包括:
[0016]首先,構(gòu)建財(cái)經(jīng)`新聞網(wǎng)頁(yè)的候選主題詞,包括網(wǎng)頁(yè)中的名詞,以及包含在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中的詞語(yǔ);
[0017]其次,計(jì)算候選主題詞在網(wǎng)頁(yè)中的詞頻TF,TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值,若該詞語(yǔ)在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中,則其TF值擴(kuò)大兩倍;
[0018]然后,計(jì)算候選主題詞的文檔頻率DF,文檔頻率DF為該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目與語(yǔ)料庫(kù)中所有文檔數(shù)目的比值;
[0019]進(jìn)一步,計(jì)算候選主題詞的權(quán)重為a XTFXDF,其中α為位置衰減系數(shù),位置衰減系數(shù)根據(jù)候選主題詞在段首句、段尾句,段中句設(shè)置不同的值,候選主題詞在段首句的權(quán)重設(shè)為0.9,段尾句設(shè)為0.75,其他語(yǔ)句中設(shè)為0.5 ;
[0020]最后,對(duì)于在句子中位置相鄰的多個(gè)候選主題詞,將它們合并為一個(gè)候選主題詞,其權(quán)重為這些相鄰詞語(yǔ)的權(quán)重之和;將候選主題詞的權(quán)重按照降序方式排列,輸出前三個(gè)候選主題詞作為網(wǎng)頁(yè)的主題詞;
[0021]對(duì)股票領(lǐng)域相關(guān)語(yǔ)料,采用主題詞引導(dǎo)的識(shí)別方法,具體步驟為:
[0022]若新聞網(wǎng)頁(yè)至少存在一個(gè)主題詞在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中出現(xiàn),則判別該網(wǎng)頁(yè)與股票領(lǐng)域相關(guān);最后將采集的財(cái)經(jīng)新聞網(wǎng)頁(yè)識(shí)別為三類(lèi):股票領(lǐng)域相關(guān)網(wǎng)頁(yè)、股票領(lǐng)域無(wú)關(guān)網(wǎng)頁(yè),以及噪音網(wǎng)頁(yè),噪音網(wǎng)頁(yè)是指含有超文本標(biāo)記語(yǔ)言Html標(biāo)簽、結(jié)構(gòu)混亂且缺乏正文信息的網(wǎng)頁(yè);
[0023]步驟4、情感分析:對(duì)股票領(lǐng)域相關(guān)語(yǔ)料進(jìn)行情感分析,包括特征詞提取、特征詞權(quán)重計(jì)算、情感傾向性判別:
[0024]首先,提取新聞網(wǎng)頁(yè)的特征詞,針對(duì)股票領(lǐng)域文本的特點(diǎn),根據(jù)詞語(yǔ)的詞性和專(zhuān)業(yè)性來(lái)提取文本的特征詞:若詞語(yǔ)的詞性為名詞、動(dòng)詞、形容詞或副詞,或者詞語(yǔ)包含在財(cái)經(jīng)領(lǐng)域詞典或股市情感詞典中,則將該詞語(yǔ)作為新聞網(wǎng)頁(yè)的特征詞;
[0025]然后,計(jì)算新聞網(wǎng)頁(yè)的特征詞的權(quán)重,采用基于詞頻-逆文檔頻率TF-1DF(TermFrequency-1nverse Document Frequency)的方法來(lái)計(jì)算特征詞的權(quán)重,也就是:特征詞的權(quán)重為T(mén)F*IDF,其中詞頻TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值;逆文檔頻率IDF為語(yǔ)料庫(kù)中所有文檔的數(shù)目與該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目加一的比值,再取對(duì)數(shù);該方法的核心思想是:若詞語(yǔ)在文檔中出現(xiàn)的頻率較高,且在其他文檔中較少出現(xiàn),則該詞語(yǔ)具有較好的類(lèi)別區(qū)分能力;
[0026]最后,對(duì)新聞網(wǎng)頁(yè)進(jìn)行情感傾向性的判別:新聞網(wǎng)頁(yè)的情感傾向性分為積極和消極兩類(lèi),“積極”表示新聞網(wǎng)頁(yè)反映股票的走勢(shì)為上漲,“消極”表示股票的走勢(shì)為下跌,情感傾向性判別就是對(duì)新聞網(wǎng)頁(yè)的情感傾向性進(jìn)行兩個(gè)類(lèi)別的分類(lèi),構(gòu)建新聞網(wǎng)頁(yè)的特征向量,其中特征維數(shù)為特征詞的數(shù)目,特征值為特征詞的權(quán)重,采用支持向量機(jī)分類(lèi)器對(duì)新聞網(wǎng)頁(yè)進(jìn)行分類(lèi);
[0027]步驟5、股市技術(shù)分析:獲取股市技術(shù)分析指標(biāo),包括采集上證指數(shù)信息和深圳成指信息,計(jì)算股市技術(shù)分析指標(biāo);
[0028]步驟6、采用基于情感分析和隱馬爾科夫模型融合的預(yù)測(cè)方法預(yù)測(cè)股市走向,包括連續(xù)型隱馬爾科夫模型參數(shù)學(xué)習(xí)和股市預(yù)測(cè);
[0029]本發(fā)明中,將股市走向預(yù)測(cè)問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題:第一,解決隱馬爾科夫模型的參數(shù)學(xué)習(xí)問(wèn)題,獲得股市預(yù)測(cè)模型;第二,解決由情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,根據(jù)測(cè)試集中的觀(guān)測(cè)狀態(tài)序列的模式識(shí)別結(jié)果來(lái)獲得未來(lái)股市的走勢(shì)信息。
[0030]隱馬爾科夫模型包括五個(gè)元素:(I)隱含狀態(tài)空間S,S= (S1, S2,…,SN},Si為隱含狀態(tài),其中i=l,2,…,N, N為隱含狀態(tài)數(shù)量,隱含狀態(tài)序列為一個(gè)滿(mǎn)足馬爾可夫過(guò)程的狀態(tài)序列,通常無(wú)法通過(guò)觀(guān)察來(lái)獲得;(2)觀(guān)測(cè)狀態(tài)序列0,O=IO1, O2,…,0M},(^_為觀(guān)測(cè)狀態(tài),其中j=l,2,…,M, M為觀(guān)測(cè)狀態(tài)數(shù)量,觀(guān)測(cè)狀態(tài)序列為一個(gè)與隱含狀態(tài)相關(guān)聯(lián)的狀態(tài)序列,通過(guò)觀(guān)察來(lái)獲得;(3)隱含狀態(tài)的初始概率矩陣Π,Π = {Ρ1, P2,…,ΡΝ},表示隱含狀態(tài)在初始時(shí)刻的概率矩陣,Pr為初始狀態(tài)的概率,其中r=l,2,…,N ; (4)隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,描述隱含狀態(tài)之間相互轉(zhuǎn)換的概率矩陣;(5)混淆矩陣B,描述觀(guān)測(cè)狀態(tài)轉(zhuǎn)移行為的概率矩陣;
[0031]股市預(yù)測(cè)步驟采用連續(xù)型隱馬爾科夫模型來(lái)進(jìn)行建模,假定觀(guān)測(cè)狀態(tài)序列值服從高斯分布,使用三維混合高斯分布作為連續(xù)型隱馬爾科夫模型中混淆矩陣的概率密度函數(shù),在連續(xù)型隱馬爾科夫模型中,設(shè)定隱含狀態(tài)數(shù)量N為3,表示股市有上漲、下跌和持平三種走勢(shì),隱含狀態(tài)序列為股市走勢(shì)序列,即由上漲、下跌和持平構(gòu)成的序列;
[0032]本發(fā)明采用高斯混合模型來(lái)模擬情感傾向值序列和股市技術(shù)分析指標(biāo)值序列的概率分布,即使用M個(gè)服從單高斯分布的隨機(jī)變量來(lái)表示M個(gè)觀(guān)測(cè)狀態(tài)。高斯混合模型的輸入是情感傾向值序列和股市技術(shù)分析指標(biāo)值序列,每個(gè)觀(guān)測(cè)狀態(tài)為一個(gè)服從單高斯分布的隨機(jī)變量,觀(guān)測(cè)狀態(tài)序列是由M個(gè)觀(guān)測(cè)狀態(tài)即隨機(jī)變量的取值組成的序列;[0033]在股市預(yù)測(cè)步驟中,由訓(xùn)練集構(gòu)建訓(xùn)練樣本,設(shè)每個(gè)樣本的長(zhǎng)度為k,也就是每個(gè)樣本的觀(guān)測(cè)狀態(tài)序列是由高斯混合模型根據(jù)連續(xù)k天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值所構(gòu)成的序列,若訓(xùn)練集包含連續(xù)t天的情感傾向值和股市技術(shù)分析指標(biāo)值(t大于等于k),則由訓(xùn)練集可構(gòu)建t-k+Ι個(gè)樣本,第i(i=l,2,…,t-k+Ι)個(gè)樣本的觀(guān)測(cè)狀態(tài)序列為第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列;
[0034]對(duì)于連續(xù)型隱馬爾科夫模型的參數(shù)學(xué)習(xí)問(wèn)題,采用Baum-Welch算法來(lái)求解:(I)根據(jù)情感分析步驟獲得按照時(shí)間排序的每日新聞網(wǎng)頁(yè)的情感傾向值序列,根據(jù)股市技術(shù)分析步驟獲得股市技術(shù)分析指標(biāo)值序列;(2)隨機(jī)設(shè)置隱含狀態(tài)的初始概率矩陣Π、隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,以及混淆矩陣B的初始值,設(shè)定迭代次數(shù)為零;(3)按照梯度下降原貝U,使用Baum-Welch算法朝梯度下降方向不斷迭代進(jìn)行模型參數(shù)調(diào)整,獲得更新的隱含狀態(tài)的概率矩陣Π',隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A',混淆矩陣B',使得模型達(dá)到收斂。針對(duì)上證指數(shù)和深圳成指,分別學(xué)習(xí)連續(xù)型隱馬爾科夫模型的參數(shù)。
[0035]對(duì)于觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,即對(duì)于測(cè)試集中的每個(gè)樣本,在訓(xùn)練集中找到其最可能符合的模式;
[0036](I)對(duì)于測(cè)試集中的樣本,計(jì)算當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列的最大似然率L,設(shè)當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列為由第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列,已知第I天到第k天的上證指數(shù)或深圳成指。
[0037](2)在訓(xùn)練集中尋找與L最接近的最大似然率L',獲得L'對(duì)應(yīng)的上證指數(shù)序列或深圳成指序列V,V={Vq+1, Vq+2,…,Vq+k},其中Vq+i (i=l, 2,…k)為第q+i天的上證指數(shù)或深圳成指,進(jìn)一步,計(jì)算差值δ =Vq+k+1 - Vq+k,其中Vq+k為第q+k天的上證指數(shù)或深圳成指,Vq+k+1為第q+k+Ι天的上證指數(shù)或深圳成指。
`[0038](3)對(duì)于測(cè)試集中當(dāng)前樣本的上證指數(shù)序列或深圳成指序列U,U=IU1, U2,…,UJ,其中U/j=l,2,…k)為第j天的上證指數(shù)或深圳成指,獲得該序列對(duì)應(yīng)的預(yù)測(cè)值Uk+1=Uk+ δ,uk+1為預(yù)測(cè)的第k+1天的上證指數(shù)或深圳成指。
[0039](4)對(duì)于測(cè)試集的下一個(gè)樣本,其觀(guān)測(cè)狀態(tài)序列為由第2天到第k+Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列,第k+Ι天的上證指數(shù)或深圳成指為(3)所預(yù)測(cè)的數(shù)值;同(3)方法,預(yù)測(cè)第k+2天的上證指數(shù)或深圳成指,同理預(yù)測(cè)若干天的上證指數(shù)或深圳成指。
[0040]本發(fā)明的有益效果:本發(fā)明的方法針對(duì)中國(guó)證券市場(chǎng),采用一種情感分析和隱馬爾科夫模型融合的方法,能夠更加準(zhǔn)確地預(yù)測(cè)中國(guó)股市的未來(lái)走勢(shì)。與現(xiàn)有技術(shù)相比,該方法具有如下特點(diǎn):(1)它選取網(wǎng)絡(luò)財(cái)經(jīng)新聞信息作為情感傾向性分析的來(lái)源,具有實(shí)時(shí)性、多樣性和海量性的特點(diǎn)。(2)針對(duì)網(wǎng)絡(luò)財(cái)經(jīng)網(wǎng)頁(yè)信息主題混雜的特點(diǎn),存在與股票領(lǐng)域無(wú)關(guān)的噪音信息,本發(fā)明采用主題詞引導(dǎo)的方法來(lái)識(shí)別股票領(lǐng)域相關(guān)語(yǔ)料,解決了由于網(wǎng)頁(yè)信息主題偏差而導(dǎo)致的情感傾向性識(shí)別準(zhǔn)確率下降的問(wèn)題。(3)該方法針對(duì)中國(guó)股市受政策面影響較大,僅依賴(lài)股市技術(shù)指標(biāo)難以有效建模的現(xiàn)狀,將情感傾向值與傳統(tǒng)的股票技術(shù)分析指標(biāo)值有機(jī)地結(jié)合,構(gòu)造隱馬爾科夫模型的觀(guān)測(cè)狀態(tài)序列。其應(yīng)用價(jià)值在于有效地利用了網(wǎng)絡(luò)財(cái)經(jīng)新聞所反映的政府與相關(guān)機(jī)構(gòu)對(duì)證券市場(chǎng)走勢(shì)的觀(guān)點(diǎn)對(duì)投資者產(chǎn)生的影響,進(jìn)而能夠更加準(zhǔn)確地預(yù)測(cè)股市的未來(lái)走勢(shì)。[0041]本發(fā)明中,將股市預(yù)測(cè)問(wèn)題轉(zhuǎn)化為隱馬爾科夫模型中情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,對(duì)處理新數(shù)據(jù)具有較強(qiáng)的魯棒性,能夠有效地預(yù)測(cè)相似的模式信息;通過(guò)利用財(cái)經(jīng)新聞網(wǎng)頁(yè)中的情感傾向性信息,提高了股市預(yù)測(cè)的準(zhǔn)確性。因此,本發(fā)明提供的股市預(yù)測(cè)方法在傾向性分析、主題檢測(cè)、股市預(yù)測(cè)、網(wǎng)絡(luò)內(nèi)容監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0042]圖1為本發(fā)明實(shí)施步驟的流程圖。
【具體實(shí)施方式】
[0043]根據(jù)上述技術(shù)方案,下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0044]基于本發(fā)明方法的股市預(yù)測(cè)系統(tǒng),以Eclipse為開(kāi)發(fā)平臺(tái),Java為開(kāi)發(fā)語(yǔ)言,財(cái)經(jīng)新聞網(wǎng)頁(yè)采集工具為網(wǎng)絡(luò)爬蟲(chóng)Heritrix,網(wǎng)頁(yè)中文抽取工具為Html Parser,分詞工具為ICTCLAso該系統(tǒng)將每個(gè)步驟開(kāi)發(fā)為系統(tǒng)中的一個(gè)模塊。
[0045]采用本發(fā)明的方法進(jìn)行股市預(yù)測(cè)的步驟如下:
[0046]步驟1:針對(duì)新浪網(wǎng)財(cái)經(jīng)新聞網(wǎng)頁(yè),進(jìn)入信息采集模塊。利用網(wǎng)絡(luò)爬蟲(chóng)Heritrix采集財(cái)經(jīng)新聞網(wǎng)頁(yè),將其保存到本地計(jì)算機(jī)。
[0047]在網(wǎng)絡(luò)爬蟲(chóng)中,分別輸入四個(gè)種子網(wǎng)頁(yè)地址,即新浪網(wǎng)財(cái)經(jīng)新聞的“股市及時(shí)雨”、“主力動(dòng)向”、“宏觀(guān)研究”和“市場(chǎng)研究”四個(gè)頻道的首頁(yè)地址,下載這些頻道的財(cái)經(jīng)新聞網(wǎng)頁(yè)。下載后的財(cái)經(jīng)新聞信息網(wǎng)頁(yè)按照新聞的發(fā)布時(shí)間順序以Html (超文本標(biāo)記語(yǔ)言)文件形式保存在本地計(jì)算機(jī),以提供給信息預(yù)處理模塊。
[0048]在信息采集模塊中,采用Heritrix來(lái)構(gòu)建財(cái)經(jīng)新聞主題爬蟲(chóng),使用最佳優(yōu)先搜索策略來(lái)采集網(wǎng)頁(yè)。它由核心類(lèi)和插件模塊構(gòu)成。本發(fā)明實(shí)現(xiàn)了針對(duì)新浪網(wǎng)特定抓取邏輯的第三方模塊來(lái)取代默認(rèn)的插件模塊,從而采集財(cái)經(jīng)新聞網(wǎng)頁(yè)。
[0049]步驟2:將信息采集模塊中獲取的財(cái)經(jīng)新聞網(wǎng)頁(yè)提交給信息預(yù)處理模塊,進(jìn)行正文抽取、分詞、詞性標(biāo)注,以及停用詞和標(biāo)點(diǎn)符號(hào)過(guò)濾。
[0050]具體地說(shuō),(I)針對(duì)采集到的財(cái)經(jīng)新聞網(wǎng)頁(yè),抽取新聞網(wǎng)頁(yè)的標(biāo)題、發(fā)布時(shí)間和正文文本信息,去除網(wǎng)頁(yè)中的廣告鏈接、站點(diǎn)信息、風(fēng)格樣式表、JavaScript程序代碼等噪音信息。(2)人工構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典。例如,“招商地產(chǎn)”為財(cái)經(jīng)領(lǐng)域?qū)I(yè)詞語(yǔ),“翻紅”為股市情感詞語(yǔ)。由于財(cái)經(jīng)領(lǐng)域新聞網(wǎng)頁(yè)包含眾多的專(zhuān)業(yè)詞匯,因此通過(guò)構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典來(lái)提高分詞的準(zhǔn)確率。(3)利用分詞工具ICTCLAS,對(duì)正文文本進(jìn)行分詞和詞性標(biāo)注。該分詞工具提供了進(jìn)行詞典擴(kuò)充的接口,將財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中的詞語(yǔ)添加到該分詞工具的詞典中。(4)去除標(biāo)點(diǎn)符號(hào)和停用詞。停用詞包括兩類(lèi)詞語(yǔ),一類(lèi)是中文文本中使用頻率較高的詞匯。例如“我們”和“是”。另一類(lèi)是漢語(yǔ)的功能詞,包括副詞、介詞、連詞和助詞等,它們沒(méi)有單獨(dú)完整的詞匯意義。
[0051]步驟3:由語(yǔ)料構(gòu)建模塊來(lái)構(gòu)建股票領(lǐng)域相關(guān)語(yǔ)料庫(kù),包括對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)的主題詞抽取、股票領(lǐng)域相關(guān)語(yǔ)料的識(shí)別。
[0052]針對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè),提出了一種基于規(guī)則和統(tǒng)計(jì)的混合方法來(lái)抽取主題詞。具體地說(shuō):(1)構(gòu)建財(cái)經(jīng)新聞網(wǎng)頁(yè)的候選主題詞,包括網(wǎng)頁(yè)中的名詞,或者包含在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中的詞語(yǔ)。(2)計(jì)算候選主題詞在網(wǎng)頁(yè)中的詞頻TF,TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值。若該詞語(yǔ)在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中,則其TF值擴(kuò)大兩倍。(3)計(jì)算候選主題詞的文檔頻率DF。文檔頻率DF為該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目與語(yǔ)料庫(kù)中所有文檔數(shù)目的比值。進(jìn)一步,計(jì)算候選主題詞的權(quán)重為a XTFXDF,這里α為位置衰減系數(shù)。位置衰減系數(shù)根據(jù)候選主題詞在段首句、段尾句和段中句設(shè)置不同的值。具體地說(shuō),候選主題詞在段首句的權(quán)重設(shè)為0.9,段尾句設(shè)為0.75,其他語(yǔ)句中設(shè)為0.5。(4)由于分詞工具可能將某些詞語(yǔ)切分成粒度更小的詞語(yǔ),因此需要對(duì)詞語(yǔ)進(jìn)行合并。例如,對(duì)于詞語(yǔ)“上證指數(shù)”,分詞工具將其切分為“上證”和“指數(shù)”兩個(gè)詞語(yǔ)。對(duì)于在句子中位置相鄰的多個(gè)候選主題詞,將它們組合為一個(gè)候選主題詞,其權(quán)重為這些相鄰詞語(yǔ)的權(quán)重之和。(5)將候選主題詞的權(quán)重按照降序方式排列,輸出前三個(gè)候選主題詞作為網(wǎng)頁(yè)的主題詞。
[0053]在構(gòu)建股票領(lǐng)域相關(guān)語(yǔ)料庫(kù)中,提出了主題詞引導(dǎo)的股票領(lǐng)域相關(guān)語(yǔ)料識(shí)別方法。在語(yǔ)料庫(kù)構(gòu)建的過(guò)程中,存在一部分新聞網(wǎng)頁(yè)與股市領(lǐng)域不相關(guān),因此需要判別網(wǎng)頁(yè)是否與股票領(lǐng)域相關(guān)。若新聞網(wǎng)頁(yè)至少存在一個(gè)主題詞在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中出現(xiàn),則判別該網(wǎng)頁(yè)與股票領(lǐng)域相關(guān)。最后,采集的財(cái)經(jīng)新聞網(wǎng)頁(yè)被識(shí)別為三類(lèi):股票領(lǐng)域相關(guān)網(wǎng)頁(yè)、股票領(lǐng)域無(wú)關(guān)網(wǎng)頁(yè),以及噪音網(wǎng)頁(yè)。噪音網(wǎng)頁(yè)是指含有超文本標(biāo)記語(yǔ)言Html標(biāo)簽、結(jié)構(gòu)混亂且缺乏正文信息的網(wǎng)頁(yè)。
[0054]步驟4:將股票領(lǐng)域相關(guān)語(yǔ)料提交給情感分析模塊,進(jìn)行情感分析,包括特征詞提取、特征詞權(quán)重計(jì)算、情感傾向性判別。
[0055](I)提取新聞網(wǎng)頁(yè)的特征詞。針對(duì)股票領(lǐng)域文本的特點(diǎn),若詞語(yǔ)的詞性為名詞、動(dòng)詞、形容詞或副詞;或者詞語(yǔ)包含在財(cái)經(jīng)領(lǐng)域詞典或股市情感詞典中,則將該詞語(yǔ)作為新聞網(wǎng)頁(yè)的特征詞。
[0056](2)計(jì)算新聞網(wǎng)頁(yè)的特征詞的權(quán)重。采用基于詞頻-逆文檔頻率(TermFrequency-1nverse Document Frequency, TF-1DF)的方法來(lái)計(jì)算特征詞的權(quán)重。也就是,特征詞的權(quán)重為T(mén)F*IDF,其中詞頻TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值;逆文檔頻率IDF為語(yǔ)料庫(kù)中所有文檔的數(shù)目與該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目加一的比值,再取對(duì)數(shù)。該方法的核心思想是:若詞語(yǔ)在文檔中出現(xiàn)的頻率較高,且在其他文檔中較少出現(xiàn),則該詞語(yǔ)具有較好的類(lèi)別區(qū)分能力。
[0057](3)對(duì)新聞網(wǎng)頁(yè)進(jìn)行情感傾向性的判別。新聞網(wǎng)頁(yè)的情感傾向性分為積極和消極兩類(lèi)?!胺e極”表示新聞網(wǎng)頁(yè)反映股票的走勢(shì)為上漲,“消極”表示股票的走勢(shì)為下跌。情感傾向性判別就是對(duì)新聞網(wǎng)頁(yè)的情感傾向性進(jìn)行兩個(gè)類(lèi)別的分類(lèi)。構(gòu)建新聞網(wǎng)頁(yè)的特征向量,其中特征維數(shù)為特征詞的數(shù)目,特征值為特征詞的權(quán)重。進(jìn)一步,采用支持向量機(jī)分類(lèi)器對(duì)新聞網(wǎng)頁(yè)進(jìn)行分類(lèi)。
[0058]步驟5:利用股市技術(shù)分析模塊來(lái)獲取股市技術(shù)分析指標(biāo),包括采集上證指數(shù)信息和深圳成指信息,計(jì)算股市技術(shù)分析指標(biāo)。
[0059]上證指數(shù)(即上海證券綜合指數(shù))信息是指上證指數(shù)運(yùn)行過(guò)程中的基本信息,包括開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)、成交量。股市技術(shù)分析指標(biāo)包括移動(dòng)平均線(xiàn)、平滑異同移動(dòng)平均線(xiàn)、隨機(jī)指標(biāo),以及布林軌道線(xiàn)。深圳成指(即深證成份股指數(shù))是指從上市的所有股票中抽取具有市場(chǎng)代表性的四十家上市公司的股票作為計(jì)算對(duì)象,并以流通股為權(quán)數(shù)計(jì)算得出的加權(quán)股價(jià)指數(shù)。它是深圳證券交易所編制的一種成份股指數(shù)。
[0060]步驟6:對(duì)于中國(guó)股市走向,提出了一種基于情感分析和隱馬爾科夫模型融合的預(yù)測(cè)方法。由股市預(yù)測(cè)模塊來(lái)實(shí)現(xiàn)股市走勢(shì)預(yù)測(cè),包括連續(xù)型隱馬爾科夫模型參數(shù)學(xué)習(xí)、股市預(yù)測(cè)。
[0061]本發(fā)明中,將股市走向預(yù)測(cè)問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題。第一,解決隱馬爾科夫模型的參數(shù)學(xué)習(xí)問(wèn)題,獲得股市預(yù)測(cè)模型;第二,解決由情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,根據(jù)測(cè)試集中的觀(guān)測(cè)狀態(tài)序列的模式識(shí)別結(jié)果來(lái)獲得未來(lái)股市的走勢(shì)信息。
[0062]隱馬爾科夫模型包括五個(gè)元素:(1)隱含狀態(tài)空間S,S=以,S2,…,SN},Si(i=l,2,...,N)為隱含狀態(tài),N為隱含狀態(tài)數(shù)量。隱含狀態(tài)序列為一個(gè)滿(mǎn)足馬爾可夫過(guò)程的狀態(tài)序列,通常無(wú)法通過(guò)觀(guān)察來(lái)獲得。(2)觀(guān)測(cè)狀態(tài)序列(^O=IOpO2, - ,0J, OjCj=I, 2,…,M)為觀(guān)測(cè)狀態(tài),M為觀(guān)測(cè)狀態(tài)數(shù)量。觀(guān)測(cè)狀態(tài)序列為一個(gè)與隱含狀態(tài)相關(guān)聯(lián)的狀態(tài)序列,通過(guò)觀(guān)察可以獲得。(3)隱含狀態(tài)的初始概率矩陣Π,Ir = IP1, P2,…,PN},表示隱含狀態(tài)在初始時(shí)刻的概率矩陣。已(r=l,2,...,N)為初始狀態(tài)&的概率。(4)隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,描述隱含狀態(tài)之間相互轉(zhuǎn)換的概率矩陣。(5)混淆矩陣B,描述觀(guān)測(cè)狀態(tài)轉(zhuǎn)移行為的概率矩陣。
[0063]股市預(yù)測(cè)模塊采用連續(xù)型隱馬爾科夫模型來(lái)進(jìn)行建模。假定觀(guān)測(cè)狀態(tài)序列值服從高斯分布,使用三維混合高斯分布作為連續(xù)型隱馬爾科夫模型中混淆矩陣的概率密度函數(shù)。在連續(xù)型隱馬爾科夫模型中,設(shè)定隱含狀態(tài)數(shù)量N為3,表示股市有上漲、下跌和持平三種走勢(shì)。隱含狀態(tài)序列為股市走勢(shì)序列,即由上漲、下跌和持平構(gòu)成的序列。
[0064]本發(fā)明采用高斯混合模型來(lái)模擬情感傾向值序列和股市技術(shù)分析指標(biāo)值序列的概率分布,即使用M個(gè)服從單高斯分布的隨機(jī)變量來(lái)表示M個(gè)觀(guān)測(cè)狀態(tài)。高斯混合模型的輸入是情感傾向值序列和 股市技術(shù)分析指標(biāo)值序列。設(shè)定觀(guān)測(cè)狀態(tài)數(shù)量M為5,每個(gè)觀(guān)測(cè)狀態(tài)為一個(gè)服從單高斯分布的隨機(jī)變量。觀(guān)測(cè)狀態(tài)序列是由M個(gè)觀(guān)測(cè)狀態(tài)(即隨機(jī)變量)的取值組成的序列。
[0065]在股市預(yù)測(cè)模塊中,由訓(xùn)練集構(gòu)建訓(xùn)練樣本,設(shè)每個(gè)樣本的長(zhǎng)度為k,k取值為15。也就是,每個(gè)樣本的觀(guān)測(cè)狀態(tài)序列是由高斯混合模型根據(jù)連續(xù)k天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值所構(gòu)成的序列。對(duì)情感傾向值序列0S,0s={0sl, Os2,…,OsJ , Osp(sp=sI,s2,…,sk)為第p天新聞網(wǎng)頁(yè)的情感傾向性,即為積極或消極。對(duì)股市技術(shù)分析指標(biāo)值序列Om, Om= {0ml, Om2,…,OmJ , Omq(mq=ml, m2,…,mk)為第q天新聞網(wǎng)頁(yè)的股市技術(shù)分析指標(biāo)值。若訓(xùn)練集包含連續(xù)t天的情感傾向值和股市技術(shù)分析指標(biāo)值(t大于等于k),則由訓(xùn)練集可構(gòu)建t-k+Ι個(gè)樣本,第i (i=l,2,…,t-k+1)個(gè)樣本的觀(guān)測(cè)狀態(tài)序列為第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列。
[0066]對(duì)于連續(xù)型隱馬爾科夫模型的參數(shù)學(xué)習(xí)問(wèn)題,采用Baum-Welch算法來(lái)求解。(I)根據(jù)情感分析模塊獲得按照時(shí)間排序的每日新聞網(wǎng)頁(yè)的情感傾向值序列,根據(jù)股市技術(shù)分析模塊獲得股市技術(shù)分析指標(biāo)值序列。(2)隨機(jī)設(shè)置隱含狀態(tài)的初始概率矩陣Π、隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,以及混淆矩陣B的初始值,設(shè)定迭代次數(shù)為零。(3)按照梯度下降原則,使用Baum-Welch算法朝梯度下降方向不斷迭代進(jìn)行模型參數(shù)調(diào)整,獲得更新的隱含狀態(tài)的概率矩陣n',隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A',混淆矩陣B',使得模型達(dá)到收斂。針對(duì)上證指數(shù)和深圳成指,分別學(xué)習(xí)連續(xù)型隱馬爾科夫模型的參數(shù)。
[0067]對(duì)于觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,即對(duì)于測(cè)試集中的每個(gè)樣本,在訓(xùn)練集中找到其最可能符合的模式。
[0068](I)對(duì)于測(cè)試集中的樣本,計(jì)算當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列的最大似然率L。設(shè)當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列為由第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列,已知第I天到第k天的上證指數(shù)或深圳成指。
[0069](2)在訓(xùn)練集中尋找與L最接近的最大似然率L'。獲得L'對(duì)應(yīng)的上證指數(shù)序列或深圳成指序列V,V= {Vq+1, Vq+2,…,Vq+k},其中Vq+i (i=l, 2,…k)為第q+i天的上證指數(shù)或深圳成指,進(jìn)一步,計(jì)算差值δ =Vq+k+1 - Vq+k,其中Vq+k為第q+k天的上證指數(shù)或深圳成指,Vq+k+1為第q+k+Ι天的上證指數(shù)或深圳成指。
[0070](3)對(duì)于測(cè)試集中當(dāng)前樣本的上證指數(shù)序列或深圳成指序列U, U= (U1, U2,…,UJ,其中U/j=l,2,…k)為第j天的上證指數(shù)或深圳成指,獲得該序列對(duì)應(yīng)的預(yù)測(cè)值Uk+1=Uk+ δ,uk+1為預(yù)測(cè)的第k+Ι天的上證指數(shù)或深圳成指。
[0071](4)對(duì)于測(cè)試集的下一個(gè)樣本,其觀(guān)測(cè)狀態(tài)序列為由第2天到第k+Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列。第k+Ι天的上證指數(shù)或深圳成指為(3)所預(yù)測(cè)的數(shù)值。同(3)方法,預(yù)測(cè)第k+2天的上證指數(shù)或深圳成指。同理,可以預(yù)測(cè)若干天的上證指數(shù)或深圳成指。
[0072]為說(shuō)明本發(fā)明 的股票預(yù)測(cè)效果,本實(shí)驗(yàn)是在同等條件下,以相同的訓(xùn)練集和測(cè)試集分別采用基于隱馬爾科夫模型、本發(fā)明的基于情感分析和隱馬爾科夫模型融合的方法進(jìn)行股票預(yù)測(cè)。采用的評(píng)測(cè)指標(biāo)為平均絕對(duì)誤差MAE (Mean Absolute Error),計(jì)算公式如下,其中η表示實(shí)驗(yàn)預(yù)測(cè)天數(shù),sv (i)表示第i天的實(shí)際收盤(pán)指數(shù),pv (i)表示第i天的預(yù)測(cè)收盤(pán)指數(shù)。
【權(quán)利要求】
1.一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測(cè)方法,包括以下步驟: 步驟1、信息采集:針對(duì)新浪網(wǎng)財(cái)經(jīng)新聞網(wǎng)頁(yè),利用網(wǎng)絡(luò)爬蟲(chóng)HeritriX采集財(cái)經(jīng)新聞網(wǎng)頁(yè),將其保存到本地計(jì)算機(jī); 在網(wǎng)絡(luò)爬蟲(chóng)中,分別輸入四個(gè)種子網(wǎng)頁(yè)地址,即新浪網(wǎng)財(cái)經(jīng)新聞的“股市及時(shí)雨”、“主力動(dòng)向”、“宏觀(guān)研究”和“市場(chǎng)研究”四個(gè)頻道的首頁(yè)地址,下載這些頻道的財(cái)經(jīng)新聞網(wǎng)頁(yè),下載后的財(cái)經(jīng)新聞網(wǎng)頁(yè)按照新聞的發(fā)布時(shí)間順序以超文本標(biāo)記語(yǔ)言Html文件形式保存在本地計(jì)算機(jī); 步驟2、信息預(yù)處理:對(duì)信息采集步驟中獲取的財(cái)經(jīng)新聞網(wǎng)頁(yè)進(jìn)行正文抽取、分詞、詞性標(biāo)注,以及停用詞和標(biāo)點(diǎn)符號(hào)過(guò)濾; 首先,針對(duì)采集到的財(cái)經(jīng)新聞網(wǎng)頁(yè),抽取新聞網(wǎng)頁(yè)的標(biāo)題、發(fā)布時(shí)間和正文文本信息,去除網(wǎng)頁(yè)中的噪音信息;其次,人工構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典,由于財(cái)經(jīng)領(lǐng)域新聞網(wǎng)頁(yè)包含眾多的專(zhuān)業(yè)詞匯,因此通過(guò)構(gòu)建財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典來(lái)提高分詞的準(zhǔn)確率;然后,利用分詞工具ICTCLAS和這兩個(gè)詞典,對(duì)正文文本進(jìn)行分詞和詞性標(biāo)注;最后,去除標(biāo)點(diǎn)符號(hào)和停用詞; 步驟3、語(yǔ)料構(gòu)建:構(gòu)建股票領(lǐng)域相關(guān)語(yǔ)料庫(kù),包括對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)的主題詞抽取、股票領(lǐng)域相關(guān)語(yǔ)料的識(shí)別; 對(duì)財(cái)經(jīng)新聞網(wǎng)頁(yè)的主題詞,采用一種基于規(guī)則和統(tǒng)計(jì)的混合抽取方法,具體步驟包括:` 首先,構(gòu)建財(cái)經(jīng)新聞網(wǎng)頁(yè)的候選主題詞,包括網(wǎng)頁(yè)中的名詞,以及包含在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中的詞語(yǔ); 其次,計(jì)算候選主題詞在網(wǎng)頁(yè)中的詞頻TF,TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值,若該詞語(yǔ)在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中,則其TF值擴(kuò)大兩倍;然后,計(jì)算候選主題詞的文檔頻率DF,文檔頻率DF為該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目與語(yǔ)料庫(kù)中所有文檔數(shù)目的比值; 進(jìn)一步,計(jì)算候選主題詞的權(quán)重為α XTFXDF,其中α為位置衰減系數(shù),位置衰減系數(shù)根據(jù)候選主題詞在段首句、段尾句,段中句設(shè)置不同的值,候選主題詞在段首句的權(quán)重設(shè)為0.9,段尾句設(shè)為0.75,其他語(yǔ)句中設(shè)為0.5 ; 最后,對(duì)于在句子中位置相鄰的多個(gè)候選主題詞,將它們合并為一個(gè)候選主題詞,其權(quán)重為這些相鄰詞語(yǔ)的權(quán)重之和;將候選主題詞的權(quán)重按照降序方式排列,輸出前三個(gè)候選主題詞作為網(wǎng)頁(yè)的主題詞; 對(duì)股票領(lǐng)域相關(guān)語(yǔ)料的識(shí)別采用主題詞引導(dǎo)的識(shí)別方法,具體步驟為: 若新聞網(wǎng)頁(yè)至少存在一個(gè)主題詞在財(cái)經(jīng)領(lǐng)域詞典和股市情感詞典中出現(xiàn),則判別該網(wǎng)頁(yè)與股票領(lǐng)域相關(guān);最后將采集的財(cái)經(jīng)新聞網(wǎng)頁(yè)識(shí)別為三類(lèi):股票領(lǐng)域相關(guān)網(wǎng)頁(yè)、股票領(lǐng)域無(wú)關(guān)網(wǎng)頁(yè),以及噪音網(wǎng)頁(yè),噪音網(wǎng)頁(yè)是指含有超文本標(biāo)記語(yǔ)言Html標(biāo)簽、結(jié)構(gòu)混亂且缺乏正文信息的網(wǎng)頁(yè); 步驟4、情感分析:對(duì)股票領(lǐng)域相關(guān)語(yǔ)料進(jìn)行情感分析,包括特征詞提取、特征詞權(quán)重計(jì)算、情感傾向性判別; 首先,提取新聞網(wǎng)頁(yè)的特征詞,針對(duì)股票領(lǐng)域文本的特點(diǎn),根據(jù)詞語(yǔ)的詞性和專(zhuān)業(yè)性來(lái)提取文本的特征詞:若詞語(yǔ)的詞性為名詞、動(dòng)詞、形容詞或副詞,或者詞語(yǔ)包含在財(cái)經(jīng)領(lǐng)域詞典或股市情感詞典中,則將該詞語(yǔ)作為新聞網(wǎng)頁(yè)的特征詞; 然后,計(jì)算新聞網(wǎng)頁(yè)的特征詞的權(quán)重,采用基于詞頻-逆文檔頻率TF-1DF(TermFrequency-1nverse Document Frequency)的方法來(lái)計(jì)算特征詞的權(quán)重,也就是:特征詞的權(quán)重為T(mén)FX IDF,其中詞頻TF為該詞語(yǔ)在文檔中的出現(xiàn)頻率與文檔中所有詞語(yǔ)數(shù)目的比值;逆文檔頻率IDF為語(yǔ)料庫(kù)中所有文檔的數(shù)目與該詞語(yǔ)在語(yǔ)料庫(kù)中出現(xiàn)的文檔數(shù)目加一的比值,再取對(duì)數(shù);該方法的核心思想是:若詞語(yǔ)在文檔中出現(xiàn)的頻率較高,且在其他文檔中較少出現(xiàn),則該詞語(yǔ)具有較好的類(lèi)別區(qū)分能力; 最后,對(duì)新聞網(wǎng)頁(yè)進(jìn)行情感傾向性的判別:新聞網(wǎng)頁(yè)的情感傾向性分為積極和消極兩類(lèi),“積極”表示新聞網(wǎng)頁(yè)反映股票的走勢(shì)為上漲,“消極”表示股票的走勢(shì)為下跌,情感傾向性判別就是對(duì)新聞網(wǎng)頁(yè)的情感傾向性進(jìn)行兩個(gè)類(lèi)別的分類(lèi),構(gòu)建新聞網(wǎng)頁(yè)的特征向量,其中特征維數(shù)為特征詞的數(shù)目,特征值為特征詞的權(quán)重,采用支持向量機(jī)分類(lèi)器對(duì)新聞網(wǎng)頁(yè)進(jìn)行分類(lèi); 步驟5、股市技術(shù)分析:獲取股市技術(shù)分析指標(biāo),包括采集上證指數(shù)信息和深圳成指信息,計(jì)算股市技術(shù)分析指標(biāo); 步驟6、采用基于情感分析和隱馬爾科夫模型融合的預(yù)測(cè)方法預(yù)測(cè)股市走向,包括連續(xù)型隱馬爾科夫模型參數(shù)學(xué)習(xí)和股市預(yù)測(cè); 隱馬爾科夫模型包括五個(gè)元素:(1)隱含狀態(tài)空間S,S= (S1, S2,…,SN},SiS隱含狀態(tài),其中i=l,2,…,N, N為隱含狀態(tài)數(shù)量,隱含狀態(tài)序列為一個(gè)滿(mǎn)足馬爾可夫過(guò)程的狀態(tài)序列,通常無(wú)法通過(guò)觀(guān)察來(lái)獲得;(2)觀(guān)測(cè)狀態(tài)序列0,O=IO1, O2, -,OJ,Oj為觀(guān)測(cè)狀態(tài),其中j=l, 2,-,M, M為觀(guān)測(cè)狀態(tài)數(shù)量,觀(guān)測(cè)狀態(tài)序列為一個(gè)與隱含狀態(tài)相關(guān)聯(lián)的狀態(tài)序列,通過(guò)觀(guān)察來(lái)獲得;(3)隱含狀態(tài)的初始概率矩陣Π,Π = {Ρ1, P2,…,PJ,表示隱含狀態(tài)在初始時(shí)刻的概率矩陣,Pr為初始狀態(tài)&的概率,其中r=l,2,…,N ; (4)隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,描述隱含狀態(tài)之間相互轉(zhuǎn)換的概率矩陣;(5)混淆矩陣B,描述觀(guān)測(cè)狀態(tài)轉(zhuǎn)移行為的概率矩陣; 股市預(yù)測(cè)步驟采用連續(xù)型隱馬爾科夫模型來(lái)進(jìn)行建模,假定觀(guān)測(cè)狀態(tài)序列值服從高斯分布,使用三維混合高斯分布作為連續(xù)型隱馬爾科夫模型中混淆矩陣的概率密度函數(shù),在連續(xù)型隱馬爾科夫模型中,設(shè)定隱含狀態(tài)數(shù)量N為3,表示股市有上漲、下跌和持平三種走勢(shì),隱含狀態(tài)序列為股市走勢(shì)序列,即由上漲、下跌和持平構(gòu)成的序列; 本發(fā)明采用高斯混合模型來(lái)模擬情感傾向值序列和股市技術(shù)分析指標(biāo)值序列的概率分布,即使用M個(gè)服從單高斯分布的隨機(jī)變量來(lái)表示M個(gè)觀(guān)測(cè)狀態(tài)。高斯混合模型的輸入是情感傾向值序列和股市技術(shù)分析指標(biāo)值序列,每個(gè)觀(guān)測(cè)狀態(tài)為一個(gè)服從單高斯分布的隨機(jī)變量,觀(guān)測(cè)狀態(tài)序列是由M個(gè)觀(guān)測(cè)狀態(tài)即隨機(jī)變量的取值組成的序列; 在股市預(yù)測(cè)步驟中,由訓(xùn)練集構(gòu)建訓(xùn)練樣本,設(shè)每個(gè)樣本的長(zhǎng)度為k,也就是每個(gè)樣本的觀(guān)測(cè)狀態(tài)序列是由高斯混合模型根據(jù)連續(xù)k天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值所構(gòu)成的序列,若訓(xùn)練集包含連續(xù)t天的情感傾向值和股市技術(shù)分析指標(biāo)值(t大于等于k),則由訓(xùn)練集可構(gòu)建t-k+Ι個(gè)樣本,第i (i=l,2,…,t-k+Ι)個(gè)樣本的觀(guān)測(cè)狀態(tài)序列為第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列; 對(duì)于連續(xù)型隱馬爾科夫模型的參數(shù)學(xué)習(xí)問(wèn)題,采用Baum-Welch算法來(lái)求解:(I)根據(jù)情感分析步驟獲得按照時(shí)間排序的每日新聞網(wǎng)頁(yè)的情感傾向值序列,根據(jù)股市技術(shù)分析步驟獲得股市技術(shù)分析指標(biāo)值序列;(2)隨機(jī)設(shè)置隱含狀態(tài)的初始概率矩陣Π、隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A,以及混淆矩陣B的初始值,設(shè)定迭代次數(shù)為零;(3)按照梯度下降原則,使用Baum-Welch算法朝梯度下降方向不斷迭代進(jìn)行模型參數(shù)調(diào)整,獲得更新的隱含狀態(tài)的概率矩陣Π',隱含狀態(tài)間的轉(zhuǎn)移概率矩陣A',混淆矩陣B',使得模型達(dá)到收斂;針對(duì)上證指數(shù)和深圳成指,分別學(xué)習(xí)連續(xù)型隱馬爾科夫模型的參數(shù); 對(duì)于觀(guān)測(cè)狀態(tài)序列的識(shí)別問(wèn)題,即對(duì)于測(cè)試集中的每個(gè)樣本,在訓(xùn)練集中找到其最可能符合的模式; (1)對(duì)于測(cè)試集中的樣本,計(jì)算當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列的最大似然率L,設(shè)當(dāng)前樣本的觀(guān)測(cè)狀態(tài)序列為由第i天到第i+k-Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列,已知第I天到第k天的上證指數(shù)或深圳成指; (2)在訓(xùn)練集中尋找與L最接近的最大似然率L',獲得L'對(duì)應(yīng)的上證指數(shù)序列或深圳成指序列V,V={Vq+1,Vq+2,…,Vq+k},其中Vq+i為第q+i天的上證指數(shù)或深圳成指,i=l, 2,…k ;進(jìn)一步,計(jì)算差值δ =Vq+k+1 - Vq+k,其中Vq+k為第q+k天的上證指數(shù)或深圳成指,Vq+k+1為第q+k+Ι天的上證指數(shù)或深圳成指; (3)對(duì)于測(cè)試集中當(dāng)前樣本的上證指數(shù)序列或深圳成指序列U,U=IU1,U2,…,UJ,其中Uj為第j天的上證指數(shù)或深圳成指,j=l, 2,…k,獲得該序列對(duì)應(yīng)的預(yù)測(cè)值Uk+1=Uk+ δ,uk+1為預(yù)測(cè)的第k+1天的上證指數(shù)或深圳成指; (4)對(duì)于測(cè)試集的下一個(gè)樣本,其觀(guān)測(cè)狀態(tài)序列為由第2天到第k+Ι天的情感傾向值序列和股市技術(shù)分析指標(biāo)值序列生成的M個(gè)觀(guān)測(cè)狀態(tài)的取值構(gòu)成的序列,第k+Ι天的上證指數(shù)或深圳成指為步驟(3)所預(yù)測(cè)的數(shù)值;同步驟(3)方法,預(yù)測(cè)第k+2天的上證指數(shù)或深圳成指,同理預(yù)測(cè)若干天的上證 指數(shù)或深圳成指。
【文檔編號(hào)】G06Q40/00GK103778215SQ201410023154
【公開(kāi)日】2014年5月7日 申請(qǐng)日期:2014年1月17日 優(yōu)先權(quán)日:2014年1月17日
【發(fā)明者】張春霞, 蔣一澤, 牛振東, 趙小林, 劉振巖 申請(qǐng)人:北京理工大學(xué)