本發(fā)明涉及計算機(jī)文本抽取技術(shù),具體涉及一種基于因子圖的金融公報文本知識提取方法。
背景技術(shù):
:隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)上的信息量也在爆炸性的增長。據(jù)統(tǒng)計每天互聯(lián)網(wǎng)上流通的信息量超過1000pb。如何從海量信息中快速有效的提取出需要的信息和知識,成為了非常重要的研究方向。隨著互聯(lián)網(wǎng)上一些大規(guī)模知識庫在扮演著越來越重要的角色,知識庫的構(gòu)建工作也越來越成為研究高點,傳統(tǒng)的文本知識抽取方法基于各領(lǐng)域?qū)<业娜斯ふ?,已?jīng)無法處理如此大規(guī)模的信息抽取,因此基于機(jī)器學(xué)習(xí)的信息抽取方法成為了大數(shù)據(jù)時代的主流方法。近幾年來,基于機(jī)器學(xué)習(xí)的文本挖掘算法逐步完善起來,各大互聯(lián)網(wǎng)公司出現(xiàn)了一些實用的技術(shù)和相關(guān)產(chǎn)品,例如google通過多種提取技術(shù)融合構(gòu)建了超大規(guī)模的knowledgevault,它可以自主學(xué)習(xí)互聯(lián)網(wǎng)上網(wǎng)頁、圖表、文本等多種來源的數(shù)據(jù)從而生成知識庫。但是相關(guān)領(lǐng)域一些開源的實用文本知識提取方法還非常少見,尤其是面向中文文本的工具更是十分缺乏。另一方面,因子圖模型具有很強(qiáng)的計算和表達(dá)能力,能在概率推理過程中表達(dá)各種模型,例如貝葉斯網(wǎng)絡(luò)、無向圖等,近幾年來在信息抽取方面取得了很好的效果,不僅在多個垂直領(lǐng)域得到廣泛應(yīng)用,同時也在各種英文信息抽取競賽中取得了很好的成績。因此可以考慮借助因子圖模型來完成中文文本知識的抽取。而金融公報中包含了很多有意義的知識信息,這些結(jié)構(gòu)化的信息對于金融人員進(jìn)行金融數(shù)據(jù)的分析有著非常重要的作用,如何使用一種自動化的知識提取方法對于實現(xiàn)金融智能有著重大的意義。技術(shù)實現(xiàn)要素:鑒于上述,本發(fā)明提供了一種基于因子圖的金融公報文本知識提取方法,用于提取金融公報中的有關(guān)股權(quán)交易相關(guān)的知識。一種基于因子圖的金融公報文本知識提取方法,包括以下步驟:(1)從金融數(shù)據(jù)庫上獲取滿足預(yù)設(shè)特定關(guān)系的文本數(shù)據(jù),并對這些文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理數(shù)據(jù)a;(2)以預(yù)處理數(shù)據(jù)a作為弱監(jiān)督學(xué)習(xí)的正樣本,以通過負(fù)抽樣方法建立的數(shù)據(jù)作為弱監(jiān)督學(xué)習(xí)的負(fù)樣本,進(jìn)行弱監(jiān)督學(xué)習(xí),得到數(shù)據(jù)a1;(3)對數(shù)據(jù)a1進(jìn)行候選實體(mention)識別,構(gòu)建得到候選實體對集b1;(4)建立一個正則表達(dá)式,并根據(jù)正則表達(dá)式在金融公報文本中匹配得到滿足特定預(yù)設(shè)關(guān)系的文本數(shù)據(jù),并對該些文本數(shù)據(jù)進(jìn)行預(yù)處理,得到候選實體對集b2;(5)分別對候選實體對集b1、b2中候選實體對的進(jìn)行特征提取,得到候選實體對集b1的特征向量集c1與候選實體對集b2的特征向量集c2,并將特征向量集c1、c2存儲到數(shù)據(jù)庫中;(6)將數(shù)據(jù)庫中的特征向量集c1、c2作為因子圖模型的輸入,以候選實體對集b1、b2中候選實體對對應(yīng)的標(biāo)記值作為因子圖模型的真值標(biāo)簽,以目標(biāo)函數(shù)y最大為目標(biāo),對因子圖模型進(jìn)行訓(xùn)練,得到金融文本知識抽取模型;(7)將預(yù)測樣本輸入至金融文本知識抽取模型中,將輸出概率值大于閾值的實體對作為抽取結(jié)果。本發(fā)明采用弱監(jiān)督學(xué)習(xí)與正則表達(dá)式聯(lián)合標(biāo)記因子圖模型訓(xùn)練樣本的方法,可以有效地解決文本知識抽取任務(wù)中標(biāo)記樣本不足的問題,從而大大提升方法的應(yīng)用范圍。步驟(1)中與步驟(4)中,所述的對文本數(shù)據(jù)進(jìn)行預(yù)處理的具體過程為:采用stanfordcorenlp或jieba工具對文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、命名實體標(biāo)注以及語法依賴處理。stanfordcorenlp處理功能強(qiáng)大,能夠快速準(zhǔn)確地實現(xiàn)對文本數(shù)據(jù)的處理。步驟(2)中,所述的數(shù)據(jù)a1中既包含對正樣本弱監(jiān)督學(xué)習(xí)得到的數(shù)據(jù),又包含對負(fù)樣本監(jiān)督學(xué)習(xí)得到的數(shù)據(jù)。弱監(jiān)督學(xué)習(xí)的方法,可以有效地擴(kuò)大樣本數(shù)據(jù)的數(shù)量,進(jìn)而提升因子圖模型訓(xùn)練的準(zhǔn)確度。所述步驟(3)的具體步驟為:首先,從數(shù)據(jù)a1中識別候選實體,排除錯誤和無意義的候選實體;然后,對相同意義的候選實體做實體連接,將候選實體兩兩組合為候選實體對;最后,去除重復(fù)和無意義的候選實體對,形成候選實體對集b1。步驟(3)中,所述候選實體識別采用了傳統(tǒng)命名實體識別、正則表達(dá)式過濾方法結(jié)合的方式,這可以提高候選實體識別的準(zhǔn)確率。此處的正則表達(dá)式過濾方法主要是針對以下傳統(tǒng)命名實體識別面臨的錯誤情況,例如:非英文字母和漢字字符的候選實體,錯誤標(biāo)記,如2015年xx有限公司;錯誤識別的組織機(jī)構(gòu),不是上市公司,如上海證券所,美國加州等;一長串識別成整個候選實體,如a與b與c公司;文本中的簡稱和訓(xùn)練數(shù)據(jù)的全稱不能對應(yīng)。本發(fā)明針對每一條文本都進(jìn)行相應(yīng)的修改,建立正則表達(dá)式過濾掉非法字符的候選實體和包含證券所、商務(wù)部等非公司詞匯的候選實體,限制候選實體長度,建立詞典鏈接公司的簡稱和全稱,并去掉候選實體中公司、股份等詞,進(jìn)行兩個候選實體的相似度比較,進(jìn)一步做實體鏈接算法。步驟(4)中,建立的正則表達(dá)式視為了獲得更多的訓(xùn)練樣本,利用正則表達(dá)式標(biāo)記同一種關(guān)系。例如:“a收購b的股權(quán)”、“a購買b的股份”都是描述的同一種關(guān)系。本發(fā)明設(shè)計了一組相應(yīng)的匹配表達(dá)式,實體對之間最終的label取決于每項label的和。此處的求和是指訓(xùn)練文本中對實體對之間是否存在關(guān)系“股權(quán)交易”的標(biāo)記進(jìn)行求和,例如本文中出現(xiàn)了“a收購b的股權(quán)”或者“a購買b的股份”,則判定為正例,label加1,這對應(yīng)了本發(fā)明設(shè)計的正則表達(dá)式方法。步驟(5)中,所述的特征提取為提取實體對句子之間詞語序列,包括完整的詞語序列、指定window的詞語序列,具體為提取實體對句子之間詞語序列的ner序列;提取實體對句子之間詞語序列的pos序列;提取詞典中的特征詞序列;提取實體對左右兩側(cè)window的詞語序列;提取實體對句子兩側(cè)詞語序列的ner序列;提取實體對句子兩側(cè)詞語序列的pos序列。步驟(6)中,在訓(xùn)練因子圖模型的過程中,根據(jù)訓(xùn)練樣本的數(shù)據(jù)特征采用速度下降方法改變因子圖模型的權(quán)重,進(jìn)而得到能夠刻畫訓(xùn)練樣本數(shù)據(jù)的模型。該模型的訓(xùn)練過程為:確定隨機(jī)變量和實體的對應(yīng)關(guān)系,構(gòu)建userschema;確定隨機(jī)變量和函數(shù)的對應(yīng)關(guān)系,構(gòu)建relationschema;隨機(jī)初始化隨機(jī)變量值,通過概率推導(dǎo)得到可能的概率分布;通過迭代修改的方法提升模型的精度,最后得出最后的因子圖模型。步驟(6)中,所述的目標(biāo)函數(shù)y為:其中:gj=wjf(σ(v1),σ(v2),…,σ(vaj))σ(v1)表示因子圖變量v1的概率值,σ(vaj)表示因子圖變量vaj的概率值,aj表示為與第j個變量有相關(guān)性的隨機(jī)變量的數(shù)目,f(·)表示因子圖各隨機(jī)變量之間的相關(guān)性表,wj表示f(·)的實數(shù)權(quán)重,z[i]表示一個區(qū)分函數(shù),i表示可能的一種結(jié)果假設(shè);ie表示多種可能的結(jié)果假設(shè)組成的可能世界;fi∈f表示一個隨機(jī)變量以特定方式和其他變量的相關(guān)性。本發(fā)明方法使用具備復(fù)雜關(guān)系建模能力的因子圖模型來進(jìn)行關(guān)系學(xué)習(xí)和訓(xùn)練,并設(shè)計了多種不同的文本特征來表達(dá)關(guān)系的上下文,此外,本發(fā)明采用基于弱監(jiān)督和正則表達(dá)式的方法來進(jìn)行數(shù)據(jù)的標(biāo)記,可以有效的克服樣本數(shù)據(jù)不足的缺陷。附圖說明圖1是本發(fā)明基于因子圖的金融公報文本知識提取方法的流程圖;圖2是本發(fā)明基于正則表達(dá)式獲取的訓(xùn)練樣本的示意圖;圖3是本發(fā)明中對數(shù)據(jù)進(jìn)行特征提取后文本特征表示圖。具體實施方式為了更為具體地描述本發(fā)明,下面結(jié)合附圖及具體實施方式對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。本實施例中預(yù)設(shè)特定關(guān)系為公司之間持股或收購關(guān)系。參見圖1,本實施例基于因子圖的金融公報文本知識提取方法,包括以下步驟:s01,從金融數(shù)據(jù)服務(wù)商上獲取滿足公司之間持股或收購關(guān)系的文本數(shù)據(jù),并對這些文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理數(shù)據(jù)a。本步驟中,采用stanfordcorenlp對文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、命名實體標(biāo)注以及語法依賴處理。stanfordcorenlp處理功能強(qiáng)大,能夠快速準(zhǔn)確地實現(xiàn)對文本數(shù)據(jù)的處理。s02,以預(yù)處理數(shù)據(jù)a作為弱監(jiān)督學(xué)習(xí)的正樣本,以通過負(fù)抽樣方法建立的數(shù)據(jù)作為弱監(jiān)督學(xué)習(xí)的負(fù)樣本,進(jìn)行基于bootstrapping的弱監(jiān)督學(xué)習(xí),得到數(shù)據(jù)a1。本步驟中,數(shù)據(jù)a1中既包含對正樣本弱監(jiān)督學(xué)習(xí)得到的數(shù)據(jù),又包含對負(fù)樣本監(jiān)督學(xué)習(xí)得到的數(shù)據(jù)。弱監(jiān)督學(xué)習(xí)的方法,可以有效地擴(kuò)大樣本數(shù)據(jù)的數(shù)量,進(jìn)而提升因子圖模型訓(xùn)練的準(zhǔn)確度。s03,對數(shù)據(jù)a1進(jìn)行候選實體識別,構(gòu)建得到候選實體對集b1。s03的具體過程為:首先,從數(shù)據(jù)a1中識別候選實體,排除錯誤和無意義的候選實體,得到如表1所示的候選實體;然后,對相同意義的候選實體做實體連接,將候選實體兩兩組合為候選實體對,如表2所示;最后,去除重復(fù)和無意義的候選實體對,形成候選實體對集b1。表1字段類型mention_idtextmention_texttextdoc_idtextsentence_indexintbegin_indexintend_indexint_表1字段類型p1_idtextp1_nametextp2_idtextp2_nametexts04,如圖2所示,建立一個正則表達(dá)式,并根據(jù)正則表達(dá)式在金融公報文本中匹配得到公司之間持股或收購關(guān)系的文本數(shù)據(jù),并對該些文本數(shù)據(jù)進(jìn)行預(yù)處理,得到候選實體對集b2。本步驟中,對文本進(jìn)行預(yù)處理的過程為:采用stanfordcorenlp對文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、命名實體標(biāo)注以及語法依賴處理。s05,分別對候選實體對集b1、b2中候選實體對的進(jìn)行特征提取,得到候選實體對集b1的特征向量集c1與候選實體對集b2的特征向量集c2,并將特征向量集c1、c2存儲到數(shù)據(jù)庫中;由于自然語言表達(dá)的多樣性,文本特征一般沒有指定的屬性,我們需要總結(jié)不同句子的語法結(jié)構(gòu)、中間詞匯等來計算這部分特征。本步驟中,所述的特征提取為:1)對于實體對之間的句段,提取完整的詞語序列、ner序列、pos序列2)對于實體對之間的句段,提取指定從0到最大窗window的所有詞語片段3)實體對前后窗口的詞段4)建立特征詞典,判斷實體對之間的詞段中是否含有這些特征詞5)對于實體對依賴的語法結(jié)構(gòu),從mention開始,遍歷原文本生成的語法樹,提取相應(yīng)的語法依賴項的詞語序列、pos序列和詞語pos的混合序列。最終提取得到的文本特征如圖3所示。s06,將數(shù)據(jù)庫中的特征向量集c1、c2作為因子圖模型的輸入,以候選實體對集b1、b2中候選實體對對應(yīng)的標(biāo)記值作為因子圖模型的真值標(biāo)簽,以目標(biāo)函數(shù)y最大為目標(biāo),對因子圖模型進(jìn)行訓(xùn)練,得到金融文本知識抽取模型;本步驟中,目標(biāo)函數(shù)y為:其中:gj=wjf(σ(v1),σ(v2),…,σ(vaj))σ(v1)表示因子圖變量v1的概率值,σ(vaj)表示因子圖變量vaj的概率值,aj表示為與第j個變量有相關(guān)性的隨機(jī)變量的數(shù)目,f(·)表示因子圖各隨機(jī)變量之間的相關(guān)性表,wj表示f(·)的實數(shù)權(quán)重,z[i]表示一個區(qū)分函數(shù),i表示可能的一種結(jié)果假設(shè);ie表示多種可能的結(jié)果假設(shè)組成的可能世界;fi∈f表示一個隨機(jī)變量以特定方式和其他變量的相關(guān)性。s07,將預(yù)測樣本輸入至金融文本知識抽取模型中,將輸出概率值大于0.95的實體對作為抽取結(jié)果。以上所述的具體實施方式對本發(fā)明的技術(shù)方案和有益效果進(jìn)行了詳細(xì)說明,應(yīng)理解的是以上所述僅為本發(fā)明的最優(yōu)選實施例,并不用于限制本發(fā)明,凡在本發(fā)明的原則范圍內(nèi)所做的任何修改、補(bǔ)充和等同替換等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12