欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種金融領域的事件句抽取方法與流程

文檔序號:12824734閱讀:461來源:國知局

本發(fā)明屬于中文信息處理技術領域,具體涉及一種金融領域的事件句抽取方法。



背景技術:

作為信息抽取的一個重要分支,事件抽取是從非結構化的文本中抽取出用戶感興趣的事件信息,并以結構化的形式保存起來以供后續(xù)的分析應用。其在自動摘要、自動問答、信息檢索等領域有著廣泛的應用。

隨著國內市場經(jīng)濟不斷發(fā)展,特別是股市經(jīng)濟,對金融事件越來越敏感。研究面向金融領域的事件抽取對于深入分析金融領域的文本信息、為投資決策提供支持具有重要意義。在當下,面對海量的互聯(lián)網(wǎng)金融信息,單純依靠人工的分析很難達到實際的要求。相對于一般的事件抽取,在對金融文本進行事件抽取時,一個比較突出的問題是公司名識別。據(jù)統(tǒng)計,在公司名的使用上,僅有7%的是公司全稱,而更多的是根據(jù)口語習慣使用公司簡稱。公司簡稱的使用給金融事件抽取帶來了很大的難度。

公司名識別是金融事件句抽取中的一個重點,同時也是一個難點。首先,公司名屬于未登錄詞,現(xiàn)在的主流分詞平臺在進行公司名識別方面還不成熟。其次,在金融文本中,公司簡稱比公司全稱的使用頻率要高的多。對于公司全稱,還有些命名規(guī)律可以依賴。簡稱更傾向口語化,加大了公司名識別的難度。針對公司簡稱的識別研究,現(xiàn)有技術所達到的效果不佳。

事件句抽取屬于信息抽取領域,事件由事件觸發(fā)詞(trigger)和描述事件結構的元素(argument)構成。事件抽取的很多相關研究也就是圍繞著觸發(fā)詞和事件元素來進行的。相應地,事件抽取的任務可分解為二步進行:第一步是要從一篇文本的句子集中抽取出事件句,進一步再從事件句中抽取出事件元素。因此,事件句抽取是事件抽取的一個關鍵環(huán)節(jié),其抽取效果對后續(xù)的事件類型識別、事件元素識別有很大的影響?,F(xiàn)有技術的檢測事件句的方法主要是基于觸發(fā)詞檢測,其缺陷在于對詞表嚴重依賴,影響效果;另外也有基于特征的事件句識別方法,其缺陷是對領域詞的利用不直接、不充分。

由于上述原因,現(xiàn)有技術的金融領域的事件句抽取方法的效率不高,效果不好,亟待研發(fā)新的方法。



技術實現(xiàn)要素:

針對上述現(xiàn)有技術中存在的問題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技術缺陷的金融領域的事件句抽取方法。

為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術方案如下:

一種金融領域的事件句抽取方法,包括以下步驟:

步驟1)利用互聯(lián)網(wǎng)搜索和上市公司名信息進行公司名識別;

步驟2)綜合考慮語句所在位置、公司名信息、領域動詞信息、語句與標題相似度四個方面特征,構造權值表達;

步驟3)從句子集中提取金融事件句。

進一步地,所述步驟1)具體包括:

步驟一:首先提取待處理文本句子中的每個n元組形成n元組集體,以此集合作為公司名候選集合。

步驟二:結合公司名庫為每個n元組進行初步的權重計算。

步驟三:對每個n元組進行互聯(lián)網(wǎng)查詢,結合返回的搜索信息對n元組進行權重更新計算。

步驟四:在n元組集合中,將得分高于閾值β的n元組作為公司名,否則,作為非公司名。

進一步地,所述步驟二具體為:

針對作為候選公司名的n元組,首先計算n元組與庫中每一個公司名的相似度值,然后選擇最大的相似度值作為此n元組的權重得分,一個n元組a與一個公司名c的相似度值通過式(1)計算:

sim(a,c)=∑w∈a∩c1+len(a)*(start(a,c)□end(a,c))(1)。

進一步地,所述步驟三具體為:

若此搜索結果包含此n元組,并且在其后的位置出現(xiàn)“公司”、“集團”或“企業(yè)”,則此n元組權值得分加1;

若此搜索結果包含此n元組,并且在其后的位置內出現(xiàn)8位字符加數(shù)字的字符串,即“sh******”或“sz******”,則此n元組權值得分加2。

進一步地,所述公司名信息的權值通過式(2)計算:

scorecompany(si)=count(si)(2),

其中,count(si)表示句子si包含的公司名數(shù)量;

所述領域動詞信息的權值通過式(3)計算:

所述語句所在位置的權值通過式(4)計算:

scorelocation(si)=1/i(4);

所述語句與標題相似度的權值通過式(5)計算:

本發(fā)明提供的金融領域的事件句抽取方法,提出了基于互聯(lián)網(wǎng)信息的公司名識別方法,利用的規(guī)則少,不受訓練語料限制,能充分為事件句的提取及事件元素的識別做好準備,從而解決了進行公司名識別時所面臨的簡稱使用頻繁、口語化現(xiàn)象嚴重帶來的問題,同時,本發(fā)明從公司名信息、領域動詞信息、語句與標題相似度、語句所在位置四個方面對句子進行綜合權重計算,最終選出金融事件句,能夠高效地識別和提取金融事件句,對金融領域的事件句的抽取效率高、抽取效果好,可以很好地滿足實際應用的需要。

附圖說明

圖1為本發(fā)明的流程圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,下面結合附圖和具體實施例對本發(fā)明做進一步說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

如圖1所示,一種金融領域的事件句抽取方法,包括以下步驟:

步驟1)利用互聯(lián)網(wǎng)搜索和上市公司名信息進行公司名識別;

步驟2)綜合考慮語句所在位置、公司名信息、領域動詞信息、語句與標題相似度四個方面特征,構造權值表達;

步驟3)從句子集中提取金融事件句。

所述步驟1)具體包括:

步驟一:首先提取待處理文本句子中的每個n元組(n-gram)形成n元組集體,以此集合作為公司名候選集合;

步驟二:結合公司名庫為每個n元組進行初步的權重計算;

步驟三:對每個n元組進行互聯(lián)網(wǎng)查詢,結合返回的搜索信息對n元組進行權重更新計算;

步驟四:在n元組集合中,將得分高于閾值β的n元組作為公司名,否則,作為非公司名。

本發(fā)明構建了公司名庫,但與其人工方式構建的做法不同,本發(fā)明以國內上市公司名作為庫內容,用計算機程序從新浪財經(jīng)接口通過股票代碼可以獲得。比如由代碼“sh600130”可以獲得公司名“波導股份”。此種構建公司名庫的方法排除了人工構建過程中主觀因素的干擾,通用性更強。

對金融文本進行分析,公司名的簡稱多是從全稱里摘取部分字詞,以全稱的開關或結尾更為常見。比如“中國石油天然氣集團公司”簡稱“中石油”或“中國石油”,將“神州泰岳軟件股份有限公司”簡稱“神州泰岳”。

根據(jù)此特點,進行上述步驟二。所述步驟二具體為:

針對作為候選公司名的n元組,首先計算n元組與庫中每一個公司名的相似度值,然后選擇最大的相似度值作為此n元組的權重得分,一個n元組a與一個公司名c的相似度值通過式(1)計算:

sim(a,c)=∑w∈a∩c1+len(a)*(start(a,c)□end(a,c))(1)。

百度搜索是全球最大的中文搜索引擎,擁有全球最大的中文網(wǎng)頁庫,早在2010年收錄中文網(wǎng)頁已超過200億,而且還在不斷更新。對于每個關鍵字的搜索,百度搜索引擎將在首頁給出10條搜索結果的簡介。經(jīng)過分析,如果一個n元組是公司名全稱或者簡稱,那么利用其作為關鍵字來進行互聯(lián)網(wǎng)搜索,在搜索結果中,伴隨此n元組經(jīng)常出現(xiàn)的有“公司”、“企業(yè)”、“集團”或者股票代碼。例如,表1是搜索詞“中石油”的部分搜索返回條目?;诖?,本發(fā)明主要利用百度搜索結果對步驟二中的候選公司名集合進行權重更新。

表1網(wǎng)絡搜索返回條目

所述步驟三具體為:

若此搜索結果包含此n元組,并且在其后的位置出現(xiàn)“公司”、”集團“或”企業(yè)“,則此n元組權值得分加1;

若此搜索結果包含此n元組,并且在其后的位置內出現(xiàn)8位字符加數(shù)字的字符串,即“sh******″或”sz******“,則此n元組權值得分加2。

在步驟三中,在公司名識別過程中,充分利用了具有一定實時性的互聯(lián)網(wǎng)語料庫。

現(xiàn)有技術的事件句抽取方法存在的缺陷有:基于觸發(fā)詞方法對詞表依賴性強,同時沒有很好地利用句子位置、與標題相似度等特征信息;基于特征而進行事件句抽取,只是泛泛地利用命名實體,沒有充分利用領域詞信息。基于此,本發(fā)明提出了基于語句權值體系的事件句抽取方法:綜合公司名信息、領域動詞信息、語句與標題相似度和語句所在位置四個方面特征,兼顧各個因素,同時又有所側重。

定義1(金融事件句)在金融事件報道中,一個句子包含事件的主體(subject)、謂詞(predicate)二個核心要素,并能夠代表文章主旨,則稱此句子為該篇報道的金融事件句。

定義2(領域動詞集)領域動詞集是指一組能夠代表描述事件核心內容的動詞組合。本發(fā)明主要是進行金融方面領域動詞集的研究與構建。

動詞往往包含較多的事件信息,領域動詞是事件句的重要特征。本發(fā)明采用半監(jiān)督的方式來構建金融領域動詞表:充分考慮一個動詞的上下文信息和在句子中的語義角色,利用最大熵模型計算一個詞屬于金融領域動詞的概率。關鍵步驟如下:

step1:人工從語料集中選出一些金融領域動詞;

step2:結合人工選出的領域動詞,從訓練語料中構建所有動詞的特征窗口,特征窗口包含上下文信息和語義角色信息二部分;

step3:在擴展語料集中構建所有動詞的特征窗口;

step4:訓練階段,利用最大熵模型對step2中特征窗口進行訓練;

step5:概率計算階段,利用step4訓練得到的模型對step3中的特征窗口進行概率運算,得到一個動詞屬于金融領域動詞和非金融領域動詞的概率。

其中動詞的上下文和語義角色特征窗口如表2所示。

表2特征模板表

根據(jù)上述特征模板表,構建訓練特征模板。例如訓練語料中經(jīng)過分詞后的一個小句子片段″華神/nz集團/n閃電/v停牌/v謀/v重組/v。/wp″,顯然這里“停牌”是本次金融事件的關鍵動詞。經(jīng)依存句法分析后,“停牌“標注角色為”hed“,則此關鍵詞的特征窗口為″集團/n閃電/v停牌/v謀/v重組/vhed1″。

本發(fā)明依存句法分析器采用哈爾濱工業(yè)大學信息檢索研究中心的依存句法分析模塊gparser。在1000篇文章中,經(jīng)過人工標注200個領域動詞后,再選擇機器標注,最終形成包含679個動詞的金融領域動詞表。

分析一個句子是否為一篇報道的事件句,主要考慮四個特征:公司名信息、領域動詞信息、語句與標題相似度和語句所在位置。

在上述步驟2)中:

通過分析新聞文本,金融事件的重要主體為公司,所以將公司名作為事件句的一個重要特征。所述公司名信息的權值通過式(2)計算:

scorecompany(si)=count(si)(2),

其中,count(si)表示句子si包含的公司名數(shù)量;

本發(fā)明已經(jīng)構建了金融領域動詞表;動詞一般作為一個事件的核心,一個句子中包含金融領域動詞,那么這個句子是事件句的可能性更高;所述領域動詞信息的權值通過式(3)計算:

語句所在位置信息是跟文本類型相關的;在新聞中,信息含量高的句子通常出現(xiàn)在前幾句,所以將語句所在位置作為一個特征;所述語句所在位置的權值通過式(4)計算:

scorelocation(si)=1/i(4);

文本的標題一般含有較多的信息量;計算句子與標題的相似度,可以評估句子作為該篇報道事件句的可能性;所述語句與標題相似度的權值通過式(5)計算:

其中,動詞和名詞包含更多的信息量,單個詞條的權重通過式(6)來計算:

從句子集中提取金融事件句時,設新聞文本中有n個句子,每個句子的得分是四個特征分量的線性組合,如式(7)所示:

score(si)=wkscorek(si)(7),

其中k∈{company,keyverb,location,title},各個特征分量的權重wk在數(shù)據(jù)集上通過訓練之后會得到最優(yōu)組合。

通過實驗驗證本發(fā)明的有效性:

實驗數(shù)據(jù)是從新浪財經(jīng)網(wǎng)上下載5000篇財經(jīng)新聞,從中隨機選出1000句進行公司名識別測試。按基本均等原則將1000句分為三組數(shù)據(jù)。在實驗中,調整閾值β,設定β值為16時,在第一組數(shù)據(jù)上可達到最好的效果。以此閾值在其他二組數(shù)據(jù)上測試,如表3也達到了同等的識別效果。

表3公司名識別結果

綜合三組數(shù)據(jù)測試結果,本發(fā)明的公司名識別方法的正確率、召回率達到82.28%、68.93%。

對于式(7),需要確定wk的值。實驗將人工標注的216篇財經(jīng)新聞文本隨機抽取100篇作為參數(shù)學習語料,另116篇作為測試。對于wk在滿足0<wi<1和∑wi=1條件下,進行遍歷,精確到0.1。通過對結果的比較,最后確定wcompany、wkeyverb、wlocation、wtitle分別為0.1、0.2、0.6和0.1。

通過實驗結果可以證明本發(fā)明抽取事件句的效率較高。

本發(fā)明提供的金融領域的事件句抽取方法,提出了基于互聯(lián)網(wǎng)信息的公司名識別方法,利用的規(guī)則少,不受訓練語料限制,能充分為事件句的提取及事件元素的識別做好準備,從而解決了進行公司名識別時所面臨的簡稱使用頻繁、口語化現(xiàn)象嚴重帶來的問題,同時,本發(fā)明充分結合基于特征和基于觸發(fā)詞的二類事件句抽取方法,從公司名信息、領域動詞信息、語句與標題相似度、語句所在位置四個方面對句子進行綜合權重計算,最終選出金融事件句,從而克服了單獨基于特征和單獨基于觸發(fā)詞來抽取事件句所存在的缺點并綜合了二者的優(yōu)勢,能夠高效地識別和提取金融事件句,對金融領域的事件句的抽取效率高、抽取效果好,可以很好地滿足實際應用的需要。

以上所述實施例僅表達了本發(fā)明的實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
调兵山市| 长宁县| 丹凤县| 桑植县| 中宁县| 南部县| 广德县| 邵阳县| 甘孜| 嘉善县| 亳州市| 西乡县| 曲靖市| 阆中市| 阿鲁科尔沁旗| 布拖县| 亳州市| 江北区| 安康市| 扎囊县| 海安县| 济阳县| 贵阳市| 甘谷县| 任丘市| 德州市| 龙门县| 雷波县| 栾川县| 阿拉善左旗| 介休市| 阳信县| 温宿县| 武乡县| 枝江市| 兴文县| 灯塔市| 渝北区| 舒城县| 景洪市| 乌拉特中旗|