一種事件觸發(fā)詞識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息抽取技術(shù)以及模式識別技術(shù)領(lǐng)域,特別是涉及一種事件觸發(fā)詞識 別方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展和信息高速公路的興起,網(wǎng)絡(luò)信息數(shù)據(jù)不斷增加,從而使 得大量的信息以電子文本的形式呈現(xiàn)在人們面前。因此,如何從這些大量的信息中迅速、準 確地提取出人們所需求的重要信息就越發(fā)重要。
[0003] 信息抽取是從文本中自動獲取信息的一種主要手段。信息抽取是將無結(jié)構(gòu)的文 本信息,按照人們的需求識別和抽取出來,轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并采用數(shù)據(jù)庫 的形式存儲,以便人們查詢和進一步的分析、利用。事件抽?。‥vent Extraction)是信息 抽取的一個重要研究方向。ACE2005將事件抽取的任務(wù)定義為事件的檢測與識別(Event detection and recognition),即識別特定類型的事件,并進行相關(guān)信息的確定和抽取。主 要的相關(guān)信息包括:事件觸發(fā)詞、事件的類型和子類型、事件的元素等。觸發(fā)詞是觸發(fā)事件 發(fā)生的詞,觸發(fā)詞的識別任務(wù)是進行事件抽取其他子任務(wù)的基礎(chǔ)。例如:"高中同學(xué)前一個 月結(jié)婚了",通過事件觸發(fā)詞識別,可知"結(jié)婚"為觸發(fā)詞觸發(fā)了事件的發(fā)生,而"美國總統(tǒng)布 什將于2月訪問德國并與施羅德會談"這一事件則是由觸發(fā)詞"會談"觸發(fā)的。
[0004] 目前,事件抽取的方法大致可以分為兩種:第一種是基于模式匹配的方法,它是指 某類事件的識別和抽取是在一些模式的指導(dǎo)下進行的,而所需的模式則需要人工或自動的 方式來設(shè)定或獲取。該方法分為兩個過程:模式獲取和信息抽取。其中,模式的建立需要取 決于具體的領(lǐng)域和使用的環(huán)境,建立起來有困難。但是根據(jù)特征提取出來的模式在其應(yīng)用 范圍內(nèi)準確率很高,根據(jù)模式匹配出的事件準確性也較好。第二種方法是基于機器學(xué)習(xí)的 方法,即使用統(tǒng)計的方法進行事件抽取的研究。這種方法把事件抽取看成分類問題,選擇合 適的特征并使用合適的分類器來完成?;跈C器學(xué)習(xí)的方法雖然不依賴于語料的內(nèi)容與格 式,但需要大規(guī)模的標注語料,否則會出現(xiàn)較為嚴重的數(shù)據(jù)稀疏問題。
[0005] 因此,怎樣避免數(shù)據(jù)稀疏現(xiàn)象及選取有效的特征,是基于機器學(xué)習(xí)的事件抽取方 法研究的一大難點。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種事件觸發(fā)詞識別方法及裝置,目的在于解決現(xiàn)有的事件 觸發(fā)詞識別方法中數(shù)據(jù)稀疏的問題。
[0007] 為解決上述技術(shù)問題,本發(fā)明提供一種事件觸發(fā)詞識別方法,包括:
[0008] 將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料;
[0009] 根據(jù)所述原始語料以及所述翻譯語料,確定當前候選詞的雙語特征,所述雙語特 征包括原始語料的第一單語特征以及翻譯語料的第二單語特征;
[0010] 通過所述雙語特征,使用預(yù)先建立的二元分類器對所述當前候選詞進行分類,以 確定所述當前候選詞是否為事件觸發(fā)詞;其中,所述二元分類器為通過對多個具有雙語特 征的訓(xùn)練樣本進行訓(xùn)練得到的。
[0011] 可選地,所述第一單語特征包括:
[0012] 詞袋特征、所述當前候選詞的詞形和詞性特征、距離所述當前候選詞左/右最近 的詞的詞形和詞性特征、距離所述當前候選詞左/右最近的實體的詞特征和類型特征。
[0013] 可選地,所述第二單語特征包括:
[0014] 所述當前候選詞翻譯后的詞特征和整句翻譯文本的詞袋特征。
[0015] 可選地,所述將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料包括:
[0016] 使用機器翻譯技術(shù)對所述原始語料進行整句翻譯和逐詞翻譯。
[0017] 可選地,所述將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料之后還 包括:
[0018] 當翻譯后的語料為中文時,對翻譯后的文本進行分詞處理。
[0019] 可選地,預(yù)先建立所述二元分類器包括:
[0020] 建立最大熵二元分類器。
[0021] 本發(fā)明還提供了一種事件觸發(fā)詞識別裝置,包括:
[0022] 獲取模塊,用于將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料;
[0023] 確定模塊,用于根據(jù)所述原始語料以及所述翻譯語料,確定當前候選詞的雙語特 征,所述雙語特征包括原始語料的第一單語特征以及翻譯語料的第二單語特征;
[0024] 分類模塊,用于通過所述雙語特征,使用預(yù)先建立的二元分類器對所述當前候選 詞進行分類,以確定所述當前候選詞是否為事件觸發(fā)詞;其中,所述二元分類器為通過對多 個具有雙語特征的訓(xùn)練樣本進行訓(xùn)練得到的。
[0025] 可選地,所述獲取模塊用于將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻 譯語料包括:
[0026] 所述獲取模塊具體用于使用機器翻譯技術(shù)對所述原始語料進行整句翻譯和逐詞 翻譯。
[0027] 可選地,還包括:
[0028] 分詞模塊,用于在將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料之 后,當翻譯后的語料為中文時,對翻譯后的文本進行分詞處理。
[0029] 本發(fā)明所提供的事件觸發(fā)詞識別方法及裝置,通過將待識別原始語料進行整句翻 譯和逐詞翻譯,獲得翻譯后的語料,將原始語料以及翻譯語料有效的融合,作為當前候選詞 的雙語特征。根據(jù)雙語特征,使用預(yù)先建立的二元分類器對當前候選詞進行分類,以確定當 前候選詞是否為事件觸發(fā)詞。本發(fā)明所提供的事件觸發(fā)詞識別方法及裝置,同時從事件的 原始以及翻譯語料入手,使用二者的綜合信息去識別事件的觸發(fā)詞,可以在一定程度上避 免語料的稀疏問題,有利于提高系統(tǒng)的識別性能。
【附圖說明】
[0030] 圖1為本發(fā)明所提供的事件觸發(fā)詞識別方法的一種【具體實施方式】的方法流程圖;
[0031] 圖2為本發(fā)明所提供的事件觸發(fā)詞識別方法的另一種【具體實施方式】的方法流程 圖;
[0032] 圖3為本發(fā)明所提供的事件觸發(fā)詞識別裝置的一種【具體實施方式】的結(jié)構(gòu)框圖。
【具體實施方式】
[0033] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和【具體實施方式】 對本發(fā)明作進一步的詳細說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是 全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提 下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0034] 本發(fā)明所提供的事件觸發(fā)詞識別方法的一種【具體實施方式】的方法流程圖如圖1 所示,該方法包括:
[0035] 步驟SlOl :將待識別原始語料進行整句翻譯和逐詞翻譯,獲得翻譯語料;
[0036] 步驟S102 :根據(jù)所述原始語料以及所述翻譯語料,確定當前候選詞的雙語特征, 所述雙語特征包括原始語料的第一單語特征以及翻譯語料的第二單語特征;
[0037] 步驟S103 :通過所述雙語特征,使用預(yù)先建立的二元分類器對所述當前候選詞進 行分類,以確定所述當前候選詞是否為事件觸發(fā)詞;其中,所述二元分類器為通過對多個具 有雙語特征的訓(xùn)練樣本進行訓(xùn)練得到的。
[0038] 本發(fā)明所提供的事件觸發(fā)詞識別方法,通過將待識別原始語料進行整句翻譯和逐 詞翻譯,獲得翻譯后的語料,將原始語料以及翻譯語料有效的融合,作為當前候選詞的雙語 特征。根據(jù)雙語特征,使用預(yù)先建立的二元分類器對當前候選詞進行分類,以確定當前候選 詞是否為事件觸發(fā)詞。本發(fā)明所提供的事件觸發(fā)詞識別方法,同時從事件的原始以及翻譯 語料入手,使用二者的綜合信息去識別事件的觸發(fā)詞,可以在一定程度上避免語料的稀疏 問題,有利于提尚系統(tǒng)的識別性能。
[0039] 需要指出的是,上述第一單語特征可以具體包括:詞袋特征、所述當前候選詞的詞 形和詞性特征、距離所述當前候選詞左/右最近的詞的詞形和詞性特征、距離所述當前候 選詞左/右最近的實體的詞特征和類型特征;
[0040] 上述第二單語特征可以具體包括:所述當前候選詞翻譯后的詞特征和整句翻譯文 本的詞袋特征。
[0041] 當然,第一單語特征以及第二單語特征還可以包括其他特征,并不限于這里指出 的特征。這都不影響本發(fā)明的實現(xiàn)。
[0042] 從國內(nèi)外的研究現(xiàn)狀可知,中文的事件抽取研究起步較晚,關(guān)于可用資源的建設(shè) 相對薄弱。相對而言,英文的事件抽取研究則起步較早,相關(guān)的研究也比較深入,但是數(shù)據(jù) 稀疏這一問題仍然存在。因此,本發(fā)明提出的基于雙語信息的事件觸發(fā)詞識別方法,可以 應(yīng)用于中英文事件觸發(fā)詞識別技術(shù)中,利用機器翻譯系統(tǒng)來消除中英文兩種語言之間的障 礙,把一個源語言的事件句翻譯成另一種語言。
[0043] 本實施例提供了事件觸發(fā)詞識別方法的另一種【具體實施方式】,如圖2方法流程圖 所示。該方法具體包括:
[0044] 步驟S201 :使用機械翻譯技術(shù)對中英文的原始語料進行整句翻譯和逐詞翻譯;
[0045] 谷歌翻譯工具是目前比較先進且應(yīng)用比較廣泛的機器翻譯系統(tǒng)之一,本實施例即 利用該工具來實現(xiàn)事件的文本翻譯。例1就是一個英文事件及其對應(yīng)的整句中文翻譯。
[0046] 例 I :Saddam,s clan is said to have left for a small village in the desert.
[0047] 中文翻譯:據(jù)說薩達姆家族已經(jīng)離開沙漠中的一個小村莊。
[0048] 如果是把英文翻譯成中文,那么還需要對翻譯后的文本進行分詞處理。本實施例 中使用中科院的分詞工具完成這一分詞過程。
[0049] 步驟S202 :根據(jù)所述原始語料以及所述翻譯語料,確定當前候選詞的雙語特征, 所述雙語特征包括原始語料的第一單語特征以及翻譯語料的第二單語特征;
[0050] 雙語特征的文本表示過程,即中英文信息的融合過程。特征選擇是機器學(xué)習(xí)的一 個關(guān)鍵問題,本發(fā)明為了使機器可以同時學(xué)習(xí)雙語信息,需要對文本的特征表示進行優(yōu)化。 本發(fā)明使用的方法是在原有的單語特征基礎(chǔ)上加入候選詞翻譯后的詞特