欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學習的結構化信息抽取方法與流程

文檔序號:12824740閱讀:316來源:國知局

本發(fā)明屬于信息處理領域,具體涉及一種基于深度學習的結構化信息抽取方法和系統(tǒng)。



背景技術:

結構化信息的抽取上,很多研究在收集來自語料庫的實體的結構化知識方面已經做了大量工作,例如kylin,dbpedia。這些知識庫,也稱為知識圖譜,包含有關實體的豐富的事實,例如貝拉克·奧巴馬的出生地是檀香山。我們通常將實體稱為主體(s),屬性或方面作為謂詞(p)和值作為對象(o)。由于知識圖譜的廣泛應用,從語料庫提取結構化事實(以spo三元組的形式)越來越吸引了很多研究興趣。在此項技術里中,我們關注的是同時提取數(shù)千萬實體的大量謂詞的結構化事實的問題。

具體的問題定義如下。給定一組謂詞p和大語料庫,我們要以<s,p,o>的形式提取事實,其中p∈p是謂詞,s是主語,o是對象。例如,假設“出生地”∈p,則從句子“...迪卡普里奧出生于加利福尼亞州好萊塢...”,我們想提取事實<萊昂納多·迪卡普里奧,出生地,加利福尼亞州好萊塢>。

一個明顯的挑戰(zhàn)是謂詞集合p可能非常大,并且很可能存在大量不同的方式來以自然語言表達每個謂詞。

大多數(shù)傳統(tǒng)方法使用句法模式來觸發(fā)提取。例如,“出生于”是謂詞“出生地”的模式。這些現(xiàn)有的方法可以基于是否自動學習模式而被分為兩類,基于規(guī)則的方法和機器學習方法。這些方法最明顯的弱點是其引起的人工成本。手動成本有兩個部分。首先,它們中的許多依賴于手工制作的規(guī)則(例如句法模式)或特征。要素工程或規(guī)則定義需要大量的領域專業(yè)知識。真實情況甚至更糟,因為不同謂詞的特征或規(guī)則通常是不同的。第二,基于監(jiān)督學習的解決方案需要手動標記的數(shù)據(jù)。對于提取大量謂詞的信息的任務,人工成本通常是令人望而卻步的。傳統(tǒng)方法不僅需要巨大的人力成本,這些解決方案通常具有相對不可接受的性能,因為它們在處理復雜的自然語言中的弱點:

1.兩種方法都不支持文本中的長距離依賴性。大多數(shù)提取方法僅使用文本中的局部特征,也就是說,它們通過關注連接x和y的短文本來確定x和y之間的關系。然而,在許多長尾的情況下,關系通過長文本體現(xiàn),即,在x和y之間存在長距離依賴性。考慮以下示例,其中s=湯姆·拇指(電影),p=主演?!皽贰つ粗甘且粋€1958幻想音樂電影導演喬治·帕爾和米高梅釋放。這部電影基于同名的童話故事,是一個小男人,他設法欺騙兩個決定從他那里獲得財富的盜賊。它主演了拉斯·坦布林的標題角色,主要是英國的支持者(它在好萊塢和倫敦拍攝)...”。

2.關于主語的句子可以包含用于謂詞的多個對象,這進一步使模式復雜化并使學習者混淆。例如,下面的句子包含3個對象(詩人,劇作家,演員)的is-a關系。“威廉·莎士比亞是英國詩人,劇作家和演員,廣泛...”。

3.我們想要提取的對象可能不一定出現(xiàn)在單個句子中。例如,讓s=德懷特·霍華德,p=效力于球隊,有效對象包括休斯頓火箭,洛杉磯湖人,奧蘭多魔術,出現(xiàn)在多個句子:“...在1995年,奧蘭多魔術隊選擇他...2012年8月10日,霍華德從奧蘭多交易到洛杉磯湖人在一個交易...2013年7月5日,通過twitter宣布,他打算簽署與火箭...”。

上述示例清楚地表明,表達主體和對象之間的關系的自然語言的復雜性和豐富性遠遠超出了固定的手工制作的圖案或特征的集合。



技術實現(xiàn)要素:

本發(fā)明所要解決的技術問題是提供一種基于深度學習的結構化信息抽取方法。

本發(fā)明解決上述技術問題所采取的技術方案如下:

一種基于深度學習的結構化信息抽取方法,包括:

步驟1)采用遠程監(jiān)控來構建大規(guī)模標記數(shù)據(jù),包括:

使用現(xiàn)有的維基百科提供遠程監(jiān)督來構建提取器;其中,簽字,維基百科信息框包含關于實體的結構化事實,這些事實也在實體網頁的自由文本部分中提及,使用在信息框中表達事實的句子作為訓練數(shù)據(jù);

步驟2)利用先驗知識,其具有類型和短語信息,整合到結構化信息抽取模型中;其中,自然語言句子中的單詞的標簽與其先前的單詞及其連續(xù)的單詞相關;

步驟3)使用雙向隱藏的lstm層來利用過去和未來的輸入特征;將每個句子以序列的形式輸入一個雙向的lstm模型中;

步驟4)最終輸出標記序列,其具有真或假標記,且具有與輸入單詞序列相等的長度。

優(yōu)選的是,步驟1),具體包括:

對于謂詞“a”,將維基百科的信息框中存在該謂詞的實體篩選出來;

然后取出這些實體的描述文本,將其各自對應的回答語句或者詞語“b”在文本中標記出來;

最終制成對于謂詞“a”的結構化信息抽取器的訓練數(shù)據(jù),其中,a可為任何謂詞。

優(yōu)選的是,步驟2),具體包括:

例如,對于文本中出現(xiàn)的回答語句或者詞語“b”,除了傳統(tǒng)的詞向量表示之外,再會加上一個標記,來表示這是一個短語,“b1/1·b2/2”;

除此之外,對于文本中出現(xiàn)的實體,也會標注其類型信息,并形成有多個標簽。

優(yōu)選的是,步驟4),具體包括:

針對某一語句,獲取其語句中包括的詞語,并對詞語進行標注,其中,其中標記0為假,即不是我們要抽取的信息,標記1為真,即是我們要抽取的信息。

優(yōu)選的是,步驟1),具體包括:

假設我們構造謂詞p的訓練數(shù)據(jù)集。我們首先尋找在其信息框中出現(xiàn)p的實體;從信息框中,我們首先找到實體s的p的對象o,然后,在提到o的維基百科文章頁面中的大多數(shù)句子表示關系<s,p,o>在某種程度上,這些句子中任何出現(xiàn)的o都標記為1,任何其他的標記都標記為0。

優(yōu)選的是,步驟1),只在自由文本中標記第一段以限制搜索空間。如果第一段超過200字,只需截斷它們;

如果第一段不包含o的出現(xiàn),我們就跳過它。因此,每個實體以及標記的第一段是標記的樣本,由此得到的樣品僅含有表達p的實例。

優(yōu)選的是,步驟1),隨機選擇表達另一個謂詞的積極實例的段落作為負實例;

令<s,t>,其中s是實體,t是其標記的第一段,是除了p之外的謂詞的肯定實例;

將段落t中每個標記的標簽改為0,并將s以及重新標記的t作為p的負樣本,重復上面的抽樣過程,直到負實例的數(shù)量等于正實例。

優(yōu)選的是,步驟3)中,lstm模型中,前向層和后向層都包含128個lstm單元,每個向前單元的內容由以下一組公式詳細闡述:

it=σ(wxixt+whiht-1+wcict-1+bi)

ft=σ(wxfxt+whfht-1+wcfct-1+bf)

ct=ftct-1+ittanh(wxcxt+whcht-1+bc)(4)

其中σ是對數(shù)sigmoid函數(shù),i,f,o和c分別是輸入門(inputgate),忘門(forgetgate),輸出門(outputgate)和單元激活向量(cellactivationvector);

后向層的輸出由類似的方程計算,唯一的區(qū)別是序列順序被顛倒,即,等式4中的下標t-1被替換為t+1。此外,bi-lstm層被堆疊2次以構建更深的網絡。對于每個輸入單詞,lstm層的輸出是前向和后向lstm層輸出的連接:

優(yōu)選的是,步驟4)中,具體包括:

令堆疊bi-lstm的最終輸出為lt*,使用s形函數(shù)σ來導出第t個標記的分數(shù):

將yt大于閾值α的任何標記標記為真,在一個句子中,多個標記可能被標記為真,將對應于連續(xù)的真標記的令牌的序列的任何短語用作對象。

優(yōu)選的是,還設計一個目標函數(shù)來訓練我們的模型,具體包括:

使用在二分類問題里被廣泛使用的二元交叉熵(binarycrossentropy):

其中(0或1)是第t個標記的真實值,是在訓練數(shù)據(jù)生成階段生成的。

本發(fā)明基于深度學習的方法,構造大量標記的自由文本,訓練深度神經網絡模型,進而實現(xiàn)在更多未知自由文本上的結構化信息的抽取。

本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。

附圖說明

下面結合附圖對本發(fā)明進行詳細的描述,以使得本發(fā)明的上述優(yōu)點更加明確。其中,

圖1是本發(fā)明基于深度學習的結構化信息抽取方法的示意圖。

具體實施方式

以下將結合附圖及實施例來詳細說明本發(fā)明的實施方式,借此對本發(fā)明如何應用技術手段來解決技術問題,并達成技術效果的實現(xiàn)過程能充分理解并據(jù)以實施。需要說明的是,只要不構成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結合,所形成的技術方案均在本發(fā)明的保護范圍之內。

另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

具體來說,近年來,深度學習被證實在自然語言處理(nlp)問題里有著很強的適用性。早在21世紀初,基于神經網絡的語言模型被提出,開創(chuàng)了深度學習應用于自然語言處理任務的先河。接著,研究表明基于卷積神經網絡(convolutionalneuralnetwork)的深度學習在詞性標注(part-of-speechtagging),分塊(chunking)以及命名實體識別(namedentityrecognizing)等眾多自然語言處理任務里有著卓越的表現(xiàn)。再后來,隨著循環(huán)神經網絡(recurrentneuralnetwork)的普及,深度學習在nlp問題里有了更好的表現(xiàn),并且在諸如機器翻譯(machinetranslation)等更多的領域有了更廣泛的應用。

近年的很多研究已經證明lstm-rnn在建模和處理復雜信息方面是有效的,并且在諸如機器翻譯,情緒分析和其他一些自然語言處理任務中實現(xiàn)了最好的結果。然而,使用lstm-rnn進行信息提取還沒有得到很好的研究。

由此,本發(fā)明構建了一個端到端系統(tǒng),以提取大量實體及其基于深中性網絡的謂詞的spo三元組。一些開創(chuàng)性的努力致力于在相關任務中建立深度學習模型,如關系分類,從文本中提取關系。雖然這些解決方案可以用于生成spo三元組,但是大多數(shù)這些解決方案集中在對于給定對實體的關系的提取。相反,我們專注于對實體和其謂詞之一的對象的提取。另一個區(qū)別是,這些解決方案中的大多數(shù)僅關注于從文本中提取關系,而不知道關于當前知識庫中廣泛存在的關系實例的先前知識。因此,當它們用作構建大型知識圖譜的構建塊時,它們的性能仍然有限。相比之下,我們采用遠程監(jiān)管框架,完全使用現(xiàn)有關系實例來構建標記數(shù)據(jù),這確保我們的模型具有比其他模型更好的性能。

其中,一種基于深度學習的結構化信息抽取方法,包括:

步驟1)采用遠程監(jiān)控來構建大規(guī)模標記數(shù)據(jù),包括:

使用現(xiàn)有的維基百科提供遠程監(jiān)督來構建提取器;其中,簽字,維基百科信息框包含關于實體的結構化事實,這些事實也在實體網頁的自由文本部分中提及,使用在信息框中表達事實的句子作為訓練數(shù)據(jù);

步驟2)利用先驗知識,其具有類型和短語信息,整合到結構化信息抽取模型中;其中,自然語言句子中的單詞的標簽與其先前的單詞及其連續(xù)的單詞相關;

步驟3)使用雙向隱藏的lstm層來利用過去和未來的輸入特征;將每個句子以序列的形式輸入一個雙向的lstm模型中;

步驟4)最終輸出標記序列,其具有真或假標記,且具有與輸入單詞序列相等的長度。

優(yōu)選的是,步驟1),具體包括:

對于謂詞“a”,將維基百科的信息框中存在該謂詞的實體篩選出來;

然后取出這些實體的描述文本,將其各自對應的回答語句或者詞語“b”在文本中標記出來;

最終制成對于謂詞“a”的結構化信息抽取器的訓練數(shù)據(jù),其中,a可為任何謂詞。

優(yōu)選的是,步驟2),具體包括:

例如,對于文本中出現(xiàn)的回答語句或者詞語“b”,除了傳統(tǒng)的詞向量表示之外,再會加上一個標記,來表示這是一個短語,“b1/1·b2/2”;

除此之外,對于文本中出現(xiàn)的實體,也會標注其類型信息,并形成有多個標簽。

優(yōu)選的是,步驟4),具體包括:

針對某一語句,獲取其語句中包括的詞語,并對詞語進行標注,其中,其中標記0為假,即不是我們要抽取的信息,標記1為真,即是我們要抽取的信息。

優(yōu)選的是,步驟1),具體包括:

假設我們構造謂詞p的訓練數(shù)據(jù)集。我們首先尋找在其信息框中出現(xiàn)p的實體;從信息框中,我們首先找到實體s的p的對象o,然后,在提到o的維基百科文章頁面中的大多數(shù)句子表示關系<s,p,o>在某種程度上,這些句子中任何出現(xiàn)的o都標記為1,任何其他的標記都標記為0。

優(yōu)選的是,步驟1),只在自由文本中標記第一段以限制搜索空間。如果第一段超過200字,只需截斷它們;

如果第一段不包含o的出現(xiàn),我們就跳過它。因此,每個實體以及標記的第一段是標記的樣本,由此得到的樣品僅含有表達p的實例。

優(yōu)選的是,步驟1),隨機選擇表達另一個謂詞的積極實例的段落作為負實例;

令<s,t>,其中s是實體,t是其標記的第一段,是除了p之外的謂詞的肯定實例;

將段落t中每個標記的標簽改為0,并將s以及重新標記的t作為p的負樣本,重復上面的抽樣過程,直到負實例的數(shù)量等于正實例。

優(yōu)選的是,步驟3)中,lstm模型中,前向層和后向層都包含128個lstm單元,每個向前單元的內容由以下一組公式詳細闡述:

it=σ(wxixt+whiht-1+wcict-1+bi)

ft=σ(wxfxt+whfht-1+wcfct-1+bf)

ct=ftct-1+ittanh(wxcxt+whcht-1+bc)(4)

其中σ是對數(shù)sigmoid函數(shù),i,f,o和c分別是輸入門(inputgate),忘門(forgetgate),輸出門(outputgate)和單元激活向量(cellactivationvector);

后向層的輸出由類似的方程計算,唯一的區(qū)別是序列順序被顛倒,即,等式4中的下標t-1被替換為t+1。此外,bi-lstm層被堆疊2次以構建更深的網絡。對于每個輸入單詞,lstm層的輸出是前向和后向lstm層輸出的連接:

優(yōu)選的是,步驟4)中,具體包括:

令堆疊bi-lstm的最終輸出為lt*,使用s形函數(shù)σ來導出第t個標記的分數(shù):

將yt大于閾值α的任何標記標記為真,在一個句子中,多個標記可能被標記為真,將對應于連續(xù)的真標記的令牌的序列的任何短語用作對象。

優(yōu)選的是,還設計一個目標函數(shù)來訓練我們的模型,具體包括:

使用在二分類問題里被廣泛使用的二元交叉熵(binarycrossentropy):

其中(0或1)是第t個標記的真實值,是在訓練數(shù)據(jù)生成階段生成的。

本發(fā)明基于深度學習的方法,構造大量標記的自由文本,訓練深度神經網絡模型,進而實現(xiàn)在更多未知自由文本上的結構化信息的抽取。

更具體地說,本發(fā)明涉及以下的工作原理和過程:

訓練數(shù)據(jù)生成:

構建有效提取器的先決條件是大量高質量的訓練數(shù)據(jù)。不幸的是,這種標記數(shù)據(jù)總是生產昂貴,因此數(shù)量有限。在本節(jié)中,我們采用遠程監(jiān)控來構建大規(guī)模標記數(shù)據(jù)。基本思想是使用現(xiàn)有的知識庫(具體來說,我們使用維基百科)提供遠程監(jiān)督來構建提取器。維基百科信息框包含關于實體的許多結構化事實,并且許多這些事實也在實體網頁的自由文本部分中提及。因此,我們可以使用在信息框中表達事實的句子作為訓練數(shù)據(jù)。

假設我們構造謂詞p的訓練數(shù)據(jù)集。我們首先尋找在其信息框中出現(xiàn)p的實體。讓我們成為這樣的實體之一。從信息框,我們首先找到實體s的p的對象o。然后,在提到o的維基百科文章頁面中的大多數(shù)句子表示關系<s,p,o>在某種程度上。這些句子中任何出現(xiàn)的o都標記為1,任何其他的標記都標記為0.我們只在自由文本中標記第一段以限制搜索空間。如果第一段超過200字,我們只需截斷它們。如果第一段不包含o的出現(xiàn),我們就跳過它。因此,每個實體以及標記的第一段是標記的樣本。

很容易看出,通過上述方法得到的樣品僅含有表達p的“陽性”實例。然而,即使在文本中出現(xiàn)o,情況也不總是這樣。例如,<加利福尼亞州好萊塢>可以是“出生地”和“死亡地”的對象。因此,我們仍然需要非平凡的負面實例來指導提取者學習該語言是否討論除了p之外的事實。為此,我們隨機選擇表達另一個謂詞的積極實例的段落作為負實例。令<s,t>(其中s是實體,t是其標記的第一段)是除了p之外的謂詞的肯定實例。我們將段落t中每個標記的標簽改為0,并將s以及重新標記的t作為p的負樣本。我們重復上面的抽樣過程,直到負實例的數(shù)量等于正實例。

注意,上述標記過程可能遇到由自然語言的復雜性導致的一些困難的情況。首先,一些提到o的句子可能表示p以外的關系。第二,o可能在infobox和自由文本中有不同的表達式,這使得確切的字符串匹配能夠識別o在某些情況下失敗。然而,維基百科包含數(shù)千萬個實體,這允許我們構建一個足夠大的標簽數(shù)據(jù),即使復雜的情況發(fā)生或多或少。

基于長短期記憶復發(fā)神經網絡(lstm-rnn)的信息抽取模型:

我們的模型的一個顯著特點是,我們的模型可以充分利用先驗知識,如類型和短語信息,這對提取有很大的影響,但常常被傳統(tǒng)的ie模型忽略。接下來,我們將介紹如何將先驗知識整合到我們的模型中。我們在下面描述我們的模型。

1.單詞表示

輸入文本被視為單詞序列。為了將單詞序列饋送到rnn模型,我們需要每個單詞的向量表示。我們對輸入單詞中的每個單詞使用混合表示序列,以覆蓋盡可能多的有用的知識庫建設信息。該表示由三個部分組成:字嵌入向量(v),短語信息(p),類型信息(t)。具體來說,第t個單詞的表示是三個組件的連接:

xt=concat(vt,pt,tt)(1)

顯然,我們可以輕松擴展模型以集成更多其他信息。接下來,我們詳細說明上述表示中的每個組件。

2.詞嵌入向量(vt)

vt表示文字詞信息。它是從隨機初始化的嵌入矩陣e∈rn×50產生的,其中n是單詞字典的大小。假設vt是具有大小的一熱矢量,n的第t個單詞,則用下一個等式計算字嵌入向量。

3.短語信息(pt)

我們注意到,三元組中的許多對象實際上是多字詞短語。如果模型不知道短語,我們的模型將很容易預測正確答案的片段。使模型意識到短語的理想解決方案是為深層學習結構中的短語識別特別注入若干層。然而,更深的層通常需要更多的訓練數(shù)據(jù),這不幸地在我們的情況下不成立。因此,我們改為重新組合句子,并將短語信息反饋到我們的模型中。

具體來說,我們首先通過從字典查找來檢測短語。對于每個謂詞p,我們通過收集p的所有對象來構建相應的字典。如果可以從字典中找到短語,則我們標記短語中具有bio標記的單詞以指示短語的乞討(b)和結束(最后一個i)。然后我們使用第t個單詞的bio標記作為輸入pt,它是指示bio標記的3-維一熱向量。

注意,最原始的編碼單元是單詞,并且我們將每個字而不是短語作為單詞。原因是,短語空格明顯大于詞的空格,并且單詞的數(shù)量與參數(shù)空間成比例(n≥50)。因此,直接編碼短語需要顯著更多的訓練樣本以確保所得模型的有效性。

4.類型信息

類型信息主體(或實體)的類型顯然是構建有效提取器的重要信息。例如,為某人找到“導演”是無意義的。這促使我們添加實體類型作為輸入,以便模型知道實體的域。我們將每個類型c表示為30維向量(即,tc∈r30)。實體可能有多個有效類型。例如,leonardodicaprio是一個藝術家,人。因此,我們首先找到在dbpedia中具有最大頻率的實體的前五種類型。然后,我們通過max-pooling在所有e的前五種類型之上的類型嵌入導出實體e的類型表示:

te=maxpool(tc1,tc2…)(3)

其中每個ci是前五個類型之一。每種類型的嵌入將由我們的模型訓練。我們使用te作為e的描述文本中的每個標記的類型表示。也就是說,我們在公式1中設置tt=te。

5.bi-lstm層

上一步中導出的每個標記的表示現(xiàn)在被饋送到lstm復現(xiàn)神經網絡中。顯然,自然語言句子中的單詞的標簽與其先前的單詞及其連續(xù)的單詞相關。這促使我們使用雙向隱藏的lstm層來利用過去和未來的輸入特征。我們的實驗還證明它比單向前或單向后向lstm更好。

前向層和后向層都包含128個lstm單元。在圖的右上方詳細展示了單個單元。每個向前單元的內容由以下一組公式詳細闡述:

it=σ(wxixt+whiht-1+wcict-1+bi)

ft=σ(wxfxt+whfht-1+wcfct-1+bf)

ct=ftct-1+ittanh(wxcxt+whcht-1+bc)(4)

其中σ是對數(shù)sigmoid函數(shù),i,f,o和c分別是輸入門(inputgate),忘門(forgetgate),輸出門(outputgate)和單元激活向量(cellactivationvector)。后向層的輸出由類似的方程計算。唯一的區(qū)別是序列順序被顛倒,即,等式4中的下標t-1被替換為t+1。此外,bi-lstm層被堆疊2次以構建更深的網絡。對于每個輸入單詞,lstm層的輸出是前向和后向lstm層輸出的連接:

6.輸出

我們的最終輸出是標記序列(具有真或假標記),其具有與輸入令牌序列相等的長度。接下來,我們詳細說明導出此序列的過程。令堆疊bi-lstm的最終輸出為lt*(由等式5導出)。我們使用s形函數(shù)σ來導出第t個標記的分數(shù):

我們將yt大于閾值α的任何標記標記為真。在一個句子中,多個標記可能被標記為真。將對應于連續(xù)的真標記的令牌的序列的任何短語用作對象。在某些情況下,我們的模型可能生成多個這樣的短語。在這些情況下,我們的模型認為實體和謂詞的對應該有多個對象。

7.損失函數(shù)

我們仍然需要一個目標函數(shù)來訓練我們的模型。我們使用在二分類問題里

使用在二分類問題里被廣泛使用的二元交叉熵(binarycrossentropy):

其中(0或1)是第t個標記的真實值,是在訓練數(shù)據(jù)生成階段生成的。

我們的最終目標是同時提取不同謂詞和不同實體與語料庫的事實。為了實現(xiàn)這個目標,我們?yōu)槊總€謂詞構建一個提取器。令p∈p,謂詞p的提取器ep接受實體s以及描述實體作為輸入的一段文本,并產生標記的文本串作為輸出。標簽(0或1)用于指示字符串中的標記是否是謂詞對象的一部分。

構建有效抽取器的挑戰(zhàn)在于自然語言的特性和特征提取所需的昂貴的人力工作。在這項技術里,我們將構建基于長短期記憶復發(fā)神經網絡(lstm-rnn)的抽取器。抽取器的結構如圖1所示。此外,由于深度學習的基礎是大量已標注的數(shù)據(jù),我們首先將闡述如何自動構建足夠的標記數(shù)據(jù)來訓練模型。

我們認為想lstm-rnn可以是用于信息提取的強大工具,并且有潛力克服傳統(tǒng)的信息抽取方法所遇到的障礙,原因如下。首先,給定標記數(shù)據(jù),深度學習框架可以導出特征和表示,這節(jié)省了特征工程在大規(guī)模,多謂詞信息提取中的成本。第二,lstm-rnn可以更好地處理長距離依賴,并且能夠泛化自然語言的語法模式。

需要說明的是,對于上述方法實施例而言,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本申請所必須的。

本領域內的技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。

而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。

最后應說明的是:以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,盡管參照前述實施例對本發(fā)明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
彭水| 汉阴县| 文山县| 永定县| 黄浦区| 宜昌市| 汽车| 长垣县| 湘潭县| 永寿县| 安图县| 无锡市| 庄河市| 湟中县| 陕西省| 台中市| 上栗县| 重庆市| 开江县| 昌江| 东乌珠穆沁旗| 临西县| 黄石市| 通城县| 泸州市| 临夏市| 曲阳县| 宜章县| 湖州市| 唐河县| 凤阳县| 灵川县| 汽车| 鄂托克旗| 郴州市| 岳阳市| 阳春市| 巩义市| 页游| 昭通市| 临湘市|