欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種樹庫轉化方法及樹庫轉化系統(tǒng)的制作方法

文檔序號:6613919閱讀:257來源:國知局
專利名稱:一種樹庫轉化方法及樹庫轉化系統(tǒng)的制作方法
技術領域
本發(fā)明涉及樹庫轉化,尤指一種漢語短語結構樹庫的轉化方法及系統(tǒng)。

背景技術
句法分析是自然語言處理領域非常重要的研究方向。在基于統(tǒng)計的句法分析方法中,根據所使用的語料不同,可以分為有指導的方法和無指導的方法。有指導的方法需要事先按照一定的語法規(guī)范,人工標注好一些句子作為訓練數據,然后通過各種概率統(tǒng)計方法或機器學習方法,從訓練數據中獲取句法分析所需要的知識。無指導的方法則使用沒有經過標注的數據進行訓練,按照一定的機制,從中自動學習語法規(guī)律。
有指導的句法分析是現在的主流方法,目前在英語等語言中已經達到了較高的準確率。在有指導的句法分析中,事先標注的用于訓練的句子集叫做樹庫。目前絕大多數的統(tǒng)計句法分析模型都是利用標注好的樹庫以有指導學習方式來訓練模型的參數。因此,樹庫建設是一個非常重要的工作,其質量和規(guī)模直接關系到句法分析的訓練效果。
句法分析首先要遵循某一語法體系,根據該語法體系的語法確定語法樹的表示形式。目前,在句法分析中使用比較廣泛的有短語結構語法和依存語法。例如“今年西門子將努力參與中國的三峽工程建設?!逼涠陶Z結構分析結果如圖1a,是類似于樹的層層拆分結構。
第一級為“S”即指整個句子“今年西門子將努力參與中國的三峽工程建設?!?。第二級分為四個部分,第二級的第一部分“NP”即指名詞短語,對應“今年”;第二級的第二部分“NP”即指名詞短語,對應“西門子”;第二級的第三部分“VP”即指動詞短語,對應“將努力參與中國的三峽工程建設”;第二級的第四部分“PU”即指標點符號,對應“?!薄5谌壏譃槿齻€部分,第三級的第一部分“ADVP”即指狀語短語,對應“將”;第三級的第二部分“ADVP”即指狀語短語,對應“努力”;第三級的第三部分“VP”即指動詞短語,對應“參與中國的三峽工程建設”。第四級分為兩個部分,第四級的第一部分“VV”即指動詞,對應“參與”;第四級的第二部分“NP”即指名詞短語,對應“中國的三峽工程建設”。第五級分為三個部分,第五級的第一部分“DNP”即指定語短語,對應“中國的”;第五級的第二部分“NP”即指名語短語,對應“三峽工程”;第五級的第三部分“NP”即指名詞短語,對應“建設”。第六級分為四個部分,第六級的第一部分“NP”即指定語短語,對應“中國”;第六級的第二部分“DEG”即助詞短語,對應“的”;第六級的第三部分“NP”即指定語短語,對應“三峽”;第六級的第四部分“NP”即指定語短語,對應“工程”。
利用依存結構分析“中國的三峽工程建設”,結果如圖1b。依存結構是利用帶方向的弧線標注出各個詞之間的關系。依存結構的分析結構比短語結構的分析結構更加直觀。
“今年西門子將努力參與中國的三峽工程建設。”的核心節(jié)點“VG”對應“參與”,“今年”、“將”和“努力”都是“參與”的“ADV”即狀語關系,“西門子”與“參與”是“SBV”關系即主謂關系,“中國”與“的”是“ATT”關系即定語關系,“三峽”與“工程”是“ATT”關系即定語關系,“工程”與“建設”是“ATT”關系即定語關系?!??!焙蟮摹癊OS”即空節(jié)點表示結束。
如何利用圖1a所示的短語結構分析結果轉化為圖1b所示的依存結構,是本領域需要解決的技術問題。
英語句法分析的發(fā)展得益于Penn Treebank(佩恩樹庫)的建立,PennTreebank的規(guī)模大,標注質量高,已成為英語句法分析事實上的標準,幾乎所有的研究工作都基于該樹庫進行。同時,將Penn Treebank轉換為依存結構的工作也已經成熟。反觀漢語方面,樹庫建設工作還有差距,既缺少統(tǒng)一的依存標注體系,也缺少大規(guī)模的依存樹庫?,F存的漢語短語結構樹庫最著名的有賓夕法尼亞大學的中文樹庫PCT(Penn Chinese Treebank)、TCT(清華大學的漢語樹庫)等等。而漢語依存樹庫則相對比較少,著名的有HIT-IR-CDT(哈工大漢語依存樹庫)、SDN(清華大學電子系標注的樹庫)。HIT-IR-CDT是哈爾濱工業(yè)大學信息檢索研究室標注的漢語依存樹庫。
將Penn Treebank轉換為依存結構的技術已很成熟。相對應于英文依存語法而言,中文短語結構樹庫轉換為依存結構的工作還很不成熟?,F有Penn2Malt轉化工具中提供了Penn Chinese Treebank轉化為依存結構的規(guī)則文件,可以將Penn Chinese Treebank轉化為依存結構。轉化工具Penn2Malt提供的漢語結構轉化規(guī)則文件包含的規(guī)則無法準確的描述各種語言現象,沒有能力處理并列關系,以及Penn Chinese Treebank中的扁平結構。
現有將TCT轉化為依存結構,完全采用規(guī)則的方法。這樣就要求對TCT中的語法體系非常熟悉,然后對一種規(guī)約形式進行規(guī)則轉化,包括指定核心節(jié)點、指定關系類型。這種將TCT轉化為依存結構的做法沒有很好的通用性,需要投入相對較大的人力。而且,其依存體系主要集中于跟動詞相關的各種關系成分的描述。
上述的工作,都是將短語結構的樹庫轉化為某種依存樹庫。轉化后的依存樹庫的體系和任何現有的依存樹庫都不一致,這樣不利于有效利用轉化后的樹庫。只能把轉化后的樹庫作為獨立的樹庫,然后使用。
一個樹庫中不僅包含句法結構信息,還會包含詞性信息。各個樹庫所采用的詞性標注集也不盡相同。因此對詞性標注集進行轉化對于樹庫轉化工作也很必要。上述工作只是將短語結構轉化為依存結構,沒有對詞性標注集進行轉化。
樹庫的規(guī)模和質量直接影響句法分析的性能,樹庫規(guī)模越大,質量越好,訓練出來的句法分析器的性能必然越好。因此,如何將Penn Chinese Treebank轉化為HIT-IR-CDT樹庫,充分利用Penn Chinese Treebank和HIT-IR-CDT樹庫的樹庫規(guī)模大,質量好的優(yōu)勢,是本領域技術人員亟需解決的技術問題。


發(fā)明內容
為了解決現有轉化后的依存樹庫的體系不統(tǒng)一,以及轉化過程中沒有考慮詞性標注集的轉化的問題,本發(fā)明提供一種樹庫的轉化方法及系統(tǒng),將PennChinese Treebank轉化為HIT-IR-CDT,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
為解決上述問題,本發(fā)明提供一種樹庫的轉化方法,包括以下步驟 A、將Penn Chinese TreeBank賓夕法尼亞大學中文樹庫的短語結構轉化為依存結構; B、將Penn Chinese Treebank詞性標注集轉化為863詞性標注集; C、利用HIT-IR-CDT哈工大漢語依存樹庫的句法分析器對Penn ChineseTreebank中的扁平短語結構分析依存關系; D、利用預先建立的HIT-IR-CDT樹庫訓練依存關系映射模型,對PennChinese Treebank進行依存關系轉化,形成轉化后的依存結構樹。
優(yōu)選地,所述步驟A具體為 根據預先建立的Head核心節(jié)點映射表,確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。
優(yōu)選地,所述步驟B具體為 B1、利用HIT-IR-CDT對Penn Chinese Treebank的詞語進行詞性標注; B2、利用預先建立的詞性映射模型進行所述詞性劃分,糾正所述步驟B1標注的詞性。
優(yōu)選地,所述詞性映射模型使用第一線性對數模型 進行所述詞性轉化; 其中,i=0,對應pos自身詞性特征, i=1,對應pos_s pos子節(jié)點詞性,自身詞性特征, i=2,對應pos pos_f自身詞性特征,父節(jié)點詞性, λ0對應i=0時pos特征的權值; λ1對應i=1時pos_s pos特征的權值; λ2對應i=2時pos pos_f征的權值。
優(yōu)選地,所述訓練依存關系映射模型的建立包括以下步驟 1)、利用HIT-IR-CDT樹庫訓練依存關系標注模型; 2)、利用所述依存關系標注模型對Penn Chinese Treebank樹庫進行依存關系標注; 3)利用Penn Chinese Treebank原有詞性和句法信息,糾正所述依存關系標注結果,建立依存關系映射模型。
優(yōu)選地,所述依存關系標注模型使用第二線性對數模型 進行所述依存關系標注; 其中,i=0,對應word word_f詞語,父親詞語特征, i=1,對應word pos_f詞語,父節(jié)點詞性特征, i=2,對應pos word_f詞性特征, i=3,對應pos pos_f distance父節(jié)點詞性特征, λ0對應i=0時word word_f特征的權值; λ1對應i=1時word pos_f特征的權值; λ2對應i=2時pos word_f特征的權值; λ3對應i=3時pos pos_f distance特征的權值。
優(yōu)選地,所述依存關系映射模型使用第三線性對數模型 進行所述依存關系標注; 其中,i=0,對應phrase自身短語類型特征, i=1,對應phrase_s生成自身短語類型特征, i=2,對應phrase_f父親短語類型特征, λ0對應i=0時phrase特征的權值; λ1對應i=1時phrase_s特征的權值; λ2對應i=2時phrase_f特征的權值。
本發(fā)明還提供一種樹庫的轉化系統(tǒng),包括結構轉化單元、標注轉化單元、分析單元、訓練依存關系映射模型單元; 所述結構轉化單元,用于將Penn Chinese Treebank的短語結構轉化為依存結構; 所述標注轉化單元,用于將Penn Chinese Treebank詞性標注集轉化為863詞性標注集; 所述訓練依存關系映射模型單元,用于建立的HIT-IR-CDT樹庫訓練依存關系映射模型; 所述分析單元,與所述構轉化單元、標注轉化單元、和訓練依存關系映射模型單元均相連,用于對Penn Chinese Treebank中的扁平短語結構分析依存關系;以及利用所述訓練依存關系映射模型,進行依存關系轉化,形成轉化后的依存結構樹。
優(yōu)選地,所述系統(tǒng)進一步包括Head映射表單元,用于確定Penn ChineseTreebank的短語結構樹庫中語法推導的核心節(jié)點。
優(yōu)選地,所述系統(tǒng)進一步包括詞性映射模型單元,用于對Penn ChineseTreebank的短語進行詞性劃分。
優(yōu)選地,所述系統(tǒng)進一步包括依存關系標注模型單元,用于Penn ChineseTreebank樹庫進行依存關系標注。
與上述現有技術相比,本發(fā)明實施例所述樹庫的轉化方法包含將PennChinese Treebank的短語結構轉化為依存結構的步驟,和將Penn ChineseTreebank詞性標注集轉化為863詞性標注集的步驟,包含了句法結構和詞性標注集的轉化,使得轉化后的依存樹庫更準確。本發(fā)明實施例所述樹庫的轉化方法將Penn Chinese Treebank轉化為HIT-IR-CDT,這樣,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT進行合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
同時,本發(fā)明實施例所述樹庫的轉化方法包含利用HIT-IR-CDT句法分析器對Penn Chinese Treebank中的扁平短語結構分析依存關系的步驟,解決了名詞復合短語等扁平短語結構的依存關系確定困難的問題。



圖1a是現有技術短語結構分析結果圖; 圖1b是現有技術依存結構分析結果圖; 圖2是本發(fā)明所述樹庫的轉化方法第一實施例流程圖; 圖3是本發(fā)明所述訓練依存關系映射模型的建立流程圖; 圖4a是本發(fā)明所述扁平短語結構示意圖; 圖4b是圖4a所述扁平短語結構轉化為依存關系結構圖; 圖5是本發(fā)明所述樹庫的轉化方法第二實施例流程圖; 圖6是本發(fā)明所述依存關系示意圖; 圖7是本發(fā)明所述樹庫的轉化系統(tǒng)第一實施例結構圖; 圖8是本發(fā)明所述樹庫的轉化系統(tǒng)第二實施例結構圖。

具體實施例方式 本發(fā)明提供一種樹庫的轉化方法,將Penn Chinese Treebank轉化為HIT-IR-CDT,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
參見圖2和圖3,圖2為本發(fā)明所述樹庫的轉化方法第一實施例流程圖;圖3是本發(fā)明所述訓練依存關系映射模型的建立流程圖。
本發(fā)明第一實施例所述樹庫的轉化方法,包括以下步驟 S100、將Penn Chinese Treebank的短語結構轉化為依存結構。
根據預先建立的Head(核心節(jié)點)映射表,確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。
通過對Penn Chinese Treebank中所有的語法推導進行觀察,對Penn2Malt提供的規(guī)則文件進行了修正,形成Head映射表,進而對并列等結構進行處理,最終將Penn Chinese Treebank短語結構轉化為符合HIT-IR-CDT體系的依存結構。
利用Head映射表將Penn Chinese Treebank的短語結構轉化為依存結構。
表1Head映射表 Head映射表用于確定一個語法推導中的核心節(jié)點。利用Head映射表確定子節(jié)點序列中哪一個為父節(jié)點的(Head)核心節(jié)點。上表中每一個短語類型都對應一個規(guī)則集。Penn Chinese Treebank樹庫短語結構應用這些規(guī)則進行轉化。每一個規(guī)則包含兩方面,方向及核心短語類型。方向為r或l。r表示從右到左掃描子節(jié)點序列,l表示從左到右掃描子節(jié)點序列。
例如,在Penn Chinese Treebank樹庫中存在一個短語結構的語法推導NP==>ADJP DNP NN NN?!埃剑剑尽北硎痉较?,“==>”左邊的NP為父節(jié)點,ADJP DNP NN NN為子節(jié)點序列。
對NN進行編號以區(qū)分,將NP==>ADJP DNP NN NN標注為NP==>ADJPDNP NN(1)NN(2)。參見表1Head映射表,確定NP對應的規(guī)則集為 首先考察規(guī)則1,規(guī)則1的方向為r。
從右向左掃描預核心節(jié)點序列,發(fā)現第一個預核心節(jié)點NP沒有在子節(jié)點序列“ADJP DNP NN(1)NN(2)”出現。繼續(xù)從右向左重新掃描預核心節(jié)點序列,發(fā)現第二個預核心節(jié)點NN出現在子節(jié)點序列“ADJP DNP NN(1)NN(2)”中,由于是從右向左掃描,因此首先發(fā)現NN(2),則確定NN(2)為核心節(jié)點,退出。確定其它子節(jié)點“ADJP DNP NN(1)”都依存于核心節(jié)點NN(2)。
最后一個規(guī)則為默認規(guī)則。如果前面的規(guī)則都沒有滿足,則使用默認規(guī)則。此時如果最后一個規(guī)則為r,則最右邊的子節(jié)點作為核心節(jié)點。此時如果最后一個規(guī)則為l,則最左邊的子節(jié)點作為核心節(jié)點。
這樣就可以根據表1 Head映射表所述確定Penn Chinese Treebank樹庫短語結構的依存關系。
針對無法采用規(guī)則來表達的結構進行特殊的處理。主要針對并列結構。
此類特殊的短語結構數量很大。根據HIT-IR-CDT體系,這種情況需要特殊處理。我們采用基于規(guī)則的方法進行歸納,然后特殊處理。
S200、將Penn Chinese Treebank詞性標注集轉化為863詞性標注集。
一個樹庫中不僅包含句法結構信息,還會包含詞性信息。各個樹庫所采用的詞性標注集也不盡相同。因此對詞性標注集進行轉化對于樹庫轉化工作也很必要。863詞性標注集是我國標準詞性標注集之一,本發(fā)明實施例所述方法將Penn Chinese Treebank詞性標注集轉化為863詞性標注集,這樣可以統(tǒng)一樹庫中詞性的標注,提高轉化的準確性。
S300、利用HIT-IR-CDT的句法分析器對Penn Chinese Treebank中的扁平短語結構分析依存關系。
參見圖4a和圖4b,圖4a為本發(fā)明所述扁平短語結構示意圖;圖4b為圖4a所述扁平短語結構轉化為依存關系結構圖。
Penn Chinese Treebank的短語結構屬于比較扁平的,主要體現在名詞復合短語。
例如Penn Chinese Treebank的短語,“醫(yī)療機構藥品采購服務中心”,其結構示意圖如圖4a所示。父節(jié)點為NP(名詞短語),子節(jié)點為6個NN(名詞)。6個NN分別為“醫(yī)療”、“機構”、“藥品”、“采購”、“服務”和“中心”。
利用HIT-IR-LTP中的句法分析器對如圖4a所示的短語結構進行依存分析,獲得其內部依存關系。結果參見圖4b。
首先,確定第一級依存關系“醫(yī)療”與“機構”、“藥品”與“采購”和“服務”與“中心”三個依存關系。用帶箭頭或者帶方向的弧線表示上述依存關系。即“醫(yī)療”通過帶箭頭或者帶方向的弧線指向“機構”;“藥品”通過帶箭頭或者帶方向的弧線指向“采購”;“服務”通過帶箭頭或者帶方向的弧線指向“中心”。
然后,確定第二級依存關系,“機構”與“藥品”和“采購”與“服務”兩個依存關系。用帶箭頭或者帶方向的弧線表示上述依存關系。即“機構”通過帶箭頭或者帶方向的弧線指向“藥品”;“采購”通過帶箭頭或者帶方向的弧線指向“服務”。
這樣就確定了如圖4b所示的依存結構關系。
S400、利用預先建立的HIT-IR-CDT樹庫訓練依存關系映射模型,對PennChinese Treebank進行依存關系轉化,形成轉化后的依存結構樹。
參見圖3,所述訓練依存關系映射模型的建立包括以下步驟 S401、利用HIT-IR-CDT樹庫訓練依存關系標注模型。
依存關系標注器的工作是為每一條依存弧標注依存關系。每一條弧兩端有兩個節(jié)點自身節(jié)點和父節(jié)點。其中自身節(jié)點依存于父節(jié)點,父節(jié)點支配自身節(jié)點,父節(jié)點為核心詞。如上圖中“醫(yī)療->機構”構成一條弧,其中“醫(yī)療”為自身節(jié)點,“機構”為父節(jié)點。
這是一個標注問題,采用線性對數模型。采用如下4個特征 采用極大似然估計來訓練概率,得到模型形式如下 f0_這種_認識_ATT 1 f1_這種_n_ATT 0.8 f2_r_認識_ATT 0.142857 f3_r_n_1_ATT 0.997324 S402、利用所述依存關系標注模型對Penn Chinese Treebank樹庫進行依存關系標注。
利用依存關系標注模型對Penn Chinese Treebank進行依存關系標注 其中四個特征word word_f、word pos_f、pos word_f、pos pos_f distance的權值分別取0.4,0.2,0.2,0.2。
利用HIT-IR-CDT測試語料測試,依存關系標注模型的準確率為89.7%。
為了利用Penn Chinese Treebank中原有的正確的詞性、句法信息,訓練了一個依存關系映射模型,對依存關系標注結果進行糾正。
在短語結構轉依存結構的時候,記錄三個信息,子節(jié)點的短語類型,生成短語類型,及父節(jié)點的短語類型。
參考圖6,該圖為本發(fā)明所述依存關系示意圖。圖6表示出“醫(yī)療”和“機構”的依存關系記錄為“NN-NP-NN”,“醫(yī)療”通過帶箭頭的弧線指向“機構”,在弧線上標注“NN-NP-NN”。
S403、利用Penn Chinese Treebank原有詞性和句法信息,糾正所述依存關系標注結果,建立依存關系映射模型。
訓練依存關系映射模型時,使用這三個特征參見表2。
表2訓練依存關系映射模特征表 采用極大似然估計來訓練概率,得到模型形式如下 f0_NN_ATT 0.734 f1_NP_ATT 0.543 f2_NN_ATT 0.933 利用依存關系映射模型進行依存關系轉化 其中i=0,phrase特征的權值為0.35; i=1,phrase_s特征的權值為0.3; i=2,phrase_f特征的權值為0.35。
進行依存關系映射后,結果如下 參見圖3,所述訓練依存關系映射模型的建立包括以下步驟 S10、利用HIT-IR-CDT樹庫訓練依存關系標注模型。
S20、利用所述依存關系標注模型對Penn Chinese Treebank樹庫進行依存關系標注。
S30、利用Penn Chinese Treebank原有詞性和句法信息,糾正所述依存關系標注結果,建立依存關系映射模型。
所述依存關系標注模型使用第二線性對數模型 進行所述依存關系標注; 其中,i=0,對應word word_f詞語,父親詞語特征; i=1,對應word pos_f詞語,父節(jié)點詞性特征; i=2,對應pos word_f詞性特征; i=3,對應pos pos_f distance父節(jié)點詞性特征; λ0對應i=0時word word_f特征的權值; λ1對應i=1時word pos_f特征的權值; λ2對應i=2時pos word_f特征的權值; λ3對應i=2時pos pos_f distance特征的權值。
所述依存關系映射模型使用第三線性對數模型 進行所述依存關系標注; 其中,i=0,對應phrase自身短語類型特征; i=1,對應phrase_s生成自身短語類型特征; i=2,對應phrase_f父親短語類型特征; λ0對應i=0時phrase特征的權值; λ1對應i=1時phrase_s特征的權值; λ2對應i=2時phrase_f特征的權值。
本發(fā)明實施例所述樹庫的轉化方法包含將Penn Chinese Treebank的短語結構轉化為依存結構的步驟,和將Penn Chinese Treebank詞性標注集轉化為863詞性標注集的步驟,包含了句法結構和詞性標注集的轉化,使得轉化后的依存樹庫更準確。本發(fā)明實施例所述樹庫的轉化方法將Penn Chinese Treebank轉化為HIT-IR-CDT,這樣,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT進行合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
同時,本發(fā)明實施例所述樹庫的轉化方法包含利用HIT-IR-CDT句法分析器對Penn Chinese Treebank中的扁平短語結構分析依存關系的步驟,解決了名詞復合短語等扁平短語結構的依存關系確定困難的問題。
參見圖5,該圖為本發(fā)明所述樹庫的轉化方法第二實施例流程圖。
本發(fā)明所述樹庫的轉化方法第二實施例相對第一實施例的區(qū)別在于,所述步驟S200由S201和S202兩個步驟代替。
本發(fā)明第二實施例所述樹庫的轉化方法,包括以下步驟 S100、將Penn Chinese Treebank的短語結構轉化為依存結構。
根據預先建立的Head映射表,確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。
S201、利用HIT-IR-CDT對Penn Chinese Treebank的詞語進行詞性標注。
S202、利用預先建立的詞性映射模型進行所述詞性劃分,糾正所述步驟S201標注的詞性。
所述詞性映射模型使用第一線性對數模型 進行所述詞性轉化; 其中,i=0,對應pos自身詞性特征; i=1,對應pos_s pos子節(jié)點詞性,自身詞性特征; i=2,對應pos pos_f自身詞性特征,父節(jié)點詞性; λ0對應i=0時pos特征的權值; λ1對應i=1時pos_s pos特征的權值; λ2對應i=2時pos pos_f征的權值。
HIT-IR-LTP是哈爾濱工業(yè)大學信息檢索研究室開發(fā)的語言技術平臺,其中包含各種包含很多自然語言處理模塊如分詞、句法分析等,還有一些語料資源如依存樹庫HIT-IR-CDT。HIT-IR-LTP現免費向學術界共享。
HIT-IR-LTP中的詞性標注模塊的精度達到90%。利用HIT-IR-LTP詞性標注器對Penn Chinese Treebank進行詞性標注。
雖然HIT-IR-LTP詞性標注模塊的精度比較高,但是不可避免還是會有錯誤。為了利用Penn Chinese Treebank中原有的正確的詞性、句法信息,我們訓練了一個詞性映射模型,對標注結果進行糾正。
詞性映射模型使用線性對數模型,采用三個特征 參數估計采用極大似然估計,訓練出的模型概率如下例。
f0_NN_n=0.746038,表示NN映射為n的概率; f0_NN_v=0.1699158,表示NN映射為v的概率; f1_VC_NN_n=0.801055,表示子節(jié)點為VC,NN映射為n的概率; f1_VC_NN_v=0.121002,表示子節(jié)點為VC,NN映射為v的概率; f2_NN_NN_n=0.776695,表示父節(jié)點為NN,NN映射為n的概率; f2_NN_NN_v=0.180412,表示父節(jié)點為NN,NN映射為v的概率。
利用下面的詞性映射模型的公式進行詞性轉化 λ0=0.4,λ0對應i=0時pos特征的權值; λ1=0.3,λ1對應i=1時pos_s pos特征的權值; λ2=0.3,λ2對應i=2時pos pos_f征的權值。
例如下表所示詞性映射模型糾正標注錯誤的對照表 由上可以看出,利用原有Penn Chinese Treebank樹庫信息,可以有效的糾正某些詞性標注錯誤。
S300、利用HIT-IR-CDT哈工大漢語依存樹庫的句法分析器對PennChinese Treebank中的扁平短語結構分析依存關系。
S400、利用預先建立的HIT-IR-CDT樹庫訓練依存關系映射模型,對PennChinese Treebank進行依存關系轉化,形成轉化后的依存結構樹。
訓練依存關系映射模型時,使用表中三個特征。
采用極大似然估計來訓練概率,得到訓練依存關系映射模型形式,利用依存關系映射模型進行依存關系轉化。
依存關系映射模型的公式如下 其中三個特征phrase、phrase_s、phrase_f的權值分別取0.35,0.3,0.35。進行依存關系映射后,結果如下 本發(fā)明提供一種樹庫的轉化方法,將Penn Chinese Treebank轉化為HIT-IR-CDT,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
參見圖7,該圖為本發(fā)明所述樹庫的轉化系統(tǒng)第一實施例結構圖。
本發(fā)明第一實施例所述樹庫的轉化系統(tǒng),包括結構轉化單元12、標注轉化單元13、分析單元11、訓練依存關系映射模型單元14。
所述結構轉化單元12,用于將Penn Chinese Treebank的短語結構轉化為依存結構。
所述標注轉化單元13,用于將Penn Chinese Treebank詞性標注集轉化為863詞性標注集。
所述訓練依存關系映射模型單元14,用于建立的HIT-IR-CDT樹庫訓練依存關系映射模型。
所述分析單元11,與所述構轉化單元12、標注轉化單元13和訓練依存關系映射模型單元14均相連,用于對Penn Chinese Treebank中的扁平短語結構分析依存關系;以及利用所述訓練依存關系映射模型,進行依存關系轉化,形成轉化后的依存結構樹。
本發(fā)明實施例所述樹庫的轉化系統(tǒng)包含將Penn Chinese Treebank的短語結構轉化為依存結構的結構轉化單元12,和將Penn Chinese Treebank詞性標注集轉化為863詞性標注集的標注轉化單元13,能夠實現句法結構和詞性標注集的轉化,使得轉化后的依存樹庫更準確。本發(fā)明實施例所述樹庫的轉化系統(tǒng)能夠將Penn Chinese Treebank轉化為HIT-IR-CDT,這樣,轉化后的樹庫可以很方便的和原有的HIT-IR-CDT進行合并,從而增大樹庫規(guī)模,進而有效地提高句法分析器的性能。
同時,本發(fā)明實施例所述樹庫的轉化方法包含所述分析單元11能夠利用HIT-IR-CDT句法分析器對Penn Chinese Treebank中的扁平短語結構分析依存關系,解決了名詞復合短語等扁平短語結構的依存關系確定困難的問題。
參見圖8,該圖為本發(fā)明所述樹庫的轉化系統(tǒng)第二實施例結構圖。
本發(fā)明所述樹庫的轉化系統(tǒng)第二實施例相對第一實施例增加了Head映射表單元15。
本發(fā)明所述樹庫的轉化系統(tǒng)進一步包括與所述分析單元11相連的Head映射表單元15,用于確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。Head映射表參見前文所述樹庫轉化方法中的描述。
所述系統(tǒng)進一步還可以包括與所述結構轉化單元12相連的詞性映射模型單元,用于對Penn Chinese Treebank的短語進行詞性劃分。
詞性映射模型參見前文所述樹庫轉化方法中詞性映射模型的描述。
所述系統(tǒng)進一步還可以包括與所述標注轉化單元13相連的依存關系標注模型單元,用于Penn Chinese Treebank樹庫進行依存關系標注。
依存關系標注模型參見前文所述樹庫轉化方法中依存關系標注模型的描述。
以上所述僅為本發(fā)明的優(yōu)選實施方式,并不構成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的權利要求保護范圍之內。
權利要求
1.一種樹庫的轉化方法,其特征在于,包括以下步驟
A、將Penn Chinese TreeBank賓夕法尼亞大學中文樹庫的短語結構轉化為依存結構;
B、將Penn Chinese Treebank詞性標注集轉化為863詞性標注集;
C、利用HIT-IR-CDT哈工大漢語依存樹庫的句法分析器對Penn ChineseTreebank中的扁平短語結構分析依存關系;
D、利用預先建立的HIT-IR-CDT樹庫訓練依存關系映射模型,對PennChinese Treebank進行依存關系轉化,形成轉化后的依存結構樹。
2.根據權利要求1所述的樹庫的轉化方法,其特征在于,所述步驟A具體為
根據預先建立的Head核心節(jié)點映射表,確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。
3.根據權利要求1所述的樹庫的轉化方法,其特征在于,所述步驟B具體為
B1、利用HIT-IR-CDT對Penn Chinese Treebank的詞語進行詞性標注;
B2、利用預先建立的詞性映射模型進行所述詞性劃分,糾正所述步驟B1標注的詞性。
4.根據權利要求3所述的樹庫的轉化方法,其特征在于,所述詞性映射模型使用第一線性對數模型
進行所述詞性轉化;
其中,i=0,對應pos自身詞性特征,
i=1,對應pos_s pos子節(jié)點詞性,自身詞性特征,
i=2,對應pos pos_f自身詞性特征,父節(jié)點詞性,
λ0對應i=0時pos特征的權值;
λ1對應i=1時pos_s pos特征的權值;
λ2對應i=2時pos pos_f征的權值。
5.根據權利要求1所述的樹庫的轉化方法,其特征在于,所述訓練依存關系映射模型的建立包括以下步驟
1)、利用HIT-IR-CDT樹庫訓練依存關系標注模型;
2)、利用所述依存關系標注模型對Penn Chinese Treebank樹庫進行依存關系標注;
3)利用Penn Chinese Treebank原有詞性和句法信息,糾正所述依存關系標注結果,建立依存關系映射模型。
6.根據權利要求5所述的樹庫的轉化方法,其特征在于,所述依存關系標注模型使用第二線性對數模型
進行所述依存關系標注;
其中,i=0,對應word word_f詞語,父親詞語特征,
i=1,對應word pos_f詞語,父節(jié)點詞性特征,
i=2,對應pos word_f詞性特征,
i=3,對應pos pos_f distance父節(jié)點詞性特征,
λ0對應i=0時word word_f特征的權值;
λ1對應i=1時word pos_f特征的權值;
λ2對應i=2時pos word_f特征的權值;
λ3對應i=3時pos pos_f distance特征的權值。
7.根據權利要求5或6所述的樹庫的轉化方法,其特征在于,所述依存關系映射模型使用第三線性對數模型
進行所述依存關系標注;
其中,i=0,對應phrase自身短語類型特征,
i=1,對應phrase_s生成自身短語類型特征,
i=2,對應phrase_f父親短語類型特征,
λ0對應i=0時phrase特征的權值;
λ1對應i=1時phrase_s特征的權值;
λ2對應i=2時phrase_f特征的權值。
8.一種樹庫的轉化系統(tǒng),其特征在于,包括結構轉化單元、標注轉化單元、分析單元、訓練依存關系映射模型單元;
所述結構轉化單元,用于將Penn Chinese Treebank的短語結構轉化為依存結構;
所述標注轉化單元,用于將Penn Chinese Treebank詞性標注集轉化為863詞性標注集;
所述訓練依存關系映射模型單元,用于建立的HIT-IR-CDT樹庫訓練依存關系映射模型;
所述分析單元,與所述構轉化單元、標注轉化單元、和訓練依存關系映射模型單元均相連,用于對Penn Chinese Treebank中的扁平短語結構分析依存關系;以及利用所述訓練依存關系映射模型,進行依存關系轉化,形成轉化后的依存結構樹。
9.根據權利要求8所述的樹庫的轉化系統(tǒng),其特征在于,所述系統(tǒng)進一步包括Head映射表單元,用于確定Penn Chinese Treebank的短語結構樹庫中語法推導的核心節(jié)點。
10.根據權利要求8所述的樹庫的轉化系統(tǒng),其特征在于,所述系統(tǒng)進一步包括詞性映射模型單元,用于對Penn Chinese Treebank的短語進行詞性劃分。
11.根據權利要求8所述的樹庫的轉化系統(tǒng),其特征在于,所述系統(tǒng)進一步包括依存關系標注模型單元,用于Penn Chinese Treebank樹庫進行依存關系標注。
全文摘要
本發(fā)明公開一種樹庫的轉化方法,包括將PennChineseTreebank短語結構轉化為依存結構;將PennChineseTreebank詞性標注集轉化為863詞性標注集;利用HIT-IR-CDT的句法分析器對PennChineseTreebank中的扁平短語結構分析依存關系;利用預先建立的HIT-IR-CDT樹庫訓練依存關系映射模型,對PennChineseTreebank進行依存關系轉化,形成轉化后的依存結構樹。本發(fā)明還公開一種樹庫轉化系統(tǒng)。本發(fā)明提供一種樹庫的轉化方法及系統(tǒng),使得轉化后的樹庫能與原有的HIT-IR-CDT合并,增大樹庫規(guī)模,提高句法分析器的性能。
文檔編號G06F17/27GK101201819SQ200710178308
公開日2008年6月18日 申請日期2007年11月28日 優(yōu)先權日2007年11月28日
發(fā)明者李正華, 高立琦, 挺 劉, 王海洲 申請人:北京金山軟件有限公司, 北京金山數字娛樂科技有限公司, 哈爾濱工業(yè)大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鄂托克旗| 张家川| 贵定县| 邵阳市| 丰台区| 石台县| 离岛区| 石狮市| 衡阳县| 麻江县| 历史| 大兴区| 北辰区| 朝阳区| 军事| 澄城县| 雷州市| 濉溪县| 昭觉县| 古田县| 临高县| 普陀区| 玛曲县| 兴安盟| 淮阳县| 中方县| 寻乌县| 武鸣县| 墨竹工卡县| 梁山县| 巴林左旗| 抚远县| 嵊泗县| 宜兴市| 凌云县| 黔江区| 桑日县| 思南县| 富锦市| 重庆市| 阳东县|