專利名稱::一種中文處理中基于語義角色信息的指代消解方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種自然語言的語義處理的方法,尤其涉及一種對中文的處理中基于語義角色信息進(jìn)行指代消解的方法,屬于計(jì)算語言學(xué)中的自然語言處理
背景技術(shù):
:指代(Anaphora)是自然語言中廣泛存在的一種現(xiàn)象,它可分為兩種回指(Anaphora),是指當(dāng)前的指代語與上下文出現(xiàn)的詞、短語或句子(句群)存在密切的意義關(guān)聯(lián)性;共指(Coreference),是指兩個實(shí)體指向真實(shí)世界中的同一參照物。目前的指代消解研究主要側(cè)重于共指消解,即要解決的主要問題是尋找出文章中不同名詞性短語是否指向同一個實(shí)體。指代消解是自然語言處理的關(guān)鍵和熱點(diǎn)問題之一,在自然語言的篇章理解中舉足輕重。一篇引人入勝的文章必然采用多樣的表達(dá)方式來表示同一個實(shí)體,隨著篇章理解的相關(guān)應(yīng)用日益廣泛,指代消解也顯示出前所未有的重要性,它是自然語言處理中不可缺少的部分,在文本總結(jié)(TextSummarization),機(jī)器翻譯(MachineTranslation)、多語言信息處理(MultilingualInformationProcessing)和信息提取(InformationExtraction)等諸多應(yīng)用中都涉及到指代消解問題。因此,1997年的EACL和1999年的ACL年會都設(shè)立了指代消解的專題會議,而且指代消解也是MUC和ACE信息抽取評測體系中的一個主要任務(wù)。因此必須加強(qiáng)指代消解的研究,通過指代消解的研究,可以實(shí)現(xiàn)相關(guān)信息的融合,從而獲得相應(yīng)信息在單/多文本中的完整描述。指代消解的研究歷史悠久。許多早期的方法側(cè)重于理論探索,運(yùn)用大量手工構(gòu)建的語言甚至領(lǐng)域知識,進(jìn)行指代消解的研究。近十年來,隨著自然語言處理技術(shù)的發(fā)展,對指代消解技術(shù)的應(yīng)用需求越來越迫切,研究者開始轉(zhuǎn)向基于弱語言知識的方法,側(cè)重于實(shí)用的指代消解技術(shù)的研究開發(fā),并取得了一定的進(jìn)展。但由于受制于弱語言知識,指代消解技術(shù)近年來在性能的繼續(xù)提髙上遇到了不小的瓶頸,研究人員開始把焦點(diǎn)轉(zhuǎn)向了基于自動產(chǎn)生的深層語言知識,特別是結(jié)構(gòu)化句法信息方向,以期望取得性能上的突破。早期指代消解研究主要利用大量手工構(gòu)建的領(lǐng)域和語言知識形成邏輯規(guī)則進(jìn)行消解,降低了系統(tǒng)的可移植性和自動化程度。隨著標(biāo)注語料庫的出現(xiàn)以及Internet的迅速發(fā)展,實(shí)驗(yàn)語料的獲得越來越方便,目前大多數(shù)的指代消解研究趨向于基于語料庫的指代消解方法。與國際上指代消解的長期研究相比,自然語言處理領(lǐng)域的中文指代消解的研究只是剛剛起步,主要集中在人稱代詞的消解研究方面。相關(guān)的研究可分為兩類第一類是引用國際上流行的研究方案進(jìn)行中文指代消解的研究。相關(guān)的代表性研究有王厚峰等(2001)根據(jù)中文人稱代詞的語義角色和對應(yīng)的先行語可能的語義角色,給出了消解人稱代詞的基本規(guī)則;王凌飛等(2000)提出了指代確定的9個限制條件,探討了基于中心理論的指代消解在漢英機(jī)器翻譯中的應(yīng)用;張威等(2002)實(shí)現(xiàn)了基于中心理論的元指代消解孔祥勇等(2003)結(jié)合了規(guī)則和統(tǒng)計(jì)方法,解決代詞和定指短語的指代問題;王曉斌等(2004)進(jìn)行了基于語篇表述理論的人稱代詞的消解研究王厚峰等(2005)采用了近似Mitkov(1998)的基于弱化語言知識的方法,解決人稱代詞的消解;楊佳等(2005)使用遺傳算法消解人稱代詞;李國臣等(2005)使用決策樹機(jī)器學(xué)習(xí)算法,結(jié)合優(yōu)先選擇策略,進(jìn)行指代消解的研究。第二類是根據(jù)中文的特點(diǎn)提出的具有中文特色的研究方案。相關(guān)的研究有許敏等(1999)利用格框架,提出了在上下文相關(guān)語義環(huán)境中進(jìn)行指代分類解決的思想,并給出了相應(yīng)的算法。王厚峰(2000)提出了基于HNC的指代消解方法,利用各種語義塊的類型特點(diǎn)和語義塊之間的結(jié)構(gòu)特點(diǎn),在語義塊內(nèi)部和語義塊之間使用排除規(guī)則,并使用局部焦點(diǎn)優(yōu)先的原則(與中心理論類似)進(jìn)行優(yōu)先選擇,實(shí)現(xiàn)語句序列之間人稱代詞的消解。從指代消解的國內(nèi)外研究現(xiàn)狀可以看到,隨著機(jī)器學(xué)習(xí)方法的引入,結(jié)合相關(guān)的領(lǐng)域知識(多以規(guī)則的形式體現(xiàn)),指代消解有了長足的發(fā)展,但還存在一些問題,例如深層次語義信息在指代消解領(lǐng)域的應(yīng)用不夠充分。自然語言處理中,語義信息起了至關(guān)重要的作用。然而目前,許多應(yīng)用都是通過使用類似WordNet這樣的語義字典來獲取語義信息,但數(shù)據(jù)庫中的語義信息畢竟是有限的,數(shù)據(jù)稀疏問題必然存在。
發(fā)明內(nèi)容本發(fā)明目的是本發(fā)明的目的是提供一種髙性能的指代消解方法,通過充分利用語義信息,提髙在中文信息處理中的指代消解的性能。為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是一種中文處理中基于語義角色信息的指代消解方法,包括下列步驟(1)對文本進(jìn)行預(yù)處理,所述預(yù)處理包括段落、語句識別;命名實(shí)體識別詞性標(biāo)注;組塊識別;句法分析;語義角色標(biāo)注(2)根據(jù)組對規(guī)則生成正負(fù)例,在生成過程中針對數(shù)、性、語義類別進(jìn)行簡單的正負(fù)例的過濾;按分類器的算法要求,根據(jù)特征模板生成訓(xùn)練文件釆用訓(xùn)練文件對分類器進(jìn)行訓(xùn)練,生成分類器模型;所述特征模板包括指代消解特征集ANPronoun照應(yīng)語是代詞取1,否則0雄efiniteNP照應(yīng)語是有定名詞短語取l,否則OANDemonstrativeNP照應(yīng)語是指示性名詞短語取l,否則OCAPronoun先行語是代詞取1,否則oANCAGenderAgree腿nt照應(yīng)語和先行語滿足詞性一致取1,不一致取OANCANumberAgreement照應(yīng)語和先行語滿足單復(fù)數(shù)一致取l,不一致取OANCAAppositive照應(yīng)語和先行語是同位語l,否則取OANCAHeadStringMatch如果照應(yīng)語和先行語滿足中心詞匹配取l,否則取OANCASentDistance照應(yīng)語和先行語在一句內(nèi)取l,兩句O.9,w.大于10句0ANCAWORDSENSE從WordNet中獲得的語義信息類有相同的為1,不同為0ANCABothProperName照應(yīng)語和先行語候選詞均為專有名詞取1,否則取0ANCANameAlias照應(yīng)語和先行語候選詞存在別名關(guān)系取l,否則取O新增特征集<table>tableseeoriginaldocumentpage7</column></row><table>(3)對待處理的文本采用步驟(1)的方式進(jìn)行預(yù)處理;按特征模板生成特征向量;將特征向量依次提交給已經(jīng)訓(xùn)練生成的分類器模型進(jìn)行分類,所得結(jié)果大于閾值,判斷為正例,即具有指代關(guān)系,否則為負(fù)例,即無指代關(guān)系。指代消解中選用的特征能否較好的描述照應(yīng)語和現(xiàn)行候選詞在篇章中的關(guān)系是進(jìn)行指代消解的關(guān)鍵,目前最好的英文指代消解系統(tǒng)的F-指數(shù)只能達(dá)到60%左右(國際公認(rèn)的評測語料ACE2003上實(shí)驗(yàn)得到的結(jié)果),因此指代消解的性能還有待進(jìn)一步的提升。本方案的基本思想是充分利用SRL中蘊(yùn)含的豐富的語法、語義信息更加合理、便捷地表述照應(yīng)語和現(xiàn)行候選詞間的關(guān)系。與目前流行的指代消解方案類似,本方案也將指代消解過程理解成一個二元分類問題,使用了由Soon等2001提出的指代消解的基本框架,將指代消解平臺分成三大塊預(yù)處理模塊(包括句子識別-識別出篇章中的段落、句子,為后續(xù)處理做好準(zhǔn)備;命名實(shí)體識別-識別出篇章中的專有名詞,并根據(jù)上下文判斷出該實(shí)體具體表示的是人名、地名或機(jī)構(gòu)等語義類別;詞性標(biāo)注-以句子為單位進(jìn)行句法分析,為句子中的每一個成分識別出其對應(yīng)的詞性;組塊識別-對詞進(jìn)行合并,形成短語信息);訓(xùn)練生成分類器模型(記錄下標(biāo)注語料中的指代信息,提取預(yù)處理后的語料中的名詞性短語,并將它們組對構(gòu)成實(shí)例,根據(jù)設(shè)定好的特征模板提取實(shí)例的相關(guān)特征,根據(jù)記錄的指代信息判斷實(shí)例對間是否有指代關(guān)系,若有則構(gòu)成正例,沒有則形成負(fù)例。將形成的正負(fù)例訓(xùn)練文件交由SVM、最大熵等分類器算法進(jìn)行訓(xùn)練,形成對應(yīng)的分類器模型-注,本方案生成正負(fù)例的過程可根據(jù)使用的分類器算法進(jìn)行相應(yīng)調(diào)整,因此不拘泥于使用某一分類器算法,申請后面部分給出的實(shí)驗(yàn)數(shù)據(jù)都是使用了SVM分類器進(jìn)行處理所獲得的);測試判斷各照應(yīng)語、現(xiàn)行候選詞間是否具有指代關(guān)系,即分類(對生語料先進(jìn)行預(yù)處理,與訓(xùn)練時類似生成實(shí)例,形成實(shí)例的特征文件,按順序?qū)⑻卣飨蛄刻峤桓鞣诸惼魉惴?,在?xùn)練已經(jīng)生成的分類器模型的指導(dǎo)下根據(jù)特征向量進(jìn)行分類,形成的正例表示實(shí)例對間有指代關(guān)系,否則沒有指代關(guān)系)。由于上述技術(shù)方案運(yùn)用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點(diǎn)本發(fā)明將指代消解問題理解成一個二元分類問題,在處理過程中充分考慮照應(yīng)語和先行候選詞在語句中承擔(dān)的語義角色,以及它們在篇章中的凸顯性。在中心理論的指導(dǎo)下,將該理論從語法角色層面拓展到語義角色層面,并根據(jù)中心理論的相關(guān)規(guī)則設(shè)計(jì)了一個先行候選詞的凸顯度計(jì)算算法,并將該算法計(jì)算得到的凸顯度和"實(shí)施者"的語義角色一同引入指代消解的訓(xùn)練和分類過程。在ACE2003這一國際標(biāo)準(zhǔn)語料上進(jìn)行的各種實(shí)驗(yàn)所得的結(jié)果均表明,本方案能極大地提升指代消解的性能;通過在三個不同的語料集上進(jìn)行測試,結(jié)果表明,采用本發(fā)明的方法獲得的指代消解性能的提升是穩(wěn)定的。具體實(shí)施方式下面結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步描述實(shí)施例本方案使用的指代消解平臺與Soon等2001年提出的框架結(jié)構(gòu)類似,包括的主要模塊有預(yù)處理模塊(具體包括語句識別、命名實(shí)體識別、詞性標(biāo)注、句法分析、語義角色標(biāo)注、詞組標(biāo)注構(gòu)成)、分類器模型訓(xùn)練模塊(具體包括產(chǎn)生訓(xùn)練實(shí)例和利用分類器算法生成分類器模型兩部分構(gòu)成)、指代消解模塊(由產(chǎn)生測試樣例、利用已經(jīng)生成的分類器模型進(jìn)行分類,判斷兩個實(shí)體間是否存在指代關(guān)系兩個環(huán)節(jié)組成)。本方案的具體實(shí)施方式如下1.預(yù)處理結(jié)果文件的生成從純文本開始,使用各類已經(jīng)成熟的自然語言工具進(jìn)行預(yù)處理,包括*段落、語句識別*命名實(shí)體識別;*詞性標(biāo)注;*組塊識別;*句法分析;*語義角色標(biāo)注2.分類器模型文件的生成*根據(jù)組對規(guī)則生成正負(fù)例,在生成過程中針對數(shù)、性、語義類別進(jìn)行簡單的正負(fù)例的過濾*按不同分類器算法要求,根據(jù)特征模板生成訓(xùn)練文件;*將訓(xùn)練文件交由分類器算法,訓(xùn)練生成分類器模型3.對需要處理的篇章,與訓(xùn)練生成分類器模型類似,以此進(jìn)行*預(yù)處理生成訓(xùn)練文件與訓(xùn)練時不同,此時不能判斷組對的兩個實(shí)體間是否具有指代關(guān)系,即正負(fù)例無法判斷,只能按特征模板生成特征向量;*將特征向量依次提交給已經(jīng)訓(xùn)練生成的分類器模型進(jìn)行分類。所得結(jié)果大于閾值,判斷為正例(具有指代關(guān)系),否則為負(fù)例(無指代關(guān)系)。對分類結(jié)果進(jìn)行評測。l.特征模板的設(shè)定本方案首先使用了已經(jīng)被廣泛實(shí)驗(yàn)證明是非常有效的一組特征,具體的特征及其取值情況如表1所示。從表1中可以看到,指代消解是一項(xiàng)非常困難的工作,它需要使用到語法、語義和語用多方面的知識。本方案主要針對其中的語義特征進(jìn)行了進(jìn)一步的挖擁,引入了SRL的相關(guān)信息。使用表1給出的這些有效特征,我們構(gòu)建了一個指代消解基準(zhǔn)平臺,平臺在ACE2003上取得的實(shí)驗(yàn)結(jié)果如表2所示。為了進(jìn)一步對構(gòu)建的指代消解系統(tǒng)進(jìn)行全面的分析,我們又針對專有名詞、代詞等各種不同類別的名詞在ACE2003的NWIRE語料上進(jìn)行了分項(xiàng)實(shí)驗(yàn),具體的實(shí)驗(yàn)結(jié)果如表3所示。表1指代消解特征集ANPronoun照應(yīng)語是代詞取1,否則0ANDefiniteNP照應(yīng)語是有定名詞短語取l,否則OANDemonstrativeNP照應(yīng)語是指示性名詞短語取1,否則OCAPronoun先行語是代詞取1,否則oANCAGenderAgreement照應(yīng)語和先行語滿足詞性一致取l,不一致取OANCANumberAgreement照應(yīng)語和先行語滿足單復(fù)數(shù)一致取l,不一致取OANCAAppositive照應(yīng)語和先行語是同位語l,否則取OANCAHeadStringMatch如果照應(yīng)語和先行語滿足中心詞匹配取1,否則取0ANCASentDistance照應(yīng)語和先行語在一句內(nèi)取l,兩句O.9,….大于10句0ANCAWORDSENSE從WordNet中獲得的語義信息類有相同的為1,不同為0ANCABothProperName照應(yīng)語和先行語候選詞均為專有名詞取1,否則取0ANCANameAlias照應(yīng)語和先行語候選詞存在別名關(guān)系取1,否則取09表2基準(zhǔn)系統(tǒng)在ACE2003語料上的評測結(jié)果語料集召回率RW準(zhǔn)確率PW)F值NWIRE51.068.959.0NPAPER56.967.061.5BNEWS44.564.852.7表3基準(zhǔn)系統(tǒng)在ACE2003NWIRE語料集上的分類評測結(jié)果詞類別正確消解待消解RecalPrecisioF值數(shù)數(shù)1n代詞26139558.166.161.8專有名詞38947480.282.181.1無定名詞192479.279.279.2有定名詞6714734.745.639.4指示性詞000.00.00.0表2給出的實(shí)驗(yàn)結(jié)果與目前相關(guān)文獻(xiàn)報(bào)道的結(jié)果相比相差大約1%左右。而就表3給出的分項(xiàng)實(shí)驗(yàn)結(jié)果來看,占總名詞量大份額的主要是代詞和專有名詞,而相對而言,對專有名詞的指代消解性能已經(jīng)較好,而代詞還有相當(dāng)?shù)奶嵘臻g。因此本方案首先研究了中心理論的相關(guān)知識(中心理論主要研究代詞在篇章中的使用規(guī)則,主要針對語法層面的研究),考慮到指代消解中對語義信息的極大依賴(目前指代消解領(lǐng)域的很多研究都表明語義信息對指代消解的性能起到了很大的影響作用),本方案選擇了既能體現(xiàn)語法角色,又能表達(dá)一定的語義信息的SRL作為研究對象。語義角色是句子中的名詞短語在相應(yīng)動詞驅(qū)動下所承擔(dān)的語義成分,可以利用語義角色標(biāo)注(SemanticRoleLabeling,SRL)來獲得語義角色。SRL是淺層語義分析(ShallowSemanticParsing)的一種實(shí)現(xiàn)方式。淺層語義分析是指根據(jù)句子的句法結(jié)構(gòu)和句中每個實(shí)體的詞義推導(dǎo)出能夠反映這個句子意義的某種形式化表示。例如下面的例子,雖然它們的表述形式不同,但表示成語義的形式卻統(tǒng)一為"hit(John,Bill)"。JohnhitBill.BillwashitbyJohn.核心的語義角色包括六種,其中ArgO通常表示動作的施事者,Argl通常表示動作的影響等等,其余的語義角色為附加語義角色,使用ArgM表示,例如ArgM-LOC表示地點(diǎn),ArgM-TMP表示時間等等。目前絕大多數(shù)的SRL工10具對Arg0和Argl的標(biāo)注結(jié)果較好,準(zhǔn)確率都達(dá)到了90%以上。考慮到系統(tǒng)對SRL的依賴度,另外基準(zhǔn)系統(tǒng)中我們使用的語義類別是否一致的特征在一定程度上與ArgM-LOC、ArgM-TMP等附加角色體現(xiàn)的語義類別信息類似,因此本方案僅考慮了Arg0和Argl這兩個語義角色。此外,驅(qū)動動詞在語義角色信息描述中具有非常重要的作用,同一個名詞短語可能是動詞A驅(qū)動下的ArgO角色,同時又是動詞B驅(qū)動下的Argl角色。因此在描述語義角色相關(guān)特性時,我們還引入了兩個與驅(qū)動動詞相關(guān)的特征。表4給出了新方案中新增的與語義角色相關(guān)的特征。表4語義角色相關(guān)的特征集合<table>tableseeoriginaldocumentpage11</column></row><table>在指代消解中直接使用表1和表4給出的特征模板,最終指代消解的性能有一定程度的提升,但仔細(xì)分析中心理論發(fā)現(xiàn),這種直接引入語義角色的方式并不能達(dá)到最佳效果。因此,本方案在中心理論的指導(dǎo)下,設(shè)計(jì)了一個基于語義角色的先行詞候選凸顯度計(jì)算算法,利用該算法計(jì)算得出候選詞的凸顯度,再將該凸顯度作為特征模板的成員引入指代消解。2.先行候選詞凸顯算法的設(shè)計(jì)及使用根據(jù)中心理論,語句中出現(xiàn)的所有話語實(shí)體都是語篇的中心,這些中心在前后語句中的突顯程度以及它們的語言實(shí)現(xiàn)形式都會影響到語篇的連貫性,而指代的出現(xiàn),一方面需要多樣化、簡潔明了的表達(dá)篇章中的話語實(shí)體,另一方還需要保障語篇的連貫性。語篇是以中心為基礎(chǔ)連接前后語句的,每一語句都有兩種中心前向中心(forward-lookingcenter,Cf)和回溯中心(back-lookingcenter,Cb)。Cf提供了與后繼語句聯(lián)系的紐帶,包括一系列的對象,這些對象按照在注意狀態(tài)中突顯度的不同形成一定的等級排列。Cb只包含一個對象,它與先前語句建立聯(lián)系。中心理論有一條重要的規(guī)則識別Cb的條件。它認(rèn)為前一語句Cf中突顯度最髙的一個對象就是本句的Cb。并且當(dāng)本句包含其他代詞時,Cb必須以代詞的形式來表示。如違反這一規(guī)則就會造成這句話閱讀時間的增加。Grosz,Sinder等人(1993,1995)進(jìn)一步研究發(fā)現(xiàn),在語句中Cb不受出現(xiàn)的先后次序和實(shí)施/受施等元角色的影響,表層位置也不會影響Cb。但表層位置和句法位置會影響Cf中對象突顯度的不同。從這一規(guī)則可以看到,一篇連貫性較好、便于讀者閱讀的文本中,必然有以下一些特征*前一句Cf中突顯度最髙的一個對象是本句的Cb,而Cf中對象的突顯性與表面位置、語義角色等諸多要素相關(guān)。因此在指代消解中,對先行語信息的描述應(yīng)盡可能的詳細(xì)。另一方面,前一句的Cf凸顯度,對本句中Cb的指代關(guān)系的判斷非常重要。*當(dāng)本句包含其他代詞時,語句中的Cb必須以代詞的形式出現(xiàn)。因此在代詞指代消解中可引入"語句中是否含有多個代詞"這一特征。,Cb不受位置、語義角色等特性的影響。通常我們認(rèn)為語法上具有最多與照應(yīng)語相似特征的先行語最可能與照應(yīng)語具有同指關(guān)系,但當(dāng)照應(yīng)語是代詞形式的Cb時,根據(jù)中心理論,Cb不受表面特征的影響,対稱加入照應(yīng)語和先行語的描述信息,可能會帶來更多的噪音。在上述中心理論思想的指導(dǎo)下,我們首先根據(jù)先行候選詞承擔(dān)的語義角色情況設(shè)計(jì)了先行候選詞凸顯度計(jì)算算法,具體算法如下所示,并將計(jì)算得到的凸顯度表示成特征Rank。定義另個數(shù)組變量PronounElem和PronounRank,一個存放所有的代詞對象,另一個存放代詞對象當(dāng)前已獲得的Rank信息;for(篇章中的每一語句)do{將PronounElem數(shù)組中的各元素初始化成nil;將PrcmounRank數(shù)組中的各元素初始化成-1,表示目前還未知其承擔(dān)語義角色;獲取當(dāng)前語句中的所有代詞實(shí)體,并將它們按照位置的先后順序存儲在數(shù)組PronounElem中for(數(shù)組PronounElem中的每個元素y)do{if(該元素在當(dāng)前語句中不承擔(dān)任何語義角色)將PronoimRank數(shù)組中相應(yīng)的元素賦值成0:else{根據(jù)y在語句中承擔(dān)的語義角色信息累加得到該元素的rank值;/*語義角色是依據(jù)語句中不同的驅(qū)動謂詞(本方案僅考慮了動詞性謂詞)進(jìn)行標(biāo)注的,因此某個代詞可能在不同謂詞的驅(qū)動下承擔(dān)多個語義角色。我們給出的方案采用競爭得分制度,遇到語句主謂詞驅(qū)動形成的"實(shí)施者"語義角色,該對象的rank加4分;主謂詞驅(qū)動形成的"受施者",該對象的rank加3分;非主謂詞驅(qū)動的AO對象加2分;非主謂詞驅(qū)動的Al對象加1分。*/將計(jì)算得到的rank值賦予PronounRank數(shù)組中對應(yīng)的元素;求出PnmoimRank數(shù)組中的最大值對應(yīng)的下標(biāo);PnmoimElem數(shù)組中對應(yīng)的元素就是當(dāng)前語句中具有最髙凸顯度的對象;經(jīng)過凸顯度計(jì)算后,再結(jié)合中心理論給出的其他幾條規(guī)則,我們設(shè)計(jì)新增了如表5所示的特征,與表l給出的特征相結(jié)合,就形成了我們方案的特征模板。表5中心理論指導(dǎo)下的新增特征先行候選詞的類別細(xì)分信息1.CACategory先行語候選詞是代詞、專有名詞、有定、無定的名詞、指示性名詞2,CAPronounType先行語候選詞若為代詞,則具體為第一人稱、第二人稱、第三人稱、中性代詞凸顯性信息3.ANPronounRanking照應(yīng)語是否是本句中凸顯性最髙的代詞4.CAPronounRank先行語候選詞計(jì)算出的凸顯度值語義角色信息5.CAARG0先行語候選詞承擔(dān)A0角色否6.CAARG0MainVerb先行語候選詞承擔(dān)的AO角色是否由主謂詞驅(qū)動的本方案在新形成的特征模板下進(jìn)行訓(xùn)練和測試,在ACE2003的語料上進(jìn)行了與基準(zhǔn)系統(tǒng)類似的實(shí)驗(yàn),最終的結(jié)果如表6、7所示。表6使用新特征模板后的指代消解系統(tǒng)在ACE2003語料上的評測結(jié)果語料集召回率R(90準(zhǔn)確率P(W)F值NWIRE53.968.860.4NPAPER59.670.264.4BNEWS48.768.657.0表7使用新特征模板后的指代消解系統(tǒng)在ACE2003NWIRE語料集上的分類評測結(jié)果詞類別正確消解數(shù)待消解數(shù)RecallPrecisionF值代詞30239576.564.570專有名詞39247482.782.282.4無定名詞172470.877.373.9有定名詞6814746.341.743.9指示性詞00000從表6和表7所示的結(jié)果可以看出,SRL信息的引入能極大的提升指代消解的性能。在三個語料上的測試結(jié)果也表明,這種提升是穩(wěn)定的。1權(quán)利要求1.一種中文處理中基于語義角色信息的指代消解方法,其特征在于,包括下列步驟(1)對文本進(jìn)行預(yù)處理,所述預(yù)處理包括段落、語句識別;命名實(shí)體識別;詞性標(biāo)注;組塊識別;句法分析;語義角色標(biāo)注;(2)根據(jù)組對規(guī)則生成正負(fù)例,在生成過程中針對數(shù)、性、語義類別進(jìn)行簡單的正負(fù)例的過濾;按分類器的算法要求,根據(jù)特征模板生成訓(xùn)練文件;采用訓(xùn)練文件對分類器進(jìn)行訓(xùn)練,生成分類器模型;所述特征模板包括指代消解特征集新增特征集(3)對待處理的文本采用步驟(1)的方式進(jìn)行預(yù)處理;按特征模板生成特征向量;將特征向量依次提交給已經(jīng)訓(xùn)練生成的分類器模型進(jìn)行分類,所得結(jié)果大于閾值,判斷為正例,即具有指代關(guān)系,否則為負(fù)例,即無指代關(guān)系。全文摘要本發(fā)明公開了一種中文處理中基于語義角色信息的指代消解方法,包括下列步驟(1)對文本進(jìn)行預(yù)處理,所述預(yù)處理包括段落、語句識別;命名實(shí)體識別;詞性標(biāo)注;組塊識別;句法分析;語義角色標(biāo)注;(2)根據(jù)組對規(guī)則生成正負(fù)例,在生成過程中針對數(shù)、性、語義類別進(jìn)行簡單的正負(fù)例的過濾;按分類器的算法要求,根據(jù)特征模板生成訓(xùn)練文件;采用訓(xùn)練文件對分類器進(jìn)行訓(xùn)練,生成分類器模型;(3)對待處理的文本采用步驟(1)的方式進(jìn)行預(yù)處理;按特征模板生成特征向量;將特征向量依次提交給已經(jīng)訓(xùn)練生成的分類器模型進(jìn)行分類,所得結(jié)果大于閾值,判斷為正例,即具有指代關(guān)系,否則為負(fù)例,即無指代關(guān)系。本發(fā)明極大地提升了指代消解的性能,且其提升是穩(wěn)定的。文檔編號G06F17/27GK101446943SQ20081024360公開日2009年6月3日申請日期2008年12月10日優(yōu)先權(quán)日2008年12月10日發(fā)明者周國棟,芳孔,朱巧明,李軍輝,李培峰,錢培德,錢龍華申請人:蘇州大學(xué)