專利名稱:依存映射方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于自然語言處理技術領域,尤其涉及依存映射方法。
背景技術:
依存文法是自然語言處理領域中最為流行的文法之一。與短語結構文法相比,依存文法兼具語法和語義信息,具有以下特點依存結構具有最好的短語結合性質(phrasalcohesion properties);依存關系邊給出語義信息。因此,依存文法是自然語言處理領域中非常具有吸引力的資源。對于一些資源缺乏語言,通常缺乏相應的依存樹庫,甚至缺乏相應的依存樹標準。資源的缺乏給相應的自然語言處理任務帶來了一定的困難。此時利用依存映射方法,將資源豐富語言的知識映射到資源貧乏的語言上可以一定程度緩解類似困難。
在現(xiàn)有的依存映射方法(例如參考文獻I, Wenbin Jiang and Qun Liu. Dependencyparsing and projection based on word—pair classification. In Proceedings of the48th Annual Meeting of the Association for Computational Linguistics. 2010.)中,首先將源語言端句子進行有監(jiān)督的依存分析得到源語言句子依存樹;再將源語言與目標語言的雙語語料庫進行詞匯對齊;利用詞匯對齊及源語言依存樹通過一定規(guī)則將依存句法信息映射到目標語言端;利用映射后目標語言端的依存句法信息訓練映射后的目標語言依存句法分析器。但這樣得到的映射依存樹不完整,且存在映射錯誤和映射信息相互沖突的現(xiàn)象。
發(fā)明內容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種依存映射方法,緩解依存映射所面臨的上述問題,并保證較優(yōu)的性能。本發(fā)明的目的是通過以下技術方案實現(xiàn)的—方面,本發(fā)明提供了一種依存映射方法,包括步驟1,在源語言與目標語言的雙語語料庫的基礎上,經(jīng)依存映射得到目標語言的依存句法信息并建立當前的目標語言依存句法分析模型及依存句法分析器;步驟2,基于映射依存特征實例集合和無監(jiān)督特征實例集合,對目標語言依存句法模型進行訓練,以得到最優(yōu)的依存句法分析模型并通過該最優(yōu)的依存句法分析模型來構造最終的目標依存語法分析器;其中,映射依存特征實例集合是從經(jīng)依存映射后的目標語言的依存句法信息中抽取的,無監(jiān)督特征實例集合是從通過當前的目標語言依存句法分析器對目標語言庫進行句法分析而得到依存樹中抽取的。上述技術方案中,所述步驟I可包括步驟11)在源語言與目標語言的雙語語料庫的基礎上,根據(jù)源語言串的依存樹、目標語言串以及源語言與目標語言間的詞語對齊關系,將源語言依存信息映射到目標語言,從而得到經(jīng)依存映射后的目標語言的依存句法信息;
步驟12)基于經(jīng)依存映射后的目標語言的依存句法信息,建立當前的目標語言依存句法分析模型及依存句法分析器;上述技術方案中,所述步驟2可包括步驟21)使用當前的目標語言依存句法分析器對目標語言庫中所有目標語言句子進行句法分析,得到在當前依存句法分析模型下的依存樹;步驟22)通過特征模板從步驟21)得到的依存樹抽取無監(jiān)督特征實例集合,并從經(jīng)依存映射后的目標依存句法信息中抽取映射依存特征實例集合;步驟23)基于無監(jiān)督特征實例集合和映射依存特征實例集合,通過分類目標函數(shù)得到優(yōu)化后的依存句法分析模型;步驟24)根據(jù)步驟24)得到的依存句法分析模型構造優(yōu)化后目標語言依存句法分析器,然后基于該目標依存句法分析器重新執(zhí)行步驟21)至步驟24),直到滿足終止條件為止。上述技術方案中,所述步驟23)中分類目標函數(shù)可以為l(w) = (1-ct) 0 (w)+ a 由(w)其中a為插值,0 (W)和由(W)分別為
權利要求
1.一種依存映射方法,所述方法包括 步驟1,在源語言與目標語言的雙語語料庫的基礎上,經(jīng)依存映射得到目標語言的依存句法信息并建立當前的目標語言依存句法分析模型及依存句法分析器; 步驟2,基于映射依存特征實例集合和無監(jiān)督特征實例集合,對目標語言依存句法模型進行訓練,以得到最優(yōu)的依存句法分析模型并通過該最優(yōu)的依存句法分析模型來構造最終的目標依存語法分析器; 其中,映射依存特征實例集合是從經(jīng)依存映射后的目標語言的依存句法信息中抽取的,無監(jiān)督特征實例集合是從通過當前的目標語言依存句法分析器對目標語言庫進行句法分析而得到依存樹中抽取的。
2.根據(jù)權利要求I所述的方法,所述步驟I包括 步驟11)在源語言與目標語言的雙語語料庫的基礎上,根據(jù)源語言串的依存樹、目標語言串以及源語言與目標語言間的詞語對齊關系,將源語言依存信息映射到目標語言,從而得到經(jīng)依存映射后的目標語言的依存句法信息; 步驟12)基于經(jīng)依存映射后的目標語言的依存句法信息,建立當前的目標語言依存句法分析模型及依存句法分析器。
3.根據(jù)權利要求2所述的方法,所述步驟2包括 步驟21)使用當前的目標語言依存句法分析器對目標語言庫中所有目標語言句子進行句法分析,得到在當前依存句法分析模型下的依存樹; 步驟22)通過特征模板從步驟21)得到的依存樹抽取無監(jiān)督特征實例集合,并從經(jīng)依存映射后的目標依存句法信息中抽取映射依存特征實例集合; 步驟23)基于無監(jiān)督特征實例集合和映射依存特征實例集合,通過分類目標函數(shù)得到優(yōu)化后的依存句法分析模型; 步驟24)根據(jù)步驟24)得到的依存句法分析模型構造優(yōu)化后目標語言依存句法分析器,然后基于該目標依存句法分析器重新執(zhí)行步驟21)至步驟24),直到滿足終止條件為止。
4.根據(jù)權利要求3所述的方法,所述步驟23)中分類目標函數(shù)為 l(w) = (1-a) 9 (w)+ a (J) (w) 其中a為插值,0 (W)和(W)分別為
5.根據(jù)權利要求3所述的方法,所述步驟24)中的終止條件為相鄰兩次所得到的目標語言依存樹沒有太大變化或相鄰兩次所得到的分類目標函數(shù)的極值沒有太大變化,或步驟重復次數(shù)超過預定閾值。
6.—種依存映射系統(tǒng),包括 依存映射裝置,用于在源語言與目標語言的雙語語料庫的基礎上,經(jīng)依存映射得到目標語言的依存句法信息并建立當前的目標語言依存句法分析模型及依存句法分析器; 依存優(yōu)化裝置,用于基于映射依存特征實例集合和無監(jiān)督特征實例集合,對目標語言依存句法模型進行訓練,以得到最優(yōu)的依存句法分析模型并通過該最優(yōu)的依存句法分析模型來構造最終的目標依存語法分析器; 其中,映射依存特征實例集合是從經(jīng)依存映射后的目標語言的依存句法信息中抽取的,無監(jiān)督特征實例集合是從通過當前的目標語言依存句法分析器對目標語言庫進行句法分析而得到依存樹中抽取的。
7.根據(jù)權利要求6所述的系統(tǒng),所述依存映射裝置包括 用于在源語言與目標語言的雙語語料庫的基礎上,根據(jù)源語言串的依存樹、目標語言串以及源語言與目標語言間的詞語對齊關系,將源語言依存信息映射到目標語言,從而得到經(jīng)依存映射后的目標語言的依存句法信息的裝置; 用于基于經(jīng)依存映射后的目標語言的依存句法信息,建立當前的目標語言依存句法分析模型及依存句法分析器的裝置。
8.根據(jù)權利要求6所述的系統(tǒng),所述依存優(yōu)化裝置包括 用于使用當前的目標語言依存句法分析器對目標語言庫中所有目標語言句子進行句法分析,得到在當前依存句法分析模型下的依存樹的裝置; 用于通過特征模板從所述依存樹抽取無監(jiān)督特征實例集合,并從經(jīng)依存映射后的目標依存句法信息中抽取映射依存特征實例集合的裝置; 用于基于無監(jiān)督特征實例集合和映射依存特征實例集合,通過分類目標函數(shù)得到優(yōu)化后的依存句法分析模型的裝置; 用于從優(yōu)化后的依存句法分析模型構造優(yōu)化后目標語言依存句法分析器的裝置。
9.一種機器翻譯方法,所述方法包括 I)基于第一語言的依存句法樹以及第一語言和第二語言的雙語語料庫,通過如權利要求1-5之一所述的依存映射方法得到第二語言的依存句法分析器;2)接收第二語言的句子,通過所得到的第二語言的依存句法分析器得到該第二語言的句子的依存句法分析樹; 3)基于該第二語言的句子的依存句法分析樹,通過相應的機器翻譯方法將該第二語言的句子翻譯為第三語言的句子。
全文摘要
本發(fā)明提供一種依存映射方法,該方法首先在源語言與目標語言的雙語語料庫的基礎上,經(jīng)依存映射得到目標語言的依存句法信息并建立當前的目標語言依存句法分析模型及依存句法分析器;然后基于映射依存特征實例集合和無監(jiān)督特征實例集合,對目標語言依存句法模型進行訓練,以得到最優(yōu)的依存句法分析模型并通過該最優(yōu)的依存句法分析模型來構造最終的目標依存語法分析器。其中,映射依存特征實例集合是從經(jīng)依存映射后的目標語言的依存句法信息中抽取的,無監(jiān)督特征實例集合是從通過當前的目標語言依存句法分析器對目標語言庫進行句法分析而得到依存樹中抽取的。這種依存映射方法可以最大限度地保留映射的依存信息,并且能夠魯棒的處理噪聲信息。
文檔編號G06F17/27GK102760121SQ20121022293
公開日2012年10月31日 申請日期2012年6月28日 優(yōu)先權日2012年6月28日
發(fā)明者劉凱, 劉群, 呂雅娟, 姜文斌 申請人:中國科學院計算技術研究所