欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備的制作方法

文檔序號(hào):6579513閱讀:323來源:國(guó)知局

專利名稱::生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及利用計(jì)算機(jī)將一種自然語(yǔ)言自動(dòng)翻譯為另外一種自然語(yǔ)言的基于統(tǒng)計(jì)的機(jī)器翻譯技術(shù),其特別涉及生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備。
背景技術(shù)
:機(jī)器翻譯是指利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言)翻譯為另外一種自然語(yǔ)言(目標(biāo)語(yǔ)言)。隨著國(guó)際間交流和合作的日益密切,人們迫切需要優(yōu)質(zhì)高效的語(yǔ)言翻譯服務(wù)。機(jī)器翻譯有著廣闊的應(yīng)用前景,同時(shí)它也是自然語(yǔ)言處理的難點(diǎn)和重要任務(wù)。目前,主流的翻譯技術(shù)是基于統(tǒng)計(jì)的機(jī)器翻譯(統(tǒng)計(jì)機(jī)器翻譯)。它對(duì)翻譯過程進(jìn)行數(shù)學(xué)建模,能夠自動(dòng)地從平行語(yǔ)料庫(kù)中學(xué)習(xí)翻譯知識(shí),具有語(yǔ)言獨(dú)立性強(qiáng)、系統(tǒng)開發(fā)周期短、魯棒性高等優(yōu)點(diǎn)。機(jī)器翻譯的過程所需要的一個(gè)重要的資源是規(guī)則表。在統(tǒng)計(jì)機(jī)器翻譯中,使用從平行語(yǔ)料庫(kù)中獲得的規(guī)則表。規(guī)則表刻畫了源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)應(yīng)關(guān)系。規(guī)則表的質(zhì)量和表達(dá)能力直接影響翻譯系統(tǒng)的性能。然而,從平行語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)到的規(guī)則表非常龐大,一方面導(dǎo)致需要巨大的計(jì)算機(jī)存儲(chǔ)空間,另一方面導(dǎo)致翻譯效率低。這使得統(tǒng)計(jì)機(jī)器翻譯技術(shù)難以應(yīng)用于手機(jī)、PDA等存儲(chǔ)空間和計(jì)算資源較少的設(shè)備。實(shí)際上,在翻譯過程中,規(guī)則表具有很大的冗余。參考文獻(xiàn)[1]提出了一種利用雙語(yǔ)語(yǔ)料庫(kù)信息進(jìn)行規(guī)則表過濾的方法,但復(fù)雜度較高。參考文獻(xiàn)[2]提出了一種利用目標(biāo)語(yǔ)言依存樹信息進(jìn)行規(guī)則表過濾的方法,但為了保證翻譯質(zhì)量不下降,又增加了額外的模型。規(guī)則表的規(guī)模直接影響翻譯效率和翻譯質(zhì)量。如何在不降低或不明顯降低翻譯質(zhì)量以及不增加模型復(fù)雜度的前提下,減少規(guī)則表的規(guī)模,提高翻譯效率,是實(shí)際應(yīng)用中一個(gè)亟待解決的問題。參考文獻(xiàn)[1]HowardJohnson,JoelMartin,GeorgeFoster,andRolandKuhn.2007.Improvingtranslationqualitybydiscardingmostofthephrasetable.InProceedingsofthe2007JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning(EMNLPCoNLL),pages967—975,Prague,CzechRepublic,June.參考文獻(xiàn)[2]:LibinShen,JinxiXu,andRalphWeischedel.2008.Anewstring-to-dependencymachinetranslationalgorithmwithatargetdependencylanguagemodel.InProceedingsofACL-08:HLT,pages577-585,Columbus,Ohio,June.
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的在于提供生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備,其中對(duì)規(guī)則表進(jìn)行過濾,以降低統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)對(duì)計(jì)算資源的需求。本發(fā)明的一個(gè)實(shí)施例是一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備,包括規(guī)則提取裝置,其從平行語(yǔ)料庫(kù)中提取規(guī)則;和規(guī)則過濾裝置,其從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)或目標(biāo)語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。進(jìn)一步地,上述設(shè)備還可以包括短語(yǔ)提取裝置,其從源語(yǔ)言或目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中提取統(tǒng)計(jì)特征滿足預(yù)定要求的短語(yǔ)作為預(yù)定短語(yǔ)。進(jìn)一步地,在上述設(shè)備中,預(yù)定短語(yǔ)可以包括連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)。進(jìn)一步地,在上述設(shè)備中,統(tǒng)計(jì)特征可以包括下述特征中的至少之一所提取的短語(yǔ)在相應(yīng)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、所提取的短語(yǔ)的信息熵、所提取的短語(yǔ)的概率和所提取的短語(yǔ)的C-value值。進(jìn)一步地,在上述設(shè)備中,規(guī)則過濾裝置可以被配置為從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。本發(fā)明的一個(gè)實(shí)施例是一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法,包括從平行語(yǔ)料庫(kù)中提取規(guī)則;和從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)或目標(biāo)語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。進(jìn)一步地,上述方法還可以包括從源語(yǔ)言或目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中提取統(tǒng)計(jì)特征滿足預(yù)定要求的短語(yǔ)作為所述預(yù)定短語(yǔ)。進(jìn)一步地,在上述方法中,預(yù)定短語(yǔ)可以包括連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)。進(jìn)一步地,在上述方法中,統(tǒng)計(jì)特征可以包括下述特征中的至少之一所提取的短語(yǔ)在相應(yīng)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、所提取的短語(yǔ)的信息熵、所提取的短語(yǔ)的概率和所提取的短語(yǔ)的C-value值。進(jìn)一步地,在上述方法中,過濾可以是從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。本發(fā)明的一個(gè)實(shí)施例是一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備,包括規(guī)則提取裝置,其從平行語(yǔ)料庫(kù)中提取規(guī)則;規(guī)則識(shí)別裝置,其從所提取的規(guī)則中識(shí)別單調(diào)組合規(guī)則,所述單調(diào)組合規(guī)則能夠包含更小的規(guī)則,并且其源語(yǔ)言短語(yǔ)的順序與所述源語(yǔ)言短語(yǔ)的對(duì)應(yīng)目標(biāo)語(yǔ)言短語(yǔ)的順序相同;和規(guī)則過濾裝置,其從所提取的規(guī)則中過濾所識(shí)別的單調(diào)組合規(guī)則。進(jìn)一步地,在上述設(shè)備中,更小的規(guī)則是所提取的規(guī)則中的規(guī)則。根據(jù)本發(fā)明的實(shí)施例,使用預(yù)定短語(yǔ)對(duì)規(guī)則提取裝置獲得的規(guī)則進(jìn)行過濾,從而減少規(guī)則表的規(guī)模。參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖1的框圖示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備的示例性結(jié)構(gòu);圖2的流程圖示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法的示例性過程;圖3的框圖示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備的示例性結(jié)構(gòu);圖4的流程圖示出了根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法的示例性過程;圖5的框圖示出了根據(jù)本發(fā)明實(shí)施例的設(shè)備中短語(yǔ)提取裝置的示例性結(jié)構(gòu);圖6的流程圖示出了根據(jù)本發(fā)明實(shí)施例的方法中短語(yǔ)提取步驟的示例性過程;圖7的框圖示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備的示例性結(jié)構(gòu);圖8的流程圖示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法的示例性過程;圖9a示出了最小規(guī)則的一個(gè)例子,圖9b示出了復(fù)合規(guī)則的一個(gè)例子,圖9c示出了單調(diào)復(fù)合規(guī)則的一個(gè)例子,圖9d示出了非單調(diào)復(fù)合規(guī)則的一個(gè)例子。圖10是示出實(shí)現(xiàn)本發(fā)明實(shí)施例的計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。具體實(shí)施例方式下面參照附圖來說明本發(fā)明的實(shí)施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。為方便下面對(duì)本發(fā)明的實(shí)施例的說明,首先給出有關(guān)術(shù)語(yǔ)“短語(yǔ)”、“子短語(yǔ)”及“短語(yǔ)長(zhǎng)度”的定義。短語(yǔ)一個(gè)句子中任意的詞串。根據(jù)短語(yǔ)中的詞語(yǔ)在句子中的位置是否連續(xù),可以分為2類連續(xù)短語(yǔ)短語(yǔ)內(nèi)部的詞語(yǔ)在句子中的位置連續(xù);非連續(xù)短語(yǔ)短語(yǔ)內(nèi)部的詞語(yǔ)在句子中的位置不連續(xù)。假設(shè)一個(gè)含有J個(gè)詞的某種語(yǔ)言(例如漢語(yǔ)、英語(yǔ))的句子C/=C1C2…Q,其中Cjd彡j彡j)是該語(yǔ)言的詞,那么權(quán)利要求一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備,其特征在于,包括規(guī)則提取裝置,其從平行語(yǔ)料庫(kù)中提取規(guī)則;和規(guī)則過濾裝置,其從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)或目標(biāo)語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。2.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于,還包括短語(yǔ)提取裝置,其從源語(yǔ)言或目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中提取統(tǒng)計(jì)特征滿足預(yù)定要求的短語(yǔ)作為所述預(yù)定短語(yǔ)。3.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于,所述統(tǒng)計(jì)特征包括下述特征中的至少之一所提取的短語(yǔ)在相應(yīng)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、所提取的短語(yǔ)的信息熵、所提取的短語(yǔ)的概率和所提取的短語(yǔ)的C-value值。4.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于,所述規(guī)則過濾裝置被配置為從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)不是所述預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。5.一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法,其特征在于,包括從平行語(yǔ)料庫(kù)中提取規(guī)則;和從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)或目標(biāo)語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括從源語(yǔ)言或目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中提取統(tǒng)計(jì)特征滿足預(yù)定要求的短語(yǔ)作為所述預(yù)定短語(yǔ)。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述統(tǒng)計(jì)特征包括下述特征中的至少之一所提取的短語(yǔ)在相應(yīng)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)、所提取的短語(yǔ)的信息熵、所提取的短語(yǔ)的概率和所提取的短語(yǔ)的C-value值。8.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述過濾為從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)不是所述預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。9.一種生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備,其特征在于,包括規(guī)則提取裝置,其從平行語(yǔ)料庫(kù)中提取規(guī)則;規(guī)則識(shí)別裝置,其從所提取的規(guī)則中識(shí)別單調(diào)組合規(guī)則,所述單調(diào)組合規(guī)則能夠包含更小的規(guī)則,并且其源語(yǔ)言短語(yǔ)的順序與所述源語(yǔ)言短語(yǔ)的對(duì)應(yīng)目標(biāo)語(yǔ)言短語(yǔ)的順序相同;和規(guī)則過濾裝置,其從所提取的規(guī)則中過濾所識(shí)別的單調(diào)組合規(guī)則。10.如權(quán)利要求9所述的設(shè)備,其特征在于所識(shí)別的單調(diào)組合規(guī)則的源語(yǔ)言短語(yǔ)不是任何非單調(diào)復(fù)合規(guī)則的源語(yǔ)言短語(yǔ)。全文摘要生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備。生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的設(shè)備包括規(guī)則提取裝置,其從平行語(yǔ)料庫(kù)中提取規(guī)則;和規(guī)則過濾裝置,其從所提取的規(guī)則中過濾源語(yǔ)言短語(yǔ)或目標(biāo)語(yǔ)言短語(yǔ)不是預(yù)定短語(yǔ)的任何一個(gè)的規(guī)則。文檔編號(hào)G06F17/30GK101989287SQ20091016094公開日2011年3月23日申請(qǐng)日期2009年7月31日優(yōu)先權(quán)日2009年7月31日發(fā)明者于浩,何中軍,孟遙申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
湘潭市| 中西区| 苗栗县| 巧家县| 张家港市| 龙川县| 沙湾县| 宜章县| 缙云县| 光山县| 高要市| 项城市| 丽水市| 东阿县| 龙游县| 卓资县| 宕昌县| 承德县| 普安县| 锦州市| 株洲市| 黑河市| 浦县| 内丘县| 句容市| 库车县| 阿合奇县| 福海县| 抚宁县| 凯里市| 吉木乃县| 垦利县| 台北县| 綦江县| 禄丰县| 额敏县| 麻栗坡县| 类乌齐县| 越西县| 泗阳县| 梁河县|