抽取姓名詞典和翻譯規(guī)則表的方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一般地涉及自然語言處理領(lǐng)域。具體而言,本發(fā)明涉及一種抽取用于在日 文姓名與英文姓名之間進(jìn)行翻譯的姓名詞典和翻譯規(guī)則表的方法和設(shè)備、以及利用所抽取 出的姓名詞典和翻譯規(guī)則表來在日文姓名與英文姓名之間進(jìn)行翻譯的方法和設(shè)備。
【背景技術(shù)】
[0002] 近年來,自然語言處理,尤其是機(jī)器翻譯相關(guān)的技術(shù)得到了迅猛的發(fā)展。但是,仍 然存在一些難以解決的技術(shù)問題。例如,日文姓名中存在多音字,在基于字對日文姓名進(jìn)行 翻譯以得到對應(yīng)的英文姓名的時(shí)候,存在一對多的不確定性。而且,一些日文姓名的發(fā)音與 日文姓名中的漢字的含義有關(guān),相應(yīng)的發(fā)音不常見,基于日文姓名中的漢字的通常的發(fā)音 進(jìn)行翻譯,容易獲得錯(cuò)誤的結(jié)果。所以,難以借助于普通的翻譯詞典和翻譯規(guī)則表,對日文 姓名和英文姓名進(jìn)行互譯。
[0003] 顯然,如果在日文姓名和英文姓名之間進(jìn)行翻譯的時(shí)候,利用好的姓名詞典和翻 譯規(guī)則表,則翻譯的準(zhǔn)確度高,翻譯質(zhì)量好。然而,依靠人工來進(jìn)行姓名詞典和翻譯規(guī)則表 的制作是費(fèi)力、耗時(shí)、低效的。依靠現(xiàn)有的詞典抽取技術(shù)和翻譯規(guī)則表抽取技術(shù)抽取的結(jié)果 又不能適應(yīng)日文姓名的特殊性。綜上所述,難以自動(dòng)地、準(zhǔn)確地獲得高質(zhì)量的針對日文姓名 和英文姓名的翻譯的姓名詞典和翻譯規(guī)則表。
[0004] 因此,期望一種能夠自動(dòng)地、準(zhǔn)確地抽取用于在日文姓名與英文姓名之間進(jìn)行翻 譯的高質(zhì)量的姓名詞典和翻譯規(guī)則表的方法和設(shè)備。
【發(fā)明內(nèi)容】
[0005] 在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概 念,以此作為稍后論述的更詳細(xì)描述的前序。
[0006] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的上述問題,提出了一種能夠自動(dòng)地、準(zhǔn)確地抽取 用于在日文姓名與英文姓名之間進(jìn)行翻譯的高質(zhì)量的姓名詞典和翻譯規(guī)則表的方法和設(shè) 備。
[0007] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了 一種抽取用于在日文姓名與 英文姓名之間進(jìn)行翻譯的姓名詞典和翻譯規(guī)則表的方法,包括:收集英日姓名語料庫,其包 括日文姓名及對應(yīng)的英文姓名;針對所收集的日文姓名和英文姓名,劃分日文姓名和英文 姓名;利用日文漢字發(fā)音表,將日文姓名中的日文漢字與英文姓名中的英文音節(jié)對齊,該對 齊結(jié)果作為切分結(jié)果,所述日文漢字發(fā)音表中記載了日文漢字及其對應(yīng)的一種或多種英文 字符串,所述英文字符串包括一個(gè)或多個(gè)英文音節(jié);以及根據(jù)上述對齊結(jié)果,抽取所述姓名 詞典和翻譯規(guī)則表。
[0008] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種利用上述方法抽取出的姓名詞典和 翻譯規(guī)則表來在日文姓名與英文姓名之間進(jìn)行翻譯的方法,包括:在所述姓名詞典中搜索 與待翻譯的姓名中的日語漢字/英文字符串匹配的姓和名;以及如果搜索到唯一的匹配結(jié) 果,則將該匹配結(jié)果作為翻譯結(jié)果;如果搜索到多種匹配結(jié)果,則根據(jù)所述姓名詞典中的出 現(xiàn)頻次,計(jì)算每種匹配結(jié)果的得分,選擇得分最高的匹配結(jié)果作為翻譯結(jié)果,或者按得分從 高到低的順序排列所述匹配結(jié)果。
[0009] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種利用上述方法抽取出的姓名詞典和 翻譯規(guī)則表來在日文姓名與英文姓名之間進(jìn)行翻譯的方法,包括:基于所述翻譯規(guī)則表,使 用CKY算法,進(jìn)行所述翻譯,獲得多個(gè)候選結(jié)果;根據(jù)每種候選結(jié)果中的姓和名在所述姓名 詞典中存在的多少,計(jì)算每種候選結(jié)果的得分;以及選擇得分最高的候選結(jié)果作為翻譯結(jié) 果,或者按得分從高到低的順序排列所述候選結(jié)果。
[0010] 根據(jù)本發(fā)明的另一個(gè)方面,提供了一種抽取用于在日文姓名與英文姓名之間進(jìn)行 翻譯的姓名詞典和翻譯規(guī)則表的設(shè)備,包括:收集裝置,被配置為:收集英日姓名語料庫, 其包括日文姓名及對應(yīng)的英文姓名;劃分裝置,被配置為:劃分所收集的日文姓名和英文 姓名;對齊裝置,被配置為:利用日文漢字發(fā)音表,將日文姓名中的日文漢字與英文姓名中 的英文音節(jié)對齊,該對齊結(jié)果作為切分結(jié)果,所述日文漢字發(fā)音表中記載了日文漢字及其 對應(yīng)的一種或多種英文字符串,所述英文字符串包括一個(gè)或多個(gè)英文音節(jié);以及抽取裝置, 被配置為:根據(jù)所述對齊裝置的對齊結(jié)果,抽取所述姓名詞典和翻譯規(guī)則表。
[0011] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種利用上述設(shè)備抽取出的姓名詞典和 翻譯規(guī)則表來在日文姓名與英文姓名之間進(jìn)行翻譯的裝置,包括:第一搜索單元,被配置 為:在所述姓名詞典中搜索與待翻譯的姓名中的日語漢字/英文字符串匹配的姓和名;以 及結(jié)果確定單元,被配置為:如果第一搜索單元搜索到唯一的匹配結(jié)果,則將該匹配結(jié)果作 為翻譯結(jié)果;如果第一搜索單元搜索到多種匹配結(jié)果,則根據(jù)所述姓名詞典中的出現(xiàn)頻次, 計(jì)算每種匹配結(jié)果的得分,選擇得分最高的匹配結(jié)果作為翻譯結(jié)果,或者按得分從高到低 的順序排列所述匹配結(jié)果。
[0012] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種利用上述設(shè)備抽取出的姓名詞典和 翻譯規(guī)則表來在日文姓名與英文姓名之間進(jìn)行翻譯的裝置,包括:候選獲得單元,被配置 為:基于所述翻譯規(guī)則表,使用CKY算法,進(jìn)行所述翻譯,獲得多個(gè)候選結(jié)果;得分計(jì)算單 元,被配置為:根據(jù)每種候選結(jié)果中的姓和名在所述姓名詞典中存在的多少,計(jì)算每種候選 結(jié)果的得分;以及結(jié)果確定單元,被配置為:選擇得分最高的候選結(jié)果作為翻譯結(jié)果,或者 按得分從高到低的順序排列所述候選結(jié)果。
[0013] 另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可 讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處 理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0014] 此外,根據(jù)本發(fā)明的再一方面,還提供了 一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可 執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行 根據(jù)本發(fā)明的上述方法。
【附圖說明】
[0015] 參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其 它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
[0016] 圖1示出了根據(jù)本發(fā)明的實(shí)施例的抽取姓名詞典和翻譯規(guī)則表的方法的流程圖;
[0017] 圖2示出了根據(jù)本發(fā)明的實(shí)施例的抽取翻譯規(guī)則表(步驟S4的子步驟)的方法 的流程圖;
[0018] 圖3示出了根據(jù)本發(fā)明的實(shí)施例的利用所抽取的姓名詞典和翻譯規(guī)則表進(jìn)行翻 譯的方法的流程圖;
[0019] 圖4示出了根據(jù)本發(fā)明的實(shí)施例的利用所抽取的姓名詞典和翻譯規(guī)則表進(jìn)行翻 譯的方法的流程圖;
[0020] 圖5示出了根據(jù)本發(fā)明實(shí)施例的抽取用于在日文姓名與英文姓名之間進(jìn)行翻譯 的姓名詞典和翻譯規(guī)則表的抽取設(shè)備的結(jié)構(gòu)方框圖;
[0021] 圖6示出了根據(jù)本發(fā)明實(shí)施例的利用上述設(shè)備抽取出的姓名詞典和翻譯規(guī)則表 來在日文姓名與英文姓名之間進(jìn)行翻譯的裝置的結(jié)構(gòu)方框圖;
[0022] 圖7示出了根據(jù)本發(fā)明實(shí)施例的利用上述設(shè)備抽取出的姓名詞典和翻譯規(guī)則表 來在日文姓名與英文姓名之間進(jìn)行翻譯的裝置的結(jié)構(gòu)方框圖;以及
[0023] 圖8示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
【具體實(shí)施方式】
[0024] 在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起 見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際 實(shí)施方式的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo), 例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的 不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對得益 于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0025] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述 的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[0026] 這里應(yīng)說明的是日文姓名中可以包含日文漢字,如"藤原智史",也可包含平假名 和片假名。由于平假名和片假名與英文音節(jié)的對應(yīng)關(guān)系明確,可以直接彼此轉(zhuǎn)換,所以在此 以日文姓名僅包含日文漢字的情況作為示例。對于日文姓名中包含日文漢字和平假名/片 假名的情況,本領(lǐng)域技術(shù)人員應(yīng)能理解,可將其中的平假名/片假名直接轉(zhuǎn)換為對應(yīng)的英 文音節(jié),將其余部分,即僅包含日文漢字的部分視作一個(gè)日文姓名,采用本發(fā)明的方法和設(shè) 備處理。
[0027] 此外,英文姓名是指由英文音節(jié)構(gòu)成的英文字符串,例如,"藤原智史"對應(yīng)的英文 姓名是"Fujiwara Satoshi"。而且,英文姓名中具有將英文姓氏與英文名字分隔開來的空 格等標(biāo)識(shí)符。這里的英文姓名并非諸如"Mike"之類的英語姓名,而是日文姓名對應(yīng)的英文 音節(jié)構(gòu)成的英文字符串,即日文姓名的英文表示。
[0028] 在傳統(tǒng)的技術(shù)中,對英文姓名進(jìn)行切分往往是基于規(guī)則的,并且切分與對齊是兩 個(gè)單獨(dú)的步驟,對切分的結(jié)果進(jìn)行對齊。對齊結(jié)果附加于切分結(jié)果之上。這樣的技術(shù)難以 正確地處理日文姓名的發(fā)音并非日文姓名中的日文漢字的常見發(fā)音的組合的情況。
[0029] 例如,日文姓氏"大和"應(yīng)對應(yīng)于"yamato",其中日文漢字"大"對應(yīng)于"yama","和" 對應(yīng)于"to"。實(shí)際上,"大"并沒有單獨(dú)對應(yīng)于"yama"的情況,"yama"對應(yīng)的往往是"山"。 "大和"實(shí)際上是借用了山高大的形象而發(fā)音為"yamato"。
[0030] 如果采用傳統(tǒng)的切分方法,難以將"大和"對應(yīng)于"yamato",而是切分為"大"和 "和"。再將"大"和