本發(fā)明屬于機(jī)器翻譯,具體地說,是涉及一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法、裝置及介質(zhì)。
背景技術(shù):
1、在翻譯行業(yè)中,docx格式文檔的原-譯,譯-原場(chǎng)景是很常見的導(dǎo)出場(chǎng)景。在導(dǎo)出過程中,如果腳注、尾注使用的是自動(dòng)編號(hào)(在底層數(shù)據(jù)中不是顯式的文本,由編輯器根據(jù)id進(jìn)行渲染展示),此時(shí)原譯文的自動(dòng)序號(hào)會(huì)出現(xiàn)無法對(duì)齊的情況,致使雙語場(chǎng)景下文檔還原的準(zhǔn)確性降低,例如:如圖1和2所示,在進(jìn)行雙語導(dǎo)出時(shí),腳注和尾注使用的都是自動(dòng)編號(hào)樣式,此時(shí)譯文的尾注和腳注編號(hào)被word軟件編成了2,但是實(shí)際需要的編號(hào)是和原文相同的1。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,以解決現(xiàn)有技術(shù)所存在的技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案如下:
3、一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,包括以下步驟:
4、步驟s1:提取出docx文檔中所有自動(dòng)編號(hào)的腳注以及尾注的引用標(biāo)簽;
5、步驟s2:基于所述的引用標(biāo)簽,獲取腳注、尾注的id:在footnotes.xml以及endnotes.xml文件中,每一個(gè)腳注和尾注都擁有唯一id,從0開始計(jì)數(shù);
6、步驟s3:將腳注、尾注的id轉(zhuǎn)換成對(duì)應(yīng)的字符串;
7、步驟s4:格式化標(biāo)簽:移除腳注、尾注的自動(dòng)編號(hào),在腳注、尾注中添加w:custommarkfollows標(biāo)簽,并且將值設(shè)置為1;
8、步驟s5:將所述步驟s3得到的字符串以文本標(biāo)簽的方式,插入到腳注、尾注的引用標(biāo)簽之前。
9、在一種實(shí)施方案中,所述步驟s1具體包括:
10、(1)基于document.xml文件,提取腳注和尾注的引用的標(biāo)簽:
11、(11)讀取docx文檔的document.xml文件;(12)基于document.xml文件,讀取腳注引用的標(biāo)簽w:footnotereference?和尾注引用的標(biāo)簽w:endnotereference;(13)判斷腳注和尾注是否為屬于自動(dòng)編號(hào),若是,則提取出腳注和尾注的引用的標(biāo)簽;
12、(2)基于腳注文件footnotes.xml、尾注文件endnotes.xml,提取腳注和尾注的引用的標(biāo)簽:(21)讀取docx文檔中單獨(dú)的腳注文件footnotes.xml、尾注文件endnotes.xml;(22)基于腳注文件footnotes.xml、尾注文件endnotes.xml,讀取腳注的引用標(biāo)簽w:footnoteref和尾注的引用標(biāo)簽w:endnoteref;(23)判斷腳注和尾注是否為屬于自動(dòng)編號(hào),若是,則提取出腳注和尾注的引用的標(biāo)簽。
13、在一種實(shí)施方案中,所述步驟s3具體包括:
14、步驟s3.1:讀取docx文檔底層的settings.xml文件;
15、步驟s3.2:獲取尾注的引用標(biāo)簽w:endnotepr、腳注的引用標(biāo)簽w:footnotep;
16、步驟s3.3:獲取w:numstart,獲取到腳注、尾注的起始值numstart;
17、步驟s3.4:根據(jù)公式將腳注、尾注的id轉(zhuǎn)換成實(shí)際的編號(hào),編號(hào)的計(jì)算公式為:編號(hào)=startpos+id,其中,startpos=numstart;
18、步驟s3.5:獲取w:numfmt,以獲取到腳注、尾注的格式化信息;
19、步驟s3.6:根據(jù)s3.5獲取的格式化信息對(duì)步驟s3.4中的編號(hào)進(jìn)行格式化,由此將腳注、尾注的id轉(zhuǎn)換為對(duì)應(yīng)的字符串。
20、在一種實(shí)施方案中,所述步驟s5的具體方法如下:在引用中插入一個(gè)w:t標(biāo)簽,并將所述字符串設(shè)置到w:t標(biāo)簽中。
21、在一種實(shí)施方案中,所述的引用中表示document.xml文件中對(duì)于尾注、腳注引用的位置。
22、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行,以實(shí)現(xiàn)所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法。
23、本發(fā)明還提供了一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊的裝置,包括:處理器和存儲(chǔ)器;所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器與所述存儲(chǔ)器相連,用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使得所述雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊的裝置執(zhí)行所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法。
24、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:
25、在word文檔中,出現(xiàn)自動(dòng)編號(hào)樣式的腳注以及尾注,在雙語場(chǎng)景序號(hào)會(huì)出現(xiàn)異常,采用本發(fā)明所提供之技術(shù)方案的,在保證序號(hào)準(zhǔn)確的同時(shí),對(duì)齊了原文、譯文的序號(hào),提升了雙語場(chǎng)景下文檔還原的準(zhǔn)確性。
1.一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,其特征在于,所述步驟s1具體包括:
3.根據(jù)權(quán)利要求2所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,其特征在于,所述步驟s3具體包括:
4.根據(jù)權(quán)利要求3所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,其特征在于,所述步驟s5的具體方法如下:在引用中插入一個(gè)w:t標(biāo)簽,并將所述字符串設(shè)置到w:t標(biāo)簽中。
5.根據(jù)權(quán)利要求4所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法,其特征在于,所述的引用中表示document.xml文件中對(duì)于尾注、腳注引用的位置。
6.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1~5中任一項(xiàng)所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法。
7.一種雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊的裝置,其特征在于,包括:處理器和存儲(chǔ)器;所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器與所述存儲(chǔ)器相連,用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使得所述雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊的裝置執(zhí)行如權(quán)利要求1~5中任一項(xiàng)所述的雙語場(chǎng)景下尾注、腳注自動(dòng)編號(hào)對(duì)齊方法。