欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢泰雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法_2

文檔序號(hào):9417381閱讀:來源:國知局
信息;
(3)自動(dòng)整理模塊:針對(duì)自動(dòng)提取的漢泰雙語平行信息,進(jìn)行數(shù)據(jù)過濾,并將經(jīng)過過濾處理后的漢泰雙語平行數(shù)據(jù)存放到漢泰雙語平行語料庫。
[0008]所述自動(dòng)發(fā)現(xiàn)模塊的漢泰雙語平行語料自動(dòng)發(fā)現(xiàn)工作流程為:制定一組或多組漢泰互譯關(guān)鍵詞組,通過搜索引擎獲取搜索結(jié)果,分析搜索結(jié)果并以之為目標(biāo)進(jìn)行數(shù)據(jù)獲取。
[0009]所述自動(dòng)發(fā)現(xiàn)模塊的漢泰雙語平行語料自動(dòng)發(fā)現(xiàn)設(shè)計(jì)原則為:
a.所選關(guān)鍵詞組應(yīng)為特定領(lǐng)域范圍內(nèi)的漢泰互譯詞組對(duì);
b.使用的第三方搜索引擎工具為開放式提供搜索服務(wù)方;
c.通過關(guān)鍵詞組搜索得到結(jié)果后,只保存前η頁信息,η與所選關(guān)鍵詞的熱門程度關(guān)聯(lián),保存內(nèi)容包括搜素結(jié)果URL地址、搜索結(jié)果標(biāo)題和搜索結(jié)果摘要。
[0010]所述自動(dòng)提取模塊的雙語平行語料自動(dòng)提取工作流程為:使用網(wǎng)頁機(jī)器人對(duì)目標(biāo)網(wǎng)頁進(jìn)行訪問,使用對(duì)應(yīng)的漢泰互譯關(guān)鍵詞組對(duì)目標(biāo)頁面內(nèi)容進(jìn)行內(nèi)容定位,從定位點(diǎn)開始,前后遍歷并獲取頁面數(shù)據(jù)。
[0011]所述自動(dòng)提取模塊的網(wǎng)絡(luò)雙語平行語料提取原則:
a.規(guī)定訪問的頁面文件類型只能為“!^!^”、“!^!!!”、、!^!^”以及常見的頁面文件類型,對(duì)非規(guī)定類型的頁面將不進(jìn)行訪問;
b.訪問目標(biāo)網(wǎng)頁前,網(wǎng)絡(luò)檢查目標(biāo)網(wǎng)站的robots,txt文件,若目標(biāo)頁面存在于robots, txt文件上,將不對(duì)該目標(biāo)網(wǎng)頁進(jìn)行訪問;
c.要多抽取完整雙語數(shù)據(jù),在抽取過程中,包含在目標(biāo)語言數(shù)據(jù)里的html標(biāo)簽頁將視為抽取對(duì)象。
[0012]所述自動(dòng)提取模塊的工作流程主要包含以下幾個(gè)步驟:
(1)非目標(biāo)語言信息過濾:分別對(duì)采集到的漢泰數(shù)據(jù)進(jìn)行字符過濾,主要過濾html標(biāo)簽、網(wǎng)頁代碼和一些非語言符號(hào),去除采集信息中的噪音數(shù)據(jù),得到干凈的漢泰雙語平行數(shù)據(jù);
(2)漢泰分詞過程:使用漢語和泰語分詞工具,對(duì)漢語和泰語數(shù)據(jù)進(jìn)行分詞操作,為后面的數(shù)據(jù)處理過程提供基礎(chǔ)。
[0013]所述自動(dòng)整理模塊的工作流程主要包含以下幾個(gè)步驟:
(I)長度比和互譯匹配率計(jì)算:針對(duì)自動(dòng)抽取的數(shù)據(jù)進(jìn)行有效過濾,分別對(duì)抽取回來的漢泰雙語平行數(shù)據(jù)中的每一組雙語數(shù)據(jù)進(jìn)行長度比和互譯匹配率的計(jì)算,將長度差距較大的數(shù)據(jù)進(jìn)行過濾,并進(jìn)行漢泰雙語平行數(shù)據(jù)的互譯匹配判斷,篩選出正確的平行數(shù)據(jù);
(2 )將經(jīng)過處理后的漢泰雙語平行數(shù)據(jù)將存放入漢泰雙語平行語料庫。
[0014]所述漢泰雙語平行語料自動(dòng)采集系統(tǒng)的實(shí)現(xiàn)方法為:設(shè)置數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器和外網(wǎng)交換機(jī)、內(nèi)網(wǎng)交換機(jī),將自動(dòng)發(fā)現(xiàn)模塊嵌入數(shù)據(jù)采集服務(wù)器,自動(dòng)提取模塊、自動(dòng)整理模塊嵌入數(shù)據(jù)處理服務(wù)器,為保證數(shù)據(jù)安全,使用內(nèi)外網(wǎng)物理隔離。當(dāng)數(shù)據(jù)采集服務(wù)器需要訪問互聯(lián)網(wǎng)時(shí),數(shù)據(jù)采集服務(wù)器將與外網(wǎng)交換機(jī)連接,并斷開與內(nèi)網(wǎng)交換機(jī)的連接。當(dāng)數(shù)據(jù)采集服務(wù)器需要訪問內(nèi)網(wǎng)時(shí),數(shù)據(jù)采集服務(wù)器將與內(nèi)網(wǎng)交換機(jī)連接,并斷開與外網(wǎng)交換機(jī)的連接。外網(wǎng)交換機(jī)實(shí)現(xiàn)外網(wǎng)間的通訊。內(nèi)網(wǎng)交換機(jī)實(shí)現(xiàn)內(nèi)網(wǎng)間的通訊。
[0015]數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機(jī)連接,使數(shù)據(jù)采集服務(wù)器能訪問到互聯(lián)網(wǎng)服務(wù)。數(shù)據(jù)采集人員使用外網(wǎng)臺(tái)式計(jì)算機(jī)編排需要采集數(shù)據(jù)的相關(guān)關(guān)鍵詞組。確定采集任務(wù)后,向數(shù)據(jù)采集服務(wù)器發(fā)送啟動(dòng)自動(dòng)采集請(qǐng)求;數(shù)據(jù)采集服務(wù)器接收臺(tái)式電腦傳輸?shù)年P(guān)鍵詞組數(shù)據(jù)和任務(wù)啟動(dòng)命令后,開始運(yùn)行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)程序。通過互聯(lián)網(wǎng)獲取所有關(guān)鍵詞組的搜索結(jié)果后,將搜索結(jié)果保存到本地;數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機(jī)斷開連接,并與內(nèi)網(wǎng)交換機(jī)連接。數(shù)據(jù)采集人員啟動(dòng)數(shù)據(jù)處理服務(wù)器中的數(shù)據(jù)自動(dòng)提取和自動(dòng)整理程序,數(shù)據(jù)處理服務(wù)器讀取存儲(chǔ)在數(shù)據(jù)采集服務(wù)器中的搜索結(jié)果,進(jìn)行數(shù)據(jù)自動(dòng)提取和自動(dòng)整理。程序完成工作后,將獲取到的所有的雙語數(shù)據(jù)保存于數(shù)據(jù)存儲(chǔ)服務(wù)器。
[0016]本文的漢泰雙語是指漢語和泰語。
[0017]漢語(Hdmyii)又稱“華語”,是漢族的母語,亦是中華人民共和國和新加坡的官方語言、聯(lián)合國官方語言,也是世界上使用人數(shù)最多的語言,主要流通于中國、新加坡、馬來西亞,以及緬甸、泰國、美國、加拿大、澳大利亞、新西蘭、日本等國家的海外華人社區(qū)。也是馬來西亞、緬甸、美國、加拿大、澳洲、新西蘭等國家的通用少數(shù)民族語言。
[0018]泰語(????ΠvIviEJ),舊稱暹羅語(Siamese),泰族的語言。屬漢藏語系壯侗語族壯傣語支。使用人口約5000萬。有中部、北部、東北部和南部等4個(gè)方言區(qū)。曼谷話是泰語的標(biāo)準(zhǔn)語。泰語是一種分析型、孤立型語言,基本詞匯以單音節(jié)詞居多,不同的聲調(diào)有區(qū)分詞匯和語法的作用。構(gòu)詞中廣泛使用合成和重疊等手段。泰語中吸收了大量的梵語、巴利語和相當(dāng)數(shù)量的孟語、高棉語、漢語、馬來語和英語借詞。
[0019]本發(fā)明的突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步是:
1、本發(fā)明提供的一種漢泰雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法,充分利用網(wǎng)頁漢泰雙語平行語料自動(dòng)發(fā)現(xiàn)技術(shù)、網(wǎng)頁漢泰雙語平行語料自動(dòng)提取技術(shù)和網(wǎng)頁漢泰雙語平行語料過濾技術(shù),形成漢泰雙語平行語料的自動(dòng)采集的系統(tǒng);
2、本發(fā)明使用的方案能從海量的互聯(lián)網(wǎng)信息中收集有價(jià)值的漢泰雙語平行語料并進(jìn)行分析研究,為漢泰語言研究和機(jī)器翻譯應(yīng)用提供重要基礎(chǔ)數(shù)據(jù),解決了語料采集人員和研究人員所面臨的數(shù)據(jù)來源的問題,為雙語語料自動(dòng)采集的發(fā)展和漢泰自然語言處理做出了杰出的貢獻(xiàn); 3、平行語料庫是語料庫的一種重要類型,漢泰平行語料庫的建設(shè)目前還是空白,本發(fā)明的一種漢泰雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法,其中包括漢泰雙語平行信息自動(dòng)發(fā)現(xiàn)、自動(dòng)提取和自動(dòng)整理,可以在語言對(duì)比、翻譯研究、語言教學(xué)和詞典編纂方面發(fā)揮獨(dú)特作用;
4、應(yīng)用本發(fā)明所提供的方案,能夠獲取兩種語言之間的平行語料,從而解決語言之間語料資源稀缺的問題,并且有利于獲得較高質(zhì)量的翻譯規(guī)則以構(gòu)建統(tǒng)計(jì)機(jī)器翻譯系統(tǒng);
5、在翻譯課教學(xué)中,利用本發(fā)明的平行語料庫,可以提供豐富的譯例,確定多種譯文的可能性,并擇優(yōu)選擇,根據(jù)平行語料庫信息還可以用來驗(yàn)證雙語詞典、教學(xué)詞典、語法書中的例證、定義、使用規(guī)則和使用環(huán)境,從而確定教學(xué)重點(diǎn);
6、漢泰雙語平行語料庫建設(shè)與獲取存在著很大的困難,雖然投入了大量的人力、物力和財(cái)力,但是漢泰雙語平行語料庫的來源主要集中在政府報(bào)告、新聞法律等特定領(lǐng)域,不適合真實(shí)文本應(yīng)用,鑒于互聯(lián)網(wǎng)上的大規(guī)模雙語文本并且具有很好的時(shí)效性和覆蓋性,本發(fā)明使用的系統(tǒng)和方法能從海量的互聯(lián)網(wǎng)信息中收集有價(jià)值的漢泰雙語平行語料并進(jìn)行分析研究,并建成漢泰雙語平行語料庫,推動(dòng)相關(guān)技術(shù)發(fā)展和實(shí)用化具有重要的意義;
7、利用本發(fā)明的系統(tǒng)收集到相關(guān)的雙語數(shù)據(jù)與旅游景點(diǎn)、博物館、科技展覽館等的電子導(dǎo)覽設(shè)備連接,能夠把景區(qū)和陳列展示的物品圖文并茂的用雙語對(duì)照的形式表現(xiàn)出來,使游客在邊看邊聽中,汲取知識(shí),了解內(nèi)涵,享受文化,游客們可以充分了解觀賞對(duì)象深厚的文化底蘊(yùn),同時(shí),景點(diǎn)、展品的豐富內(nèi)涵在對(duì)照瀏覽后得到升華。
【附圖說明】
[0020]圖1是本發(fā)明漢泰雙語平行語料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法的系統(tǒng)結(jié)構(gòu)圖;
圖2是本發(fā)明漢泰雙語平行語料自動(dòng)采集的方法的流程圖;
圖3是本發(fā)明漢泰雙語平行語料過濾的方法的流程圖;
圖4是作為本發(fā)明的實(shí)施例中所采用的信息處理設(shè)備的個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖;
圖5是本發(fā)明系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。
【具體實(shí)施方式】
[0021]
在下面的說明書部分中給出本發(fā)明實(shí)施例的具體實(shí)現(xiàn)方式,其中,詳細(xì)說明用于充分地公開本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
[0022]如圖1所示,一種漢泰雙語平行語料自動(dòng)采集的系統(tǒng),包括漢泰雙語平行信息的自動(dòng)發(fā)現(xiàn)、自動(dòng)提取、自動(dòng)整理,首先是漢泰雙語平行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)過程,制定需要采集語料的關(guān)鍵詞組,通過搜索引擎搜索網(wǎng)站,采集網(wǎng)頁得到搜索結(jié)果,對(duì)搜索結(jié)果的信息進(jìn)行過濾和篩選后,將經(jīng)過濾得搜索結(jié)果存儲(chǔ)于搜索結(jié)果數(shù)據(jù)庫;其次是漢泰雙語平行語料自動(dòng)提取過程,通過訪問搜索結(jié)果數(shù)據(jù)庫里的網(wǎng)頁,自動(dòng)提取漢泰雙語平行信息;最后是漢泰雙語平行語料自動(dòng)整理過程,針對(duì)自動(dòng)提取的漢泰雙語平行信息,進(jìn)行數(shù)據(jù)過濾,并將經(jīng)過過濾處
當(dāng)前第2頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴林左旗| 离岛区| 当雄县| 新竹县| 焉耆| 嵩明县| 平湖市| 林周县| 潞西市| 清丰县| 揭东县| 通化县| 天台县| 三明市| 竹北市| 平度市| 栖霞市| 保靖县| 缙云县| 宜良县| 临洮县| 如东县| 连江县| 彭泽县| 永平县| 淮北市| 武夷山市| 绥芬河市| 曲松县| 垦利县| 安庆市| 镶黄旗| 娄底市| 江陵县| 尼勒克县| 安平县| 蕉岭县| 东阿县| 鹤庆县| 若羌县| 嘉定区|