專利名稱::圖像文字翻譯裝置及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種圖像文字翻譯裝置及方法。
背景技術(shù):
:目前,我們所面對(duì)的是一個(gè)多語(yǔ)種的環(huán)境,不同國(guó)家之間的人們彼此的交流越來(lái)越頻繁,出國(guó)旅游、購(gòu)物、交友,不可避免的需要接觸很多種未曾學(xué)習(xí)的外語(yǔ)。例如,一個(gè)不懂任何外語(yǔ)的旅游者去往法國(guó)旅游,無(wú)法看懂路標(biāo)、菜單、景點(diǎn)介紹等等,如此造成諸多不便。光學(xué)字符識(shí)別(OpticalCharacterRecognition,OCR)技術(shù)的發(fā)展,可以在一定程度上實(shí)現(xiàn)文本圖像信息的自動(dòng)獲取,其通常用于將紙本文件經(jīng)過(guò)掃描成電子文件,并對(duì)該電子文件進(jìn)行處理以識(shí)別其中的文字內(nèi)容。然而,生活場(chǎng)景中的很多外文字無(wú)法通過(guò)紙本掃描的方式進(jìn)行操作。
發(fā)明內(nèi)容鑒于以上內(nèi)容,有必要提供一種圖像文字翻譯裝置,其可實(shí)時(shí)拍攝不同語(yǔ)言的圖像數(shù)據(jù),通過(guò)對(duì)圖像中的文字進(jìn)行識(shí)別與翻譯以獲取文字信息。此外,還有必要提供一種圖像文字翻譯方法,其可實(shí)時(shí)拍攝不同語(yǔ)言的圖像數(shù)據(jù),通過(guò)對(duì)圖像中的文字進(jìn)行識(shí)別與翻譯以獲取文字信息。一種圖像文字翻譯裝置,其包括存儲(chǔ)單元,用于存儲(chǔ)多個(gè)字庫(kù),其中每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型;圖像輸入單元,用于攫取圖像,提供翻譯模式供用戶選擇,確認(rèn)所攫取圖像中的文字所屬的類型,并指定翻譯語(yǔ)言;文字識(shí)別單元,用于分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,從該文本資料中提取文字物件,將文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與所確認(rèn)的文字類型對(duì)應(yīng)的字庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)從而識(shí)別文字;及語(yǔ)言翻譯單元,用于將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。一種圖像文字翻譯方法,該方法包括如下步驟提供一個(gè)存儲(chǔ)單元以存儲(chǔ)多個(gè)字庫(kù),其中每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型;攫取圖像,并提供翻譯模式供用戶選擇以對(duì)所攫取圖像中的文字進(jìn)行翻譯;確認(rèn)所攫取圖像中的文字所屬的類型,并提供多個(gè)翻譯語(yǔ)言供用戶指定;分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,并從該文本資料中提取文字物件;將文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與所確認(rèn)的文字類型對(duì)應(yīng)的字庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)從而識(shí)別文字;及將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。相較于現(xiàn)有技術(shù),所述的圖像文字翻譯裝置及方法,其可實(shí)時(shí)拍攝不同語(yǔ)言的圖像數(shù)據(jù),通過(guò)對(duì)圖像中的文字進(jìn)行識(shí)別與翻譯以知悉文字信息。此外,該圖像文字翻譯裝置及方法還可為數(shù)字移動(dòng)產(chǎn)品增加附加價(jià)值。圖l是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的功能模塊圖。圖2是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的翻譯界面示意圖。圖3是本發(fā)明圖像文字翻譯方法的較佳實(shí)施例的流程圖。圖4是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的數(shù)據(jù)流向示意圖。具體實(shí)施例方式如圖1所示,是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的功能模塊圖。本較佳實(shí)施例的圖像文字翻譯裝置l可以安裝在各類電子裝置中,例如計(jì)算機(jī),尤其適用于移動(dòng)式電子裝置,例如移動(dòng)電話、數(shù)碼相機(jī)、數(shù)碼攝影機(jī)、筆記本電腦、PDA(PersonalDigitalAssistant,個(gè)人數(shù)字助理)等。所述的圖像文字翻譯裝置l提供一個(gè)操作界面給用戶進(jìn)行相關(guān)操作,例如,獲取圖像、選擇獲取圖像的模式、對(duì)圖像中包括的文字進(jìn)行翻譯、査看翻譯結(jié)果等操作。所述的圖像文字翻譯裝置10主要包括五個(gè)功能模塊,分別是存儲(chǔ)單元IO、圖像輸入單元12、文字識(shí)別單元14、語(yǔ)言翻譯單元16及顯示單元18。在本較佳實(shí)施例中,以一個(gè)具備攝像頭的移動(dòng)電話為例,該圖像文字翻譯裝置l安裝在該移動(dòng)電話中。用戶在需要利用圖像文字翻譯裝置10翻譯某件事物上的文字時(shí),例如菜單上的菜肴名稱、旅游地點(diǎn)的地理標(biāo)示、書(shū)籍中的文字等等,可先通過(guò)圖像輸入單元12拍攝包括待翻譯文字的圖像并利用文字識(shí)別單元14及語(yǔ)言翻譯單元16對(duì)圖像中的文字進(jìn)行翻譯。所述的存儲(chǔ)單元10用于存儲(chǔ)多個(gè)字庫(kù),其中每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型。例如,存儲(chǔ)單元10所存儲(chǔ)的字庫(kù)包括漢字字庫(kù)、英文字庫(kù)、符號(hào)字庫(kù)、德語(yǔ)字庫(kù)等,每一字庫(kù)對(duì)應(yīng)一個(gè)文字類型。字庫(kù)中包括不同文字的內(nèi)碼(也可稱為機(jī)內(nèi)碼),用于機(jī)器內(nèi)部對(duì)文字進(jìn)行存儲(chǔ)與處理,例如,計(jì)算機(jī)、移動(dòng)電話、PDA等對(duì)漢字進(jìn)行存儲(chǔ)與處理的是漢字內(nèi)碼。此外,漢字字庫(kù)中還包括漢字字型碼(也叫字?;驖h字輸出碼)以確定一個(gè)漢字字形點(diǎn)陣的代碼。一個(gè)漢字字型碼的信息占若干字節(jié),所占字節(jié)數(shù)由漢字的字形決定。以計(jì)算機(jī)對(duì)漢字的存儲(chǔ)為例,漢字和圖形符號(hào)在計(jì)算機(jī)中通常是用點(diǎn)陣來(lái)描述的,其中,點(diǎn)陣是一組二進(jìn)制數(shù)。一個(gè)m行n列的點(diǎn)陣共有mXn個(gè)點(diǎn)。每個(gè)點(diǎn)可以是"黑"點(diǎn)或"白"點(diǎn),用二進(jìn)制位值O表示點(diǎn)陣中對(duì)應(yīng)點(diǎn)為"白"點(diǎn),而位值l表示對(duì)應(yīng)點(diǎn)為"黑"點(diǎn)。一個(gè)漢字在存儲(chǔ)時(shí)所占用的字節(jié),是由該漢字的點(diǎn)陣信息決定。例如,對(duì)于16X16點(diǎn)陣的漢字來(lái)說(shuō),一個(gè)漢字的點(diǎn)陣信息共有16行,每一行上有16個(gè)點(diǎn),每一行上的16個(gè)點(diǎn)需要用兩個(gè)字節(jié)來(lái)存放,因此,一個(gè)16X16點(diǎn)陣的漢字字形需要用32個(gè)字節(jié)來(lái)存放。該存儲(chǔ)單元10可以是任何一種存儲(chǔ)裝置,例如閃存(FlashMemory)、硬盤(pán)(HD)等所述的圖像輸入單元12用于攫取圖像以輸入到圖像文字翻譯裝置10中。該圖像輸入單元12可以是拍攝裝置,例如攝像頭,也可以是掃描裝置,例如與計(jì)算機(jī)連接的掃描儀器等。經(jīng)由圖像輸入單元12所獲取的圖像可存儲(chǔ)為不同的格式,例如BMP(位圖文件)、JPG(使用JPEG文件交換格式存儲(chǔ)的編碼圖像文件)、GIF(可交換的圖像文件)、PNG(PortableNetworkGraphic,可移植的網(wǎng)絡(luò)圖象文件格式)等。用戶可通過(guò)圖像輸入單元12拍攝所有包括待翻譯文字的事物以生成二維圖像,并通過(guò)顯示單元18呈現(xiàn)給用戶。所述的圖像輸入單元12在攫取圖像時(shí)提供多種模式供用戶進(jìn)行選擇,例如圖2所示的模式選擇界面30中列舉了三種拍攝模式,分別是戶外模式、室內(nèi)模式以及翻譯模式。若用戶選擇戶外模式以及室內(nèi)模式,則圖像輸入單元12僅對(duì)圖像進(jìn)行拍攝及存儲(chǔ);若用戶選擇翻譯模式,則圖像輸入單元12在進(jìn)行圖像拍攝與存儲(chǔ)后,還將該圖像傳輸至文字識(shí)別單元14及語(yǔ)言翻譯單元16對(duì)圖像中的文字進(jìn)行辨識(shí)與翻譯。其中,不同的拍攝模式下可對(duì)分辨率等進(jìn)行不同等級(jí)的設(shè)置。此外,所述的圖像輸入單元12還用于通過(guò)用戶的選擇以確認(rèn)所攫取圖像中的文字所屬的類型,以及提供多個(gè)翻譯語(yǔ)言供用戶指定。其中,該翻譯語(yǔ)言是為后續(xù)對(duì)識(shí)別后的文字進(jìn)行翻譯,其可預(yù)先指定為用戶母語(yǔ),例如中文簡(jiǎn)體,或者根據(jù)用戶情況進(jìn)行調(diào)整。例如,若用戶在法國(guó)旅行時(shí)無(wú)法識(shí)別路標(biāo),其可利用圖像輸入單元12拍攝該路標(biāo),選擇拍攝模式為翻譯模式,選擇圖像中的文字類型為法語(yǔ),并通過(guò)圖像輸入單元12選擇翻譯語(yǔ)言為簡(jiǎn)體中文,則文字識(shí)別單元14與語(yǔ)言翻譯單元16進(jìn)行后續(xù)的識(shí)別與翻譯動(dòng)作。所述的文字識(shí)別單元14用于分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,從該文本資料中提取文字物件,將文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與所確認(rèn)的文字類型對(duì)應(yīng)的字庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)從而識(shí)別文字。其中,分析圖像包括對(duì)圖像的格式進(jìn)行分析。此外,所述的文字識(shí)別單元14還用于對(duì)圖像進(jìn)行版面分析及定位,例如判別圖像內(nèi)文字是橫排文本區(qū)、豎排文本區(qū)、表格區(qū)還是圖像區(qū),從而將識(shí)別后的文字依序排列。對(duì)于漢字、英文與數(shù)字的識(shí)別,該文字識(shí)別單元14可自動(dòng)識(shí)別宋、仿宋、楷、隸書(shū)、行楷等中文簡(jiǎn)繁體、英文、數(shù)字、表格、圖片混排的稿件,識(shí)別出來(lái)的文字內(nèi)碼可以是GB碼、BIG5碼、GBK碼。所述的語(yǔ)言翻譯單元16用于將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。所述的顯示單元18用于顯示各類數(shù)據(jù),例如攫取的圖像、識(shí)別后的文字、翻譯結(jié)果等數(shù)據(jù)。該顯示單元18可以是液晶顯示屏、也可以是LED(發(fā)光二級(jí)管,Light-EmittingDiode)熒幕等顯示裝置。所述的存儲(chǔ)單元10還用于儲(chǔ)存其他各類數(shù)據(jù),包括攫取的圖像、識(shí)別后的文字、翻譯結(jié)果等數(shù)據(jù)。如圖2所示,是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的翻譯界面示意圖。用戶在對(duì)圖像進(jìn)行拍攝之前,首先需在圖像輸入單元12所提供的模式選擇界面30中選擇一種拍攝模式,例如,該模式選擇界面30列舉了三種拍攝模式,分別是戶外模式、室內(nèi)模式以及翻譯模式。若用戶選擇戶外模式以及室內(nèi)模式,則圖像輸入單元12僅對(duì)圖像進(jìn)行拍攝及存儲(chǔ);若用戶選擇翻譯模式,則圖像輸入單元12在進(jìn)行圖像拍攝與存儲(chǔ)后,還將該圖像傳輸至文字識(shí)別單元14及語(yǔ)言翻譯單元16對(duì)圖像中的文字進(jìn)行辨識(shí)與翻譯。在其它實(shí)施例中,可包括更多的拍攝模式供用戶進(jìn)行選擇。選擇翻譯模式,通過(guò)圖像輸入單元12確定該圖像中文字所屬的類型以及翻譯語(yǔ)言,繼而將拍攝下圖像傳送至文字識(shí)別單元14。該文字識(shí)別單元將圖像的格式轉(zhuǎn)換為可編輯文本資料后從該文本資料中提取文字物件,并識(shí)別該文字物件中的文字,如界面32所示即為識(shí)別后的文字,例如"Howareyou"。識(shí)別后的文字將傳送至語(yǔ)言翻譯單元16進(jìn)行翻譯,界面34顯示翻譯正在后臺(tái)進(jìn)行中,若得出翻譯結(jié)果,則通過(guò)界面36顯示該翻譯結(jié)果,例如對(duì)"Howareyou"的翻譯結(jié)果是"你好嗎?"。如圖3所示,是本發(fā)明圖像文字翻譯方法的較佳實(shí)施例的流程圖。首先,步驟S2,提供一個(gè)存儲(chǔ)單元10以存儲(chǔ)多個(gè)字庫(kù),其中每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型。步驟S4,用戶通過(guò)圖像輸入單元12所提供的拍攝模式中選擇翻譯模式,該圖像輸入單元12攫取相關(guān)事物的圖像。步驟S6,圖像輸入單元12通過(guò)用戶的選擇以確認(rèn)所攫取圖像中的文字所屬的類型,以及提供多個(gè)翻譯語(yǔ)言供用戶指定,繼而將所攫取的圖像傳送至文字識(shí)別單元14以對(duì)圖像中的文字進(jìn)行識(shí)別,以及存儲(chǔ)該圖像至存儲(chǔ)單元10中。該翻譯語(yǔ)言可預(yù)先指定為用戶母語(yǔ),例如中文簡(jiǎn)體,或者根據(jù)用戶情況進(jìn)行調(diào)整。例如,圖象中的文字為"MENU",則用戶可選擇文字類型為"英文",并指定翻譯語(yǔ)言為簡(jiǎn)體中文。步驟S8,文字識(shí)別單元14分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,并從該文本資料中提取文字物件。其中,分析圖像包括對(duì)圖像的存儲(chǔ)格式進(jìn)行分析。步驟SIO,文字識(shí)別單元14將提取的文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與存儲(chǔ)單元10中的字庫(kù)進(jìn)行比對(duì)從而識(shí)別文字。此外,該文字識(shí)別單元14還可對(duì)圖像進(jìn)行版面分析及定位,例如判別圖像內(nèi)文字是橫排文本區(qū)、豎排文本區(qū)、表格區(qū)還是圖像區(qū),從而將識(shí)別后的文字依序排列。步驟S12,語(yǔ)言翻譯單元16將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。步驟S14,顯示單元18顯示翻譯結(jié)果,并結(jié)束本流程。該翻譯結(jié)果可存儲(chǔ)至存儲(chǔ)單元IO中。如圖4所示,是本發(fā)明圖像文字翻譯裝置的較佳實(shí)施例的數(shù)據(jù)流向示意圖。首先,圖像輸入單元12通過(guò)拍攝等方式獲取圖像來(lái)源20的二維圖像22,該圖像來(lái)源20可以是任何事物,例如路標(biāo)、菜單、書(shū)籍、名片等物,并且用戶在利用圖像輸入單元12攫取圖像22之前需選擇"翻譯模式"。文字識(shí)別單元14分析所攫取的圖像22,轉(zhuǎn)換圖像22的格式為可編輯的文本資料并從中提取文字物件,以及將文字物件轉(zhuǎn)化為內(nèi)碼以識(shí)別文字24。語(yǔ)言翻譯單元16將識(shí)別出的文字24翻譯成指定語(yǔ)言并得出翻譯結(jié)果26。最終,顯示單元18將翻譯結(jié)果26呈現(xiàn)給用戶權(quán)利要求1.一種圖像文字翻譯裝置,其特征在于,該裝置包括存儲(chǔ)單元,用于存儲(chǔ)多個(gè)字庫(kù),其中每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型;圖像輸入單元,用于攫取圖像,提供翻譯模式供用戶選擇,確認(rèn)所攫取圖像中的文字所屬的類型,并指定翻譯語(yǔ)言;文字識(shí)別單元,用于分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,從該文本資料中提取文字物件,將文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與所確認(rèn)的文字類型對(duì)應(yīng)的字庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)從而識(shí)別文字;及語(yǔ)言翻譯單元,用于將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。6如權(quán)利要求4所述的圖像文字翻譯方法,其特征在于,該方法在分析步驟之前還包括如下步驟對(duì)所攫取的圖像進(jìn)行版面分析及定位。全文摘要一種圖像文字翻譯裝置,其包括存儲(chǔ)單元,用于存儲(chǔ)多個(gè)字庫(kù),每個(gè)字庫(kù)對(duì)應(yīng)一個(gè)文字類型;圖像輸入單元,用于攫取圖像,提供翻譯模式供用戶選擇以對(duì)所攫取圖像中的文字進(jìn)行翻譯,確認(rèn)所攫取圖像中的文字所屬的類型,并指定翻譯語(yǔ)言;文字識(shí)別單元,用于分析所攫取的圖像,轉(zhuǎn)換圖像的格式為可編輯的文本資料,從該文本資料中提取文字物件,將文字物件轉(zhuǎn)化為內(nèi)碼,并將該內(nèi)碼與所確認(rèn)的文字類型對(duì)應(yīng)的字庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)從而識(shí)別文字;及語(yǔ)言翻譯單元,用于將識(shí)別出的文字翻譯成指定語(yǔ)言并得出翻譯結(jié)果。本發(fā)明還提供一種圖像文字翻譯方法。利用本發(fā)明可實(shí)時(shí)翻譯不同語(yǔ)言的圖像數(shù)據(jù),以識(shí)別圖像中的文字信息。文檔編號(hào)G06F17/28GK101408874SQ20071020198公開(kāi)日2009年4月15日申請(qǐng)日期2007年10月9日優(yōu)先權(quán)日2007年10月9日發(fā)明者毛華仁申請(qǐng)人:深圳富泰宏精密工業(yè)有限公司;奇美通訊股份有限公司