基于文字識別的移動增強現(xiàn)實閱讀方法及其閱讀系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種增強現(xiàn)實系統(tǒng)技術(shù),特別涉及一種基于文字識別的移動增強現(xiàn)實閱讀方法及其閱讀系統(tǒng)。
【背景技術(shù)】
[0002]在以往的書籍、報刊閱讀模式中,人們所獲得的信息僅僅來自于所讀的書報,獲取的信息量較少并且具有局限性,對于所感興趣的內(nèi)容若想了解更多信息,通常需要在PC端或者移動端的搜索引擎中輸入關(guān)鍵字進行搜索。這種模式操作繁瑣,閱讀者與所讀書報之間的交互性較差。
[0003]鑒于上述閱讀模式存在的問題,本發(fā)明提出一種結(jié)合文字識別、知識庫匹配技術(shù)的增強現(xiàn)實(Augmented Reality,簡稱AR)技術(shù),將相關(guān)的文字、圖像、視頻精確疊加到讀者閱讀的文字內(nèi)容上,幫助讀者在閱讀的過程中方便快捷的獲得更多的信息,并且使得閱讀信息的類型更加多元化。
[0004]所謂增強現(xiàn)實技術(shù),是一種將真實世界信息和虛擬世界信息無縫集成的技術(shù)。傳統(tǒng)的基于移動設(shè)備的增強現(xiàn)實技術(shù),是通過手機攝像頭拍攝圖像,并將該現(xiàn)實世界的圖像和預先保存在后臺數(shù)據(jù)庫中存儲的圖像進行比對,如果能找到相匹配的圖像,則將和該圖像相關(guān)的文字、視頻或圖像的虛擬信息疊加顯示在手機攝像頭的預覽窗口中,讓用戶看到真實世界的圖像和虛擬信息無縫的疊加在一起,從而使得用戶可以獲得更多的信息并且擁有超越現(xiàn)實的感官體驗,對現(xiàn)實擁有更多的了解。增強現(xiàn)實技術(shù)在電子雜志、海報宣傳、虛擬家具展示等方面有著較好的應(yīng)用。
[0005]然而現(xiàn)有的增強現(xiàn)實技術(shù),一般需要后臺數(shù)據(jù)庫預先保存并處理用于產(chǎn)生增強現(xiàn)實效果的圖像,只有當拍攝到的圖像包含這些預先設(shè)定的圖像的時候,才顯示相應(yīng)的增強現(xiàn)實內(nèi)容。這種以圖像作為識別和匹配載體的方式,一方面在服務(wù)端需要預先錄入和存儲大量的提供匹配的圖像數(shù)據(jù),存儲代價較大,前期圖像錄入準備工作繁瑣;另一方面,由于只能對預設(shè)的圖像才能識別并產(chǎn)生增強現(xiàn)實效果,移動增強實現(xiàn)終端只能在非常受限的特定的圖像場景下發(fā)揮作用,較大制約了增強現(xiàn)實技術(shù)的廣泛應(yīng)用。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的首要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于文字識別的移動增強現(xiàn)實閱讀方法。
[0007]本發(fā)明的另一目的于克服現(xiàn)有技術(shù)的缺點與不足,提供一種應(yīng)用于基于文字識別的移動增強現(xiàn)實閱讀系統(tǒng)的閱讀系統(tǒng),該系統(tǒng)是一種結(jié)合文字識別、知識庫匹配的移動增強現(xiàn)實閱讀系統(tǒng)。
[0008]本發(fā)明的首要目的通過下述技術(shù)方案實現(xiàn):一種應(yīng)用于基于文字識別的移動增強現(xiàn)實閱讀系統(tǒng)的閱讀方法,包括以下步驟:
[0009]S1.移動設(shè)備獲取所拍攝到的包含文字的圖像P。
[0010]S2.移動設(shè)備對步驟SI獲得的圖像P進行預處理得到圖像P’,然后上傳到服務(wù)器。
[0011]S3.服務(wù)器對接收到的圖像P’進行文字檢測和識別,獲得文字集合{胃^以及各個文字出現(xiàn)在圖像P’中的位置信息{L0Ci}。其中Wi表示檢測到的第i個文字,Loci表示該文字出現(xiàn)在圖像P’中的位置。
[0012]S4.服務(wù)器根據(jù)預定義關(guān)鍵字詞典,對步驟S3中獲取的圖像P’中的文字進行關(guān)鍵字匹配,獲得關(guān)鍵字集合{Tj},以及各個關(guān)鍵字出現(xiàn)在圖像P’中的位置{PoSj}。其中Tj表示檢測到的第j個關(guān)鍵字,Posj表示該關(guān)鍵字Tj出現(xiàn)在圖像P’中的位置。
[0013]S5.服務(wù)器根據(jù)步驟S4所獲得的每個關(guān)鍵字Tj,在知識庫中進行檢索和Tj相關(guān)的多媒體資源集合Sj。并將檢索結(jié)果集合{(Tj,Sj,Posj)}回傳給移動設(shè)備。其中Posj是關(guān)鍵字Tj出現(xiàn)在圖像P’中的位置。
[0014]36.移動終端針對每組接收到的結(jié)果(1'」,3」,?0~),將多媒體資源3」,精確疊加在步驟SI所獲得的圖像P的Posj位置上。
[0015]前述步驟SI具體為:利用移動設(shè)備的攝像頭,對包含有文字的閱讀材料進行拍攝,獲得圖像P.
[0016]前述步驟S2具體為:移動設(shè)備對圖像P調(diào)整分辨率,并進行圖像增強及二值化處理,得到圖像P’,然后上傳到服務(wù)器。
[0017]前述步驟S3具體為:服務(wù)器在在獲得圖像P’后,檢測P’中的文字區(qū)域,從而獲得每個文字處在圖像中的位置。并調(diào)用基于光學字符識別(OCR)技術(shù)的文字識別引擎識別文字區(qū)域中的文字。
[0018]前述步驟S4具體為:關(guān)鍵字詞典的生成方法是:對于事先收集到的大量資源(包括文章、圖片、視頻等),將各類資源的標題或名稱利用具有中文分詞、詞性標注、命名實體識另O、新詞識別等功能的漢語詞法分析器抽取出其中的關(guān)鍵性名詞作為關(guān)鍵字,并添加到關(guān)鍵字詞典中。關(guān)鍵字詞典中的關(guān)鍵字按照熱度排序。在進行關(guān)鍵字匹配時,對步驟S3中的獲取的圖像P’中的文字序列先進行中文分詞,然后對所獲得的每個詞,在關(guān)鍵字詞典中進行查找;最后保留在關(guān)鍵字詞典中出現(xiàn)的詞作為關(guān)鍵字,構(gòu)成了關(guān)鍵字集合ITj。每個關(guān)鍵字Tj的位置Posj定義為該關(guān)鍵字的第一個文字在圖像P’中的位置。
[0019]前述步驟S5具體為:服務(wù)器根據(jù)步驟S4所獲得的每個關(guān)鍵字Tp在知識庫中進行檢索和乃相關(guān)的多媒體資源集合Sj。知識庫中記錄的多媒體資源信息可以是文字、圖片、視頻或者三維模型,信息來源可以是對萬維網(wǎng)的網(wǎng)頁采集或者是特定機構(gòu)的內(nèi)部資源。知識庫采用倒排表索引的方式對資源的描述信息進行索引,并支持基于關(guān)鍵字的全文檢索。
[0020]前述步驟S6具體為:資源疊加的具體方法是,移動終端針對每組接收到的結(jié)果(ThShP0Sj),在圖像P中位置PosJi近的區(qū)域進行高亮突出顯示,提示讀者這是可以點擊的區(qū)域。當讀者點擊該區(qū)域的時候,該區(qū)域附近將顯示和關(guān)鍵字Tj相關(guān)聯(lián)的資源信息S」。
[0021]本發(fā)明的另一目的通過下述技術(shù)方案實現(xiàn):一種基于文字識別的移動增強現(xiàn)實閱讀系統(tǒng),包括:手機端和服務(wù)器端;所述手機端和服務(wù)器端通過互聯(lián)網(wǎng)進行通信;所述手機端包括拍攝模塊、圖像預處理模塊和資源疊加模塊;所述服務(wù)器端包括文字識別模塊,關(guān)鍵字匹配模塊和知識庫檢索模塊;所述拍攝模塊通過手機攝像頭拍攝包含文字的圖像;所述圖像預處理模塊對拍攝到的圖像進行預處理;所述文字識別模塊對接收到的圖像進行文字檢測和識別;所述關(guān)鍵字匹配模塊通過關(guān)鍵字詞典對圖像中的文字中進行關(guān)鍵字匹配;所述知識庫檢索模塊在知識庫中檢索和關(guān)鍵字相關(guān)的多媒體資源集合;所述資源疊加模塊將多媒體資源精確疊加在所述手機端拍攝的圖像上。
[0022]本發(fā)明的工作原理:本發(fā)明通過文字識別技術(shù)識別移動終端所拍攝的閱讀材料中的文字,并根據(jù)識別出的文字在知識庫中進行信息檢索,將獲得的相關(guān)文字、圖像或視頻資源精確疊加到移動終端的拍攝畫面上,使用戶基于閱讀物的基礎(chǔ)上獲得更多的相關(guān)信息。本發(fā)明提出的基于文字識別技術(shù)的移動增強現(xiàn)實系統(tǒng)突破上述局限,當移動終端拍攝任意的雜志、報刊等包含文字的材料時,將首先進行文字識別,然后將文字和后臺的知識庫進行比對,然后將相關(guān)的文字信息、圖片信息或視頻信息精確疊加到移動終端的預覽畫面中。這種基于文字識別的方式,有以下優(yōu)點,一方面不需預先在服務(wù)器中保存相應(yīng)的圖像,服務(wù)器的存儲代價較小,也無需前期的圖像錄入準備工作;另一方面,移動終端可以對任意的包含文字的材料進行識別并產(chǎn)生增強現(xiàn)實效果,極大拓展該系統(tǒng)的適用范圍。
[0023]本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
[0024]1、本發(fā)明彌補了以往書報閱讀方式獲取信息量少,交互性較差的缺點,使得讀者獲得的信息不局限于讀物,可以將相關(guān)資源以自然、快捷的方式和現(xiàn)實讀物的內(nèi)容相融合,提供給讀者更加豐富的閱讀素材。
[0025]2、本發(fā)明可以對任意的包含文字的閱讀材料進行識別并產(chǎn)生增強現(xiàn)實效果,且不需對閱讀材料的圖像進行預先錄入和處理,極大拓展該系統(tǒng)的適用范圍。只需要閱讀材料中包含特定的關(guān)鍵字,就會在關(guān)鍵字附近疊加可供用戶點擊交互的多媒體內(nèi)容。
[0026]3、本發(fā)明的所提出的基于文字識別的增強現(xiàn)實技術(shù),不需預先在服務(wù)器中預先保存閱讀材料的圖像,服務(wù)器的存儲代價較小。
【附圖說明】
[0027]圖1是發(fā)明的方法流程圖。
[0028]圖2是讀物的示意圖。
[0029]圖3是獲取包含文字的圖像過程示意圖。
[0030]圖4是對拍攝畫面進行關(guān)鍵字識別并突出顯示的示意圖。
[0031]圖5是獲取包含文字的圖像過程示意圖。
[0032]圖6是對拍攝畫面進行關(guān)鍵字識別并突出顯示的示意圖。
[0033]圖7是資源列表展示圖。
[0034]圖8是資源顯示圖。
[0035]圖9是本發(fā)明的閱讀系統(tǒng)框圖。
【具體實施方式】
[0036]下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
[0037]實施例
[0038]如圖1所示,一種基于文字識別的移動增強現(xiàn)實閱讀方法,主要包括以下六個步驟:
[0039]S1、移動設(shè)備獲取所拍攝到的包含文字的圖像P。
[0040]S2、移動設(shè)備對步驟SI獲得的圖像P進行預處理得到圖像P’,然后上傳到服務(wù)器。
[0041]S3、服務(wù)器對接收到的圖像P’進行文字檢測和識別,獲得文字集合{胃^以及各個文字出現(xiàn)在圖像P’中的位置信息{L0Ci}。其中Wi表示檢測到的第i個文字,Loci表示該文字出現(xiàn)在圖像P’中的位置。
[0042]S4、服務(wù)器根據(jù)預定義關(guān)鍵字詞典,在步驟S3中的獲取的圖像P’中的文字中進行關(guān)鍵字匹配,獲得關(guān)鍵字集合{Tj},以及各個關(guān)鍵字出現(xiàn)在圖像P’中的位置{PoSj}。其中Tj表示檢測到的第j個關(guān)鍵字,Posj表示該關(guān)鍵字乃出現(xiàn)在圖像P’中的位置。
[0043]S5、服務(wù)器根據(jù)步驟S4所獲得的每個關(guān)鍵字Tj,在知識庫中進行檢索和Tj相關(guān)的多媒體資源集合Sj。并將檢索結(jié)果集合{(Tj,Sj,Posj)}回傳給移動設(shè)備。其中Posj是關(guān)鍵字Tj出現(xiàn)在圖像P’中的位置。
[0044]S6、移動終端針對每組接收到的結(jié)果(Tj,Sj,Posj),將多媒體資源Sj,精確疊加在步驟SI所獲得的圖像P的Pos