一種古籍文字?jǐn)?shù)字化錄入方法與流程

文檔序號(hào)：12124002閱讀：3904來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及圖像數(shù)字化領(lǐng)域，特別是一種古籍文字?jǐn)?shù)字化錄入方法。

背景技術(shù)：

傳統(tǒng)的文字圖像數(shù)字化，以古籍為例，先將古籍掃描成電子圖像，然后由錄入人員依照電子圖像內(nèi)容進(jìn)行文字錄入，最后對(duì)照原圖進(jìn)行排版，整理生成數(shù)字化文獻(xiàn)，比如PDF文件，XML文件等。傳統(tǒng)的圖像數(shù)字化，存在一些弊端，錄入人員可以看到整張古籍圖像，信息安全度不高。駐廠人員進(jìn)行文字錄入，成本過高。對(duì)照原圖手工排版，效率低下。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了一種可以提高圖像數(shù)字化信息安全度和效率的古籍文字?jǐn)?shù)字化錄入方法，本發(fā)明結(jié)合互聯(lián)網(wǎng)技術(shù)解決傳統(tǒng)數(shù)字化面臨的難題。

本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。

一種古籍文字?jǐn)?shù)字化錄入方法，步驟包括：

步驟1、對(duì)古籍進(jìn)行全文掃描，將掃描圖像碎片化，先用OCR定位文字區(qū)域，再識(shí)別出文字區(qū)域的行數(shù)和列數(shù)，根據(jù)文字區(qū)域和行列數(shù)，確定每個(gè)文字的單元格；利用OCR對(duì)圖像進(jìn)行切割，根據(jù)灰度值閾值，依次判定文字單元格內(nèi)像素點(diǎn)是否為有效像素點(diǎn)，并統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量，再根據(jù)文字像素點(diǎn)閾值，判定文字單元格內(nèi)是否為文字；所述文字單元格指文字所在的矩形塊；

步驟2、利用古籍字體數(shù)據(jù)庫對(duì)所述文字單元格進(jìn)行自動(dòng)識(shí)別，當(dāng)識(shí)別成功時(shí)則執(zhí)行步驟5，否則執(zhí)行步驟3；

步驟3、采用眾包模式針對(duì)未自動(dòng)識(shí)別成功的文字單元格在錄入平臺(tái)進(jìn)行錄入，并對(duì)錄入結(jié)果進(jìn)行比較，校檢：由兩名作業(yè)人員對(duì)同一文字單元格進(jìn)行錄入，比較兩名作業(yè)人員的錄入結(jié)果，當(dāng)錄入結(jié)果一致時(shí)執(zhí)行步驟4，否則由第三名作業(yè)人員進(jìn)行校驗(yàn)再執(zhí)行步驟4；

步驟4、完善古籍字體數(shù)據(jù)庫：根據(jù)古籍字體進(jìn)行分類，將所述文字單元格及其對(duì)應(yīng)的錄入結(jié)果存入古籍?dāng)?shù)據(jù)庫中，執(zhí)行步驟5；

步驟5、根據(jù)錄入結(jié)果和坐標(biāo)，還原位置，生成PDF文件：

根據(jù)坐標(biāo)，確定PDF上的單個(gè)文字矩形區(qū)域，將網(wǎng)上作業(yè)人員錄入的文字存入PDF相應(yīng)的位置；根據(jù)網(wǎng)上作業(yè)人員錄入的文字?jǐn)?shù)量，將圖像坐標(biāo)對(duì)應(yīng)的矩形區(qū)域，切割成同等數(shù)量的區(qū)域，并將文字放入對(duì)應(yīng)的位置。

進(jìn)一步的，所述的步驟1還包括以下內(nèi)容：

步驟1-1、根據(jù)文獻(xiàn)對(duì)比度，設(shè)定灰度值閾值，正文灰度值均值在0-150的文獻(xiàn)，灰度值閾值設(shè)定在100-150，正文灰度值均值在150-255的文獻(xiàn)，灰度值閾值設(shè)定在150-200；當(dāng)文獻(xiàn)的灰度值小于灰度值閾值時(shí)，判定為有效像素點(diǎn)；

步驟1-2、根據(jù)文字單元格大小，設(shè)定文字像素點(diǎn)閾值，設(shè)定公式為(w*h)/4*n²，四舍五入取整，其中w為文字單元格寬度，h為文字單元格高度，n為筆畫粗度均值；

步驟1-3、統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量，當(dāng)數(shù)量大于文字像素點(diǎn)閾值時(shí)，判定為有效文字；

步驟1-4、對(duì)于判定為有效文字的矩形塊進(jìn)行切割，并記錄文字坐標(biāo)；使用了圖片裁剪工具類imgscalr，調(diào)用imgscalr提供的crop方法，根據(jù)坐標(biāo)裁剪矩形塊；

步驟1-5、完成全文圖像的碎片化。

進(jìn)一步的，所述的步驟3還包括以下內(nèi)容：

步驟3-1、作業(yè)人員的選擇：發(fā)布測(cè)試稿件，測(cè)試合格人員方可進(jìn)行作業(yè)；

步驟3-2、作業(yè)人員作業(yè)質(zhì)量的控制：作業(yè)過程中會(huì)隨機(jī)抽檢作業(yè)人員的作業(yè)稿件，當(dāng)抽檢樣正確率低于95%時(shí)，取消作業(yè)人員作業(yè)資格；作業(yè)完成后，系統(tǒng)會(huì)分析作業(yè)人員的正確率，低于95%時(shí)，取消作業(yè)人員作業(yè)資格。

相比于現(xiàn)有技術(shù)，本發(fā)明的優(yōu)點(diǎn)在于：本發(fā)明提高了圖像數(shù)字化信息安全度和效率，結(jié)合互聯(lián)網(wǎng)技術(shù)解決傳統(tǒng)數(shù)字化面臨的難題。將整張文獻(xiàn)圖片切割成一個(gè)個(gè)碎片, 因?yàn)槊總€(gè)作業(yè)人員只能看到圖像中的一個(gè)碎片塊，對(duì)于提高信息安全度重要性不言而喻，尤其是一些重要資料的錄入，如名片，銀行票據(jù)等，對(duì)信息安全度要求較高。根據(jù)古籍字體數(shù)據(jù)庫進(jìn)行自動(dòng)識(shí)別，避免了重復(fù)勞動(dòng)，使得錄入過程更加智能化，根據(jù)坐標(biāo)自動(dòng)還原位置，生成PDF，效率較高，位置也比較精確，解決了手工排版效率低下的難題。切割成單字后，大大降低了作業(yè)人員的技能要求，又采用眾包模式，利用廣大網(wǎng)民在互聯(lián)網(wǎng)上進(jìn)行生產(chǎn)作業(yè)，大大節(jié)省了生產(chǎn)成本的開支（人員、房租、交通，招聘、培訓(xùn)，解聘等）。采用眾包模式，數(shù)以萬計(jì)的網(wǎng)民同時(shí)在線作業(yè)，可以實(shí)現(xiàn)大規(guī)模的數(shù)字化生產(chǎn)。

附圖說明

圖1為本發(fā)明的古籍文字碎片化示意圖。

具體實(shí)施方式

下面結(jié)合說明書附圖和具體的實(shí)施例，對(duì)本發(fā)明作詳細(xì)描述。

一種古籍文字?jǐn)?shù)字化錄入方法，包括以下內(nèi)容，

步驟1、將圖像碎片化，利用OCR對(duì)圖像進(jìn)行切割，并記錄碎片坐標(biāo)：

古籍字符間距較窄，文字內(nèi)容生僻，市面上流行的OCR軟件對(duì)古籍的識(shí)別度普遍較低。本發(fā)明采用的OCR算法，是在傳統(tǒng)OCR的基礎(chǔ)上結(jié)合空間閾值算法，只進(jìn)行切割，不進(jìn)行識(shí)別；先用OCR定位文字區(qū)域，再識(shí)別出文字區(qū)域的行數(shù)和列數(shù)，根據(jù)文字區(qū)域和行列數(shù)，確定每個(gè)文字的單元格；根據(jù)灰度值閾值，依次判定文字單元格內(nèi)像素點(diǎn)是否為有效像素點(diǎn)，并統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量，再根據(jù)文字像素點(diǎn)閾值，判定文字單元格內(nèi)是否為文字；文字單元格指文字所在的矩形塊。

步驟1-1、根據(jù)文獻(xiàn)對(duì)比度，設(shè)定灰度值閾值，有些文獻(xiàn)在掃描時(shí)，存在反面文字透過來的情形，設(shè)定灰度閾值，就要是在保存正文的同時(shí)，盡可能的過濾掉這些躁點(diǎn)。一般正文顏色較深的文獻(xiàn)（灰度值均值在0-150），灰度值閾值設(shè)定比較低，設(shè)定在100-150，正文顏色較淺的文獻(xiàn)（灰度值均值在150-255），設(shè)定在150-200；如圖1所示，像素點(diǎn)的灰度值閾值設(shè)置為150，當(dāng)文獻(xiàn)的灰度值小于灰度值閾值時(shí)，判定為有效像素點(diǎn)。

步驟1-2、根據(jù)文字單元格大小，設(shè)定文字像素點(diǎn)閾值，設(shè)定公式為(w*h)/4*n²，四舍五入取整，其中w為文字單元格寬度，h為文字單元格高度，n為筆畫粗度均值。例如文字單元格寬度為80px，高度為60px,筆畫粗度均值為2px，則根據(jù)公式計(jì)算，設(shè)定文字像素點(diǎn)閾值為70。圖1所示，文字像素點(diǎn)閾值設(shè)定為50。

步驟1-3、統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量，當(dāng)數(shù)量大于文字像素點(diǎn)閾值時(shí)，判定為有效文字。

步驟1-4、對(duì)于判定為有效文字的矩形塊進(jìn)行切割，并記錄文字坐標(biāo)（文字所在矩形塊左上角橫坐標(biāo)、縱坐標(biāo)，矩形框高度，寬度）；這里使用了第三方圖片裁剪工具類imgscalr，調(diào)用imgscalr提供的crop方法，根據(jù)坐標(biāo)裁剪矩形塊。

步驟1-5、如圖1所示,這樣文字圖像被切割成一張張文字圖像碎片。

步驟3-1、作業(yè)人員的選擇，發(fā)布測(cè)試稿件，測(cè)試合格人員方可進(jìn)行作業(yè)。

步驟3-2、作業(yè)人員作業(yè)質(zhì)量的控制，作業(yè)過程中會(huì)隨機(jī)抽檢作業(yè)人員的作業(yè)稿件，當(dāng)抽檢樣正確率低于95%時(shí)，取消作業(yè)人員作業(yè)資格。作業(yè)完成后，系統(tǒng)會(huì)分析作業(yè)人員的正確率，低于95%時(shí)，取消作業(yè)人員作業(yè)資格。

步驟5、根據(jù)錄入結(jié)果和坐標(biāo)，還原位置，生成PDF文件：根據(jù)坐標(biāo)，確定PDF上的單個(gè)文字矩形區(qū)域，將網(wǎng)上作業(yè)人員錄入的文字存入PDF相應(yīng)的位置；根據(jù)網(wǎng)上作業(yè)人員錄入的文字?jǐn)?shù)量，將圖像坐標(biāo)對(duì)應(yīng)的矩形區(qū)域，切割成同等數(shù)量的區(qū)域，并將文字放入對(duì)應(yīng)的位置。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不限制于本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王良君;禇正東;徐朝龍;王旭;
技術(shù)所有人：江蘇文心古籍?dāng)?shù)字產(chǎn)業(yè)有限公司;
我是此專利的發(fā)明人

上一篇：進(jìn)行歷史數(shù)據(jù)遷移的方法及系統(tǒng)與流程
上一篇：一種移動(dòng)電源的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種古籍文字?jǐn)?shù)字化錄入方法與流程