古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法

文檔序號(hào)：6338449閱讀：216來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種古籍文檔檢索系統(tǒng)中檢索字/詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。
背景技術(shù)：
信息檢索系統(tǒng)能夠幫助用戶在海量信息中找到自己需要得有用信息。信息積累不僅體現(xiàn)在有不斷有新信息的加入，而且中國(guó)幾千年來積累的主要保存在紙質(zhì)上的信息也不斷被電子化。近幾年出現(xiàn)越來越多的對(duì)古代紙本知識(shí)的電子化信息。這些信息一部分由圖片掃描設(shè)備將古籍掃描，以圖片形式存儲(chǔ)于計(jì)算機(jī)中。通過對(duì)古籍電子化處理，既利于對(duì)古籍原本的保存，又利于廣大學(xué)者對(duì)其進(jìn)行研究。近幾年，大部分古籍電子化系統(tǒng)通過OCR光學(xué)文字辨識(shí)或者人工對(duì)這些古籍進(jìn)行整理，將其中文字錄入到計(jì)算機(jī)中，形成古籍文本文檔。對(duì)古籍文本文檔的錄入，方便了對(duì)古籍內(nèi)容的編輯，拷貝，傳輸。同時(shí)也實(shí)現(xiàn)了對(duì)這些古籍電子化文檔的全文檢索。這更進(jìn)一步方便了古籍研究者對(duì)古籍文檔的查閱。
很多學(xué)者在使用含有古籍的數(shù)據(jù)庫時(shí)，常常需要查看其對(duì)應(yīng)的原始的古籍原始頁面的快照?qǐng)D片。當(dāng)前的古籍?dāng)?shù)字化檢索系統(tǒng)往往通過用戶的查詢?cè)~匹配到古籍快照的某一頁，然后將該頁古籍圖片返回給檢索用戶。此時(shí)用戶往往需要對(duì)圖片上的文檔逐字瀏覽，用來找到與自己檢索內(nèi)容相關(guān)的部分。由于古籍原始頁面快照中的內(nèi)容往往并不分段落，也不帶標(biāo)點(diǎn)，對(duì)今人而言不易閱讀，因此用戶在古籍頁面快照?qǐng)D片上定位到與自己檢索內(nèi)容相關(guān)的位置時(shí)往往比較吃力。在文本檢索系統(tǒng)中，系統(tǒng)會(huì)在結(jié)果文本中對(duì)出現(xiàn)的用戶檢索詞進(jìn)行高亮標(biāo)識(shí)，用以幫助用戶更快定位自己所關(guān)注的內(nèi)容。因此，在古籍圖片瀏覽時(shí)也急需一種類似的方法，使檢索系統(tǒng)能夠自動(dòng)標(biāo)識(shí)出用戶檢索字/詞在古籍原始頁面快照?qǐng)D片上與相關(guān)文字內(nèi)容匹配命中的區(qū)域。

發(fā)明內(nèi)容
鑒于上述分析，本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。該方法通過捕捉與記錄古籍原始頁面快照?qǐng)D片中每個(gè)文字字符的位置信息，按照一定順序使其與OCR光學(xué)辨識(shí)或者人工錄入文檔的每個(gè)錄入字符相對(duì)應(yīng)。在檢索時(shí)，首先對(duì)用戶的檢索字符串進(jìn)行分詞處理，形成分詞結(jié)果字符串。接下來計(jì)算分詞結(jié)果字符串與檢索結(jié)果文檔中相匹配的每個(gè)字符的位置，形成匹配位置序列。將這些位置序列作為索引，得出其對(duì)應(yīng)的坐標(biāo)序列。在顯示快照?qǐng)D片時(shí)，根據(jù)坐標(biāo)序列在快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)，從而達(dá)到將查詢字符串在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的效果。
該方法的實(shí)現(xiàn)主要包括兩步第一步完成坐標(biāo)序列的生成；第二步完成查詢字符串在快照?qǐng)D片上的高亮顯示。
坐標(biāo)序列生成的具體實(shí)現(xiàn)方法是A、根據(jù)快照?qǐng)D片將其中內(nèi)容信息以文本形式錄入計(jì)算機(jī)。
B、以步驟A中字符錄入的順序獲取古籍快照?qǐng)D片上每個(gè)字符的坐標(biāo)信息，將其存入計(jì)算機(jī)。
查詢字符串在快照?qǐng)D片上的高亮顯示方法是A、將查詢字符串進(jìn)行分詞處理，形成分詞結(jié)果字符串。分詞結(jié)果字符串為由詞(包括單個(gè)字的詞)組成的序列。
B、讀入要高亮顯示的快照?qǐng)D片對(duì)應(yīng)的文本文檔。計(jì)算分詞結(jié)果字符串中的詞序列中每個(gè)詞在文本文檔中存在的位置。形成位置序列。
C、讀入要高亮顯示的快照?qǐng)D片對(duì)應(yīng)的字符坐標(biāo)序列。根據(jù)B步形成的位置序列得到相應(yīng)位置字符在圖片上的坐標(biāo)，形成命中坐標(biāo)序列。
D、根據(jù)C步形成的命中坐標(biāo)序列，在顯示圖片時(shí)，在圖片上相應(yīng)的坐標(biāo)進(jìn)行標(biāo)識(shí)。
本發(fā)明的特點(diǎn)本發(fā)明通過坐標(biāo)標(biāo)識(shí)的方法，使得在古籍檢索系統(tǒng)中，實(shí)現(xiàn)對(duì)查詢字符串在古籍原始快照?qǐng)D片中進(jìn)行高亮標(biāo)識(shí)。大大提高了用戶在古籍圖片上查找自己關(guān)注內(nèi)容時(shí)的查找速度。
具體實(shí)施例方式
本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。
具體的實(shí)施方法如下1、生成坐標(biāo)序列A、生成古籍文本記錄。一張古籍頁面快照?qǐng)D片對(duì)應(yīng)一條記錄。古籍文本記錄的信息包括記錄編號(hào)、圖片位置、文本內(nèi)容以及與之對(duì)應(yīng)的坐標(biāo)信息序列。其中文本內(nèi)容為按照閱讀順序?qū)⒐偶煺丈厦娴奈谋咀址浫胗?jì)算機(jī)后形成的文本。其文本編碼采用Unicode編碼，并且含有四字節(jié)字符，以符合中國(guó)古代典籍使用漢字的具體情況。坐標(biāo)序列為文本內(nèi)容中每個(gè)字符在圖片中出現(xiàn)時(shí)的坐標(biāo)。每個(gè)字符的坐標(biāo)為覆蓋字符的最小矩形的坐標(biāo)。包括矩形左上頂點(diǎn)在圖片中的坐標(biāo)，與右下頂點(diǎn)在圖片中的坐標(biāo)。該坐標(biāo)序列的順序要與文本內(nèi)容中的字符順序保持一致。
B、對(duì)古籍文本記錄建立倒排索引，其中索引字段為文本內(nèi)容。采用基于含有四字節(jié)字符的切詞方式對(duì)文本內(nèi)容建立索引。四字節(jié)切詞方式為將所有四字節(jié)字符單獨(dú)作為詞進(jìn)行處理，其它二字節(jié)字符按照常規(guī)的中文切詞方法進(jìn)行處理。
2、用戶查詢A、獲取用戶輸入的查詢字符串，并且對(duì)查詢字符串進(jìn)行切詞處理。切詞的方式同樣采用基于四字節(jié)的切詞方式。切詞后形成查詢?cè)~序列。
B、將步驟A形成的查詢?cè)~序列在倒排索引表中進(jìn)行檢索。將檢索的結(jié)果返回給用戶。
C、當(dāng)用戶選擇查看某條記錄的原始快照時(shí)，得到用戶選擇的記錄編號(hào)以及查詢字符串。根據(jù)記錄編號(hào)得到相應(yīng)的古籍頁面快照?qǐng)D片以及內(nèi)容文本和坐標(biāo)序列，將用戶查詢?cè)~序列和內(nèi)容文本進(jìn)行匹配，計(jì)算查詢?cè)~中每個(gè)字符在內(nèi)容文本中的位置。將這些字符位置的數(shù)值信息按照先后關(guān)系進(jìn)行排列，形成位置序列，并以位置序列中的位置為索引，得到其相對(duì)應(yīng)的坐標(biāo)序列。重復(fù)的位置序列只記錄一次。
D、根據(jù)步驟C中形成的坐標(biāo)序列讀出其中每個(gè)字符矩形的坐標(biāo)，并根據(jù)坐標(biāo)在步驟C中得到的快照?qǐng)D片上進(jìn)行標(biāo)識(shí)。標(biāo)識(shí)的方法可以但不限定為在圖片上對(duì)應(yīng)檢索字符串(詞或者字)的位置上畫出半透明的矩形框或者空心的矩形框。
E、將步驟D合成的帶有矩形標(biāo)識(shí)的古籍圖片返回給用戶。這樣用戶就可以迅速找到其所檢索的查詢條件在古籍原始頁面快照?qǐng)D片中對(duì)應(yīng)的位置。
本發(fā)明的優(yōu)點(diǎn)與技術(shù)效果本發(fā)明很好的實(shí)現(xiàn)了古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)。能夠使得用戶在古籍原始頁面快照?qǐng)D片上快速定位到自己所關(guān)注的內(nèi)容出現(xiàn)的區(qū)域。
權(quán)利要求
1.一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法，該方法將古籍快照?qǐng)D片上的文本字符順序錄入計(jì)算機(jī)，并按照同樣的順序記錄快照?qǐng)D片中每個(gè)文本字符的坐標(biāo)。
2.如在權(quán)利要求1所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法，其特征在于將用戶提交的查詢字符串進(jìn)行基于四字節(jié)字符的分詞處理，處理結(jié)果形成查詢?cè)~(字)序列。
3.如在權(quán)利要求1，2所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法，其特征在于計(jì)算查詢?cè)~(字)序列中每個(gè)詞的字符在古籍快照?qǐng)D片所對(duì)應(yīng)的文本文檔中出現(xiàn)的位置。根據(jù)該位置得到其對(duì)應(yīng)的字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo)。由此得到查詢?cè)~(字)序列中每個(gè)字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo)。
4.如在權(quán)利要求1，2，3所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法，其特征在于根據(jù)查詢?cè)~(字)序列中每個(gè)字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo)，在圖片上對(duì)該字符進(jìn)行高亮標(biāo)識(shí)別，將帶有高亮識(shí)別的古籍快照?qǐng)D片返回給檢索用戶。
全文摘要
本發(fā)明公開了一種古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。該方法首先記錄古籍快照?qǐng)D片中每個(gè)字符的坐標(biāo)位置，然后將用戶提交的檢索字符串進(jìn)行切詞處理，并且計(jì)算得到切詞處理后的詞序列中每個(gè)字符在古籍快照?qǐng)D片所對(duì)應(yīng)的文本文檔中出現(xiàn)的位置信息，進(jìn)而根據(jù)該位置信息得到每個(gè)字符在古籍快照?qǐng)D片中的坐標(biāo)，然后根據(jù)字符坐標(biāo)在古籍快照?qǐng)D片的相應(yīng)位置進(jìn)行高亮標(biāo)識(shí)，最后將標(biāo)識(shí)后的圖片返回給查詢用戶。通過這種方法，用戶可以根據(jù)古籍原始頁面快照?qǐng)D片上的高亮標(biāo)識(shí)，很快定位到自己檢索內(nèi)容所在的位置。
文檔編號(hào)G06F17/30GK101093545SQ20061008687
公開日2007年12月26日申請(qǐng)日期2006年6月22日優(yōu)先權(quán)日2006年6月22日
發(fā)明者馮建康, 王宏源, 趙鋒申請(qǐng)人:王宏源

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮建康;王宏源;趙鋒
技術(shù)所有人：王宏源
我是此專利的發(fā)明人

上一篇：教師電腦的制作方法
上一篇：拼音尾巴碼一體化漢字鍵盤輸入系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

檢索詞相關(guān)技術(shù)

來源檢索詞相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法