專利名稱:古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種古籍文檔檢索系統(tǒng)中檢索字/詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。
背景技術(shù):
信息檢索系統(tǒng)能夠幫助用戶在海量信息中找到自己需要得有用信息。信息積累不僅體現(xiàn)在有不斷有新信息的加入,而且中國(guó)幾千年來積累的主要保存在紙質(zhì)上的信息也不斷被電子化。近幾年出現(xiàn)越來越多的對(duì)古代紙本知識(shí)的電子化信息。這些信息一部分由圖片掃描設(shè)備將古籍掃描,以圖片形式存儲(chǔ)于計(jì)算機(jī)中。通過對(duì)古籍電子化處理,既利于對(duì)古籍原本的保存,又利于廣大學(xué)者對(duì)其進(jìn)行研究。近幾年,大部分古籍電子化系統(tǒng)通過OCR光學(xué)文字辨識(shí)或者人工對(duì)這些古籍進(jìn)行整理,將其中文字錄入到計(jì)算機(jī)中,形成古籍文本文檔。對(duì)古籍文本文檔的錄入,方便了對(duì)古籍內(nèi)容的編輯,拷貝,傳輸。同時(shí)也實(shí)現(xiàn)了對(duì)這些古籍電子化文檔的全文檢索。這更進(jìn)一步方便了古籍研究者對(duì)古籍文檔的查閱。
很多學(xué)者在使用含有古籍的數(shù)據(jù)庫時(shí),常常需要查看其對(duì)應(yīng)的原始的古籍原始頁面的快照?qǐng)D片。當(dāng)前的古籍?dāng)?shù)字化檢索系統(tǒng)往往通過用戶的查詢?cè)~匹配到古籍快照的某一頁,然后將該頁古籍圖片返回給檢索用戶。此時(shí)用戶往往需要對(duì)圖片上的文檔逐字瀏覽,用來找到與自己檢索內(nèi)容相關(guān)的部分。由于古籍原始頁面快照中的內(nèi)容往往并不分段落,也不帶標(biāo)點(diǎn),對(duì)今人而言不易閱讀,因此用戶在古籍頁面快照?qǐng)D片上定位到與自己檢索內(nèi)容相關(guān)的位置時(shí)往往比較吃力。在文本檢索系統(tǒng)中,系統(tǒng)會(huì)在結(jié)果文本中對(duì)出現(xiàn)的用戶檢索詞進(jìn)行高亮標(biāo)識(shí),用以幫助用戶更快定位自己所關(guān)注的內(nèi)容。因此,在古籍圖片瀏覽時(shí)也急需一種類似的方法,使檢索系統(tǒng)能夠自動(dòng)標(biāo)識(shí)出用戶檢索字/詞在古籍原始頁面快照?qǐng)D片上與相關(guān)文字內(nèi)容匹配命中的區(qū)域。
發(fā)明內(nèi)容
鑒于上述分析,本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。該方法通過捕捉與記錄古籍原始頁面快照?qǐng)D片中每個(gè)文字字符的位置信息,按照一定順序使其與OCR光學(xué)辨識(shí)或者人工錄入文檔的每個(gè)錄入字符相對(duì)應(yīng)。在檢索時(shí),首先對(duì)用戶的檢索字符串進(jìn)行分詞處理,形成分詞結(jié)果字符串。接下來計(jì)算分詞結(jié)果字符串與檢索結(jié)果文檔中相匹配的每個(gè)字符的位置,形成匹配位置序列。將這些位置序列作為索引,得出其對(duì)應(yīng)的坐標(biāo)序列。在顯示快照?qǐng)D片時(shí),根據(jù)坐標(biāo)序列在快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí),從而達(dá)到將查詢字符串在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的效果。
該方法的實(shí)現(xiàn)主要包括兩步第一步完成坐標(biāo)序列的生成;第二步完成查詢字符串在快照?qǐng)D片上的高亮顯示。
坐標(biāo)序列生成的具體實(shí)現(xiàn)方法是A、根據(jù)快照?qǐng)D片將其中內(nèi)容信息以文本形式錄入計(jì)算機(jī)。
B、以步驟A中字符錄入的順序獲取古籍快照?qǐng)D片上每個(gè)字符的坐標(biāo)信息,將其存入計(jì)算機(jī)。
查詢字符串在快照?qǐng)D片上的高亮顯示方法是A、將查詢字符串進(jìn)行分詞處理,形成分詞結(jié)果字符串。分詞結(jié)果字符串為由詞(包括單個(gè)字的詞)組成的序列。
B、讀入要高亮顯示的快照?qǐng)D片對(duì)應(yīng)的文本文檔。計(jì)算分詞結(jié)果字符串中的詞序列中每個(gè)詞在文本文檔中存在的位置。形成位置序列。
C、讀入要高亮顯示的快照?qǐng)D片對(duì)應(yīng)的字符坐標(biāo)序列。根據(jù)B步形成的位置序列得到相應(yīng)位置字符在圖片上的坐標(biāo),形成命中坐標(biāo)序列。
D、根據(jù)C步形成的命中坐標(biāo)序列,在顯示圖片時(shí),在圖片上相應(yīng)的坐標(biāo)進(jìn)行標(biāo)識(shí)。
本發(fā)明的特點(diǎn)本發(fā)明通過坐標(biāo)標(biāo)識(shí)的方法,使得在古籍檢索系統(tǒng)中,實(shí)現(xiàn)對(duì)查詢字符串在古籍原始快照?qǐng)D片中進(jìn)行高亮標(biāo)識(shí)。大大提高了用戶在古籍圖片上查找自己關(guān)注內(nèi)容時(shí)的查找速度。
具體實(shí)施例方式
本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。
具體的實(shí)施方法如下1、生成坐標(biāo)序列A、生成古籍文本記錄。一張古籍頁面快照?qǐng)D片對(duì)應(yīng)一條記錄。古籍文本記錄的信息包括記錄編號(hào)、圖片位置、文本內(nèi)容以及與之對(duì)應(yīng)的坐標(biāo)信息序列。其中文本內(nèi)容為按照閱讀順序?qū)⒐偶煺丈厦娴奈谋咀址浫胗?jì)算機(jī)后形成的文本。其文本編碼采用Unicode編碼,并且含有四字節(jié)字符,以符合中國(guó)古代典籍使用漢字的具體情況。坐標(biāo)序列為文本內(nèi)容中每個(gè)字符在圖片中出現(xiàn)時(shí)的坐標(biāo)。每個(gè)字符的坐標(biāo)為覆蓋字符的最小矩形的坐標(biāo)。包括矩形左上頂點(diǎn)在圖片中的坐標(biāo),與右下頂點(diǎn)在圖片中的坐標(biāo)。該坐標(biāo)序列的順序要與文本內(nèi)容中的字符順序保持一致。
B、對(duì)古籍文本記錄建立倒排索引,其中索引字段為文本內(nèi)容。采用基于含有四字節(jié)字符的切詞方式對(duì)文本內(nèi)容建立索引。四字節(jié)切詞方式為將所有四字節(jié)字符單獨(dú)作為詞進(jìn)行處理,其它二字節(jié)字符按照常規(guī)的中文切詞方法進(jìn)行處理。
2、用戶查詢A、獲取用戶輸入的查詢字符串,并且對(duì)查詢字符串進(jìn)行切詞處理。切詞的方式同樣采用基于四字節(jié)的切詞方式。切詞后形成查詢?cè)~序列。
B、將步驟A形成的查詢?cè)~序列在倒排索引表中進(jìn)行檢索。將檢索的結(jié)果返回給用戶。
C、當(dāng)用戶選擇查看某條記錄的原始快照時(shí),得到用戶選擇的記錄編號(hào)以及查詢字符串。根據(jù)記錄編號(hào)得到相應(yīng)的古籍頁面快照?qǐng)D片以及內(nèi)容文本和坐標(biāo)序列,將用戶查詢?cè)~序列和內(nèi)容文本進(jìn)行匹配,計(jì)算查詢?cè)~中每個(gè)字符在內(nèi)容文本中的位置。將這些字符位置的數(shù)值信息按照先后關(guān)系進(jìn)行排列,形成位置序列,并以位置序列中的位置為索引,得到其相對(duì)應(yīng)的坐標(biāo)序列。重復(fù)的位置序列只記錄一次。
D、根據(jù)步驟C中形成的坐標(biāo)序列讀出其中每個(gè)字符矩形的坐標(biāo),并根據(jù)坐標(biāo)在步驟C中得到的快照?qǐng)D片上進(jìn)行標(biāo)識(shí)。標(biāo)識(shí)的方法可以但不限定為在圖片上對(duì)應(yīng)檢索字符串(詞或者字)的位置上畫出半透明的矩形框或者空心的矩形框。
E、將步驟D合成的帶有矩形標(biāo)識(shí)的古籍圖片返回給用戶。這樣用戶就可以迅速找到其所檢索的查詢條件在古籍原始頁面快照?qǐng)D片中對(duì)應(yīng)的位置。
本發(fā)明的優(yōu)點(diǎn)與技術(shù)效果本發(fā)明很好的實(shí)現(xiàn)了古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)。能夠使得用戶在古籍原始頁面快照?qǐng)D片上快速定位到自己所關(guān)注的內(nèi)容出現(xiàn)的區(qū)域。
權(quán)利要求
1.一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法,該方法將古籍快照?qǐng)D片上的文本字符順序錄入計(jì)算機(jī),并按照同樣的順序記錄快照?qǐng)D片中每個(gè)文本字符的坐標(biāo)。
2.如在權(quán)利要求1所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法,其特征在于將用戶提交的查詢字符串進(jìn)行基于四字節(jié)字符的分詞處理,處理結(jié)果形成查詢?cè)~(字)序列。
3.如在權(quán)利要求1,2所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法,其特征在于計(jì)算查詢?cè)~(字)序列中每個(gè)詞的字符在古籍快照?qǐng)D片所對(duì)應(yīng)的文本文檔中出現(xiàn)的位置。根據(jù)該位置得到其對(duì)應(yīng)的字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo)。由此得到查詢?cè)~(字)序列中每個(gè)字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo)。
4.如在權(quán)利要求1,2,3所述的古籍文檔檢索系統(tǒng)中檢索詞在古籍快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法,其特征在于根據(jù)查詢?cè)~(字)序列中每個(gè)字符在古籍快照?qǐng)D片上出現(xiàn)的坐標(biāo),在圖片上對(duì)該字符進(jìn)行高亮標(biāo)識(shí)別,將帶有高亮識(shí)別的古籍快照?qǐng)D片返回給檢索用戶。
全文摘要
本發(fā)明公開了一種古籍文檔檢索系統(tǒng)中檢索詞在古籍原始頁面快照?qǐng)D片上進(jìn)行高亮標(biāo)識(shí)的方法。該方法首先記錄古籍快照?qǐng)D片中每個(gè)字符的坐標(biāo)位置,然后將用戶提交的檢索字符串進(jìn)行切詞處理,并且計(jì)算得到切詞處理后的詞序列中每個(gè)字符在古籍快照?qǐng)D片所對(duì)應(yīng)的文本文檔中出現(xiàn)的位置信息,進(jìn)而根據(jù)該位置信息得到每個(gè)字符在古籍快照?qǐng)D片中的坐標(biāo),然后根據(jù)字符坐標(biāo)在古籍快照?qǐng)D片的相應(yīng)位置進(jìn)行高亮標(biāo)識(shí),最后將標(biāo)識(shí)后的圖片返回給查詢用戶。通過這種方法,用戶可以根據(jù)古籍原始頁面快照?qǐng)D片上的高亮標(biāo)識(shí),很快定位到自己檢索內(nèi)容所在的位置。
文檔編號(hào)G06F17/30GK101093545SQ20061008687
公開日2007年12月26日 申請(qǐng)日期2006年6月22日 優(yōu)先權(quán)日2006年6月22日
發(fā)明者馮建康, 王宏源, 趙鋒 申請(qǐng)人:王宏源