本發(fā)明屬于計算機,尤其涉及一種pdf文檔標題識別方法。
背景技術(shù):
1、pdf是一種常見的電子文檔格式,具有跨平臺性、可靠性、可編輯性和安全性等特點。它在文檔交換、文件存檔、電子書籍、表單和報告以及打印和出版等領(lǐng)域都有廣泛的應用。學習和工作中,我們經(jīng)常需要提取pdf文檔中的各級標題。標題可以用于生成目錄、制作書簽、生成思維導圖、構(gòu)建ai學習樣本等。雖然人類在閱讀中能夠輕松區(qū)分段落與標題進而讀懂語義,但是對于計算機程序來說卻難以理解這種文檔的結(jié)構(gòu)特征,從而更加難以識別其中的標題?,F(xiàn)有的標題識別技術(shù)往往是根據(jù)預先設置的標題模板做匹配。這種方法的識別準確率都很低;具體包括以下情況:(1)將不是標題的文本錯誤地識別為標題,例如數(shù)字開頭的文本就容易被錯誤識別為標題;(2)部分標題識別不出來,模板庫不夠全面就覆蓋不到所有可能出現(xiàn)的標題,實際上模板庫也沒辦法做到全面。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提出了一種pdf文檔標題識別方法,提高了pdf文檔標題識別的效率和準確率,同時提高了用戶對標題識別的滿意度。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種pdf文檔標題識別方法,包括:
3、獲取pdf文檔的文字列表,識別所述文字列表中的頁眉頁腳、側(cè)邊欄文字和水印文字;
4、將所述pdf文檔中文字劃分為文字段落,獲得文字段落列表;
5、將所述文字段落劃分為若干特征相同的文字段落組,根據(jù)所述文字段落組篩選出候選標題組;
6、基于所述候選標題組,確定候選標題組的標題等級。
7、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的頁眉頁腳包括:
8、將連續(xù)頁面出現(xiàn)或間隔頁面出現(xiàn),且位于頁面頂部和底部的相同或相似的文字識別為頁眉頁腳。
9、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的側(cè)邊欄文字包括:
10、將位于頁面左右兩側(cè)的旋轉(zhuǎn)90度的文字識別為側(cè)邊欄文字。
11、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的水印文字包括:
12、將連續(xù)頁面出現(xiàn)且位于相同位置的半透明文字識別為水印文字。
13、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,獲得文字段落列表包括:
14、對于同一頁的文字,水平方向相鄰的文字劃分為文字行,位置接近的并且主體特征相同的文字行劃分為文字段落,其中主體特征包括字體和字號。
15、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,將所述文字段落劃分為若干特征相同的文字段落組包括:
16、將所述文字段落按照所述主體特征相同的劃分到同一文字段落組,獲得若干特征相同的文字段落組。
17、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,所述候選標題組不包括兩種情況:
18、第一種情況為:文字最多的段落組是普通正文;
19、第二種情況為:比普通正文字號更小的段落組都是注解、引用類的文字。
20、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,基于所述候選標題組,確定候選標題組的標題等級包括:
21、將所述候選標題組中字號最大的且只有一個段落的組是主標題,如果沒有滿足要求的標題組,所述pdf文檔不包含主標題;其余所述候選標題組,按字號從大到小依次排列不同等級標題。
22、本發(fā)明技術(shù)效果:
23、(1)本發(fā)明可以提高標題識別的性能和效率。傳統(tǒng)的模板匹配方法,由于模板庫巨大,一一對比需要消耗大量時間。而本發(fā)明無需模板匹配,提取特征即可快速分類識別。在真正的識別標題之前,先排除頁眉頁腳、側(cè)邊欄、水印中的文字,更是大大減少了標題識別的計算量和運行時間。
24、(2)本發(fā)明可以提高標題識別的正確率。對頁眉頁腳、側(cè)邊欄、水印的排除有效降低了錯誤識別率,而基于特征和關(guān)聯(lián)性的分辨標題更進一步提高了正確率。
25、綜上所述,本發(fā)明提高了用戶的使用體驗和滿意度,本發(fā)明還節(jié)約了開發(fā)維護成本。現(xiàn)有方案的模板庫需要不斷地擴充和維護,而本發(fā)明無需大量時間配置模板庫,也無需后續(xù)維護。
1.一種pdf文檔標題識別方法,其特征在于,包括:
2.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,
3.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,
4.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,
5.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,
6.如權(quán)利要求5所述的pdf文檔標題識別方法,其特征在于,
7.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,
8.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,