一種PDF文檔標題識別方法與流程

文檔序號：40559668發(fā)布日期：2025-01-03 11:19閱讀：9來源：國知局

本發(fā)明屬于計算機，尤其涉及一種pdf文檔標題識別方法。

背景技術(shù)：

1、pdf是一種常見的電子文檔格式，具有跨平臺性、可靠性、可編輯性和安全性等特點。它在文檔交換、文件存檔、電子書籍、表單和報告以及打印和出版等領(lǐng)域都有廣泛的應用。學習和工作中，我們經(jīng)常需要提取pdf文檔中的各級標題。標題可以用于生成目錄、制作書簽、生成思維導圖、構(gòu)建ai學習樣本等。雖然人類在閱讀中能夠輕松區(qū)分段落與標題進而讀懂語義，但是對于計算機程序來說卻難以理解這種文檔的結(jié)構(gòu)特征，從而更加難以識別其中的標題?，F(xiàn)有的標題識別技術(shù)往往是根據(jù)預先設置的標題模板做匹配。這種方法的識別準確率都很低；具體包括以下情況：（1）將不是標題的文本錯誤地識別為標題，例如數(shù)字開頭的文本就容易被錯誤識別為標題；（2）部分標題識別不出來，模板庫不夠全面就覆蓋不到所有可能出現(xiàn)的標題，實際上模板庫也沒辦法做到全面。

技術(shù)實現(xiàn)思路

1、為解決上述技術(shù)問題，本發(fā)明提出了一種pdf文檔標題識別方法，提高了pdf文檔標題識別的效率和準確率，同時提高了用戶對標題識別的滿意度。

2、為實現(xiàn)上述目的，本發(fā)明提供了一種pdf文檔標題識別方法，包括：

3、獲取pdf文檔的文字列表，識別所述文字列表中的頁眉頁腳、側(cè)邊欄文字和水印文字；

4、將所述pdf文檔中文字劃分為文字段落，獲得文字段落列表；

5、將所述文字段落劃分為若干特征相同的文字段落組，根據(jù)所述文字段落組篩選出候選標題組；

6、基于所述候選標題組，確定候選標題組的標題等級。

7、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，識別所述文字列表中的頁眉頁腳包括：

8、將連續(xù)頁面出現(xiàn)或間隔頁面出現(xiàn)，且位于頁面頂部和底部的相同或相似的文字識別為頁眉頁腳。

9、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，識別所述文字列表中的側(cè)邊欄文字包括：

10、將位于頁面左右兩側(cè)的旋轉(zhuǎn)90度的文字識別為側(cè)邊欄文字。

11、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，識別所述文字列表中的水印文字包括：

12、將連續(xù)頁面出現(xiàn)且位于相同位置的半透明文字識別為水印文字。

13、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，獲得文字段落列表包括：

14、對于同一頁的文字，水平方向相鄰的文字劃分為文字行，位置接近的并且主體特征相同的文字行劃分為文字段落，其中主體特征包括字體和字號。

15、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，將所述文字段落劃分為若干特征相同的文字段落組包括：

16、將所述文字段落按照所述主體特征相同的劃分到同一文字段落組，獲得若干特征相同的文字段落組。

17、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，所述候選標題組不包括兩種情況：

18、第一種情況為：文字最多的段落組是普通正文；

19、第二種情況為：比普通正文字號更小的段落組都是注解、引用類的文字。

20、根據(jù)本發(fā)明提供的pdf文檔標題識別方法，基于所述候選標題組，確定候選標題組的標題等級包括：

21、將所述候選標題組中字號最大的且只有一個段落的組是主標題，如果沒有滿足要求的標題組，所述pdf文檔不包含主標題；其余所述候選標題組，按字號從大到小依次排列不同等級標題。

22、本發(fā)明技術(shù)效果：

23、（1）本發(fā)明可以提高標題識別的性能和效率。傳統(tǒng)的模板匹配方法，由于模板庫巨大，一一對比需要消耗大量時間。而本發(fā)明無需模板匹配，提取特征即可快速分類識別。在真正的識別標題之前，先排除頁眉頁腳、側(cè)邊欄、水印中的文字，更是大大減少了標題識別的計算量和運行時間。

24、（2）本發(fā)明可以提高標題識別的正確率。對頁眉頁腳、側(cè)邊欄、水印的排除有效降低了錯誤識別率，而基于特征和關(guān)聯(lián)性的分辨標題更進一步提高了正確率。

25、綜上所述，本發(fā)明提高了用戶的使用體驗和滿意度，本發(fā)明還節(jié)約了開發(fā)維護成本。現(xiàn)有方案的模板庫需要不斷地擴充和維護，而本發(fā)明無需大量時間配置模板庫，也無需后續(xù)維護。

技術(shù)特征：

1.一種pdf文檔標題識別方法，其特征在于，包括：

2.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

3.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

4.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

5.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

6.如權(quán)利要求5所述的pdf文檔標題識別方法，其特征在于，

7.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

8.如權(quán)利要求1所述的pdf文檔標題識別方法，其特征在于，

技術(shù)總結(jié)
本發(fā)明公開了一種PDF文檔標題識別方法，包括：獲取PDF文檔的文字列表，識別所述文字列表中的頁眉頁腳、側(cè)邊欄文字和水印文字；將所述PDF文檔中文字劃分為文字段落，獲得文字段落列表；將所述文字段落劃分為若干特征相同的文字段落組，根據(jù)所述文字段落組篩選出候選標題組；基于所述候選標題組，確定候選標題組的標題等級。本發(fā)明提高了PDF文檔標題識別的效率和準確率，同時提高了用戶對標題識別的滿意度。

技術(shù)研發(fā)人員：吳強
受保護的技術(shù)使用者：賽博愛思（上海）軟件科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳強
技術(shù)所有人：賽博愛思（上海）軟件科技有限公司
我是此專利的發(fā)明人

上一篇：一種建筑垃圾土壤改良劑的制備裝置的制作方法
上一篇：一種可調(diào)節(jié)的機電設備安裝用底座的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種PDF文檔標題識別方法與流程