一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法與流程

文檔序號(hào)：40637390發(fā)布日期：2025-01-10 18:43閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息處理，具體來(lái)說(shuō)是一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法。
背景技術(shù)：
：：1、當(dāng)前行業(yè)在采集公告結(jié)構(gòu)化數(shù)據(jù)時(shí)，主要依賴于基于gpu的大模型技術(shù)或基于x86架構(gòu)的office工具包，但這些技術(shù)與國(guó)產(chǎn)信創(chuàng)環(huán)境的兼容性尚未實(shí)現(xiàn)。此外，人工智能技術(shù)的應(yīng)用導(dǎo)致了軟硬件成本的增加，以及在處理長(zhǎng)篇公告時(shí)效率不高。上市公司公告的結(jié)構(gòu)復(fù)雜多變，對(duì)數(shù)據(jù)的需求更新迅速，而現(xiàn)有的定制化word提取工具的可擴(kuò)展性不足，每次增加新的提取需求都需要大量的開發(fā)資源。同時(shí)，現(xiàn)有技術(shù)在解析公告中的跨頁(yè)表格和無(wú)框表格等復(fù)雜情況時(shí)，效果并不理想，導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊，需要人工逐篇公告逐個(gè)內(nèi)容進(jìn)行核對(duì)和修正。2、因此，現(xiàn)在亟需開發(fā)一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，用于解決上述問題。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，用以適配信創(chuàng)環(huán)境實(shí)現(xiàn)兼容、降低軟硬件成本、提升處理長(zhǎng)篇公告時(shí)效、提升word數(shù)據(jù)提取工具的擴(kuò)展性、減少對(duì)于人工校對(duì)修正的需求。2、為了實(shí)現(xiàn)上述目的，設(shè)計(jì)一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，所述方法如下：s1.構(gòu)建提取內(nèi)容模版及查詢定位規(guī)則：提取內(nèi)容分為文本和表格兩種類型，用戶預(yù)先填寫提取內(nèi)容所在段落的正則表達(dá)式，若要提取句子中的某個(gè)關(guān)鍵字，編寫相應(yīng)正則表達(dá)式，若要提取表格內(nèi)容，選擇表格類型，包括寬表、窄表或信息點(diǎn)表，表格表頭支持別名功能，用戶通過(guò)維護(hù)同義詞字典，標(biāo)準(zhǔn)化提取的表頭內(nèi)容；s2.構(gòu)建目標(biāo)段落集：遍歷文檔元素，設(shè)第h個(gè)段落關(guān)鍵字命中，記為為，通過(guò)poi內(nèi)置方法計(jì)算出樣式級(jí)別，記為，繼續(xù)計(jì)算后續(xù)段落元素的樣式級(jí)別，當(dāng)字符編碼小于時(shí)，該段落為的子章節(jié)，將子章節(jié)加入結(jié)果集，直到遍歷到的同級(jí)段落，即計(jì)算第j個(gè)段落的樣式級(jí)別字符編碼等于時(shí)，停止遍歷，最終目標(biāo)段落集合ω表示為，其中；s3.文本及表格解析處理：s31.文本類型字段：根據(jù)預(yù)先設(shè)置的正則表達(dá)式列表在段落集中進(jìn)行匹配，命中后停止遍歷返回匹配結(jié)果；s32.表格提?。簊321.根據(jù)段落集中的table元素，創(chuàng)建表格實(shí)體，并用list<linkedhashmap<>>數(shù)據(jù)結(jié)構(gòu)存放提取內(nèi)容，使得json結(jié)構(gòu)化后仍保留原表格條目的順序；s322.創(chuàng)建新的一維表頭數(shù)組來(lái)存儲(chǔ)表頭信息，根據(jù)cttcpr樣式判斷單元格是水平合并還是垂直合并；s323.查找配置的表頭同義詞字典，若有同義詞，將表頭列名進(jìn)行替換；s324.根據(jù)配置的表格類型進(jìn)行數(shù)據(jù)組裝：若為寬表，則表格第一行作為固定key，同列下方單元格內(nèi)容為value，組成r個(gè)大小為c的linkedhashmap；若為窄表，按列組成linkedhashmap，即每行第一列的值作為固定的key，同行右側(cè)單元格內(nèi)容作為value，組成c個(gè)大小為r的linkedhashmap；信息點(diǎn)表適用于披露科目較多的長(zhǎng)表格，預(yù)先輸入科目關(guān)鍵字，匹配上包含關(guān)鍵字的單元格后，生成一個(gè)包含行名和列表的linkedhashmap，并根據(jù)多級(jí)編號(hào)及樣式縮進(jìn)判斷是否存在子科目，按上述操作將子條目的map也添加進(jìn)結(jié)果列表中，解析到同級(jí)科目后，停止表格遍歷。3、優(yōu)選地，本發(fā)明所述的方法還包括其他技術(shù)特征，其中所述s322具體如下：cttcpr樣式判斷單元格若為垂直合并，數(shù)組索引不變，表格索引加1，若為水平合并，數(shù)組填充相同值索引加1，表格索引加上水平合并的格數(shù)。4、優(yōu)選地，本發(fā)明所述的方法還包括其他技術(shù)特征，其中所述方法還包括s4.提取結(jié)果后處理：對(duì)提取的數(shù)值及日期做格式上標(biāo)準(zhǔn)化處理；s5.提取結(jié)果輸出：提取完畢后會(huì)將提取結(jié)果關(guān)聯(lián)文檔信息，組裝成json，以kafka消息推送的形式推送至下游系統(tǒng)。5、本發(fā)明同現(xiàn)有技術(shù)相比，其優(yōu)點(diǎn)在于：6、本發(fā)明采用openjdk?poi技術(shù)來(lái)解析word文檔，通過(guò)高度的配置化和靈活性，允許用戶根據(jù)需要定制提取規(guī)則，并通過(guò)正則表達(dá)式和同義詞字典來(lái)精確定位和處理文檔中的數(shù)據(jù)。同時(shí)，還考慮了表格數(shù)據(jù)的復(fù)雜性，通過(guò)不同的處理邏輯來(lái)適應(yīng)不同類型的表格結(jié)構(gòu)。最后，通過(guò)json和kafka的集成，實(shí)現(xiàn)了數(shù)據(jù)的標(biāo)準(zhǔn)化輸出和高效的數(shù)據(jù)流處理。本發(fā)明的技術(shù)方案在信創(chuàng)環(huán)境下的適配性體現(xiàn)在通過(guò)對(duì)底層xml進(jìn)行定制開發(fā)完成word的解析，僅使用cpu就有良好的執(zhí)行性能且支持多平臺(tái)運(yùn)行，解決對(duì)現(xiàn)有微軟office集成工具、windows系統(tǒng)及gpu的依賴，使其能夠與國(guó)產(chǎn)操作系統(tǒng)和軟件環(huán)境兼容，滿足國(guó)內(nèi)用戶對(duì)數(shù)據(jù)處理和信息安全的需求。經(jīng)過(guò)廣泛的文檔測(cè)試，與常規(guī)的公告抽取系統(tǒng)相比，我們?cè)O(shè)計(jì)的word提取流程和方法能夠更高效、更精確地自動(dòng)提取公告的關(guān)鍵要素，并迅速識(shí)別抽取失敗的模型，從而減輕人工審核的工作負(fù)擔(dān)。此外，系統(tǒng)的擴(kuò)展性良好，對(duì)于新要素的提取需求，可以通過(guò)簡(jiǎn)單地創(chuàng)建新的模型配置來(lái)實(shí)現(xiàn)，顯著降低了數(shù)據(jù)開發(fā)的工作量。技術(shù)特征：1.一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，其特征在于所述方法如下：2.如權(quán)利要求1所述的一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，其特征在于所述s322具體如下：cttcpr樣式判斷單元格若為垂直合并，數(shù)組索引不變，表格索引加1，若為水平合并，數(shù)組填充相同值索引加1，表格索引加上水平合并的格數(shù)。3.如權(quán)利要求1所述的一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，其特征在于所述方法還包括技術(shù)總結(jié)本發(fā)明涉及信息處理
技術(shù)領(lǐng)域：
：，具體來(lái)說(shuō)是一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法，所述方法如下：S1.構(gòu)建提取內(nèi)容模版及查詢定位規(guī)則；S2.構(gòu)建目標(biāo)段落集；S3.文本及表格解析處理；S4.提取結(jié)果后處理；S5.提取結(jié)果輸出。本發(fā)明同現(xiàn)有技術(shù)相比，其優(yōu)點(diǎn)在于：采用openjdk?poi技術(shù)來(lái)解析Word文檔，通過(guò)高度的配置化和靈活性，允許用戶根據(jù)需要定制提取規(guī)則，并通過(guò)正則表達(dá)式和同義詞字典來(lái)精確定位和處理文檔中的數(shù)據(jù)。通過(guò)JSON和Kafka的集成，實(shí)現(xiàn)了數(shù)據(jù)的標(biāo)準(zhǔn)化輸出和高效的數(shù)據(jù)流處理。本發(fā)明的技術(shù)方案在信創(chuàng)麒麟環(huán)境下的適配性體現(xiàn)在其能夠與國(guó)產(chǎn)操作系統(tǒng)和軟件環(huán)境兼容，滿足國(guó)內(nèi)用戶對(duì)數(shù)據(jù)處理和信息安全的需求。技術(shù)研發(fā)人員：張菁,趙洋明,包韶平,韓國(guó)棟,王輝,李小明,陸旸受保護(hù)的技術(shù)使用者：上證所信息網(wǎng)絡(luò)有限公司技術(shù)研發(fā)日：技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張菁,趙洋明,包韶平,韓國(guó)棟,王輝,李小明,陸旸
技術(shù)所有人：上證所信息網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：一種廣角型植物照明燈具的制作方法
上一篇：一種低重心萬(wàn)向腳輪的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法與流程