本發(fā)明涉及一種基于大數(shù)據(jù)的信息文件解析響應(yīng)管理系統(tǒng),屬于大數(shù)據(jù)處理和政務(wù)管理領(lǐng)域。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,“互聯(lián)網(wǎng)+”模式應(yīng)運(yùn)而生,并迅速滲透到社會(huì)生活的各領(lǐng)域;特別是在政務(wù)服務(wù)領(lǐng)域,“互聯(lián)網(wǎng)+政務(wù)服務(wù)”的新型服務(wù)模式正在悄然興起,為節(jié)約人力成本的同時(shí)切實(shí)為群眾提供更加便捷、高效的政務(wù)服務(wù);并且隨著部門數(shù)字化轉(zhuǎn)型的深入,信息文件的數(shù)量和復(fù)雜度不斷增加,傳統(tǒng)的手工處理方式已經(jīng)無(wú)法滿足現(xiàn)代政務(wù)管理的需求。
2、現(xiàn)有公告號(hào)為cn112615855b的發(fā)明專利一種基于政務(wù)秒批平臺(tái)的數(shù)據(jù)安全傳輸方法,屬于政務(wù)信息化領(lǐng)域。所述數(shù)據(jù)安全傳輸方法對(duì)客戶端政務(wù)秒批業(yè)務(wù)的請(qǐng)求數(shù)據(jù)進(jìn)行預(yù)處理,分別判定為待加密數(shù)據(jù)、敏感數(shù)據(jù)及普通數(shù)據(jù);對(duì)普通數(shù)據(jù),對(duì)所述請(qǐng)求數(shù)據(jù)進(jìn)行初步過(guò)濾,當(dāng)數(shù)據(jù)本身安全時(shí)即進(jìn)行傳輸;對(duì)待加密數(shù)據(jù),根據(jù)動(dòng)態(tài)密鑰請(qǐng)求生成動(dòng)態(tài)密鑰并反饋給客戶端,完成數(shù)據(jù)加密及通信加密;對(duì)敏感數(shù)據(jù),根據(jù)敏感點(diǎn)選擇加密規(guī)則進(jìn)行加密;在通信加密中,生成加密路徑,加密路徑中包含證書(shū),數(shù)據(jù)通過(guò)證書(shū)驗(yàn)證后通過(guò)檢查站完成傳輸及數(shù)據(jù)歸檔。
3、盡管現(xiàn)有技術(shù)實(shí)現(xiàn)了必要數(shù)據(jù)在傳輸時(shí)的數(shù)據(jù)安全和通信安全,確保數(shù)據(jù)的完整性,實(shí)現(xiàn)數(shù)據(jù)的快速流轉(zhuǎn),提高秒批業(yè)務(wù)的效率,真正實(shí)現(xiàn)政務(wù)的審批秒辦,但對(duì)于不同平臺(tái)或網(wǎng)站中的信息文件,文件內(nèi)容復(fù)雜且難以高效管理和處理。因此,本技術(shù)提供了一種基于大數(shù)據(jù)的信息文件解析響應(yīng)管理系統(tǒng),通過(guò)構(gòu)建語(yǔ)義解析模型對(duì)信息文件進(jìn)行深度解析,并自動(dòng)生成響應(yīng)策略,如對(duì)于涉及多個(gè)部門的協(xié)調(diào)事項(xiàng),系統(tǒng)會(huì)按照預(yù)設(shè)的規(guī)則分配責(zé)任部門或直接推送至責(zé)任人的工作界面,大大縮短了文件處理的時(shí)間,提升了部門工作的響應(yīng)速度和處理效率。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的信息文件解析響應(yīng)管理系統(tǒng),通過(guò)構(gòu)建對(duì)文件的自動(dòng)解析響應(yīng)體系,實(shí)現(xiàn)信息文件的自動(dòng)解析和快速響應(yīng),提升了文件的處理效率。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
3、一種基于大數(shù)據(jù)的信息文件解析響應(yīng)管理系統(tǒng),包括:數(shù)據(jù)采集模塊、預(yù)處理模塊、解析模塊、響應(yīng)模塊和存儲(chǔ)模塊;
4、所述數(shù)據(jù)采集模塊用于利用爬蟲(chóng)技術(shù)收集信息文件,并將所述信息文件實(shí)時(shí)傳送至所述存儲(chǔ)模塊;
5、所述預(yù)處理模塊用于對(duì)采集的原始信息文件進(jìn)行初步處理;
6、所述解析模塊用于對(duì)預(yù)處理后的信息文件進(jìn)行深度解析,提取所述信息文件的關(guān)鍵信息并挖掘潛在的關(guān)聯(lián)信息,生成解析文件;
7、所述解析模塊內(nèi)配置了用于解析紅頭文件的解析策略;
8、所述解析策略包括:
9、構(gòu)建語(yǔ)義模型,并利用所述語(yǔ)義模型對(duì)所述文件類型庫(kù)中的紅頭文件進(jìn)行解析,生成解析結(jié)果;
10、將解析結(jié)果保存至所述文件類型庫(kù)的所述紅頭文件中;
11、計(jì)算所述紅頭文件與目標(biāo)文件的相似度,所述目標(biāo)文件為所述文件類型庫(kù)中的其他紅頭文件;
12、設(shè)定相似度閾值為,判斷所述目標(biāo)文件是否為所述紅頭文件的關(guān)聯(lián)文件;若,所述目標(biāo)文件不為關(guān)聯(lián)文件;若,所述目標(biāo)文件為關(guān)聯(lián)文件;
13、基于所述紅頭文件的關(guān)聯(lián)文件,進(jìn)行關(guān)聯(lián)模擬分析,生成所述紅頭文件的指向趨勢(shì),并將所述指向趨勢(shì)和關(guān)聯(lián)文件保存至構(gòu)建的分析列表中;
14、所述響應(yīng)模塊用于根據(jù)所述解析文件自動(dòng)生成響應(yīng)文件,并根據(jù)預(yù)設(shè)的響應(yīng)渠道將所述響應(yīng)文件發(fā)送相關(guān)機(jī)構(gòu)或人員;
15、所述存儲(chǔ)模塊用于存儲(chǔ)各模塊生成的文件,并采用結(jié)構(gòu)化的存儲(chǔ)方式,以及數(shù)據(jù)加密和訪問(wèn)控制技術(shù)。
16、具體地,所述數(shù)據(jù)采集模塊內(nèi)配置有用于獲取信息文件的爬蟲(chóng)策略;
17、所述爬蟲(chóng)策略包括:
18、獲取目標(biāo)網(wǎng)站的基礎(chǔ)結(jié)構(gòu)和url規(guī)則;利用瀏覽器的開(kāi)發(fā)者工具查看所述目標(biāo)網(wǎng)站的網(wǎng)頁(yè)源代碼,并獲取目標(biāo)文件所在的html標(biāo)簽和屬性;
19、基于所述目標(biāo)網(wǎng)站的結(jié)構(gòu),編寫python爬蟲(chóng)代碼;
20、配置爬蟲(chóng)網(wǎng)絡(luò),避免被所述目標(biāo)網(wǎng)站封禁;
21、記錄爬蟲(chóng)的運(yùn)行日志,以便監(jiān)控爬蟲(chóng)的運(yùn)行狀態(tài)和排查問(wèn)題。
22、具體地,所述預(yù)處理模塊內(nèi)配置了用于對(duì)紅頭文件進(jìn)行初步處理的歸類策略;
23、所述歸類策略包括:
24、設(shè)計(jì)正則表達(dá)式以匹配所述紅頭文件中不同類型的文號(hào);
25、對(duì)所述紅頭文件進(jìn)行預(yù)處理;
26、使用所述正則表達(dá)式對(duì)預(yù)處理后的紅頭文件進(jìn)行匹配,提取所述紅頭文件的文號(hào)信息;
27、以文號(hào)+文件名的格式重新命名所述紅頭文件;
28、構(gòu)建文件類型庫(kù),并將所述紅頭文件保存至所述文件類型庫(kù)中以文號(hào)的部分信息為命名格式的子文件夾中。
29、具體地,構(gòu)建所述語(yǔ)義模型的步驟包括:
30、采集歷史紅頭文件,并對(duì)文件進(jìn)行數(shù)據(jù)清洗,將文件分為訓(xùn)練集和驗(yàn)證集;
31、利用bert分詞器將所述驗(yàn)證集中的紅頭文件轉(zhuǎn)換為詞序列;
32、利用 transformer的編碼器結(jié)構(gòu)將所述詞序列轉(zhuǎn)化為詞序列向量;
33、利用rnn提取所述詞序列向量中的隱藏序列向量;
34、定義文件中的情感序列向量為,并計(jì)算文件的平均情感向量;
35、經(jīng)過(guò)情感注意力機(jī)制的處理后,獲取文件的特征向量;
36、利用 softmax函數(shù)計(jì)算文件的情感概率 p,表達(dá)式如下所示:,式中,為權(quán)重矩陣,為偏置矩陣;
37、定義兩種情感級(jí)性,分別為正面和負(fù)面,并設(shè)定情感概率的閾值為,其中;若,情感級(jí)性為負(fù)面;若,情感級(jí)性為正面;
38、輸出紅頭文件的特征向量和情感級(jí)性;
39、利用所述驗(yàn)證集對(duì)所述語(yǔ)義模型進(jìn)行驗(yàn)證;若驗(yàn)證未通過(guò),擴(kuò)充訓(xùn)練集,并對(duì)模型繼續(xù)進(jìn)行訓(xùn)練;若驗(yàn)證通過(guò),所述語(yǔ)義模型構(gòu)建成功。
40、具體地,情感注意力機(jī)制的處理步驟包括:
41、基于所述平均情感向量,利用雙曲正切函數(shù)計(jì)算隱藏向量的情感得分,其中,為所述隱藏序列向量中第個(gè)隱藏向量,;
42、基于所述情感得分,利用指數(shù)函數(shù)獲取所述隱藏序列向量的注意力權(quán)重矩陣;
43、基于所述注意力權(quán)重矩陣,計(jì)算所述紅頭文件的特征向量。
44、具體地,所述相似度的計(jì)算步驟包括:
45、獲取所述紅頭文件和所述目標(biāo)文件的解析結(jié)果,并提取文件的特征向量和;
46、利用 jaccard相似度算法計(jì)算和之間的相似度,表達(dá)式如下所示:,式中,為特征向量、之間的交集特征量,為特征向量、之間的并集特征量。
47、具體地,所述關(guān)聯(lián)模擬分析的步驟包括:
48、提取紅頭文件和關(guān)聯(lián)文件的情感概率序列,計(jì)算每個(gè)時(shí)間段的情感概率均值序列;
49、計(jì)算所述紅頭文件中每個(gè)詞的tf-idf值,并根據(jù)所述tf-idf值的大小,選取排名靠前的個(gè)詞匯作為關(guān)鍵詞,并構(gòu)建關(guān)鍵詞序列;
50、計(jì)算每個(gè)時(shí)間段的關(guān)鍵詞概率序列;
51、利用線性回歸擬合所述情感概率均值序列和所述關(guān)鍵詞概率序列的趨勢(shì)走向,并生成趨勢(shì)折線圖;
52、構(gòu)建分析列表,并將所述趨勢(shì)折線圖和關(guān)聯(lián)文件的相關(guān)信息保存至所述分析列表中。
53、具體地,所述解析策略包括用于訪問(wèn)目標(biāo)網(wǎng)站中的普通信息文件并實(shí)時(shí)更新所述分析列表的更新邏輯;
54、所述更新邏輯包括:
55、獲取紅頭文件的所述關(guān)鍵詞序列以及對(duì)應(yīng)的tf-idf值;
56、根據(jù)tf-idf值構(gòu)建所述紅頭文件的關(guān)鍵詞權(quán)重矩陣;
57、利用所述紅頭文件的關(guān)鍵詞和關(guān)鍵詞權(quán)重矩陣構(gòu)建得分模型,所述得分模型中關(guān)聯(lián)度的表達(dá)式如下所示:,式中,為普通信息文件中關(guān)鍵詞的匹配得分,采用二進(jìn)制0或1表示;若普通信息文件中包含關(guān)鍵詞,;若不包含關(guān)鍵詞,;
58、獲取目標(biāo)網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)和url規(guī)則,使用requests庫(kù)發(fā)送http請(qǐng)求到所述目標(biāo)網(wǎng)站并獲取網(wǎng)頁(yè)內(nèi)容,使用beautiful?soup庫(kù)解析網(wǎng)頁(yè)內(nèi)容,獲取普通信息文件;
59、利用所述得分模型計(jì)算所述普通信息文件與所述紅頭文件的關(guān)聯(lián)度,并設(shè)置關(guān)聯(lián)度閾值;若,所述普通信息文件不為關(guān)聯(lián)文件;若,所述普通信息文件為關(guān)聯(lián)文件;
60、更新所述分析列表中的關(guān)聯(lián)文件信息,并利用所述關(guān)聯(lián)模擬分析實(shí)時(shí)更新所述分析列表。
61、具體地,所述響應(yīng)模塊包括響應(yīng)生成單元和發(fā)送單元;
62、所述響應(yīng)生成單元用于根據(jù)所述解析結(jié)果和分析列表生成響應(yīng)文件;
63、所述發(fā)送單元用于根據(jù)所述響應(yīng)文件、接收者的需求以及響應(yīng)文件的緊急程度進(jìn)行排隊(duì)等待,選擇抄送方式并發(fā)送所述響應(yīng)文件。
64、具體地,所述存儲(chǔ)模塊包括數(shù)據(jù)存儲(chǔ)單元和備份單元;
65、所述數(shù)據(jù)存儲(chǔ)單元用于實(shí)時(shí)接收各模塊產(chǎn)生的文件,構(gòu)建文件數(shù)據(jù)表,所述文件數(shù)據(jù)表根據(jù)抄送接收方分為多個(gè)數(shù)據(jù)子表,所述數(shù)據(jù)子表以接收方名稱命名;
66、所述備份單元用于根據(jù)設(shè)定的時(shí)間表自動(dòng)備份所述文件數(shù)據(jù)表,并將所述文件數(shù)據(jù)表保存至所述時(shí)間表中的對(duì)應(yīng)位置中;設(shè)置數(shù)據(jù)恢復(fù)功能,使得文件在丟失或損壞時(shí)從備份中恢復(fù)文件數(shù)據(jù)表。
67、本發(fā)明的有益效果:
68、利用爬蟲(chóng)技術(shù)抓取網(wǎng)絡(luò)中的紅頭文件,提取信息文件的關(guān)鍵信息,降低了人為錯(cuò)誤出現(xiàn)的概率,并對(duì)信息文件進(jìn)行分類以匹配相應(yīng)的響應(yīng)接收方;并對(duì)提取的關(guān)鍵信息進(jìn)行分析,文件進(jìn)行深度解析,發(fā)現(xiàn)文件之間的關(guān)聯(lián)和發(fā)展趨勢(shì),為部門決策提供支持;并基于解析結(jié)果生成響應(yīng)文件,實(shí)現(xiàn)信息文件的自動(dòng)解析和快速響應(yīng),減少了人工處理的時(shí)間和成本,提高政務(wù)處理效率。