用于自定義表單的數(shù)據(jù)處理方法及系統(tǒng)與流程

文檔序號：40532158發(fā)布日期：2024-12-31 13:47閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及計算機，特別涉及一種用于自定義表單的數(shù)據(jù)處理方法及系統(tǒng)。

背景技術(shù)：

1、在現(xiàn)代企業(yè)運營中，尤其是跨業(yè)務(wù)線的環(huán)境中，對數(shù)據(jù)收集和處理的需求日益增長。為了滿足這些需求，企業(yè)開發(fā)了自定義表單功能，允許根據(jù)不同用戶群體的特定需求配置個性化的表單項。這些表單收集的數(shù)據(jù)對于理解客戶需求、優(yōu)化服務(wù)流程和提高客戶滿意度至關(guān)重要。

2、在現(xiàn)有技術(shù)中，自定義表單功能通常涉及創(chuàng)建半結(jié)構(gòu)化的數(shù)據(jù)存儲方式，以適應(yīng)不同表單的多樣化數(shù)據(jù)收集需求。當新的表單被創(chuàng)建時，系統(tǒng)管理員需要設(shè)計新的數(shù)據(jù)庫表結(jié)構(gòu)來存儲該表單的數(shù)據(jù)，并編寫或修改相應(yīng)的數(shù)據(jù)解析代碼以確保數(shù)據(jù)能夠被正確地解析和存儲，導(dǎo)致人力資源的浪費；同時隨著自定義表單數(shù)量的增加，半結(jié)構(gòu)化數(shù)據(jù)的存儲方式使得數(shù)據(jù)解析和分析變得更加復(fù)雜，影響了數(shù)據(jù)處理的效率。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供了一種用于自定義表單的數(shù)據(jù)處理方法及系統(tǒng)。為了對披露的實施例的一些方面有一個基本的理解，下面給出了簡單的概括。該概括部分不是泛泛評述，也不是要確定關(guān)鍵／重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念，以此作為后面的詳細說明的序言。

2、第一方面，本技術(shù)實施例提供了一種用于自定義表單的數(shù)據(jù)處理方法，方法包括：

3、接收來自不同產(chǎn)品線的自定義表單及其表單數(shù)據(jù)，表單數(shù)據(jù)包括至少一個鍵值對；

4、識別自定義表單的表單字段，表單字段是采用預(yù)先訓(xùn)練的動態(tài)解析算法模型進行動態(tài)解析得到的，預(yù)先訓(xùn)練的動態(tài)解析算法模型是用于自動識別和解析自定義表單中關(guān)鍵字段的神經(jīng)網(wǎng)絡(luò)；

5、將識別的各表單字段作為鍵，從鍵值對中，提取該鍵對應(yīng)的值，得到自定義表單的匹配數(shù)據(jù)；

6、根據(jù)預(yù)設(shè)數(shù)據(jù)轉(zhuǎn)換策略，將自定義表單的匹配數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)；

7、將結(jié)構(gòu)化數(shù)據(jù)存儲至clickhouse數(shù)據(jù)庫，并對存儲的結(jié)構(gòu)化數(shù)據(jù)進行可視化展示。

8、可選的，對存儲的結(jié)構(gòu)化數(shù)據(jù)進行可視化，包括：

9、從clickhouse數(shù)據(jù)庫中，讀取結(jié)構(gòu)化數(shù)據(jù)；

10、分析結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)特征點；

11、根據(jù)數(shù)據(jù)特征點，從圖表類型庫中選擇最優(yōu)圖表類型；

12、根據(jù)最優(yōu)圖表類型，對結(jié)構(gòu)化數(shù)據(jù)進行處理，得到圖表；

13、將圖表發(fā)送至客戶端進行可視化展示。

14、可選的，識別自定義表單的表單字段，包括：

15、加載預(yù)先訓(xùn)練的動態(tài)解析算法模型；

16、在自定義表單為圖像格式或者pdf格式的情況下，采用光學(xué)字符識別技術(shù)將自定義表單轉(zhuǎn)換為可讀的文本格式，得到表單描述文本；

17、將表單描述文本輸入預(yù)先訓(xùn)練的動態(tài)解析算法模型中，以對表單描述文本進行動態(tài)解析；

18、輸出表單描述文本對應(yīng)的字段名稱序列；

19、將字段名稱序列作為識別的各表單字段。

20、可選的，預(yù)先訓(xùn)練的動態(tài)解析算法模型包括參數(shù)提取層、特征提取層、特征解析層、字段匹配層以及關(guān)鍵字段確定層；

21、對表單描述文本進行動態(tài)解析，包括：

22、參數(shù)提取層從表單描述文本中，提取短語、標題以及標簽，得到非結(jié)構(gòu)化數(shù)據(jù)；

23、特征提取層提取非結(jié)構(gòu)化數(shù)據(jù)的特征，得到表單特征信息；

24、特征解析層基于表單特征信息進行解析，以識別自定義表單中的所有字段；

25、字段匹配層將所有字段與預(yù)定義的字段模板相匹配，得到多個匹配字段；

26、關(guān)鍵字段確定層采用分類器對多個匹配字段進行分類，以識別多個匹配字段中存在的預(yù)設(shè)關(guān)鍵類型的關(guān)鍵字段，得到表單描述文本對應(yīng)的字段名稱序列。

27、可選的，按照以下步驟生成預(yù)先訓(xùn)練的動態(tài)解析算法模型，包括：

28、收集覆蓋預(yù)設(shè)多種業(yè)務(wù)場景且包括不同格式的自定義表單樣本；

29、對不同格式的自定義表單樣本進行預(yù)處理，得到歷史表單描述文本，預(yù)處理包含基于光學(xué)字符識別技術(shù)的圖像轉(zhuǎn)換、文本數(shù)據(jù)的清洗和標準化；

30、創(chuàng)建用于提取短語、標題和標簽的參數(shù)提取層；創(chuàng)建用于提取表單特征信息的特征提取層；使用自然語言處理技術(shù)創(chuàng)建特征解析層；創(chuàng)建用于將識別出的字段與預(yù)定義的字段模板進行匹配的字段匹配層；采用隨機森林神經(jīng)網(wǎng)絡(luò)創(chuàng)建分類器作為關(guān)鍵字段確定層；將參數(shù)提取層、特征提取層、特征解析層、字段匹配層以及關(guān)鍵字段確定層集成為動態(tài)解析算法模型；

31、根據(jù)歷史表單描述文本，生成模型訓(xùn)練樣本；

32、將模型訓(xùn)練樣本輸入動態(tài)解析算法模型中進行機器學(xué)習，輸出模型損失值；

33、在模型損失值到達最小的情況下，生成預(yù)先訓(xùn)練的動態(tài)解析算法模型。

34、可選的，根據(jù)歷史表單描述文本，生成模型訓(xùn)練樣本，包括：

35、采用參數(shù)提取層從歷史表單描述文本中，獲取短語、標題以及標簽，得到歷史非結(jié)構(gòu)化數(shù)據(jù)；

36、響應(yīng)于針對非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)標注指令，獲取針對歷史非結(jié)構(gòu)化數(shù)據(jù)標注的歷史字段名稱標簽，歷史字段名稱標簽包括正樣本和負樣本；

37、將歷史非結(jié)構(gòu)化數(shù)據(jù)和歷史字段名稱標簽進行映射關(guān)聯(lián)，得到關(guān)聯(lián)的非結(jié)構(gòu)化數(shù)據(jù)和字段名稱標簽，作為模型訓(xùn)練樣本；其中，

38、將模型訓(xùn)練樣本輸入動態(tài)解析算法模型中進行機器學(xué)習，輸出模型損失值，包括：

39、將關(guān)聯(lián)的非結(jié)構(gòu)化數(shù)據(jù)和字段名稱序列依次輸入特征提取層、特征解析層、字段匹配層以及關(guān)鍵字段確定層進行機器學(xué)習，輸出模型損失值。

40、可選的，分類器的損失函數(shù)為：

41、

42、其中，為模型損失值，是分類器對正樣本的預(yù)測概率，是平衡正樣本與負樣本的權(quán)重，是聚焦參數(shù)，的值大于0時，用于減少對分類器預(yù)測概率高的樣本的關(guān)注程度。

43、可選的，預(yù)設(shè)數(shù)據(jù)轉(zhuǎn)換策略包括數(shù)據(jù)預(yù)處理模塊以及字段映射模塊，自定義表單的匹配數(shù)據(jù)為識別的各表單字段對應(yīng)的值；

44、根據(jù)預(yù)設(shè)數(shù)據(jù)轉(zhuǎn)換策略，將自定義表單的匹配數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，包括：

45、采用數(shù)據(jù)預(yù)處理模塊，對識別的各表單字段對應(yīng)的值進行噪聲去除、格式統(tǒng)一化以及缺失值處理，得到識別的各表單字段對應(yīng)的最終值；

46、采用字段映射模塊，從數(shù)據(jù)庫的標準字段中，獲取識別的各表單字段對應(yīng)的標準字段；

47、獲取識別的各表單字段對應(yīng)的標準字段的數(shù)據(jù)格式，作為識別的各表單字段對應(yīng)的目標數(shù)據(jù)格式；

48、根據(jù)識別的各表單字段對應(yīng)的目標數(shù)據(jù)格式，將識別的各表單字段對應(yīng)的最終值進行格式轉(zhuǎn)換，得到識別的各表單字段對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)；

49、將識別的各表單字段對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)作為自定義表單的結(jié)構(gòu)化數(shù)據(jù)。

50、可選的，從數(shù)據(jù)庫的標準字段中，獲取識別的各表單字段對應(yīng)的標準字段，包括：

51、從數(shù)據(jù)庫的標準字段中，獲取每個標準字段的第一字段名稱、第一字段類型以及第一值范圍；

52、獲取識別的各表單字段的第二字段名稱以及第二字段類型；

53、從識別的各表單字段對應(yīng)的最終值中，獲取識別的各表單字段對應(yīng)的第二值范圍；

54、根據(jù)每個標準字段的第一字段名稱與識別的各表單字段的第二字段名稱，計算每個標準字段與識別的各表單字段的名稱相似度；

55、根據(jù)每個標準字段的第一字段類型與識別的各表單字段的第二字段類型，計算每個標準字段與識別的各表單字段的類型相似度；

56、根據(jù)每個標準字段的第一值范圍與識別的各表單字段的第二值范圍，計算每個標準字段與識別的各表單字段的值范圍相似度；

57、基于名稱相似度、類型相似度以及值范圍相似度，計算識別的各表單字段與每個標準字段的綜合相似度；

58、從識別的各表單字段與每個標準字段的綜合相似度中，選取最大綜合相似度對應(yīng)的標準字段作為識別的各表單字段對應(yīng)的標準字段。

59、第二方面，本技術(shù)實施例提供了一種用于自定義表單的數(shù)據(jù)處理系統(tǒng)，系統(tǒng)包括：

60、數(shù)據(jù)接收模塊，用于接收來自不同產(chǎn)品線的自定義表單及其表單數(shù)據(jù)，表單數(shù)據(jù)包括至少一個鍵值對；

61、字段識別模塊，用于識別自定義表單的表單字段，表單字段是采用預(yù)先訓(xùn)練的動態(tài)解析算法模型進行動態(tài)解析得到的，預(yù)先訓(xùn)練的動態(tài)解析算法模型是用于自動識別和解析自定義表單中關(guān)鍵字段的神經(jīng)網(wǎng)絡(luò)；

62、表單數(shù)據(jù)確定模塊，用于將識別的各表單字段作為鍵，從鍵值對中，提取該鍵對應(yīng)的值，得到自定義表單的匹配數(shù)據(jù)；

63、表單數(shù)據(jù)轉(zhuǎn)換模塊，用于根據(jù)預(yù)設(shè)數(shù)據(jù)轉(zhuǎn)換策略，將自定義表單的匹配數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)；

64、可視化模塊，用于將結(jié)構(gòu)化數(shù)據(jù)存儲至clickhouse數(shù)據(jù)庫，并對存儲的結(jié)構(gòu)化數(shù)據(jù)進行可視化展示。

65、本技術(shù)實施例提供的技術(shù)方案可以包括以下有益效果：

66、在本技術(shù)實施例中，一方面，采用預(yù)先訓(xùn)練的動態(tài)解析算法模型可實現(xiàn)識別自定義表單的表單字段，該動態(tài)解析算法模型能夠適應(yīng)不同格式的自定義表單，使得系統(tǒng)更加靈活，能夠處理多樣化的數(shù)據(jù)輸入，從而減少了人工干預(yù)，提高了數(shù)據(jù)處理的效率和準確性。另一方面，通過預(yù)設(shè)的數(shù)據(jù)轉(zhuǎn)換策略，將匹配數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，確保了數(shù)據(jù)的一致性和標準化，同時結(jié)構(gòu)化數(shù)據(jù)被存儲至clickhouse數(shù)據(jù)庫，clickhouse數(shù)據(jù)庫是一個專為在線分析處理設(shè)計的高性能數(shù)據(jù)庫，使得數(shù)據(jù)可以支持實時查詢和分析，通過實時的數(shù)據(jù)分析和直觀的可視化展示，決策者可以更快地獲取洞察，做出更加精準的業(yè)務(wù)決策。

67、應(yīng)當理解的是，以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的，并不能限制本技術(shù)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王克飛,徐超,應(yīng)春紅,應(yīng)立鋒
技術(shù)所有人：蒲惠智造科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自定義表單系統(tǒng)相關(guān)技術(shù)

自定義信息管理系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于自定義表單的數(shù)據(jù)處理方法及系統(tǒng)與流程