本發(fā)明涉及一種指令集標注,具體為一種大語言模型微調指令集自動標注方法和系統(tǒng)。
背景技術:
1、數(shù)據(jù)自動標注技術指的是通過機器學習或深度學習算法自動對數(shù)據(jù)進行標注,是一種常見的數(shù)據(jù)自動標注類型就是半監(jiān)督學習;半監(jiān)督技術指的是利用小部分的標注數(shù)據(jù)和大部分的未標注數(shù)據(jù)進行數(shù)據(jù)標注,可以在有限的標簽數(shù)據(jù)集上獲得更好的性能,以及充分利用未標注數(shù)據(jù)的信息。
2、目前的數(shù)據(jù)自動標注技術存在以下技術問題:
3、(1)標注的結果往往有準確率低的缺陷,因而在生成的標注結果時需要進行人工修正,然而人工修正需要修正數(shù)據(jù)人員對數(shù)據(jù)業(yè)務領域有一定的專業(yè)認知,修正結果也極大程度上易受到修正人員的主觀認知影響;
4、(2)將半監(jiān)督技術中的少量標注數(shù)據(jù)與大量未標注數(shù)據(jù)對齊是一個技術難題,使得半監(jiān)督技術往往會出現(xiàn)標注精度不足的問題;
5、例如:申請?zhí)枮?02211547222的發(fā)明專利提供了一種數(shù)據(jù)標注的技術方案:一種基于深度學習的半監(jiān)督數(shù)據(jù)自動標注方法,具體步驟包括:
6、首先,對待標注數(shù)據(jù)集中部分數(shù)據(jù)人工標注,將待標注數(shù)據(jù)集劃分為已標注數(shù)據(jù)集和未標注數(shù)據(jù)集;其次,基于bev深度學習算法對未標注數(shù)據(jù)集進行自動標注,獲取已標注數(shù)據(jù)集和新的未標注數(shù)據(jù)集;然后,對新的未標注數(shù)據(jù)集是否為空進行判斷;若新的未標注數(shù)據(jù)集不為空?,則基于二分類深度學習算法,對新的已標注數(shù)據(jù)集和新的未標注數(shù)據(jù)集進行評估;
7、該專利的技術方案具有如下幾個問題:
8、(1)bev深度學習算法效果受限,該算法在自動標注過程中可能產生一定的誤差;
9、(2)基于二分類深度學習算法來評估模型的有效性存疑,不僅需要根據(jù)初次分類結果進行模型微調(增加時間成本,使整個流程變得復雜,且微調效果收到各種因素影響,例如數(shù)據(jù)業(yè)務領域、初次分類結果、微調參數(shù)等)且利用二分類模型進行評估的指標參數(shù)定義也是有一定難度;
10、(3)實現(xiàn)一個完整的數(shù)據(jù)標注策略往往需要花費時間、開發(fā)成本編寫代碼來實現(xiàn)語料數(shù)據(jù)預處理、微調模型等功能,而若要修改數(shù)據(jù)標注策略,還需要重新修改代碼。這會帶來開發(fā)效率低下、靈活性低下等挑戰(zhàn)。
11、此外,相比于傳統(tǒng)領域的文本處理任務,法律領域的文本處理任務面臨著法律文件字數(shù)長、文件格式結構復雜等挑戰(zhàn),這在基于提示詞工程實現(xiàn)文本處理任務的過程中,需要通過系統(tǒng)配置嚴格符合法律領域文件要求的提示詞。在當前傳統(tǒng)的運用大語言模型做文本處理任務的方法中,無法針對法律垂直領域快速進行司法數(shù)據(jù)的快速解析、標注以及大語言模型在司法領域實現(xiàn)文本處理任務的賦能。
12、因此,基于現(xiàn)狀,急需對現(xiàn)有技術進行改進。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種大語言模型微調指令集自動標注方法及系統(tǒng),以解決上述背景技術中提出的問題。
2、一方面,本發(fā)明提供一種大語言模型微調指令集自動標注方法,具體步驟包括:
3、步驟s100:獲取待標注原始語料數(shù)據(jù),所述原始語料數(shù)據(jù)包括司法語料;
4、步驟s200:語料數(shù)據(jù)加工,基于語料加工組件通過正則表達式和sql語句對所述待標注原始語料數(shù)據(jù)進行脫敏和清洗預處理,其中,所述清洗預處理包括去除數(shù)據(jù)字段值中非地方性的法規(guī)、章條結構不合規(guī)的法規(guī)、章節(jié)標題不正確的法規(guī)、法規(guī)類型不匹配的法規(guī);
5、步驟s300:基于原始語料數(shù)據(jù)的場景,從大語言模型庫中匹配相應的預訓練的大語言模型對所述待標注原始語料數(shù)據(jù)進行標注,生成標注后的標簽字段,所述標簽字段為標注結果;
6、步驟s301:通過智能預標注算子接入預訓練的大語言模型,包括chatglm3-6b、qwen1.5-14b、qwen1.5-7b、qwen2-72b、書生浦語、oneke,根據(jù)當前待標注原始語料數(shù)據(jù)場景下的文本處理任務和數(shù)據(jù)屬性,選定用做標注的大語言模型,用于自然語言處理的文本處理任務;
7、步驟s302:基于智能預標注算子通過提示詞工程獲取提示詞,以引導大語言模型生成文本處理任務下的語義標注結果;
8、步驟s400:通過正則語句對所述標注后的標簽字段進行校驗,若校驗結果顯示不符合要求,則返回步驟s300重新生成標注,若校驗結果顯示符合要求,則進入步驟s500,所述校驗包括對標簽字段的數(shù)據(jù)內容和數(shù)據(jù)格式的校驗;所述正確的數(shù)據(jù)格式為json數(shù)組;
9、步驟s500:?根據(jù)原始語料數(shù)據(jù)的場景,將生成標注后的標簽字段基于sql進行組裝,形成匹配的大語言模型的微調訓練集,所述微調訓練集包括指令、輸入和輸出關鍵字段,所述指令用于指明大語言模型所要執(zhí)行的任務目標。
10、另一方面,本發(fā)明還提供如下技術方案一種大語言模型微調指令集自動標注系統(tǒng),包括:數(shù)據(jù)讀寫組件、語料加工組件、智能預標注算子和語料版本管理模塊;
11、所述數(shù)據(jù)讀寫組件包括:語料輸入組件和語料輸出組件,其中,所述語料輸入組件用于將語料原始數(shù)據(jù)接入語料庫;所述語料輸出組件將標注結果輸出到語料庫中存儲;語料庫通過數(shù)據(jù)讀寫組件與組件庫建立連接,可以從組件庫中直接調用數(shù)據(jù)讀寫組件、語料加工組件、智能預標注算子和語料版本管理模塊以創(chuàng)建語料數(shù)據(jù)標注策略;
12、所述語料加工組件包括:語料脫敏組件、語料清洗組件,其中,所述語料脫敏組件通過自行配置語料脫敏組件參數(shù)用于識別敏感內容的正則表達式實現(xiàn)脫敏;所述語料清洗組件通過自定義正則表達式和sql語句對將針對所選字段的字段值進行清洗處理;
13、所述智能預標注算子通過接入大語言模型,實現(xiàn)文本摘要任務、文本提綱生成任務、文本分類任務和文本實體關系的抽取任務的文本處理:
14、所述語料版本管理模塊用于展示各種語料標注策略生成的帶有版本編號的標注數(shù)據(jù),并提供多種文件格式類型的數(shù)據(jù)導出選項。
15、本發(fā)明具有如下有益效果:
16、(1)本發(fā)明基于語料輸入組件、語料加工組件、智能預標注算子、語料輸出組件和語料版本管理模塊創(chuàng)建語料數(shù)據(jù)標注策略,通過學習大量語料數(shù)據(jù),在廣泛的語料上進行了訓練,具備了良好的語義理解能力,能夠在不需要微調的情況下,直接生成高質量的標注結果。
17、(2)通過正則語句對標注結果進行校驗,確保生成的結果符合預定的內容和格式要求。這一校驗機制相當于對自動標注結果的一種“人工審查”,通過自動化的方式確保標注結果的準確性。
18、(3)整個系統(tǒng)通過模塊化設計,使得各個環(huán)節(jié)能夠獨立而高效地工作。用戶通過低代碼或零代碼的方式配置標注策略,從而在效率上超越傳統(tǒng)人工標注流程。
19、(4)通過預料版本管理模塊,用戶能夠追蹤和管理不同版本的標注結果,確保在自動化過程中仍能保持對標注質量的控制。
20、(5)面對司法數(shù)據(jù)中存在文件字數(shù)長、文件格式結構復雜的挑戰(zhàn),本發(fā)明通過對司法語料數(shù)據(jù)的處理,形成體系的司法數(shù)據(jù)解析和標注流程,為大語言模型在司法領域實現(xiàn)文本處理任務賦能。本發(fā)明相比現(xiàn)有技術中通過微調后的深度學習模型生成結果,本發(fā)明采用的大語言模型無需微調,而是直接在預訓練模型的基礎上通過提示詞工程得到生成結果,當需要調整生成能力時,用戶只需通過修改提示詞或在平臺的大語言模型庫中更換所需的大語言模型即可。這一方法顯著降低了模型調優(yōu)的復雜性,用戶可以在短時間內快速實現(xiàn)模型的適應性調整,避免了傳統(tǒng)深度學習方法中繁瑣的微調過程。