預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品與流程

文檔序號：40637454發(fā)布日期：2025-01-10 18:43閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品與流程

本發(fā)明涉及計算機模型訓(xùn)練，尤其涉及一種中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、大語言模型訓(xùn)練方法、設(shè)備、存儲介質(zhì)及產(chǎn)品。

背景技術(shù)：

1、大型語言模型（large?language?model，llm）的成功主要歸功于大量高質(zhì)量的預(yù)訓(xùn)練語料庫的可用性，這些語料庫為大型語言模型在各種任務(wù)（從創(chuàng)意寫作到復(fù)雜問題解決）中的基礎(chǔ)知識和推理能力提供了支持。其中，開源數(shù)據(jù)集（例如the?pile和commoncrawl）在推動llm的發(fā)展、促進合作和建立創(chuàng)新基準方面發(fā)揮了重要作用。

2、現(xiàn)有研究者更關(guān)注擴展高質(zhì)量數(shù)據(jù)。目前，預(yù)訓(xùn)練數(shù)據(jù)的需求已經(jīng)超過了10萬億個標記，突顯了英語預(yù)訓(xùn)練中的兩個關(guān)鍵方向：擴展數(shù)據(jù)規(guī)模和提高數(shù)據(jù)質(zhì)量。開源數(shù)據(jù)集迅速擴大，從the?pile（825gb）等集合發(fā)展到更大規(guī)模的數(shù)據(jù)集，例如fineweb（15tb），后者大量借鑒了common?crawl語料庫。同時，重點從早期項目中基于規(guī)則的過濾方法轉(zhuǎn)向了以模型驅(qū)動的方法，例如fineweb-edu數(shù)據(jù)集所展示的。

3、盡管英語開源數(shù)據(jù)集的快速進步，中文數(shù)據(jù)在全球網(wǎng)絡(luò)中的代表性仍然嚴重不足?，F(xiàn)有的開源中文數(shù)據(jù)集（例如wudao、skypile150b和wanjuanv1）由于互聯(lián)網(wǎng)中文數(shù)據(jù)源的稀缺，在規(guī)模上受到限制。此外，針對提升中文網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量分類的研究也較為有限，導(dǎo)致中文數(shù)據(jù)整體質(zhì)量不佳。這些挑戰(zhàn)為高性能中文大語言模型的發(fā)展帶來了巨大障礙，突顯出更有效的數(shù)據(jù)過濾和質(zhì)量分類方法的迫切需求。

技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品，以解決開源中文數(shù)據(jù)集稀缺且整體質(zhì)量不佳的問題。

2、第一方面，本發(fā)明提供了一種中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，包括：

3、獲取原始中文文本數(shù)據(jù)；

4、對所述原始中文文本數(shù)據(jù)進行清洗處理，得到中文文本語料集；

5、利用開源大語言模型對所述中文文本語料集中的部分文本進行質(zhì)量評分標注，得到帶標簽的樣本；

6、利用帶標簽的樣本對分類器進行訓(xùn)練，得到高質(zhì)量分類器；

7、利用高質(zhì)量分類器對所述中文文本語料集進行質(zhì)量分類，得到高質(zhì)量的中文文本預(yù)訓(xùn)練數(shù)據(jù)集。

8、進一步地，對所述原始中文文本數(shù)據(jù)進行清洗處理，得到中文文本語料集，包括：

9、對所述原始中文文本數(shù)據(jù)進行內(nèi)容安全過濾處理，以濾除包含不安全內(nèi)容的數(shù)據(jù)；

10、對內(nèi)容安全過濾處理后的中文文本數(shù)據(jù)進行提取和清理處理，以刪除無效字段和獲取有效字段；

11、對提取和清理處理后的中文文本數(shù)據(jù)進行去重處理；

12、對去重處理后的中文文本數(shù)據(jù)進行啟發(fā)式規(guī)則過濾，消除異常值和過度重復(fù)內(nèi)容；

13、利用基礎(chǔ)質(zhì)量分類器對啟發(fā)式規(guī)則過濾后的中文文本數(shù)據(jù)進行初步質(zhì)量評估，得到中文文本語料集。

14、進一步地，利用docparser解析器對內(nèi)容安全過濾處理后的中文文本數(shù)據(jù)進行提取和清理；

15、采用minhash算法對提取和清理處理后的中文文本數(shù)據(jù)進行去重處理。

16、進一步地，所述開源大語言模型選用qwen2-72b-instruct模型，且所述qwen2-72b-instruct模型根據(jù)fineweb-edu數(shù)據(jù)集中的質(zhì)量評分方法對所述中文文本語料集中的部分文本進行質(zhì)量評分標注。

17、進一步地，所述分類器是在bge-m3向量模型的基礎(chǔ)上增加一個分類頭來得到的。

18、進一步地，在所述分類器訓(xùn)練時，凍結(jié)所述bge-m3向量模型的嵌入層和編碼層，僅訓(xùn)練新增的分類頭。

19、第二方面，本發(fā)明還提供一種大語言模型訓(xùn)練方法，包括：

20、利用如上所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法構(gòu)建高質(zhì)量的中文文本預(yù)訓(xùn)練數(shù)據(jù)集；

21、利用所述高質(zhì)量的中文文本預(yù)訓(xùn)練數(shù)據(jù)集對所述大語言模型進行訓(xùn)練和驗證。

22、第三方面，本發(fā)明還提供一種電子設(shè)備，包括存儲器、處理器以及存儲在存儲器上的計算機程序/指令，所述處理器執(zhí)行所述計算機程序/指令以實現(xiàn)如前所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或大語言模型訓(xùn)練方法中的步驟。

23、第四方面，本發(fā)明還提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序/指令，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如前所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或大語言模型訓(xùn)練方法中的步驟。

24、第五方面，本發(fā)明還提供一種計算機程序產(chǎn)品，包括計算機程序/指令，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如前所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或大語言模型訓(xùn)練方法中的步驟。

25、本發(fā)明提供的一種中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法包括基礎(chǔ)處理和高質(zhì)量處理兩個階段，在基礎(chǔ)處理階段對原始中文文本數(shù)據(jù)進行初步質(zhì)量評估；在高質(zhì)量處理階段，通過先借助qwen2-72b-instruct大尺寸模型識別出高質(zhì)量樣本，然后利用高質(zhì)量樣本訓(xùn)練得到一個5億參數(shù)的高質(zhì)量分類器，最后使用該高質(zhì)量分類器對億規(guī)模的初步質(zhì)量評估后的樣本進行高效過濾，生成最終高質(zhì)量的中文文本預(yù)訓(xùn)練數(shù)據(jù)集。本發(fā)明大幅提高了中文數(shù)據(jù)的整體質(zhì)量，進而為高性能中文大語言模型的訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。

技術(shù)特征：

1.一種中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，所述構(gòu)建方法包括：

2.根據(jù)權(quán)利要求1所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，對所述原始中文文本數(shù)據(jù)進行清洗處理，得到中文文本語料集，包括：

3.根據(jù)權(quán)利要求2所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，利用docparser解析器對內(nèi)容安全過濾處理后的中文文本數(shù)據(jù)進行提取和清理；

4.根據(jù)權(quán)利要求1所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，所述開源大語言模型選用qwen2-72b-instruct模型，且所述qwen2-72b-instruct模型根據(jù)fineweb-edu數(shù)據(jù)集中的質(zhì)量評分方法對所述中文文本語料集中的部分文本進行質(zhì)量評分標注。

5.根據(jù)權(quán)利要求1至4中任一項所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，所述分類器是在bge-m3向量模型的基礎(chǔ)上增加一個分類頭來得到的。

6.根據(jù)權(quán)利要求5所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法，其特征在于，在所述分類器訓(xùn)練時，凍結(jié)所述bge-m3向量模型的嵌入層和編碼層，僅訓(xùn)練新增的分類頭。

7.一種大語言模型訓(xùn)練方法，其特征在于，所述訓(xùn)練方法包括：

8.一種電子設(shè)備，包括存儲器、處理器以及存儲在存儲器上的計算機程序/指令，其特征在于，所述處理器執(zhí)行所述計算機程序/指令以實現(xiàn)如權(quán)利要求1至6中任一項所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或如權(quán)利要求7所述的大語言模型訓(xùn)練方法中的步驟。

9.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序/指令，其特征在于，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或如權(quán)利要求7所述的大語言模型訓(xùn)練方法中的步驟。

10.一種計算機程序產(chǎn)品，包括計算機程序/指令，其特征在于，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的中文文本預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法或如權(quán)利要求7所述的大語言模型訓(xùn)練方法中的步驟。

技術(shù)總結(jié)
本發(fā)明公開了預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品，涉及計算機模型訓(xùn)練技術(shù)領(lǐng)域。所述構(gòu)建方法包括獲取原始中文文本數(shù)據(jù)；對所述原始中文文本數(shù)據(jù)進行清洗處理，得到中文文本語料集；利用開源大語言模型對中文文本語料集中的部分文本進行質(zhì)量評分標注，得到帶標簽的樣本；利用帶標簽的樣本對分類器進行訓(xùn)練，得到高質(zhì)量分類器；利用高質(zhì)量分類器對所述中文文本語料集進行質(zhì)量分類，得到高質(zhì)量的中文文本預(yù)訓(xùn)練數(shù)據(jù)集。本發(fā)明大幅提高了中文數(shù)據(jù)的整體質(zhì)量，進而為高性能中文大語言模型的訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。

技術(shù)研發(fā)人員：王良棟,張博文,谷舒豪,李季杰,劉廣
受保護的技術(shù)使用者：北京智源人工智能研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王良棟,張博文,谷舒豪,李季杰,劉廣
技術(shù)所有人：北京智源人工智能研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品與流程

預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)建方法、訓(xùn)練方法、設(shè)備、介質(zhì)及產(chǎn)品與流程