基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法

文檔序號：39900982發(fā)布日期：2024-11-05 17:08閱讀：16502來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明提供一種基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，屬于語言處理方法。

背景技術(shù)：

1、語言模型是自然語言處理的基礎(chǔ)，它旨在計(jì)算一段文本出現(xiàn)的概率。通過理解語言的結(jié)構(gòu)和規(guī)律，語言模型能夠?yàn)楦鞣N自然語言處理任務(wù)提供必要的基礎(chǔ)。

2、傳統(tǒng)的語言模型依賴于統(tǒng)計(jì)方法，如n-gram模型，但這些模型受限于數(shù)據(jù)稀疏和無法有效處理長距離依賴問題。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的語言模型開始流行。這些模型能夠更好地捕捉語言的復(fù)雜性和長期依賴關(guān)系。

3、語言模型在自然語言處理的多個(gè)領(lǐng)域都有廣泛應(yīng)用，包括但不限于機(jī)器翻譯、語音識別、文本生成、情感分析等。它們?yōu)檫@些任務(wù)提供了強(qiáng)大的基礎(chǔ)架構(gòu)，使得任務(wù)性能得到顯著提升。

4、隨著計(jì)算資源的增強(qiáng)和大規(guī)模數(shù)據(jù)集的可用，預(yù)訓(xùn)練語言模型成為自然語言處理領(lǐng)域的一個(gè)突破。預(yù)訓(xùn)練語言模型通過在大量文本上學(xué)習(xí)語言的通用表示，能夠?yàn)橄掠稳蝿?wù)提供豐富的知識。

5、預(yù)訓(xùn)練語言模型通常由大規(guī)模語料庫、先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和自監(jiān)督學(xué)習(xí)任務(wù)組成。這些組成部分共同作用，使得模型能夠?qū)W習(xí)到語言的深層次特征。

6、預(yù)訓(xùn)練語言模型如bert、gpt等在多個(gè)自然語言處理任務(wù)中取得了巨大成功。它們通過微調(diào)的方式適應(yīng)特定任務(wù)，極大地提高了任務(wù)的性能和效率。

7、盡管通用預(yù)訓(xùn)練模型在多個(gè)領(lǐng)域取得了成功，但它們可能無法充分適應(yīng)特定領(lǐng)域的語言特點(diǎn)和需求。通用預(yù)訓(xùn)練語言模型參數(shù)規(guī)模巨大且分詞方法局限，這可能導(dǎo)致在某些專業(yè)領(lǐng)域的任務(wù)上性能不足。

8、為了解決通用預(yù)訓(xùn)練語言模型的局限性，研究者開始探索特定領(lǐng)域的預(yù)訓(xùn)練語言模型。這些模型通過在特定領(lǐng)域的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，能夠更好地理解和處理領(lǐng)域特有的語言現(xiàn)象和知識，從而在專業(yè)領(lǐng)域內(nèi)提供更準(zhǔn)確的服務(wù)。

9、當(dāng)前主流的語言模型，如gpt-3和bert等，通常具有數(shù)十億甚至數(shù)千億的參數(shù)。這些大型模型雖然在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色，但它們的大規(guī)模參數(shù)也帶來了顯著的計(jì)算和存儲需求。這些需求對于實(shí)時(shí)業(yè)務(wù)場景來說是一個(gè)挑戰(zhàn)，因?yàn)閷?shí)時(shí)業(yè)務(wù)往往需要快速響應(yīng)和低延遲的處理能力。此外，大規(guī)模模型的部署和維護(hù)成本也相對較高，這可能限制了它們在資源受限的環(huán)境中的應(yīng)用。

10、傳統(tǒng)的語言模型往往基于單個(gè)字進(jìn)行分詞，這種方法在處理一些語言(如英語)時(shí)效果較好，因?yàn)檫@些語言的單詞邊界清晰。然而，對于中文等語言，單個(gè)字的分詞方法無法有效捕捉詞語之間的語義關(guān)系，這在經(jīng)濟(jì)安全領(lǐng)域尤為重要，因?yàn)樵擃I(lǐng)域的文本通常包含大量的專業(yè)術(shù)語和復(fù)合詞。此外，歧義詞和未登錄詞的問題也使得基于單個(gè)字的分詞方法在實(shí)際應(yīng)用中面臨挑戰(zhàn)。為了更好地適應(yīng)這種需求，需要開發(fā)能夠識別和處理詞語級別信息的分詞技術(shù)，以提高模型在經(jīng)濟(jì)安全領(lǐng)域的準(zhǔn)確性和可靠性。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的核心在于構(gòu)建一種專門針對經(jīng)濟(jì)安全領(lǐng)域，即經(jīng)偵領(lǐng)域的語言模型。這種模型通過深度學(xué)習(xí)自然語言處理的先進(jìn)技術(shù)，結(jié)合專為該領(lǐng)域定制的詞典和精心挑選的語料庫進(jìn)行訓(xùn)練，以提高對經(jīng)偵領(lǐng)域文本數(shù)據(jù)的理解和處理能力。該模型的設(shè)計(jì)使其能夠作為多種自然語言處理下游任務(wù)的預(yù)訓(xùn)練基礎(chǔ)，這些任務(wù)包括但不限于：

2、(1)詞槽填充：在某些文本中，特定的信息可能被隱藏或未明確表示，詞槽填充任務(wù)旨在預(yù)測這些缺失的信息。

3、(2)句法糾錯：通過識別和糾正句子中的語法錯誤，提高文本質(zhì)量。

4、文本生成(自回歸任務(wù))：基于給定的上下文生成連貫的文本序列。

5、(3)輿情情感分析(文本分類任務(wù))：通過分析文本中的情感傾向，對公眾對某一事件或主題的看法進(jìn)行分類和理解。

6、(4)命名實(shí)體識別(序列標(biāo)注任務(wù))：識別文本中的特定實(shí)體(如人名、地點(diǎn)、組織等)，并對其進(jìn)行分類。

7、(5)語義相似度計(jì)算：通過比較不同文本之間的語義內(nèi)容，評估它們的相似性或差異性。

8、問答系統(tǒng)：構(gòu)建能夠理解用戶問題并提供準(zhǔn)確答案的系統(tǒng)。

9、本發(fā)明具體的技術(shù)方案為：

10、基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，包括以下步驟：

11、步驟一：數(shù)據(jù)獲??；

12、選擇公開網(wǎng)站作為數(shù)據(jù)源獲取數(shù)據(jù)；

13、步驟二：數(shù)據(jù)預(yù)處理；

14、(2.1)對獲取的原始數(shù)據(jù)進(jìn)行清洗，去除無用信息，保留有價(jià)值的文本內(nèi)容；

15、(2.2)加入經(jīng)偵領(lǐng)域的專有名詞詞典；

16、(2.3)從整體語料中隨機(jī)抽取15％的詞語進(jìn)行mask；

17、(2.4)組織上下文訓(xùn)練語料，格式為語料中每兩個(gè)連續(xù)的sentence，定義起始符，句子中間用分隔符隔開，以此定義為正樣本，以第二個(gè)sentence為預(yù)料中隨機(jī)抽取到的定義為負(fù)樣本；

18、步驟三：模型搭建：

19、(3.1)隨機(jī)初始化詞嵌入矩陣，獲取靜態(tài)的詞向量；

20、(3.2)定義句子編碼器層；

21、(3.3)定義位置編碼器層；

22、(3.4)采用雙向的transformer模型作為特征提取器，聯(lián)系了上下文語義關(guān)系補(bǔ)貨句子中潛在的隱語義表征；

23、(3.5)在attention注意力機(jī)制中加入了mask遮蔽功能，即：不讓模型在自回歸預(yù)測時(shí)提前看到了真實(shí)答案；

24、步驟四：預(yù)訓(xùn)練任務(wù)設(shè)計(jì)；

25、(4.1)mlm，，在encoder的輸出上添加一個(gè)分類層,用嵌入矩陣乘以輸出向量，將其轉(zhuǎn)換為詞匯的維度,用softmax計(jì)算mask中每個(gè)單詞的概率，對比原來的label，計(jì)算損失；

26、(4.2)nsp，用一個(gè)簡單的分類層將[cls]標(biāo)記的輸出變換為2×1形狀的向量，用softmax計(jì)算isnextsequence的概率；

27、步驟五：模型訓(xùn)練；

28、使用4個(gè)g的語料，在2張3090顯卡的gpu服務(wù)器訓(xùn)練5天；

29、步驟六：模型評估；

30、在模型訓(xùn)練完成后，通過評估指標(biāo)和任務(wù)來測試模型的性能，確保模型達(dá)到預(yù)期的效果。

31、進(jìn)一步的，步驟(2.3)從整體語料中隨機(jī)抽取15％的詞語進(jìn)行mask，其中：

32、百分之80％的詞用[mask]替代；

33、百分之10％的詞保留了原始真實(shí)值；

34、百分之10％的詞用語料中的隨機(jī)詞語替代。

35、步驟(3.3)中，偶數(shù)位置采用sin函數(shù)的編碼映射，奇數(shù)位置采用cos函數(shù)的編碼映射。

36、本發(fā)明具有的技術(shù)效果：

37、(1)參數(shù)量更少，模型更加輕量級，適合支持實(shí)時(shí)業(yè)務(wù)；

38、(2)語義分析結(jié)合到了上下文信息；

39、(3)支持并行計(jì)算；

40、(4)真正意義上的一個(gè)懂得經(jīng)偵領(lǐng)域知識的語義模型。

技術(shù)特征：

1.基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，其特征在于，步驟(2.3)從整體語料中隨機(jī)抽取15％的詞語進(jìn)行mask，其中：

3.根據(jù)權(quán)利要求1所述的基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，其特征在于，步驟(3.3)中，偶數(shù)位置采用sin函數(shù)的編碼映射，奇數(shù)位置采用cos函數(shù)的編碼映射。

技術(shù)總結(jié)
本發(fā)明提供一種基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法，包括：對獲取的原始數(shù)據(jù)進(jìn)行清洗，加入經(jīng)濟(jì)安全領(lǐng)域的專有名詞詞典；從整體語料中隨機(jī)抽取15％的詞語進(jìn)行MASK；組織上下文訓(xùn)練語料，格式為語料中每兩個(gè)連續(xù)的句子，定義起始符，句子中間用分隔符隔開，以此定義為正樣本，以第二個(gè)句子為預(yù)料中隨機(jī)抽取到的定義為負(fù)樣本；隨機(jī)初始化詞嵌入矩陣，獲取靜態(tài)的詞向量；定義句子編碼器層；定義位置編碼器層；采用雙向的Transformer模型作為特征提取器，聯(lián)系了上下文語義關(guān)系捕獲句子中潛在的隱語義表征；在Attention注意力機(jī)制中加入了MASK遮蔽功能；預(yù)訓(xùn)練任務(wù)設(shè)計(jì)；模型訓(xùn)練；模型評估。

技術(shù)研發(fā)人員：白鳳波,秦董洪,黃華娟,徐晨
受保護(hù)的技術(shù)使用者：廣西民族大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/11/4

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：白鳳波,秦董洪,黃華娟,徐晨
技術(shù)所有人：廣西民族大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于現(xiàn)代漢語語法經(jīng)濟(jì)安全領(lǐng)域訓(xùn)練的語言模型構(gòu)建方法