文本生成方法、文本檢測(cè)方法和裝置與流程

文檔序號(hào)：40452655發(fā)布日期：2024-12-27 09:17閱讀：12來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及人工智能(artificial?intelligence，ai)，尤其涉及一種文本生成方法、文本檢測(cè)方法和裝置。

背景技術(shù)：

1、隨著類(lèi)似于聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(chat?generative?pre-trainedtransformer，chatgpt)等生成式模型的興起，越來(lái)越多的生成式模型(如大型語(yǔ)言模型(large?language?model，llm)等)服務(wù)開(kāi)始出現(xiàn)，但生成式模型在為人們提供了便利的同時(shí)，也帶來(lái)了一些問(wèn)題，最典型的問(wèn)題是生成內(nèi)容的濫用問(wèn)題。例如，在一些教育場(chǎng)景中，如果學(xué)生濫用生成式模型(如利用生成式模型生成學(xué)術(shù)論文等)會(huì)則會(huì)導(dǎo)致嚴(yán)重的問(wèn)題，因此當(dāng)前迫切地需要一種方法，用于檢測(cè)一段內(nèi)容是否是通過(guò)生成式模型生成的。

2、目前用于上述生成內(nèi)容檢測(cè)的方法主要是檢測(cè)生成預(yù)訓(xùn)練轉(zhuǎn)換器(detectgenerative?pre-trained?transformer，detectgpt)，其是基于從生成式模型中采樣的文本傾向于占據(jù)模型的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域這一現(xiàn)象，然后定義一個(gè)新的基于曲率的標(biāo)準(zhǔn)，用于判斷特定的文本是否是從給定的生成式模型生成的。

3、然而該檢測(cè)方式所依賴(lài)的上述現(xiàn)象，可能隨著生成式模型訓(xùn)練方式的改變而變化，從而導(dǎo)致上述檢測(cè)方式失效。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種文本生成方法、文本檢測(cè)方法和裝置，可以有效且穩(wěn)定地檢測(cè)一段文本是否是通過(guò)生成模型來(lái)生成的。

2、第一方面，本技術(shù)提供了一種文本生成方法，所述方法包括：接收用戶(hù)輸入的第一數(shù)據(jù)；基于所述第一數(shù)據(jù)生成第一文本，所述第一數(shù)據(jù)用于描述所述第一文本的主題；其中，所述第一文本中包含相鄰的第一段文本和第二段文本，所述第二段文本是通過(guò)向生成式模型中輸入所述第二段文本的語(yǔ)言規(guī)則和所述第一段文本，或者輸入所述第一段文本生成的，所述第二段文本的語(yǔ)言規(guī)則是由所述第一段文本生成的；所述第一文本中的首段文本是通過(guò)向生成式模型中輸入所述首段文本的語(yǔ)言規(guī)則和所述第一數(shù)據(jù)，或者輸入所述第一數(shù)據(jù)生成的，所述首段文本的語(yǔ)言規(guī)則是基于所述第一數(shù)據(jù)生成的。

3、其中，第一文本中的每段文本可以是一句話(huà)或多句話(huà)。

4、其中，第一段文本為第二段文本的上一段文本。

5、從技術(shù)效果上看，本技術(shù)通過(guò)分段落依次生成文本，并使得生成的每段文本具有對(duì)應(yīng)的語(yǔ)言規(guī)則，通過(guò)此種方式給生成的第一文本中的每段文本打上對(duì)應(yīng)水印(即語(yǔ)言規(guī)則)，進(jìn)而使得后續(xù)可以通過(guò)檢測(cè)每段文本的語(yǔ)言規(guī)則來(lái)判斷用戶(hù)輸入的文本是否是由生成式模型(如llm)生成的。通過(guò)上述方式，可以有效且穩(wěn)定地檢測(cè)文本是否由生成式模型生成的。

6、在一種可行的實(shí)施方式中，語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則；其中，所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落的長(zhǎng)度，所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落上部分或全部位置處的字符類(lèi)型，所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)類(lèi)型和詞性。

7、其中，上述詞性包含副詞、介詞、語(yǔ)氣詞、形容詞、名詞、動(dòng)詞等。

8、從技術(shù)效果上看，通過(guò)將生成式模型生成的文本添加上述特定語(yǔ)言規(guī)則，進(jìn)而可以基于該特定語(yǔ)言規(guī)則有效地識(shí)別用戶(hù)輸入文本是否由特定生成式模型生成的。

9、在一種可行的實(shí)施方式中，所述第二段文本是從n個(gè)文本中確定的一個(gè)文本，所述n個(gè)文本分別對(duì)應(yīng)所述第二段文本的語(yǔ)言規(guī)則中包含的n個(gè)語(yǔ)言規(guī)則，所述n個(gè)語(yǔ)言規(guī)則中每個(gè)語(yǔ)言規(guī)則為所述第一類(lèi)語(yǔ)言規(guī)則或者所述第二類(lèi)語(yǔ)言規(guī)則，所述n個(gè)文本中包含第二文本，所述第二文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第一語(yǔ)言規(guī)則，所述第二文本是通過(guò)將所述第一段文本和所述第一語(yǔ)言規(guī)則輸入所述生成式模型生成的，n為正整數(shù)；所述n個(gè)文本中包含e個(gè)文本，所述e個(gè)文本中包含第三文本，所述第三文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第二語(yǔ)言規(guī)則，且所述第三文本的語(yǔ)言規(guī)則符合所述第二語(yǔ)言規(guī)則，e為小于或等于n的正整數(shù)；所述e個(gè)文本中每個(gè)文本對(duì)應(yīng)一個(gè)質(zhì)量評(píng)分，所述第二段文本為所述e個(gè)文本中的質(zhì)量評(píng)分最高的文本；其中，每個(gè)所述文本的質(zhì)量評(píng)分用于表征每個(gè)所述文本語(yǔ)法的正確程度，以及每個(gè)所述文本的主題與所述第一數(shù)據(jù)所描述主題的匹配程度。

10、從技術(shù)效果上看，本技術(shù)中生成的每段文本是從至少一個(gè)文本中挑選出的質(zhì)量最高的文本，通過(guò)此種方式可以有效提升生成的第一文本的文本質(zhì)量。

11、在一種可行的實(shí)施方式中，當(dāng)所述e個(gè)文本的質(zhì)量評(píng)分都低于第一閾值或者所述n個(gè)文本中的每個(gè)文本都不符合對(duì)應(yīng)的語(yǔ)言規(guī)則時(shí)，所述第二段文本是通過(guò)向生成式模型中輸入所述第一段文本生成的。

12、從技術(shù)效果上看，在基于語(yǔ)言規(guī)則生成的一段文本不滿(mǎn)足要求時(shí)，本技術(shù)可以直接通過(guò)上一段文本生成當(dāng)前段文本，而不使用語(yǔ)言規(guī)則，確保得到用戶(hù)所需的完整的第一文本。

13、在一種可行的實(shí)施方式中，所述n個(gè)語(yǔ)言規(guī)則是通過(guò)將所述第一段文本輸入到語(yǔ)言規(guī)則模型中得到的，所述語(yǔ)言規(guī)則模型為深度學(xué)習(xí)模型或數(shù)學(xué)模型。

14、從技術(shù)效果上看，本技術(shù)可以通過(guò)不同的模型來(lái)產(chǎn)生待生成文本段落的語(yǔ)言規(guī)則，適應(yīng)性好。

15、第二方面，本技術(shù)提供了一種文本檢測(cè)方法，所述方法包括：獲取第三文本，所述第三文本中包含第三段文本，所述第三段文本的上一段文本為第四段文本，所述第三段文本的語(yǔ)言規(guī)則符合由第四段文本生成的一種或多種語(yǔ)言規(guī)則中的任意一種；當(dāng)所述第三文本中包含的所述第三段文本的數(shù)量大于或等于第二閾值時(shí)，確定所述第三文本是由生成式模型生成的，當(dāng)所述數(shù)量小于所述第二閾值時(shí)，確定所述第三文本不是由所述生成式模型生成。

16、從技術(shù)效果上看，若文本是通過(guò)第一方面中的方法生成的(每段文本添加相應(yīng)語(yǔ)言規(guī)則)，則在檢測(cè)文本是否由生成式模型生成時(shí)，可以檢測(cè)第三文本中每段文本是否符合對(duì)應(yīng)的語(yǔ)言規(guī)則，然后統(tǒng)計(jì)第三文本中符合對(duì)應(yīng)語(yǔ)言規(guī)則的文本段落的數(shù)量，進(jìn)而有效地確定第三文本是否由生成式模型生成。

17、在一種可行的實(shí)施方式中，語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則；其中，所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落的長(zhǎng)度，所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落上部分或全部位置處的字符類(lèi)型，所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)的類(lèi)型、詞性。

18、從技術(shù)效果上看，在生成式模型生成文本過(guò)程中添加的上述語(yǔ)言規(guī)則具有特定性，可以在檢測(cè)過(guò)程中準(zhǔn)確地進(jìn)行識(shí)別，以判斷待檢測(cè)文本是否由特定生成式模型生成。

19、在一種可行的實(shí)施方式中，當(dāng)所述第三文本是由第一用戶(hù)進(jìn)行輸入時(shí)，將所述第三文本包含的f段文本分別進(jìn)行壓縮，得到所述f段文本分別對(duì)應(yīng)的f段摘要，所述f段摘要中包含第一段摘要，所述第一段摘要與所述第一用戶(hù)的歷史查詢(xún)記錄中多段摘要內(nèi)任意一段摘要的相似度大于或等于第三閾值，f為正整數(shù)；當(dāng)所述f段摘要中包含的所述第一段摘要的數(shù)量大于或等于第四閾值時(shí)，更新所述第一用戶(hù)的查詢(xún)次數(shù)；當(dāng)所述數(shù)量小于所述第四閾值時(shí)，將所述f段摘要更新至所述第一用戶(hù)的歷史查詢(xún)記錄中。

20、從技術(shù)效果上看，對(duì)于綁定了用戶(hù)的檢測(cè)過(guò)程而言，本技術(shù)會(huì)判斷用戶(hù)之前是否檢測(cè)過(guò)此第三文本，若檢測(cè)過(guò)，則更新用戶(hù)查詢(xún)次數(shù)，從而在用戶(hù)查詢(xún)次數(shù)達(dá)到一定數(shù)量時(shí)，限制用戶(hù)使用生成式模型進(jìn)行文本生成和文本檢測(cè)的過(guò)程，以防止生成式文本的濫用或不當(dāng)使用。

21、第三方面，本技術(shù)提供了一種文本生成裝置，所述裝置包括：收發(fā)單元，用于接收用戶(hù)輸入的第一數(shù)據(jù)；處理單元，用于基于所述第一數(shù)據(jù)生成第一文本，所述第一數(shù)據(jù)用于描述所述第一文本的主題；其中，所述第一文本中包含相鄰的第一段文本和第二段文本，所述第二段文本是通過(guò)向生成式模型中輸入所述第二段文本的語(yǔ)言規(guī)則和所述第一段文本，或者輸入所述第一段文本生成的，所述第二段文本的語(yǔ)言規(guī)則是由所述第一段文本生成的；所述第一文本中的首段文本是通過(guò)向生成式模型中輸入所述首段文本的語(yǔ)言規(guī)則和所述第一數(shù)據(jù)，或者輸入所述第一數(shù)據(jù)生成的，所述首段文本的語(yǔ)言規(guī)則是基于所述第一數(shù)據(jù)生成的。

22、在一種可行的實(shí)施方式中，語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則；其中，所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落的長(zhǎng)度，所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落上部分或全部位置處的字符類(lèi)型，所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)類(lèi)型、詞性。

23、在一種可行的實(shí)施方式中，所述第二段文本是從n個(gè)文本中確定的一個(gè)文本，所述n個(gè)文本分別對(duì)應(yīng)所述第二段文本的語(yǔ)言規(guī)則中包含的n個(gè)語(yǔ)言規(guī)則，所述n個(gè)語(yǔ)言規(guī)則中每個(gè)語(yǔ)言規(guī)則為所述第一類(lèi)語(yǔ)言規(guī)則或者所述第二類(lèi)語(yǔ)言規(guī)則，所述n個(gè)文本中包含第二文本，所述第二文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第一語(yǔ)言規(guī)則，所述第二文本是通過(guò)將所述第一段文本和所述第一語(yǔ)言規(guī)則輸入所述生成式模型生成的，n為正整數(shù)；所述n個(gè)文本中包含e個(gè)文本，所述e個(gè)文本中包含第三文本，所述第三文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第二語(yǔ)言規(guī)則，且所述第三文本的語(yǔ)言規(guī)則符合所述第二語(yǔ)言規(guī)則，e為小于或等于n的正整數(shù)；所述e個(gè)文本中每個(gè)文本對(duì)應(yīng)一個(gè)質(zhì)量評(píng)分，所述第二段文本為所述e個(gè)文本中的質(zhì)量評(píng)分最高的文本；其中，每個(gè)所述文本的質(zhì)量評(píng)分用于表征每個(gè)所述文本語(yǔ)法的正確程度，以及每個(gè)所述文本的主題與所述第一數(shù)據(jù)所描述主題的匹配程度。

24、在一種可行的實(shí)施方式中，當(dāng)所述e個(gè)文本的質(zhì)量評(píng)分都低于第一閾值或者所述n個(gè)文本中的每個(gè)文本都不符合對(duì)應(yīng)的語(yǔ)言規(guī)則時(shí)，所述第二段文本是通過(guò)向生成式模型中輸入所述第一段文本生成的。

25、在一種可行的實(shí)施方式中，所述n個(gè)語(yǔ)言規(guī)則是通過(guò)將所述第一段文本輸入到語(yǔ)言規(guī)則模型中得到的，所述語(yǔ)言規(guī)則模型為深度學(xué)習(xí)模型或數(shù)學(xué)模型。

26、第四方面，本技術(shù)提供了一種文本檢測(cè)裝置，所述裝置包括：獲取單元，用于獲取第三文本，所述第三文本中包含第三段文本，所述第三段文本的上一段文本為第四段文本，所述第三段文本的語(yǔ)言規(guī)則符合由第四段文本生成的一種或多種語(yǔ)言規(guī)則中的任意一種；處理單元，用于當(dāng)所述第三文本中包含的所述第三段文本的數(shù)量大于或等于第二閾值時(shí)，確定所述第三文本是由生成式模型生成的，當(dāng)所述數(shù)量小于所述第二閾值時(shí)，確定所述第三文本不是由所述生成式模型生成。

27、在一種可行的實(shí)施方式中，語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則；其中，所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落的長(zhǎng)度，所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落上部分或全部位置處的字符類(lèi)型，所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)的類(lèi)型、詞性。

28、在一種可行的實(shí)施方式中，所述處理單元還用于：當(dāng)所述第三文本是由第一用戶(hù)進(jìn)行輸入時(shí)，將所述第三文本包含的f段文本分別進(jìn)行壓縮，得到所述f段文本分別對(duì)應(yīng)的f段摘要，所述f段摘要中包含第一段摘要，所述第一段摘要與所述第一用戶(hù)的歷史查詢(xún)記錄中多段摘要內(nèi)任意一段摘要的相似度大于或等于第三閾值，f為正整數(shù)；當(dāng)所述f段摘要中包含的所述第一段摘要的數(shù)量大于或等于第四閾值時(shí)，更新所述第一用戶(hù)的查詢(xún)次數(shù)；當(dāng)所述數(shù)量小于所述第四閾值時(shí)，將所述f段摘要更新至所述第一用戶(hù)的歷史查詢(xún)記錄中。

29、第五方面，本技術(shù)提供了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括至少一個(gè)處理器，存儲(chǔ)器和接口電路，所述存儲(chǔ)器、所述接口電路和所述至少一個(gè)處理器通過(guò)線路互聯(lián)，所述至少一個(gè)存儲(chǔ)器中存儲(chǔ)有指令；所述指令被所述處理器執(zhí)行時(shí)，上述第一到第二方面中任一所述的方法得以實(shí)現(xiàn)。

30、第六方面，本技術(shù)實(shí)施例提供了一種芯片系統(tǒng)，所述芯片系統(tǒng)包括至少一個(gè)處理器，存儲(chǔ)器和接口電路，所述存儲(chǔ)器、所述接口電路和所述至少一個(gè)處理器通過(guò)線路互聯(lián)，所述至少一個(gè)存儲(chǔ)器中存儲(chǔ)有指令；所述指令被所述處理器執(zhí)行時(shí)，上述第一到第二方面中任一所述的方法得以實(shí)現(xiàn)。

31、第七方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被執(zhí)行時(shí)，上述第一到第二方面中任意一項(xiàng)所述的方法得以實(shí)現(xiàn)。

32、第八方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品包括指令，當(dāng)該指令被執(zhí)行時(shí)，上述第一方面至第二方面中任意一項(xiàng)所述的方法得以實(shí)現(xiàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵云峰,錢(qián)莉,孟笑君,李秉帥
技術(shù)所有人：華為技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種SCR連鑄機(jī)鑄輪組件的制作方法
上一篇：一種塑料破碎顆粒精選裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本生成方法、文本檢測(cè)方法和裝置與流程