本技術(shù)涉及人工智能(artificial?intelligence,ai),尤其涉及一種文本生成方法、文本檢測(cè)方法和裝置。
背景技術(shù):
1、隨著類(lèi)似于聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(chat?generative?pre-trainedtransformer,chatgpt)等生成式模型的興起,越來(lái)越多的生成式模型(如大型語(yǔ)言模型(large?language?model,llm)等)服務(wù)開(kāi)始出現(xiàn),但生成式模型在為人們提供了便利的同時(shí),也帶來(lái)了一些問(wèn)題,最典型的問(wèn)題是生成內(nèi)容的濫用問(wèn)題。例如,在一些教育場(chǎng)景中,如果學(xué)生濫用生成式模型(如利用生成式模型生成學(xué)術(shù)論文等)會(huì)則會(huì)導(dǎo)致嚴(yán)重的問(wèn)題,因此當(dāng)前迫切地需要一種方法,用于檢測(cè)一段內(nèi)容是否是通過(guò)生成式模型生成的。
2、目前用于上述生成內(nèi)容檢測(cè)的方法主要是檢測(cè)生成預(yù)訓(xùn)練轉(zhuǎn)換器(detectgenerative?pre-trained?transformer,detectgpt),其是基于從生成式模型中采樣的文本傾向于占據(jù)模型的對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域這一現(xiàn)象,然后定義一個(gè)新的基于曲率的標(biāo)準(zhǔn),用于判斷特定的文本是否是從給定的生成式模型生成的。
3、然而該檢測(cè)方式所依賴(lài)的上述現(xiàn)象,可能隨著生成式模型訓(xùn)練方式的改變而變化,從而導(dǎo)致上述檢測(cè)方式失效。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種文本生成方法、文本檢測(cè)方法和裝置,可以有效且穩(wěn)定地檢測(cè)一段文本是否是通過(guò)生成模型來(lái)生成的。
2、第一方面,本技術(shù)提供了一種文本生成方法,所述方法包括:接收用戶(hù)輸入的第一數(shù)據(jù);基于所述第一數(shù)據(jù)生成第一文本,所述第一數(shù)據(jù)用于描述所述第一文本的主題;其中,所述第一文本中包含相鄰的第一段文本和第二段文本,所述第二段文本是通過(guò)向生成式模型中輸入所述第二段文本的語(yǔ)言規(guī)則和所述第一段文本,或者輸入所述第一段文本生成的,所述第二段文本的語(yǔ)言規(guī)則是由所述第一段文本生成的;所述第一文本中的首段文本是通過(guò)向生成式模型中輸入所述首段文本的語(yǔ)言規(guī)則和所述第一數(shù)據(jù),或者輸入所述第一數(shù)據(jù)生成的,所述首段文本的語(yǔ)言規(guī)則是基于所述第一數(shù)據(jù)生成的。
3、其中,第一文本中的每段文本可以是一句話(huà)或多句話(huà)。
4、其中,第一段文本為第二段文本的上一段文本。
5、從技術(shù)效果上看,本技術(shù)通過(guò)分段落依次生成文本,并使得生成的每段文本具有對(duì)應(yīng)的語(yǔ)言規(guī)則,通過(guò)此種方式給生成的第一文本中的每段文本打上對(duì)應(yīng)水印(即語(yǔ)言規(guī)則),進(jìn)而使得后續(xù)可以通過(guò)檢測(cè)每段文本的語(yǔ)言規(guī)則來(lái)判斷用戶(hù)輸入的文本是否是由生成式模型(如llm)生成的。通過(guò)上述方式,可以有效且穩(wěn)定地檢測(cè)文本是否由生成式模型生成的。
6、在一種可行的實(shí)施方式中,語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則;其中,所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落的長(zhǎng)度,所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落上部分或全部位置處的字符類(lèi)型,所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)類(lèi)型和詞性。
7、其中,上述詞性包含副詞、介詞、語(yǔ)氣詞、形容詞、名詞、動(dòng)詞等。
8、從技術(shù)效果上看,通過(guò)將生成式模型生成的文本添加上述特定語(yǔ)言規(guī)則,進(jìn)而可以基于該特定語(yǔ)言規(guī)則有效地識(shí)別用戶(hù)輸入文本是否由特定生成式模型生成的。
9、在一種可行的實(shí)施方式中,所述第二段文本是從n個(gè)文本中確定的一個(gè)文本,所述n個(gè)文本分別對(duì)應(yīng)所述第二段文本的語(yǔ)言規(guī)則中包含的n個(gè)語(yǔ)言規(guī)則,所述n個(gè)語(yǔ)言規(guī)則中每個(gè)語(yǔ)言規(guī)則為所述第一類(lèi)語(yǔ)言規(guī)則或者所述第二類(lèi)語(yǔ)言規(guī)則,所述n個(gè)文本中包含第二文本,所述第二文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第一語(yǔ)言規(guī)則,所述第二文本是通過(guò)將所述第一段文本和所述第一語(yǔ)言規(guī)則輸入所述生成式模型生成的,n為正整數(shù);所述n個(gè)文本中包含e個(gè)文本,所述e個(gè)文本中包含第三文本,所述第三文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第二語(yǔ)言規(guī)則,且所述第三文本的語(yǔ)言規(guī)則符合所述第二語(yǔ)言規(guī)則,e為小于或等于n的正整數(shù);所述e個(gè)文本中每個(gè)文本對(duì)應(yīng)一個(gè)質(zhì)量評(píng)分,所述第二段文本為所述e個(gè)文本中的質(zhì)量評(píng)分最高的文本;其中,每個(gè)所述文本的質(zhì)量評(píng)分用于表征每個(gè)所述文本語(yǔ)法的正確程度,以及每個(gè)所述文本的主題與所述第一數(shù)據(jù)所描述主題的匹配程度。
10、從技術(shù)效果上看,本技術(shù)中生成的每段文本是從至少一個(gè)文本中挑選出的質(zhì)量最高的文本,通過(guò)此種方式可以有效提升生成的第一文本的文本質(zhì)量。
11、在一種可行的實(shí)施方式中,當(dāng)所述e個(gè)文本的質(zhì)量評(píng)分都低于第一閾值或者所述n個(gè)文本中的每個(gè)文本都不符合對(duì)應(yīng)的語(yǔ)言規(guī)則時(shí),所述第二段文本是通過(guò)向生成式模型中輸入所述第一段文本生成的。
12、從技術(shù)效果上看,在基于語(yǔ)言規(guī)則生成的一段文本不滿(mǎn)足要求時(shí),本技術(shù)可以直接通過(guò)上一段文本生成當(dāng)前段文本,而不使用語(yǔ)言規(guī)則,確保得到用戶(hù)所需的完整的第一文本。
13、在一種可行的實(shí)施方式中,所述n個(gè)語(yǔ)言規(guī)則是通過(guò)將所述第一段文本輸入到語(yǔ)言規(guī)則模型中得到的,所述語(yǔ)言規(guī)則模型為深度學(xué)習(xí)模型或數(shù)學(xué)模型。
14、從技術(shù)效果上看,本技術(shù)可以通過(guò)不同的模型來(lái)產(chǎn)生待生成文本段落的語(yǔ)言規(guī)則,適應(yīng)性好。
15、第二方面,本技術(shù)提供了一種文本檢測(cè)方法,所述方法包括:獲取第三文本,所述第三文本中包含第三段文本,所述第三段文本的上一段文本為第四段文本,所述第三段文本的語(yǔ)言規(guī)則符合由第四段文本生成的一種或多種語(yǔ)言規(guī)則中的任意一種;當(dāng)所述第三文本中包含的所述第三段文本的數(shù)量大于或等于第二閾值時(shí),確定所述第三文本是由生成式模型生成的,當(dāng)所述數(shù)量小于所述第二閾值時(shí),確定所述第三文本不是由所述生成式模型生成。
16、從技術(shù)效果上看,若文本是通過(guò)第一方面中的方法生成的(每段文本添加相應(yīng)語(yǔ)言規(guī)則),則在檢測(cè)文本是否由生成式模型生成時(shí),可以檢測(cè)第三文本中每段文本是否符合對(duì)應(yīng)的語(yǔ)言規(guī)則,然后統(tǒng)計(jì)第三文本中符合對(duì)應(yīng)語(yǔ)言規(guī)則的文本段落的數(shù)量,進(jìn)而有效地確定第三文本是否由生成式模型生成。
17、在一種可行的實(shí)施方式中,語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則;其中,所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落的長(zhǎng)度,所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落上部分或全部位置處的字符類(lèi)型,所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)的類(lèi)型、詞性。
18、從技術(shù)效果上看,在生成式模型生成文本過(guò)程中添加的上述語(yǔ)言規(guī)則具有特定性,可以在檢測(cè)過(guò)程中準(zhǔn)確地進(jìn)行識(shí)別,以判斷待檢測(cè)文本是否由特定生成式模型生成。
19、在一種可行的實(shí)施方式中,當(dāng)所述第三文本是由第一用戶(hù)進(jìn)行輸入時(shí),將所述第三文本包含的f段文本分別進(jìn)行壓縮,得到所述f段文本分別對(duì)應(yīng)的f段摘要,所述f段摘要中包含第一段摘要,所述第一段摘要與所述第一用戶(hù)的歷史查詢(xún)記錄中多段摘要內(nèi)任意一段摘要的相似度大于或等于第三閾值,f為正整數(shù);當(dāng)所述f段摘要中包含的所述第一段摘要的數(shù)量大于或等于第四閾值時(shí),更新所述第一用戶(hù)的查詢(xún)次數(shù);當(dāng)所述數(shù)量小于所述第四閾值時(shí),將所述f段摘要更新至所述第一用戶(hù)的歷史查詢(xún)記錄中。
20、從技術(shù)效果上看,對(duì)于綁定了用戶(hù)的檢測(cè)過(guò)程而言,本技術(shù)會(huì)判斷用戶(hù)之前是否檢測(cè)過(guò)此第三文本,若檢測(cè)過(guò),則更新用戶(hù)查詢(xún)次數(shù),從而在用戶(hù)查詢(xún)次數(shù)達(dá)到一定數(shù)量時(shí),限制用戶(hù)使用生成式模型進(jìn)行文本生成和文本檢測(cè)的過(guò)程,以防止生成式文本的濫用或不當(dāng)使用。
21、第三方面,本技術(shù)提供了一種文本生成裝置,所述裝置包括:收發(fā)單元,用于接收用戶(hù)輸入的第一數(shù)據(jù);處理單元,用于基于所述第一數(shù)據(jù)生成第一文本,所述第一數(shù)據(jù)用于描述所述第一文本的主題;其中,所述第一文本中包含相鄰的第一段文本和第二段文本,所述第二段文本是通過(guò)向生成式模型中輸入所述第二段文本的語(yǔ)言規(guī)則和所述第一段文本,或者輸入所述第一段文本生成的,所述第二段文本的語(yǔ)言規(guī)則是由所述第一段文本生成的;所述第一文本中的首段文本是通過(guò)向生成式模型中輸入所述首段文本的語(yǔ)言規(guī)則和所述第一數(shù)據(jù),或者輸入所述第一數(shù)據(jù)生成的,所述首段文本的語(yǔ)言規(guī)則是基于所述第一數(shù)據(jù)生成的。
22、在一種可行的實(shí)施方式中,語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則;其中,所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落的長(zhǎng)度,所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)生成段落上部分或全部位置處的字符類(lèi)型,所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)類(lèi)型、詞性。
23、在一種可行的實(shí)施方式中,所述第二段文本是從n個(gè)文本中確定的一個(gè)文本,所述n個(gè)文本分別對(duì)應(yīng)所述第二段文本的語(yǔ)言規(guī)則中包含的n個(gè)語(yǔ)言規(guī)則,所述n個(gè)語(yǔ)言規(guī)則中每個(gè)語(yǔ)言規(guī)則為所述第一類(lèi)語(yǔ)言規(guī)則或者所述第二類(lèi)語(yǔ)言規(guī)則,所述n個(gè)文本中包含第二文本,所述第二文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第一語(yǔ)言規(guī)則,所述第二文本是通過(guò)將所述第一段文本和所述第一語(yǔ)言規(guī)則輸入所述生成式模型生成的,n為正整數(shù);所述n個(gè)文本中包含e個(gè)文本,所述e個(gè)文本中包含第三文本,所述第三文本對(duì)應(yīng)所述n個(gè)語(yǔ)言規(guī)則中的第二語(yǔ)言規(guī)則,且所述第三文本的語(yǔ)言規(guī)則符合所述第二語(yǔ)言規(guī)則,e為小于或等于n的正整數(shù);所述e個(gè)文本中每個(gè)文本對(duì)應(yīng)一個(gè)質(zhì)量評(píng)分,所述第二段文本為所述e個(gè)文本中的質(zhì)量評(píng)分最高的文本;其中,每個(gè)所述文本的質(zhì)量評(píng)分用于表征每個(gè)所述文本語(yǔ)法的正確程度,以及每個(gè)所述文本的主題與所述第一數(shù)據(jù)所描述主題的匹配程度。
24、在一種可行的實(shí)施方式中,當(dāng)所述e個(gè)文本的質(zhì)量評(píng)分都低于第一閾值或者所述n個(gè)文本中的每個(gè)文本都不符合對(duì)應(yīng)的語(yǔ)言規(guī)則時(shí),所述第二段文本是通過(guò)向生成式模型中輸入所述第一段文本生成的。
25、在一種可行的實(shí)施方式中,所述n個(gè)語(yǔ)言規(guī)則是通過(guò)將所述第一段文本輸入到語(yǔ)言規(guī)則模型中得到的,所述語(yǔ)言規(guī)則模型為深度學(xué)習(xí)模型或數(shù)學(xué)模型。
26、第四方面,本技術(shù)提供了一種文本檢測(cè)裝置,所述裝置包括:獲取單元,用于獲取第三文本,所述第三文本中包含第三段文本,所述第三段文本的上一段文本為第四段文本,所述第三段文本的語(yǔ)言規(guī)則符合由第四段文本生成的一種或多種語(yǔ)言規(guī)則中的任意一種;處理單元,用于當(dāng)所述第三文本中包含的所述第三段文本的數(shù)量大于或等于第二閾值時(shí),確定所述第三文本是由生成式模型生成的,當(dāng)所述數(shù)量小于所述第二閾值時(shí),確定所述第三文本不是由所述生成式模型生成。
27、在一種可行的實(shí)施方式中,語(yǔ)言規(guī)則的類(lèi)型包括第一類(lèi)語(yǔ)言規(guī)則和第二類(lèi)語(yǔ)言規(guī)則;其中,所述第一類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落的長(zhǎng)度,所述第二類(lèi)語(yǔ)言規(guī)則用于描述對(duì)應(yīng)段落上部分或全部位置處的字符類(lèi)型,所述字符類(lèi)型包含標(biāo)點(diǎn)符號(hào)的類(lèi)型、詞性。
28、在一種可行的實(shí)施方式中,所述處理單元還用于:當(dāng)所述第三文本是由第一用戶(hù)進(jìn)行輸入時(shí),將所述第三文本包含的f段文本分別進(jìn)行壓縮,得到所述f段文本分別對(duì)應(yīng)的f段摘要,所述f段摘要中包含第一段摘要,所述第一段摘要與所述第一用戶(hù)的歷史查詢(xún)記錄中多段摘要內(nèi)任意一段摘要的相似度大于或等于第三閾值,f為正整數(shù);當(dāng)所述f段摘要中包含的所述第一段摘要的數(shù)量大于或等于第四閾值時(shí),更新所述第一用戶(hù)的查詢(xún)次數(shù);當(dāng)所述數(shù)量小于所述第四閾值時(shí),將所述f段摘要更新至所述第一用戶(hù)的歷史查詢(xún)記錄中。
29、第五方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括至少一個(gè)處理器,存儲(chǔ)器和接口電路,所述存儲(chǔ)器、所述接口電路和所述至少一個(gè)處理器通過(guò)線路互聯(lián),所述至少一個(gè)存儲(chǔ)器中存儲(chǔ)有指令;所述指令被所述處理器執(zhí)行時(shí),上述第一到第二方面中任一所述的方法得以實(shí)現(xiàn)。
30、第六方面,本技術(shù)實(shí)施例提供了一種芯片系統(tǒng),所述芯片系統(tǒng)包括至少一個(gè)處理器,存儲(chǔ)器和接口電路,所述存儲(chǔ)器、所述接口電路和所述至少一個(gè)處理器通過(guò)線路互聯(lián),所述至少一個(gè)存儲(chǔ)器中存儲(chǔ)有指令;所述指令被所述處理器執(zhí)行時(shí),上述第一到第二方面中任一所述的方法得以實(shí)現(xiàn)。
31、第七方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被執(zhí)行時(shí),上述第一到第二方面中任意一項(xiàng)所述的方法得以實(shí)現(xiàn)。
32、第八方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括指令,當(dāng)該指令被執(zhí)行時(shí),上述第一方面至第二方面中任意一項(xiàng)所述的方法得以實(shí)現(xiàn)。