本發(fā)明涉及文本檢測,尤其涉及一種基于最大均值差異的機器通用文本檢測方法。
背景技術(shù):
1、隨著大語言模型的發(fā)展,語言模型生成文本的質(zhì)量越來越高,更加自然、流暢,與人類手寫文本極其相似,在諸如摘要凝練、對話生成、機器翻譯等領(lǐng)域發(fā)揮著重要作用。然而,生成文本的泛濫也會帶來許多潛在危害:大語言模型可能被用于生成假新聞、垃圾郵件、網(wǎng)絡(luò)詐騙信息等帶有事實錯誤或偏見的內(nèi)容,這給網(wǎng)絡(luò)信息的可信度和安全性帶來了極大的威脅,亟需可靠的機器生成文本的檢測技術(shù)。
2、現(xiàn)有的機器生成文本檢測方法主要分為基于度量和基于模型的文本檢測方法。其中,基于度量的文本檢測方法使用特征統(tǒng)計量來計算測試文本屬于機器生成文本的概率,但由于不同生成模型的生成域存在較大分布差距,這類方法的表現(xiàn)為精度不足;而基于模型的文本檢測方法在生成模型的基礎(chǔ)上訓(xùn)練一個分類器來鑒別機器生成文本與人類手寫文本,但它嚴重依賴具體的生成模型,難以適應(yīng)其他模型生成文本的檢測。
技術(shù)實現(xiàn)思路
1、針對上述問題,本發(fā)明提出一種基于最大均值差異的機器通用文本檢測方法,主要解決現(xiàn)有文本檢測方法檢測精度不足或者通用性不足的問題。
2、為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
3、一種基于最大均值差異的機器通用文本檢測方法,包括以下步驟:
4、步驟1,從語言模型生成文本和人類手寫文本中提取特征,分別定義為機器文本特征和人類手寫文本特征;
5、步驟2,建立基于最大均值差異的度量模型,以所述機器文本特征和所述人類手寫文本特征訓(xùn)練所述度量模型的深度內(nèi)核,訓(xùn)練過程的優(yōu)化目標包括增大所述機器文本特征和所述人類手寫文本特征的類間距離,以及縮小所述人類手寫文本特征的類內(nèi)距離,得到訓(xùn)練后的mmd深度內(nèi)核;
6、步驟3,對于待測段落文本的檢測任務(wù),利用所述mmd深度內(nèi)核計算所述人類手寫文本和所述待測段落文本之間的差異,定義為第一差異值;
7、步驟4,將所述待測段落文本與所述人類手寫文本進行隨機混合,并拆分成兩段混合文本,利用所述mmd深度內(nèi)核計算兩段所述混合文本之間的差異,定義第二差異值;
8、步驟5,根據(jù)預(yù)設(shè)次數(shù)重復(fù)步驟4,得到多個所述第二差異值,計算多個所述第二差異值分別與所述第一差異值之間的差值,累計大于0的所述差值的個數(shù),計算所述個數(shù)和所述預(yù)設(shè)次數(shù)之間的比值,若所述比值大于預(yù)設(shè)概率閾值,則表征所述待測段落文本由ai生成。
9、在一些實施方式中,還包括步驟6,對于待測單句文本的檢測任務(wù),利用所述mmd深度內(nèi)核計算所述待測單句文本和所述人類手寫文本之間的差異,定義為第一差異值,根據(jù)所述第一差異值判定所述待測單句文本是否由ai生成。
10、在一些實施方式中,所述度量模型為:
11、
12、式中,是來自不同分布的隨機樣本,表示一個機器生成文本的分布,表示一個人類手寫文本的分布,是一個再生核k的希爾伯特空間,f是一個將分布x或y數(shù)據(jù)映射到實數(shù)空間的函數(shù),是函數(shù)f的集合,和表示對從機器文本特征和人類手寫文本特征采樣的兩個分布的期望,k(x,x′)表示機器文本特征的類內(nèi)距離,k(y,y′)表示人類手寫文本特征的類內(nèi)距離,k(x,y)表示機器文本特征和人類手寫文本特征的類間距離。
13、在一些實施方式中,所述優(yōu)化目標為:
14、
15、其中有
16、
17、hij:=k(xi,xj)-k(xi,yj)-k(yi,xj)+k(yi,yj)??(4);
18、式中,kω表示基于參數(shù)集ω的mmd內(nèi)核,表示時兩個分布之間的差異系數(shù),表示優(yōu)化目標的測試功效,表征分布差異的確定性大小。
19、在一些實施方式中,在步驟2中,忽略所述機器文本特征的類內(nèi)距離。
20、在一些實施方式中,根據(jù)所述優(yōu)化目標建立帶有mpp代理的多總體感知優(yōu)化目標,所述多總體感知優(yōu)化目標包括:
21、
22、在一些實施方式中,所述待測段落文本的檢測過程為:
23、
24、式中,hij:=k(xi,xj)-k(xi,yj)-k(yi,xj)+k(yi,yj),是在上的博雷爾測度,是獨立同分布觀測值。
25、在一些實施方式中,所述待測單句文本的檢測過程為:
26、
27、式中,表示參考的人類手寫文本數(shù)據(jù)集,xi,xj為數(shù)據(jù)集中的單個樣本,為測試單句文本。
28、本發(fā)明的有益效果為:通過增大機器文本特征和人類手寫文本特征的類間距離,以及縮小人類手寫文本特征的類內(nèi)距離為優(yōu)化目標訓(xùn)練度量模型的深度內(nèi)核,解決了現(xiàn)有文本檢測方法檢測精度不足或者通用性不足的問題,能夠有效檢測文本是否由ai生成,為網(wǎng)絡(luò)信息的可信度和安全性提供了重要保障。
1.一種基于最大均值差異的機器通用文本檢測方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,還包括步驟6,對于待測單句文本的檢測任務(wù),利用所述mmd深度內(nèi)核計算所述待測單句文本和所述人類手寫文本之間的差異,定義為第一差異值,根據(jù)所述第一差異值判定所述待測單句文本是否由ai生成。
3.如權(quán)利要求1所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,所述度量模型為:
4.如權(quán)利要求3所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,所述優(yōu)化目標為:
5.如權(quán)利要求4所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,在步驟2中,忽略所述機器文本特征的類內(nèi)距離。
6.如權(quán)利要求5所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,根據(jù)所述優(yōu)化目標建立帶有mpp代理的多總體感知優(yōu)化目標,所述多總體感知優(yōu)化目標包括:
7.如權(quán)利要求6所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,所述待測段落文本的檢測過程為:
8.如權(quán)利要求7所述的基于最大均值差異的機器通用文本檢測方法,其特征在于,所述待測單句文本的檢測過程為: