本說明書實施例涉及計算機,特別涉及一種模型評估網(wǎng)絡的構建方法、模型評估方法及裝置。
背景技術:
1、隨著計算機技術、機器學習、深度學習技術的快速發(fā)展,機器學習模型已經(jīng)在自然語言處理、機器翻譯、語音合成、圖像生成等許多領域中獲得廣泛應用。相應誕生了大語言模型,大語言模型已被證明在理解和生成自然語言文本方面具有卓越的性能,大語言模型技術快速發(fā)展,其表現(xiàn)出了較強的指令跟隨(instruct-following)、問題解決(problem-solving)和開放式聊天(open-ended?chatting)等能力,這對如何評估這種大語言模型的處理能力帶來了更大的挑戰(zhàn)。
2、現(xiàn)有技術中,一般是針對大語言模型的各類能力,比如數(shù)學、推理、知識問答、創(chuàng)作等,建立一定數(shù)量的評測集,然后用這些評測集去提問待評估的大語言模型,基于大語言模型回答的正確性來評估其處理能力。然而,上述評估方法中,不同題目的基本事實存在多樣性,模型評估的準確性和有效性較差,因而亟需一種更準確、更有效地模型評估方案。
技術實現(xiàn)思路
1、有鑒于此,本說明書實施例提供了一種模型評估網(wǎng)絡的構建方法。本說明書一個或者多個實施例同時涉及一種模型評估方法,一種模型評估網(wǎng)絡的構建裝置,一種模型評估裝置,一種計算設備,一種計算機可讀存儲介質以及一種計算機程序產(chǎn)品,以解決現(xiàn)有技術中存在的技術缺陷。
2、根據(jù)本說明書實施例的第一方面,提供了一種模型評估網(wǎng)絡的構建方法,包括:
3、獲取至少一個樣本題目以及對應的標注評估規(guī)則;
4、基于所述標注評估規(guī)則構建偏好樣本,對候選規(guī)則生成模型進行偏好優(yōu)化,獲得目標規(guī)則生成模型;
5、獲取所述至少一個樣本題目的參考答案,并基于所述參考答案對應的標注評估結果和生成評估結果,對初始評估模型進行訓練獲得目標評估模型;
6、根據(jù)所述目標規(guī)則生成模型和所述目標評估模型獲得模型評估網(wǎng)絡。
7、根據(jù)本說明書實施例的第二方面,提供了一種模型評估方法,所述方法包括:
8、獲取至少一個待測題目,并獲取待評估模型對所述至少一個待測題目輸出的待評估答案;
9、根據(jù)模型評估網(wǎng)絡中的目標規(guī)則生成模型,獲得所述至少一個待測題目對應的目標評估規(guī)則;
10、根據(jù)所述至少一個待測題目以及對應的待評估答案、目標評估規(guī)則,利用模型評估網(wǎng)絡中的目標評估模型獲得所述待評估模型的評估結果,其中,所述模型評估網(wǎng)絡基于上述的模型評估網(wǎng)絡的構建方法獲得。
11、根據(jù)本說明書實施例的第三方面,提供了一種模型評估網(wǎng)絡的構建裝置,包括:
12、第一獲取模塊,被配置為獲取至少一個樣本題目以及對應的標注評估規(guī)則;
13、偏好優(yōu)化模塊,被配置為基于所述標注評估規(guī)則構建偏好樣本,對候選規(guī)則生成模型進行偏好優(yōu)化,獲得目標規(guī)則生成模型;
14、第一訓練模塊,被配置為獲取所述至少一個樣本題目的參考答案,并基于所述參考答案對應的標注評估結果和生成評估結果,對初始評估模型進行訓練獲得目標評估模型;
15、第一獲得模塊,被配置為根據(jù)所述目標規(guī)則生成模型和所述目標評估模型獲得模型評估網(wǎng)絡。
16、根據(jù)本說明書實施例的第四方面,提供了一種模型評估裝置,所述裝置包括:
17、第二獲取模塊,被配置為獲取至少一個待測題目,并獲取待評估模型對所述至少一個待測題目輸出的待評估答案;
18、第二獲得模塊,被配置為根據(jù)模型評估網(wǎng)絡中的目標規(guī)則生成模型,獲得所述至少一個待測題目對應的目標評估規(guī)則;
19、第三獲得模塊,被配置為根據(jù)所述至少一個待測題目以及對應的待評估答案、目標評估規(guī)則,利用模型評估網(wǎng)絡中的目標評估模型獲得所述待評估模型的評估結果,其中,所述模型評估網(wǎng)絡基于上述的模型評估網(wǎng)絡的構建方法獲得。
20、根據(jù)本說明書實施例的第五方面,提供了一種計算設備,包括:
21、存儲器和處理器;
22、所述存儲器用于存儲計算機可執(zhí)行指令,所述處理器用于執(zhí)行所述計算機可執(zhí)行指令,該計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)上述模型評估網(wǎng)絡的構建方法或者模型評估方法的步驟。
23、根據(jù)本說明書實施例的第六方面,提供了一種計算機可讀存儲介質,其存儲有計算機可執(zhí)行指令,該指令被處理器執(zhí)行時實現(xiàn)上述模型評估網(wǎng)絡的構建方法或者模型評估方法的步驟。
24、根據(jù)本說明書實施例的第七方面,提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述模型評估網(wǎng)絡的構建方法或者模型評估方法的步驟。
25、本說明書實施例提供了一種模型評估網(wǎng)絡的構建方法,實現(xiàn)了基于至少一個樣本題目對應的標注評估規(guī)則構建偏好樣本,對候選規(guī)則生成模型進行偏好優(yōu)化,獲得目標規(guī)則生成模型,使得目標規(guī)則生成模型可以對齊標注的評估規(guī)則;并且,可以基于參考答案對應的標注評估結果和生成評估結果,構造較佳的訓練數(shù)據(jù),提高目標評估模型的訓練效率和訓練準確率。偏好優(yōu)化獲得的目標規(guī)則生成模型可以產(chǎn)出更靠近標注偏好的評估規(guī)則,基于標注評估結果和生成評估結果訓練獲得的目標評估模型的評估結果更準確,基于目標規(guī)則生成模型和目標評估模型可以構建對應的模型評估網(wǎng)絡,用于對待評估模型進行評估,保證了模型評估網(wǎng)絡的穩(wěn)定性,可以獲得更準確、更有效的評估結果,且無需調用第三方評估模型,避免了數(shù)據(jù)泄露,降低了調用成本。
26、本說明書實施例還提供了一種模型評估方法,可以獲取至少一個待測題目,并獲取待評估模型對至少一個待測題目輸出的待評估答案,然后基于上述偏好優(yōu)化獲得的目標規(guī)則生成模型,獲得至少一個待測題目對應的目標評估規(guī)則;并且,根據(jù)至少一個待測題目以及對應的待評估答案、目標評估規(guī)則,利用上述訓練獲得的目標評估模型獲得待評估模型的評估結果,可以獲得更準確、更有效的評估結果,且無需調用第三方評估模型,避免了數(shù)據(jù)泄露,降低了調用成本。
1.一種模型評估網(wǎng)絡的構建方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述基于所述標注評估規(guī)則構建偏好樣本,對候選規(guī)則生成模型進行偏好優(yōu)化,獲得目標規(guī)則生成模型,包括:
3.根據(jù)權利要求1或2所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述獲取至少一個樣本題目以及對應的標注評估規(guī)則之后,還包括:
4.根據(jù)權利要求1所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述基于所述參考答案對應的標注評估結果和生成評估結果,對初始評估模型進行訓練獲得目標評估模型,包括:
5.根據(jù)權利要求4所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述基于第一樣本題目的參考答案對應的標注評估結果構建第一訓練樣本,包括:
6.根據(jù)權利要求4所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述方法還包括:
7.根據(jù)權利要求1所述的模型評估網(wǎng)絡的構建方法,其特征在于,所述獲取至少一個樣本題目的參考答案,包括:
8.一種模型評估方法,其特征在于,所述方法包括:
9.一種模型評估網(wǎng)絡的構建裝置,其特征在于,所述裝置包括:
10.一種模型評估裝置,其特征在于,所述裝置包括:
11.一種計算設備,其特征在于,包括:
12.一種計算機可讀存儲介質,其特征在于,其存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)權利要求1-7任一項所述模型評估網(wǎng)絡的構建方法或者權利要求8所述模型評估方法的步驟。
13.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權利要求1-7任一項所述模型評估網(wǎng)絡的構建方法或者權利要求8所述模型評估方法的步驟。