本發(fā)明涉及大語言模型及多智能體,尤其涉及一種智能體口腔醫(yī)院診療模型建立方法和裝置。
背景技術(shù):
1、口腔正畸治療培訓(xùn)模型可以為醫(yī)學(xué)生提供多樣化的虛擬病例和模擬醫(yī)患互動(dòng)場(chǎng)景。在提升診療培訓(xùn)的質(zhì)量與效率方面,提供了一種創(chuàng)新的途徑,尤其是在模擬醫(yī)生的專業(yè)思維過程中,能夠?yàn)獒t(yī)學(xué)生展示虛擬病例并提供專業(yè)的診斷建議。
2、醫(yī)學(xué)生現(xiàn)在有機(jī)會(huì)在一個(gè)安全、靈活且高度仿真的環(huán)境中進(jìn)行臨床思維的互動(dòng)式訓(xùn)練,這不僅豐富了傳統(tǒng)教學(xué)方法,還有助于提高他們的實(shí)踐能力。然而,在將這些先進(jìn)的語言模型應(yīng)用于現(xiàn)實(shí)世界的醫(yī)學(xué)教育和臨床實(shí)踐中,仍然面臨一些挑戰(zhàn):
3、(1)專業(yè)模型定制難題:雖然通用的大型語言模型在多個(gè)領(lǐng)域都表現(xiàn)出色,但醫(yī)學(xué)領(lǐng)域需要更為專業(yè)的模型,這些模型需要在大量的醫(yī)患交互數(shù)據(jù)上進(jìn)行訓(xùn)練。目前,這類數(shù)據(jù)的收集和整理工作不僅數(shù)量有限,而且過程復(fù)雜,這使得在有限的專業(yè)數(shù)據(jù)上優(yōu)化和定制大型語言模型成為一個(gè)主要挑戰(zhàn)。
4、(2)推理過程的透明度問題:醫(yī)學(xué)診斷的嚴(yán)謹(jǐn)性要求模型不僅要給出診斷結(jié)果,還需要提供清晰的推理過程和高度的解釋性。現(xiàn)有的大型語言模型在診斷依據(jù)的控制和評(píng)價(jià)方面存在不足,這使得它們難以滿足醫(yī)療領(lǐng)域的高標(biāo)準(zhǔn)需求。因此,如何增強(qiáng)模型的透明度和解釋性,確保其推理過程符合醫(yī)療診斷的嚴(yán)格要求,是需要解決的第二個(gè)關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明提供了一種智能體口腔醫(yī)院診療模型建立方法和裝置。
2、第一方面,本發(fā)明提供了一種多智能體口腔醫(yī)院診療模型建立方法,所述方法包括:
3、確定牙科醫(yī)患對(duì)話數(shù)據(jù)集;
4、將所述牙科醫(yī)患對(duì)話數(shù)據(jù)集輸入至大語言模型,得到所述大語言模型輸出的對(duì)應(yīng)于所述牙科醫(yī)患對(duì)話數(shù)據(jù)集中對(duì)患者問題的檢查者角色的多個(gè)生成回復(fù)以及主任醫(yī)師角色的多個(gè)生成回復(fù);
5、根據(jù)預(yù)設(shè)的偏好評(píng)估標(biāo)準(zhǔn),利用所述檢查者角色的多個(gè)生成回復(fù)和所述主任醫(yī)師角色的多個(gè)生成回復(fù)對(duì)所述大語言模型進(jìn)行訓(xùn)練,得到多智能體口腔醫(yī)院診療模型。
6、基于上述技術(shù)方案,進(jìn)一步地,所述方法還包括:
7、收集真實(shí)牙科醫(yī)患對(duì)話數(shù)據(jù)、開源的醫(yī)患對(duì)話數(shù)據(jù)集和開源通用數(shù)據(jù)集進(jìn)行預(yù)處理,得到風(fēng)格一致的所述牙科醫(yī)患對(duì)話數(shù)據(jù)集。
8、基于上述技術(shù)方案,所述方法還包括:
9、對(duì)收集到的收集真實(shí)牙科醫(yī)患對(duì)話數(shù)據(jù)、開源的醫(yī)患對(duì)話數(shù)據(jù)集和開源通用數(shù)據(jù)集進(jìn)行多層次的清洗,采用通用大語言模型進(jìn)行潤色,最終得到風(fēng)格一致的所述牙科醫(yī)患對(duì)話數(shù)據(jù)集。
10、基于上述技術(shù)方案,所述方法還包括:
11、對(duì)大語言模型在微調(diào)的基礎(chǔ)上進(jìn)行基于人工智能反饋的強(qiáng)化學(xué)習(xí),其中,強(qiáng)化學(xué)習(xí)的方法是基于策略梯度的強(qiáng)化學(xué)習(xí)ppo算法。
12、基于上述技術(shù)方案,病人智能體基于病例信息庫進(jìn)行構(gòu)建。
13、基于上述技術(shù)方案,所述根據(jù)預(yù)設(shè)的偏好評(píng)估標(biāo)準(zhǔn),利用所述檢查者角色的多個(gè)生成回復(fù)和所述主任醫(yī)師角色的多個(gè)生成回復(fù)對(duì)所述大語言模型進(jìn)行訓(xùn)練,得到多智能體口腔醫(yī)院診療模型,具體包括:
14、將所述牙科醫(yī)患對(duì)話數(shù)據(jù)集輸入至所述大語言模型,并設(shè)定當(dāng)前回復(fù)角色,得到當(dāng)前回復(fù)角色的多個(gè)生成回復(fù);
15、計(jì)算所述當(dāng)前回復(fù)角色的多個(gè)生成回復(fù)的概率分布與所述多個(gè)生成回復(fù)的概率分布的kl散度;
16、基于所述預(yù)設(shè)的偏好評(píng)估標(biāo)準(zhǔn)與所述多個(gè)生成回復(fù)的概率分布的kl散度,計(jì)算各所述生成回復(fù)的獎(jiǎng)勵(lì)信息,根據(jù)對(duì)各所述生成回復(fù)的獎(jiǎng)勵(lì)信息對(duì)各所述生成回復(fù)進(jìn)行標(biāo)注;
17、基于多個(gè)所述生成回復(fù)的標(biāo)注信息,對(duì)所述大語言模型進(jìn)行迭代訓(xùn)練,得到所述多智能體口腔醫(yī)院診療模型。
18、基于上述技術(shù)方案,所述基于多個(gè)所述生成回復(fù)的標(biāo)注信息,對(duì)所述大語言模型進(jìn)行迭代訓(xùn)練,得到所述多智能體口腔醫(yī)院診療模型,包括:
19、基于多個(gè)所述生成回復(fù)的標(biāo)注信息,采用基于策略梯度的強(qiáng)化學(xué)習(xí)算法,對(duì)所述大語言模型進(jìn)行迭代優(yōu)化,并在每次迭代過程中將對(duì)應(yīng)的標(biāo)注信息反饋至當(dāng)前次迭代得到的模型。
20、第二方面,本發(fā)明還提供了一種多智能體口腔醫(yī)院診療模型建立裝置,所述裝置包括:
21、第一處理模塊,用于確定牙科醫(yī)患對(duì)話數(shù)據(jù)集;
22、第二處理模塊,用于將所述牙科醫(yī)患對(duì)話數(shù)據(jù)集輸入至大語言模型,得到所述大語言模型輸出的對(duì)應(yīng)于所述牙科醫(yī)患對(duì)話數(shù)據(jù)集中對(duì)患者問題的檢查者角色的多個(gè)生成回復(fù)以及主任醫(yī)師角色的多個(gè)生成回復(fù);
23、第三處理模塊,用于根據(jù)預(yù)設(shè)的偏好評(píng)估標(biāo)準(zhǔn),利用所述檢查者角色的多個(gè)生成回復(fù)和所述主任醫(yī)師角色的多個(gè)生成回復(fù)對(duì)所述大語言模型進(jìn)行訓(xùn)練,得到多智能體口腔醫(yī)院診療模型。
24、第三方面,本發(fā)明還提供一種存儲(chǔ)器,存儲(chǔ)有多條指令,所述指令用于實(shí)現(xiàn)如上述技術(shù)方案中任一項(xiàng)所述的一種多智能體口腔醫(yī)院診療模型建立方法。
25、第四方面,本發(fā)明還提供一種電子設(shè)備,包括處理器和與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如上述技術(shù)方案中任一項(xiàng)所述的一種多智能體口腔醫(yī)院診療模型建立方法。
26、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種多智能體口腔醫(yī)院診療模型建立方法,具有以下有益效果:采用了高效的方法對(duì)現(xiàn)有的大型語言模型進(jìn)行微調(diào),使其能夠更好地適應(yīng)醫(yī)學(xué)領(lǐng)域的特定需求。在微調(diào)的基礎(chǔ)上,進(jìn)一步利用基于人工智能的反饋機(jī)制,通過強(qiáng)化學(xué)習(xí)來優(yōu)化模型的表現(xiàn),使其在模擬醫(yī)患互動(dòng)時(shí)更加智能和適應(yīng)性強(qiáng)。通過這種多智能體框架,能夠模擬病人、檢查者、醫(yī)學(xué)生和主任醫(yī)生之間的復(fù)雜醫(yī)療交互過程,從而提供一個(gè)接近真實(shí)臨床環(huán)境的培訓(xùn)平臺(tái)。廣泛的實(shí)驗(yàn)結(jié)果和綜合評(píng)估證實(shí)了本發(fā)明的基于角色扮演的多智能體口腔醫(yī)院的技術(shù)能夠很好地提高醫(yī)學(xué)教育的互動(dòng)性和實(shí)踐性,同時(shí)確保醫(yī)學(xué)生能夠在一個(gè)安全的環(huán)境中學(xué)習(xí)和練習(xí)臨床思維和決策技能。
1.一種多智能體口腔醫(yī)院診療模型建立方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,病人智能體基于病例信息庫進(jìn)行構(gòu)建。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的偏好評(píng)估標(biāo)準(zhǔn),利用所述檢查者角色的多個(gè)生成回復(fù)和所述主任醫(yī)師角色的多個(gè)生成回復(fù)對(duì)所述大語言模型進(jìn)行訓(xùn)練,得到多智能體口腔醫(yī)院診療模型,具體包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于多個(gè)所述生成回復(fù)的標(biāo)注信息,對(duì)所述大語言模型進(jìn)行迭代訓(xùn)練,得到所述多智能體口腔醫(yī)院診療模型,包括:
8.一種多智能體口腔醫(yī)院診療模型建立裝置,其特征在于,所述裝置包括:
9.一種存儲(chǔ)器,其特征在于,
10.一種電子設(shè)備,其特征在于,