本發(fā)明涉及數(shù)據(jù)處理,特別涉及一種基于大語言模型的決策樹生成方法及相關設備。
背景技術:
1、由于醫(yī)學應用場景對知識精確度要求較高,全科醫(yī)學知識圖譜在數(shù)據(jù)精度方面的缺陷導致了其應用的局限性。近年來許多學者展開了對單病種醫(yī)學知識圖譜構建的研究。目前醫(yī)學知識圖譜涉及的醫(yī)療領域已經(jīng)非常豐富,如weng等提出一種基于語義分析的醫(yī)學知識圖譜自動構建框架,并基于此框架利用886例高血壓患者病歷構建了高血壓知識圖譜。如hong等提出一種基于急性心肌梗死和致命冠心病相關飲食因素的綜合縱向評估,研究發(fā)現(xiàn)了飲食對心腦血管疾病的影響。xiangxiang?zeng等人將知識圖譜引入藥物發(fā)現(xiàn)領域以施加顯式結構整合異構生物醫(yī)學數(shù)據(jù),對藥物再利用和藥物不良反應預測展開研究??祻歪t(yī)療知識圖譜的構建也有學者進行了研究。
2、已有的醫(yī)學知識庫形式有百科知識庫形式、問答對知識庫形式。該類知識庫?沒有對知識進行結構化,未能解決多源知識融合、知識點關聯(lián)問題。雖然在使用過程中除了可以進行關鍵詞匹配查詢,但返回結果與用戶查詢意圖關聯(lián)性差,仍?需要用戶花費較多時間查找真正需要的知識內(nèi)容,未能解決知識查詢效率低、準確性差的問題。
3、需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
技術實現(xiàn)思路
1、本技術的目的在于提供一種基于大語言模型的決策樹生成方法及相關設備,至少在一定程度上克服現(xiàn)有技術存在的問題,通過收集訓練樣本集、醫(yī)學文檔信息和醫(yī)院信息,生成帶有目標特征的訓練樣本集,對醫(yī)學文檔和醫(yī)院屬性信息,生成決策樹信息。通過自動化特征提取和節(jié)點關聯(lián)性分析,提高了干預決策的效率和準確性。
2、本技術的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習得。
3、根據(jù)本技術的一個方面,提供一種基于大語言模型的決策樹生成方法,包括:獲取訓練樣本集、目標醫(yī)學文檔信息和目標醫(yī)院信息,其中,所述目標醫(yī)學文檔信息包括急性上呼吸道感染疾病干預指南,所述訓練樣本集包括與目標醫(yī)學文檔信息相匹配的其他臨床指南文檔信息;對所述目標醫(yī)院信息進行處理,生成目標醫(yī)院的屬性信息,其中,所述目標醫(yī)院的屬性信息用于表征目標醫(yī)院針對目標醫(yī)學文檔信息的歷史反饋數(shù)據(jù);對所述訓練樣本集進行預處理,生成帶有目標特征數(shù)據(jù)的訓練樣本集,其中,所述目標特征數(shù)據(jù)用于表征臨床指南文檔信息處理的節(jié)點信息和決策路徑信息;獲取與所述目標特征數(shù)據(jù)相匹配的預設大語言模型,其中,所述預設大語言模型為基于預設時間段內(nèi)所接收到的目標醫(yī)院信息所設置的;基于所述帶有目標特征數(shù)據(jù)的訓練數(shù)據(jù)集對所述預設大語言模型進行訓練,生成目標大語言模型;基于所述目標大語言模型對所述目標醫(yī)學文檔信息和所述目標醫(yī)院的屬性信息進行處理,生成決策樹信息。
4、在本技術的一個實施例中,對所述目標醫(yī)院信息進行處理,生成目標醫(yī)院的屬性信息,包括:對所述目標醫(yī)院信息進行處理,生成用戶住院信息,其中,所述用戶住院信息包括與目標醫(yī)學文檔信息相匹配的若干患者的歷史住院信息;對所述用戶住院信息進行特征提取處理,生成用戶歷史生理特征信息和用戶歷史行為信息;對所述用戶歷史生理特征信息和所述用戶歷史行為信息進行處理,生成歷史反饋數(shù)據(jù);基于所述歷史反饋數(shù)據(jù)生成目標醫(yī)院的屬性信息。
5、在本技術的一個實施例中,對所述訓練樣本集進行預處理,生成帶有目標特征數(shù)據(jù)的訓練樣本集,包括:對所述訓練樣本集進行特征提取,生成原始特征庫;對所述原始特征庫進行分類處理,生成用戶特征信息,其中,所述用戶特征信息用于表征同一個用戶對不同病種的生理特征;對所述用戶特征信息進行處理,生成特征映射表,其中,所述特征映射表用于表征不同患者對相同病種的不同生理特征;基于所述特征映射表對所述原始特征庫進行處理,生成目標特征數(shù)據(jù)。
6、在本技術的一個實施例中,對所述訓練樣本集進行特征提取,生成原始特征庫,包括:獲取歷史臨床指南文檔數(shù)據(jù)集;對所述歷史臨床指南文檔數(shù)據(jù)集進行處理,獲取異常節(jié)點特征和與異常節(jié)點特征相匹配的異常共現(xiàn)頻率;對異常節(jié)點特征和與異常節(jié)點特征相匹配的異常共現(xiàn)頻率進行處理,生成若干節(jié)點信息;對節(jié)點信息進行處理,生成原始特征庫;所述方法還包括用于計算異常共現(xiàn)頻率的計算公式,所述計算公式為:;其中,是a和b共現(xiàn)的概率,分別是a和b單獨出現(xiàn)的概率。
7、在本技術的一個實施例中,基于所述帶有目標特征數(shù)據(jù)的訓練數(shù)據(jù)集對所述預設大語言模型進行訓練,生成目標大語言模型,包括:獲取帶有目標特征數(shù)據(jù)的訓練數(shù)據(jù)集中任一數(shù)量的數(shù)據(jù)特征;基于所述任一數(shù)量的數(shù)據(jù)特征與同類別的其他數(shù)量的數(shù)據(jù)特征之間的距離,生成相鄰特征,其中,所述相鄰特征包括所述任一數(shù)量的數(shù)據(jù)特征的預設數(shù)量;基于所述訓練集中各數(shù)據(jù)特征的數(shù)量,確定采樣比例;基于所述采樣比例,確定采樣比率;基于所述采樣比率對所述相鄰特征進行采樣,生成預設數(shù)量的采樣特征;基于任一數(shù)據(jù)特征與每個采樣特征,生成多組數(shù)據(jù)組,其中,每組數(shù)據(jù)組均包含預設數(shù)量的數(shù)據(jù)樣本,至少一個數(shù)據(jù)樣本包括標識信息;對多組數(shù)據(jù)組進行處理,生成訓練集和驗證集,其中,所述訓練集和所述驗證集均包括若干數(shù)據(jù)特征;基于所述訓練集對所述預設大語言模型進行訓練,生成訓練后的大語言模型;基于所述驗證集對所述訓練后的大語言模型進行處理,生成驗證結果;若所述驗證結果中包含標識信息的數(shù)據(jù)樣本為節(jié)點信息和決策路徑信息,則將所述訓練后的大語言模型作為目標大語言模型。
8、在本技術的一個實施例中,基于所述目標大語言模型對所述目標醫(yī)學文檔信息和所述目標醫(yī)院的屬性信息進行處理,生成決策樹信息,包括:基于所述目標大語言模型對所述目標醫(yī)學文檔信息進行處理,生成初始節(jié)點信息和與所述初始節(jié)點信息相匹配的決策信息,其中,所述初始節(jié)點信息用于表征用戶待注意事項;基于所述目標大語言模型對所述目標醫(yī)院的屬性信息進行處理,生成節(jié)點關聯(lián)性信息,其中,所述節(jié)點關聯(lián)性信息用于表征不同節(jié)點之間的關聯(lián)性;基于所述節(jié)點關聯(lián)性信息對所述初始節(jié)點信息進行處理,生成決策調(diào)整因子;基于所述決策調(diào)整因子對初始節(jié)點信息和與初始節(jié)點信息相匹配的決策信息進行處理,生成目標節(jié)點信息和與目標節(jié)點信息相匹配的目標決策信息;基于所述目標節(jié)點信息和目標決策信息生成決策樹信息。
9、在本技術的一個實施例中,基于所述目標大語言模型對所述目標醫(yī)院的屬性信息進行處理,生成節(jié)點關聯(lián)性信息,包括:基于所述目標大語言模型對所述目標醫(yī)院的屬性信息進行處理,生成臨床癥狀分類信息;對所述臨床癥狀分類信息進行處理,生成不同用戶的癥狀屬性信息,其中,不同用戶的癥狀屬性信息用于表征不同用戶針對不同癥狀的關聯(lián)性;對所述不同用戶的癥狀屬性信息進行處理,生成節(jié)點關聯(lián)性信息。
10、本技術的另一個方面,一種基于大語言模型的決策樹生成裝置,包括:獲取模塊,用于獲取訓練樣本集、目標醫(yī)學文檔信息和目標醫(yī)院信息,其中,所述目標醫(yī)學文檔信息包括急性上呼吸道感染疾病干預指南,所述訓練樣本集包括與目標醫(yī)學文檔信息相匹配的其他臨床指南文檔信息;獲取與所述目標特征數(shù)據(jù)相匹配的預設大語言模型,其中,所述預設大語言模型為基于預設時間段內(nèi)所接收到的目標醫(yī)院信息所設置的;處理模塊,用于對所述目標醫(yī)院信息進行處理,生成目標醫(yī)院的屬性信息,其中,所述目標醫(yī)院的屬性信息用于表征目標醫(yī)院針對目標醫(yī)學文檔信息的歷史反饋數(shù)據(jù);對所述訓練樣本集進行預處理,生成帶有目標特征數(shù)據(jù)的訓練樣本集,其中,所述目標特征數(shù)據(jù)用于表征臨床指南文檔信息處理的節(jié)點信息和決策路徑信息;基于所述帶有目標特征數(shù)據(jù)的訓練數(shù)據(jù)集對所述預設大語言模型進行訓練,生成目標大語言模型;基于所述目標大語言模型對所述目標醫(yī)學文檔信息和所述目標醫(yī)院的屬性信息進行處理,生成決策樹信息。
11、根據(jù)本技術的再一個方面,一種電子設備,包括:第一處理器;以及存儲器,用于存儲所述第一處理器的可執(zhí)行指令;其中,所述第一處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行實現(xiàn)上述的基于大語言模型的決策樹生成方法。
12、根據(jù)本技術的又一個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被第二處理器執(zhí)行時實現(xiàn)上述的基于大語言模型的決策樹生成方法。
13、根據(jù)本技術的又一個方面,提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被第三處理器執(zhí)行時實現(xiàn)上述的基于大語言模型的決策樹生成方法。
14、本技術所提供的一種基于大語言模型的決策樹生成方法及相關設備,由服務器通過收集訓練樣本集、醫(yī)學文檔信息和醫(yī)院信息,生成帶有目標特征的訓練樣本集,對醫(yī)學文檔和醫(yī)院屬性信息,生成決策樹信息。通過自動化特征提取和節(jié)點關聯(lián)性分析,提高了干預決策的效率和準確性,有助于醫(yī)生做出更精準的臨床決策。
15、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。