本發(fā)明屬于計算機視覺及醫(yī)學(xué)智能,涉及一種基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法及系統(tǒng)。
背景技術(shù):
1、醫(yī)學(xué)視覺問答是一項結(jié)合計算機視覺和自然語言處理的多模態(tài)任務(wù),通過輸入患者的醫(yī)學(xué)圖像和相關(guān)的問題,來預(yù)測問題的答案。醫(yī)學(xué)視覺問答模型在臨床上具有極大的應(yīng)用潛力,一方面可以幫助經(jīng)驗不足的醫(yī)生提供第二意見,提高診斷效率和準確率。另一方面,醫(yī)學(xué)視覺問答模型可以給患者提供快速準確的回答,緩解醫(yī)學(xué)資源不平衡的問題。
2、然而,現(xiàn)有醫(yī)學(xué)視覺問答系統(tǒng)在一些實際應(yīng)用場景中仍存在諸多技術(shù)局限性,例如問答類型區(qū)分、部位特征提取、細節(jié)捕捉能力以及交互靈活性方面存在明顯不足,導(dǎo)致其問答準確性和用戶交互體驗難以滿足醫(yī)學(xué)需求,具體如下:
3、1)當前的醫(yī)學(xué)視覺問答系統(tǒng)在處理封閉性和開放性問題時,缺乏有效的分類策略,未能充分考慮到這兩類問題的本質(zhì)差異。封閉性問題多為簡單的二選一,如”是/否”或”有/無”的判斷,適用于快速明確的解答;而開放性問題則常涉及復(fù)雜描述性回答,需對問題內(nèi)容進行更加細致的語義理解。這一缺陷導(dǎo)致系統(tǒng)難以精準理解問題類型,影響了其在不同語境下的問答效果。
4、2)現(xiàn)有模型的視覺編碼器在面對不同部位的病理圖像(如胸部、腹部和腦部ct影像)時,難以有效區(qū)分這些部位的特征。不同部位的ct圖像在灰度、紋理、結(jié)構(gòu)上存在一定相似性,現(xiàn)有模型在缺乏圖像部位分類功能的情況下,容易混淆不同部位的ct圖像,導(dǎo)致不同器官的病灶誤判。這種混淆歸一不僅影響圖像分類的準確性,還容易導(dǎo)致模型在病理分析環(huán)節(jié)中的誤判,嚴重制約了系統(tǒng)在多部位影像分析中的應(yīng)用價值。
5、3)醫(yī)學(xué)圖像通常具備低色彩對比度和高相似性特征,且容易受到噪聲、偽影等因素的干擾,使得現(xiàn)有的醫(yī)學(xué)圖像編碼器難以有效分辨病灶與正常組織。尤其在細微病灶的識別過程中,現(xiàn)有視覺問答模型往往無法準確提取病灶的細節(jié)特征,導(dǎo)致模型在區(qū)分病灶和正常組織的精度上不足。這一問題主要歸因于模型缺乏對高精細度信息的捕捉能力,無法實現(xiàn)與文本的精確對齊,限制了模型在高分辨率醫(yī)學(xué)圖像中的表現(xiàn)。
6、4)現(xiàn)有的醫(yī)學(xué)視覺問答系統(tǒng)多采用單輪問答的固定多分類輸出形式,缺乏與用戶的深度交互能力。這類模型往往僅能提供固定答案,無法根據(jù)上下文進行動態(tài)調(diào)整,導(dǎo)致用戶在復(fù)雜診斷或多輪追問情況下的需求得不到滿足。此外,單輪問詢的問答長度有限,使得系統(tǒng)難以處理多輪、上下文關(guān)聯(lián)性強的問題,顯著降低了其在實際醫(yī)療應(yīng)用中的實用性和擴展性。
7、針對上述問題,亟需一種新的醫(yī)學(xué)視覺問答方案來優(yōu)化醫(yī)學(xué)視覺問答系統(tǒng)的性能,提高其在多樣化醫(yī)學(xué)影像中的解答能力及交互體驗,以更好地滿足醫(yī)學(xué)領(lǐng)域的應(yīng)用需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法及系統(tǒng),該方法利用特征學(xué)習(xí)、跨模態(tài)對齊、多任務(wù)學(xué)習(xí)等技術(shù),結(jié)合sam模型和大模型,實現(xiàn)了圖文類別預(yù)測、重要掩碼預(yù)測和多輪問答分析的多任務(wù)建模,優(yōu)化了醫(yī)學(xué)視覺問答系統(tǒng)的性能和交互體驗。
2、為了實現(xiàn)上述發(fā)明的目的,本發(fā)明具體采用如下技術(shù)方案:
3、第一方面,本發(fā)明的一種基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法,包括:
4、步驟s1:加載用戶的歷史問答數(shù)據(jù),同時獲取當前用戶待分析的醫(yī)學(xué)圖像以及初步問題指令;
5、步驟s2:對所述待分析的醫(yī)學(xué)圖像與初步問題指令進行特征抽取,是將所述醫(yī)學(xué)圖像采用視覺編碼器進行特征抽取,得到圖像特征,將所述歷史問答數(shù)據(jù)與所述初步問題指令一同輸入對話大模型進行語義分析,識別并輸出適用于圖像分析的問題指令,經(jīng)過文本編碼器進行問題特征抽取,得到文本特征;
6、步驟s3:將所得到的文本特征和圖像特征經(jīng)過自注意力圖像重要性加權(quán)處理,突出與問題指令相關(guān)性更強的圖像區(qū)域,得到加權(quán)圖像特征,再進行圖文對齊后,得到圖文融合表征;
7、步驟s4:將獲取的圖文融合表征輸入多目標輸出投影層,進行多任務(wù)預(yù)測,預(yù)測輸出包括問題回答、圖像類別、重要區(qū)域掩碼,將問題回答、圖像類別輸入對話大模型,結(jié)合對話上下文和多輪互動數(shù)據(jù),結(jié)合重要區(qū)域掩碼最終生成具有詳細說明的診斷意見。
8、上述技術(shù)方案中,進一步的,步驟s2中,所述視覺編碼器采用?resnet?架構(gòu),并在醫(yī)學(xué)影像數(shù)據(jù)上進行預(yù)訓(xùn)練,使其具有醫(yī)學(xué)圖像特征提取能力,其利用卷積神經(jīng)網(wǎng)絡(luò)cnn層對圖像特征進行層次化編碼,每一卷積層中都能夠逐步提取到不同層次的特征,最終形成高維的圖像特征;
9、所述文本編碼器采用lstm網(wǎng)絡(luò),通過將問題指令進行embedding嵌入并輸入lstm網(wǎng)絡(luò),逐步提取出問題指令中的關(guān)鍵詞、語義關(guān)聯(lián)信息,生成具有時序信息的文本特征。
10、進一步的,所述的自注意力圖像重要性加權(quán)模塊包括依次連接的映射層、自注意力層和前饋輸出層,其中:
11、映射層將文本特征??和圖像特征??投影到高維空間,通過矩陣映射的方式將原始輸入投射至統(tǒng)一的特征維度;
12、自注意力層通過計算經(jīng)映射的文本特征和圖像特征的相似性得分進行加權(quán),確定圖像特征中的重要區(qū)域,其中文本特征??和圖像特征??的相似性得分計算公式如下:
13、
14、其中,??和?分別為文本特征和圖像特征的權(quán)重矩陣,??表示特征維度的縮放因子;通過?softmax?函數(shù)將注意力得分標準化,使得各區(qū)域的重要性權(quán)重之和為1;加權(quán)后的圖像特征表示為:
15、
16、加權(quán)后的圖像特征?經(jīng)過前饋輸出層處理后,輸出最終的加權(quán)特征,前饋輸出層包含多個非線性激活層和正則化層,輸出的加權(quán)圖像特征??為:
17、
18、其中,和??分別為前饋輸出層的權(quán)重矩陣和偏置項,??表示非線性激活函數(shù)。
19、進一步的,步驟s3中所述的圖文對齊,具體為:
20、將加權(quán)圖像特征??和文本特征??輸入級聯(lián)圖文對齊加權(quán)模塊,該模塊包括特征級聯(lián)層、跨模態(tài)注意力融合層、層級前饋網(wǎng)絡(luò);
21、特征級聯(lián)層用于將加權(quán)圖像特征與文本特征進行級聯(lián),得到級聯(lián)后特征表征;跨模態(tài)注意力融合層通過自注意力機制生成跨模態(tài)權(quán)重矩陣:
22、其中,?和??為投影權(quán)重矩陣,輸出的跨模態(tài)加權(quán)特征為,在獲得跨模態(tài)加權(quán)特征?后,級聯(lián)圖文對齊加權(quán)模塊將其輸入至層級前饋網(wǎng)絡(luò);層級前饋網(wǎng)絡(luò)由多層全連接層和非線性激活層組成,其結(jié)構(gòu)設(shè)計旨在逐層提煉跨模態(tài)特征,生成更具信息密度的融合表征,層級前饋網(wǎng)絡(luò)的計算公式為,其中??和??分別為前饋網(wǎng)絡(luò)的權(quán)重矩陣和偏置項,層級前饋網(wǎng)絡(luò)的最終輸出??經(jīng)歸一化操作處理,生成統(tǒng)一的圖文融合表征,該表征集成了深層次的圖像和文本交互信息。
23、進一步的,步驟s4中所述多目標輸出投影層包括回答預(yù)測模型、圖像類別預(yù)測模型以及重要區(qū)別預(yù)測器;回答預(yù)測模型用于生成與用戶問題相關(guān)的答案類別,由多層全連接層組成,通過對輸入特征進行逐層投影,最終輸出為答案類別的概率分布向量;圖像類別預(yù)測模型的任務(wù)是對醫(yī)學(xué)圖像的解剖部位進行分類,由多層全連接層構(gòu)成,最終輸出圖像類別的概率分布向量;重要區(qū)域預(yù)測器用于定位醫(yī)學(xué)圖像中與診斷相關(guān)的關(guān)鍵區(qū)域,采用解碼器網(wǎng)絡(luò)結(jié)構(gòu),由多個卷積層conv2d和上采樣層upsampling2d組成,通過逐步還原空間分辨率實現(xiàn)精準的區(qū)域定位。
24、進一步的,多目標輸出投影層執(zhí)行多目標訓(xùn)練時,重要性掩碼的數(shù)據(jù)標簽訓(xùn)練數(shù)據(jù)的構(gòu)造方法如下:
25、1)構(gòu)建指示點矩陣,每個提示點充當一個局部指示器,用于幫助醫(yī)學(xué)圖像分割模型捕捉圖像中可能包含重要信息的區(qū)域;
26、2)將構(gòu)建好的提示點矩陣與醫(yī)學(xué)圖像一并輸入?med-sam?模型,促使模型在整幅圖像中識別出顯著區(qū)域并進行分割操作,生成多個分割區(qū)域,篩選出置信度最高的前n?個分割區(qū)域,這些區(qū)域被視為圖像中最具信息價值的部分;
27、3)基于醫(yī)學(xué)圖像的關(guān)聯(lián)問題,對分割區(qū)域進行進一步的篩選;在獲得的前?n?個高置信度分割區(qū)域中,根據(jù)醫(yī)學(xué)問題所提供的語義信息,人工篩選識別出與該問題最為相關(guān)的區(qū)域,確保生成的掩碼數(shù)據(jù)聚焦于回答醫(yī)學(xué)問題所需的圖像內(nèi)容;
28、4)將篩選出的區(qū)域標注為“重要性掩碼”,該重要性掩碼不僅僅是模型感興趣的區(qū)域,更是用于醫(yī)學(xué)視覺問答任務(wù)中作為標簽的核心數(shù)據(jù);標注完成后,將這些重要性掩碼保存至訓(xùn)練集中,以便在多目標訓(xùn)練過程中作為模型學(xué)習(xí)的標簽數(shù)據(jù)。
29、第二方面,本發(fā)明的一種基于多任務(wù)建模的醫(yī)學(xué)視覺問答系統(tǒng),用于實現(xiàn)如上任一項所述的基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法,所述系統(tǒng)包括:
30、用戶交互模塊,用于與用戶進行交互,所述交互包括接收用戶上傳的醫(yī)學(xué)圖像、輸入的初步問題指令,并展示系統(tǒng)所生成的回答和診斷結(jié)果,包括文本回復(fù)、圖像標簽和掩碼顯示,并支持多輪交互模式;
31、推理預(yù)測模塊,用于對接收的醫(yī)學(xué)圖像及初步問題指令進行處理,包括醫(yī)學(xué)圖像編碼器、醫(yī)學(xué)對話大模型、問題文本編碼器、層級圖像加權(quán)器、圖文特征融合器和多目標預(yù)測器,其中,醫(yī)學(xué)圖像編碼器用于提取醫(yī)學(xué)圖像的特征,生成圖像特征;醫(yī)學(xué)對話大模型融合醫(yī)學(xué)領(lǐng)域的知識,用于將用戶的歷史問答數(shù)據(jù)和當前初步問題指令整合起來,生成適用于圖像分析的問題指令;問題文本編碼器用于對問題指令進行語義分析和特征提取,生成文本特征;層級圖像加權(quán)器用于對圖像特征進行逐層加權(quán),使模型能夠聚焦于與當前問題相關(guān)的關(guān)鍵區(qū)域,通過自注意力機制實現(xiàn)圖像重要性區(qū)域的加權(quán);圖文特征融合器將圖像特征與文本特征進行多層次融合,通過級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)確保兩種模態(tài)特征之間的關(guān)聯(lián)性,實現(xiàn)語義對齊;多目標預(yù)測器實現(xiàn)多任務(wù)輸出,包括回答預(yù)測、圖像類別預(yù)測和重要區(qū)域標注,回答預(yù)測生成與問題匹配的診斷建議,圖像類別預(yù)測器用于判定圖像部位類型,重要區(qū)域預(yù)測器生成重要區(qū)域掩碼,為用戶標注關(guān)鍵診斷區(qū)域;
32、記憶存儲模塊,用于保存用戶上傳的醫(yī)學(xué)圖像、交互對話數(shù)據(jù)和歷史診斷報告,并允許查看歷史問答數(shù)據(jù)。
33、第三方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上任一項所述的基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法。
34、第四方面,本發(fā)明提供一種電子設(shè)備,所述設(shè)備包括:
35、一個或多個處理器;
36、存儲器,用于存儲一個或多個程序;
37、當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如上任一項所述的基于多任務(wù)建模的醫(yī)學(xué)視覺問答方法。
38、本發(fā)明相對于現(xiàn)有技術(shù)而言,具有以下有益效果:
39、(1)本發(fā)明在現(xiàn)有的醫(yī)學(xué)圖像數(shù)據(jù)集上,利用?med-sam?模型在醫(yī)學(xué)圖像數(shù)據(jù)集上自動分割并生成重要性掩碼,以精確標記出問題相關(guān)的關(guān)鍵區(qū)域。通過過濾并保留與問題高度關(guān)聯(lián)的掩碼數(shù)據(jù),模型能夠?qū)W習(xí)到更具診斷意義的圖像特征,從而實現(xiàn)更高精度的圖像-問題對齊。這種自動化掩碼生成方式不僅減少了人工標注的工作量,且提升了圖像區(qū)域的重要性表達,使模型能夠更有效地捕獲疾病特征,改善醫(yī)學(xué)問答的精確度和可靠性。
40、(2)本發(fā)明在特征融合時,采用了一種多層級聯(lián)的加權(quán)融合模型,增強多模態(tài)特征表達能力。通過逐層權(quán)重調(diào)整,使得不同模態(tài)的特征在每一層均得到充分的融合和強調(diào)。該模型架構(gòu)能夠在不同層次上對圖像和文本特征進行迭代優(yōu)化,從而實現(xiàn)更豐富的多模態(tài)信息表達。這種分層次的融合策略避免了單層融合帶來的信息丟失和過度簡化問題,使得模型在復(fù)雜問題環(huán)境中具備更高的靈活性和魯棒性,同時確保多模態(tài)信息的完整性,提高了對醫(yī)學(xué)圖像中精細病灶特征的識別準確性。
41、(3)本發(fā)明在預(yù)測層建模了多任務(wù)目標,相比于傳統(tǒng)的單目標預(yù)測器,通過多目標損失優(yōu)化使得模型能夠同時區(qū)分多個醫(yī)學(xué)圖像部位(如胸部、腹部、腦部等)的特征,并進行精細化識別。多任務(wù)目標優(yōu)化策略有效地避免了不同模態(tài)特征的混淆,有助于模型準確識別特定器官和部位的特征,從而降低了預(yù)測錯誤的風(fēng)險。此外,重要區(qū)域預(yù)測目標的引入,使模型能夠?qū)W⒂趩栴}相關(guān)區(qū)域,精準對齊圖像和文本特征,從而提升了預(yù)測的準確性和問答過程的診斷價值。多任務(wù)學(xué)習(xí)的優(yōu)化策略還增強了模型對特定區(qū)域細節(jié)的感知能力,有助于在多模態(tài)復(fù)雜信息中進行更為精確的醫(yī)學(xué)診斷。
42、(4)本發(fā)明基于醫(yī)學(xué)對話大模型,構(gòu)建了具有豐富問題提取和回答功能的問答流程,與基于簡單分類器的傳統(tǒng)醫(yī)學(xué)問答模型相比,具有更高的靈活性和交互性。醫(yī)學(xué)大模型能夠?qū)⒂脩舻臍v史對話記錄和當前咨詢需求共同輸入,以形成多輪交互問答,有效解決了原始模型僅能進行單輪問答的局限性。通過對話上下文的多輪次考量,模型能夠?qū)τ脩舻亩鄻踊枨筇峁└哚槍π缘幕卮?,支持?fù)雜醫(yī)學(xué)問題的深入探討,為用戶提供更具指導(dǎo)性的醫(yī)療建議。此外,該流程豐富了診斷反饋的內(nèi)容,使得模型能夠提供符合用戶上下文的動態(tài)回復(fù),大大提升了用戶體驗和問答的實際診斷價值。