本發(fā)明涉及圖像分割,特別是涉及一種基于困難樣本挖掘掩碼自編碼器的醫(yī)學圖像分割自預(yù)訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
1、醫(yī)學圖像分割是醫(yī)學影像處理中的一個重要技術(shù),旨在從醫(yī)學圖像中自動識別和提取出感興趣的區(qū)域或目標,幫助醫(yī)生更準確、更快速地診斷和治療疾病。隨著深度學習技術(shù)的迅猛發(fā)展,計算機視覺和圖像識別的準確性得到了顯著提升,這極大地推進了深度學習在醫(yī)學圖像分割領(lǐng)域的應(yīng)用進程。然而,在醫(yī)學圖像處理的實際應(yīng)用中,由于需要保護患者隱私以及醫(yī)學圖像分類通常需要專業(yè)影像醫(yī)生的參與,獲取大量高質(zhì)量標注樣本變得極為困難。這對于深度學習模型來說,尤其是對于那些深度較大的模型,有限的訓(xùn)練樣本可能導(dǎo)致模型過擬合,從而降低其泛化能力,影響分析結(jié)果的準確性。
2、掩碼自編碼器(mae)作為一種無監(jiān)督學習方法,為深度學習模型提供有效的預(yù)訓(xùn)練,旨在減輕深度學習模型對大量標注數(shù)據(jù)的依賴,提高其泛化能力。mae通過遮蔽圖像的一部分并訓(xùn)練深度學習模型重建這些被遮蔽的部分,從而學習數(shù)據(jù)的有效表示。盡管mae在醫(yī)學圖像表示學習方面具有明顯優(yōu)勢,但其訓(xùn)練過程并未站在教師的位置,判斷出哪些數(shù)據(jù)樣本難以重建。然而實際上,識別并學習難以重建的數(shù)據(jù)樣本對于提高醫(yī)學圖像分割的準確度尤為關(guān)鍵。通過這種方式,深度學習模型能夠更深入地理解醫(yī)學圖像的復(fù)雜性和細微差異,從而在分割任務(wù)中實現(xiàn)更高的準確性。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種基于困難樣本挖掘掩碼自編碼器的醫(yī)學圖像分割自預(yù)訓(xùn)練方法及系統(tǒng),通過困難樣本挖掘和自預(yù)訓(xùn)練機制,提高醫(yī)學圖像分割的準確性。
2、技術(shù)方案:為實現(xiàn)上述目的,本發(fā)明所述的一種基于困難樣本挖掘掩碼自編碼器的醫(yī)學圖像分割自預(yù)訓(xùn)練方法,包括以下步驟:
3、步驟1:收集多名受試者的全身ct掃描圖像,每個ct掃描圖像包含多張覆蓋了人體內(nèi)的42個器官的二維橫截面圖像,將ct掃描圖像劃分為訓(xùn)練集和測試集;
4、步驟2:對訓(xùn)練集和測試集中ct掃描圖像進行預(yù)處理,獲得多張大小相同的三維子圖像;
5、步驟3:利用步驟2的訓(xùn)練集對具有注意力機制的深度學習模型hpm中進行自預(yù)訓(xùn)練,深度學習模型hpm包括塊嵌入層、位置嵌入層、一個學生vit網(wǎng)絡(luò)和一個教師vit網(wǎng)絡(luò);
6、步驟4:深度學習模型hpm訓(xùn)練結(jié)束后,通過將學生vit網(wǎng)絡(luò)的編碼器連接unetr解碼器,構(gòu)建分割網(wǎng)絡(luò)模型;
7、步驟5:利用步驟2的訓(xùn)練集對分割網(wǎng)絡(luò)模型進行訓(xùn)練,訓(xùn)練完成后,利用步驟2的測試集對訓(xùn)練完成的分割網(wǎng)絡(luò)模型進行評估;
8、步驟6:將新的三維子圖像輸入分割網(wǎng)絡(luò)模型,最終輸出為42類分割結(jié)果。
9、其中,步驟2所述的對ct掃描圖像進行預(yù)處理,包括對每個ct掃描圖像依次進行降采樣、重定向、體素縮放、背景剪裁、圖像剪裁、隨機體素變換、隨機仿射變換操作,獲得多張大小為96×96×96體素的三維子圖像。
10、其中,步驟3所述的學生vit網(wǎng)絡(luò)和教師vit網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu),都由一個編碼器、一個圖像重建解碼器和一個損失預(yù)測解碼器組成,其中教師網(wǎng)絡(luò)的參數(shù)由學生網(wǎng)絡(luò)以θt←mθt+(1-m)θs的方式進行更新,θt和θs分別代表教師網(wǎng)絡(luò)參數(shù)和學生網(wǎng)絡(luò)參數(shù)。
11、其中,步驟3所述的自預(yù)訓(xùn)練的方法為:
12、步驟301:將訓(xùn)練集中三維子圖像轉(zhuǎn)換成三維塊序列,再將三維塊序列輸入進塊嵌入層,輸出得到形狀為n*q的塊嵌入,其中n表示每個塊嵌入的長度,q表示每個塊嵌入的維度;
13、步驟302:將塊嵌入輸入進位置嵌入層,使用正弦-余弦位置嵌入方法為每個塊嵌入添加位置信息,得到形狀為n*(q+1)的輸出x;
14、步驟303:將x輸入教師vit網(wǎng)絡(luò)的編碼器中,將的輸出輸入教師vit網(wǎng)絡(luò)的損失預(yù)測解碼器中,經(jīng)過輸出獲得逐塊預(yù)測長度為n的重建損失lpred(t);
15、步驟304:設(shè)定從易到難的掩碼生成策略,基于重建損失lpred(t)和設(shè)定的訓(xùn)練輪次,得到一個二值掩碼m,用于指示三維塊序列在訓(xùn)練過程中被遮蔽;
16、步驟305:將x和m輸入學生vit網(wǎng)絡(luò)的編碼器將的輸出分別輸入到學生vit網(wǎng)絡(luò)的圖像重建解碼器和損失預(yù)測解碼器中,重建解碼器和損失預(yù)測解碼器分別輸出重建損失lrec(s)和預(yù)測損失lpred(s);
17、步驟306:重建損失lrec(s)和預(yù)測損失lpred(s)兩個函數(shù)交替作用,逐步敦促學生vit網(wǎng)絡(luò)學習三維子圖像中的復(fù)雜特征。
18、其中,步驟301所述將訓(xùn)練集中三維子圖像轉(zhuǎn)換成三維塊序列的方法為:形狀為h×w×d×c的三維子圖像被重塑成一系列的三維塊序列n×(p3·c)=n×q,q=p3·c;其中c為三維子圖像輸入通道,(h;w;d)為三維子圖像分辨率,(p;p;p)是三維塊序列分辨率,n=hwd/p3是三維塊序列的數(shù)量,即三維塊序列的長度。
19、其中,步驟303中所述教師vit網(wǎng)絡(luò)的編碼器由12個變換器transformer塊組成,損失預(yù)測解碼器由8個transformer塊組成;每個transformer塊由多頭自注意力和mlp交替組成。
20、其中,步驟305所述重建損失lrec(s)和預(yù)測損失lpred(s)分別為:
21、
22、為變換函數(shù),生成重建目標,表示相似性度量;
23、
24、表示損失預(yù)測解碼器的輸出,σ(.)表示sigmoid函數(shù),表示數(shù)據(jù)塊i和數(shù)據(jù)塊j之間的重建損失相對關(guān)系,i,j=1,2...k為補丁索引;
25、
26、mi=mj=0表示數(shù)據(jù)塊i和數(shù)據(jù)塊j在訓(xùn)練過程中都被屏蔽。
27、其中,步驟4所述分割網(wǎng)絡(luò)模型中,學生vit網(wǎng)絡(luò)編碼器負責將輸入的圖像轉(zhuǎn)換為特征表示,unetr解碼器則將特征轉(zhuǎn)換為分割結(jié)果。
28、其中,步驟5所述分割網(wǎng)絡(luò)模型的訓(xùn)練方法為:分割網(wǎng)絡(luò)模型根據(jù)輸入的三維子圖像輸出預(yù)測的分割結(jié)果,通過預(yù)測結(jié)果與真實的分割標簽的比較,計算獲得損失,包括dice損失和交叉熵損失bcelos;
29、根據(jù)計算得到的損失,通過反向傳播算法計算損失函數(shù)對分割網(wǎng)絡(luò)模型參數(shù)的梯度;使用優(yōu)化算法根據(jù)梯度調(diào)整模型參數(shù),從而使模型在下一輪訓(xùn)練中能夠產(chǎn)生更小的損失;重復(fù)上述步驟,直到達到指定的輪次。
30、本發(fā)明所述一種基于困難樣本挖掘掩碼自編碼器的醫(yī)學圖像分割自預(yù)訓(xùn)練系統(tǒng),包括以下模塊:
31、圖像樣本建立模塊:收集多名受試者的全身ct掃描圖像,每個ct掃描圖像包含多張覆蓋了人體內(nèi)的42個器官的二維橫截面圖像,將ct掃描圖像劃分為訓(xùn)練集和測試集;
32、圖樣樣本預(yù)處理模塊:對訓(xùn)練集和測試集中ct掃描圖像進行預(yù)處理,獲得多張大小相同的三維子圖像;
33、hpm訓(xùn)練模塊:利用步驟2的訓(xùn)練集對具有注意力機制的深度學習模型hpm中進行自預(yù)訓(xùn)練,深度學習模型hpm包括塊嵌入層、位置嵌入層、一個學生vit網(wǎng)絡(luò)和一個教師vit網(wǎng)絡(luò);
34、分割網(wǎng)絡(luò)構(gòu)建模塊:深度學習模型hpm訓(xùn)練結(jié)束后,通過將學生vit網(wǎng)絡(luò)的編碼器連接unetr解碼器,構(gòu)建分割網(wǎng)絡(luò)模型;
35、分割網(wǎng)絡(luò)訓(xùn)練模塊:利用步驟2的訓(xùn)練集對分割網(wǎng)絡(luò)模型進行訓(xùn)練,訓(xùn)練完成后,利用步驟2的測試集對訓(xùn)練完成的分割網(wǎng)絡(luò)模型進行評估;
36、分割網(wǎng)絡(luò)預(yù)測模塊:將新的三維子圖像輸入分割網(wǎng)絡(luò)模型,最終輸出為42類分割結(jié)果。
37、有益效果:本發(fā)明具有如下優(yōu)點:1、本發(fā)明中教師vit網(wǎng)絡(luò)通過困難樣本挖掘幫助訓(xùn)練學生vit網(wǎng)絡(luò),讓學生vit網(wǎng)絡(luò)在這些困難樣本上集中學習,有效地提高其特征提取能力;
38、2、分割網(wǎng)絡(luò)模型能夠結(jié)合學生vit網(wǎng)絡(luò)編碼器的通用特征提取能力和unetr解碼器的分割能力,形成一個高效的端到端系統(tǒng);從而顯著提高醫(yī)學圖像的分割性能。