本發(fā)明專利屬于移動通訊領(lǐng)域,是一種移動云環(huán)境的基于近似空間聚類的醫(yī)學(xué)影像數(shù)據(jù)分析系統(tǒng),該系統(tǒng)涉及到大規(guī)模數(shù)據(jù)分析、云計(jì)算環(huán)境下的海量數(shù)據(jù)處理,涉及到智能數(shù)據(jù)處理與應(yīng)用開發(fā)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)與數(shù)字化的飛速發(fā)展,以及電子數(shù)碼產(chǎn)品的普及,人們能夠獲取的數(shù)字醫(yī)學(xué)圖像數(shù)據(jù)已經(jīng)越來越多。醫(yī)學(xué)圖像作為一種表現(xiàn)直觀、內(nèi)容豐富的多媒體信息,在各行各業(yè)中也得到越來越廣泛的應(yīng)用,如數(shù)字多媒體圖書館、醫(yī)學(xué)醫(yī)學(xué)圖像應(yīng)用管理、衛(wèi)星遙感醫(yī)學(xué)圖像和地理信息系統(tǒng)、身份認(rèn)證識別系統(tǒng)、電子商務(wù)、商標(biāo)版權(quán)的監(jiān)管等。然而,爆炸式增長的醫(yī)學(xué)圖像數(shù)據(jù)己經(jīng)遠(yuǎn)遠(yuǎn)超過了人們所能接受的程度,對于海量的醫(yī)學(xué)圖像數(shù)據(jù),如何能夠快速有效地進(jìn)行管理與檢索,繼而從中獲取潛在的有價(jià)值的信息成為人們關(guān)注的問題。而檢索時(shí)間是醫(yī)學(xué)圖像檢索的最關(guān)鍵問題之一,傳統(tǒng)的檢索方法是根據(jù)用戶提供的待查詢樣本醫(yī)學(xué)圖像,系統(tǒng)按照特定的相似性度量規(guī)則,遍歷數(shù)據(jù)庫中所有醫(yī)學(xué)圖像,并選擇最相似的若干幅作為查詢結(jié)果返回給用戶但由于現(xiàn)實(shí)世界中醫(yī)學(xué)圖像資源很豐富,醫(yī)學(xué)圖像數(shù)據(jù)庫容量龐大,如果依然采用順序檢索,計(jì)算量將會非??捎^,導(dǎo)致檢索效率會很低。如果在檢索之前能先對醫(yī)學(xué)圖像庫中的醫(yī)學(xué)圖像進(jìn)行聚類,對各類建立醫(yī)學(xué)圖像索引,繼而檢索過程在特定的某一類內(nèi)進(jìn)行,這樣就可以在很大程度上縮小醫(yī)學(xué)圖像的檢索匹配范圍,以達(dá) 到準(zhǔn)確并快速檢索醫(yī)學(xué)圖像的目的。
目前,用于醫(yī)學(xué)圖像聚類的算法主要有K-Means聚類算法、scalable k-means++聚類算法等等,但這些算法序列化的特性限制了其可擴(kuò)展性,它在選點(diǎn)時(shí)需要進(jìn)行大量的迭代操作,使得它在并行處理環(huán)境下處理海量數(shù)據(jù)時(shí)的效率比較低。因此,開發(fā)更好的醫(yī)學(xué)圖像聚類算法就顯得很有必要。
近幾年,云計(jì)算逐漸發(fā)展成為云計(jì)算的一個(gè)重要分支。任何智能終端設(shè)備如智能手機(jī)和平板電腦都可以從無線網(wǎng)絡(luò)環(huán)境中隨時(shí)按需獲取服務(wù),并且不受限于有限的硬件資源、計(jì)算能力和帶寬等。很顯然,在云計(jì)算中,高效分析和處理海量時(shí)空數(shù)據(jù),并且與醫(yī)學(xué)圖像聚類應(yīng)用相結(jié)合,就是一個(gè)新興的實(shí)用技術(shù),云計(jì)算環(huán)境下有效的空間數(shù)據(jù)庫索引技術(shù)對提高空間數(shù)據(jù)庫查找效率與應(yīng)用用戶體驗(yàn)至關(guān)重要,基于該出發(fā)點(diǎn),我們設(shè)計(jì)并實(shí)現(xiàn)了該發(fā)明專利。
技術(shù)實(shí)現(xiàn)要素:
根據(jù)上述背景技術(shù)中存在的缺陷和不足,本發(fā)明專利通過使用包括SIFT特征描述方法、過采樣修正算法在內(nèi)的多個(gè)醫(yī)學(xué)圖像處理算法,設(shè)計(jì)了一種新的近似醫(yī)學(xué)圖像聚類軟件,更好的解決了醫(yī)學(xué)圖像聚類問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是:
一種移動云環(huán)境的基于近似空間聚類的醫(yī)學(xué)影像數(shù)據(jù)分析系統(tǒng),主要由云中心服務(wù)系統(tǒng)組成,云中心服務(wù)系統(tǒng)建立并執(zhí)行SIFT特征提取與匹配算法,提取醫(yī)學(xué)圖像的相關(guān)特征數(shù)據(jù),并進(jìn)行匹配,且云中心服務(wù)系統(tǒng)還建立并執(zhí)行過采樣修正算法以進(jìn)行醫(yī)學(xué)圖像修正,反 饋聚類近似醫(yī)學(xué)圖像信息至客戶端。
進(jìn)一步的,客戶端根據(jù)需要將需要進(jìn)行聚類的醫(yī)學(xué)圖像發(fā)送至云中心服務(wù)系統(tǒng),并接收云中心服務(wù)系統(tǒng)的請求。
進(jìn)一步的,所述建立并執(zhí)行SIFT特征提取與匹配算法的方法,包括:
S1.檢測尺度空間極值;
S2.關(guān)鍵點(diǎn)定位;
S3.關(guān)鍵點(diǎn)方向匹配;
S4.生成特征描述子;
S5.特征匹配。
進(jìn)一步的,步驟S1.檢測尺度空間極值的方法是:每一個(gè)采樣點(diǎn)要和當(dāng)前醫(yī)學(xué)圖像的8個(gè)相鄰點(diǎn)、以及上下相鄰尺度醫(yī)學(xué)圖像對應(yīng)的9×2個(gè)點(diǎn)進(jìn)行比較,如果該采樣點(diǎn)都大于或者都小于其它26個(gè)相鄰點(diǎn),該點(diǎn)則為關(guān)鍵點(diǎn)。
進(jìn)一步的,步驟S2.關(guān)鍵點(diǎn)定位的方法是:關(guān)鍵點(diǎn)擬合三維二次函數(shù)以定位關(guān)鍵點(diǎn)的尺度和位置。
進(jìn)一步的,步驟S3.關(guān)鍵點(diǎn)方向分配的方法是:在以關(guān)鍵點(diǎn)為中心的鄰域窗口內(nèi)采樣,并用梯度方向直方圖統(tǒng)計(jì)鄰域像素的梯度方向,直方圖的峰值代表該關(guān)鍵點(diǎn)處的整個(gè)鄰域梯度的主方向,該主方向作為該關(guān)鍵點(diǎn)的方向。
進(jìn)一步的,在梯度方向直方圖中,當(dāng)存在主峰值80%以上能量的另一個(gè)峰值時(shí),則將該方向是該關(guān)鍵點(diǎn)的輔方向,使得主、輔方向聯(lián)合。
進(jìn)一步,
步驟S4.生成特征描述子的方法是:
S4.1.在求出關(guān)鍵點(diǎn)的主方向后,以關(guān)鍵點(diǎn)為中心取16×16的窗口,并將醫(yī)學(xué)圖像坐標(biāo)軸旋轉(zhuǎn)為關(guān)鍵點(diǎn)的主方向;
S4.2.在以關(guān)鍵點(diǎn)為中心的16×16個(gè)像素的窗口中計(jì)算每一個(gè)像素的梯度方向和幅值;
S4.3.進(jìn)行高斯加權(quán);
S4.4.將窗口劃分為4×4個(gè)小窗口,在每個(gè)小窗口上計(jì)算8個(gè)方向的梯度方向直方圖,并繪制每個(gè)梯度方向的累加值,形成一個(gè)種子點(diǎn);
其中,一個(gè)關(guān)鍵點(diǎn)由4×4共16個(gè)種子點(diǎn)組成,每個(gè)種子點(diǎn)有8個(gè)方向向量信息,一個(gè)特征點(diǎn)形成128維的SIFT特征向量。
進(jìn)一步的,步驟S5.特征匹配的方法是:在兩幅醫(yī)學(xué)圖像中取一幅醫(yī)學(xué)圖像中的某個(gè)特征點(diǎn),找出其與另一幅醫(yī)學(xué)圖像中歐式距離最近的前兩個(gè)特征點(diǎn),在這兩個(gè)特征點(diǎn)中,若最近的距離同次近的距離的比值小于某個(gè)閾值,則接受這一對匹配點(diǎn),否則丟棄。
進(jìn)一步的,
所述過采樣修正算法的迭代過程如下:
步驟一.計(jì)算全局聚類誤差ψ;
步驟二.每一個(gè)Map處理過程,任務(wù)使用scalable k-means++初始化算法進(jìn)行選點(diǎn),每個(gè)點(diǎn)x∈X被選中的概率為
其中:U0為初始所有中心點(diǎn)集合,c1均勻隨機(jī)選出的第一個(gè)中心 點(diǎn),d2(x,U0)為每一個(gè)點(diǎn)x∈Xi與U0的平方距離;
步驟三.一個(gè)Reduce任務(wù)合并所有來自Map任務(wù)的中心點(diǎn),輸出中心點(diǎn)的集合U1;
步驟四.迭代的過程中,OnR利用第j-2次迭代所得中心點(diǎn)對應(yīng)的全局誤差進(jìn)行選點(diǎn);OnR利用另一個(gè)過采樣因子o進(jìn)一步擴(kuò)大每一個(gè)點(diǎn)被選為中心點(diǎn)的概率;OnR在Reduce任務(wù)中使用一個(gè)修正的過程移除多選的中心點(diǎn)。
有益效果:該醫(yī)學(xué)圖像聚類系統(tǒng)會通過相關(guān)技術(shù)在用戶端獲取到圖片的相應(yīng)信息上傳并保存到云端服務(wù)器,然后云端服務(wù)器進(jìn)行處理,得到最佳的醫(yī)學(xué)圖像聚類方案并反饋給用戶。
附圖說明
圖1本發(fā)明的功能模塊圖;
圖2本發(fā)明的大規(guī)模近似醫(yī)學(xué)圖像聚類系統(tǒng)架構(gòu)的示意圖;
圖3本發(fā)明的特征提取過程;
圖4本發(fā)明的特征向量生成過程;
圖5本發(fā)明的過采樣修正算法的代碼;
圖6本發(fā)明的過采樣修正算法流程;
圖7本發(fā)明的所述系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
實(shí)施例1:參考圖1,一種移動云環(huán)境的基于近似空間聚類的醫(yī)學(xué)影像數(shù)據(jù)分析系統(tǒng),所述系統(tǒng)由一個(gè)云中心服務(wù)系統(tǒng)和一個(gè)手機(jī)智能移動客戶端軟件系統(tǒng)組成。其中,云服務(wù)系統(tǒng)負(fù)責(zé)進(jìn)行SIFT特征提取算法建立與過采樣修正算法的執(zhí)行,并將聚類結(jié)果反饋給用戶端;移 動端根據(jù)需要將需要進(jìn)行醫(yī)學(xué)圖像聚類的醫(yī)學(xué)圖像發(fā)送至云中心服務(wù)系統(tǒng),并接收云端請求。
參考圖2,作為一個(gè)實(shí)施例,該近似醫(yī)學(xué)圖像聚類系統(tǒng)的執(zhí)行流程是,當(dāng)聚類用戶發(fā)出相關(guān)醫(yī)學(xué)圖像聚類請求后,由云端系統(tǒng)根據(jù)SIFT特征提取算法和過采樣修正算法得到最好的聚類方案并返回最終結(jié)果給用戶,通過移動交流平臺進(jìn)行業(yè)務(wù)確認(rèn)。
該大規(guī)模醫(yī)學(xué)圖像聚類系統(tǒng)采用一種基于云計(jì)算的數(shù)據(jù)處理方式,當(dāng)用戶發(fā)出醫(yī)學(xué)圖像聚類請求時(shí),數(shù)據(jù)中心會通過建立的SIFT特征提取算法,迅速提取醫(yī)學(xué)圖像的相關(guān)特征數(shù)據(jù)。SIFT特征提取算法的處理步驟具體為:
參考圖3、4,其詳細(xì)步驟是:為了檢測尺度空間的局部極大極小點(diǎn),每一個(gè)采樣點(diǎn)要和當(dāng)前醫(yī)學(xué)圖像的8個(gè)相鄰點(diǎn)和上下相鄰尺度醫(yī)學(xué)圖像對應(yīng)的9×2個(gè)點(diǎn)共26個(gè)點(diǎn)進(jìn)行比較,如果該采樣點(diǎn)都要大于或者都要小于其它26個(gè)相鄰點(diǎn),該點(diǎn)則為關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn)還需要擬合三維二次函數(shù)以精確定位關(guān)鍵點(diǎn)的尺度和位置。在以關(guān)鍵點(diǎn)為中心的鄰域窗口內(nèi)采樣,并用梯度方向直方圖統(tǒng)計(jì)鄰域像素的梯度方向。該梯度方向直方圖的角度范圍是0-360度,其中每10度作為一個(gè)柱,共36個(gè)小柱,直方圖的峰值代表該關(guān)鍵點(diǎn)處的整個(gè)鄰域梯度的主方向,該方向則作為該關(guān)鍵點(diǎn)的方向。在梯度方向直方圖中,一個(gè)關(guān)鍵點(diǎn)可能會被指定具有多個(gè)方向,一個(gè)主方向和一個(gè)以上的輔方向。當(dāng)存在主峰值80%能量的另一個(gè)峰值時(shí),則將個(gè)方向認(rèn)為是該關(guān)鍵點(diǎn)的輔方向,通過主次方向聯(lián)合可以增強(qiáng)算法匹配的魯棒性。在求出關(guān)鍵 點(diǎn)的主方向后,接著以關(guān)鍵點(diǎn)為中心取16×16的窗口,并將醫(yī)學(xué)圖像坐標(biāo)軸旋轉(zhuǎn)為關(guān)鍵點(diǎn)的主方向,以確保旋轉(zhuǎn)不變性。接著在以關(guān)鍵點(diǎn)為中心的16×16個(gè)像素的窗口中計(jì)算每一個(gè)像素的梯度方向和幅值,然后進(jìn)行高斯加權(quán)。最后將窗口劃分為4×4個(gè)小窗口,在每個(gè)小窗口上計(jì)算8個(gè)方向的梯度方向直方圖,并繪制每個(gè)梯度方向的累加值,即可形成一個(gè)種子點(diǎn)。一個(gè)關(guān)鍵點(diǎn)由4×4共16個(gè)種子點(diǎn)組成,每個(gè)種子點(diǎn)有8個(gè)方向向量信息,這樣一個(gè)特征點(diǎn)就可以形成128維的SIFT特征向量。如圖2-4所示。這種聯(lián)合鄰域方向性信息的方法不僅增強(qiáng)了SIFT算法的抗噪性能,并且對在定位時(shí)存在誤差的特征匹配也有比較好的容錯(cuò)性。當(dāng)兩幅醫(yī)學(xué)圖像的SIFT特征向量生成后,接下來就是SIFT特征匹配階段。SIFT特征向量匹配以特征向量之間的歐式距離作為兩幅醫(yī)學(xué)圖像中特征點(diǎn)的相似性度量標(biāo)準(zhǔn)。在兩幅醫(yī)學(xué)圖像中取一幅醫(yī)學(xué)圖像中的某個(gè)特征點(diǎn),并找出其與另一幅醫(yī)學(xué)圖像中歐式距離最近的前兩個(gè)特征點(diǎn)。在這兩個(gè)特征點(diǎn)中,若最近的距離同次近的距離的比值小于某個(gè)閾值,則接受這一對匹配點(diǎn),否則丟棄。當(dāng)降低這個(gè)閾值的時(shí)候,SIFT匹配點(diǎn)數(shù)目會減少,但是匹配點(diǎn)更加準(zhǔn)確和穩(wěn)定。
參考圖5,作為另一個(gè)實(shí)施例,過采樣修正算法的定義為:在每一次迭代中,過采樣修正(Oversampling and Refining,簡稱為OnR)使用一個(gè)MapReduce作業(yè)選個(gè)中心點(diǎn)并且計(jì)算全局的誤差。OnR方法受到scalable k-means++方法的啟發(fā),除了過采樣因子,它使用另一個(gè)過采樣因子o進(jìn)一步增大Map階段選的中心點(diǎn)的數(shù)目。
參考圖6,Job1(從P1到P4)仍然負(fù)責(zé)計(jì)算ψ,ψ為全局聚類誤差; Job2(從P5到P8)的每一個(gè)Map(Map是一個(gè)處理過程,我們將這個(gè)過程命名為Map)任務(wù)使用scalable k-means++初始化算法進(jìn)行選點(diǎn),每個(gè)點(diǎn)x∈X被選中的概率為其中:U0為初始所有中心點(diǎn)集合,c1均勻隨機(jī)選出的第一個(gè)中心點(diǎn),d2(x,U0)為每一個(gè)點(diǎn)x∈Xi與U0的平方距離(P5階段),然后一個(gè)Reduce任務(wù)合并所有來自Map任務(wù)的中心點(diǎn)(P7階段),輸出中心點(diǎn)的集合U1(P8階段)。OnR迭代的過程從P9到P11,第j次迭代的過程如下,其中,j為迭代次數(shù),1≤j≤n,n為最大迭代次數(shù),由數(shù)據(jù)點(diǎn)個(gè)數(shù)決定:因?yàn)槊恳粋€(gè)Map任務(wù)無法獲得第j-1次迭代所得中心點(diǎn)對應(yīng)的全局誤差,即無法獲得φX(Uj-1),我們的方法OnR利用第j-2次迭代所得中心點(diǎn)對應(yīng)的全局誤差進(jìn)行選點(diǎn),即用φX(Uj-2);然而由于第j-2次迭代后已得到的中心點(diǎn)的數(shù)目比j-1次迭代后所得的中心點(diǎn)的數(shù)目要少,所以第j-2次對應(yīng)的全局誤差φX(Uj-2)比第j-1次對應(yīng)的全局誤差大,導(dǎo)致了每一個(gè)點(diǎn)x被選為中心點(diǎn)的概率變小,進(jìn)而導(dǎo)致了第j次迭代選擇的中心點(diǎn)的數(shù)目變少。為了解決上述問題,OnR利用另一個(gè)過采樣因子o進(jìn)一步擴(kuò)大每一個(gè)點(diǎn)被選為中心點(diǎn)的概率,即x被選為中心點(diǎn)的概率為在這種情形下,每一次迭代Map任務(wù)選擇的中心點(diǎn)的數(shù)目的期望值會大于(為scalable k-means++初始化算法每次迭代期望選擇的中心點(diǎn)數(shù)目),因此OnR在Reduce任務(wù)中需要使用一個(gè)修正的過程移除多選的中心點(diǎn)。
OnR算法詳細(xì)的迭代過程如下:在P9階段,每一個(gè)Map利用每個(gè) 點(diǎn)x的概率選擇新的中心點(diǎn)并計(jì)算中心點(diǎn)集Uj-1對應(yīng)的局部誤差并把所有的局部誤差值每個(gè)選中的點(diǎn)x對應(yīng)的隨機(jī)概率值(自行設(shè)置的參量,與 比較來選擇中心點(diǎn))以及傳輸給Reduce(P10階段)。修正的操作在一個(gè)單獨(dú)的Reduce任務(wù)上執(zhí)行(P11階段),它合并Map階段選出的中心點(diǎn)對所有的局部誤差 進(jìn)行求和操作得到第j-1次迭代后中心點(diǎn)對應(yīng)的全局誤差φX(Uj-1),在此也能得到被選中的中心點(diǎn)x對應(yīng)的真正的概率值,即 如果則點(diǎn)x為正確的中心點(diǎn),否則把x從C中移除,此次迭代的輸出為Uj以及φX(Uj-1),它們成為下一次迭代的輸入數(shù)據(jù)。
通過以上的分析,得出OnR每一次迭代的網(wǎng)絡(luò)傳輸量包括4部分:此次迭代選出的中心點(diǎn)集所有的局部誤差被選中的中心點(diǎn)對應(yīng)的隨機(jī)數(shù)與MRSKMI算法的傳輸量(和)相比,OnR的主要優(yōu)點(diǎn)是在網(wǎng)絡(luò)開銷沒有增長太多的前提下,它大大減少了I/O開銷。
實(shí)施例2:一種移動云環(huán)境的基于近似空間聚類的醫(yī)學(xué)影像數(shù)據(jù)分析系統(tǒng)由一個(gè)云中心服務(wù)系統(tǒng)和一個(gè)手機(jī)智能移動客戶端軟件系統(tǒng)組成。其中云服務(wù)系統(tǒng)負(fù)責(zé)進(jìn)行SIFT特征提取算法建立與過采樣修正算法的執(zhí)行,并將聚類結(jié)果反饋給用戶端;移動端根據(jù)需要將需要進(jìn)行醫(yī)學(xué)圖像聚類的醫(yī)學(xué)圖像發(fā)送至云中心服務(wù)系統(tǒng),并接收云端請求。
作為技術(shù)方案的補(bǔ)充,該醫(yī)學(xué)圖像聚類系統(tǒng)的執(zhí)行方法是:當(dāng)聚類用戶發(fā)出相關(guān)醫(yī)學(xué)圖像聚類請求后,由云端系統(tǒng)根據(jù)SIFT特征提取算法和過采樣修正算法得到最好的聚類方案并返回最終結(jié)果給用戶,通過移動交流平臺進(jìn)行業(yè)務(wù)確認(rèn)。
作為技術(shù)方案的進(jìn)一步補(bǔ)充,SIFT特征提取算法的處理步驟具體為:①檢測尺度空間極值;②關(guān)鍵點(diǎn)定位;③關(guān)鍵點(diǎn)方向分配;④生成特征描述子;⑤特征匹配。
其詳細(xì)步驟為:為了檢測尺度空間的局部極大極小點(diǎn),每一個(gè)采樣點(diǎn)要和當(dāng)前醫(yī)學(xué)圖像的8個(gè)相鄰點(diǎn)和上下相鄰尺度醫(yī)學(xué)圖像對應(yīng)的9x2個(gè)點(diǎn)共26個(gè)點(diǎn)進(jìn)行比較,如果該采樣點(diǎn)都要大于或者都要小于其它26個(gè)相鄰點(diǎn),該點(diǎn)則為關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn)還需要擬合三維二次函數(shù)以精確定位關(guān)鍵點(diǎn)的尺度和位置。在以關(guān)鍵點(diǎn)為中心的鄰域窗口內(nèi)采樣,并用梯度方向直方圖統(tǒng)計(jì)鄰域像素的梯度方向。該梯度方向直方圖的角度范圍是0-360度,其中每10度作為一個(gè)柱,共36個(gè)小柱,直方圖的峰值代表該關(guān)鍵點(diǎn)處的整個(gè)鄰域梯度的主方向,該方向則作為該關(guān)鍵點(diǎn)的方向。在梯度方向直方圖中,一個(gè)關(guān)鍵點(diǎn)可能會被指定具有多個(gè)方向,一個(gè)主方向和一個(gè)以上的輔方向。當(dāng)存在主峰值80%能量的另一個(gè)峰值時(shí),則將個(gè)方向認(rèn)為是該關(guān)鍵點(diǎn)的輔方向,通過主次方向聯(lián)合可以增強(qiáng)算法匹配的魯棒性。在求出關(guān)鍵點(diǎn)的主方向后,接著以關(guān)鍵點(diǎn)為中心取16×16的窗口,并將醫(yī)學(xué)圖像坐標(biāo)軸旋轉(zhuǎn)為關(guān)鍵點(diǎn)的主方向,以確保旋轉(zhuǎn)不變性。接著在以關(guān)鍵點(diǎn)為中心的16×16個(gè)像素的窗口中計(jì)算每一個(gè)像素的梯度方向和幅值,然后進(jìn)行高斯加 權(quán)。最后將窗口劃分為4×4個(gè)小窗口,在每個(gè)小窗口上計(jì)算8個(gè)方向的梯度方向直方圖,并繪制每個(gè)梯度方向的累加值,即可形成一個(gè)種子點(diǎn)。一個(gè)關(guān)鍵點(diǎn)由4×4共16個(gè)種子點(diǎn)組成,每個(gè)種子點(diǎn)有8個(gè)方向向量信息,這樣一個(gè)特征點(diǎn)就可以形成128維的SIFT特征向量。如圖2-4所示。這種聯(lián)合鄰域方向性信息的方法不僅增強(qiáng)了SIFT算法的抗噪性能,并且對在定位時(shí)存在誤差的特征匹配也有比較好的容錯(cuò)性。圖2-4中顯示的是4×4個(gè)像素的窗口,但在實(shí)際計(jì)算中經(jīng)典SIFT使用的是16×16個(gè)像素的窗口。當(dāng)兩幅醫(yī)學(xué)圖像的SIFT特征向量生成后,接下來就是SIFT特征匹配階段。SIFT特征向量匹配以特征向量之間的歐式距離作為兩幅醫(yī)學(xué)圖像中特征點(diǎn)的相似性度量標(biāo)準(zhǔn)。在兩幅醫(yī)學(xué)圖像中取一幅醫(yī)學(xué)圖像中的某個(gè)特征點(diǎn),并找出其與另一幅醫(yī)學(xué)圖像中歐式距離最近的前兩個(gè)特征點(diǎn)。在這兩個(gè)特征點(diǎn)中,若最近的距離同次近的距離的比值小于某個(gè)閾值,則接受這一對匹配點(diǎn),否則丟棄。當(dāng)降低這個(gè)閾值的時(shí)候,SIFT匹配點(diǎn)數(shù)目會減少,但是匹配點(diǎn)更加準(zhǔn)確和穩(wěn)定。
作為技術(shù)方案的補(bǔ)充,過采樣修正算法的定義為:在每一次迭代中,OnR使用一個(gè)MapReduce作業(yè)選個(gè)中心點(diǎn)并且計(jì)算全局的誤差。OnR方法受到scalable k-means++方法的啟發(fā),除了過采樣因子它使用另一個(gè)過采樣因子o進(jìn)一步增大Map階段選的中心點(diǎn)的數(shù)目。
作為技術(shù)方案的更進(jìn)一步的補(bǔ)充,基于過采樣修正的近似醫(yī)學(xué)圖像聚類的方法為:Job1(從P1到P4)仍然負(fù)責(zé)計(jì)算ψ;Job2(從P5到P8)的每一個(gè)Map任務(wù)使用scalable k-means++初始化算法進(jìn)行選點(diǎn),每個(gè) 點(diǎn)x∈X被選中的概率為(P5階段),然后一個(gè)Reduce任務(wù)合并所有來自Map任務(wù)的中心點(diǎn)(P7階段),輸出中心點(diǎn)的集合U1(P8階段)。OnR迭代的過程從P9到P11,第j次迭代的過程如下:因?yàn)槊恳粋€(gè)Map任務(wù)無法獲得第j-1次迭代所得中心點(diǎn)對應(yīng)的全局誤差,即無法獲得φX(Uj-1),我們的方法OnR利用第j-2次迭代所得中心點(diǎn)對應(yīng)的全局誤差進(jìn)行選點(diǎn),即用φX(Uj-2);然而由于第j-2次迭代后已得到的中心點(diǎn)的數(shù)目比j-1次迭代后所得的中心點(diǎn)的數(shù)目要少,所以第j-2次對應(yīng)的全局誤差φX(Uj-2)比第j-1次對應(yīng)的全局誤差大,導(dǎo)致了每一個(gè)點(diǎn)x被選為中心點(diǎn)的概率變小,進(jìn)而導(dǎo)致了第j次迭代選擇的中心點(diǎn)的數(shù)目變少。為了解決上述問題,OnR利用另一個(gè)過采樣因子o進(jìn)一步擴(kuò)大每一個(gè)點(diǎn)被選為中心點(diǎn)的概率,即x被選為中心點(diǎn)的概率為在這種情形下,每一次迭代Map任務(wù)選擇的中心點(diǎn)的數(shù)目的期望值會大于(為scalable k-means++初始化算法每次迭代期望選擇的中心點(diǎn)數(shù)目),因此OnR在Reduce任務(wù)中需要使用一個(gè)修正的過程移除多選的中心點(diǎn)。
OnR算法詳細(xì)的迭代過程如下:在P9階段,每一個(gè)Map利用每個(gè)點(diǎn)x的概率選擇新的中心點(diǎn)并計(jì)算中心點(diǎn)集Uj-1對應(yīng)的局部誤差并把所有的局部誤差值每個(gè)選中的點(diǎn)x對應(yīng)的隨機(jī)概率值以及傳輸給Reduce(P10階段)。修正的操作在一個(gè)單獨(dú)的Reduce任務(wù)上執(zhí)行(P11階段),它合并Map階段選出的中心點(diǎn)對所有的局部誤差進(jìn)行 求和操作得到第j-1次迭代后中心點(diǎn)對應(yīng)的全局誤差φX(Uj-1),在此也能得到被選中的中心點(diǎn)x對應(yīng)的真正的概率值,即 如果則點(diǎn)x為正確的中心點(diǎn),否則把x從C中移除,此次迭代的輸出為Uj以及φX(Uj-1),它們成為下一次迭代的輸入數(shù)據(jù)。
實(shí)施例3:上述各實(shí)施例中,在聚類階段,該醫(yī)學(xué)圖像聚類系統(tǒng)會通過相關(guān)技術(shù)在用戶端獲取到圖片的相應(yīng)信息上傳并保存到云端服務(wù)器,然后云端服務(wù)器進(jìn)行處理,得到最佳的醫(yī)學(xué)圖像聚類方案并反饋給用戶。
本實(shí)施例中所述的醫(yī)學(xué)圖像聚類系統(tǒng)具有下述結(jié)構(gòu)和好處:
(1)采用單個(gè)終端的設(shè)計(jì)方式。用戶端為安裝在安卓智能手機(jī)上的軟件,供用戶進(jìn)行醫(yī)學(xué)圖像聚類時(shí)使用。
用戶通過手機(jī)內(nèi)置的系統(tǒng)和手機(jī)運(yùn)營商的基站,依托于2G/3G網(wǎng)絡(luò),wifi等獲取需要聚類的醫(yī)學(xué)圖像并發(fā)送至云端。
(2)云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過這種方式,共享的軟硬件資源和信息可以按需提供給計(jì)算機(jī)和其他設(shè)備。我們發(fā)明中設(shè)計(jì)的醫(yī)學(xué)圖像聚類系統(tǒng)所使用的云端服務(wù)器是由多個(gè)云數(shù)據(jù)中心的網(wǎng)絡(luò)服務(wù)器或虛擬主機(jī)所構(gòu)成的,采用云計(jì)算這種并行化計(jì)算來處理大規(guī)模數(shù)據(jù)應(yīng)對于線上的醫(yī)學(xué)圖像聚類用戶,在這種模式下,保證了高訪問時(shí)的定址穩(wěn)定性,也加快了用戶搜索時(shí)的反應(yīng)速度,同時(shí)增強(qiáng)了可擴(kuò)展性。
(3)當(dāng)用戶發(fā)出聚類請求時(shí),數(shù)據(jù)中心會通過SIFT特征提取方 法、過采樣修正算法進(jìn)行大規(guī)模醫(yī)學(xué)圖像聚類,并給出適合用戶最好的醫(yī)學(xué)圖像聚類方案。
以上所述,僅為本發(fā)明創(chuàng)造較佳的具體實(shí)施方式,但本發(fā)明創(chuàng)造的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明創(chuàng)造披露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明創(chuàng)造的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明創(chuàng)造的保護(hù)范圍之內(nèi)。