本發(fā)明涉及圖像處理,尤其涉及一種基于圖像識別技術(shù)的文博圖像處理方法及系統(tǒng)。
背景技術(shù):
1、通過對文物的數(shù)字化存檔與分析,可以有效保護文博并提升學術(shù)研究的效率。文博圖像作為記錄和展示歷史文物的重要載體,承載了大量具有學術(shù)和文化價值的信息,例如古文字、紋樣以及結(jié)構(gòu)細節(jié)等。
2、在原始文博圖像的采集過程中,由于設備性能、光線條件、文物表面狀況等多種因素的影響,往往存在噪聲干擾。例如,圖像中的文字與背景對比度不足,或由于文物表面磨損導致紋理信息模糊,這些問題嚴重影響了后續(xù)圖像處理與分析的精度。因此,如何有效去除圖像噪聲、增強目標信息,實現(xiàn)自動識別和提取,已成為文博行業(yè)亟待解決的重要技術(shù)問題。這不僅關(guān)系到文物的科學研究,還對文物的數(shù)字化保存與展示具有重要的實際意義。
3、目前,雖然已有部分針對圖像去噪與目標檢測的算法與工具,但大多數(shù)未能針對文博圖像的特定需求進行優(yōu)化,尤其是在處理復雜背景、低對比度以及細微紋理等問題時,現(xiàn)有方法的效果仍不理想。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有的圖像處理方法無法滿足文博圖像特定需求的技術(shù)問題,本發(fā)明實施例提供一種基于圖像識別技術(shù)的文博圖像處理方法及系統(tǒng)。
2、本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:
3、本發(fā)明實施例提供了一種基于圖像識別技術(shù)的文博圖像處理方法,方法包括:獲取原始文博圖像;對所述原始文博圖像進行初步預處理操作,獲得第一圖像;使用基于深度學習的vgg16-unet文博圖像預處理模型對所述第一圖像進行噪聲識別和去除操作,獲得第二圖像;使用基于rt-detr模型的文博圖像分割模型對所述第二圖像進行分割處理,獲得包含目標信息的第三圖像;使用基于改進后resnet-101的文博圖像目標信息提取模型對所述第三圖像進行目標信息的識別,確定所述原始文博圖像中所包含的目標信息。
4、在一實施例中,對所述原始文博圖像進行初步預處理操作,包括:使用圖像增強技術(shù)對所述原始文博圖像進行處理,增加所述原始文博圖像中像素亮度值的范圍;使用高斯濾波器對增加亮度值范圍后的原始文博圖像進行處理,完成所述原始文博圖像的初步去噪、平滑和邊緣檢測;將所述原始文博圖像的像素灰度值設置為0或255,使所述原始文博圖像轉(zhuǎn)換為黑白效果圖。
5、在一實施例中,所述基于深度學習的vgg16-unet文博圖像預處理模型包括編碼器和解碼器,所述編碼器包括5層卷積層與4層最大池化層,所述解碼器包括上采樣模塊和卷積層;所述基于深度學習的vgg16-unet文博圖像預處理模型的訓練過程,包括:獲取訓練數(shù)據(jù)集,所述訓練數(shù)據(jù)集包括去除噪聲的干凈圖像和沒有去除噪聲的噪聲圖像;使用圖像相減技術(shù)對所述干凈圖像和所述噪聲圖像進行圖像相減處理,獲取文博圖像噪聲圖;對所述文博圖像噪聲圖進行翻轉(zhuǎn)、旋轉(zhuǎn)、隨機裁剪和/或平移變換處理,完成對所述文博圖像噪聲圖的擴充;將擴充后的文博圖像噪聲圖與所述干凈圖像進行合成,獲得擴充后的訓練數(shù)據(jù)集;利用所述訓練數(shù)據(jù)集對所述基于深度學習的vgg16-unet文博圖像預處理模型進行訓練;
6、其中,基于深度學習的vgg16-unet文博圖像預處理模型的訓練損失函數(shù)為:
7、
8、其中,表示干凈圖像中的像素,表示噪聲圖像中的像素。
9、在一實施例中,利用所述訓練數(shù)據(jù)集對所述基于深度學習的vgg16-unet文博圖像預處理模型進行訓練,包括:在使用基于深度學習的vgg16-unet文博圖像預處理模型對所述訓練數(shù)據(jù)集進行訓練過程中,計算評價指標值,所述評價指標值包括峰值信噪比和結(jié)構(gòu)相似性;在所述峰值信噪比高于預設第一閾值的情況下,判定訓練后的所述基于深度學習的vgg16-unet文博圖像預處理模型的處理質(zhì)量合格;和/或,在所述結(jié)構(gòu)相似性大于預設第二閾值的情況下,判定訓練后的所述基于深度學習的vgg16-unet文博圖像預處理模型的去噪效果合格;
10、所述峰值信噪比的計算式為:
11、
12、其中,為峰值信噪比,表示圖像中像素最大值,mse表示基于深度學習的vgg16-unet文博圖像預處理模型的損失函數(shù);
13、所述結(jié)構(gòu)相似性的計算式為:
14、
15、其中,、和分別表示亮度對比函數(shù)、對比度對比函數(shù)與結(jié)構(gòu)對比函數(shù),其中,
16、
17、
18、
19、其中,、分別表示干凈圖像和噪聲圖像的平均值,、分別表示干凈圖像和噪聲圖像的方差,分別表示干凈圖像和噪聲圖像的標準差,、和表示常數(shù),,為干凈圖像和噪聲圖像所組成的圖像對的協(xié)方差,其公式為:
20、
21、其中,n為圖像中像素的總數(shù),表示干凈圖像在第i個像素上的像素值,表示噪聲圖像在第i個像素上的像素值,i表示圖像中的第i個像素。
22、在一實施例中,基于rt-detr模型的文博圖像分割模型包括主干網(wǎng)絡、頸部網(wǎng)絡和解碼器;所述主干網(wǎng)絡用于特征提??;所述頸部網(wǎng)絡用于進一步聚合多層特征圖,并通過上采樣和下采樣操作增強圖像的多尺度表示能力;所述解碼器用于采用全連接層和非極大值抑制技術(shù),對特征圖中的關(guān)鍵信息進行處理,識別到目標信息的識別并完成分割;所述基于rt-detr模型的文博圖像分割模型在訓練過程中的損失函數(shù)為:
23、
24、其中,為交叉熵損失,為對抗性損失,和為分別控制交叉熵損失和對抗性損失權(quán)重的超參數(shù)。
25、在一實施例中,所述基于rt-detr模型的文博圖像分割模型在訓練過程中的評價指標包括準確率、召回率、f1、ap和map;其中,
26、
27、
28、
29、
30、
31、其中,tp為對真實檢測框的正確檢測,fp?為對不存在對象的錯誤檢測或者是對存在對象的位置錯誤的檢測,fn為沒有被檢測到的真實檢測框;為所有預測框的數(shù)量,為所有真實檢測框的數(shù)量,p為精確度的值,r為召回率的值,為第n+1個樣本的召回率,為第n個樣本的召回率,為平均準確率,指在不同召回率下準確率的平均值,map為所有類別的平均值,n為樣本數(shù)量,為超過第n+1個樣本的召回率中對應的最大準確率的值。
32、在一實施例中,基于改進后resnet-101的文博圖像目標信息提取模型包括多個殘差塊和雙重注意力網(wǎng)絡模塊:每個所述殘差塊包含卷積層和激活函數(shù)層,所述殘差塊用于將卷積層的輸出傳遞到下一層,以及將輸入數(shù)據(jù)與經(jīng)過卷積和激活函數(shù)層處理后的數(shù)據(jù)進行相加;所述雙重注意力網(wǎng)絡模塊包括空間注意力模塊和通道注意力模塊;所述空間注意力模塊用于通過所有位置處的特征的加權(quán)和來選擇性地聚合每個位置的特征;所述通道注意力模塊用于使用自注意力機制來捕獲任意兩個通道圖之間的通道依賴關(guān)系,并通過所有通道圖的加權(quán)和來更新每個通道圖;所述基于改進后resnet-101的文博圖像目標信息提取模型訓練過程的損失函數(shù)包括:
33、
34、其中,是真實標簽的第i個類別的概率,是模型預測輸出的第i個類別的概率。
35、本發(fā)明實施例還提供了一種基于圖像識別技術(shù)的文博圖像處理系統(tǒng),包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器;其中,所述處理器用于運行所述計算機程序時,執(zhí)行上述所述方法的步驟。
36、本發(fā)明實施例還提供了一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)上述所述方法的步驟。
37、本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機指令,所述計算機指令存儲在計算機可讀存儲介質(zhì)中,計算機設備的處理器從所述計算機可讀存儲介質(zhì)讀取所述計算機指令,處理器執(zhí)行所述計算機指令,使得計算機設備執(zhí)行上述所述方法的步驟。
38、本發(fā)明實施例提供的基于圖像識別技術(shù)的文博圖像處理方法及系統(tǒng),通過圖像去噪預處理、圖像自動分割和目標信息識別三大步驟,有效解決了文博圖像中的噪聲干擾和信息提取困難的問題。本實施例方法不僅提高了文博圖像的清晰度,還大幅提升了目標信息分割與識別的準確性,適用于文物保護、數(shù)字化存檔及學術(shù)研究等多種應用場景。