一種基于高階圖結構p-Laplacian稀疏編碼的數(shù)字圖像標記方法
【技術領域】
[0001] 本發(fā)明設計一種數(shù)字圖像標記方法,特別涉及一種基于高階圖結構信息 p-Lap Iacian的數(shù)字圖像標記方法。
【背景技術】
[0002] 隨著計算機的數(shù)據(jù)處理能力的不斷提高以及便攜智能設備(例如智能手機數(shù)碼 相機)的普及,大數(shù)據(jù)量的數(shù)字圖像的獲取也變得越來越容易。數(shù)字圖像標記技術便是利 用已有標記圖像信息對圖像數(shù)據(jù)庫中未標記圖像進行標記。一種有效的圖像標記策略是將 圖像標記過程看作一個學習過程,利用已有訓練圖像作為學習所需的樣本,使用機器學習 技術學習得到圖像的表示方法,進而獲得一個預測模型實現(xiàn)對未標記圖像的標記。
[0003] 目前的圖像標記技術中對于圖像的表示主要側重于圖像的特征提取,或者只涉及 圖像樣本分布低階圖結構信息。由于目前圖像標記技術中圖像表示方法沒有考慮到圖像樣 本分布高階圖結構信息,因此無法更精確的表示圖像樣本的內(nèi)在聯(lián)系,不利于有效的進行 圖像標記。
【發(fā)明內(nèi)容】
[0004] 針對上述問題,本發(fā)明提供了一種一種基于高階圖結構p-Laplacian稀疏編碼的 數(shù)字圖像標記方法,所采用的技術方案為:
[0005] (1)生成圖像特征;
[0006] (2)結合圖像特征計算數(shù)字圖像庫中圖像樣本的高階結構信息p-Laplacian進行 字典學習;
[0007] (3)根據(jù)得到的字典計算圖像的稀疏編碼作為圖像表示;
[0008] (4)對得到圖像稀疏編碼使用預設的分類方法進行訓練得到所需的預測模型;
[0009] (5)根據(jù)訓練得到的預測模型對數(shù)字圖像中待標記的數(shù)字圖像和用戶新輸入的圖 像進行標記;
[0010] (6)結束。
[0011] 特別的,所述圖像標記裝置包括數(shù)字圖像存儲設備、已標記圖像庫和用戶圖像輸 入設備。
[0012] 優(yōu)選的,所述待標記數(shù)字圖像存儲于數(shù)字圖像存儲設備內(nèi)。
[0013] 優(yōu)選的,所述已標記圖像庫中的每個數(shù)字圖像均對應了一組人工標注的概念標 記。
[0014] 下面具體說明本發(fā)明的技術方案:
[0015] 數(shù)字圖像存儲設備中存放了待標記的數(shù)字圖像,此外還存在一個已標記的數(shù)字圖 像庫,該圖像庫中包含一些已經(jīng)標記好的數(shù)字圖像,每個數(shù)字圖像均對應了一組人工標注 的概念標記,用戶亦可以增加圖像庫中不存在的未標記數(shù)字圖像??梢允褂脭?shù)字圖像處理 的經(jīng)典方法生成適當?shù)膱D像特征,由此每幅圖像可由一個特征向量進行表示,比如SIFT特 征等。得到圖像的特征表示后,使用預設的分類方法支持向量機訓練得到相應的預測模型 支持向量模型,基于預測模型對圖像存儲設備中的待標記圖像和用戶輸入的新圖像進行標 記。
[0016] 對用戶輸入的新圖像進行標記后,生成圖像特征,然后結合圖像庫中圖像樣本的 高階圖結構信息ρ-Laplacian進行字典學習。
[0017] 結合圖像庫中圖像樣本的高階圖結構信息p-Laplacian進行字典學習時,假設X 代表圖像特征矩陣,D代表學習字典,W代表圖像稀疏編碼,ApW代表圖像樣本高階圖結構 p-Laplacian 信息:
[0018] a.先初始化操作,設定用來平衡目標函數(shù)中的后面兩項的比重的γι,γ2,設定字 典元素數(shù)目并生成D。
[0019] b.固定字典D,通過求解問題
[0021] 計算圖像對應的稀疏編碼W。
[0022] c.固定稀疏編碼W,通過求解問題
計 算特征字典D。
[0023] d.判斷是否滿足收斂條件,若不滿足收斂條件,返回到步驟b繼續(xù)計算W,若滿足 收斂條件,則結束。
[0024] 步驟b至d構成了一個循環(huán)體,在循環(huán)體內(nèi)部迭代交替計算特征字典D和稀疏編 碼W。在上述循環(huán)過程結束后,獲得了基于圖像庫的特征字典D,同時也獲得了圖像庫中圖 像的稀疏編碼W。
[0025] 計算樣本的高階圖結構p-Laplacian信息Δ pW的方法如下:
[0026] A.起始狀態(tài),假設圖像庫中圖像構成的圖結構為6"= (V,E),其中V代表N個圖 像樣本點的組成集合,E代表圖像樣本點連接的邊集合,ω代表樣本點鄰接關系的權重計 算函數(shù),圖像樣本點與其標記概念間存在函數(shù)關系f :V - R。
[0027] B.計算樣本點的鄰接關系權重ω,ω有不同的具體計算形式,這 里采用基于Gaussian RBF核函數(shù)的任意樣本點u和V的臨界關系權重為
式中a是參數(shù),控制整個結果不要過大或者過小的, exp (.)是一個指數(shù)函數(shù),就是以e為底的指數(shù)為括號里的數(shù)的函數(shù),X u、X "分別代表u樣 本點和V樣本點的屬性值。
[0028] C.計算樣本點V的加權梯度
[0029] 其中,u~V表示樣本點u是點V的鄰接點,▽ "f是加權梯度。
[0030] D.計算樣本點 V 的 p-Laplacian 信息(Apf)v= Σ u~vruv(fv-fu),其中
[0031] E. v = ν+l。迭代算法,計算完了第v個點就要計算第ν+l個點。
[0032] F.比較V與N,若V〈N則返回步驟C繼續(xù)計算樣本點V的加權梯度;若v>N則 結束。
[0033] 步驟C到E是一個循環(huán)體,在循環(huán)體內(nèi)部計算每一個樣本點p-Laplacian信息。
[0034] 基于學習的特征字典計算圖像的稀疏編碼的方法:
[0035] 第一步:起始狀態(tài)。假設X是待標記圖像的輸入圖像特征,ω是其對應的稀疏編 碼;
[0036] 第二步:根據(jù)學習的特征字典設定D和γ 3;
[0037] 第三步:通過求解問題
,計算輸入圖像的稀 疏編碼,式中F代表的是雙數(shù)線內(nèi)部的范數(shù)為F范數(shù)。
[0038] 第四步:結束狀態(tài)。
[0039] 本發(fā)明中對于圖像的表示主要側重于圖像特征的表示,涉及圖像樣本分布高階圖 結構信息,ρ-Laplaican能夠描述圖像樣本分布的高階結構關系,更精確的表示圖像樣本的 內(nèi)在聯(lián)系,能夠獲得更具有代表意義的圖像編碼,更準確的表達圖像內(nèi)容和相互聯(lián)系,提高 編碼的有效性和可分類性,從而更加有效的進行圖像標記。
【附圖說明】
[0040] 圖1所示為圖像標記裝置的工作流程圖
[0041] 圖2所示為本發(fā)明方法的流程圖
[0042] 圖3所示為本發(fā)明所采用的圖像樣本高階圖結構p-Laplacian信息計算流程圖
[0043] 圖4所示為本發(fā)明所采用的基于p-Laplacian的圖像稀疏編碼計算流程圖 圖5所示為本發(fā)明計算樣本的高階圖結構p-Laplacian信息△ PW的流程圖
【具體實施方式】
[0044] 如圖1所示,數(shù)字圖像存儲設備中存放了待標記的數(shù)字圖像,此外還存在一個已 標記的數(shù)字圖像庫,該圖像庫中包含一些已經(jīng)標記好的數(shù)字圖像,每個數(shù)字圖像均對應了 一組人工標注的概念標記,用戶亦可以增加圖像庫中不存在的未標記數(shù)字圖像。可以使用 數(shù)字圖像處理的經(jīng)典