一種基于圖像處理的最大間隔深度生成模型的生成方法
【技術領域】
[0001] 本發(fā)明設及數據挖掘、機器學習技術領域,具體設及一種基于圖像處理的最大間 隔深度生成模型的生成方法。
【背景技術】
[0002] 隨著深度學習的不斷發(fā)展,前饋神經網絡在各個領域都取得了顯著的成就,比如 語音識別、圖像分類、文本分類等等。尤其是卷積神經網絡在各個圖像識別的數據集上都取 得了領先的地位。但是單純的前饋神經網絡不能夠對訓練樣例進行概率建模,也就無法處 理輸入數據存在信息缺失的情況。深度生成模型作為一種提取樣例高階非線性特征的模型 在數據建模,樣例生成和缺失數據預測上有著很好的表現。但是生成式模型在單純的判別 任務上的表現一般劣于判別式模型;另外前饋神經網絡中有明確的分類誤差目標函數,而 深度生成模型的推斷問題是一個挑戰(zhàn)。
[0003] 目前,許多學者對于生成模型及其相關技術都進行了非常多的深入研究,具體說 明如下:
[0004] 最大間隔學習在判別式模型的學習上非常有效,比如支撐向量機、多元輸出最大 間隔馬爾科夫網絡等等。因此,一些研究人員通過在最大間隔模型中引入隱藏變量,從而可 W顯著的提高生成模型的判別表現。但是運些方法都只是提高了淺層生成模型的判別能 力,難W處理日益復雜的數據。 陽〇化]另一些學者提出了一種基于變分推斷構建獨立于生成模型(解碼網絡)的識別模 型(編碼網絡)來近似隱藏變量后驗分布的方法。本質上可W理解為概率自動編碼器。該 方法可W高效的學習復雜的隱層表示,但是仍然沒有探索深度生成模型學習的特征在判別 任務上的表現,判別能力差。同時,該方法也沒有探尋如何將卷積操作應用于解碼網絡中。
[0006] 還有一些學者提出了反池化操作,通過將反池化、卷積和非線性結合,構造了從手 工特征到椅子圖片的確定性網絡。但是該方法是一種確定性網絡,并不是生成模型,不設及 概率建模;頂層特征也是手工設計,不是自動學習;同時該方法也不學習從數據到隱藏表 示的編碼網絡。
[0007] 一個理想的深度生成模型應該具有下述特點:在判別任務上和前饋卷積神經網絡 相媳美;可W對數據進行良好建模,自動學習深層表示,處理數據缺失的情況;可W快速學 習模型參數。然而上述的現有技術的方案中,并沒有一個較為完善的深度生成模型的方案。
【發(fā)明內容】
[0008] 本發(fā)明要解決的技術問題是:解決現有技術中的沒有一種應用于圖像處理的可W 在判別任務上表現良好,自動學習深層表示、處理數據缺失、可快速學習模型參數的深度生 成模型的問題。
[0009] 為實現上述的發(fā)明目的,本發(fā)明提供了一種基于圖像處理的最大間隔深度生成模 型生成方法。包括:
[0010] 構建帶有標注的圖片樣例的集合,獲取所述集合中每個圖片樣例的隱藏表示,并 綜合所述隱藏表示W及所述圖片樣例的標注,獲得最大間隔正則化因子;
[0011] 獲取隱藏變量分布的參數,并根據所述隱藏變量分布的參數采樣隱藏變量,計算 所述隱藏變量變分后驗分布和先驗分布的相對賭;
[0012] 獲取每個圖片樣例生成分布的參數,并根據所述圖片樣例生成分布的參數對所述 圖片樣例進行概率重建,得到概率重建誤差;
[0013] 將所述最大間隔正則化因子、相對賭W及概率重建誤差求和,得到最大間隔深度 生成模型;
[0014] 其中,所述隱藏變量分布的參數根據所述隱藏表示計算得到;
[0015] 所述圖片樣例生成分布的參數根據所述隱藏變量計算得到。
[0016] 優(yōu)選地,所述集合中每個圖片樣例的隱藏表示,是利用編碼網絡計算得到;
[0017] 所述每個圖片樣例的生成分布參數,是根據所述隱藏變量,通過解碼網絡計算得 到的。
[0018] 優(yōu)選地,所述解碼網路包括:
[0019] 反池化:將所述隱藏變量的每個單元擴張為多個子單元組成的正方形,所述正方 形中左上角子單元的值等于所述隱藏變量單元的值,其余所述子單元的值為0,得到反池化 結果;
[0020] 卷積:對所述反池化結果進行卷積;
[0021] 非線性激活:對所述卷積得到的結果進行非線性激活;
[0022] 重復所述反池化、卷積W及非線性激活步驟,并將每次重復后得到的結果進行結 構堆疊,并根據所述結果的概率分布進行隨機采樣。
[0023] 優(yōu)選地,還包括根據所述最大間隔深度生成模型實現隨機圖片的生成,包括:
[0024] 獲取所述模型中的隱藏變量;
[0025] 將所述隱藏變量利用所述模型的解碼網絡映射到與要生成的圖片大小相同的第 一矩陣中,所述第一矩陣的每個元素表示所述要生成的圖片中每個像素的均值;
[00%] 根據所述均值W及所述模型設置的圖片樣例像素的分布參數,對所述圖片樣例的 每個像素進行隨機采樣,得到隨機生成的圖片。
[0027] 優(yōu)選地,還包括根據所述最大間隔深度生成模型實現圖片的分類,包括:
[0028] 輸入需要進行分類的第一圖片;
[0029] 利用所述模型中的編碼網絡獲取所述第一圖片的隱藏表示;
[0030] 將所述第一圖片的隱藏表示映射到圖片標注空間;
[0031] 輸出所述第一圖片的類別。
[0032] 優(yōu)選地,還包括根據所述最大間隔深度生成模型實現圖片缺失像素的預測,包 括:
[0033] 輸入有像素缺失的第二圖片,所述第二圖片像素缺失的位置已知;
[0034] 利用所述模型中的編碼網絡獲取所述第二圖片的隱藏表示;
[0035] 根據所述第二圖片的隱藏表示,隨機采樣所述第二圖片的隱藏變量;
[0036] 將所述第二圖片的隱藏變量利用所述模型中的解碼網絡映射到與第二圖片大小 相同的第二矩陣中。所述第二矩陣的每個位置表示第二圖片對應像素概率重建的均值;
[0037]將所述第二圖片像素缺失的位置的像素值替換為所述第二概率重建均值,并將替 換后的結果作為新的輸入,重復進行所述獲取隱藏表示、獲取隱藏變量W及獲取概率重建 均值的步驟。
[0038] 優(yōu)選地,所述帶有標注的圖片樣例的集合包含在訓練集合內,為所述訓練集合中 一個大小固定的子集。
[0039] 優(yōu)選地,所述最大間隔正則化因子,是根據所述隱藏表示W及所述圖片樣例的標 注,通過構建線性支撐向量機得到的。
[0040] 優(yōu)選地,所述隱藏變量分布的參數,是根據所述隱藏表示通過線性映射計算得到 的;
[0041] 所述隱藏變量為固定維度,是根據所述隱藏變量分布的參數,利用隨機數生成器 采樣得到的。
[0042] 優(yōu)選地,在所述得到最大間隔深度生成模型之后,利用隨機梯度下降方法優(yōu)化所 述模型。
[0043] 本發(fā)明提供了一種最大間隔深度生成模型的生成方法。該模型一方面可W學到對 于判別任務更加有效的隱層表示。另一方面,保持了深度生成模型對于數據建模的能力,可 W隨機生成有意義的圖像,并且圖像缺失像素的情況下可W預測缺失部分,在均方誤差的 意義下具有和深度生成模型可比的產生能力。在圖像缺失像素的情況下,最大間隔生成模 型可W獲得比卷積神經網絡和一般深度生成模型更好的分類結果。同時由于我們采用隨機 梯度下降法同時優(yōu)化編碼網絡、解碼網絡和最大間隔分類器,最大間隔深度生成模型的訓 練時間大約是傳統(tǒng)卷積神經網絡的兩倍,可W應用于大規(guī)模數據。
【附圖說明】
[0044] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的