隨機結(jié)構(gòu)保形哈希信息檢索方法
【專利摘要】本發(fā)明涉及一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于步驟包括:一是保護高維數(shù)據(jù)的重要結(jié)構(gòu),使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維,從而得到低維數(shù)據(jù);二是使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則,計算出原始高維數(shù)據(jù)的基和低維矩陣;三是設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼,用概率統(tǒng)計分類模型邏輯回歸計算出測試樣本的哈希碼;四是計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算,得出最終的結(jié)果。本發(fā)明能夠在很好地保護隨機數(shù)據(jù)的分布和高維數(shù)據(jù)的局部及總體結(jié)構(gòu)的基礎(chǔ)上,成功地應(yīng)用多變量的邏輯回歸來獲得哈希函數(shù),可實現(xiàn)超越樣本的拓展,適用于計算機視覺、數(shù)據(jù)挖掘、機器學習或相似搜索領(lǐng)域。
【專利說明】隨機結(jié)構(gòu)保形哈希信息檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機信息數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種用于計算機視覺、數(shù) 據(jù)挖掘、機器學習或相似搜索的隨機結(jié)構(gòu)保形哈希信息檢索方法。
【背景技術(shù)】
[0002] 在信息檢索、機器學習、模式識別和數(shù)據(jù)挖掘中相似性搜索是一個需要解決的問 題。一般來說,有效的相似性搜索方法會在度量空間中建立索引結(jié)構(gòu),早期的關(guān)于相似性搜 索的研究可以追溯到20世紀70年代。具體的說,當維度較低< 20時,一些基于數(shù)據(jù)結(jié)構(gòu)的 方法如KD-樹、VP-樹和R+樹等可以解決相似性搜索的問題。然而,隨著數(shù)據(jù)維度的增長, 在信息數(shù)據(jù)處理領(lǐng)域中如何有效地實現(xiàn)相似性搜索問題的難度不斷上升?,F(xiàn)有采取"近似 值"的概念來解決相似性搜索問題的方法,如為了提高檢索效率,哈希算法需要得到一個從 歐幾里德空間到漢明空間的哈希函數(shù),利用二進制編碼的哈希算法只要包含兩個優(yōu)勢:一 是二進制哈希碼節(jié)約了儲存空間;二是在相似性搜索的檢索過程中可以有效地計算訓練數(shù) 據(jù)和測試樣本之間的漢明距(X0R運算)、哈希表中的時間復(fù)雜度近似為0(1)。
[0003] 現(xiàn)有的哈希算法大體上可被分為基于隨機投影和基于學習的兩種。局部敏感哈希 (LSH)是廣泛應(yīng)用的基于隨機線性投影的哈希算法,可以有效地把數(shù)據(jù)點從高維空間映射 到低維漢明空間;基于核的局部敏感哈希(KLSH)和加強多核的局部敏感哈希(BMKLSH)為 了更好的檢索效率可以在核空間中挖掘更多的相似性。為了尋找高維空間中測試點的相似 最近鄰,Panigrahy提出了 了一種基于熵的哈希算法。Dong提出了基于統(tǒng)計特性模型的多 探索局部敏感哈希,這是目前局部敏感哈希最好的變化。此外,Raginsky和Lazebnik用基 于隨機映射的自由分布的編碼方案來確保兩個向量和向量中偏移不變核的數(shù)值的二進制 碼的漢明距的關(guān)系。
[0004] 只有當二進制哈希碼足夠長的時候,基于隨機投影的哈希函數(shù)才會有效。因此,為 了獲得更加緊湊和準確的編碼,許多基于學習的哈希算法被提出。通過挖掘數(shù)據(jù)的結(jié)構(gòu),然 后表現(xiàn)在目標函數(shù)上,通過解決和目標函數(shù)相關(guān)的優(yōu)化問題,基于學習的哈希算法可以獲 得哈希函數(shù)。譜哈希(SpH)是典型的非監(jiān)督哈希算法,通過促使平衡的和不相關(guān)的約束對 學習過的碼,譜哈??梢詫W習到緊湊的二進制碼并且保護數(shù)據(jù)中的相似性。主成分分析哈 希(PCAH)相對于隨機映射哈??梢垣@得更好的量化。此外,基于受限波爾茲曼機的語義哈 希(SH)被提出。Liu等人提出了可以自動發(fā)現(xiàn)數(shù)據(jù)近鄰內(nèi)部結(jié)構(gòu)的基于圖像的哈希算法, 同時可以學習到相應(yīng)的緊湊的碼,錨狀圖可加速譜分析的過程。近來有基于超球面的二進 制植入技術(shù)球形哈希(Spherical Hashing)被提出.這個算法可以提供緊湊的數(shù)據(jù)形式和 拓展的最近鄰搜索。
[0005] 然而,以上提到的哈希方法都存在一定的缺陷。雖然基于隨機映射的哈希方法可 以產(chǎn)生緊湊的碼,但是簡單的線性哈希函數(shù)卻不可以映射出數(shù)據(jù)點之間潛在的關(guān)系。同時, 因為線形的公式是由高維矩陣計算而得到的,這會帶來很高的計算復(fù)雜度。另外,當碼字十 分長的時候,基于學習的哈希算法不會很有效。除此之外,那些先降低原始數(shù)據(jù)維度的哈希 方法不能獲得有著很好結(jié)構(gòu)的低維數(shù)據(jù)結(jié)果。
[0006] 近年來作為可以學習物體非負部分形式的矩陣分解算法,非負矩陣分解(NMF) 在信息檢索和數(shù)據(jù)挖掘中起了重要的作用。如一個有著M個N維數(shù)據(jù)向量的非負矩陣 x=Ps^,1Vl ??梢员籒1f分解成兩個非負矩陣U= [UJ GRmxd和V= [UjJ eR_, 其結(jié)果可以很好地估計原始矩陣,如X?UV。Lee和Seung也提出了兩個目標函數(shù)去評估 兩個非負矩陣X和UV之間的距離,基于差異的目標函數(shù)可以被表示成:
[0007]
【權(quán)利要求】
1. 一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于它包括如下具體步驟: 步驟1 :保護高維數(shù)據(jù)的重要結(jié)構(gòu),使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維,從 而得到低維數(shù)據(jù); 步驟2 :使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則,計算出原始高維數(shù)據(jù)的基 和低維矩陣; 步驟3 :設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼,用概率統(tǒng)計分類 模型邏輯回歸計算出測試樣本的哈希碼; 步驟4 :計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算,得出最終的結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于步驟1中 所述的保護高維數(shù)據(jù)的重要結(jié)構(gòu),使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維,從而得 到低維數(shù)據(jù),是指建立最小化高維空間的聯(lián)合概率分布和低維空間重尾分布的聯(lián)合概率分 布的KL散度: C=AKL(PllQ) (3), 公式(3)中,P是高維空間的聯(lián)合概率分布,同時可以被表示成Pi^Q是低維空間的聯(lián) 合概率分布,同時可以被表示成qu;具體步驟包括: 步驟I. 1 :條件概率Pu表示了數(shù)據(jù)點Xi和\之間的相似性,其中Xi與它們的概率密 度成比例;只有重要的點需要去塑造成對的相似性,因此把Pii和設(shè)為〇;同時對V i,j 都有屬性Pu = Pm和% = q# ;在高維空間中的兩兩相似性可以表示為:
步驟1. 2 :其中〇 i表示了在數(shù)據(jù)點Xi正中心的高斯分布的變量,每一個數(shù)據(jù)點Xi都有 相應(yīng)的復(fù)雜度,在低維的圖上使用重尾的概率分布,聯(lián)合概率%可以被定義成:
公式(5)定義是高斯的無限混合,由于沒有指數(shù)項,會比單獨的高斯更快的估計點的 密度;建立基于KL散度的成本函數(shù)公式(6)可以有效地評估數(shù)據(jù)分布的重點; 步驟1. 3 :α;;和可以:
公式(6)中P和Q之間的KL散度的梯度可以表示為:
步驟I. 4:通過結(jié)合公式(3)中的數(shù)據(jù)結(jié)構(gòu)保護部分和NMF,得到下面的新的目標函 數(shù): of = I |x-uv| |2+akl(p| |q) (8), 此處V e {〇, 1}DXN,X,U,V彡0, U e RMXD,X e Rmxn,同時λ可以控制新的表征的平滑 度; 在大多數(shù)情況下,只使用NMF的低維數(shù)據(jù)對實際應(yīng)用而言不是那么有效和有意義,為 了在信息檢索中獲得更好的結(jié)果,需要引入XKL(p| IQ)去保護原始數(shù)據(jù)的結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于步驟2中 所述的使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則,計算出原始高維數(shù)據(jù)的基和低 維矩陣,是指包括如下優(yōu)化過程的具體步驟: 步驟2. 1 :公式(8)的離散條件V e {0,1}DXN在優(yōu)化過程中無法被直接計算出,為了得 到實數(shù)值,首先把數(shù)據(jù)V e {〇, 1}DXN放到域V e Rdxn上; 步驟2. 2:然后將問題中的拉格朗日函數(shù)設(shè)為:
公式(9)中的矩陣Φ和Ψ是兩個拉格朗日乘數(shù)矩陣,由此得到g的梯度: J-'
UlM; 步驟2. 3 :讓X的梯度為0去最小化Of :
步驟2. 4 :除上述外,有KKT條件:OijUij = 0和WijVij = 0, V i,j;然后,分別在公 式(11)和公式(12)的兩邊的相應(yīng)位置乘上Vij和Uij,可以得到: (2 (-UTX+UTUV)+G) JjVij = 0, (13), 2 (-XVT+UVVT) JjUij = 0 (14), 其中:
步驟2. 5 :對任意的i和j有以下的更新規(guī)則:
其中:U和V中的所有元素都是正數(shù),且U或者V的每一次更新目標函數(shù)的單調(diào)不增性。
4.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于步驟3中 所述的設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼,用概率統(tǒng)計分類模型邏 輯回歸計算出測試樣本的哈希碼,是指通過如下具體步驟來形成哈希函數(shù): 步驟 3. 1 :基 U= [uid] e Rmxd 和低維矩陣 V= [ujd] e Rdxn,其中 d<< Di, i = 1,..., n,從公式(15)和公式(16)中獲得,然后需要設(shè)置門限值并且把低維實數(shù)表現(xiàn)V= [V1,…, vn]轉(zhuǎn)換成二進制碼,如果在向量Vn中的第f個元素比門限值大,這個實數(shù)值就設(shè)為1,否則 為 〇,其中 f=l,···,(!并且 η = 1,*··,Ν; 步驟3.2 :從信息量的原則可知,通過一個均勻的概率分布,信源可以到達一個最大的 熵;尤其的,如果在數(shù)據(jù)上的碼的熵很小,整個文件會被映射到一小部分的碼上;為確保語 義哈希的效率,使語義哈希算法做到熵最大化,并且滿足熵最大化原則,運用V p的中值作為 Vp中元素的門限值,有一半數(shù)值會被設(shè)為1,另外一半設(shè)為0,通過該方法將實數(shù)碼計算成二 進制碼; 步驟3.3 :從以上的過程,可得到訓練集中數(shù)據(jù)的二進制碼;為使一個新的樣 本,直接得到哈希函數(shù),在所述方法中,由于二進制碼的環(huán)境,在測試樣本中使用概 率統(tǒng)計分類模型-邏輯回歸來計算哈希碼;在得到邏輯回歸函數(shù)之前,把二進制 碼表示成V = …,其中V,, € ?〇· 1}'并且η = 1,…,N ;由此訓練樣 本表示為?<νι Al Mhh+)基于dXd的相關(guān)回歸矩陣Θ表示為 = 邏輯回歸函數(shù)表示為: >
y為1或者為O ;相關(guān)的回歸矩陣函數(shù)被定義為:
其中1是NXl的矩陣、δ I I Θ I I2為邏輯回歸中避免過擬合的正則化項; 步驟3. 4 :為了找到可以最小化J (Θ)的參數(shù)Θ,使用梯度下降和反復(fù)更新每一個參數(shù) 的方式,更新公式如下:
更新公式會當Op1和之間的差異I I Θμ-Θ」I2到達收斂,然后得到回歸矩陣〇 ; 步驟3.5 :最后通過線形映射矩陣#7飛「廣得到實數(shù)的低維表示,因為h0是 sigmoid函數(shù),對于新的樣本的哈希碼表示為: I "r(). = [lie(Q -A ); ⑵) 其中:表示了對每一個110的輸入都取最近的整數(shù)函數(shù),定義二進制的門限值為 0. 5;如果來自h0(Q*X)的比特大于0.5,會表示為1,否則為0;由此獲得訓練樣本和測試 樣本的SSPH碼,其中SSPH的檢索方法流程表示如下: 隨機結(jié)構(gòu)保形哈希檢索方法(SSPH),輸入: 一組訓練矩陣:X = (Xi E RdKW; d是哈希碼的目標維度; 對邏輯回歸的學習率α ; 正則化參數(shù){ δ , λ }; 輸出:基矩陣U和回歸矩陣θ ; 一是用公式(15)和公式(16)計算基矩陣U和低維矩陣V ; 二是直到收斂; 三是從公式(20)中獲得回歸矩陣〇,對一個樣本的SSPH編碼在公式(21)中定義。
5.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法,其特征在于步驟4中 所述的計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算,得出最終的結(jié)果,是指如下的 復(fù)雜度計算分析: 隨機結(jié)構(gòu)保形哈希檢索方法(SSPH)的計算復(fù)雜度包含3個部分,第一部分是計算 NMF,計算復(fù)雜度為O(NMKD),N是數(shù)據(jù)庫的大小,M和D分別是高維數(shù)據(jù)和低維數(shù)據(jù)的維 度,K是數(shù)據(jù)庫中類的個數(shù);第二部分是計算目標函數(shù)中的成本函數(shù)(公式6),計算復(fù)雜度 為0 (N2 D);第三部分是邏輯回歸過程,復(fù)雜度為0 (ND2);因此,SSPH的整個計算復(fù)雜度為 0(tNMKD+N2D+tND 2),其中t為迭代的次數(shù)。
【文檔編號】G06F17/30GK104376051SQ201410604395
【公開日】2015年2月25日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】邵嶺, 蔡子贇, 劉力, 余孟洋 申請人:南京信息工程大學