隨機結(jié)構(gòu)保形哈希信息檢索方法

文檔序號：6632692閱讀：368來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

隨機結(jié)構(gòu)保形哈希信息檢索方法
【專利摘要】本發(fā)明涉及一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于步驟包括：一是保護高維數(shù)據(jù)的重要結(jié)構(gòu)，使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維，從而得到低維數(shù)據(jù)；二是使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則，計算出原始高維數(shù)據(jù)的基和低維矩陣；三是設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼，用概率統(tǒng)計分類模型邏輯回歸計算出測試樣本的哈希碼；四是計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算，得出最終的結(jié)果。本發(fā)明能夠在很好地保護隨機數(shù)據(jù)的分布和高維數(shù)據(jù)的局部及總體結(jié)構(gòu)的基礎(chǔ)上，成功地應(yīng)用多變量的邏輯回歸來獲得哈希函數(shù)，可實現(xiàn)超越樣本的拓展，適用于計算機視覺、數(shù)據(jù)挖掘、機器學習或相似搜索領(lǐng)域。
【專利說明】隨機結(jié)構(gòu)保形哈希信息檢索方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機信息數(shù)據(jù)處理【技術(shù)領(lǐng)域】，特別是涉及一種用于計算機視覺、數(shù) 據(jù)挖掘、機器學習或相似搜索的隨機結(jié)構(gòu)保形哈希信息檢索方法。

【背景技術(shù)】
[0002] 在信息檢索、機器學習、模式識別和數(shù)據(jù)挖掘中相似性搜索是一個需要解決的問題。一般來說，有效的相似性搜索方法會在度量空間中建立索引結(jié)構(gòu)，早期的關(guān)于相似性搜索的研究可以追溯到20世紀70年代。具體的說，當維度較低< 20時，一些基于數(shù)據(jù)結(jié)構(gòu)的方法如KD-樹、VP-樹和R+樹等可以解決相似性搜索的問題。然而，隨著數(shù)據(jù)維度的增長，在信息數(shù)據(jù)處理領(lǐng)域中如何有效地實現(xiàn)相似性搜索問題的難度不斷上升?，F(xiàn)有采取"近似值"的概念來解決相似性搜索問題的方法，如為了提高檢索效率，哈希算法需要得到一個從歐幾里德空間到漢明空間的哈希函數(shù)，利用二進制編碼的哈希算法只要包含兩個優(yōu)勢：一是二進制哈希碼節(jié)約了儲存空間；二是在相似性搜索的檢索過程中可以有效地計算訓練數(shù) 據(jù)和測試樣本之間的漢明距（X0R運算）、哈希表中的時間復(fù)雜度近似為0(1)。
[0003] 現(xiàn)有的哈希算法大體上可被分為基于隨機投影和基于學習的兩種。局部敏感哈希 (LSH)是廣泛應(yīng)用的基于隨機線性投影的哈希算法，可以有效地把數(shù)據(jù)點從高維空間映射到低維漢明空間；基于核的局部敏感哈希（KLSH)和加強多核的局部敏感哈希（BMKLSH)為了更好的檢索效率可以在核空間中挖掘更多的相似性。為了尋找高維空間中測試點的相似最近鄰，Panigrahy提出了了一種基于熵的哈希算法。Dong提出了基于統(tǒng)計特性模型的多探索局部敏感哈希，這是目前局部敏感哈希最好的變化。此外，Raginsky和Lazebnik用基于隨機映射的自由分布的編碼方案來確保兩個向量和向量中偏移不變核的數(shù)值的二進制碼的漢明距的關(guān)系。
[0004] 只有當二進制哈希碼足夠長的時候，基于隨機投影的哈希函數(shù)才會有效。因此，為了獲得更加緊湊和準確的編碼，許多基于學習的哈希算法被提出。通過挖掘數(shù)據(jù)的結(jié)構(gòu)，然后表現(xiàn)在目標函數(shù)上，通過解決和目標函數(shù)相關(guān)的優(yōu)化問題，基于學習的哈希算法可以獲得哈希函數(shù)。譜哈希（SpH)是典型的非監(jiān)督哈希算法，通過促使平衡的和不相關(guān)的約束對學習過的碼，譜哈?？梢詫W習到緊湊的二進制碼并且保護數(shù)據(jù)中的相似性。主成分分析哈希（PCAH)相對于隨機映射哈?？梢垣@得更好的量化。此外，基于受限波爾茲曼機的語義哈希（SH)被提出。Liu等人提出了可以自動發(fā)現(xiàn)數(shù)據(jù)近鄰內(nèi)部結(jié)構(gòu)的基于圖像的哈希算法，同時可以學習到相應(yīng)的緊湊的碼，錨狀圖可加速譜分析的過程。近來有基于超球面的二進制植入技術(shù)球形哈希（Spherical Hashing)被提出.這個算法可以提供緊湊的數(shù)據(jù)形式和拓展的最近鄰搜索。
[0005] 然而，以上提到的哈希方法都存在一定的缺陷。雖然基于隨機映射的哈希方法可以產(chǎn)生緊湊的碼，但是簡單的線性哈希函數(shù)卻不可以映射出數(shù)據(jù)點之間潛在的關(guān)系。同時，因為線形的公式是由高維矩陣計算而得到的，這會帶來很高的計算復(fù)雜度。另外，當碼字十分長的時候，基于學習的哈希算法不會很有效。除此之外，那些先降低原始數(shù)據(jù)維度的哈希方法不能獲得有著很好結(jié)構(gòu)的低維數(shù)據(jù)結(jié)果。
[0006] 近年來作為可以學習物體非負部分形式的矩陣分解算法，非負矩陣分解（NMF) 在信息檢索和數(shù)據(jù)挖掘中起了重要的作用。如一個有著M個N維數(shù)據(jù)向量的非負矩陣 x=Ps^，1Vl ?？梢员籒1f分解成兩個非負矩陣U= [UJ GRmxd和V= [UjJ eR_，其結(jié)果可以很好地估計原始矩陣，如X?UV。Lee和Seung也提出了兩個目標函數(shù)去評估兩個非負矩陣X和UV之間的距離，基于差異的目標函數(shù)可以被表示成：
[0007]

【權(quán)利要求】
1. 一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于它包括如下具體步驟：步驟1 :保護高維數(shù)據(jù)的重要結(jié)構(gòu)，使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維，從而得到低維數(shù)據(jù)；步驟2 :使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則，計算出原始高維數(shù)據(jù)的基和低維矩陣；步驟3 :設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼，用概率統(tǒng)計分類模型邏輯回歸計算出測試樣本的哈希碼；步驟4 :計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算，得出最終的結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于步驟1中所述的保護高維數(shù)據(jù)的重要結(jié)構(gòu)，使用提出目標函數(shù)對原始的高維數(shù)據(jù)進行降維，從而得到低維數(shù)據(jù)，是指建立最小化高維空間的聯(lián)合概率分布和低維空間重尾分布的聯(lián)合概率分布的KL散度： C=AKL(PllQ) (3)，公式（3)中，P是高維空間的聯(lián)合概率分布，同時可以被表示成Pi^Q是低維空間的聯(lián) 合概率分布，同時可以被表示成qu;具體步驟包括：步驟I. 1 :條件概率Pu表示了數(shù)據(jù)點Xi和\之間的相似性，其中Xi與它們的概率密度成比例；只有重要的點需要去塑造成對的相似性，因此把Pii和設(shè)為〇;同時對V i，j 都有屬性Pu = Pm和％ = q# ;在高維空間中的兩兩相似性可以表示為：
步驟1. 2 :其中〇 i表示了在數(shù)據(jù)點Xi正中心的高斯分布的變量，每一個數(shù)據(jù)點Xi都有相應(yīng)的復(fù)雜度，在低維的圖上使用重尾的概率分布，聯(lián)合概率％可以被定義成：
公式（5)定義是高斯的無限混合，由于沒有指數(shù)項，會比單獨的高斯更快的估計點的密度；建立基于KL散度的成本函數(shù)公式（6)可以有效地評估數(shù)據(jù)分布的重點；步驟1. 3 :α;;和可以：
公式（6)中P和Q之間的KL散度的梯度可以表示為：
步驟I. 4:通過結(jié)合公式（3)中的數(shù)據(jù)結(jié)構(gòu)保護部分和NMF，得到下面的新的目標函數(shù)： of = I |x-uv| |2+akl(p| |q) (8)，此處V e {〇, 1}DXN，X，U，V彡0, U e RMXD，X e Rmxn，同時λ可以控制新的表征的平滑度；在大多數(shù)情況下，只使用NMF的低維數(shù)據(jù)對實際應(yīng)用而言不是那么有效和有意義，為了在信息檢索中獲得更好的結(jié)果，需要引入XKL(p| IQ)去保護原始數(shù)據(jù)的結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于步驟2中所述的使用已經(jīng)得出的基算子U和低維數(shù)據(jù)V的更新規(guī)則，計算出原始高維數(shù)據(jù)的基和低維矩陣，是指包括如下優(yōu)化過程的具體步驟：步驟2. 1 :公式（8)的離散條件V e {0，1}DXN在優(yōu)化過程中無法被直接計算出，為了得到實數(shù)值，首先把數(shù)據(jù)V e {〇, 1}DXN放到域V e Rdxn上；步驟2. 2:然后將問題中的拉格朗日函數(shù)設(shè)為：
公式（9)中的矩陣Φ和Ψ是兩個拉格朗日乘數(shù)矩陣，由此得到g的梯度： J-'
UlM; 步驟2. 3 :讓X的梯度為0去最小化Of :
步驟2. 4 :除上述外，有KKT條件：OijUij = 0和WijVij = 0, V i，j;然后，分別在公式（11)和公式（12)的兩邊的相應(yīng)位置乘上Vij和Uij，可以得到： (2 (-UTX+UTUV)+G) JjVij = 0, (13), 2 (-XVT+UVVT) JjUij = 0 (14)，其中：
步驟2. 5 :對任意的i和j有以下的更新規(guī)則：
其中：U和V中的所有元素都是正數(shù)，且U或者V的每一次更新目標函數(shù)的單調(diào)不增性。
4.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于步驟3中所述的設(shè)置門限值并且把訓練集中低維實數(shù)表現(xiàn)轉(zhuǎn)換成二進制碼，用概率統(tǒng)計分類模型邏輯回歸計算出測試樣本的哈希碼，是指通過如下具體步驟來形成哈希函數(shù)：步驟 3. 1 :基 U= [uid] e Rmxd 和低維矩陣 V= [ujd] e Rdxn，其中 d<< Di, i = 1，...， n，從公式（15)和公式（16)中獲得，然后需要設(shè)置門限值并且把低維實數(shù)表現(xiàn)V= [V1，…， vn]轉(zhuǎn)換成二進制碼，如果在向量Vn中的第f個元素比門限值大，這個實數(shù)值就設(shè)為1，否則為〇,其中 f=l，···，(!并且 η = 1，*··，Ν; 步驟3.2 :從信息量的原則可知，通過一個均勻的概率分布，信源可以到達一個最大的熵；尤其的，如果在數(shù)據(jù)上的碼的熵很小，整個文件會被映射到一小部分的碼上；為確保語義哈希的效率，使語義哈希算法做到熵最大化，并且滿足熵最大化原則，運用V p的中值作為 Vp中元素的門限值，有一半數(shù)值會被設(shè)為1，另外一半設(shè)為0,通過該方法將實數(shù)碼計算成二進制碼；步驟3.3 :從以上的過程，可得到訓練集中數(shù)據(jù)的二進制碼；為使一個新的樣本，直接得到哈希函數(shù)，在所述方法中，由于二進制碼的環(huán)境，在測試樣本中使用概率統(tǒng)計分類模型-邏輯回歸來計算哈希碼；在得到邏輯回歸函數(shù)之前，把二進制碼表示成V = …，其中V,, € ?〇· 1}'并且η = 1，…，N ;由此訓練樣本表示為?<νι Al Mhh+)基于dXd的相關(guān)回歸矩陣Θ表示為 = 邏輯回歸函數(shù)表示為： >
y為1或者為O ;相關(guān)的回歸矩陣函數(shù)被定義為：
其中1是NXl的矩陣、δ I I Θ I I2為邏輯回歸中避免過擬合的正則化項；步驟3. 4 :為了找到可以最小化J (Θ)的參數(shù)Θ，使用梯度下降和反復(fù)更新每一個參數(shù) 的方式，更新公式如下：
更新公式會當Op1和之間的差異I I Θμ-Θ」I2到達收斂，然后得到回歸矩陣〇 ; 步驟3.5 :最后通過線形映射矩陣#7飛「廣得到實數(shù)的低維表示，因為h0是 sigmoid函數(shù)，對于新的樣本的哈希碼表示為： I "r(). = [lie(Q -A )； ⑵）其中：表示了對每一個110的輸入都取最近的整數(shù)函數(shù)，定義二進制的門限值為 0. 5;如果來自h0(Q*X)的比特大于0.5,會表示為1，否則為0;由此獲得訓練樣本和測試樣本的SSPH碼，其中SSPH的檢索方法流程表示如下：隨機結(jié)構(gòu)保形哈希檢索方法（SSPH)，輸入：一組訓練矩陣：X = (Xi E RdKW; d是哈希碼的目標維度；對邏輯回歸的學習率α ; 正則化參數(shù){ δ , λ }; 輸出：基矩陣U和回歸矩陣θ ; 一是用公式（15)和公式（16)計算基矩陣U和低維矩陣V ; 二是直到收斂；三是從公式（20)中獲得回歸矩陣〇,對一個樣本的SSPH編碼在公式（21)中定義。
5.根據(jù)權(quán)利要求1所述的一種隨機結(jié)構(gòu)保形哈希信息檢索方法，其特征在于步驟4中所述的計算訓練數(shù)據(jù)和測試樣本之間的漢明距即XOR運算，得出最終的結(jié)果，是指如下的復(fù)雜度計算分析：隨機結(jié)構(gòu)保形哈希檢索方法（SSPH)的計算復(fù)雜度包含3個部分，第一部分是計算 NMF，計算復(fù)雜度為O(NMKD)，N是數(shù)據(jù)庫的大小，M和D分別是高維數(shù)據(jù)和低維數(shù)據(jù)的維度，K是數(shù)據(jù)庫中類的個數(shù)；第二部分是計算目標函數(shù)中的成本函數(shù)（公式6)，計算復(fù)雜度為0 (N2 D);第三部分是邏輯回歸過程，復(fù)雜度為0 (ND2);因此，SSPH的整個計算復(fù)雜度為 0(tNMKD+N2D+tND 2)，其中t為迭代的次數(shù)。
【文檔編號】G06F17/30GK104376051SQ201410604395
【公開日】2015年2月25日申請日期:2014年10月30日優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】邵嶺, 蔡子贇, 劉力, 余孟洋申請人:南京信息工程大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵嶺;蔡子贇;劉力;余孟洋;
技術(shù)所有人：南京信息工程大學;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)結(jié)構(gòu)中的哈希表相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

隨機結(jié)構(gòu)保形哈希信息檢索方法