專利名稱:位置敏感哈希隨機性減弱方法
技術領域:
本發(fā)明涉及一種檢索方法,特別是涉及一種位置敏感哈希隨機性減弱方法。背景技術:
相似性搜索在許多方面有著非常重要的作用,如數(shù)據(jù)壓縮、數(shù)據(jù)挖掘、信息檢索、圖像和視頻檢索、機器學習、模式識別、統(tǒng)計和數(shù)據(jù)分析等等。這些研究中的對象一般能用相關特征的集合或高維空間中的點表示。這些點的維數(shù)范圍很大,會從幾十到幾千。當維數(shù)較低的時候,這類問題比較容易,但當維數(shù)比較高時,解決起來會比較困難,也就是所謂的“維數(shù)災難”。盡管經(jīng)過了幾十年的努力,現(xiàn)在的解決方案仍然不能讓人十分滿意。因為對于高維向量搜索,這些方法和線性窮盡搜索相比幾乎沒有什么優(yōu)勢甚至會退化到線性搜索。這種情況嚴重影響了相似性搜索的效果。位置敏感哈希(LSH, Locality Sensitive Hashing)是當前解決高維空間近似最近鄰(ANN, Approximate Nearest Neighbor)搜索問題的速度最快的方法。其中,LSH在漢 明空間進行搜索,E2LSH(Exact Euclidean Locality Sensitive Hashing)是對 LSH 的改進之一,在歐氏空間進行搜索。與基于樹的索引方法相比,它們不但復雜度低、支持維數(shù)高,而且檢索時間大大縮短,在圖像檢索、復制檢測等方向都有應用。LSH和E2LSH作為ANN解決方案的基礎在于相似性搜索并不一定要得出精確的最近鄰,在許多情況下,近似最近鄰提供的結果已經(jīng)比較讓人滿意了,關鍵在于它能以更小的代價完成目標。但這是這個基礎使得LSH不可避免的存在一定的隨機性。這樣的隨機性如果得不到好的控制,就會影響算法的性能。如在基于視覺詞典的圖像和視頻搜索工作中,可以用它來產(chǎn)生視覺詞典,而視覺詞典本身就存在著不確定性,如果對LSH聚類產(chǎn)生詞典過程中不加以控制,它的隨機性會加劇這種不確定性傳播,嚴重影響最終結果。LSH的基本思想是如果兩個點相距很近,那么在進行映射操作后,這兩個點仍然相距很近。為了對這些點進行映射,要先建立哈希表。好的哈希表可以使一個點的查詢在0(1)時間內和O(N)內存空間上完成查詢,N是數(shù)據(jù)點的數(shù)目。在實現(xiàn)時,LSH用一系列哈希函數(shù)對數(shù)據(jù)點進行哈希,使那些比較接近的點對于每個哈希函數(shù)發(fā)生沖突的概率比距離遠的點要大,也就是把比較相近的點哈希到同一個桶。這樣,通過對查詢點進行哈希并獲取它所在桶中的標志就可以進一步得到比較近的鄰居。哈希運算需要定義位置敏感哈希(LSH)函數(shù)。對于點域S,LSH函數(shù)族定義如下函數(shù)族W =〖A: 5'4 f/丨是位置敏感(locality sensitive)的,如果對于任何q,函數(shù)/;(/) = P,[h(q) = h[v) , , q-v , , =t]與t呈嚴格遞減關系。也就是說,點q和V沖突概率隨著它們之間的距離的增加而減少。這樣,對于點V e B (q, R)和點"t /%, R),就有 p (I I q_v I I) >p (I I q_u | |)。LSH 函數(shù)族把點集S中的點哈希到某個域U,然后計算點q的哈希值,據(jù)此找到與它沖突的點。為減少運行時間,需增大
和[R,-]之間沖突概率的差距,可將多個函數(shù)AeW連接起來。例如,定義一個函數(shù)族! = {gS^Ul},g (V) = Qi1 (V),…h(huán)k (V)),其中A(/:) e W,并從0中選擇獨立且分不一致的L個函數(shù)gl,…組成哈希函數(shù)族。在預處理過程中,算法把每個點,eP存儲在桶gj(v)中。給出查詢點q后,算法搜索所有的桶gl,…&,并對某個桶中發(fā)現(xiàn)的每個點V計算q到V的距離,如果I |q-v| I ( R,則認為V就是算法要得到的點。LSH的歐式空間實現(xiàn)方案一E2LSH :初期的LSH的哈希函數(shù)是針對二進制漢明空間{0,l}d中的點的。雖然通過把I2空間嵌入到I1空間并把I1空間嵌入到漢明空間也能把算法擴展到I2范數(shù),但這在很大程度上增加了算法的查詢時間和錯誤率,也增加了算法的復雜度。E2LSH不需要嵌入就可以直接工作在歐式空間中的點上,它還可以工作在任何P e (O, 2]的Ip范數(shù)上。該方案繼承了原始LSH的兩個特點。其一是它很適合于維數(shù)很高但稀疏的數(shù)據(jù)點。尤其是當d是向量中非零元素的最大數(shù)目時,算法的運行時間限會保持不變。該特點是其它空間數(shù)據(jù)結構所不具有的。和線性掃描相比,該方案在速度上能夠達到一個或幾個數(shù)量級的巨大提高。其二是如果數(shù)據(jù)滿足一定的有界增長特性(boundedgrowth property),它可以很快的找到精確的近鄰。對于點q,c>l, N(q, c)代表S中q的c-近似近鄰的數(shù)目。如果N(q,c)以c的函數(shù)按次指數(shù)(sub-exponential Iy)增長,并且給定常量因子去近似q到它的最近鄰居的距離,那么,算法能夠以固定概率在時間0(d logn)內找到最近的鄰居V。特別地,如果N(q,c) =0(cb),運行時間是0(logn+2°(b))。E2LSH的哈希函數(shù)族是基于P-穩(wěn)定函數(shù)的,并且對于P e (O, 2]的所有值都適用。穩(wěn)定分布被定義為歸一化獨立同分布變量和的極限,穩(wěn)定分布比較常用的例子是高斯分布。它的定義如下在m上的分布P被稱為P-穩(wěn)定分布,如果存在P > O對于η個實數(shù)
V1, νη和分布的獨立同分布變量X1,…χη,隨機變
權利要求
1.一種位置敏感哈希隨機性減弱方法,其特征是首先,對數(shù)據(jù)點進行隨機映射,然后,進行相似計算得出L個檢索向量,再將L個哈希表對應的L個檢索向量構造成矩陣,最后對該矩陣列元素進行頻次投票得出最終索引山為大于等于I的自然數(shù)。
2.根據(jù)權利要求I所述的位置敏感哈希隨機性減弱方法,其特征是每個哈希函數(shù)對數(shù)據(jù)點在一個方向上進行映射,通過增加哈希函數(shù)的數(shù)量來提高發(fā)現(xiàn)真實近鄰的概率,哈希函數(shù)的數(shù)量為L個;每個哈希函數(shù)都對應于一個數(shù)據(jù)集映射的結果,L個哈希函數(shù)對應L個哈希表,使用L個哈希表進行檢索需要對檢索結果進行融合;采用頻繁項投票的方法對檢索結果進行融合,選取L個哈希表對應的檢索結果出現(xiàn)次數(shù)最多的圖像;對L個哈希表進行檢索的結果記為Ip, q(xn),其中p=l,···, L, q=l,…,k, Xn表示圖像在圖像集的初始序號,Xn e [1,N],η = 1,…,k,N表示圖像集的圖像數(shù)目,k表示每個哈希表的檢索結果數(shù);對L個哈希表進行檢索的結果用矩陣表示為 矩陣I的每一行對應于一個哈希表的檢索結果,最終索引結果可通過對矩陣I每一列進行投票的方式得出,也就是統(tǒng)計矩陣I每列各元素頻次,將出現(xiàn)次數(shù)最多的元素作為最終結果,最終索引結果記為R=G1,…Itl,…Ik),其中,Iq=OiiaxFreq(I1, q,…,I1^)),maxFreq(*)表示取頻次最高元素,q=l, ···, kD
3.根據(jù)權利要求I所述的位置敏感哈希隨機性減弱方法,其特征是所述L個檢索向量為在多個檢索向量的基礎上確定的最終索引基準向量。
全文摘要
本發(fā)明涉及一種位置敏感哈希隨機性減弱方法;具體為首先對數(shù)據(jù)點進行隨機映射,然后進行相似計算得出L個檢索向量,再將L個哈希表對應的L個檢索向量構造成矩陣,最后對該矩陣列元素進行頻次投票得出最終索引;每個哈希函數(shù)對數(shù)據(jù)點在一個方向上進行映射,通過增加哈希函數(shù)的數(shù)量來提高發(fā)現(xiàn)真實近鄰的概率,哈希函數(shù)的數(shù)量為L個;L個哈希函數(shù)對應L個哈希表,使用L個哈希表進行檢索需要對檢索結果進行融合;采用頻繁項投票的方法對檢索結果進行融合,選取L個哈希表對應的檢索結果出現(xiàn)次數(shù)最多的圖像;本發(fā)明能綜合利用多個哈希表的信息并得出與真實近似程度相當?shù)慕Y果,利用多表投票的方法能夠達到降低檢索結果隨機性的目的。
文檔編號G06F17/30GK102722554SQ20121017001
公開日2012年10月10日 申請日期2012年5月28日 優(yōu)先權日2012年5月28日
發(fā)明者李弼程, 藺博宇, 郭志剛, 高毫林 申請人:中國人民解放軍信息工程大學