一種基于局部敏感哈希的聚類索引方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于局部敏感哈希的聚類索引方法及系統(tǒng),所述方法包括:步驟1,對數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心;步驟2,在每個類中采用局部敏感哈希方法建立哈希表;步驟3,計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類;步驟4,計算查詢點在每個候選類中的哈希值,根據(jù)步驟2建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點;步驟5,計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。本發(fā)明可以在犧牲較小準確率的情況下?lián)Q取查詢效率的較大提高和查詢性能的相對穩(wěn)定。
【專利說明】—種基于局部敏感哈希的聚類索引方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及信息過濾【技術領域】,特別是涉及一種基于局部敏感哈希(LocalitySensitive Hashing,簡稱為LSH)的聚類索引方法及系統(tǒng)。
【背景技術】
[0002]以下是本領域中的一些名詞解釋,其使用范圍僅限于本發(fā)明:
[0003]哈希桶(HashBucket):哈希表中同一個位置可能存有多個元素,以應對哈希沖突問題,這樣,哈希表中的每個位置表示一個哈希桶。
[0004]最近鄰點:最近鄰搜索是一個在尺度空間中尋找最近鄰點的優(yōu)化問題,即在尺度空間M中給定一個點集S和一個目標點q e M,在S中找到距離q最近的點,該點即為最近鄰點。
[0005]隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)上的圖像數(shù)量呈現(xiàn)幾何級數(shù)增長,比如Facebook當前的圖像數(shù)量就已經(jīng)達到150億張,而且還以每天I億張的數(shù)量在增加。伴隨著網(wǎng)上圖像信息的快速增長,隨之而來的問題是圖像內(nèi)容良莠不齊,所以需要進行管理。通過基于內(nèi)容的圖像過濾可以實現(xiàn)對圖像的管理。圖像過濾需要對圖像進行描述,生成的特征描述符一般都是高維向量,如果不使用索引直接進行蠻力匹配,結果將是無法想像的,無法實現(xiàn)實時性。所以索引對于圖像過濾是不可或缺的,而且過濾的效率直接由索引所決定。近些年來,為了提高匹配速度提出了近似最近鄰索引方法。就是犧牲部分精度以換取速度的大幅提高,而局部敏感哈希索引方法(LSH)是當前最成功的近似最近鄰方法。但由于數(shù)據(jù)集分布的不規(guī)則性,導致了數(shù)據(jù)點在局部敏感哈希表中分布不均勻,同時原始的局部敏感哈希方法是對全部數(shù)據(jù)集總體進行哈希映射,從而導致匹配的速度受到限制和匹配性能對數(shù)據(jù)集分布的不均勻性比較敏感。已經(jīng)有一些論文從優(yōu)化局部敏感哈希參數(shù)的角度來提高哈希函數(shù)對數(shù)據(jù)集的適應性,但由于需要哈希函數(shù)適應數(shù)據(jù)集致使哈希函數(shù)的選取的隨機性受到限制,同時由于還是對整個數(shù)據(jù)集進行哈希映射和查詢,所以查詢匹配速度并未較原始的LSH有所提高。
[0006]因此,本發(fā)明提出了一種基于LSH的聚類索引方法。
【發(fā)明內(nèi)容】
[0007]本發(fā)明所要解決的技術問題是提供一種基于LSH的聚類索引方法及系統(tǒng),用于實現(xiàn)數(shù)據(jù)集經(jīng)哈希映射后,在哈希表中分布相對均勻,并且提高查詢匹配的速度。
[0008]本發(fā)明解決上述技術問題的技術方案如下:一種基于局部敏感哈希的聚類索引方法,包括:
[0009]步驟1,對數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心;
[0010]步驟2,在每個類中采用局部敏感哈希方法建立哈希表;
[0011]步驟3,計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類;
[0012]步驟4,計算查詢點在每個候選類中的哈希值,根據(jù)步驟2建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點;
[0013]步驟5,計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。
[0014]在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0015]進一步,所述對數(shù)據(jù)集進行聚類分析具體包括:
[0016]步驟11,預先確定進行聚類的類別數(shù)K,在數(shù)據(jù)集中隨機選取K個數(shù)據(jù)點,作為聚類中心μ」,其中j=i,2,…,K;
[0017]步驟12,對數(shù)據(jù)集中聚類中心以外的數(shù)據(jù)點,分別計算其與各聚類中心的歐式距離,并將各數(shù)據(jù)點歸入與其歐氏距離最近的類中,并重新計算各類的聚類中心Uj;
[0018]步驟13,重復步驟12,直到數(shù)據(jù)集中所有數(shù)據(jù)點均歸入相應的類,且直到聚類中心穩(wěn)定,并保存每一個類的聚類中心。
[0019]進一步,所述步驟12中重新計算各類的聚類中心μ j具體包括:重新取各類的幾何中心作為其聚類中心。
[0020]進一步,所述步驟2具體包括:
[0021]步驟21,生成各維服從高斯分布的一個向量r,r的維數(shù)與數(shù)據(jù)點維數(shù)相同;
[0022]步驟22,計算各數(shù)據(jù)·點的哈希值;
[0023]步驟23,將計算所得哈希值,以鏈表形式存放;
[0024]步驟24,將上部分的鏈表形式轉換成混合類型結構存儲在連續(xù)的存儲表里,完成各類對應的哈希表的構建。
[0025]進一步,所述步驟2還包括將所有數(shù)據(jù)點映射到相應哈希表的哈希桶中。
[0026]對應地,本發(fā)明的技術方案還包括一種基于局部敏感哈希的聚類索引系統(tǒng),其結構包括聚類分析模塊、哈希表構建模塊、候選類確定模塊、候選點確定模塊和最近鄰點輸出模塊:
[0027]所述聚類分析模塊,其用于數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心。
[0028]所述哈希表構建模塊,其連接所述聚類分析模塊,用于在所述聚類分析模塊分成的每個類中采用局部敏感哈希方法建立哈希表。
[0029]所述候選類確定模塊,其連接所述聚類分析模塊,用于計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類。
[0030]所述候選點確定模塊,其連接所述候選類確定模塊和所述哈希表構建模塊,用于計算查詢點在每個候選類中的哈希值,并根據(jù)哈希表構建模塊建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點。
[0031]所述最近鄰點輸出模塊,其連接所述候選點確定模塊,用于計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。
[0032]進一步,所述聚類分析模塊具體包括:
[0033]預處理模塊,其用于預先確定進行聚類的類別數(shù)K,并在數(shù)據(jù)集中隨機選取K個數(shù)據(jù)點,作為聚類中心μ」,其中」=ι,2,...,κ。[0034]數(shù)據(jù)點歸類模塊,其用于對預處理模塊中確定的聚類中心以外的數(shù)據(jù)點,分別計算其與各聚類中心的歐式距離,并將各數(shù)據(jù)點歸入與其歐氏距離最近的類中,并重新計算各類的聚類中心μ」。
[0035]聚類中心保存模塊,其在數(shù)據(jù)集中所有數(shù)據(jù)點均歸入相應的類后,保存每一個類的聚類中心。
[0036]進一步,所述數(shù)據(jù)點歸類模塊重新計算各類的聚類中心μ ^具體包括:重新取各類的幾何中心作為其聚類中心。
[0037]進一步,所述哈希表構建模塊還包括將所有數(shù)據(jù)點映射到相應哈希表的哈希桶中。
[0038]本發(fā)明的有益效果是:
[0039]一、先將數(shù)據(jù)集先進行聚類,以使相似的數(shù)據(jù)點先聚合在一起,聚類后類內(nèi)部的數(shù)據(jù)分布相對均勻,這樣就大大減少了由于數(shù)據(jù)分布不均勻造成的匹配性能不穩(wěn)定。
[0040]二、針對每類的內(nèi)部使用局部敏感哈希方法建立哈希表,數(shù)據(jù)點在所建哈希表內(nèi)分布與傳統(tǒng)LSH相比要更均勻,在匹配時性能比較穩(wěn)定。
[0041]三、針對聚類導致的邊緣點與聚類中心的差異導致的匹配精度下降,查詢運用多探測方法,即確定多個候選類,在每個候選類中選出候選點,最后再確定最近鄰點,提高了查詢的精度。
[0042]綜上,本發(fā)明的 聚類索引方法與系統(tǒng)適用于大規(guī)模數(shù)據(jù)集,可以在犧牲較小準確率的情況下?lián)Q取查詢效率的較大提高和查詢性能的相對穩(wěn)定。
【專利附圖】
【附圖說明】
[0043]圖1為本發(fā)明所述基于LSH的聚類索引方法的流程示意圖;
[0044]圖2為傳統(tǒng)LSH對整個數(shù)據(jù)集進行哈希映射的示意圖;
[0045]圖3為本發(fā)明對聚類后的數(shù)據(jù)集進行哈希映射的示意圖;
[0046]圖4為本發(fā)明進行查詢匹配過程的示意圖;
[0047]圖5為本發(fā)明所述基于LSH的聚類索引系統(tǒng)的結構示意圖;
[0048]圖6為本發(fā)明所述聚類分析模塊的結構示意圖。
[0049]附圖中,各標號所代表的部件列表如下:
[0050]1、查詢點,2、聚類中心,3、哈希表,4、候選集,5、最近鄰點,6、聚類分析模塊,7、哈希表構建模塊,8、候選類確定模塊,9、候選點確定模塊,10、最近鄰點輸出模塊,51、預處理模塊,52、數(shù)據(jù)點歸類模塊,53、聚類中心保存模塊。
【具體實施方式】
[0051]以下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0052]傳統(tǒng)的搜索匹配策略采用樹形索引結構,當數(shù)據(jù)維數(shù)較低時搜索速度較快,但當維數(shù)大于十時甚至搜索速度還不如線性查找。LSH方法利用將相似的數(shù)據(jù)點映射到相同的哈希桶中,匹配時計算查詢點的哈希值,將與其哈希值相同的哈希桶中的點作為候選點,計算候選點與查詢點間歐氏距離,返回計算所得最近鄰點。LSH方法通過哈希函數(shù)映射的方法以一定的概率保證返回真正的最近鄰點,從而很大程度上提高了匹配的速度。但是由于LSH是對全部數(shù)據(jù)集進行哈希映射的,所以其在查詢時速度還是受到限制,同時由于數(shù)據(jù)集分布的不均勻性,導致數(shù)據(jù)點在哈希表中分布不均勻。
[0053]因此,本實施例提出了一種基于局部敏感哈希的聚類索引方法,如圖1所示,其具體包括以下步驟:
[0054]步驟1,對數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心; [0055]步驟2,在每個類中采用局部敏感哈希方法建立哈希表;
[0056]步驟3,計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類;
[0057]步驟4,計算查詢點在每個候選類中的哈希值,根據(jù)步驟2建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點;
[0058]步驟5,計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。
[0059]上述步驟的具體實施過程如下所述。
[0060]一、對數(shù)據(jù)集進行聚類分析
[0061](I)預先選取K值(聚類的類別數(shù),本實施例中先選定K=60),即有K個聚類中心,在數(shù)據(jù)集中隨機選取K個數(shù)據(jù)點,作為聚類中心μ j (j = l, 2...,k)。
[0062](2)繼續(xù)上一步,選取數(shù)據(jù)集中剩余的點,分別計算選取點與聚類中心的歐氏距離,將選取點歸入與其歐氏距離最近的類Ci中,SP:
[0063]C1: =argmin I I χ(1)-μ」I 12
[0064]式中,X表示選取點,i表示類的數(shù)目,且i=l, 2,---,m, m表示類個數(shù)的最大值。
[0065]以Ci的幾何中心作為調整后的聚類中心,采用公式如下:
【權利要求】
1.一種基于局部敏感哈希的聚類索引方法,其特征在于,包括: 步驟1,對數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心; 步驟2,在每個類中采用局部敏感哈希方法建立哈希表; 步驟3,計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類; 步驟4,計算查詢點在每個候選類中的哈希值,根據(jù)步驟2建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點; 步驟5,計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。
2.根據(jù)權利要求1所述的聚類索引方法,其特征在于,所述對數(shù)據(jù)集進行聚類分析具體包括: 步驟11,預先確定進行聚類的類別數(shù)K,在數(shù)據(jù)集中隨機選取K個數(shù)據(jù)點,作為聚類中心 μ j,其中 j=i,2,-,κ; 步驟12,對數(shù)據(jù)集中聚類中心以外的數(shù)據(jù)點,分別計算其與各聚類中心的歐式距離,并將各數(shù)據(jù)點歸入與其歐氏距離最近的類中,并重新計算各類的聚類中心Uj ; 步驟13,重復步驟12,直到數(shù)據(jù)集中所有數(shù)據(jù)點均歸入相應的類,并保存每一個類的聚類中心。
3.根據(jù)權利要求2所述的聚類索引方法,其特征在于,所述步驟12中重新計算各類的聚類中心具體包括:重新取各類的幾何中心作為其聚類中心。
4.根據(jù)權利要求1所述的聚類索引方法,其特征在于,所述步驟2具體包括: 步驟21,生成各維服從高斯分布的一個向量r,r的維數(shù)與數(shù)據(jù)點維數(shù)相同; 步驟22,計算各數(shù)據(jù)點的哈希值; 步驟23,將計算所得哈希值,以鏈表形式存放; 步驟24,將上部分的鏈表形式轉換成混合類型結構存儲在連續(xù)的存儲表里,完成各類對應的哈希表的構建。
5.根據(jù)權利要求1或4所述的聚類索引方法,其特征在于,所述步驟2還包括將所有數(shù)據(jù)點映射到相應哈希表的哈希桶中。
6.一種基于局部敏感哈希的聚類索引系統(tǒng),其特征在于,包括聚類分析模塊、哈希表構建模塊、候選類確定模塊、候選點確定模塊和最近鄰點輸出模塊: 所述聚類分析模塊,其用于數(shù)據(jù)集進行聚類分析,將數(shù)據(jù)集分成若干個類,并確定和保存每個類的聚類中心; 所述哈希表構建模塊,其連接所述聚類分析模塊,用于在所述聚類分析模塊分成的每個類中采用局部敏感哈希方法建立哈希表; 所述候選類確定模塊,其連接所述聚類分析模塊,用于計算各聚類中心與查詢點之間的歐式距離,選擇距離最小的多個類作為候選類; 所述候選點確定模塊,其連接所述候選類確定模塊和所述哈希表構建模塊,用于計算查詢點在每個候選類中的哈希值,并根據(jù)哈希表構建模塊建立的哈希表,選出候選類中與查詢點哈希值相同的數(shù)據(jù)點作為候選點;所述最近鄰點輸出模塊,其連接所述候選點確定模塊,用于計算候選點與查詢點之間的歐式距離,將歐式距離最小的候選點作為查詢點的最近鄰點。
7.根據(jù)權利要求6所述的聚類索引系統(tǒng),其特征在于,所述聚類分析模塊具體包括: 預處理模塊,其用于預先確定進行聚類的類別數(shù)K,并在數(shù)據(jù)集中隨機選取K個數(shù)據(jù)點,作為聚類中心μ」,其中j=i,2,-,κ; 數(shù)據(jù)點歸類模塊,其用于對預處理模塊中確定的聚類中心以外的數(shù)據(jù)點,分別計算其與各聚類中心的歐式距離,并將各數(shù)據(jù)點歸入與其歐氏距離最近的類中,并重新計算各類的聚類中心Uj ; 聚類中心保存模塊,其在數(shù)據(jù)集中所有數(shù)據(jù)點均歸入相應的類后,保存每一個類的聚類中心。
8.根據(jù)權利要求7所述的聚類索引系統(tǒng),其特征在于,所述數(shù)據(jù)點歸類模塊重新計算各類的聚類中心μ J具體包括:重新取各類的幾何中心作為其聚類中心。
9.根據(jù)權利要求6所述的聚類索引系統(tǒng),其特征在于,所述哈希表構建模塊還包括將所有數(shù)據(jù)點映射到相應哈希表的哈希桶中`。
【文檔編號】G06F17/30GK103631928SQ201310652980
【公開日】2014年3月12日 申請日期:2013年12月5日 優(yōu)先權日:2013年12月5日
【發(fā)明者】謝洪濤, 王鵬, 徐克付, 譚建龍 申請人:中國科學院信息工程研究所