專利名稱:多媒體數(shù)據(jù)高維索引及kNN檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)索引及檢索技術(shù),尤其涉及一種多媒體數(shù)據(jù)高維索引及kNN檢索方法。
背景技術(shù):
隨著數(shù)字娛樂設(shè)備的逐漸普及,圖像、視頻、音頻等多媒體數(shù)據(jù)在數(shù)據(jù)量上出現(xiàn)了大幅增長,而基于多媒體數(shù)據(jù)的內(nèi)容進行檢索的技術(shù),尤其是kNN (k-Nearest Neighbor,k近鄰)檢索技術(shù),也變得越來越重要。在圖像檢索領(lǐng)域,待檢索圖像可以通過多媒體高維索引和kNN檢索技術(shù)找到與其最相似的多個圖像。在視頻檢索領(lǐng)域,系統(tǒng)可根據(jù)待檢索視頻片段的高維視覺特征,以及待檢索視頻片段的高維音頻特征,基于高維索引和kNN檢索技術(shù),快速找到與待檢索視頻片段的最為相似的多個視頻片段。因此,多媒體數(shù)據(jù)的高維索引技術(shù)及其kNN檢索方法是多媒體數(shù)據(jù)檢索的核心技術(shù),有著非常廣泛的應(yīng)用前景。目前,已有的多媒體數(shù)據(jù)的高維索引及kNN檢索技術(shù)存在著一定的局限性,主要表現(xiàn)在1、現(xiàn)有高維索引技術(shù)通常只考慮通過建立層次型高維索引的方式來減少kNN檢索過程中的輸入輸出(I/O)開銷,而未解決高維kNN檢索時計算開銷大的問題。2、現(xiàn)有的基于剪枝技術(shù)的kNN檢索方法,如Branch-and-Bound和INN方法,采用了復雜的,計算開銷很大的剪枝度量規(guī)則,即通過最短距離算法計算每個候選節(jié)點或數(shù)據(jù)對象到待檢測數(shù)據(jù)的距離來進行數(shù)據(jù)過濾和剪枝。整個剪枝處理過程開銷很大。
發(fā)明內(nèi)容
本發(fā)明提供一種多媒體數(shù)據(jù)高維索引及kNN檢索方法,以解決現(xiàn)有技術(shù)中計算開銷大的問題。本發(fā)明實施例提供一種多媒體數(shù)據(jù)高維索引及kNN檢索方法,包括構(gòu)建多個多媒體數(shù)據(jù)的高維索引,其中,每個多媒體數(shù)據(jù)包括多個數(shù)據(jù)對象,所述高維索引包括多個節(jié)點和所述多個多媒體數(shù)據(jù)的數(shù)據(jù)對象,每個節(jié)點包括所述節(jié)點的節(jié)點中心到所述節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離;根據(jù)kNN檢索算法,在所述高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合;根據(jù)所述檢索范圍及所述候選索引節(jié)點集合內(nèi)各節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行剪枝處理,得出所述待檢索數(shù)據(jù)的檢索結(jié)果。 通過上述內(nèi)容可知,本發(fā)明實施例通過在構(gòu)建多媒體數(shù)據(jù)的高維索引時存入每個節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離,并依據(jù)該存儲的距離,對根據(jù)kNN檢索算法得到的候選索引節(jié)點集合進行剪枝處理,避免了現(xiàn)有技術(shù)中需要對每個候選節(jié)點或數(shù)據(jù)對象進行基于最短距離算法的剪枝處理,有效地降低檢索過程中剪枝處理的計算開銷。
圖1為本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引及檢索方法的流程示意圖;圖2為本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引的一具體實例的示意圖;圖3為采用本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引及檢索方法對中間節(jié)點采用下限距離進行剪枝處理的示例圖;圖4為采用本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引及檢索方法對中間節(jié)點采用上限距離進行剪枝處理的示例圖;圖5為采用本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引及檢索方法對葉子節(jié)點采用下限距離進行剪枝處理的示例圖。
具體實施例方式如圖1所示,本發(fā)明實施例提供的多媒體數(shù)據(jù)高維索引及kNN檢索方法的流程示意圖。本實施例所述方法包括步驟S1、構(gòu)建多個多媒體數(shù)據(jù)的高維索引,其中,每個多媒體數(shù)據(jù)包括多個數(shù)據(jù)對象,所述高維索引包括多個節(jié)點和所述多個多媒體數(shù)據(jù)的數(shù)據(jù)對象,每個節(jié)點包括所述節(jié)點的節(jié)點中心到所述節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離。其中,所述多媒體數(shù)據(jù)包括圖像、視頻和音頻等數(shù)據(jù)。每個多媒體數(shù)據(jù)包括多個數(shù)據(jù)對象。實際應(yīng)用中,為快速檢索到多媒體數(shù)據(jù),多媒體數(shù)據(jù)通常被表示為高維特征向量的形式,并根據(jù)高維特征向量建立高維索引,所述高維索引包括多個節(jié)點和所述多個多媒體數(shù)據(jù)的數(shù)據(jù)對象。如圖2所示,所述高維索引為層次型,包括由上至下層級排列的一層根節(jié)點層、至少一層中間節(jié)點層1、一層葉子節(jié)點層2及數(shù)據(jù)對象層3。上層節(jié)點是下層節(jié)點的父節(jié)點,下層節(jié)點是上層節(jié)點的子節(jié)點。圖2所示的高維索引實例圖僅示出了一層中間節(jié)點層1、一層葉子節(jié)點層2及一層數(shù)據(jù)對象層,未示出根節(jié)點層。本實施例中所構(gòu)建的高維索引中各節(jié)點均存儲了節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離。如圖2中所示,根節(jié)點R包括節(jié)點R的節(jié)點中心到節(jié)點R的下一層級中間節(jié)點R2的節(jié)點中心的距離Dk2 ;中間節(jié)點Rl包括中間節(jié)點Rl的節(jié)點中心到Rl的子節(jié)點R4的節(jié)點中心的距離Dk4 ;所述中間節(jié)點Rl還包括中間節(jié)點Rl的節(jié)點中心到Rl的子節(jié)點R5的節(jié)點中心的距離DK5。同樣地,所述葉子節(jié)點R3包括葉子節(jié)點R3的節(jié)點中心到數(shù)據(jù)對象I的距離Diij各節(jié)點存儲的距離,將在后續(xù)檢索過程中用于進行剪枝處理,以降低現(xiàn)有技術(shù)中僅采用最短距離方法進行剪枝處理的計算開銷。步驟S2、根據(jù)kNN檢索算法,在所述高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合。具體地,所述檢索算法可以是kNN檢索。檢索引擎首先采用kNN檢索方法確定出所述待檢索數(shù)據(jù)的檢索半徑,然后根據(jù)所述檢索半徑確定出以所述檢索半徑為半徑,所述待檢索數(shù)據(jù)為圓心的檢索范圍。其中,所述候選索引節(jié)點集合中的節(jié)點為與所述檢索范圍重疊的節(jié)點。步驟S3、根據(jù)所述檢索范圍及所述候選索引節(jié)點集合內(nèi)各節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行剪枝處理,得出所述待檢索數(shù)據(jù)的檢索結(jié)果。
其中,所述剪枝處理過程就是判斷所述候選索引節(jié)點集合中的節(jié)點對應(yīng)的子節(jié)點或數(shù)據(jù)對象是否與所述檢索范圍重疊,將不與所述檢索范圍重疊的子節(jié)點或數(shù)據(jù)對象剪去。實際上,要得出所述待檢索數(shù)據(jù)的檢索結(jié)果,檢索引擎需要對所述候選索引節(jié)點集合進行多次剪枝處理。所述剪枝處理的次數(shù)決定了所述待檢索數(shù)據(jù)的檢索結(jié)果的檢索精度。本實施例提供的所述多媒體數(shù)據(jù)高維索引及kNN檢索方法,通過構(gòu)建各節(jié)點包含距離信息的高維索引來降低檢索過程中的剪枝處理的計算開銷,有效地提高了多媒體數(shù)據(jù)的檢索效率。進一步地,上述實施例中步驟1,所述的構(gòu)建多媒體數(shù)據(jù)的高維索引具體的可以采用如下步驟來實現(xiàn),包括步驟S101、根據(jù)數(shù)據(jù)劃分策略對檢索數(shù)據(jù)特征向量數(shù)據(jù)進行劃分,生成高維索引。
其中,基于數(shù)據(jù)劃分策略構(gòu)建多媒體數(shù)據(jù)的高維索引的技術(shù)可以分為兩大類。第一類是最小綁定矩形(Minimum Bounding Rectangle,MBR)劃分策略,MBR劃分策略是將多媒體特征向量數(shù)據(jù)進行矩形劃分形成層次型的高維索引。第二類是最小綁定球體(MinimumBounding Sphere, MBS)劃分策略,MBS劃分策略是將多媒體特征向量數(shù)據(jù)進行球形劃分形成層次型的高維索引。由于第一類MBR劃分策略在高維空間中具有更小的體積,從而使得對象間通常具有更小的重疊概率,因此,在構(gòu)建基本的多媒體高維索引時,優(yōu)選采用基于MBR劃分策略構(gòu)建多媒體數(shù)據(jù)的高維索引。步驟S102、計算出所述高維索引中個節(jié)點的節(jié)點中心到所述節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離,并將所述距離存儲于所述節(jié)點內(nèi)。其中,所述高維索引包括一層根節(jié)點層、至少一層中間節(jié)點層、葉子節(jié)點層及數(shù)據(jù)對象層。所述高維索引中根節(jié)點層、中間節(jié)點層及葉子節(jié)點層中的各節(jié)點均包括距離信息。具體地,高維索引構(gòu)建引擎在構(gòu)建所述高維索引后,分別計算高維索引中根節(jié)點的節(jié)點中心到所述根節(jié)點對應(yīng)的下一層級中間節(jié)點的節(jié)點中心的距離,中間節(jié)點的節(jié)點中心到所述中間節(jié)點對應(yīng)的下一層級中間節(jié)點的節(jié)點中心或葉子節(jié)點的節(jié)點中心的距離,以及葉子節(jié)點的節(jié)點中心到所述葉子節(jié)點對應(yīng)的數(shù)據(jù)對象的距離,并將計算得出的距離存儲到對應(yīng)的根節(jié)點、中間節(jié)點或葉子節(jié)點內(nèi)。所述高維索引包括由上至下層級排列的根節(jié)點、中間節(jié)點、葉子節(jié)點及數(shù)據(jù)對象。其中,所述根節(jié)點對應(yīng)的子節(jié)點為中間節(jié)點,所述葉子節(jié)點的父節(jié)點為所述中間節(jié)點,所述葉子節(jié)點對應(yīng)的下一層級為數(shù)據(jù)對象。所述根節(jié)點、中間節(jié)點和葉子節(jié)點均包括各自的節(jié)點標識,各自的節(jié)點中心坐標、各自包含的數(shù)據(jù)對象的數(shù)量以及所述距離,葉子節(jié)點包含的數(shù)據(jù)對象的數(shù)量為所述葉子節(jié)點對應(yīng)的數(shù)據(jù)對象的數(shù)量,根節(jié)點、中間節(jié)點包含的數(shù)據(jù)對象的數(shù)量為所有子節(jié)點包含的數(shù)據(jù)對象的數(shù)量之和。具體地,如圖2所示,高維索引中根節(jié)點R和中間節(jié)點Rl的存儲區(qū)域內(nèi)存儲有如下內(nèi)容,具體表現(xiàn)為如下形式(ID, C,LB, RU, #objects, #subregions, dists, Dfd, Ei)E1: (LBi, RUi, Sobjectsi, Pointeri),其中 I < i < n, Nmin ^ n ^ Nmax,且n=#subregions0其中,ID為根節(jié)點R或中間節(jié)點Rl的標識信息。C為根節(jié)點R或中間節(jié)點Rl的中心坐標。LB為基于MBR劃分策略劃分成的根節(jié)點R或中間節(jié)點Rl矩形的第一邊界,通常為劃分矩形的左下角坐標。RU為基于MBR劃分策略劃分成的根節(jié)點R或中間節(jié)點Rl矩形的第二邊界,通常為劃分矩形的右上角坐標。#objects為根節(jié)點R或中間節(jié)點Rl包含的數(shù)據(jù)對象的數(shù)量。dists為根節(jié)點R或中間節(jié)點Rl的中心C到中間節(jié)點的節(jié)點中心或葉子節(jié)點的節(jié)點中心的距離。若根節(jié)點R或中間節(jié)點Rl的下一層級中間節(jié)點或葉子節(jié)點為兩個或兩個以上,dists中包含有根節(jié)點R或中間節(jié)點Rl的節(jié)點中心分別到各中間節(jié)點的節(jié)點中心或葉子節(jié)點的節(jié)點中心的距離。Dfd為距離根節(jié)點R或中間節(jié)點Rl的節(jié)點中心最遠的數(shù)據(jù)對象到根節(jié)點R或中間節(jié)點Rl的節(jié)點中心的距離。Ei為根節(jié)點R或中間節(jié)點Rl的子節(jié)點E1. ...,En(Nmin彡η彡Nmax)其中,Nmax是根節(jié)點R或中間節(jié)點Rl所允許包含的中間節(jié)點或葉子節(jié)點數(shù)目的上限。2乞N11…,<「Μ.γ/2],Mn是根節(jié)點R或中間節(jié)點Rl的扇出(fanout)。每個元組Ei對應(yīng)著一個節(jié)點,該節(jié)點可能是中間節(jié)點或葉子節(jié)點。Ei由四部分組成基于MBR劃分策略劃分成的根節(jié)點R或中間節(jié)點Rl對應(yīng)下一層級中間節(jié)點或葉子節(jié)點的矩形的第一邊界LBi,即矩形的左下角坐標;基于MBR劃分策略劃分成的根節(jié)點R或中間節(jié)點Rl對應(yīng)下一層級中間節(jié)點或葉子節(jié)點的矩形的第一邊界RUi,即矩形的右上角坐標;節(jié)點所包含的數(shù)據(jù)對象的數(shù)量Sobjectsi ;以及指向子節(jié)點的指 針 Pointeri0如圖2所示,高維索引中葉子節(jié)點R3的存儲區(qū)域內(nèi)存儲有如下內(nèi)容,具體表現(xiàn)為如下形式(ID, C,LB, RU, #objects, dists, Dfd, Ei)E1: (Pointeri),其中 I < i < n, Lmin ^ η ( Lmax,且 n=#ob jects其中,ID為葉子節(jié)點R3的標識信息。C為葉子節(jié)點R3的中心坐標。LB為基于MB劃分策略劃分的葉子節(jié)點R3的矩形的第一邊界,即矩形的左下角。RU為基于MB劃分策略劃分的葉子節(jié)點R3的矩形的第二邊界,即矩形的右上角。《objects為葉子節(jié)點R3所包含的數(shù)據(jù)對象的數(shù)量。dists為葉子節(jié)點R3的中心C到葉子節(jié)點R3對應(yīng)的數(shù)據(jù)對象的距離。若所述葉子節(jié)點R3對應(yīng)的數(shù)據(jù)對象為兩個或兩個以上,dists應(yīng)包括葉子節(jié)點R3的中心C到葉子節(jié)點R3對應(yīng)的所有數(shù)據(jù)對象的距離。Ei為葉子節(jié)點R3對應(yīng)的數(shù)據(jù)對象E1. ...,En(Lmin彡η彡Lmax),其中Lmax是葉子節(jié)點R3所允許包含的數(shù)據(jù)對象的上限;
2< Lmill < [Λ+/ι_/2],Mlj是葉子節(jié)點R3的扇出(fanout)。每個Ei包含了指向相應(yīng)數(shù)據(jù)對象的指針。進一步地,上述實施例中步驟2,所述的根據(jù)kNN檢索算法,在所述高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合,具體可采用如下步驟來實現(xiàn),包括步驟S201、根據(jù)最短距離算法,計算出所述待檢索數(shù)據(jù)與中間節(jié)點的節(jié)點中心的距離,所述中間節(jié)點為所述根節(jié)點下一層級中的任一中間節(jié)點。實際檢索過程中,檢索引擎在所述高維索引中任選一個根節(jié)點的子節(jié)點,即中間節(jié)點,計算出該選出的中間節(jié)點的中心到所述待檢索數(shù)據(jù)的距離。其中,本步驟中選擇中間節(jié)點的目的是為了避免漏檢的問題出現(xiàn)。步驟S202、根據(jù)所述待檢索數(shù)據(jù)與所述中間節(jié)點的節(jié)點中心的距離,確定檢索范圍。具體地,檢索引擎根據(jù)上述步驟中計算得出的距離,確定出以所述待檢索數(shù)據(jù)與所述中間節(jié)點的節(jié)點中心的距離為半徑,所述待檢索數(shù)據(jù)為中心的檢索范圍。步驟S203、判斷檢索服務(wù)器內(nèi)存中的節(jié)點是否與所述檢索初始范圍重疊,若是,將所述節(jié)點存儲于候選索引節(jié)點集合內(nèi)。一般情況下,所述檢索服務(wù)器內(nèi)存中存儲有前次檢索過程中調(diào)入到所述內(nèi)存中的節(jié)點。所述檢索服務(wù)器內(nèi)存中至少存在有一個節(jié)點,最壞的情況下,內(nèi)存中只有一個根節(jié)點。檢索引擎選擇首先判斷內(nèi)存中的節(jié)點,可避免重新調(diào)取高維索引中的節(jié)點的開銷,降低檢索過程中的輸入開銷。具體地,檢索引擎計算內(nèi)存中的節(jié)點的節(jié)點中心到所述待檢索數(shù)據(jù)的距離,若距離小于所述檢索范圍的檢索半徑,則該節(jié)點與所述檢索范圍重疊。將與所述檢索范圍重疊的節(jié)點存儲到候選索引節(jié)點集合內(nèi)。步驟S204、判斷所述候選索引節(jié)點集合內(nèi)所有節(jié)點所包含的數(shù)據(jù)對象的數(shù)量總和是否等于預(yù)設(shè)值,若否,則按照預(yù)設(shè)比例擴大或縮小所述檢索范圍,確定出所述高維索引中與擴大或縮小后的所述檢索范圍重疊的節(jié)點,并將重疊的節(jié)點依次存儲于所述候選索引節(jié)點集合內(nèi),直至所述候選索引節(jié)點集合內(nèi)所有節(jié)點所包含的數(shù)據(jù)對象的數(shù)量總和等于所述預(yù)設(shè)值。具體地,根據(jù)所述候選索引節(jié)點集合內(nèi)各節(jié)點包括的數(shù)據(jù)對象的數(shù)量,檢索引擎計算出所述候選索引節(jié)點集合內(nèi)所有數(shù)據(jù)對象的數(shù)量總和。然后,檢索引擎判斷所述數(shù)據(jù)對象的數(shù)量總和是否等于kNN檢索中的參數(shù)K。其中,所述參數(shù)K是一個預(yù)設(shè)值,該值可依據(jù)檢索經(jīng)驗人為設(shè)定。若所述候選索引節(jié)點集合內(nèi)所有數(shù)據(jù)對象的數(shù)量總和等于所述參數(shù)K,則所述檢索范圍及所述候選索引節(jié)點集合即為檢索引擎最終確定出的檢索范圍和候選索引節(jié)點集
入
口 ο若所述候選索引節(jié)點集合內(nèi)所有數(shù)據(jù)對象的數(shù)量總和不等于所述參數(shù)K,則分為兩種情況情況一,所述數(shù)據(jù)對象的數(shù)量總和小于參數(shù)K,檢索引擎依據(jù)預(yù)設(shè)的比例擴大所述檢索范圍,確定新的檢索范圍。然后檢索引擎再根據(jù)最短距離算法,即MinDist計算程序,確定出所述高維索引中哪些節(jié)點的中心到所述待檢索數(shù)據(jù)之間的距離小于擴大后的檢索范圍的半徑,并將確定出的節(jié)點存儲到所述候選索引節(jié)點集合內(nèi),然后繼續(xù)執(zhí)行本步驟。情況二、所述數(shù)據(jù)對象的數(shù)量總和大于參數(shù)K,檢索引擎依據(jù)預(yù)設(shè)的比例縮小所述檢索范圍,確定新的檢索范圍。然后檢索引擎再根據(jù)最短距離算法,即MinDist計算程序,確定出所述高維索引中哪些節(jié)點的中心到所述待檢索數(shù)據(jù)之間的距離小于縮小后的所述檢索范圍的半徑,并將確定出的節(jié)點存儲到所述候選索引節(jié)點集合內(nèi),然后繼續(xù)本步驟。通過上述步驟,檢索引擎最終能確定出包含的所有數(shù)據(jù)對象的數(shù)量總和等于參數(shù)K的候選索引節(jié)點集合,以及經(jīng)縮小或擴大后最終確定出的檢索范圍。進一步地,上述實施例中所述步驟3,所述的根據(jù)所述檢索范圍及所述候選索引節(jié)點集合內(nèi)節(jié)點包括的所述距離,對所述候選索弓丨節(jié)點集合進行剪枝處理,得出所述待檢索數(shù)據(jù)的檢索結(jié)果,包括步驟S301、根據(jù)最短距離算法,計算所述候選索引節(jié)點集合內(nèi)各節(jié)點的節(jié)點中心到所述待檢索數(shù)據(jù)的距離。步驟S302、根據(jù)各節(jié)點的節(jié)點中心到所述待檢索數(shù)據(jù)的距離以及各節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行第一次剪枝處理。其中,所述對所述候選索引節(jié)點集合進行第一次剪枝處理,包括步驟S3021、把集合中各節(jié)點對應(yīng)的各子節(jié)點或數(shù)據(jù)對象添加到集合中。
步驟S3022、根據(jù)以下公式,計算出所述待檢索數(shù)據(jù)到各節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的下限距離dlOT ;
權(quán)利要求
1.一種多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,包括 構(gòu)建多個多媒體數(shù)據(jù)的高維索引,其中,每個多媒體數(shù)據(jù)包括多個數(shù)據(jù)對象,所述高維索引包括多個節(jié)點和所述多個多媒體數(shù)據(jù)的數(shù)據(jù)對象,每個節(jié)點包括所述節(jié)點的節(jié)點中心到所述節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離; 根據(jù)kNN檢索算法,在所述高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合; 根據(jù)所述檢索范圍及所述候選索引節(jié)點集合內(nèi)各節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行剪枝處理,得出所述待檢索數(shù)據(jù)的檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述構(gòu)建檢索數(shù)據(jù)的高維索引,包括 根據(jù)數(shù)據(jù)劃分策略對多媒體數(shù)據(jù)進行劃分,生成高維索引; 計算出所述高維索引中各節(jié)點的節(jié)點中心到所述節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離,并將所述距離存儲于所述節(jié)點內(nèi)。
3.根據(jù)權(quán)利要求1或2所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述高維索引包括由上至下層級排列的根節(jié)點、中間節(jié)點、葉子節(jié)點及數(shù)據(jù)對象;其中, 所述根節(jié)點對應(yīng)的子節(jié)點為中間節(jié)點,所述葉子節(jié)點的父節(jié)點為所述中間節(jié)點,所述葉子節(jié)點對應(yīng)的下一層級為數(shù)據(jù)對象; 所述根節(jié)點、中間節(jié)點和葉子節(jié)點均包括各自的節(jié)點標識,各自的節(jié)點中心坐標、各自包含的數(shù)據(jù)對象的數(shù)量以及所述距離,葉子節(jié)點包含的數(shù)據(jù)對象的數(shù)量為所述葉子節(jié)點對應(yīng)的數(shù)據(jù)對象的數(shù)量,根節(jié)點、中間節(jié)點包含的數(shù)據(jù)對象的數(shù)量為所有子節(jié)點包含的數(shù)據(jù)對象的數(shù)量之和。
4.根據(jù)權(quán)利要求3所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述根據(jù)kNN檢索算法,在所述高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合,包括 根據(jù)最短距離算法,計算出所述待檢索數(shù)據(jù)與中間節(jié)點的節(jié)點中心的距離,所述中間節(jié)點為所述根節(jié)點下一層級中的任一中間節(jié)點; 根據(jù)所述待檢索數(shù)據(jù)與所述中間節(jié)點的節(jié)點中心的距離,確定檢索范圍; 判斷檢索服務(wù)器內(nèi)存中的節(jié)點是否與所述檢索范圍重疊,若是,將所述節(jié)點存儲于候選索引節(jié)點集合內(nèi);所述檢索服務(wù)器內(nèi)存中存儲有前次檢索處理過程中調(diào)入到所述內(nèi)存中的節(jié)點; 判斷所述候選索引節(jié)點集合內(nèi)所有節(jié)點所包含的數(shù)據(jù)對象的數(shù)量總和是否等于預(yù)設(shè)值,若否,則按照預(yù)設(shè)比例擴大或縮小所述檢索范圍,確定出所述高維索引中與擴大或縮小后的所述檢索范圍重疊的節(jié)點,并將重疊的節(jié)點依次存儲于所述候選索引節(jié)點集合內(nèi),直至所述候選索引節(jié)點集合內(nèi)所有節(jié)點所包含的數(shù)據(jù)對象的數(shù)量總和等于所述預(yù)設(shè)值。
5.根據(jù)權(quán)利要求3所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述的根據(jù)所述檢索范圍及所述候選索引節(jié)點集合內(nèi)節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行剪枝處理,包括 根據(jù)最短距離算法,計算所述候選索引節(jié)點集合內(nèi)各節(jié)點的節(jié)點中心到所述待檢索數(shù)據(jù)的距離;根據(jù)各節(jié)點的節(jié)點中心到所述待檢索數(shù)據(jù)的距離以及各節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行第一次剪枝處理; 其中,對所述候選索引節(jié)點集合進行第一次剪枝處理,包括 把集合中各節(jié)點對應(yīng)的各子節(jié)點或數(shù)據(jù)對象添加到集合中; 根據(jù)以下公式,計算出所述待檢索數(shù)據(jù)到各節(jié)點對應(yīng)的子節(jié)點或數(shù)據(jù)對象的下限距離
6.根據(jù)權(quán)利要求5所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述對所述候選索引節(jié)點集合進行第一次剪枝處理,還包括 若所述候選索引節(jié)點集合中的節(jié)點為根節(jié)點或中間節(jié)點,則 根據(jù)以下公式,計算出所述待檢索數(shù)據(jù)到所述節(jié)點的子節(jié)點的節(jié)點中心的上限距離
7.根據(jù)權(quán)利要求5或6所述的多媒體數(shù)據(jù)高維索引及kNN檢索方法,其特征在于,所述根據(jù)所述節(jié)點的中心到所述待檢索數(shù)據(jù)的距離以及所述節(jié)點包括的所述距離,對所述候選索引節(jié)點集合進行第一次剪枝處理之后,還包括 對所述第一次剪枝處理后的候選索引節(jié)點集合進行第二次剪枝處理; 所述對所述候選索引節(jié)點集合進行第二次剪枝處理,包括 根據(jù)最短距離算法,計算出所述候選索引節(jié)點集合內(nèi)節(jié)點的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象到所述待檢索數(shù)據(jù)的距離; 若所述子節(jié)點的節(jié)點中心或數(shù)據(jù)對象到所述待檢索數(shù)據(jù)的距離大于所述檢索范圍的半徑,則所述子節(jié)點或數(shù)據(jù)對象不為候選節(jié)點或候選數(shù)據(jù)對象,將所述子節(jié)點或數(shù)據(jù)對象從所述候選索引節(jié)點集合中刪除。
全文摘要
本發(fā)明提供一種多媒體數(shù)據(jù)高維索引及kNN檢索方法,包括構(gòu)建多個多媒體數(shù)據(jù)的高維索引,高維索引包括多個節(jié)點和多個多媒體數(shù)據(jù)的數(shù)據(jù)對象,每個節(jié)點包括節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離;根據(jù)kNN檢索算法,在高維索引中確定出待檢索數(shù)據(jù)的檢索范圍及候選索引節(jié)點集合;根據(jù)檢索范圍及候選索引節(jié)點集合內(nèi)各節(jié)點包括的距離,對候選索引節(jié)點集合進行剪枝處理得出待檢索數(shù)據(jù)的檢索結(jié)果。本發(fā)明通過在構(gòu)建多媒體數(shù)據(jù)的高維索引時存入每個節(jié)點的節(jié)點中心到節(jié)點對應(yīng)的子節(jié)點的節(jié)點中心或數(shù)據(jù)對象的距離,并依據(jù)該存儲的距離,對得到的候選索引節(jié)點集合進行剪枝處理,有效地降低檢索過程中剪枝處理的計算開銷。
文檔編號G06F17/30GK102999542SQ20121020949
公開日2013年3月27日 申請日期2012年6月21日 優(yōu)先權(quán)日2012年6月21日
發(fā)明者杜小勇, 張孝, 王珊, 李暉 申請人:杜小勇