專利名稱:一種新型元數(shù)據(jù)管理系統(tǒng)和一種元數(shù)據(jù)屬性混合索引方法
技術(shù)領(lǐng)域:
本發(fā)明屬于存儲(chǔ)技術(shù)領(lǐng)域,涉及其中的元數(shù)據(jù)管理系統(tǒng),具體涉及元數(shù)據(jù)索引的建立方法。
背景技術(shù):
海量存儲(chǔ)系統(tǒng)需要響應(yīng)大量用戶的元數(shù)據(jù)訪問(wèn)請(qǐng)求,據(jù)統(tǒng)計(jì)訪問(wèn)請(qǐng)求中有約70% 均為對(duì)元數(shù)據(jù)的訪問(wèn)請(qǐng)求,元數(shù)據(jù)管理性能的優(yōu)劣直接影響著海量存儲(chǔ)系統(tǒng)的整體性能。 海量存儲(chǔ)系統(tǒng)中元數(shù)據(jù)包含多個(gè)屬性,但用戶訪問(wèn)一般集中在其中的某幾個(gè)屬性,從而使得同一條元數(shù)據(jù)中有些屬性的使用頻率很高、而有些屬性使用頻率較低,使用單一方法建立索引管理元數(shù)據(jù)無(wú)法針對(duì)元數(shù)據(jù)屬性使用頻率的不同,存在所需時(shí)間與空間開(kāi)銷大等問(wèn)題。海量存儲(chǔ)系統(tǒng)中元數(shù)據(jù)管理問(wèn)題的特性分析
海量存儲(chǔ)系統(tǒng)中,每條元數(shù)據(jù)均包含名字、標(biāo)識(shí)、時(shí)間、權(quán)限、摘要等多個(gè)屬性,其中部分元數(shù)據(jù)屬性經(jīng)常會(huì)被用戶訪問(wèn),其余屬性被訪問(wèn)的頻率較低。因此使用同樣的方法組織和管理難以帶來(lái)良好的效果。用戶在訪問(wèn)經(jīng)常被訪問(wèn)的元數(shù)據(jù)屬性時(shí),如何快速查找到所需的元數(shù)據(jù)屬性是用戶最關(guān)心的問(wèn)題。在管理不經(jīng)常被訪問(wèn)的元數(shù)據(jù)屬性時(shí),如何減少所需的額外時(shí)間與空間開(kāi)銷則是關(guān)鍵。
發(fā)明內(nèi)容
本發(fā)明的目的是解決海量存儲(chǔ)系統(tǒng)中現(xiàn)有的元數(shù)據(jù)管理方法所存在的時(shí)間與空間開(kāi)銷大等問(wèn)題,提供一種元數(shù)據(jù)屬性混合索引方法,并構(gòu)建一種新型的元數(shù)據(jù)管理系統(tǒng)。實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是,一種元數(shù)據(jù)屬性混合索引方法,包括下列步驟 1)將元數(shù)據(jù)屬性劃分為高頻元數(shù)據(jù)屬性和低頻元數(shù)據(jù)屬性,在附加元數(shù)據(jù)標(biāo)識(shí)后分別存入高頻元數(shù)據(jù)集和低頻元數(shù)據(jù)集;2)對(duì)高頻元數(shù)據(jù)集使用改進(jìn)的KD-tree和B-tree建立索引;3)對(duì)低頻元數(shù)據(jù)集使用人工免疫算法建立索引。所述步驟1)具體包括下列步驟
1.1) 定義元數(shù)據(jù)屬性的活躍度閾值
^n,作為對(duì)元數(shù)據(jù)屬性劃分的依據(jù)。1. 2)定義元數(shù)據(jù)屬性的活躍度f(wàn)f,作為衡量元數(shù)據(jù)屬性活躍度的依據(jù),使用公式
jr=i-(ln )·+^^^^-計(jì)算獲得,其中是最近訪問(wèn)元數(shù)據(jù)屬性的時(shí)間,是創(chuàng) 1bF-i^I γ—41iIt^
建元數(shù)據(jù)屬性的時(shí)間,*是系統(tǒng)當(dāng)前的時(shí)間,《O 是元數(shù)據(jù)屬性在當(dāng)前時(shí)間之前的Γ時(shí)間內(nèi)被訪問(wèn)的次數(shù)。1. 3)當(dāng)ISfl0時(shí),該元數(shù)據(jù)屬性是高頻元數(shù)據(jù)屬性,當(dāng)#<風(fēng)時(shí),該元數(shù)據(jù)屬性是低頻元數(shù)據(jù)屬性;
1.4)將所有元數(shù)據(jù)中高頻元數(shù)據(jù)屬性的值在附加相應(yīng)的元數(shù)據(jù)標(biāo)識(shí)后存入高頻元數(shù)據(jù)集,將所有元數(shù)據(jù)中低頻元數(shù)據(jù)屬性的值附加相應(yīng)的元數(shù)據(jù)標(biāo)識(shí)(如文件的絕對(duì)路徑、 inode節(jié)點(diǎn)號(hào)等)后存入低頻元數(shù)據(jù)集。所述步驟2)具體包括下列步驟
2. 1)收集高頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性(如文件名、文件后綴名等), 構(gòu)建高頻元數(shù)據(jù)檢索集;
2.2)如高頻元數(shù)據(jù)檢索集中包含不少于兩個(gè)元數(shù)據(jù)屬性,使用KD-tree建立高頻元數(shù)據(jù)集的索引;
2.3)如高頻元數(shù)據(jù)檢索集中僅包含單個(gè)元數(shù)據(jù)屬性,使用B-tree建立高頻元數(shù)據(jù)集的索引。所述步驟3)具體包括下列步驟
3.1)將低頻元數(shù)據(jù)集均衡的分為若干分區(qū),每個(gè)分區(qū)包含數(shù)目基本相等的低頻元數(shù)
據(jù);
3. 2)收集低頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性(如作者、類別和備注等),構(gòu)建低頻元數(shù)據(jù)檢索集,用為表示,其中《表示被用為查詢條件的元數(shù)據(jù)屬性個(gè)數(shù),^=IL B)表示每個(gè)被用于查詢條件的元數(shù)據(jù)屬性;
3.3)每個(gè)低頻元數(shù)據(jù)條目中被用作為查詢條件的多個(gè)屬性的值的集合構(gòu)成一個(gè)自體,收集該分區(qū)中所有低頻元數(shù)據(jù)條目中被用作查詢條件的屬性值,構(gòu)成自體集 々},其中每個(gè)自體^(^,碎工,mj,n為被用為查詢條件的元數(shù)據(jù)屬性個(gè)數(shù); 3. 4)定義檢測(cè)器|#=( 4為1 .勾,其中每個(gè)4與自體s中碎的類型相同; 3. 5)對(duì)低頻元數(shù)據(jù)檢索集中的數(shù)值型元數(shù)據(jù)屬性,使用》^=|4-瑪|計(jì)算4與拜之間的子匹配度;
3. 6)對(duì)低頻元數(shù)據(jù)檢索集中的非數(shù)值型元數(shù)據(jù)屬性,將碎表示為以ASCII字符組成的字符串,此時(shí)為工勒包含7個(gè)Ascn字符,使用中/i十算4
與拜之間的子匹配度A ;
3. 7)設(shè)數(shù)值型元數(shù)據(jù)屬性的個(gè)數(shù)是ζ個(gè),非數(shù)值型元數(shù)據(jù)屬性的個(gè)數(shù)是_7個(gè),使用
權(quán)利要求
1.一種元數(shù)據(jù)屬性混合索引方法,包括下列步驟步驟1)將元數(shù)據(jù)屬性劃分為高頻元數(shù)據(jù)屬性和低頻元數(shù)據(jù)屬性,在附加元數(shù)據(jù)標(biāo)識(shí)后分別存入高頻元數(shù)據(jù)集和低頻元數(shù)據(jù)集;步驟2)對(duì)高頻元數(shù)據(jù)集使用KD-tree和B-tree建立索引; 步驟3)對(duì)低頻元數(shù)據(jù)集使用人工免疫算法建立索引。
2.根據(jù)權(quán)利要求1所述的一種元數(shù)據(jù)屬性混合索引方法,所述步驟1)具體包括下列步驟
3.根據(jù)權(quán)利要求1所述的一種元數(shù)據(jù)屬性混合索引方法,所述步驟2)具體包括下列步驟步驟2. 1)收集高頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性,構(gòu)建高頻元數(shù)據(jù)檢索集;步驟2. 2)如高頻元數(shù)據(jù)檢索集中包含不少于兩個(gè)元數(shù)據(jù)屬性,使用KD-tree建立高頻元數(shù)據(jù)集的索引;步驟2. 3)如高頻元數(shù)據(jù)檢索集中僅包含單個(gè)元數(shù)據(jù)屬性,使用B-tree建立高頻元數(shù)據(jù)集的索引。
4.根據(jù)權(quán)利要求1所述的一種元數(shù)據(jù)屬性混合索引方法,所述步驟3)具體包括下列步驟步驟3. 1)將低頻元數(shù)據(jù)集均衡地分為若干分區(qū),每個(gè)分區(qū)包含數(shù)目基本相等的低頻元數(shù)據(jù);步驟3. 2)收集低頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性,構(gòu)建低頻元數(shù)據(jù)檢索集,用為=《%%!■ 表示,其中Z7表示被用為查詢條件的元數(shù)據(jù)屬性個(gè)數(shù),%i = IL Β)表示每個(gè)被用于查詢條件的元數(shù)據(jù)屬性;步驟3.3)每個(gè)低頻元數(shù)據(jù)條目中被用作為查詢條件的多個(gè)屬性的值的集合構(gòu)成一個(gè)自體,收集該分區(qū)中所有低頻元數(shù)據(jù)條目中被用作查詢條件的屬性值,構(gòu)成自體集 S=I^s2X力},其中每個(gè)自體為被用為查詢條件的元數(shù)據(jù)屬性個(gè)數(shù);步驟3.4)定義檢測(cè)器
5.一種新型元數(shù)據(jù)管理系統(tǒng),包括屬性分頻裝置、高頻元數(shù)據(jù)索引裝置和低頻元數(shù)據(jù)索引裝置。
6.根據(jù)權(quán)利要求5所述一種新型元數(shù)據(jù)管理系統(tǒng),其特征在于,所述屬性分頻裝置包括元數(shù)據(jù)屬性使用頻率統(tǒng)計(jì)模塊和元數(shù)據(jù)屬性分頻模塊元數(shù)據(jù)屬性使用頻率統(tǒng)計(jì)模塊用于元數(shù)據(jù)屬性被使用的次數(shù)、保存元數(shù)據(jù)屬性的更新時(shí)間;元數(shù)據(jù)屬性分頻模塊用于依據(jù)元數(shù)據(jù)屬性使用頻率統(tǒng)計(jì)模塊收集到的信息判斷屬性是屬于高頻還是低頻屬性,并在所有元數(shù)據(jù)中高頻元數(shù)據(jù)屬性的值附加相應(yīng)的元數(shù)據(jù)標(biāo)識(shí)后存入高頻元數(shù)據(jù)集,在所有元數(shù)據(jù)中低頻元數(shù)據(jù)屬性的值附加相應(yīng)的元數(shù)據(jù)標(biāo)識(shí)后存入低頻元數(shù)據(jù)集。
7.根據(jù)權(quán)利要求5所述的一種新型元數(shù)據(jù)管理系統(tǒng),其特征在于,所述高頻元數(shù)據(jù)索引裝置包括高頻元數(shù)據(jù)檢索集構(gòu)建模塊和基于KD-tree、B-tree的索引模塊高頻元數(shù)據(jù)檢索集構(gòu)建模塊負(fù)責(zé)收集高頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性,構(gòu)建高頻元數(shù)據(jù)檢索集;基于KD-tree、B-tree的索引模塊負(fù)責(zé)依據(jù)高頻元數(shù)據(jù)檢索集使用KD-tree和 B-tree建立高頻元數(shù)據(jù)集的索引。
8.根據(jù)權(quán)利要求5所述的一種新型元數(shù)據(jù)管理系統(tǒng),其特征在于,所述低頻元數(shù)據(jù)索引裝置包括低頻元數(shù)據(jù)集分區(qū)模塊、低頻元數(shù)據(jù)檢索集構(gòu)建模塊、元數(shù)據(jù)屬性值轉(zhuǎn)換模塊、 匹配度計(jì)算模塊和各分區(qū)檢測(cè)器生成模塊低頻元數(shù)據(jù)集分區(qū)模塊負(fù)責(zé)將低頻元數(shù)據(jù)集均衡的分為若干分區(qū),每個(gè)分區(qū)包含數(shù)目基本相等的低頻元數(shù)據(jù);低頻元數(shù)據(jù)檢索集構(gòu)建模塊負(fù)責(zé)收集低頻元數(shù)據(jù)集中被用作查詢條件的元數(shù)據(jù)屬性,構(gòu)建低頻元數(shù)據(jù)檢索集;元數(shù)據(jù)屬性值轉(zhuǎn)換模塊負(fù)責(zé)將低頻元數(shù)據(jù)檢索集中的非數(shù)值型元數(shù)據(jù)屬性值轉(zhuǎn)換為由ASCII字符組成的字符串;匹配度計(jì)算模塊負(fù)責(zé)計(jì)算檢測(cè)器與元數(shù)據(jù)屬性之間的匹配度;各分區(qū)檢測(cè)器生成模塊負(fù)責(zé)使用否定選擇算法,分別給每個(gè)分區(qū)生成檢測(cè)器。
全文摘要
本發(fā)明提出了一種元數(shù)據(jù)屬性的混合索引方法,依據(jù)各元數(shù)據(jù)屬性被使用頻率、創(chuàng)建時(shí)間和最近被訪問(wèn)時(shí)間,將元數(shù)據(jù)屬性劃分為高頻元數(shù)據(jù)屬性和低頻元數(shù)據(jù)屬性,針對(duì)高頻和低頻元數(shù)據(jù)屬性的特性,分別使用KD-tree、B-tree樹(shù)和人工免疫算法建立索引。并給出了新型元數(shù)據(jù)管理系統(tǒng)的結(jié)構(gòu),介紹了主要模塊的功能和流程。該發(fā)明能針對(duì)管理和查找元數(shù)據(jù)時(shí)存在的時(shí)間與空間開(kāi)銷大、額外空間大等問(wèn)題,提高查找高頻元數(shù)據(jù)屬性的效率,減少管理低頻元數(shù)據(jù)屬性所需的空間開(kāi)銷。
文檔編號(hào)G06F17/30GK102298631SQ20111025645
公開(kāi)日2011年12月28日 申請(qǐng)日期2011年8月31日 優(yōu)先權(quán)日2011年8月31日
發(fā)明者宋麗麗, 牛德姣, 蔡濤 申請(qǐng)人:江蘇大學(xué)