欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于關(guān)系型數(shù)據(jù)庫(kù)及k-d樹(shù)索引的文件數(shù)據(jù)管理方法

文檔序號(hào):6552253閱讀:911來(lái)源:國(guó)知局
基于關(guān)系型數(shù)據(jù)庫(kù)及k-d樹(shù)索引的文件數(shù)據(jù)管理方法
【專利摘要】本發(fā)明公開(kāi)了一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法,包括如下步驟:采用一致性哈希算法對(duì)文件進(jìn)行分布存儲(chǔ),將文件的MD5值作為該文件的哈希值,將哈希值與集群中的服務(wù)器建立映射關(guān)系,從而將不同哈希值的文件分布到不同的服務(wù)器上;在元數(shù)據(jù)管理服務(wù)器端構(gòu)建關(guān)系型數(shù)據(jù)庫(kù),對(duì)文件元數(shù)據(jù)庫(kù)表結(jié)構(gòu)進(jìn)行設(shè)計(jì);根據(jù)文件元數(shù)據(jù)庫(kù)表字段數(shù)量構(gòu)建多維檢索樹(shù);根據(jù)服務(wù)器端接收的查詢請(qǐng)求類型,進(jìn)行相應(yīng)查詢,返回查詢結(jié)果。本發(fā)明利用關(guān)系型數(shù)據(jù)庫(kù)和內(nèi)存中的文件索引,既保證了模糊檢索的可用性,也保證了范圍檢索的高效性,在海量文件資料管理領(lǐng)域具有重要的實(shí)際應(yīng)用價(jià)值。
【專利說(shuō)明】基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及海量文件數(shù)據(jù)的管理方法,尤其涉及一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù) 索引的文件數(shù)據(jù)管理方法。

【背景技術(shù)】
[0002] 大型企業(yè)級(jí)應(yīng)用中存在海量的業(yè)務(wù)數(shù)據(jù)需要進(jìn)行管理。在這些文件數(shù)據(jù)中文件資 料數(shù)據(jù)(包括掃描件,政策法規(guī)資料等)占了絕大多數(shù),如何針對(duì)業(yè)務(wù)特征設(shè)計(jì)合理、高效的 文件存儲(chǔ)與管理機(jī)制是個(gè)非常有意義的問(wèn)題。
[0003] 每個(gè)需要集成的業(yè)務(wù)系統(tǒng)都留下了海量的文件資料,其管理會(huì)遇到如下幾個(gè)問(wèn) 題:(1)文件數(shù)據(jù)量較大,僅以一個(gè)區(qū)級(jí)單位為例,所有所涉及到的文件資料總大小已經(jīng)超 過(guò)5T,并且以每年2T的數(shù)據(jù)量增加。(2)文件沒(méi)有備份機(jī)制,任意一次安全事故將導(dǎo)致文 件資料的丟失。(3)文件資料以"文件名+文件路徑"的方式存儲(chǔ),缺乏有效的查詢機(jī)制, 使得查閱比較困難。(4)文件資料存儲(chǔ)效率低,有的業(yè)務(wù)系統(tǒng)將圖片文件直接存放在數(shù)據(jù) 庫(kù)中,文件的讀寫(xiě)都要經(jīng)過(guò)SQL引擎,存儲(chǔ)效率較低。常見(jiàn)的分布式文件系統(tǒng)如GFS,HDFS 和TFS對(duì)于簡(jiǎn)單的文件存儲(chǔ)應(yīng)用而言都過(guò)于復(fù)雜,最好的方式是結(jié)合實(shí)際情況設(shè)計(jì)簡(jiǎn)單的 文件存儲(chǔ)系統(tǒng)來(lái)滿足業(yè)務(wù)需求。文件元數(shù)據(jù)管理是文件管理的核心,常見(jiàn)的文件元數(shù)據(jù)通 常采用〈key, value〉的形式存儲(chǔ),其中key為主鍵,value表示文件存儲(chǔ)路徑與文件名的 組合。文件的業(yè)務(wù)屬性則托管給上層應(yīng)用數(shù)據(jù)庫(kù)管理,造成了文件系統(tǒng)與應(yīng)用系統(tǒng)強(qiáng)耦合。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索 引的文件數(shù)據(jù)管理方法。
[0005] 本發(fā)明的目的是通過(guò)一下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù) 索引的文件數(shù)據(jù)管理方法,包括以下步驟: (1) 采用一致性哈希算法(DHT)對(duì)文件進(jìn)行分布存儲(chǔ),將文件的MD5值作為該文件的哈 希值,將哈希值與集群中的服務(wù)器建立映射關(guān)系,從而將不同哈希值的文件分布到不同的 服務(wù)器上; (2) 在元數(shù)據(jù)管理服務(wù)器端構(gòu)建關(guān)系型數(shù)據(jù)庫(kù),對(duì)文件元數(shù)據(jù)庫(kù)表結(jié)構(gòu)進(jìn)行設(shè)計(jì),文件 元數(shù)據(jù)庫(kù)表字段包括:文件存儲(chǔ)路徑、是否刪除、上傳時(shí)間; (3) 根據(jù)文件元數(shù)據(jù)庫(kù)表字段數(shù)量,構(gòu)建多維檢索樹(shù)(K-D樹(shù)); (4) 判斷元數(shù)據(jù)管理服務(wù)器端接收的客戶端發(fā)送的檢索請(qǐng)求,如檢索請(qǐng)求類型為模糊 查找,將該請(qǐng)求自動(dòng)轉(zhuǎn)發(fā)到步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)中進(jìn)行模糊檢索;如檢索請(qǐng)求類型 為屬性范圍查找,則調(diào)用步驟3構(gòu)建的多維檢索樹(shù),返回查詢結(jié)果; (5) 在元數(shù)據(jù)管理服務(wù)器空閑時(shí),重新建立平衡的多維檢索樹(shù)。
[0006] 進(jìn)一步地,所述步驟(1)中將哈希值與集群中的服務(wù)器建立映射關(guān)系具體為:給 集群中的每個(gè)服務(wù)器分配隨機(jī)標(biāo)簽,這些隨機(jī)標(biāo)簽構(gòu)成一個(gè)哈希環(huán),存儲(chǔ)文件時(shí),計(jì)算文件 主鍵哈希值,然后存放到哈希環(huán)順時(shí)針?lè)较蛑械谝粋€(gè)大于或等于該哈希值所在的服務(wù)器節(jié) 點(diǎn)。
[0007] 進(jìn)一步地,所述的步驟(3)具體為:k表示文件元數(shù)據(jù)庫(kù)表字段個(gè)數(shù),η表示多維 檢索樹(shù)的層數(shù),第η層中的每個(gè)節(jié)點(diǎn),其左子樹(shù)中每個(gè)節(jié)點(diǎn)的第n%k維屬性小于或者等于 該節(jié)點(diǎn)的n%k維屬性,右子樹(shù)中的每個(gè)節(jié)點(diǎn)的第n%k維屬性大于或等于該節(jié)點(diǎn)的n%k維屬 性;在平衡狀態(tài)下,多維檢索樹(shù)的檢索性能0(l〇gN),并且支持0(N~(k-t/k))的范圍查詢 效率,其中N表示文件數(shù)量,t為查詢時(shí)指定的維度。
[0008] 進(jìn)一步地,所述的步驟(5)具體為: (5. 1)檢索步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)的每個(gè)屬性,將文件的第一維屬性均攤分成兩 個(gè)部分,將中間節(jié)點(diǎn)插入到多維檢索樹(shù); (5. 2)對(duì)文件的第二維屬性進(jìn)行與步驟5. 1同樣的處理,直到所有元數(shù)據(jù)信息按照維 度全部載入到多維檢索樹(shù)中,最終得到平衡態(tài)的多維檢索樹(shù)。
[0009] 本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果: (1)支持模糊檢索以及范圍檢索兩種檢索類型,支持兩種文件檢索引擎自由切換,具有 了很高的檢索效率。
[0010] (2)能夠利用關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),支持SQL語(yǔ)句查詢,不僅支持對(duì)文件資料的精 確檢索,也支持對(duì)某個(gè)屬性的模糊檢索,靈活度大大提升。
[0011] (3)大幅度降低了文件索引在內(nèi)存中所占用的空間,支持對(duì)文件的多個(gè)維度進(jìn)行 檢索,提升了檢索效率。

【專利附圖】

【附圖說(shuō)明】
[0012] 圖1是文件檢索請(qǐng)求分布示意圖。

【具體實(shí)施方式】
[0013] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0014] 如圖1所示,本發(fā)明一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法, 包括如下步驟: (1)采用一致性哈希算法對(duì)文件進(jìn)行分布存儲(chǔ),將文件的MD5值作為該文件的哈希值, 將哈希值與集群中的服務(wù)器建立映射關(guān)系,給集群中的每個(gè)服務(wù)器分配隨機(jī)標(biāo)簽,這些隨 機(jī)標(biāo)簽構(gòu)成一個(gè)哈希環(huán),存儲(chǔ)文件時(shí),計(jì)算文件主鍵哈希值,然后存放到哈希環(huán)順時(shí)針?lè)较?中第一個(gè)大于或等于該哈希值所在的服務(wù)器節(jié)點(diǎn);從而將不同哈希值的文件分布到不同的 服務(wù)器上。
[0015] (2)在元數(shù)據(jù)管理服務(wù)器端構(gòu)建關(guān)系型數(shù)據(jù)庫(kù),對(duì)文件元數(shù)據(jù)庫(kù)表結(jié)構(gòu)進(jìn)行設(shè)計(jì), 文件元數(shù)據(jù)庫(kù)表字段包括:文件存儲(chǔ)路徑、是否刪除、上傳時(shí)間; (3)根據(jù)文件元數(shù)據(jù)庫(kù)表字段數(shù)量,構(gòu)建多維檢索樹(shù):k表示文件元數(shù)據(jù)庫(kù)表字段個(gè) 數(shù),η表示多維檢索樹(shù)的層數(shù),第η層中的每個(gè)節(jié)點(diǎn),其左子樹(shù)中每個(gè)節(jié)點(diǎn)的第n%k維屬性 小于或者等于該節(jié)點(diǎn)的n%k維屬性,右子樹(shù)中的每個(gè)節(jié)點(diǎn)的第n%k維屬性大于或等于該節(jié) 點(diǎn)的n%k維屬性;在平衡狀態(tài)下,多維檢索樹(shù)的檢索性能O(logN),并且支持0(N~(k-t/k)) 的范圍查詢效率,其中N表示文件數(shù)量,t為查詢時(shí)指定的維度。
[0016] (4)判斷元數(shù)據(jù)管理服務(wù)器端接收的客戶端發(fā)送的檢索請(qǐng)求,如檢索請(qǐng)求類型為 模糊查找,將該請(qǐng)求自動(dòng)轉(zhuǎn)發(fā)到步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)中進(jìn)行模糊檢索;如檢索請(qǐng)求 類型為屬性范圍查找,則調(diào)用步驟3構(gòu)建的多維檢索樹(shù),返回查詢結(jié)果; (5)在元數(shù)據(jù)管理服務(wù)器空閑時(shí),重新建立平衡的多維檢索樹(shù),提高檢索效率,具體 為: (5. 1)檢索步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)的每個(gè)屬性,將文件的第一維屬性均攤分成兩 個(gè)部分,將中間節(jié)點(diǎn)插入到多維檢索樹(shù); (5. 2)對(duì)文件的第二維屬性進(jìn)行與步驟5. 1同樣的處理,直到所有元數(shù)據(jù)信息按照維 度全部載入到多維檢索樹(shù)中,最終得到平衡態(tài)的多維檢索樹(shù)。
[0017] 實(shí)施例: (1)搭建分布式存儲(chǔ)環(huán)境。實(shí)驗(yàn)環(huán)境為2T硬盤單個(gè)文件元數(shù)據(jù)管理服務(wù)器以及4個(gè) 文件服務(wù)器組成的文件集群,操作系統(tǒng)為ubantul3. 10,網(wǎng)絡(luò)傳輸速率為10m/s.準(zhǔn)備文件 材料集,將20k大小的掃描件,通過(guò)隨機(jī)生成不重復(fù)文件名以及隨機(jī)選擇其行政區(qū)劃屬性, 同時(shí)進(jìn)行文件上傳1000次。
[0018] (2)以業(yè)務(wù)背景為例,調(diào)研文件資料所需要進(jìn)行檢索的字段文檔,在元數(shù)據(jù)管理 服務(wù)器端構(gòu)建關(guān)系型數(shù)據(jù)庫(kù),對(duì)文件元數(shù)據(jù)庫(kù)表結(jié)構(gòu)進(jìn)行設(shè)計(jì),設(shè)計(jì)字段原則是每一個(gè)字 段均與業(yè)務(wù)需求相關(guān),其中文件存儲(chǔ)路徑,是否刪除,上傳時(shí)間是必須字段。

【權(quán)利要求】
1. 一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法,其特征在于,包括如下 步驟: (1) 采用一致性哈希算法對(duì)文件進(jìn)行分布存儲(chǔ),將文件的MD5值作為該文件的哈希值, 將哈希值與集群中的服務(wù)器建立映射關(guān)系,從而將不同哈希值的文件分布到不同的服務(wù)器 上; (2) 在元數(shù)據(jù)管理服務(wù)器端構(gòu)建關(guān)系型數(shù)據(jù)庫(kù),對(duì)文件元數(shù)據(jù)庫(kù)表結(jié)構(gòu)進(jìn)行設(shè)計(jì),文件 元數(shù)據(jù)庫(kù)表字段包括:文件存儲(chǔ)路徑、是否刪除、上傳時(shí)間; (3) 根據(jù)文件元數(shù)據(jù)庫(kù)表字段數(shù)量,構(gòu)建多維檢索樹(shù); (4) 判斷元數(shù)據(jù)管理服務(wù)器端接收的客戶端發(fā)送的檢索請(qǐng)求,如檢索請(qǐng)求類型為模糊 查找,將該請(qǐng)求自動(dòng)轉(zhuǎn)發(fā)到步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)中進(jìn)行模糊檢索;如檢索請(qǐng)求類型 為屬性范圍查找,則調(diào)用步驟3構(gòu)建的多維檢索樹(shù),返回查詢結(jié)果; (5) 在元數(shù)據(jù)管理服務(wù)器空閑時(shí),重新建立平衡的多維檢索樹(shù)。
2. 根據(jù)權(quán)利要求1所述的一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法, 其特征在于,所述步驟(1)中將哈希值與集群中的服務(wù)器建立映射關(guān)系具體為:給集群中 的每個(gè)服務(wù)器分配隨機(jī)標(biāo)簽,這些隨機(jī)標(biāo)簽構(gòu)成一個(gè)哈希環(huán),存儲(chǔ)文件時(shí),計(jì)算文件主鍵哈 希值,然后存放到哈希環(huán)順時(shí)針?lè)较蛑械谝粋€(gè)大于或等于該哈希值所在的服務(wù)器節(jié)點(diǎn)。
3. 根據(jù)權(quán)利要求1所述的一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法, 其特征在于,所述的步驟(3)具體為:k表示文件元數(shù)據(jù)庫(kù)表字段個(gè)數(shù),η表示多維檢索樹(shù)的 層數(shù),第η層中的每個(gè)節(jié)點(diǎn),其左子樹(shù)中每個(gè)節(jié)點(diǎn)的第n%k維屬性小于或者等于該節(jié)點(diǎn)的 n%k維屬性,右子樹(shù)中的每個(gè)節(jié)點(diǎn)的第n%k維屬性大于或等于該節(jié)點(diǎn)的n%k維屬性;在平衡 狀態(tài)下,多維檢索樹(shù)的檢索性能〇 (logN),并且支持0 (N~ (k-t/k))的范圍查詢效率,其中N 表示文件數(shù)量,t為查詢時(shí)指定的維度。
4. 根據(jù)權(quán)利要求1所述的一種基于關(guān)系型數(shù)據(jù)庫(kù)及K-D樹(shù)索引的文件數(shù)據(jù)管理方法, 其特征在于,所述的步驟(5)具體為: (5. 1)檢索步驟2構(gòu)建的關(guān)系型數(shù)據(jù)庫(kù)的每個(gè)屬性,將文件的第一維屬性均攤分成兩 個(gè)部分,將中間節(jié)點(diǎn)插入到多維檢索樹(shù); (5. 2)對(duì)文件的第二維屬性進(jìn)行與步驟5. 1同樣的處理,直到所有元數(shù)據(jù)信息按照維 度全部載入到多維檢索樹(shù)中,最終得到平衡態(tài)的多維檢索樹(shù)。
【文檔編號(hào)】G06F17/30GK104063487SQ201410316850
【公開(kāi)日】2014年9月24日 申請(qǐng)日期:2014年7月3日 優(yōu)先權(quán)日:2014年7月3日
【發(fā)明者】杜震洪, 張豐, 劉仁義, 鄭少楠, 郭綠奕 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿瓦提县| 双江| 紫云| 高陵县| 新闻| 惠州市| 平顺县| 麟游县| 永嘉县| 嵊泗县| 青冈县| 阿鲁科尔沁旗| 奇台县| 镇宁| 宜城市| 武汉市| 呼玛县| 琼结县| 随州市| 石泉县| 定南县| 福海县| 闸北区| 新沂市| 延吉市| 沈阳市| 绥滨县| 尼玛县| 安徽省| 汽车| 东辽县| 沈阳市| 额敏县| 资阳市| 尖扎县| 冷水江市| 汝州市| 临猗县| 黄石市| 宁波市| 阿鲁科尔沁旗|