欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向分位數(shù)查詢的概要數(shù)據(jù)動(dòng)態(tài)分裂與維護(hù)方法

文檔序號:9326892閱讀:804來源:國知局
一種面向分位數(shù)查詢的概要數(shù)據(jù)動(dòng)態(tài)分裂與維護(hù)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,提出一種以q-digit為基礎(chǔ)的概要數(shù)據(jù)動(dòng)態(tài)分裂以及 維護(hù)方法,該方法包括概要數(shù)據(jù)結(jié)構(gòu)的分裂點(diǎn)選擇、動(dòng)態(tài)分裂算法、以及分裂后誤差估算方 法等。該方法可用于分布式環(huán)境下q-digit概要數(shù)據(jù)的動(dòng)態(tài)管理,有效支持大數(shù)據(jù)環(huán)境下 概要數(shù)據(jù)的維護(hù)與管理,有效支持分位數(shù)查詢與計(jì)算。
【背景技術(shù)】
[0002] 在流式大數(shù)據(jù)環(huán)境下,一類重要的查詢方法是在流式數(shù)據(jù)上的進(jìn)行分位數(shù) (Quantile)查詢,通常表示為Φ-分位數(shù)查詢,其物理意義是對數(shù)據(jù)進(jìn)行排序之后返回第 ΓφΝ?項(xiàng),簡稱分位數(shù)查詢。分位數(shù)Φ的取值范圍是0到1之間的一個(gè)實(shí)數(shù),即:(0, 1]。1-分 位數(shù)(Φ = 1)就是查詢數(shù)據(jù)集中的最大值,0.5-分位數(shù)(Φ = 1)則是數(shù)據(jù)集中的中值, 又稱作中位數(shù)。例如:給定流式數(shù)據(jù)集D = {6, 1,8, 7, 9, 0, 4, 2, 5, 3},經(jīng)過排序以后得IV = {0, 1,2, 3, 4, 5, 6, 7, 8, 9},0. 1-分位數(shù)查詢返回0 ;0. 5-分位數(shù)查詢返回4,1-分位數(shù)的 查詢返回最大值9。
[0003] 在流數(shù)據(jù)環(huán)境下,由于無法獲取全部數(shù)據(jù),因此無法有效對數(shù)據(jù)進(jìn)行排序,此時(shí)分 位數(shù)查詢顯得尤為重要,例如,實(shí)時(shí)監(jiān)控各個(gè)地方的溫度走勢,查詢某一個(gè)傳感器節(jié)點(diǎn)在最 近一段時(shí)間之內(nèi)的最高溫度(1-分位數(shù)),中間溫度(〇. 5-分位數(shù)),甚至是全部比率的溫 度分布情況。此外分位數(shù)查詢還應(yīng)用在股票市場趨勢分析、web聚集查詢、日志挖掘、分布 式存儲數(shù)據(jù)管理等領(lǐng)域。
[0004] 由于流數(shù)據(jù)高速到達(dá)、無法獲得并存儲全部的完整數(shù)據(jù),目前業(yè)界更多采用近似 分位數(shù)查詢方法,通過部分的采樣數(shù)據(jù),獲得近似的分位數(shù)查詢,以達(dá)到流數(shù)據(jù)環(huán)境下的實(shí) 時(shí)分位數(shù)計(jì)算的目標(biāo)。
[0005] 目前近似分位數(shù)計(jì)算的研究主要集中在相關(guān)算法的計(jì)算效率以及存儲效率的優(yōu) 化上。典型的研究成果概述如下:Manku等提的MRL99算法(G. S. Manku, S. Rajagopalan, and B.G. Lindsay. Random sampling techniques for space efficient online computation of order statistics of large datasets. In ACM SIGM0D,1999.)是一種基于一次 掃描的查詢算法。該算法的空間復(fù)雜度為〇 (il嗯2(εΛ〇),:返回確定的一致性近似 e 結(jié)果εΝ)。這個(gè)算法不足之處是事先知道數(shù)據(jù)流中確切的數(shù)據(jù)項(xiàng)數(shù)目N。 Greenwald 與 Khanna 提出另一種分位數(shù)查詢算法-GK 算法(Μ. Greenwald and S. Khanna. Space-efficient online computation of quantile summaries. In ACM SIGM0D,200L)〇 該算法不僅將上一個(gè)算法空間復(fù)雜度降低到了 〇(li〇g (wo),同時(shí)也不必事先預(yù)知數(shù)據(jù)項(xiàng) ε 數(shù)Ntj在數(shù)據(jù)流值域已知的情況下,Cormode與Muthukrishnan進(jìn)一步提出應(yīng)用count-min 技術(shù)(G. Cormode,S. Muthukrishnan. An improved data stream summary: the count-min sketch and its applications. Journal of Algorithms. 2005, vol. 55, no. I. pp. 58-75.) 進(jìn)行區(qū)間管理,空間復(fù)雜度為
:,這個(gè)算法空間復(fù)雜度僅與劃分的值 域有關(guān)而與數(shù)據(jù)流中的實(shí)際到達(dá)的數(shù)據(jù)項(xiàng)個(gè)數(shù)無關(guān),降低了空間消耗,但是這一方法無法 有效支持任意值域區(qū)間的動(dòng)態(tài)劃分。
[0006] Shrivastava 等提出的 q-digit 近似查詢方法(N. Shrivastava, C. Buragohain, D. Agrawal, and S. Suri. Medians and beyond:New aggregation techniques for sensor networks. In ACM SenSys, 2004.),在數(shù)據(jù)項(xiàng)不斷到達(dá)時(shí),可以動(dòng)態(tài)調(diào)整概要數(shù)據(jù)負(fù)責(zé)的數(shù) 值區(qū)間,通過一定的遍歷規(guī)則,支持流數(shù)據(jù)分位數(shù)查詢。q-digit所構(gòu)建的概要數(shù)據(jù)可以近 似地捕獲數(shù)據(jù)分布特征,而不必對所有達(dá)到的具體數(shù)據(jù)進(jìn)行存儲和排序。概要數(shù)據(jù)構(gòu)建的 核心思想是根據(jù)數(shù)據(jù)的分布,對概要數(shù)據(jù)中的樣本數(shù)值進(jìn)行自動(dòng)分組,并將其放到可變大 小的具有相似權(quán)重的桶中。q-digit可以進(jìn)一步支持一些復(fù)雜的操作,如查詢中點(diǎn)、位數(shù)查 詢、反轉(zhuǎn)分位數(shù)查詢、范圍查詢頻繁項(xiàng)查詢、及協(xié)調(diào)控制查詢等。
[0007] 另外,q-digit算法具有誤差可控的特征。如果數(shù)據(jù)項(xiàng)關(guān)鍵字取值的整數(shù)范圍 是[1,0],q-digit概要數(shù)據(jù)中樣本數(shù)據(jù)大小為m,則進(jìn)行分位數(shù)查詢的結(jié)果誤差小于 0 (log ( σ )/m)。q-digit是目前在流數(shù)據(jù)中廣泛采用的分位數(shù)據(jù)查詢方法。

【發(fā)明內(nèi)容】

[0008] 目前關(guān)于分位數(shù)查詢的算法和相關(guān)應(yīng)用主要是在集中存儲環(huán)境下展開,重點(diǎn)研究 如何提高算法的近似計(jì)算精度與算法的效率。但是分布式環(huán)境下,數(shù)據(jù)分布在不同的存儲 設(shè)備和加載設(shè)備上,需要構(gòu)建彼此獨(dú)立的數(shù)據(jù)分區(qū)模塊,隨著數(shù)據(jù)的不斷寫入,每個(gè)分區(qū)內(nèi) 對應(yīng)的概要數(shù)據(jù)也面臨著的分離和合并等操作。
[0009] 本發(fā)明針對分布式環(huán)境下,支持分位數(shù)查詢的概要數(shù)據(jù),提出高精度的概要數(shù)據(jù) 分離/分裂方法,將一個(gè)分區(qū)的概要數(shù)據(jù)結(jié)構(gòu),選擇數(shù)據(jù)量均等的中間點(diǎn)(Φ =0.5)進(jìn)行 分離,分裂成兩個(gè)數(shù)據(jù)量近似均等的概要數(shù)據(jù)結(jié)構(gòu)。每個(gè)概要數(shù)據(jù)結(jié)構(gòu)在分裂以后獨(dú)立支 持后續(xù)的數(shù)據(jù)查詢與處理。
[0010] 具體來說,本發(fā)明采用的技術(shù)方案如下:
[0011] -種面向分位數(shù)查詢的概要數(shù)據(jù)分裂方法,其步驟包括:
[0012] 1)對寫入的數(shù)據(jù)項(xiàng)進(jìn)行采樣,構(gòu)建q-digit概要數(shù)據(jù);
[0013] 2)按照q-digit后序遍歷的分位數(shù)查詢規(guī)則,查詢q-digit概要數(shù)據(jù)中數(shù)據(jù)項(xiàng)的 中間點(diǎn);
[0014] 3)以中間點(diǎn)為基礎(chǔ)逆序遍歷q-digit概要數(shù)據(jù),建立分割路徑,根據(jù)分割路徑把 q-digit概要數(shù)據(jù)分裂成兩個(gè)數(shù)據(jù)量近似均等的概要數(shù)據(jù)結(jié)構(gòu)。
[0015] 進(jìn)一步地,步驟1)所述q-digit概要數(shù)據(jù)的數(shù)據(jù)組織結(jié)構(gòu)可以采用樹形結(jié)構(gòu)、數(shù) 組、鏈表等。
[0016] 優(yōu)選地,所述q-digit概要數(shù)據(jù)的數(shù)據(jù)組織結(jié)構(gòu)為樹形結(jié)構(gòu),對其進(jìn)行分裂的具 體步驟包括:
[0017] a)根據(jù)分裂點(diǎn)的要求,按照q-digit后序遍歷的分位數(shù)查詢規(guī)則找到中間點(diǎn),作 為分裂點(diǎn);
[0018] b)以分裂點(diǎn)為起點(diǎn),沿著樹形結(jié)構(gòu)逆序到父節(jié)點(diǎn),直到根節(jié)點(diǎn)為止,從而得到分割 路徑;以該分割路徑為基礎(chǔ),將q-digit概要數(shù)據(jù)的節(jié)點(diǎn)分為左右兩顆子樹,該分割路徑上 的節(jié)點(diǎn)在左子樹和右子樹中分別保存;
[0019] c)在左右兩棵子樹上,分別修改內(nèi)節(jié)點(diǎn)所負(fù)責(zé)的數(shù)據(jù)空間的值域的范圍,當(dāng)中間 節(jié)點(diǎn)負(fù)責(zé)范圍相同時(shí),合并中間節(jié)點(diǎn)。
[0020] -種面向分位數(shù)查詢的概要數(shù)據(jù)動(dòng)態(tài)維護(hù)方法,在負(fù)載出現(xiàn)不均衡時(shí),或者需要 增加新處理設(shè)備時(shí),采用上述方法對概要數(shù)據(jù)進(jìn)行分裂操作,將一部分?jǐn)?shù)據(jù)分?jǐn)偟狡渌?理節(jié)點(diǎn)上,分裂以后的概要數(shù)據(jù)獨(dú)立的支持分裂以后的數(shù)據(jù)區(qū)間內(nèi)的數(shù)據(jù)查詢。
[0021] 本發(fā)明技術(shù)關(guān)鍵點(diǎn)主要是下面三點(diǎn):
[0022] 1.結(jié)合分位數(shù)查詢規(guī)則和誤差分析方法,提出一種逆序遍歷q-digit的方法。 Q-digit查詢過程中,采用至底而上的遍歷方法,以此獲得任意點(diǎn)的分位數(shù)查詢結(jié)果。根 據(jù)這一查詢規(guī)則,本發(fā)明提出一種從任意分位點(diǎn),采用tree型結(jié)構(gòu)逆序遍歷方法,上述方 法可以有效建立任意分位點(diǎn)的分割路徑,分割路徑可以分成兩個(gè)一定比例的兩個(gè)概要數(shù)據(jù) 集;
[0023] 2.利用方法1中提出的分割路徑,提出q-digit的分裂方法。方法首先根據(jù)Φ = 〇. 5的中間點(diǎn)建立分割路徑,采用后序遍歷的方法獲得左右兩個(gè)二叉子樹,并修改各個(gè)二叉 樹中間內(nèi)節(jié)點(diǎn)對應(yīng)的數(shù)據(jù)的區(qū)間范圍,進(jìn)而完成新數(shù)據(jù)區(qū)間內(nèi)q-digit概要數(shù)據(jù)的重新構(gòu) 建;
[0024] 3.對方法(1) (2)下分離后的概要數(shù)據(jù)進(jìn)行誤差估算和分析,經(jīng)過理論分析,分裂 以后的概要數(shù)據(jù)可以完全獨(dú)立的支持分裂以后的數(shù)據(jù)區(qū)間內(nèi)的數(shù)據(jù)查詢,并保持最大誤差 不發(fā)生改變。
[0025] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
[0026] 1.本發(fā)明提出的分裂方法是根據(jù)q-digit查詢規(guī)則進(jìn)行,保證了分裂結(jié)果不改變 q-digit原有的查詢方法、誤差估算方法以及與其相關(guān)的各種應(yīng)用,使得本發(fā)明方法具備很 好的應(yīng)用前景與理論基礎(chǔ);
[0027] 2.本發(fā)明僅僅利用到了 q-digit原有的概要數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)了概要數(shù)據(jù)的分裂功 能,保證了分裂過程快速執(zhí)行。分裂以后每個(gè)結(jié)構(gòu)仍然是獨(dú)立的q-digit結(jié)構(gòu),可以正常接 收并處理新到達(dá)的數(shù)據(jù)源,因此本方法可以有效支持分布式環(huán)境下任意數(shù)據(jù)分區(qū)的動(dòng)態(tài)分 裂與合并等處理。
[0028] 3.本發(fā)明可用于分布式環(huán)境下q-digit概要數(shù)據(jù)的動(dòng)態(tài)維護(hù)和管理,在任何時(shí)刻 都可以按照本發(fā)明的方法可以獲得對應(yīng)的結(jié)構(gòu)。比如負(fù)載出現(xiàn)不均衡時(shí),增加新處理設(shè)備 時(shí),此時(shí)都可以采用本發(fā)明的方法分?jǐn)傄徊糠謹(jǐn)?shù)據(jù)到其他處理節(jié)點(diǎn)上。上層業(yè)務(wù)可以按照 本發(fā)明提出的方法,根據(jù)當(dāng)時(shí)的情況,來觸發(fā)分裂操作。
【附圖說明】
[0029] 圖1是實(shí)施例中q-digit概要數(shù)據(jù)結(jié)構(gòu)示意圖。
[0030] 圖2是實(shí)施例中根據(jù)分裂路徑進(jìn)行分裂后生成的左子樹ql和右子樹q2示意圖, 其中(a)圖為ql子樹不例圖,(b)圖為q2子樹不例圖。
[0031] 圖3是實(shí)施例中分裂后左子樹ql維護(hù)示意圖,其中(a)圖為分裂后修改ql節(jié)點(diǎn) 范圍示意圖,(b)圖為分裂后ql節(jié)點(diǎn)合并示意圖。
[0032] 圖4是實(shí)施例中分裂后右子樹q2節(jié)點(diǎn)維護(hù)示意圖,其中(a)圖為分裂后修改q2 節(jié)點(diǎn)范圍示意圖,(b)圖為分裂后q2節(jié)點(diǎn)合并示意圖,(c)圖為分裂后右子樹q2節(jié)點(diǎn)合并 最終結(jié)果示意圖。
[0033] 圖5是實(shí)施例中q-digit在分布式環(huán)境下應(yīng)用示意圖。
【具體實(shí)施方式】
[0034] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面通過具體實(shí)施例和 附圖,對本發(fā)明做進(jìn)一步說明。
[0035] 本發(fā)明以q-digit為基礎(chǔ),根據(jù)分位數(shù)查詢規(guī)則,可以查詢到數(shù)據(jù)項(xiàng)的中間點(diǎn),即 Φ =0.5。然后以中間點(diǎn)為基礎(chǔ),按照逆序遍歷q-digit概要數(shù)據(jù)方法,建立分割路徑,根 據(jù)分割路徑把概要數(shù)據(jù)分
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
麦盖提县| 东明县| 竹溪县| 寿光市| 和顺县| 申扎县| 额济纳旗| 遂宁市| 元朗区| 兴国县| 南澳县| 永定县| 沽源县| 昂仁县| 黄梅县| 广西| 理塘县| 乌拉特中旗| 南木林县| 乳山市| 海口市| 若羌县| 隆子县| 广宗县| 孝昌县| 宜阳县| 桓台县| 焉耆| 观塘区| 青海省| 东山县| 图木舒克市| 沂南县| 高青县| 钦州市| 安岳县| 驻马店市| 南靖县| 东乡| 都江堰市| 泰顺县|