本發(fā)明涉及動態(tài)skyline查詢在數(shù)據(jù)流中的應用領域,是一種基于空間時序數(shù)據(jù)流應用的Skyline的查詢系統(tǒng),該系統(tǒng)涉及到大規(guī)模數(shù)據(jù)分析、空間時序的海量數(shù)據(jù)處理,全局skyline計算。
背景技術:
隨著互聯(lián)網、物聯(lián)網的飛速發(fā)展以及社交網絡、云計算等技術的廣泛應用,海量數(shù)據(jù)技術得到了飛速發(fā)展。海量的數(shù)據(jù)被采集和記錄,并用來進行科學、工程和商業(yè)等領域的研究及分析等工作。據(jù)最新研究表明:全球互聯(lián)網、移動互聯(lián)網、GPS網絡等數(shù)據(jù)源每天要產生超過2.5×1018字節(jié)的海量數(shù)據(jù),并且這些海量數(shù)據(jù)的來源廣泛。互聯(lián)網上的數(shù)據(jù)每兩年翻一翻,物聯(lián)網、移動互聯(lián)網、車聯(lián)網以及各種的傳感器網絡無時無刻不在增加海量數(shù)據(jù)。然而,海量數(shù)據(jù)的爆炸式增長,使得傳統(tǒng)的單機數(shù)據(jù)分析處理技術已經越來越不適應當前密集型數(shù)據(jù)分析和處理的需求。為了節(jié)約成本,為大規(guī)模數(shù)據(jù)的存儲和計算提供分布式處理框架,云計算、大數(shù)據(jù)、云存儲、MapReduce、BigTable等相關技術被提出。
正如思科公司所預測,2016年全球將有79%的數(shù)據(jù)中心托管著云計算平臺。海量數(shù)據(jù)存儲在這些云計算平臺中,由于數(shù)據(jù)量過大,使得這些海量數(shù)據(jù)處理技術對軟硬件要求非常高、系統(tǒng)資源占用非常多,帶來了算法效率低下的問題。眾多學者們依托云計算平臺提出很多新的高效的海量數(shù)據(jù)處理算法,Skyline算法是其中的一種高效的數(shù)據(jù)查詢和提取方法,可以快速地從海量數(shù)據(jù)中抽取出關鍵的信息,大大減少數(shù)據(jù)量,降低海量數(shù)據(jù)處理中對軟硬件的要求,提高數(shù)據(jù)處理的效率。Skyline算法作為一種有效的數(shù)據(jù)提取與處理方法,主要考慮的是如何從龐大的數(shù)據(jù)集中找出人們最感興趣或最關心的信息,在海量數(shù)據(jù)分析處理方面具有廣泛的應用,如多目標決策、商店尋址、環(huán)境監(jiān)控、圖像檢索、個性化推薦、數(shù)據(jù)挖掘等。Skyline查詢可以為用戶在決策過程中提供多屬性的評判原則,評價函數(shù)也可以根據(jù)不同的應用采用不同的測量方法(例如歐幾里德距離、空間距離等)以提升用戶的體驗質量;對海量商務交易數(shù)據(jù)記錄,Skyline計算能幫助市場分析人員進行價格及市場策略的定位;在環(huán)境監(jiān)控中,通過分析傳感器網絡積累起來的海量數(shù)據(jù),可以分析評價出潛在的自然災害與風險。此外,Skyline查詢也被應用到圖像檢索,商店尋址等領域。
Skyline算法變種多,且變種的應用場景更廣泛。其變種具有各自的特點和面臨的問題,現(xiàn)有的基于MapReduce的Skyline算法多數(shù)是靜態(tài)Skyline算法,并不能通用和解決Skyline變種問題。因此基于MapReduce的Skyline算法有待進一步研究和擴展。這些變種算法除了MapReduce化急需解決之外,還面臨著一些自身問題有待解決,如子空間Skyline能很好的解決高維數(shù)據(jù)帶來的計算量大問題,但其返回的結果集過于龐大且大部分結果并不是用戶所需要的,這一特點并不適合當今移動互聯(lián)網終端查詢應用潮流;在動態(tài)Skyline中被查詢對象的屬性值隨查詢對象的變化而變化,計算量大并且對算法的實時性、響應時間和用戶體驗要求高。目前存在的基于MapReduce的Skyline算法所采用的分區(qū)方式或索引方式都沒法適應這些要求;在度量空間Skyline中存在著度量空間建模問題及查詢復雜度高的問題,影響了查詢精度并加大了計算量。由于動態(tài)Skyline中所有屬性值隨著查詢點變化而變化,在處理海量數(shù)據(jù)時會遇到計算量大、實時性要求高的問題。例如手機用戶的動態(tài)Skyline查詢對實時性要求極高,而大數(shù)據(jù)時代手機終端產生的數(shù)據(jù)又成為數(shù)據(jù)增長的主要來源。針對這一趨勢,集中環(huán)境下的動態(tài)Skyline算法無法勝任海量數(shù)據(jù)處理;目前存在的基于MapReduce的Skyline算法普遍采用的分區(qū)方式也不適應這種要求。在文獻中提出的利用MapReduce實現(xiàn)的并行反Skyline的動態(tài)查詢依賴于四叉樹(rsky-quadtree)分區(qū),它的缺點在于針對每個查詢點q,都需要額外的步驟將每個數(shù)據(jù)點的坐標p轉換成p′,而四叉樹也需要跟著重新建立。當面臨大數(shù)據(jù)的情況時,坐標轉換及四叉樹的重新建立都會帶來難以承受的開銷。為了解決以上問題,提出了Skyline格和全局Skyline格的定義,并在這些定義基礎上提出了一種基于空間時序數(shù)據(jù)流應用的動態(tài)Skyline查詢算法。它的主要思想是按照時間窗口為單位將動態(tài)變化數(shù)據(jù)空間分割成帶有時間戳的Skyline非均勻格,即建立一個基于時間排序的倒排網格索引結構。當查詢點到來時,先判定當前查詢時間預測查詢結束時間(可以根據(jù)系統(tǒng)平均執(zhí)行時間進行預估或抽樣預估,用執(zhí)行時間窗口下限來表示),再利用輪詢的方式計算結束時刻查詢點周邊四個象限中Skyline格的支配關系,根據(jù)支配關系比較得到全局Skyline格,這些全局Skyline格中的數(shù)據(jù)組成了候選集合并用于下一步的動態(tài)Skyline計算。這種方法不但能有效地進行實時剪枝,節(jié)省了大量的不必要計算,而且還能根據(jù)時間變化進行動態(tài)調整,進而加快了動態(tài)Skyline的查詢,且結果相對更為精確;為了驗證本專利所提算法,最后設計了系統(tǒng)原型并將其應用到網絡監(jiān)控異常情況的檢測中。
現(xiàn)有的基于MapReduce的Skyline算法在并行環(huán)境下,對基于時間的子空間Skyline查詢及時序數(shù)據(jù)動態(tài)Skyline查詢的支持少。例如,有些基于MapReduce的Skyline算法修改了Hadoop框架,但仍然存在著可擴展性差、普適性差的問題。之前我們研究設計的基于MapReduce的動態(tài)Skyline查詢方法,只能進行離線批處理非實時的數(shù)據(jù),不能很好地用于實時的數(shù)據(jù)查詢。這些方法已經不適用于如今爆炸性增長的數(shù)據(jù)查詢,基于該出發(fā)點,我們設計并實現(xiàn)了該發(fā)明。
技術實現(xiàn)要素:
根據(jù)上述背景技術中存在的缺陷和不足,本發(fā)明提供了云計算環(huán)境下基于空間時序數(shù)據(jù)流應用的skyline查詢系統(tǒng),以改進現(xiàn)有的數(shù)據(jù)流的動態(tài)skyline查詢方法的缺陷,用以提高準確度和處理效率以及提升用戶體驗。
一種基于空間時序數(shù)據(jù)流應用的Skyline查詢方法,包括如下步驟:
S1?;诳臻g時序劃分,按時間窗口將連續(xù)的時間序列分割成若干時間片段;
S2。對于每一個時間片段,對其生成網格倒排索引;
S3。將時刻查詢點映射到相應的Skyline網格當中,然后使用全局Skyline格計算方法得到全局Skyline格作為侯選集,接著對侯選集里的網絡節(jié)點數(shù)據(jù)按時間序列作動態(tài)Skyline查詢,計算得到有效的全局Skyline結果。
進一步的,給定一個對象集合P,每個數(shù)據(jù)點pk的時間屬性值(t)在一個有界的區(qū)間[Tmin,Tmax],構造一個均勻的劃分{t0,...,tB},ti的定義ti=Tmin+l×i,l=(Tmax-Tmin)/B,i=0,...,B
形成一個時間片段集合{b0,...,bB-1},每個時間片bi=[ti,ti+1),固定長度為l,B為有界區(qū)間均勻劃分的個數(shù);每個點的時間屬性值為t映射到時間片bs(t)∈{b0,...,bB-1},其中s(t)的定義如下:
進一步的,對于每一個時間片段而言,其網格倒排索引的生成過程如下:假設一個給定的d維空間對象集合P={p1,...,pn},P中每個數(shù)據(jù)點pk即pk∈P都有d維屬性{pk.x1,...,pk.xd},d維數(shù)據(jù)空間被劃分等寬的網格,每個單元格的寬度為(δ1,...,δd);單元格的寬度要根據(jù)每維取值情況而定,使得映射后的數(shù)據(jù)點能均勻地分布其中,掃描同一時間片內的所有點,點pk映射成網格坐標坐標映射如
進一步的,步驟S3中,全局Skyline格計算方法是:查詢點q被映射到相應的網格單元cq當中,整個網格區(qū)域就被分成了影響區(qū)域和被支配區(qū)域,影響區(qū)域包含cq周邊非空的格以及與網格cq處于同一水平或垂直線上的網格;被支配區(qū)域是指被影響區(qū)域支配的區(qū)域,對于影響區(qū)域的查找,采用象限輪詢法,通過逐步擴展,計算查詢點周邊各個象限中非空Skyline格的支配關系,根據(jù)支配關系比較得到全局Skyline格和格中的數(shù)據(jù)點。
進一步的,Skyline格支配方法如下:給定查詢點q,d維空間上Skyline格集合C中任意兩個非空Skyline格ci,cj,ci<q cj同時滿足下面條件:
①
②
③
則Skyline格ci關于q支配Skyline格cj。
進一步的,所述全局Skyline格為,給定格集合C,C的全局Skyline格是所有不被其他格全局支配的格集合,其定義為:
進一步的,建立索引時,使用MapReduce處理流程,同時啟動多個Map對流數(shù)據(jù)進行讀取,每個Map讀取不同的HDFS數(shù)據(jù)片段,生成<key,value>數(shù)據(jù)對,此處的key為時空索引,value為hashmap數(shù)據(jù)結構,里面存儲著根據(jù)劃分得到的相應數(shù)據(jù)點;每個Map得到的中間數(shù)據(jù),是部分數(shù)據(jù)的子索引,并且根據(jù)key完成排序,再調用一個Reduce完成索引的歸并生成。
進一步的,空間時序劃分時,設定一個監(jiān)控時間范圍,并由此設定一個閾值,如果查詢時刻超出了指定的時間范圍,則需要跨多個時間窗,此時對需要跨的時間窗大小進行評估,如果時間窗大小超過時間閾值,則直接查詢失敗。
有益效果:該空間時序數(shù)據(jù)流系統(tǒng)會通過相關技術在面對大量信息時,按用戶要求進行準確高效的處理,然后上傳到云端服務器進行分析,并把最終結論反饋給用戶。
附圖說明
圖1基于時間序列的劃分;
圖2基于時間序列的倒排索引結構;
圖3基于網格的倒排索引創(chuàng)建過程;
圖4 MapReduce生成索引示例;
圖5全局Skyline格。
具體實施方式
實施例1:
基于空間時序數(shù)據(jù)流應用的skyline查詢系統(tǒng)。發(fā)明步驟如下:
S1:基于空間時序劃分:
我們將按時間窗口將連續(xù)的時間序列分割成若干時間片段。如圖1所示,方法如下:給定一個對象集合P,每個數(shù)據(jù)點pk的時間屬性值(t)在一個有界的區(qū)間[Tmin,Tmax],構造一個均勻的劃分{t0,...,tB},ti的定義:
ti=Tmin+l×i,l=(Tmax-Tmin)/B,i=0,...,B;
以形成一個時間片段集合{b0,...,bB-1},每個時間片bi=[ti,ti+1),固定長度為l。每個點的時間屬性值為t映射到時間片bs(t)∈{b0,...,bB-1},其中s(t)的定義如B為有界區(qū)間均勻劃分的個數(shù)。
其中不同粒度的區(qū)間固定長度(l)的值要根據(jù)實際應用情況而定。為了減少計算量,我們設定一個監(jiān)控時間范圍并設定一個閾值,如果查詢超出了指定的時間范圍,則需要跨多個時間窗,此時對需要跨的時間窗大小進行評估,如果超過閾值,在查詢時則直接查詢失敗。由于我們引入了時間窗口,所以我們需要進一步明確監(jiān)控范圍,如果時間窗口過小,我們的數(shù)據(jù)量積累不大的情況,我們將采用批量流緩存的方法,將數(shù)據(jù)流進行緩存再批量定期發(fā)送。如果時間窗口大,且數(shù)據(jù)量比較大的情況,我們將數(shù)據(jù)流按窗口進行拆分,拆分的粒度由實際應用場景決定。這樣,我們就對監(jiān)控范圍進行上限和下限的限定,如果超出了監(jiān)控范圍,則做查詢失敗處理。這一處理方法也比較符合實際查詢應用需求,比如說因為車行過快,已離開了某一應用區(qū)域就沒有必要繼續(xù)進行查詢了。我們實驗測試結果表明,按抽樣分布概率來計算,應用效果相對較好。
S2:其次再對時間片段建立網格倒排索引:
在該步驟中,設計一種基于時間序列的倒排網格索引的數(shù)據(jù)結構如圖2所示。對于每一個時間片段而言,先確定時間,并估算結束時刻(即執(zhí)行時間窗口的下限),并在此處對其網格倒排索引,索引的生成過程如圖3所示。假設一個給定的d維空間對象集合P={p1,...,pn},P中每個數(shù)據(jù)點pk即pk∈P都有d維屬性{pk.x1,...,pk.xd}。d維數(shù)據(jù)空間被劃分等寬的網格,每個單元格的寬度為(δ1,...,δd)。單元格的寬度要根據(jù)每維取值情況而定,盡量使得映射后的數(shù)據(jù)點能均勻地分布其中。掃描同一時間片內的所有點,點pk映射成網格坐標坐標映射如公式:
在步驟S1和步驟S2中,基于時序劃分和生成網格索引兩個過程利用MapReduce處理流程,同時啟動多個Map對流數(shù)據(jù)進行讀取,每個Map讀取不同的HDFS數(shù)據(jù)片段生成<key,value>這樣的數(shù)據(jù)對,此處的key為時空索引,value為hashmap數(shù)據(jù)結構,里面存儲著根據(jù)劃分得到的相應數(shù)據(jù)點。每個Map得到的中間數(shù)據(jù),也就是代表部分數(shù)據(jù)的子索引,并且自動根據(jù)key完成排序。為了保證數(shù)據(jù)完整性和一致性,最后調用一個Reduce完成索引的歸并生成?;跁r序倒排索引的生成是一個預處理過程,預先生成可供后續(xù)查詢使用并且不占用查詢時間,是一種有效的數(shù)據(jù)管理模式。同時MapReduce對大數(shù)據(jù)并行處理的能力也能很好的完成此項工作。
利用Spark流系統(tǒng),同時啟動多個Map對時間的流數(shù)據(jù)進行讀取,每個Map讀取不同的HDFS數(shù)據(jù)片段生成<key,value>這樣的數(shù)據(jù)對,此處的key為時空索引,value為hashmap數(shù)據(jù)結構,里面存儲著根據(jù)劃分得到的相應數(shù)據(jù)點。每個Map得到如圖4所示的時間片個數(shù)B設置為n,網格寬度為15的中間數(shù)據(jù),也就是代表部分數(shù)據(jù)的子索引,并且自動根據(jù)key完成排序。
相對之前我們的工作,此處有兩個優(yōu)化,一個是采用了執(zhí)行時間結束的時刻進行結果查詢,這樣更有代表性。比如說一個正在公路上快速運行的車輛,如果啟動查詢請求,應該按查詢結束的時刻點進行查詢結果過濾,這樣結果將更為精確與符合實際情況。另一個優(yōu)化是我們采用了Spark流處理系統(tǒng),將Map計算的結果以流的形式,進行分布緩存,并不是寫處HDFS中,這樣可以極大的加速計算速度。
S3:全局Skyline格的計算
當面對海量數(shù)據(jù)時,為了減少計算量,我們提出了一種粗粒度全局Skyline格的計算方法,將經過輪詢計算之后的全局Skyline格中的數(shù)據(jù)作為候選集。相對于原始數(shù)據(jù)集,候選數(shù)據(jù)集中數(shù)據(jù)量大大減少,從而減少了下一步動態(tài)Skyline計算時支配關系的比較,這個過程類似于剪枝。下面給出了Skyline格支配關系的定義和全局Skyline格的定義,
定義(Skyline格支配):給定查詢點q,d維空間上Skyline格集合C中任意兩個非空Skyline格ci,cj,則Skyline格ci關于q支配Skyline格cj即ci<q cj同時滿足下面條件:
①
②
③
定義(全局Skyline格):給定格集合C,C的全局Skyline格(GSC)是所有不被其他格全局支配的格集合
動態(tài)Skyline查詢的開銷和數(shù)據(jù)集大小有直接關系,尤其是對于海量數(shù)據(jù)它們之間支配關系的實時判斷開銷很大,并且每次查詢都需要重新計算。全局Skyline格的概念能很好的實現(xiàn)粗粒度的剪枝,在此基礎上得到的候選集,是實現(xiàn)下一步動態(tài)Skyline查詢計算的基礎。下面將詳細介紹粗粒度剪枝的過程。
如圖5所示,查詢點q被映射到相應的網格單元cq當中,整個網格區(qū)域就被分成了影響區(qū)域和被支配區(qū)域。影響區(qū)域包含cq周邊非空的格c1,c2,c3,...,c8,以及與網格cq處于同一水平或垂直線上的網格,如c9格;被支配區(qū)域是指被影響區(qū)域支配的區(qū)域,如在第二象限中的c10格。對于影響區(qū)域的查找,我們采用的是2d個象限輪詢法(d為數(shù)據(jù)集維數(shù)),通過逐步擴展的方法計算查詢點周邊各個象限中非空Skyline格的支配關系,根據(jù)支配關系比較得到全局Skyline格和格中的數(shù)據(jù)點,這樣無需遍歷全部數(shù)據(jù)便能獲得影響區(qū)域中的數(shù)據(jù)點。相對于原始數(shù)據(jù)的全遍歷,數(shù)量甚微的Skyline格的遍歷大大減少了計算開銷。
在該步驟中,將全局Skyline格應用到網絡監(jiān)控的數(shù)據(jù)中,首先將時刻查詢點q被映射到相應的Skyline網格當中,然后利用全局Skyline格計算方法得到全局Skyline格作為侯選集,接著對侯選集里的網絡節(jié)點數(shù)據(jù)做按時間序列的動態(tài)Skyline查詢,最終計算得到有效的全局Skyline結果,即網絡監(jiān)控中接近查詢閾值的節(jié)點。
實施例2:
本實施例涉及實施例1中所述的基于空間時序數(shù)據(jù)流應用的Skyline查詢方法的具體應用:
基于空間時序數(shù)據(jù)流應用的skyline查詢系統(tǒng)用于移動醫(yī)療的呼叫,其中的云中心服務系統(tǒng)提供空間網格剪枝策略及持續(xù)網絡醫(yī)療數(shù)據(jù)監(jiān)控來執(zhí)行動態(tài)Skyline與全局Skyline算法,輸入各屬性的閾值并且按執(zhí)行時間結束的時刻發(fā)送查詢結果,來完善醫(yī)院的屬性。即該系統(tǒng)執(zhí)行步驟如下:
S1.云中心服務系統(tǒng)以分布式動態(tài)Skyline與全局Skyline算法提供模塊索引數(shù)據(jù)結構,同時我們利用Spark流系統(tǒng),啟動多個Map對時間的流數(shù)據(jù)進行讀取,每個Map讀取不同的HDFS數(shù)據(jù)片段生成<key,value>這樣的數(shù)據(jù)對,此處的key為時空索引,value為hashmap數(shù)據(jù)結構,里面存儲著根據(jù)劃分得到的相應數(shù)據(jù)點,來對大規(guī)模醫(yī)療機構數(shù)據(jù)進行篩選。
S2.智能移動客戶端在終端設備上首先通過GPS進行定位,確定查詢用戶所在的空間與個性化需求,。然后運行醫(yī)療呼叫程序,通過云端服務器進行通信,發(fā)送查詢指令,并與云中心服務系統(tǒng)反饋回來的空間過濾結果與持續(xù)空間監(jiān)控數(shù)據(jù)進行用戶參與下的信息交互。
實施例3:
實施例1中的基于空間時序數(shù)據(jù)流應用的skyline查詢方法用于流行病檢測,首先我們將按時間窗口將監(jiān)測流行病的時間序列分割成若干時間片段,然后對每個時間片段的數(shù)據(jù)進行Skyline靜態(tài)查詢。對出現(xiàn)流行病的時間對象集合P,每個數(shù)據(jù)點pk的時間屬性值(t)在一個有界的區(qū)間[Tmin,Tmax],構造一個均勻的劃分{t0,...,tB},ti的定義ti=Tmin+l×i,l=(Tmax-Tmin)/B,i=0,...,B。形成一個時間片段集合{b0,...,bB-1},每個時間片bi=[ti,ti+1),固定長度為l。每個點的時間屬性值為t映射到時間片bs(t)∈{b0,...,bB-1},其中s(t)的如其中不同粒度的區(qū)間(l)的值要根據(jù)實際監(jiān)測的時間而定。同時為了減少計算量,我們設定一個監(jiān)控流行病的時間范圍并設定一個閾值,如果查詢超出了指定的時間范圍,則需要跨多個時間窗,此時對需要跨的時間窗大小進行評估,如果超過閾值,則直接詢失敗。我們通過網絡監(jiān)控對網絡節(jié)點的狀態(tài)進行實時的動態(tài)監(jiān)控,每個節(jié)點不斷地向服務器發(fā)送執(zhí)行時間結束的時刻,這樣結果將更為精確與符合實際情況。
實施例4:
實施例1中的基于空間時序數(shù)據(jù)流應用的skyline查詢方法用于醫(yī)療歷史數(shù)據(jù)分析。當醫(yī)療歷史數(shù)據(jù)集給定,靜態(tài)Skyline結果就已經能確定下來了。如果不斷有實時性的醫(yī)療數(shù)據(jù)的加入,且指定一個查詢請求,考慮查詢數(shù)據(jù)集中對象間相對于查詢請求點的支配關系時,那么這樣的Skyline查詢結果即是不確定的,即對于動態(tài)Skyline查詢根據(jù)查詢參考對象的不同,查詢結果也不同,如果考慮到用戶的查詢可能變化時,查詢的醫(yī)療歷史數(shù)據(jù)也會發(fā)生變化,且存在支配關系時,這樣的多因素查詢就是Skyline查詢,如果積累的歷史醫(yī)療的數(shù)據(jù),尤其是多維數(shù)據(jù)信息如:病情、病因、患病時間、治療情況等信息非常大時,用單計算節(jié)點無法處理時,就得使用云計算技術來并行處理。DynamicSkylineQuery:一個d維數(shù)據(jù)空間S={s1,s2,...,sd},P是在數(shù)據(jù)空間S上的數(shù)據(jù)集合即P={p1,p2,...,pn},一個查詢對象ref根據(jù)動態(tài)支配關系對向量按時間進行動態(tài)支配的計算,計算得到Skyline的結果集。數(shù)據(jù)對象b動態(tài)支配a,當且僅當b在所有屬性上都不比a距離ref遠,且至少有一維比a近。如果查詢點是按時間動態(tài)變化的,那么索引與查詢操作也需要動態(tài)按時間流順序進行處理。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明披露的技術范圍內,根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同換或改變,都應涵蓋在本發(fā)明的保護范圍之內。