用于興趣驅(qū)動的商業(yè)智能系統(tǒng)中的興趣驅(qū)動的數(shù)據(jù)共享的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及商業(yè)智能系統(tǒng),具體而言,涉及利用興趣驅(qū)動的商業(yè)智能系統(tǒng)生成的數(shù)據(jù)的共享。
【背景技術(shù)】
[0002]商業(yè)智能指用于識別、處理和分析商業(yè)數(shù)據(jù)的技術(shù)。商業(yè)智能系統(tǒng)可以提供商業(yè)操作的歷史、當(dāng)前和預(yù)測視圖。依賴于圍繞數(shù)據(jù)的上下文和知識,在商業(yè)操作過程中生成的包括從商業(yè)方法生成的數(shù)據(jù)以及由員工和消費者創(chuàng)建的附加數(shù)據(jù)的商業(yè)數(shù)據(jù)可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或者非結(jié)構(gòu)化的。在許多情況下,從商業(yè)方法生成的數(shù)據(jù)是結(jié)構(gòu)化的,而從消費者與企業(yè)交互生成的數(shù)據(jù)是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。由于在商業(yè)操作過程中一般生成的數(shù)據(jù)量,商業(yè)智能系統(tǒng)通常構(gòu)建在數(shù)據(jù)倉庫之上并且利用數(shù)據(jù)倉庫。
[0003]數(shù)據(jù)倉庫被用來存儲、分析和報告數(shù)據(jù),例如,商業(yè)數(shù)據(jù)。數(shù)據(jù)倉庫以生產(chǎn)和成本有效的方式利用數(shù)據(jù)庫存儲、分析和利用數(shù)據(jù)。各種數(shù)據(jù)庫是常用的,諸如關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),諸如來自位于加州Santa Clara的Oracle公司的Oracle數(shù)據(jù)庫,或者大規(guī)模并行處理分析數(shù)據(jù)庫,諸如來自位于俄亥俄州Miamisburg的Teradata公司的Teradata。商業(yè)智能(BI)和分析工具,諸如來自位于North Carolina的Cary的SAS軟件研宄院的SAS,被用來訪問存儲在數(shù)據(jù)庫中的數(shù)據(jù)并提供讓開發(fā)人員生成報告、管理和挖掘所存儲的數(shù)據(jù)、執(zhí)行統(tǒng)計分析、商業(yè)計劃、預(yù)測和其它商業(yè)功能的接口。大部分利用BI工具創(chuàng)建的報告是由數(shù)據(jù)庫管理員創(chuàng)建的,并且底層數(shù)據(jù)庫可以被調(diào)整,用于預(yù)期的訪問模式。數(shù)據(jù)庫管理員可以對具體的關(guān)系加索引、預(yù)先融合(aggregate)或者約束訪問,允許自組織(ad-hoc)報告和探索。
[0004]雪花模式(snowflake schema)是RDBMS中表的布置,其中中心事實表連接到一個或多個維度表。雪花模式中的維度表被規(guī)格化到多個相關(guān)的表中-對于復(fù)雜的模式,將在維度表之間存在許多關(guān)系,從而導(dǎo)致看起來像雪花的模式。星形模式(star schema)是雪花模式的特殊形式,其中事實表引用一個或多個維度表。但是,在星形模式中,維度表被規(guī)格化到單個表中-事實表是中心并且維度表是星的“點”。
[0005]在線事務(wù)處理(OLTP)系統(tǒng)被設(shè)計為方便并管理基于事務(wù)的應(yīng)用。OLTP可以指各種事務(wù),諸如數(shù)據(jù)庫管理系統(tǒng)事務(wù)、商業(yè)或商務(wù)事務(wù)。OLTP系統(tǒng)通常對用戶請求具有低延遲響應(yīng)。
[0006]在線分析處理(OLAP),OLTP的修改,是回答多維分析查詢的方法。OLAP工具使用戶能夠利用如下三個基本的分析操作分析多維數(shù)據(jù):合并(融合數(shù)據(jù))、向下鉆取(導(dǎo)航數(shù)據(jù)的細(xì)節(jié)),以及切割(從多個角度取得具體的數(shù)據(jù)和視圖集合)。任何OLAP系統(tǒng)的基礎(chǔ)都是OLAP立方體。OLAP立方體是允許利用從多個角度操縱和分析數(shù)據(jù)的能力對數(shù)據(jù)進(jìn)行快速分析的數(shù)據(jù)結(jié)構(gòu)。OLAP立方體通常由通過維度分類的被稱為量度的數(shù)值事實組成。這些事實和量度通常是根據(jù)RDBMS中表的星形模式或雪花模式創(chuàng)建的。
【發(fā)明內(nèi)容】
[0007]舉例說明了根據(jù)本發(fā)明實施例的用于興趣驅(qū)動的商業(yè)智能系統(tǒng)中的興趣驅(qū)動的數(shù)據(jù)共享的系統(tǒng)和方法。在一種實施例中,興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)包括處理器,連接到處理器并且配置為存儲興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用的存儲器,配置為存儲原始數(shù)據(jù)的原始數(shù)據(jù)存儲器,其中原始數(shù)據(jù)的一部分包括非結(jié)構(gòu)化的數(shù)據(jù),配置為存儲描述原始數(shù)據(jù)的數(shù)據(jù)描述元數(shù)據(jù)的元數(shù)據(jù)存儲器,以及配置為存儲先前生成的報告的報告存儲器,該先前生成的報告包括先前的報告數(shù)據(jù)和先前的報告數(shù)據(jù)需求的,其中,興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為:接收報告規(guī)范,其中該報告規(guī)范包括至少一個報告數(shù)據(jù)需求;利用先前的報告數(shù)據(jù)需求和所述至少一個報告數(shù)據(jù)需求來找出在報告存儲器中存儲的至少一個先前生成的報告;利用數(shù)據(jù)描述元數(shù)據(jù)和所述至少一個報告數(shù)據(jù)需求來識別在原始數(shù)據(jù)存儲器中存儲的原始數(shù)據(jù);利用所找出的先前生成的報告和所識別出的原始數(shù)據(jù)來計算冗余數(shù)據(jù)元數(shù)據(jù),其中該冗余數(shù)據(jù)元數(shù)據(jù)標(biāo)識出所識別出的原始數(shù)據(jù)與所找出的先前生成的報告中先前的報告數(shù)據(jù)共用的數(shù)據(jù);確定修改后的報告數(shù)據(jù)需求,其中該修改后的報告數(shù)據(jù)需求排除由冗余數(shù)據(jù)元數(shù)據(jù)標(biāo)識出的共用數(shù)據(jù);利用修改后的報告數(shù)據(jù)需求從原始數(shù)據(jù)存儲器取回更新的源數(shù)據(jù);以及基于更新的源數(shù)據(jù)和包含在所述至少一個先前生成的報告當(dāng)中的至少一個中的先前的報告數(shù)據(jù)來生成報告數(shù)據(jù)。
[0008]在本發(fā)明的另一種實施例中,興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為利用興趣驅(qū)動的數(shù)據(jù)管道(pipeline)來生成報告數(shù)據(jù),其中該興趣驅(qū)動的數(shù)據(jù)管道被配置為基于報告規(guī)范來融合更新的數(shù)據(jù)和先前的報告數(shù)據(jù)。
[0009]在本發(fā)明的附加實施例中,原始數(shù)據(jù)存儲器與興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)分開并遠(yuǎn)離,并且興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為生成數(shù)據(jù)源任務(wù),該數(shù)據(jù)源任務(wù)被配置為從原始數(shù)據(jù)存儲器取回更新的源數(shù)據(jù)。
[0010]在本發(fā)明的還有一種附加實施例中,數(shù)據(jù)源任務(wù)把原始數(shù)據(jù)存儲器配置為基于原始數(shù)據(jù)來生成融合數(shù)據(jù),其中原始數(shù)據(jù)的一部分包括非結(jié)構(gòu)化的數(shù)據(jù)。
[0011]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)還包括數(shù)據(jù)維度目錄,其中該數(shù)據(jù)維度目錄包括與先前生成的報告關(guān)聯(lián)的多個數(shù)據(jù)維度,其中所述至少一個報告數(shù)據(jù)需求包括至少一個報告數(shù)據(jù)維度,并且其中興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為基于數(shù)據(jù)維度目錄和所述至少一個報告數(shù)據(jù)需求來計算冗余元數(shù)據(jù)。
[0012]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為基于所生成的報告數(shù)據(jù)來更新數(shù)據(jù)維度目錄。
[0013]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為利用修改后的報告數(shù)據(jù)需求來從原始數(shù)據(jù)存儲器取回更新的源數(shù)據(jù),其中該更新的源數(shù)據(jù)滿足修改后的報告數(shù)據(jù)需求的一部分;基于更新的源數(shù)據(jù)和包含在所述至少一個先前生成的報告當(dāng)中的至少一個中的先前的報告數(shù)據(jù)來生成部分報告數(shù)據(jù);從原始數(shù)據(jù)存儲器取回補充源數(shù)據(jù),其中補充源數(shù)據(jù)滿足修改的報告數(shù)據(jù)需求的剩余部分;以及利用部分報告數(shù)據(jù)和補充源數(shù)據(jù)來生成報告數(shù)據(jù)。
[0014]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)包括被配置為存儲融合數(shù)據(jù)的融合數(shù)據(jù)存儲器,其中更新的源數(shù)據(jù)包括融合數(shù)據(jù),并且其中興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為利用融合數(shù)據(jù)存儲器存儲更新的源數(shù)據(jù)。
[0015]在本發(fā)明的還有另一種附加實施例中,所述至少一個報告數(shù)據(jù)需求當(dāng)中的至少一個包括標(biāo)識出至少一個數(shù)據(jù)源的數(shù)據(jù)源元數(shù)據(jù),其中所述至少一個數(shù)據(jù)源被配置為存儲原始數(shù)據(jù)并且興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為從所述至少一個數(shù)據(jù)源取回更新的源數(shù)據(jù)。
[0016]在本發(fā)明的還有另一種附加實施例中,報告數(shù)據(jù)存儲器與興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)分開并且興趣驅(qū)動的數(shù)據(jù)共享應(yīng)用把處理器配置為:生成數(shù)據(jù)映射元數(shù)據(jù),其中該數(shù)據(jù)映射元數(shù)據(jù)利用數(shù)據(jù)描述元數(shù)據(jù)來標(biāo)識出先前的報告數(shù)據(jù)需求與所接收的報告規(guī)范之間的對應(yīng)關(guān)系;基于數(shù)據(jù)映射元數(shù)據(jù),利用所找出的先前生成的報告和所識別出的原始數(shù)據(jù)來計算冗余數(shù)據(jù)元數(shù)據(jù);以及基于數(shù)據(jù)映射元數(shù)據(jù),基于更新的源數(shù)據(jù)和包含在所述至少一個先前生成的報告當(dāng)中的至少一個中的先前的報告數(shù)據(jù)來生成報告數(shù)據(jù)。
[0017]本發(fā)明還有另一種附加實施例包括用于興趣驅(qū)動的數(shù)據(jù)共享的方法,包括:利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來接收報告規(guī)范,其中該報告規(guī)范包括至少一個報告數(shù)據(jù)需求;利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),基于先前的報告數(shù)據(jù)需求和所述至少一個報告數(shù)據(jù)需求來找出在報告存儲器中存儲的至少一個先前生成的報告;利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),基于數(shù)據(jù)描述元數(shù)據(jù)和至少一個報告數(shù)據(jù)需求來識別在原始數(shù)據(jù)存儲器中存儲的原始數(shù)據(jù);利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),基于所找出的先前生成的報告和所識別出的原始數(shù)據(jù)來計算冗余數(shù)據(jù)元數(shù)據(jù),其中該冗余數(shù)據(jù)元數(shù)據(jù)標(biāo)識出所識別出的原始數(shù)據(jù)與所找出的先前生成的報告中先前的報告數(shù)據(jù)共用的數(shù)據(jù);利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),確定修改后的報告數(shù)據(jù)需求,其中該修改后的報告數(shù)據(jù)需求排除由冗余數(shù)據(jù)元數(shù)據(jù)標(biāo)識出的共用數(shù)據(jù);利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),基于修改后的報告數(shù)據(jù)需求來取回更新的元數(shù)據(jù);以及利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng),基于更新的元數(shù)據(jù)和包含在所述至少一個先前生成的報告當(dāng)中的至少一個中的先前的報告數(shù)據(jù)來生成報告數(shù)據(jù)。
[0018]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)中的興趣驅(qū)動的數(shù)據(jù)管道來生成報告數(shù)據(jù),其中該興趣驅(qū)動的數(shù)據(jù)管道被配置為基于報告規(guī)范來融合更新的數(shù)據(jù)和先前的報告數(shù)據(jù)。
[0019]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括把興趣驅(qū)動的數(shù)據(jù)管道配置為生成數(shù)據(jù)源任務(wù),該數(shù)據(jù)源任務(wù)被配置為利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來從與興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)分開并遠(yuǎn)離的原始數(shù)據(jù)存儲系統(tǒng)取回更新的源數(shù)據(jù)。
[0020]在本發(fā)明的還有另一種附加實施例中,數(shù)據(jù)源任務(wù)把原始數(shù)據(jù)存儲器配置為基于原始數(shù)據(jù)來生成融合數(shù)據(jù),其中原始數(shù)據(jù)的一部分包括非結(jié)構(gòu)化的數(shù)據(jù)。
[0021]在本發(fā)明的還有另一種實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來基于數(shù)據(jù)維度目錄和所述至少一個報告數(shù)據(jù)需求計算冗余元數(shù)據(jù),其中該數(shù)據(jù)維度目錄包括與先前生成的報告關(guān)聯(lián)的多個數(shù)據(jù)維度并且所述至少一個報告數(shù)據(jù)需求包括至少一個報告數(shù)據(jù)維度。
[0022]在本發(fā)明的還有另一種實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來基于所生成的報告數(shù)據(jù)更新數(shù)據(jù)維度目錄。
[0023]在本發(fā)明的還有另一種實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來基于修改后的報告數(shù)據(jù)需求取回更新的源數(shù)據(jù),其中更新的源數(shù)據(jù)滿足修改后的報告數(shù)據(jù)需求的一部分;利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來基于更新的源數(shù)據(jù)和包含在所述至少一個先前生成的報告當(dāng)中的至少一個中的先前的報告數(shù)據(jù)生成部分報告數(shù)據(jù);利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來取回補充源數(shù)據(jù),其中該補充源數(shù)據(jù)滿足修改后的報告數(shù)據(jù)需求的剩余部分;以及利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來基于部分報告數(shù)據(jù)和補充源數(shù)據(jù)生成報告數(shù)據(jù)。
[0024]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的數(shù)據(jù)共享服務(wù)器系統(tǒng)來存儲更新的源數(shù)據(jù)。
[0025]在本發(fā)明的還有另一種附加實施例中,興趣驅(qū)動的數(shù)據(jù)共享還包括利用興趣驅(qū)動的