用于檢測(cè)和描述可視化上的可視特性的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種用于檢測(cè)和描述可視化上的可視特性的方法和系統(tǒng)。本發(fā)明的各實(shí)施例涉及檢測(cè)和描述可視化上的數(shù)據(jù)集的可視特性。檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性。所述可視特性包括潛在數(shù)據(jù)集群和趨勢(shì)。使用數(shù)據(jù)空間表征這些可視特性。在可視化上覆蓋所表征的檢測(cè)的特性以便支持交互并探索所述數(shù)據(jù)??鐑蓚€(gè)或更多集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。
【專利說(shuō)明】用于檢測(cè)和描述可視化上的可視特性的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)集中的數(shù)據(jù)特性的分析和可視化。更具體地說(shuō),在視圖空間內(nèi)的數(shù)據(jù)集中檢測(cè)可視特性,描述和標(biāo)識(shí)可視特性的語(yǔ)義,以及支持與所描述的可視特性的交互以便指導(dǎo)數(shù)據(jù)集的開(kāi)發(fā)和理解。
【背景技術(shù)】
[0002]信息可視化是一種越來(lái)越重要的工具,決策者可隨意使用它將數(shù)據(jù)變成消費(fèi)品。良好的可視化揭示數(shù)據(jù)中的結(jié)構(gòu)和模式,并且便于探索關(guān)系。探索性可視化的挑戰(zhàn)是表示復(fù)雜數(shù)據(jù)集(例如,具有多個(gè)維度的數(shù)據(jù)集)并與其交互。例如,對(duì)于高維數(shù)據(jù),可視表示可以出現(xiàn)混亂,從而導(dǎo)致交互式探索的挑戰(zhàn)。相應(yīng)地,隨著數(shù)據(jù)復(fù)雜性和多樣性的增加,此類數(shù)據(jù)的可視化和探索的挑戰(zhàn)也增加。
[0003]科學(xué)、政府和企業(yè)的發(fā)展取決于以下能力:分析和理解數(shù)據(jù),并根據(jù)從此類分析獲得的洞察進(jìn)行決策。需要針對(duì)在整個(gè)企業(yè)內(nèi)進(jìn)行任何種類決策所涉及的每個(gè)人改進(jìn)數(shù)據(jù)的可消費(fèi)性。此類解決方案應(yīng)使得各種用戶、專家和非專家等能夠處理和開(kāi)發(fā)對(duì)復(fù)雜數(shù)據(jù)集的理解。
【發(fā)明內(nèi)容】
[0004]本發(fā)明包括一種用于檢測(cè)數(shù)據(jù)集中的可視特性和交互式探索所檢測(cè)的特性的方法。
[0005]在一個(gè)方面,檢測(cè)視圖空間中的可視特性并支持與所檢測(cè)的特性的交互。具體地說(shuō),檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性。這包括標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群以及建議潛在數(shù)據(jù)集群以便探索。使用數(shù)據(jù)空間表征所檢測(cè)的可視特性,并支持與所檢測(cè)的特性的交互。所述特性的表征包括在可視化上覆蓋所表征的檢測(cè)的特性。所支持的交互包括跨兩個(gè)或更多集群探索所檢測(cè)到的特性以便比較選定數(shù)據(jù)。
[0006]在另一個(gè)方面,評(píng)估視圖空間中的可視特性,并支持與所檢測(cè)的特性的交互以便探索。更具體地說(shuō),一種方法通過(guò)標(biāo)識(shí)所述視圖空間中的一個(gè)或多個(gè)潛在數(shù)據(jù)集群,支持探索所評(píng)估的可視特性。在數(shù)據(jù)空間中表征所評(píng)估的特性,這包括定義所述潛在數(shù)據(jù)集群的特征以及覆蓋所述特征以便支持交互。更具體地說(shuō),所支持的交互包括跨兩個(gè)或更多數(shù)據(jù)集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。
[0007]在一個(gè)方面,提供一種用于檢測(cè)和覆蓋有關(guān)數(shù)據(jù)集的特性的計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀非瞬時(shí)性存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀非瞬時(shí)性存儲(chǔ)介質(zhì)中包含計(jì)算機(jī)可讀程序代碼。當(dāng)執(zhí)行時(shí),所述計(jì)算機(jī)可讀程序代碼導(dǎo)致計(jì)算機(jī)檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性。可視特性的檢測(cè)包括標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群,以及建議潛在數(shù)據(jù)集群以便探索。所述計(jì)算機(jī)程序產(chǎn)品使用數(shù)據(jù)空間表征所檢測(cè)的可視特性,以及在可視化上覆蓋所表征的檢測(cè)的特性以便支持交互。所支持的交互包括跨兩個(gè)或更多集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。[0008]在另一個(gè)方面,提供一種用于標(biāo)識(shí)和可視化數(shù)據(jù)集特性的系統(tǒng)。在所述系統(tǒng)中提供與數(shù)據(jù)存儲(chǔ)裝置通信的處理單元,所述數(shù)據(jù)存儲(chǔ)裝置具有至少一個(gè)數(shù)據(jù)集。提供與所述處理單元通信的功能單元。所述功能單元包括用于支持?jǐn)?shù)據(jù)探索的工具。所述工具包括檢測(cè)管理器、表征管理器、可視化管理器和交互管理器。所述檢測(cè)管理器用于檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性。更具體地說(shuō),所述檢測(cè)管理器標(biāo)識(shí)所述視圖空間中的一個(gè)或多個(gè)潛在數(shù)據(jù)集群,并建議所述潛在數(shù)據(jù)集群以便探索。所述表征管理器與所述檢測(cè)管理器通信,其用于使用數(shù)據(jù)空間表征所檢測(cè)的可視特性。提供與所述表征管理器通信的可視化管理器,其用于在可視化上覆蓋所表征的檢測(cè)的特性以支持交互。提供與所述可視化管理器通信的交互管理器,其支持交互,包括跨兩個(gè)或更多集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。
[0009]在另一個(gè)方面,提供一種用于探索數(shù)據(jù)集的計(jì)算機(jī)程序產(chǎn)品。所述程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有可由處理器執(zhí)行的程序代碼。所述程序代碼評(píng)估所述視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性,表征所評(píng)估的可視特性,以及覆蓋所述特性以便支持與其的交互。
[0010]從以下結(jié)合附圖的對(duì)本發(fā)明的目前優(yōu)選實(shí)施例的詳細(xì)描述,本發(fā)明的其它特性和優(yōu)點(diǎn)將變得顯而易見(jiàn)。
【專利附圖】
【附圖說(shuō)明】
[0011]在此參考的附圖形成說(shuō)明書(shū)的一部分。附圖中示出的特性僅表示本發(fā)明的某些示例性實(shí)施例,并非表示本發(fā)明的所有實(shí)施例,除非明確地另有所指。另外不進(jìn)行相反的暗示,這些附圖是:
[0012]圖1是示出用于集群檢測(cè)算法的方法的流程圖;
[0013]圖2是示出用于檢測(cè)數(shù)據(jù)集中的異常值的方法的流程圖;
[0014]圖3示出具有方向趨勢(shì)的數(shù)據(jù)集群的示意圖;
[0015]圖4示出具有徑向趨勢(shì)的數(shù)據(jù)集群的示意圖;
[0016]圖5是示出用于檢測(cè)方向趨勢(shì)的方法的流程圖;
[0017]圖6是示出用于表征集群以呈現(xiàn)分析指導(dǎo)的過(guò)程的流程圖;
[0018]圖7是示出用于計(jì)算加權(quán)總和的過(guò)程的流程圖;
[0019]圖8是示出嵌入計(jì)算機(jī)系統(tǒng)中以便支持包括可視特性的檢測(cè)和表征的數(shù)據(jù)探索的工具的框圖;
[0020]圖9是示出用于實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)的框圖。
【具體實(shí)施方式】
[0021]將很容易地理解,本發(fā)明的組件如通常在此處附圖中描述和示出的那樣,可以以各種不同的配置來(lái)布置和設(shè)計(jì)。因此,以下對(duì)本發(fā)明的裝置、系統(tǒng)和方法的實(shí)施例的詳細(xì)描述如在附圖中提供的那樣,并非旨在限制要求保護(hù)的本發(fā)明的范圍,而只是表示本發(fā)明的選定實(shí)施例。
[0022]此說(shuō)明書(shū)中對(duì)“一個(gè)選定實(shí)施例”、“一個(gè)實(shí)施例”或“實(shí)施例”的引用指結(jié)合該實(shí)施例描述的特定特性、結(jié)構(gòu)或特征被包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,此說(shuō)明書(shū)的各種位置中出現(xiàn)的短語(yǔ)“一個(gè)選定實(shí)施例”、“在一個(gè)實(shí)施例中”或“在實(shí)施例中”并非一定都指同一實(shí)施例。
[0023]此外,所述特性、結(jié)構(gòu)或特征可以以任何合適的方式組合在一個(gè)或多個(gè)實(shí)施例中。在以下描述中,提供了大量特定的詳細(xì)信息,例如檢測(cè)管理器、表征管理器、可視化管理器和交互管理器的實(shí)例,以便徹底理解本發(fā)明的實(shí)施例。但是,相關(guān)【技術(shù)領(lǐng)域】的技術(shù)人員將認(rèn)識(shí)到,可以在沒(méi)有一個(gè)或多個(gè)特定的細(xì)節(jié)的情況下實(shí)現(xiàn)本發(fā)明,或者可以通過(guò)其它方法、組件、材料等實(shí)現(xiàn)本發(fā)明。在其它情況下,未詳細(xì)示出或描述公知的結(jié)構(gòu)、材料或操作以避免使本發(fā)明的各個(gè)方面變得模糊不清。
[0024]通過(guò)參考附圖最佳地理解本發(fā)明的所例示的實(shí)施例,其中在圖中相同部件由相同標(biāo)號(hào)指定。以下描述僅旨在作為實(shí)例,并且僅示出與在此要求保護(hù)的本發(fā)明一致的設(shè)備、系統(tǒng)和過(guò)程的某些選定實(shí)施例。
[0025]在以下實(shí)施例的描述中,對(duì)形成其一部分的附圖進(jìn)行參考,并且其通過(guò)示例的方式示出其中可以實(shí)現(xiàn)本發(fā)明的特定實(shí)施例。應(yīng)該理解,可以使用其它實(shí)施例,因?yàn)榭梢赃M(jìn)行結(jié)構(gòu)更改而不偏離本發(fā)明的范圍。
[0026]在數(shù)據(jù)挖掘中,可視集群是位于視圖空間的密集區(qū)域附近的一組點(diǎn),統(tǒng)稱為任意形狀的對(duì)象或結(jié)構(gòu)。視圖空間通常是數(shù)據(jù)集選定字段的二維或三維投影,通常在圖形顯示器上呈現(xiàn)以便用戶可視化數(shù)據(jù)集。在一個(gè)實(shí)施例中,視圖空間表示的數(shù)據(jù)集中的字段數(shù)量少于數(shù)據(jù)空間。同樣,在一個(gè)實(shí)施例中,視圖空間可以具有三維或更多維映射。從可視角度看,數(shù)據(jù)集群包括各種特征,包括但不限于分離、密度和形狀。標(biāo)識(shí)潛在集群并建議潛在集群以便探索。因此,數(shù)據(jù)探索的第一部分是標(biāo)識(shí)一個(gè)或多個(gè)數(shù)據(jù)集群。
[0027]應(yīng)該理解,數(shù)據(jù)空間包含以n維表示的數(shù)據(jù)集中的所有數(shù)據(jù),其中n是整數(shù)。數(shù)據(jù)空間被定義為表示數(shù)據(jù)集所有字段的n維空間。視圖空間是數(shù)據(jù)集所映射到的m維空間,其中m是小于或等于n的整數(shù)。在一個(gè)實(shí)施例中,視圖空間是數(shù)據(jù)所映射到的二維平面。因此,集群(被定義為位于密集區(qū)域附近的一組點(diǎn))可以存在于視圖空間中,而不存在于數(shù)據(jù)空間中。
[0028]圖1是示出集群檢測(cè)算法的流程圖(100)。根據(jù)數(shù)據(jù)點(diǎn)在視圖空間中的位置,將數(shù)據(jù)點(diǎn)分配給相應(yīng)網(wǎng)格單元(102)。對(duì)于每個(gè)占用的網(wǎng)格單元,計(jì)算平均網(wǎng)格單元密度
(104)。在一個(gè)實(shí)施例中,平均網(wǎng)格單元密度的計(jì)算支持判定是否將單元標(biāo)識(shí)為潛在集群候選者。為一組選定網(wǎng)格單元分配集群標(biāo)識(shí)符(106)。在一個(gè)實(shí)施例中,集群標(biāo)識(shí)符的分配被限于那些密度超過(guò)閾值的網(wǎng)格單元。在一個(gè)實(shí)施例中,閾值是平均網(wǎng)格單元密度,以便屬于集群成員的每個(gè)網(wǎng)格單元具有超過(guò)平均網(wǎng)格單元密度的密度。為變量XT()tal分配被分配的集群標(biāo)識(shí)符數(shù)(108),并且為計(jì)數(shù)變量X分配整數(shù)I (110)。對(duì)于每個(gè)具有分配的標(biāo)識(shí)符的集群x,判定是否已將任何相鄰單元分配給集群(112)。在對(duì)步驟(112)處判定的肯定響應(yīng)之后,合并兩個(gè)集群(114)。具體地說(shuō),將當(dāng)前符合條件的單元分配給集群,,以及將相鄰單元中的任何其它符合條件的單元分配給集群,。但是,在對(duì)步驟(112)處判定的否定響應(yīng)之后,形成新集群(116)。具體地說(shuō),為與集群標(biāo)識(shí)符,關(guān)聯(lián)的當(dāng)前符合條件的單元分配新集群標(biāo)識(shí)符(116)。在步驟(114)或(116)之后,遞增計(jì)數(shù)變量X (118),然后判定是否已檢查所有臨時(shí)分配的集群標(biāo)識(shí)符(120)。在對(duì)步驟(120)處判定的否定響應(yīng)之后,返回到步驟
(112),并且對(duì)步驟(120)處的判定的肯定響應(yīng)將結(jié)束集群檢測(cè)過(guò)程。因此,將數(shù)據(jù)點(diǎn)分配給單元,并且對(duì)單元進(jìn)行分組以便形成集群。
[0029]如圖1中所示,根據(jù)視圖空間中的數(shù)據(jù)點(diǎn)和關(guān)聯(lián)網(wǎng)格單元而檢測(cè)集群。網(wǎng)格單元的大小影響密度,并且針對(duì)潛在集群成員采用的閾值也影響集群檢測(cè)。此外,視圖空間與原始數(shù)據(jù)集中的維度數(shù)無(wú)關(guān)。在一個(gè)實(shí)施例中,圖1的集群檢測(cè)算法可以使用后處理擴(kuò)展現(xiàn)有集群,以便現(xiàn)有集群在密度更改傾向或數(shù)據(jù)點(diǎn)語(yǔ)義方面對(duì)附近的單元更有包含性。針對(duì)傾向,可以根據(jù)梯度合并數(shù)據(jù)點(diǎn)或單元,并且針對(duì)語(yǔ)義,可以將相鄰單元中具有類似特征的單元合并到現(xiàn)有集群。因此,可以擴(kuò)展集群形成的定義特征,以便應(yīng)對(duì)超過(guò)和包含平均單元密度的特征。
[0030]集群中的模式檢測(cè)方面需要檢測(cè)異常值。在可視化中具有幾種類型的異常值點(diǎn),包括虛假肯定(false positive)、閉點(diǎn)和遠(yuǎn)點(diǎn)。可視化可以采用不同的形式,包括但不限于條形圖、散點(diǎn)圖、餅圖等。虛假肯定是指以下點(diǎn):位于可視特性(例如集群)中,但在語(yǔ)義上不屬于可視特性。閉點(diǎn)是指以下點(diǎn):在可視特性的附近,但在一個(gè)或多個(gè)維度方面不同,所述一個(gè)或多個(gè)維度可視地將該點(diǎn)從集群刪除。遠(yuǎn)點(diǎn)是指以下點(diǎn):遠(yuǎn)離集群的任何可視特性,并且不擁有要被標(biāo)識(shí)為集群成員的重要性級(jí)別。因此,為了定義集群,需要檢測(cè)異常值,并將其從集群刪除或者使其成為集群成員。
[0031]圖2是示出用于針對(duì)異常值檢測(cè)標(biāo)識(shí)虛假肯定的過(guò)程的流程圖(200)。為變量XT()tal*配集群中的數(shù)據(jù)點(diǎn)數(shù)(202),并且為計(jì)數(shù)變量X分配整數(shù)I (204)。評(píng)估集群中的每個(gè)數(shù)據(jù)點(diǎn)DPX,以便評(píng)估其分配的值(206),包括針對(duì)數(shù)據(jù)集中的每個(gè)字段計(jì)算平均值。將數(shù)據(jù)點(diǎn)DPx與集群的平均數(shù)據(jù)點(diǎn)值相比較(208)。然后判定DPx值是否比平均數(shù)據(jù)點(diǎn)值低或高某一設(shè)置值(210)。在一個(gè)實(shí)施例中,該設(shè)置值是至少三個(gè)標(biāo)準(zhǔn)偏差(210)。在對(duì)步驟(210)處的判定的肯定響應(yīng)之后,將數(shù)據(jù)點(diǎn)DPx標(biāo)記為異常值(214),并且在否定響應(yīng)之后,將數(shù)據(jù)點(diǎn)DPxS記為集群成員(212)。在步驟(212)或(214)之后,遞增X的值(216),然后判定是否已經(jīng)針對(duì)異常值狀態(tài)評(píng)估集群中的所有數(shù)據(jù)點(diǎn)(218)。在對(duì)步驟(2108)處的判定的否定響應(yīng)之后,返回到步驟(206)以便進(jìn)行下一個(gè)數(shù)據(jù)點(diǎn)評(píng)估。相反,對(duì)步驟(218)處的判定的肯定響應(yīng)將結(jié)束異常值評(píng)估。圖2中所示的過(guò)程用于最初被放置在集群邊界內(nèi)的每個(gè)數(shù)據(jù)點(diǎn)。在一個(gè)實(shí)施例中,在集群的附近網(wǎng)格單元(例如,集群的相鄰單元)中的所有數(shù)據(jù)點(diǎn)均可以經(jīng)歷對(duì)照平均值檢查其值的類似過(guò)程。因此,如圖所示,評(píng)估集群中的每個(gè)數(shù)據(jù)點(diǎn)以便確定其異常值狀態(tài)。
[0032]趨勢(shì)是數(shù)據(jù)中的關(guān)系形式、方向和強(qiáng)度的可視描繪。存在幾種類型的趨勢(shì),并且它們?cè)诳梢暬幸圆煌绞浇沂咀陨?。圖3是示出方向趨勢(shì)(320)的集群(310)的示意圖(300),方向趨勢(shì)(320)對(duì)應(yīng)于沿著拉長(zhǎng)集群的方向增加的維度值。如圖3中所示,集群的形狀具有拉長(zhǎng)的形狀,從而顯示兩個(gè)或更多維度之間存在線性關(guān)系,或者存在展現(xiàn)方向趨勢(shì)的主維度。圖4是圓形的集群(410)的示意圖(400),從而顯示存在徑向趨勢(shì)。如圖4中所示,存在同心趨勢(shì)(420)、(422)、(424)和(426),它們對(duì)應(yīng)于從集群中心徑向增加的維度值。存在其它形狀和趨勢(shì),包括發(fā)散趨勢(shì),其中關(guān)系可能由于數(shù)據(jù)中的更高階關(guān)系所致。
[0033]通常通過(guò)其形狀觀察趨勢(shì);并且形狀揭示集群中的數(shù)據(jù)元素的一個(gè)或多個(gè)維度的分布特征。用于檢測(cè)趨勢(shì)的高級(jí)方法需要識(shí)別集群的形狀,將形狀與趨勢(shì)類型關(guān)聯(lián),標(biāo)識(shí)展現(xiàn)該趨勢(shì)的維度,以及確定趨勢(shì)的強(qiáng)度。圖5是示出用于檢測(cè)集群中的方向趨勢(shì)的過(guò)程的流程圖(500)。對(duì)于集群中的每個(gè)維度,針對(duì)集群中的每個(gè)行和列計(jì)算平均數(shù)據(jù)值(502)。執(zhí)行線性回歸以便在縱向和橫向上將直線擬合到平均值(504)。直線擬合方面判定平均值是在集群中跨行或列持續(xù)增加還是減小(506)。與擬合后的直線關(guān)聯(lián)的數(shù)據(jù)表示估計(jì)的數(shù)據(jù)值,并且針對(duì)平均值采用的數(shù)據(jù)是計(jì)算的平均值。在一個(gè)實(shí)施例中,使用實(shí)際平均數(shù)據(jù)值和估計(jì)值計(jì)算與擬合的直線相比較的標(biāo)準(zhǔn)誤差。具體地說(shuō),使用實(shí)際平均值和估計(jì)值計(jì)算跨行和列的標(biāo)準(zhǔn)誤差(多個(gè))(508),然后將標(biāo)準(zhǔn)誤差(多個(gè))與擬合的直線相比較(510)。然后判定實(shí)際值與估計(jì)值之間的標(biāo)準(zhǔn)誤差(多個(gè))是否低(例如小于設(shè)置值閾值),并且判定擬合直線的斜率是否大于斜率閾值(512)。對(duì)步驟(512)處的判定的肯定響應(yīng)將指示具有方向趨勢(shì)(514)。將擬合的直線的標(biāo)準(zhǔn)誤差和斜率保存為趨勢(shì)強(qiáng)度和方向的指示符(516)。但是,對(duì)步驟(512)處的判定的否定響應(yīng)將指示未發(fā)現(xiàn)數(shù)據(jù)中的方向趨勢(shì)(518)。因此,采用實(shí)際數(shù)據(jù)值和與直線擬合關(guān)聯(lián)的數(shù)據(jù)值確定數(shù)據(jù)集群中的方向趨勢(shì)。
[0034]集群的表征關(guān)乎獲得表示集群中的一組數(shù)據(jù)點(diǎn)的語(yǔ)義。當(dāng)針對(duì)集群獲得此類語(yǔ)義時(shí),將焦點(diǎn)放在區(qū)分與其它集群相比的特征以及突出顯示集群的定義特征。定義特征通過(guò)可視化上的注釋傳送和解釋高級(jí)結(jié)構(gòu)。采用幾種度量獲得集群語(yǔ)義,包括但不限于集群中的數(shù)據(jù)值密度、與其它集群的重疊、集群中的異常值數(shù),以及集群中的趨勢(shì)強(qiáng)度。
[0035]圖6是示出用于表征集群以便呈現(xiàn)分析指導(dǎo)的過(guò)程的流程圖(600)。表征的第一部分是評(píng)估每個(gè)數(shù)據(jù)集群和其中的數(shù)據(jù)值。采用變量NT(rtal表示要表征的集群(602),并且將計(jì)數(shù)變量N設(shè)置為整數(shù)1(604)。針對(duì)集群1<中的每個(gè)維度獲得集群密度(606)。在一個(gè)實(shí)施例中,步驟(606)處的獲得包括根據(jù)標(biāo)準(zhǔn)偏差的階梯函數(shù)計(jì)算介于O和I之間的密度得分,并且梯級(jí)0.01 (非常密集)、0.05 (中等密集)、0.1 (稍微密集)和0.25 (稀疏)分別對(duì)應(yīng)于得分1、0.8、0.5和0.1。在步驟(606)之后,遞增計(jì)數(shù)變量N (608),并且判定是否已經(jīng)針對(duì)每個(gè)數(shù)據(jù)集群獲得集群密度(610)。在對(duì)步驟(610)處的判定的否定響應(yīng)之后,返回到步驟(606),并且對(duì)步驟(610)處的判定的肯定響應(yīng)將結(jié)束集群密度獲得。
[0036]如步驟(602)- (610)中所示,針對(duì)每個(gè)表示的集群中的每個(gè)維度獲得集群密度。在步驟(610)之后,計(jì)算重疊得分,其與跨每個(gè)集群的數(shù)據(jù)值范圍中的重疊度有關(guān)。在一個(gè)實(shí)施例中,采用基于標(biāo)準(zhǔn)偏差和數(shù)據(jù)值平均值的范圍,以便減少集群中的最小值和最大值的極限測(cè)量。將集群計(jì)數(shù)變量N設(shè)置為整數(shù)1(612)。對(duì)于每個(gè)集群N,計(jì)算每個(gè)集群N+1與集群NT()tal的平均重疊度(614)。然后使用平均重疊度獲得每個(gè)集群相對(duì)于每個(gè)其它集群的重疊得分(616)。在一個(gè)實(shí)施例中,重疊得分是介于O和I之間的值,O是完全重疊,I是無(wú)重疊。因此,數(shù)據(jù)集群之間的重疊度越高,描述集群的興趣就越低。
[0037]在步驟(616 )之后,針對(duì)每個(gè)集群獲得異常值得分。具體地說(shuō),對(duì)于每個(gè)數(shù)據(jù)集群I至NT(rtal,獲得每個(gè)集群的異常值比率。在一個(gè)實(shí)施例中,采用每個(gè)集群中的異常值數(shù)與數(shù)據(jù)點(diǎn)總數(shù)的商獲得異常值比率(618)。在一個(gè)實(shí)施例中,采用階梯函數(shù)以便異常值得分介于值O和I之間,并且梯級(jí)0.05、0.01和0.005分別對(duì)應(yīng)于得分1、0.8和0.6。除了異常值得分之外,計(jì)算趨勢(shì)得分。更具體地說(shuō),對(duì)于每個(gè)數(shù)據(jù)集群I至NT()tal,從直線擬合的標(biāo)準(zhǔn)誤差計(jì)算趨勢(shì)得分(620)。圖5中示出直線擬合的細(xì)節(jié)。然后判定直線擬合中的直線斜率大小是否高于閾值(622)。在對(duì)步驟(622)處的判定的肯定響應(yīng)之后,針對(duì)行和列趨勢(shì)計(jì)算趨勢(shì)范圍(624)。在一個(gè)實(shí)施例中,趨勢(shì)范圍是基于標(biāo)準(zhǔn)誤差的階梯函數(shù)的介于O和I之間的值。相反,在對(duì)步驟(622)處的判定的否定響應(yīng)之后,為趨勢(shì)得分分配O (626)。因此,對(duì)于可視化中的每個(gè)集群,計(jì)算趨勢(shì)得分。[0038]如圖6中所示,針對(duì)可視化中的每個(gè)集群和數(shù)據(jù)中的每個(gè)維度,獲得形式為密度、重疊、異常值和趨勢(shì)的語(yǔ)義。在獲得之后,針對(duì)可視化中的每個(gè)維度和每個(gè)集群計(jì)算加權(quán)得分總和。圖7是示出用于計(jì)算加權(quán)總和的過(guò)程的流程圖(700)。變量NT()tal表示被表征的集群數(shù)(702 ),并且變量MT()tal表示被表征的集群中的維度數(shù)(704)。初始化集群的計(jì)數(shù)變量N (706),并且初始化維度的計(jì)數(shù)變量M (708)。對(duì)于集群N和維度M,計(jì)算加權(quán)得分總和(710),如下所示:
[0039]得分N,M= (W密度*密度+Wa*重疊+W異常值*異常值+W行趨勢(shì)*行趨勢(shì)
[0040]+W列趨勢(shì)*列趨勢(shì))
[0041]在步驟(710)處的計(jì)算之后,遞增維度計(jì)數(shù)變量M (712),并且判定集群N中是否存在更多的維度M (714)。在對(duì)步驟(712)處的判定的肯定響應(yīng)之后,返回到步驟(710),并且在對(duì)步驟(712)處的判定的否定響應(yīng)之后,遞增集群計(jì)數(shù)變量(716)。然后判定是否已處理考慮中的所有集群(718)。在對(duì)步驟(718)處的判定的否定響應(yīng)之后,返回到步驟(708)。但是,對(duì)步驟(718)處的判定的肯定響應(yīng)將結(jié)束對(duì)集群及其維度的考慮過(guò)程(722)。
[0042]在步驟(702)- (722)中所示的表征之后,計(jì)算每個(gè)維度的平均得分(724)。按維度對(duì)這些得分進(jìn)行排序(726),并且每個(gè)高于閾值的平均維度得分形成一組重要維度的一部分(728)。因此,針對(duì)每個(gè)集群和每個(gè)重要維度,確定形式為密度、趨勢(shì)和異常值的一組特征。
[0043]分析指導(dǎo)表示集群、趨勢(shì)、異常值的特征以及將它們覆蓋在可視化上,以便解釋此類特性并提供交互支持。存在四種不同類型的指導(dǎo),它們對(duì)應(yīng)于密集集群、范圍集群、異常值和趨勢(shì)。在一個(gè)實(shí)施例中,密集集群適合于分類數(shù)據(jù)類型,并且范圍集群適合于有序數(shù)據(jù)類型。集群可以具有多個(gè)特征。在一個(gè)實(shí)施例中,可以同步指導(dǎo)的呈現(xiàn),以便在任何時(shí)間點(diǎn),所有集群顯示相同維度的指導(dǎo)以支持跨集群的比較。同樣,在一個(gè)實(shí)施例中,可以刷新指導(dǎo)以便突出顯示可視化中具有相同語(yǔ)義的數(shù)據(jù)點(diǎn)。在另一個(gè)實(shí)施例中,指導(dǎo)可以是數(shù)據(jù)的圖形表示,而不是文本描述。因此,對(duì)集群的表征特征進(jìn)行可視化、解釋,并且這些特征支持交互。
[0044]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各個(gè)方面還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0045]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者上述的任意合適的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。[0046]計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括例如在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括一但不限于一電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0047]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無(wú)線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0048]可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任意組合來(lái)編寫用于執(zhí)行本發(fā)明的各個(gè)方面的操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言一諸如“C”語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) —連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng)連接)。
[0049]上面參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述了本發(fā)明的各個(gè)方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些指令在通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時(shí),產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的裝置。
[0050]也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,這些指令使得計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備以特定方式工作,從而,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出包括實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的指令的制造品(article of manufacture)0
[0051]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的過(guò)程。
[0052]將此說(shuō)明書(shū)中描述的功能單元(多個(gè))標(biāo)記為形式為管理器(多個(gè))的工具。管理器可以在諸如現(xiàn)場(chǎng)可編程門陣列、可編程陣列邏輯、可編程邏輯設(shè)備之類的可編程硬件設(shè)備中實(shí)現(xiàn)。管理器(多個(gè))還可以在軟件中實(shí)現(xiàn),以便由各種類型的處理器處理。標(biāo)識(shí)的可執(zhí)行代碼的管理器可以例如包括一個(gè)或多個(gè)物理或邏輯的計(jì)算機(jī)指令塊,所述塊可以例如組織為對(duì)象、過(guò)程、函數(shù)或其它構(gòu)造。盡管如此,標(biāo)識(shí)的管理器的可執(zhí)行代碼不需要在物理上位于一起,而是可以包括存儲(chǔ)在不同位置的不同指令,當(dāng)所述指令被邏輯地結(jié)合時(shí),將包括管理器并實(shí)現(xiàn)管理器和導(dǎo)向器的所聲明的目的。
[0053]實(shí)際上,可執(zhí)行代碼的管理器可以是單個(gè)指令或多個(gè)指令,并且甚至可以分布在數(shù)個(gè)不同的代碼段上、多個(gè)不同的程序中,以及跨多個(gè)存儲(chǔ)器件。同樣,操作數(shù)據(jù)可以在管理器中被標(biāo)識(shí)和在此示出,并且可以包括在任何合適的形式中并組織在任何合適類型的數(shù)據(jù)結(jié)構(gòu)中。操作數(shù)據(jù)可以被收集為單個(gè)數(shù)據(jù)集,或可以分布在包括不同存儲(chǔ)器件的不同位置上,并且可以至少部分地作為電子信號(hào)存在于系統(tǒng)或網(wǎng)絡(luò)中。
[0054]圖8是示出嵌入計(jì)算機(jī)系統(tǒng)中以便支持?jǐn)?shù)據(jù)表征和交互的工具的框圖(800)。計(jì)算機(jī)系統(tǒng)(810)被示出與數(shù)據(jù)存儲(chǔ)裝置(850)通信。盡管數(shù)據(jù)存儲(chǔ)裝置在系統(tǒng)(810)的本地,但在一個(gè)實(shí)施例中,數(shù)據(jù)存儲(chǔ)裝置可以跨網(wǎng)絡(luò)連接(未示出)遠(yuǎn)離計(jì)算機(jī)系統(tǒng)。同樣,盡管示出一個(gè)數(shù)據(jù)存儲(chǔ)單元(850 ),但數(shù)據(jù)存儲(chǔ)裝置可以包括任何數(shù)量的數(shù)據(jù)存儲(chǔ)單元。計(jì)算機(jī)系統(tǒng)(810)具有處理單元(812),處理單元(812)跨總線(816)與存儲(chǔ)器(814)通信。功能單元(820)具有用于支持?jǐn)?shù)據(jù)表征和交互的工具。更具體地說(shuō),功能單元(820)被示出嵌入在存儲(chǔ)器(814)中,存儲(chǔ)器(814)與處理單元(812)通信。所述工具包括但不限于檢測(cè)管理器(822)、表征管理器(824)、可視化管理器(826)和交互管理器(828)。每個(gè)管理器(822)- (828)支持用于在此描述的數(shù)據(jù)探索的功能。
[0055]檢測(cè)管理器(822)用于檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性。所檢測(cè)的可視特性包括標(biāo)識(shí)視圖空間中的潛在數(shù)據(jù)集群,以及有關(guān)要探索的潛在數(shù)據(jù)集群的任何建議。在一個(gè)實(shí)施例中,視圖空間與包含在數(shù)據(jù)集中的維度數(shù)無(wú)關(guān)。在一個(gè)實(shí)施例中,檢測(cè)管理器(822)根據(jù)數(shù)據(jù)點(diǎn)在視圖空間中的位置,將數(shù)據(jù)點(diǎn)分配給網(wǎng)格單元,并且針對(duì)占用的網(wǎng)格單元計(jì)算平均網(wǎng)格單元密度。當(dāng)網(wǎng)格單元密度大于特定閾值時(shí),可以采用網(wǎng)格單元密度確定所檢測(cè)的可視特性。在一個(gè)實(shí)施例中,檢測(cè)管理器(822)為具有高網(wǎng)格密度的網(wǎng)格單元分配集群標(biāo)識(shí)符,高網(wǎng)格密度被確定為大于特定閾值的網(wǎng)格密度。在另一個(gè)實(shí)施例中,檢測(cè)管理器(822)擴(kuò)展現(xiàn)有集群的界限以便包括相鄰網(wǎng)格單元。在另一個(gè)實(shí)施例中,檢測(cè)管理器(822)檢測(cè)標(biāo)識(shí)的潛在集群中的任何異常值點(diǎn),并且將異常值點(diǎn)與標(biāo)識(shí)的潛在集群中的每個(gè)維度的平均網(wǎng)格單元密度相比較。因此,檢測(cè)管理器(822)響應(yīng)于特定網(wǎng)格單元密度而檢測(cè)數(shù)據(jù)中的可視特性。
[0056]提供表征管理器(824),其與檢測(cè)管理器(822)通信。具體地說(shuō),表征管理器(824)用于使用數(shù)據(jù)空間表征所檢測(cè)的可視特性。提供可視化管理器(826),其與表征管理器(824)通信。具體地說(shuō),可視化管理器(826)用于在可視化上覆蓋所表征和檢測(cè)的特性以支持交互。如圖所示,提供交互管理器(828),其與可視化管理器(826)通信。交互管理器(828)用于實(shí)現(xiàn)與所表示的特征的交互。在一個(gè)實(shí)施例中,所支持的交互包括跨兩個(gè)或更多集群探索檢測(cè)到的特性,以便比較選定數(shù)據(jù)。這種交互可以包括但不限于突出顯示可視化中的數(shù)據(jù)點(diǎn),以及可視化管理器(826)支持的覆蓋的注釋。在一個(gè)實(shí)施例中,表征管理器(824)獲得從數(shù)據(jù)空間獲得的可視特性的語(yǔ)義,并且在一個(gè)實(shí)施例中,覆蓋的注釋解釋獲得的語(yǔ)義。在一個(gè)實(shí)施例中,可視化管理器(826)表示潛在數(shù)據(jù)集群的特征。更具體地說(shuō),可視化管理器(826)表示任何集群信息,例如有關(guān)密集集群和范圍集群的規(guī)范,以及/或者任何異常值數(shù)據(jù)點(diǎn)??梢暬芾砥?826)在可視化上覆蓋這些表示的特征,以便解釋所表征和檢測(cè)的特性。因此,表征管理器表征所檢測(cè)的可視特性,并且可視化管理器在可視化上覆蓋這些表征的特性。
[0057]還可以檢測(cè)數(shù)據(jù)集中的數(shù)據(jù)趨勢(shì)。在一個(gè)實(shí)施例中,檢測(cè)管理器(822)用于檢測(cè)可視化管理器(826)支持的數(shù)據(jù)可視化中的任何趨勢(shì)。在該實(shí)施例中,表征管理器(824)識(shí)別可視化管理器(826)描繪的集群中的形狀,并將形狀與趨勢(shì)類型關(guān)聯(lián)。在該實(shí)施例中,表征管理器(824)進(jìn)一步標(biāo)識(shí)展現(xiàn)趨勢(shì)的一個(gè)或多個(gè)維度,并確定趨勢(shì)的強(qiáng)度。在一個(gè)實(shí)施例中,通過(guò)所檢測(cè)的趨勢(shì)與形狀的關(guān)聯(lián)程度,確定此趨勢(shì)強(qiáng)度。檢測(cè)管理器(822)檢測(cè)由數(shù)據(jù)可視化中的檢測(cè)到的趨勢(shì)形成的任何形狀類型。所檢測(cè)的形狀類型定義數(shù)據(jù)維度之間的關(guān)系。因此,檢測(cè)數(shù)據(jù)中的趨勢(shì),并且表征管理器根據(jù)強(qiáng)度和形狀表征這些趨勢(shì)。
[0058]現(xiàn)在參考圖9的框圖(900),針對(duì)實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施例描述其它詳細(xì)信息。計(jì)算機(jī)系統(tǒng)包括一個(gè)或多個(gè)處理器,例如處理器(902)。處理器(902)連接到通信基礎(chǔ)架構(gòu)(904)(例如,通信總線、交叉條(cross-over bar)或網(wǎng)絡(luò))。
[0059]計(jì)算機(jī)系統(tǒng)可以包括顯示接口(906),其轉(zhuǎn)發(fā)來(lái)自通信基礎(chǔ)架構(gòu)(904)(或來(lái)自幀緩沖器(未示出))的圖形、文本和其它數(shù)據(jù),以便在顯示單元(908)上顯示。計(jì)算機(jī)系統(tǒng)還包括主存儲(chǔ)器(910),優(yōu)選地為隨機(jī)存取存儲(chǔ)器(RAM),并且還可以包括輔助存儲(chǔ)器(912)。輔助存儲(chǔ)器(912)例如可以包括硬盤驅(qū)動(dòng)器(914)(或備選永久性存儲(chǔ)器件)和/或可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器(916),其例如表示軟盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器或光盤驅(qū)動(dòng)器??梢苿?dòng)存儲(chǔ)驅(qū)動(dòng)器(916)以所屬【技術(shù)領(lǐng)域】普通技術(shù)人員公知的方式來(lái)讀寫可移動(dòng)存儲(chǔ)單元(918)??梢苿?dòng)存儲(chǔ)單元(918)例如表示軟盤、壓縮盤、磁帶或光盤等,其可由可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器(916)讀寫。如所理解的那樣,可移動(dòng)存儲(chǔ)單元(918)包括其中存儲(chǔ)計(jì)算機(jī)軟件和/或數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)。
[0060]在備選實(shí)施例中,輔助存儲(chǔ)器(912)可以包括其它類似的裝置,以便允許將計(jì)算機(jī)程序或其它指令加載到計(jì)算機(jī)系統(tǒng)。此類裝置例如可以包括可移動(dòng)存儲(chǔ)單元(920)和接口(922)。此類裝置的實(shí)例可以包括程序包和包接口(例如在視頻游戲設(shè)備中)、可移動(dòng)存儲(chǔ)器芯片(例如EPROM或PR0M)和關(guān)聯(lián)的插槽,以及允許將軟件和數(shù)據(jù)從可移動(dòng)存儲(chǔ)單元(920)傳輸?shù)接?jì)算機(jī)系統(tǒng)的其它可移動(dòng)存儲(chǔ)單元(920)和接口(922)。
[0061]計(jì)算機(jī)系統(tǒng)還可以包括通信接口(924)。通信接口(924)允許在計(jì)算機(jī)系統(tǒng)和外部設(shè)備之間傳輸軟件和數(shù)據(jù)。通信接口(924)的實(shí)例可以包括調(diào)制解調(diào)器、網(wǎng)絡(luò)接口(例如以太網(wǎng)卡)、通信端口或PCMCIA插槽和卡等。經(jīng)由通信接口(924)傳輸?shù)能浖蛿?shù)據(jù)采用信號(hào)的形式,所述信號(hào)例如可以是電、電磁、光信號(hào)或其它能夠由通信接口(924)接收的信號(hào)。經(jīng)由通信路徑(即,信道)(926)將這些信號(hào)提供給通信接口(924)。該通信路徑(926)承載信號(hào),并且可以使用電線或電纜、光纖、電話線路、移動(dòng)電話鏈路、射頻(RF)鏈路和/或其它通信信道來(lái)實(shí)現(xiàn)。
[0062]在本文檔中,術(shù)語(yǔ)“計(jì)算機(jī)程序介質(zhì)”、“計(jì)算機(jī)可用介質(zhì)”和“計(jì)算機(jī)可讀介質(zhì)”用于泛指介質(zhì),例如主存儲(chǔ)器(910)和輔助存儲(chǔ)器(912)、可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器(916)以及安裝在硬盤驅(qū)動(dòng)器或備選永久性存儲(chǔ)器件(914)中的硬盤。
[0063]計(jì)算機(jī)程序(也稱為計(jì)算機(jī)控制邏輯)被存儲(chǔ)在主存儲(chǔ)器(910)和/或輔助存儲(chǔ)器(912)中。還可以經(jīng)由通信接口(924)接收計(jì)算機(jī)程序。當(dāng)運(yùn)行時(shí),此類計(jì)算機(jī)程序使得計(jì)算機(jī)系統(tǒng)能夠執(zhí)行在此討論的本發(fā)明的特性。具體地說(shuō),當(dāng)運(yùn)行時(shí),計(jì)算機(jī)程序使得處理器(902)能夠執(zhí)行計(jì)算機(jī)系統(tǒng)的特性。因此,此類計(jì)算機(jī)程序表示計(jì)算機(jī)系統(tǒng)的控制器。
[0064]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的不同實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
[0065]在此使用的術(shù)語(yǔ)只是為了描述特定的實(shí)施例并且并非旨在作為本發(fā)明的限制。如在此所使用的,單數(shù)形式“一”、“一個(gè)”和“該”旨在同樣包括復(fù)數(shù)形式,除非上下文明確地另有所指。還將理解,當(dāng)在此說(shuō)明書(shū)中使用時(shí),術(shù)語(yǔ)“包括”和/或“包含”指定了聲明的特性、整數(shù)、步驟、操作、元素和/或組件的存在,但是并不排除一個(gè)或多個(gè)其它特性、整數(shù)、步驟、操作、元素、組件和/或其組的存在或增加。
[0066]以下的權(quán)利要求中的對(duì)應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置或步驟的等同替換,旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能的結(jié)構(gòu)、材料或操作。所給出的對(duì)本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的,也并非是要將本發(fā)明限定到所表述的形式。對(duì)于所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)說(shuō),在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對(duì)實(shí)施例的選擇和說(shuō)明,是為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,使所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實(shí)施方式。相應(yīng)地,增強(qiáng)的云計(jì)算模型支持靈活進(jìn)行事務(wù)處理,包括但不限于優(yōu)化存儲(chǔ)系統(tǒng),并且響應(yīng)于優(yōu)化后的存儲(chǔ)系統(tǒng)而處理事務(wù)。
[0067]備選實(shí)施例(多個(gè))
[0068]將理解,盡管在此出于示例目的描述了本發(fā)明的特定實(shí)施例,但可以在不偏離本發(fā)明的精神和范圍的情況下進(jìn)行各種修改。當(dāng)用戶與數(shù)據(jù)交互時(shí),可以持續(xù)檢測(cè)和表征視圖空間中的可視特性,由此更改視圖空間并導(dǎo)致重新計(jì)算、重新檢測(cè)和重新表征可視特性。因此,本發(fā)明的保護(hù)范圍僅由以下權(quán)利要求及其等同物來(lái)限定。
【權(quán)利要求】
1.一種方法,包括: 檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性,包括標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群并建議所述潛在數(shù)據(jù)集群以便探索所檢測(cè)的特性; 使用數(shù)據(jù)空間表征所檢測(cè)的可視特性,包括定義所標(biāo)識(shí)的潛在數(shù)據(jù)集群的一個(gè)或多個(gè)特征;以及 在可視化上覆蓋所表征的檢測(cè)到的特性以便支持交互,所支持的交互包括跨兩個(gè)或更多集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。
2.根據(jù)權(quán)利要求1的方法,其中檢測(cè)一組數(shù)據(jù)中的可視特性包括:根據(jù)數(shù)據(jù)點(diǎn)在所述視圖空間中的位置,將所述數(shù)據(jù)點(diǎn)分配給網(wǎng)格單元;針對(duì)占用的網(wǎng)格單元計(jì)算平均網(wǎng)格單元密度;以及為網(wǎng)格密度大于所述平均網(wǎng)格單元密度的網(wǎng)格單元分配集群標(biāo)識(shí)符。
3.根據(jù)權(quán)利要求2的方法,其中所述視圖空間與所述一組數(shù)據(jù)中的維度數(shù)無(wú)關(guān)。
4.根據(jù)權(quán)利要求2的方法,還包括擴(kuò)展現(xiàn)有集群以便包括相鄰網(wǎng)格單元。
5.根據(jù)權(quán)利要求2的方法,還包括檢測(cè)所標(biāo)識(shí)的潛在數(shù)據(jù)集群中的異常值點(diǎn),包括將所述異常值點(diǎn)與所述集群中的每個(gè)維度的所述平均網(wǎng)格單元密度相比較。
6.根據(jù)權(quán)利要求1的方法,還包括檢測(cè)所述一組數(shù)據(jù)的可視化趨勢(shì),包括識(shí)別集群的形狀,將所述形狀與趨勢(shì)類型關(guān)聯(lián),標(biāo)識(shí)展現(xiàn)所述趨勢(shì)的一個(gè)或多個(gè)維度,以及確定所述趨勢(shì)的強(qiáng)度。
7.根據(jù)權(quán)利 要求6的方法,還包括檢測(cè)由數(shù)據(jù)點(diǎn)集群和所檢測(cè)的數(shù)據(jù)可視化趨勢(shì)形成的任意形狀,其中形狀類型定義數(shù)據(jù)維度之間的關(guān)系。
8.根據(jù)權(quán)利要求2的方法,還包括表征所標(biāo)識(shí)的潛在數(shù)據(jù)集群,包括獲得表示所述一組數(shù)據(jù)的語(yǔ)義。
9.根據(jù)權(quán)利要求1的方法,還包括表示所述潛在數(shù)據(jù)集群的包含趨勢(shì)和異常值的特征,以及在可視化上覆蓋所表示的特征以便解釋所檢測(cè)的特性并提供交互支持,其中所述特征對(duì)應(yīng)于密集集群、范圍集群、異常值或趨勢(shì)。
10.根據(jù)權(quán)利要求9的方法,還包括與所表示的特征交互,包括在所述可視化中突出顯示數(shù)據(jù)點(diǎn)以及覆蓋注釋以便解釋從數(shù)據(jù)空間獲得的可視特性的語(yǔ)義。
11.一種方法,包括: 評(píng)估視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性,包括標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群并建議所述潛在數(shù)據(jù)集群以便探索所評(píng)估的可視特性; 使用數(shù)據(jù)空間表征所評(píng)估的可視特性,包括定義所標(biāo)識(shí)的潛在數(shù)據(jù)集群的一個(gè)或多個(gè)特征;以及 覆蓋所表征的評(píng)估的特性以便支持交互,所支持的交互包括跨兩個(gè)或更多集群探索所檢測(cè)的特性以便比較選定數(shù)據(jù)。
12.根據(jù)權(quán)利要求11的方法,還包括連續(xù)評(píng)估和表征所述視圖空間中的可視特性。
13.根據(jù)權(quán)利要求12的方法,其中所述可視特性的連續(xù)評(píng)估和表征響應(yīng)于與所述一組數(shù)據(jù)的交互。
14.根據(jù)權(quán)利要求12的方法,其中可視特性的連續(xù)評(píng)估和表征更改所述視圖空間。
15.根據(jù)權(quán)利要求14的方法,還包括響應(yīng)于所述視圖空間的所述更改,重新評(píng)估所述可視特性。
16.根據(jù)權(quán)利要求15的方法,其中所述重新評(píng)估包括:重復(fù)標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群以及使用數(shù)據(jù)空間重新表征所重新評(píng)估的可視特性。
17.一種裝置,所述裝置包括被配置為執(zhí)行權(quán)利要求1-16中的任一權(quán)利要求的步驟的模塊。
18.—種系統(tǒng),包括: 檢測(cè)管理器,其用于檢測(cè)視圖空間內(nèi)的一組數(shù)據(jù)中的可視特性,包括標(biāo)識(shí)所述視圖空間中的潛在數(shù)據(jù)集群并建議所述潛在數(shù)據(jù)集群以便探索所檢測(cè)的特性; 表征管理器,其與所述檢測(cè)管理器通信,所述表征管理器用于使用數(shù)據(jù)空間表征所檢測(cè)的可視特性,包括定義所標(biāo)識(shí)的潛在數(shù)據(jù)集群的一個(gè)或多個(gè)特征; 可視化管理器,其與所述表征管理器通信,所述可視化管理器用于在可視化上覆蓋所表征的檢測(cè)到的特性以便支持交互,包括定義所標(biāo)識(shí)的潛在數(shù)據(jù)集群的特征;以及 交互管理器,其與所述可視化管理器通信,所述交互管理器用于支持交互,包括跨兩個(gè)或更多集群探索所檢 測(cè)的特性以便比較選定數(shù)據(jù)。
19.根據(jù)權(quán)利要求18的系統(tǒng),所述檢測(cè)管理器還執(zhí)行以下操作:根據(jù)數(shù)據(jù)點(diǎn)在所述視圖空間中的位置,將所述數(shù)據(jù)點(diǎn)分配給網(wǎng)格單元;針對(duì)占用的網(wǎng)格單元計(jì)算平均網(wǎng)格單元密度;以及為網(wǎng)格密度大于所述平均網(wǎng)格單元密度的網(wǎng)格單元分配集群標(biāo)識(shí)符。
20.根據(jù)權(quán)利要求19的系統(tǒng),其中所述視圖空間與所述一組數(shù)據(jù)中的維度數(shù)無(wú)關(guān)。
21.根據(jù)權(quán)利要求19的系統(tǒng),所述檢測(cè)管理器還執(zhí)行以下操作:擴(kuò)展現(xiàn)有集群以便包括相鄰網(wǎng)格單元。
22.根據(jù)權(quán)利要求19的系統(tǒng),所述檢測(cè)管理器還執(zhí)行以下操作:檢測(cè)所標(biāo)識(shí)的潛在集群中的異常值點(diǎn),包括將所述異常值點(diǎn)與所標(biāo)識(shí)的潛在集群中的每個(gè)維度的所述平均網(wǎng)格單元密度相比較。
23.根據(jù)權(quán)利要求18的系統(tǒng),所述表征管理器還檢測(cè)所述數(shù)據(jù)的可視化趨勢(shì),包括由所述表征管理器執(zhí)行以下操作:識(shí)別集群的形狀,將所述形狀與趨勢(shì)類型關(guān)聯(lián),標(biāo)識(shí)展現(xiàn)所述趨勢(shì)的一個(gè)或多個(gè)維度,以及確定所述趨勢(shì)的強(qiáng)度。
24.根據(jù)權(quán)利要求23的系統(tǒng),所述表征管理器還執(zhí)行以下操作:檢測(cè)由數(shù)據(jù)點(diǎn)集群和所檢測(cè)的數(shù)據(jù)可視化趨勢(shì)形成的任意形狀,其中形狀類型定義數(shù)據(jù)維度之間的關(guān)系。
25.根據(jù)權(quán)利要求19的系統(tǒng),所述表征管理器還執(zhí)行以下操作:表征所標(biāo)識(shí)的潛在數(shù)據(jù)集群,包括獲得表示所述一組數(shù)據(jù)的至少一個(gè)語(yǔ)義。
26.根據(jù)權(quán)利要求18的系統(tǒng),所述可視化管理器還執(zhí)行以下操作:表示所述潛在數(shù)據(jù)集群的包含趨勢(shì)和異常值的特征,以及在可視化上覆蓋所表示的特征以便解釋所表征的檢測(cè)的特性并提供交互支持,其中所表示的特征對(duì)應(yīng)于密集集群、范圍集群、異常值或趨勢(shì)。
27.根據(jù)權(quán)利要求26的系統(tǒng),所述交互管理器還執(zhí)行以下操作:實(shí)現(xiàn)與所表示的特征交互,包括在所述可視化中突出顯示數(shù)據(jù)點(diǎn),以及所述可視化管理器還執(zhí)行以下操作:覆蓋注釋以便解釋從數(shù)據(jù)空間獲得的可視特性的語(yǔ)義。
【文檔編號(hào)】G06F19/00GK103729539SQ201310473145
【公開(kāi)日】2014年4月16日 申請(qǐng)日期:2013年10月11日 優(yōu)先權(quán)日:2012年10月12日
【發(fā)明者】E·坎多爾干 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司