欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

經(jīng)由基數(shù)估計(jì)的有效聯(lián)結(jié)路徑確定的制作方法

文檔序號(hào):11333802閱讀:219來源:國知局
經(jīng)由基數(shù)估計(jì)的有效聯(lián)結(jié)路徑確定的制造方法與工藝

相關(guān)申請(qǐng)的交叉引用

本申請(qǐng)要求于2014年12月22日提交的美國專利申請(qǐng)no.14/578,841的利益,所述美國專利申請(qǐng)的公開內(nèi)容以引用的方式整體并入本文中。



背景技術(shù):

數(shù)據(jù)倉庫和在線分析處理(“olap”)系統(tǒng)可能包括允許分析查詢的自動(dòng)生成的各種工具。在一些情況下,這些工具可能依賴于用戶提供有關(guān)將分析的數(shù)據(jù)的結(jié)構(gòu)的各種細(xì)節(jié)。然而,提供該信息可能是參與的過程。在其它情況下,工具可以使用明確定義的模式信息諸如主鍵和外鍵關(guān)系自動(dòng)地生成分析查詢。然而,即使未明確定義,在分析上有用的關(guān)系可能仍然存在??赡苓€存在分析工具的用戶不知道的分析上有用的關(guān)系。

附圖說明

當(dāng)結(jié)合附圖進(jìn)行閱讀時(shí),以下詳述可以更好地理解。出于說明的目的,附圖中示出本公開的方面的各種示例,然而本發(fā)明并不限于公開的特定方法和手段。

圖1是描繪用于通過使用概率計(jì)數(shù)結(jié)構(gòu)以估計(jì)兩個(gè)列內(nèi)的字段重合從而識(shí)別聯(lián)結(jié)關(guān)系的系統(tǒng)和過程的實(shí)施方案的框圖。

圖2是描繪基于使用基數(shù)估計(jì)計(jì)算的估計(jì)的字段重合對(duì)兩個(gè)列之間的聯(lián)結(jié)路徑進(jìn)行識(shí)別的框圖。

圖3描繪用于計(jì)算概率計(jì)數(shù)結(jié)構(gòu)的交集和并集的過程。

圖4描繪用于使用概率計(jì)數(shù)結(jié)構(gòu)識(shí)別聯(lián)結(jié)路徑的過程的實(shí)施方案。

圖5描繪用于識(shí)別多個(gè)列中的兩個(gè)之間的聯(lián)結(jié)路徑的過程的實(shí)施方案。

圖6是描繪可以實(shí)踐本公開的方面的計(jì)算環(huán)境的實(shí)施方案的框圖。

圖7是描繪可以實(shí)踐本公開的方面的計(jì)算系統(tǒng)的實(shí)施方案的框圖。

具體實(shí)施方式

本公開的方面可以被采用以識(shí)別可以用于在事務(wù)數(shù)據(jù)上執(zhí)行分析操作的聯(lián)結(jié)關(guān)系。聯(lián)結(jié)關(guān)系可以用于各種目的,諸如用于生成分析查詢。在一些情況下,聯(lián)結(jié)關(guān)系可以用于生成可用于執(zhí)行分析的分層。

本公開的實(shí)施方案可以利用諸如超級(jí)重對(duì)數(shù)(hyperloglog)等概率數(shù)據(jù)結(jié)構(gòu)來識(shí)別列之間的聯(lián)結(jié)關(guān)系。實(shí)施方案可以為每一潛在相關(guān)的列生成概率數(shù)據(jù)結(jié)構(gòu),其中初始相關(guān)性估計(jì)可能基于諸如共同的數(shù)據(jù)類型等因素。實(shí)施方案可以基于兩個(gè)或多個(gè)概率數(shù)據(jù)結(jié)構(gòu)的交集或基于交集的并集估計(jì)列值之間的重合。然后可以將列值之間的重合用作用于識(shí)別列之間的聯(lián)結(jié)關(guān)系的依據(jù)。

概率數(shù)據(jù)結(jié)構(gòu)可能包括與諸如近似法或隨機(jī)化等各種統(tǒng)計(jì)技術(shù)有關(guān)的那些結(jié)構(gòu),以估計(jì)集合的基數(shù)。數(shù)據(jù)集的基數(shù)可能指代集合內(nèi)的截然不同的值的數(shù)量。概率數(shù)據(jù)結(jié)構(gòu)的示例包括與超級(jí)重對(duì)數(shù)、重對(duì)數(shù)(loglog)以及布隆過濾器技術(shù)有關(guān)的那些。術(shù)語超級(jí)重對(duì)數(shù)、重對(duì)數(shù)、最小哈希以及布隆過濾器可以用于指代對(duì)應(yīng)于所述技術(shù)的結(jié)構(gòu)。

概率數(shù)據(jù)結(jié)構(gòu)可能包括若干桶。每一桶可能對(duì)應(yīng)于數(shù)據(jù)流的細(xì)分并且可能包含有關(guān)細(xì)分內(nèi)的估計(jì)的基數(shù)的信息。所述數(shù)據(jù)流可以基于多種準(zhǔn)則進(jìn)行細(xì)分。在一些情況下,所述細(xì)分可能是基本上隨機(jī)的,在這種情況下桶可能對(duì)應(yīng)于數(shù)據(jù)集的基本上隨機(jī)的部分。這例如當(dāng)數(shù)據(jù)流使用某些哈希函數(shù)進(jìn)行細(xì)分時(shí)可能是如此情況。在其它情況下,細(xì)分可能基于諸如鍵范圍等非隨機(jī)準(zhǔn)則。

通常來說,可以通過掃描大的(且在一些情況下非常大的)數(shù)據(jù)集獲得數(shù)據(jù)流。概率數(shù)據(jù)結(jié)構(gòu)可以被用于以存儲(chǔ)器使用高效的方式估計(jì)大數(shù)據(jù)集的基數(shù)。然而,基數(shù)估計(jì)的準(zhǔn)確度可能取決于數(shù)據(jù)流中的細(xì)分的數(shù)量和概率數(shù)據(jù)結(jié)構(gòu)中的對(duì)應(yīng)桶的數(shù)量。

實(shí)施方案可以利用多個(gè)概率數(shù)據(jù)結(jié)構(gòu)以形成多個(gè)數(shù)據(jù)流中的數(shù)據(jù)之間的重合的估計(jì)。如本文所使用,術(shù)語數(shù)據(jù)流可能適用于來自數(shù)據(jù)庫管理系統(tǒng)的列數(shù)據(jù)。因此,實(shí)施方案可以利用多個(gè)概率數(shù)據(jù)結(jié)構(gòu)以形成多個(gè)數(shù)據(jù)列中的數(shù)據(jù)之間的重合估計(jì)。

圖1是描繪用于通過使用概率計(jì)數(shù)結(jié)構(gòu)以估計(jì)兩個(gè)列內(nèi)的字段重合從而識(shí)別聯(lián)結(jié)關(guān)系的系統(tǒng)和過程的實(shí)施方案的框圖。特定行內(nèi)的列的值,其可能被稱作字段,可能與另一字段重合,前提是兩個(gè)字段在行內(nèi)具有相同的值。實(shí)施方案可以基于重合頻率確定兩個(gè)列之間存在聯(lián)結(jié)路徑。

在圖1中,表格100可能包括某一數(shù)量的行114。每一行可能包括某一數(shù)量的列,諸如列102至106。特定列和特定行的交集可以被描述成字段。術(shù)語字段可以用于描述行和列的交集或在此種交集處的值。在圖1中,字段108可能對(duì)應(yīng)于列102,字段110可能對(duì)應(yīng)于列104,且字段112可能對(duì)應(yīng)于列106。在各種實(shí)施方案中,表格100的數(shù)據(jù)可以呈行向格式和/或列向格式存儲(chǔ)在一個(gè)或多個(gè)存儲(chǔ)設(shè)備上。

實(shí)施方案可以基于初始相關(guān)性估計(jì)識(shí)別某些列以用于分析。例如,實(shí)施方案可以確定列102和列106是潛在相關(guān)的。在一些情況下,初始估計(jì)可能基于數(shù)據(jù)類型。聯(lián)結(jié)路徑可能更有可能存在于相同數(shù)據(jù)類型、類似數(shù)據(jù)類型或可以轉(zhuǎn)換成共同數(shù)據(jù)類型的不同數(shù)據(jù)類型的列之間。舉非限制性例子來說,可以假定描繪的列102和106二者具有諸如整數(shù)數(shù)據(jù)類型等相同數(shù)據(jù)類型。

概率計(jì)數(shù)技術(shù)可以被利用以確定特定列內(nèi)的值的基數(shù)。例如,概率計(jì)數(shù)結(jié)構(gòu)116可以被形成用于字段112,并且用于提供對(duì)應(yīng)于列106的基數(shù)估計(jì)。類似地,概率計(jì)數(shù)結(jié)構(gòu)128可以被形成用于字段108,并且用于提供對(duì)應(yīng)于列102的基數(shù)估計(jì)。有關(guān)列的基數(shù)估計(jì)可能指示列的字段內(nèi)的若干獨(dú)特值。

概率計(jì)數(shù)結(jié)構(gòu)116可能包括若干桶118至126。諸如桶120等個(gè)別桶可能對(duì)應(yīng)于可能存在于字段112中的一系列值的基數(shù)或字段112中的一系列行的基數(shù)。

實(shí)施方案可能包括分析模塊146。分析模塊146可能包括可以計(jì)算概率計(jì)數(shù)結(jié)構(gòu)116和概率計(jì)數(shù)結(jié)構(gòu)128的交集的交集/并集程序140。這些結(jié)構(gòu)中的任何一個(gè)可以被直觀化為矢量。兩個(gè)矢量的交集可能包括新矢量,所述新矢量的要素包括兩個(gè)原始矢量的對(duì)應(yīng)要素的交集。例如,交集可以被計(jì)算成矢量,所述矢量的五個(gè)要素包括桶118和130、桶120和132、桶122和134、桶124和136以及桶126和138的交集。在圖1中,概率計(jì)數(shù)結(jié)構(gòu)116和128被描繪成分別具有五個(gè)桶。在各種情況和實(shí)施方案中,可以利用更多或更少的桶。

分析模塊146可能包括字段重合估計(jì)程序142。估計(jì)字段重合可能涉及利用概率數(shù)據(jù)結(jié)構(gòu)116和128的交集。所述交集可能例如被用于使用容斥原理確定字段108和112的并集的基數(shù)的估計(jì)。

實(shí)施方案可以利用字段108和112的并集的估計(jì)的基數(shù)。可能包括在分析模塊146中的聯(lián)結(jié)路徑確定程序144可以基于并集的估計(jì)的基數(shù)或基于交集而無需確定并集來識(shí)別列102與列106之間的聯(lián)結(jié)路徑。

圖2是描繪基于使用基數(shù)估計(jì)計(jì)算的估計(jì)的字段重合對(duì)兩個(gè)列之間的聯(lián)結(jié)路徑進(jìn)行識(shí)別的框圖。列200和列202可以被分析以確定兩個(gè)列200與202之間是否存在自然聯(lián)結(jié)路徑。列200可以被分析以形成基數(shù)估計(jì)220?;鶖?shù)估計(jì)220可能包括列200的總體基數(shù)的指示。類似地,基數(shù)估計(jì)222可能包括列202的總體基數(shù)的指示。

例如,在圖2中,列200據(jù)稱可能具有為2的整體基數(shù),且在字母表的“a至c”范圍內(nèi)具有為1的基數(shù),因?yàn)樽侄?04、206和210共享相同的值“a”,且字段208具有值“x”。列202據(jù)稱可能具有為3的整體基數(shù),且在“a至c”范圍內(nèi)具有為2的基數(shù),因?yàn)樽侄?12和218共享值“a”,字段214具有值“b”,且字段216具有值“y”。應(yīng)了解,這些示例意在對(duì)一般原理進(jìn)行說明,且不應(yīng)被理解成是對(duì)本公開的范圍的限制。在本文所描述的技術(shù)的應(yīng)用中,可能存在大量的字段值,且可能存在高基數(shù)值和可以計(jì)算基數(shù)的許多范圍。

基于諸如“a至c”范圍等各自范圍中的估計(jì)的基數(shù),實(shí)施方案可以執(zhí)行聯(lián)結(jié)路徑確定224以識(shí)別涉及列200和列202的聯(lián)結(jié)路徑。聯(lián)結(jié)路徑確定224可能基于基數(shù)估計(jì)代表的交集。聯(lián)結(jié)路徑確定224可能還基于基數(shù)估計(jì)代表的并集,所述并集可能基于經(jīng)由容斥原理的交集。

圖3描繪用于計(jì)算概率計(jì)數(shù)結(jié)構(gòu)的交集和并集的過程。概率計(jì)數(shù)結(jié)構(gòu)可能包括各種桶,諸如描繪的桶300和304。每一桶可能包含有關(guān)所述桶的基數(shù)估計(jì)的代表。如圖所示,基數(shù)估計(jì)302可能對(duì)應(yīng)于桶300,且基數(shù)估計(jì)306可能對(duì)應(yīng)于桶304。應(yīng)注意,因?yàn)槠浞謩e在兩個(gè)計(jì)算中使用,所以桶300和304以及對(duì)應(yīng)基數(shù)估計(jì)302和306在圖3中分別描繪兩次。

概率計(jì)數(shù)結(jié)構(gòu)的交集可能包括交集計(jì)算308。這可能包括基數(shù)估計(jì)302與基數(shù)估計(jì)306之間的交集。所述交集計(jì)算的性質(zhì)可能部分取決于基數(shù)估計(jì)的代表。在一些情況下,集合論的應(yīng)用可以用于形成對(duì)應(yīng)桶的交集或并集。在其它情況下,集合論可以作為整體應(yīng)用于所述代表。在其它情況下,桶的檢查可以支持計(jì)算兩個(gè)概率計(jì)數(shù)結(jié)構(gòu)的交集或并集的推理方法。例如,在超級(jí)重對(duì)數(shù)的情況下,對(duì)超級(jí)重對(duì)數(shù)桶的二進(jìn)制表示法中的前導(dǎo)零的檢查可以用于確定交集或并集。在一些實(shí)施方案中,可以在兩個(gè)基數(shù)代表之間執(zhí)行按位與操作。在圖3中,產(chǎn)生的結(jié)構(gòu)被描繪成基數(shù)估計(jì)的交集308。這可以通過減法計(jì)算312從基數(shù)估計(jì)302和基數(shù)估計(jì)306的和減去,所述和可以利用加法計(jì)算310獲得。加法計(jì)算310和減法計(jì)算312的性質(zhì)可能會(huì)基于基數(shù)估計(jì)是如何表示的而不同。

從基數(shù)估計(jì)302和206的和減去基數(shù)估計(jì)的交集308的結(jié)果可能是基數(shù)估計(jì)的并集314。在各種實(shí)施方案中,基數(shù)估計(jì)的并集314可能代表兩個(gè)列中的值之間的重疊程度。應(yīng)注意,各種實(shí)施方案可能支持使用本文所描述的各種技術(shù)的涉及多個(gè)列的分析。

圖4描繪用于使用概率計(jì)數(shù)結(jié)構(gòu)識(shí)別聯(lián)結(jié)路徑的過程的實(shí)施方案。雖然被描繪成一系列的要素,但是本領(lǐng)域技術(shù)人員應(yīng)了解,描繪的順序不應(yīng)被理解成是對(duì)本公開的范圍的限制,并且描繪的要素中的至少一些可以被改變、省略、重新排序、用額外要素補(bǔ)充或并行執(zhí)行。描繪的過程的實(shí)施方案可以使用包括由諸如本文所描述的計(jì)算系統(tǒng)等計(jì)算系統(tǒng)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的模塊實(shí)現(xiàn)。在一些情況下,描繪的過程的實(shí)施方案可以在分布式計(jì)算環(huán)境中實(shí)踐,在所述計(jì)算環(huán)境中表格由包括多個(gè)計(jì)算節(jié)點(diǎn)的分布式數(shù)據(jù)庫管理系統(tǒng)托管。分析操作可以由通信地耦合至分布式數(shù)據(jù)庫管理系統(tǒng)的計(jì)算節(jié)點(diǎn)執(zhí)行,并且所述計(jì)算節(jié)點(diǎn)包括分析模塊,諸如圖1中描繪的分析模塊146。

如由要素400所描繪,實(shí)施方案可以基于初始相關(guān)性估計(jì)選擇用于分析的列。所述初始估計(jì)可能包括識(shí)別表格的列或者具有共同數(shù)據(jù)類型的數(shù)據(jù)收集。實(shí)施方案可以將表格的列分成元組,所述元組包括相同或類似類型的列或可以轉(zhuǎn)換成相同或類似類型的列。初始估計(jì)可能還基于對(duì)有關(guān)行的各種列的字段值的取樣。在所述情況下,實(shí)施方案可以大體上避免在該階段掃描全表格。

實(shí)施方案可以識(shí)別列的多個(gè)元組以用于分析。如由要素402所描繪,實(shí)施方案可以啟動(dòng)對(duì)表格的掃描。實(shí)施方案可以基于在單次掃描期間構(gòu)建的概率計(jì)數(shù)結(jié)構(gòu)在多個(gè)元組上執(zhí)行分析。在一些情況和實(shí)施方案中,表格掃描可能包括全表格掃描。在其它情況和實(shí)施方案中,表格掃描可能是部分的。各種取樣技術(shù)可以被利用以減少與運(yùn)行全表格掃描相關(guān)聯(lián)的時(shí)間或其它成本。在涉及列存儲(chǔ)的情況下,可以執(zhí)行相關(guān)列的全掃描或部分掃描,以便形成有關(guān)每一選擇的列的概率計(jì)數(shù)結(jié)構(gòu)。

要素404和406描繪形成有關(guān)第一列的第一概率計(jì)數(shù)結(jié)構(gòu)和有關(guān)第二列的第二概率計(jì)數(shù)結(jié)構(gòu)的實(shí)施方案。所述列可能對(duì)應(yīng)于通過由要素400所描繪的操作選擇的列。概率計(jì)數(shù)結(jié)構(gòu)可能是超級(jí)重對(duì)數(shù)、重對(duì)數(shù)、布隆過濾器、最小哈希或其它類似結(jié)構(gòu)。實(shí)施方案可以被構(gòu)建以基于諸如存儲(chǔ)器效率、準(zhǔn)確度和在所述結(jié)構(gòu)的兩個(gè)或多個(gè)上執(zhí)行交集和/或并集操作符的可行性等因素利用特定類型的概率計(jì)數(shù)結(jié)構(gòu)。

形成有關(guān)列的超級(jí)重對(duì)數(shù)結(jié)構(gòu)可能包括為超級(jí)重對(duì)數(shù)結(jié)構(gòu)的桶分配存儲(chǔ)器。在要素402中啟動(dòng)的表格的掃描期間,哈希函數(shù)可以被應(yīng)用至有關(guān)每一行的第一列的值,并且可以存儲(chǔ)在對(duì)應(yīng)于哈希函數(shù)的輸出的桶中。產(chǎn)生的結(jié)構(gòu)可能代表隨機(jī)化分布,所述隨機(jī)化分布的基數(shù)與第一列的基數(shù)相關(guān)。分配用于桶的較大存儲(chǔ)器量允許實(shí)現(xiàn)更加細(xì)化的哈希函數(shù)以及更高準(zhǔn)確度用于估計(jì)基數(shù)。其它概率計(jì)數(shù)結(jié)構(gòu)可以類似方式形成。這些結(jié)構(gòu)可以在計(jì)算設(shè)備的存儲(chǔ)器中形成,或者在與計(jì)算設(shè)備通信地耦合的存儲(chǔ)設(shè)備上形成。在一些情況下,諸如對(duì)于超級(jí)重對(duì)數(shù),分配給結(jié)構(gòu)的空間量對(duì)應(yīng)于所述結(jié)構(gòu)所提供的基數(shù)估計(jì)的準(zhǔn)確度。在一些情況下,實(shí)施方案可以基于平衡以下因素來形成超級(jí)重對(duì)數(shù)或其它概率數(shù)據(jù)結(jié)構(gòu):可用存儲(chǔ)器或存儲(chǔ)空間以及所需的估計(jì)準(zhǔn)確度水平。

要素408描繪計(jì)算第一概率計(jì)數(shù)結(jié)構(gòu)和第二概率計(jì)數(shù)結(jié)構(gòu)的交集的實(shí)施方案。兩個(gè)概率計(jì)數(shù)結(jié)構(gòu)的交集可能包括對(duì)所述概率計(jì)數(shù)結(jié)構(gòu)中對(duì)應(yīng)的桶的交集的計(jì)算。實(shí)施方案然后可以利用所述交集來計(jì)算概率計(jì)數(shù)結(jié)構(gòu)的并集。所述交集可以例如使用圖3中描繪的程序計(jì)算。

如由要素410所描繪,實(shí)施方案可以形成第一列和第二列的字段之間的重合估計(jì)。所述估計(jì)可能基于所述交集,基于所述交集計(jì)算的并集,或基于不在所述交集中的要素的數(shù)量的確定。字段重合的估計(jì)可能基于使用容斥原理以計(jì)算由第一列的也存在于第二列中的成員組成的集合的估計(jì)的基數(shù)??蛇x地,字段重合的估計(jì)可能基于由第一列的也不存在于第二列中的成員以及第二列的也不存在于第一列中的成員組成的集合的基數(shù)。

如由要素412所描繪,實(shí)施方案可以基于估計(jì)的重合識(shí)別第一列與第二列之間的候選聯(lián)結(jié)路徑。這可能包括確定第一列和第二列中的值之間的重合程度高于閾值,其中所述確定至少基于第一概率數(shù)據(jù)結(jié)構(gòu)和第二概率數(shù)據(jù)結(jié)構(gòu)的交集或并集。較高的重合估計(jì)指示兩個(gè)列之間存在聯(lián)結(jié)路徑的可能性更大。因此,兩個(gè)列之間的聯(lián)結(jié)路徑的識(shí)別可能基于重合的估計(jì)高于閾值。

圖5描繪用于識(shí)別多個(gè)列中的兩個(gè)之間的聯(lián)結(jié)路徑的過程的實(shí)施方案。雖然被描繪成一系列要素,但是本領(lǐng)域技術(shù)人員應(yīng)了解,描繪的順序不應(yīng)被理解成是對(duì)本公開的范圍的限制,并且描繪的要素中的至少一些可以被改變、省略、重新排序、用額外要素補(bǔ)充或并行執(zhí)行。描繪的過程的實(shí)施方案可以使用包括由諸如本文所描述的計(jì)算系統(tǒng)等計(jì)算系統(tǒng)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的模塊實(shí)現(xiàn)。

如由要素500所描繪,實(shí)施方案可以從多個(gè)列中選擇至少第一列元組和第二列元組。列元組可能包括被選擇用于進(jìn)一步評(píng)估為潛在聯(lián)結(jié)路徑的兩個(gè)列。所述元組可以從共享相同或類似數(shù)據(jù)類型或可以轉(zhuǎn)換成共同數(shù)據(jù)類型的那些列中選擇。數(shù)據(jù)類型可能是初始相關(guān)性估計(jì)值的依據(jù)。在一些情況和實(shí)施方案中,額外因素可能包括列中的數(shù)據(jù)的初步取樣、基于列名稱的分析等。選擇列元組可能包括添加元組至保存在計(jì)算設(shè)備的存儲(chǔ)器中的列表結(jié)構(gòu)。然后可以訪問所述列表中的元組以進(jìn)行后續(xù)分析。

如由要素502所描繪,當(dāng)為元組中的每一獨(dú)特列構(gòu)建概率數(shù)據(jù)結(jié)構(gòu)時(shí),實(shí)施方案可以掃描表格(或另外處理數(shù)據(jù)流)。例如,如果元組是(列a、列b)和(列a、列c),那么實(shí)施方案可以形成三個(gè)概率數(shù)據(jù)結(jié)構(gòu),針對(duì)列a、列b和列c中的每一個(gè)有一個(gè)。如由要素504所描繪,然后可以計(jì)算每一元組中的列之間的交集。例如,實(shí)施方案可以計(jì)算列a的概率數(shù)據(jù)結(jié)構(gòu)和列b的概率數(shù)據(jù)結(jié)構(gòu)的交集,并且計(jì)算列a的概率數(shù)據(jù)結(jié)構(gòu)和列c的概率數(shù)據(jù)結(jié)構(gòu)的交集。掃描表格或另外處理數(shù)據(jù)流可能包括對(duì)表格中的行或流中的數(shù)據(jù)進(jìn)行逐記錄檢查。在一些情況下,掃描可能是完整的,即涉及檢查表格中的每一行或流中的要素。在其它情況下,掃描可能是部分的,例如利用取樣或跳過技術(shù)檢查表格中的行的子集或流中的記錄。

如由要素506所描繪,可以估計(jì)每一元組的列值重合程度。換句話說,可以針對(duì)列a相對(duì)于列b估計(jì)列值重合,以及針對(duì)列a相對(duì)于列c估計(jì)列值重合。估計(jì)的重合最高或高于某一閾值水平的這些元組可被識(shí)別成聯(lián)結(jié)路徑,如要素508中所示。圖4提供有關(guān)元組的重合程度估計(jì)和聯(lián)結(jié)路徑的識(shí)別的更多細(xì)節(jié)。

當(dāng)形成有關(guān)若干列的超級(jí)重對(duì)數(shù)或其它概率計(jì)數(shù)結(jié)構(gòu)時(shí),實(shí)施方案可以執(zhí)行初始掃描。結(jié)構(gòu)的大小可能會(huì)受到實(shí)施方案限制,以便遵從各種存儲(chǔ)器約束。然后可以執(zhí)行第二掃描,在此期間可以為較小數(shù)量的列形成較小數(shù)量的超級(jí)重對(duì)數(shù)或其它概率計(jì)數(shù)結(jié)構(gòu)??梢韵鄬?duì)于第一掃描期間形成的那些結(jié)構(gòu)增加這些結(jié)構(gòu)的大小。該方法降低了第一掃描中形成的概率計(jì)數(shù)結(jié)構(gòu)所需要的存儲(chǔ)器,并且提高了第二掃描期間形成的結(jié)構(gòu)的準(zhǔn)確度。第二掃描中使用的列可能是基于第一掃描期間形成的概率計(jì)數(shù)結(jié)構(gòu)被識(shí)別為是有希望的列。

本公開的實(shí)施方案可以結(jié)合許多類型的數(shù)據(jù)庫管理系統(tǒng)(“dbms”)一起采用。dbms是用于維持有組織數(shù)據(jù)收集的軟件和硬件系統(tǒng),在其上可以執(zhí)行存儲(chǔ)和檢索操作。在dbms中,數(shù)據(jù)通常按照關(guān)鍵值與額外數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行組織。所述關(guān)聯(lián)的性質(zhì)可能基于存在于數(shù)據(jù)收集中的現(xiàn)實(shí)世界關(guān)系,或者所述關(guān)聯(lián)可能是任意的。各種操作可以由dbms執(zhí)行,所述操作包括數(shù)據(jù)定義、查詢、更新和管理。一些dbms提供使用諸如結(jié)構(gòu)化查詢語言(“sql”)等查詢語言與數(shù)據(jù)庫的互動(dòng),而其它dbms使用包含操作的api,諸如put和get等。與數(shù)據(jù)庫的互動(dòng)可能還基于各種協(xié)議或標(biāo)準(zhǔn),諸如超文本標(biāo)記語言(“html”)和擴(kuò)展標(biāo)記語言(“xml”)。dbms可能包括各種架構(gòu)部件,諸如作用以在諸如固態(tài)驅(qū)動(dòng)器等一個(gè)或多個(gè)存儲(chǔ)設(shè)備上存儲(chǔ)數(shù)據(jù)的存儲(chǔ)引擎。

圖6是描繪可以實(shí)踐本發(fā)明的方面的分布式計(jì)算環(huán)境的示例的圖。各種用戶600a可以與在任何類型的計(jì)算設(shè)備602a上操作的各種客戶端應(yīng)用互動(dòng),以通過通信網(wǎng)絡(luò)604與在數(shù)據(jù)中心620內(nèi)的各種計(jì)算節(jié)點(diǎn)610a、610b和610c上執(zhí)行的過程通信??蛇x地,客戶端應(yīng)用602b可以在無用戶干預(yù)的情況下通信。通信網(wǎng)絡(luò)604可能包括通信技術(shù)的任何組合,包括互聯(lián)網(wǎng)、有線和無線局域網(wǎng)絡(luò)、光纖網(wǎng)絡(luò)、衛(wèi)星通信等??梢圆捎萌魏螖?shù)量的網(wǎng)絡(luò)協(xié)議。

與在數(shù)據(jù)中心620內(nèi)操作的計(jì)算節(jié)點(diǎn)610a、610b和610c上執(zhí)行的過程的通信可以經(jīng)由網(wǎng)關(guān)606和路由器608提供。也可以采用多種其它網(wǎng)絡(luò)配置。雖然圖6中未明確描繪,但是可以提供各種認(rèn)證機(jī)制、web服務(wù)層、業(yè)務(wù)對(duì)象或其它中間層以調(diào)整與在計(jì)算節(jié)點(diǎn)610a、610b和610c上執(zhí)行的過程的通信。這些中間層中的一些可能自身包括在計(jì)算節(jié)點(diǎn)中的一個(gè)或多個(gè)上執(zhí)行的過程。計(jì)算節(jié)點(diǎn)610a、610b和610c以及在上面執(zhí)行的過程可能還經(jīng)由路由器608彼此通信??蛇x地,可以采用分開的通信路徑。在一些實(shí)施方案中,數(shù)據(jù)中心620可以被配置以與額外數(shù)據(jù)中心通信,以使得計(jì)算節(jié)點(diǎn)以及在上面執(zhí)行的過程可以與在其它數(shù)據(jù)中心內(nèi)操作的計(jì)算節(jié)點(diǎn)和過程通信。

計(jì)算節(jié)點(diǎn)610a被描繪成駐留在包括一個(gè)或多個(gè)處理器616、一個(gè)或多個(gè)存儲(chǔ)器618和一個(gè)或多個(gè)存儲(chǔ)設(shè)備614的物理硬件上。計(jì)算節(jié)點(diǎn)610a上的過程可以結(jié)合操作系統(tǒng)一起執(zhí)行,或者可選地可以作為直接與諸如處理器616、存儲(chǔ)器618或存儲(chǔ)設(shè)備614等物理資源互動(dòng)的裸機(jī)過程執(zhí)行。

計(jì)算節(jié)點(diǎn)610b和610c被描繪成在虛擬機(jī)主機(jī)612上操作,所述虛擬機(jī)主機(jī)612可以提供對(duì)諸如物理處理器、存儲(chǔ)器和存儲(chǔ)設(shè)備等各種物理資源的共享訪問。可以采用任何數(shù)量的虛擬化機(jī)制以托管計(jì)算節(jié)點(diǎn)。

圖6中描繪的各種計(jì)算節(jié)點(diǎn)可以被配置以托管web服務(wù)、數(shù)據(jù)庫管理系統(tǒng)、業(yè)務(wù)對(duì)象、監(jiān)測(cè)和診斷設(shè)施等。計(jì)算節(jié)點(diǎn)可能指代各種類型的計(jì)算資源,諸如個(gè)人計(jì)算機(jī)、服務(wù)器、集群計(jì)算設(shè)備等。計(jì)算節(jié)點(diǎn)可能例如指代各種計(jì)算設(shè)備,諸如手機(jī)、智能電話、平板電腦、嵌入式設(shè)備等。當(dāng)呈硬件形式實(shí)現(xiàn)時(shí),計(jì)算節(jié)點(diǎn)大體上與被配置以存儲(chǔ)計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器以及被配置以讀取和執(zhí)行指令的一個(gè)或多個(gè)處理器相關(guān)聯(lián)。基于硬件的計(jì)算節(jié)點(diǎn)可能還包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備、網(wǎng)絡(luò)接口、通信總線、用戶接口設(shè)備等。計(jì)算節(jié)點(diǎn)還涵蓋虛擬計(jì)算資源,諸如使用或不使用管理程序、虛擬裸機(jī)環(huán)境等實(shí)現(xiàn)的虛擬機(jī)?;谔摂M化的計(jì)算節(jié)點(diǎn)可能具有對(duì)硬件資源的虛擬訪問以及非虛擬訪問。計(jì)算節(jié)點(diǎn)可以被配置以執(zhí)行操作系統(tǒng)以及一個(gè)或多個(gè)應(yīng)用程序。在一些實(shí)施方案中,計(jì)算節(jié)點(diǎn)可能還包括裸機(jī)應(yīng)用程序。

在至少一些實(shí)施方案中,實(shí)現(xiàn)本文所描述的技術(shù)中的一個(gè)或多個(gè)的一部分或全部的服務(wù)器可能包括通用計(jì)算機(jī)系統(tǒng),所述通用計(jì)算機(jī)系統(tǒng)包括一個(gè)或多個(gè)計(jì)算機(jī)可訪問介質(zhì)或被配置以訪問一個(gè)或多個(gè)計(jì)算機(jī)可訪問介質(zhì)。圖7描繪包括一個(gè)或多個(gè)計(jì)算機(jī)可訪問介質(zhì)或被配置以訪問一個(gè)或多個(gè)計(jì)算機(jī)可訪問介質(zhì)的通用計(jì)算機(jī)系統(tǒng)。在圖示的實(shí)施方案中,計(jì)算設(shè)備700包括經(jīng)由輸入/輸出(“i/o”)接口730耦合至系統(tǒng)存儲(chǔ)器720的一個(gè)或多個(gè)處理器710a、710b和/或710n(本文中可能單數(shù)稱作處理器710或復(fù)數(shù)稱作處理器710)。計(jì)算設(shè)備700進(jìn)一步包括耦合至i/o接口730的網(wǎng)絡(luò)接口740。

在各種實(shí)施方案中,計(jì)算設(shè)備700可能是包括一個(gè)處理器710的單處理器系統(tǒng)或包括幾個(gè)處理器710(例如,2個(gè)、4個(gè)、8個(gè)或另一合適的數(shù)量)的多處理器系統(tǒng)。處理器710可能是能夠執(zhí)行指令的任何合適的處理器。例如,在各種實(shí)施方案中,處理器610可能是實(shí)現(xiàn)多種指令集架構(gòu)(“isa”)中的任何一個(gè)的通用或嵌入式處理器,所述指令集架構(gòu)諸如x86、powerpc、sparc或mipsisa或任何其它合適的isa。在多處理器系統(tǒng)中,處理器610中的每一個(gè)可以共同但不一定實(shí)現(xiàn)相同的isa。

在一些實(shí)施方案中,圖形處理單元(“gpu”)712可以參與提供圖形渲染和/或物理處理能力。gpu可能例如包括專用于圖形計(jì)算的高度并行化處理器架構(gòu)。在一些實(shí)施方案中,處理器710和gpu712可以實(shí)現(xiàn)為相同類型設(shè)備中的一個(gè)或多個(gè)。

系統(tǒng)存儲(chǔ)器720可以被配置以存儲(chǔ)可由處理器610訪問的指令和數(shù)據(jù)。在各種實(shí)施方案中,系統(tǒng)存儲(chǔ)器720可以使用任何合適的存儲(chǔ)器技術(shù)實(shí)現(xiàn),所述技術(shù)諸如靜態(tài)隨機(jī)存取存儲(chǔ)器(“sram”)、同步動(dòng)態(tài)ram(“sdram”)、非易失性/型存儲(chǔ)器或任何其它類型的存儲(chǔ)器。在圖示的實(shí)施方案中,實(shí)現(xiàn)一個(gè)或多個(gè)所需的功能的程序指令和數(shù)據(jù),諸如上面所描述的那些方法、技術(shù)和數(shù)據(jù),被示出作為代碼725和數(shù)據(jù)726存儲(chǔ)在系統(tǒng)存儲(chǔ)器720內(nèi)。

在一個(gè)實(shí)施方案中,i/o接口730可以被配置以協(xié)調(diào)處理器710、系統(tǒng)存儲(chǔ)器720與設(shè)備中的任何外設(shè)之間的i/o流量,包括網(wǎng)絡(luò)接口740或其它外圍接口。在一些實(shí)施方案中,i/o接口730可以執(zhí)行任何必要的協(xié)議、定時(shí)或其它數(shù)據(jù)變換,以將來自一個(gè)部件(例如,系統(tǒng)存儲(chǔ)器720)的數(shù)據(jù)信號(hào)轉(zhuǎn)換成適合于被另一部件(例如,處理器610)所使用的格式。在一些實(shí)施方案中,i/o接口730可能包括對(duì)利用各種類型的外圍總線附接的設(shè)備的支持,諸如像外圍部件互連(pci)總線標(biāo)準(zhǔn)或通用串行總線(“usb”)標(biāo)準(zhǔn)的變化形式。在一些實(shí)施方案中,i/o接口730的功能可以被分成兩個(gè)或多個(gè)分開的部件,諸如像北橋和南橋。而且,在一些實(shí)施方案中,i/o接口730的功能中的一些或全部,諸如至系統(tǒng)存儲(chǔ)器620的接口,可以直接并入處理器710中。

網(wǎng)絡(luò)接口740可以被配置以允許數(shù)據(jù)在計(jì)算設(shè)備700與附接至一個(gè)或多個(gè)網(wǎng)絡(luò)750的諸如像其它計(jì)算機(jī)系統(tǒng)或設(shè)備等其它一個(gè)或多個(gè)設(shè)備760之間交換。在各種實(shí)施方案中,網(wǎng)絡(luò)接口740可以支持經(jīng)由諸如以太網(wǎng)網(wǎng)絡(luò)類型等任何合適的有線或無線通用數(shù)據(jù)網(wǎng)絡(luò)的通信。另外,網(wǎng)絡(luò)接口740可以支持經(jīng)由諸如模擬語音網(wǎng)絡(luò)或數(shù)字光纖通信網(wǎng)絡(luò)等電信/電話網(wǎng)絡(luò)、經(jīng)由諸如光纖通道san(存儲(chǔ)區(qū)域網(wǎng))等存儲(chǔ)區(qū)域網(wǎng)絡(luò)或經(jīng)由任何其它合適類型的網(wǎng)絡(luò)和/或協(xié)議的通信。

在一些實(shí)施方案中,系統(tǒng)存儲(chǔ)器720可能是被配置以存儲(chǔ)如上所述用于實(shí)現(xiàn)對(duì)應(yīng)方法和裝置的實(shí)施方案的程序指令和數(shù)據(jù)的計(jì)算機(jī)可訪問介質(zhì)的一個(gè)實(shí)施方案。然而,在其它實(shí)施方案中,可以在不同類型的計(jì)算機(jī)可訪問介質(zhì)上接收、發(fā)送或存儲(chǔ)程序指令和/或數(shù)據(jù)。一般來說,計(jì)算機(jī)可訪問介質(zhì)可能包括諸如磁性介質(zhì)或光學(xué)介質(zhì)等非暫時(shí)性存儲(chǔ)介質(zhì)或存儲(chǔ)器介質(zhì),例如經(jīng)由i/o接口730耦合至計(jì)算設(shè)備700的磁盤或dvd/cd。非暫時(shí)性計(jì)算機(jī)可訪問存儲(chǔ)介質(zhì)可能還包括任何易失性或非易失性介質(zhì),諸如ram(例如,sdram、ddrsdram、rdram、sram等)、rom等,所述易失性或非易失性介質(zhì)可能包括在計(jì)算設(shè)備700的一些實(shí)施方案中作為系統(tǒng)存儲(chǔ)器720或另一類型的存儲(chǔ)器。另外,計(jì)算機(jī)可訪問介質(zhì)可能包括傳輸介質(zhì)或信號(hào),諸如經(jīng)由諸如那些可以經(jīng)由網(wǎng)絡(luò)接口740實(shí)現(xiàn)的網(wǎng)絡(luò)和/或無線鏈路等通信介質(zhì)傳送的電氣、電磁或數(shù)字信號(hào)。多個(gè)計(jì)算設(shè)備中的部分或全部,諸如圖7中所圖示的那些,可以被用于實(shí)現(xiàn)各種實(shí)施方案中描述的功能性;例如,在多種不同設(shè)備和服務(wù)器上運(yùn)行的軟件部件可以協(xié)作以提供所述功能性。在一些實(shí)施方案中,補(bǔ)充或替代使用通用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn),描述的功能性中的部分可以使用存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備或?qū)S糜?jì)算機(jī)系統(tǒng)實(shí)現(xiàn)。如本文所使用,術(shù)語“計(jì)算設(shè)備”指代至少所有這些類型的設(shè)備且并不限于這些類型的設(shè)備。

也可以被稱作計(jì)算節(jié)點(diǎn)的計(jì)算節(jié)點(diǎn)可以在諸如平板計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、智能電話、游戲控制臺(tái)、商品硬件計(jì)算機(jī)、虛擬機(jī)、web服務(wù)、計(jì)算集群和計(jì)算器具等多種計(jì)算環(huán)境中實(shí)現(xiàn)。為了方便起見,這些計(jì)算設(shè)備或環(huán)境中的任何一個(gè)可以被描述成計(jì)算節(jié)點(diǎn)或計(jì)算節(jié)點(diǎn)。

由諸如公司或公共部門組織等實(shí)體建立的用于提供可經(jīng)由互聯(lián)網(wǎng)和/或其它網(wǎng)絡(luò)可訪問的一個(gè)或多個(gè)web服務(wù)(諸如各種類型的基于云的計(jì)算或存儲(chǔ))至分布式客戶端集合的網(wǎng)路可以被稱為提供商網(wǎng)絡(luò)。此種提供商網(wǎng)絡(luò)可能包括托管諸如物理和/或虛擬計(jì)算機(jī)服務(wù)器、存儲(chǔ)設(shè)備、聯(lián)網(wǎng)設(shè)備等的集合等各種資源池的多種數(shù)據(jù)中心,需要所述多種數(shù)據(jù)中心以實(shí)現(xiàn)和分布由提供商網(wǎng)絡(luò)提供的基礎(chǔ)設(shè)施和web服務(wù)。在一些實(shí)施方案中,所述資源可以提供給與web服務(wù)有關(guān)的各種單元中的客戶端作為實(shí)例、作為相關(guān)服務(wù)的集合等,所述web服務(wù)諸如用于存儲(chǔ)的存儲(chǔ)容量的量、用于處理的處理能力。虛擬計(jì)算實(shí)例可能例如包括具有指定的計(jì)算能力(例如,可以通過指示cpu的類型和數(shù)量、主存儲(chǔ)器大小等來指定)和指定的軟件棧(例如,特定版本的操作系統(tǒng),所述操作系統(tǒng)可以繼而在管理程序上運(yùn)行)的一個(gè)或多個(gè)服務(wù)器。

可以單獨(dú)或組合使用若干不同類型的計(jì)算設(shè)備以實(shí)現(xiàn)不同實(shí)施方案中的提供商網(wǎng)絡(luò)的資源,所述計(jì)算設(shè)備包括通用或?qū)S糜?jì)算機(jī)服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備等。在一些實(shí)施方案中,可以向客戶端或用戶提供對(duì)資源實(shí)例的直接訪問,例如通過給予用戶管理員登錄和密碼。在其它實(shí)施方案中,提供商網(wǎng)絡(luò)操作程序可以允許客戶端指定有關(guān)指定的客戶端應(yīng)用的執(zhí)行要求并且代表客戶端安排應(yīng)用在適合于所述應(yīng)用的執(zhí)行平臺(tái)(諸如,應(yīng)用服務(wù)器實(shí)例、javatm虛擬機(jī)(“jvm”)、通用或?qū)S貌僮飨到y(tǒng)、支持諸如ruby、perl、python、c、c++等各種翻譯或編譯程序語言的平臺(tái)或高性能計(jì)算平臺(tái))上的執(zhí)行而無需例如要求客戶端直接訪問實(shí)例或執(zhí)行平臺(tái)。在一些實(shí)現(xiàn)中,給定的執(zhí)行平臺(tái)可以利用一個(gè)或多個(gè)資源實(shí)例;在其它實(shí)現(xiàn)中,多個(gè)執(zhí)行平臺(tái)可以映射至單個(gè)資源實(shí)例。

在許多環(huán)境中,實(shí)現(xiàn)不同類型的虛擬計(jì)算、存儲(chǔ)和/或其它網(wǎng)絡(luò)可訪問功能的提供商網(wǎng)絡(luò)的操作程序可以允許客戶以各種資源獲取模式預(yù)約或購買對(duì)資源的訪問。計(jì)算資源提供商可以提供設(shè)施供客戶選擇和啟動(dòng)所需的計(jì)算資源,部署用于計(jì)算資源的應(yīng)用部件,以及維持在環(huán)境中執(zhí)行的應(yīng)用。除此以外,計(jì)算資源提供商可以提供更多設(shè)施供客戶隨著應(yīng)用的需求或能力要求變化手動(dòng)地或利用自動(dòng)縮放快速地或容易地增加或減少分配給應(yīng)用的資源的數(shù)量和類型。由計(jì)算資源提供商提供的計(jì)算資源可以離散單元獲得,所述離散資源可以被稱作實(shí)例。實(shí)例可能代表物理服務(wù)器硬件平臺(tái)、在服務(wù)器上執(zhí)行的虛擬機(jī)實(shí)例或二者的某種組合??商峁└鞣N類型和配置的實(shí)例,包括執(zhí)行不同操作系統(tǒng)(“os”)和/或管理程序的不同大小的資源,且具有各種安裝的軟件應(yīng)用、運(yùn)行時(shí)間等。實(shí)例可以進(jìn)一步在特定可用性區(qū)域中使用,所述特定可用性區(qū)域代表例如邏輯區(qū)域、容錯(cuò)區(qū)域、數(shù)據(jù)中心或底層計(jì)算硬件的其它地理位置。實(shí)例可以在可用性區(qū)域內(nèi)或跨可用性區(qū)域復(fù)制,以提高實(shí)例的冗余,并且實(shí)例可以在特定可用性區(qū)域內(nèi)或跨可用性區(qū)域遷移。舉一個(gè)例子來說,客戶端與可用性區(qū)域中的特定服務(wù)器的通信的延時(shí)可能小于客戶端與不同服務(wù)器的通信的延時(shí)。為此,實(shí)例可以從較高延時(shí)服務(wù)器遷移至較低延時(shí)服務(wù)器,以改善整體客戶端體驗(yàn)。

在一些實(shí)施方案中,提供商網(wǎng)絡(luò)可以被組織到多個(gè)地理區(qū)域中,并且每一區(qū)域可能包括一個(gè)或多個(gè)可用性區(qū)域。繼而可用性區(qū)域(也可以稱作可用性容器)可能包括一個(gè)或多個(gè)截然不同的位置或數(shù)據(jù)中心,被配置以使得給定可用性區(qū)域中的資源可以與其它可用性區(qū)域中的故障隔開或隔絕。也就是說,一個(gè)可用性區(qū)域中的故障可能將不會(huì)導(dǎo)致任何其它可用性區(qū)域中的故障。因此,資源實(shí)例的可用性配置文件意在獨(dú)立于不同的可用性區(qū)域中的資源實(shí)例的可用性配置文件??蛻舳丝赡軌蛲ㄟ^在各自可用性區(qū)域中啟動(dòng)多個(gè)應(yīng)用實(shí)例來防止其應(yīng)用在單個(gè)位置處出故障。同時(shí),在一些實(shí)現(xiàn)中,可以在駐留在相同的地理區(qū)域內(nèi)的資源實(shí)例之間提供廉價(jià)且低延時(shí)的網(wǎng)絡(luò)連通性(并且相同可用性區(qū)域的資源之間的網(wǎng)絡(luò)傳輸可能會(huì)更快)。

前面的章節(jié)中所描述的過程、方法和算法中的每一個(gè)可能體現(xiàn)在由一個(gè)或多個(gè)計(jì)算機(jī)或計(jì)算機(jī)處理器執(zhí)行的代碼模塊中,且全部或部分被所述代碼模塊自動(dòng)化。所述代碼模塊可能存儲(chǔ)在諸如硬盤驅(qū)動(dòng)器、固態(tài)存儲(chǔ)器、光盤等任何類型的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)或計(jì)算機(jī)存儲(chǔ)設(shè)備上。所述過程和算法可以部分或全部在專用電路中實(shí)現(xiàn)。公開的過程和過程步驟的結(jié)果可以持久或另外存儲(chǔ)在諸如像易失性或非易失性存儲(chǔ)裝置等任何類型的非暫時(shí)性計(jì)算機(jī)存儲(chǔ)裝置中。

上面所描述的各種特征和過程可以彼此獨(dú)立地使用,或者可以各種方式組合。所有可能的組合和子組合意在落入本公開的范圍內(nèi)。除此以外,在一些實(shí)現(xiàn)中某些方法或過程塊可以省略。本文所描述的方法和過程也并不限于任何特定的順序,并且有關(guān)所述方法和過程的塊或狀態(tài)可以其它合適的順序執(zhí)行。例如,描述的塊或狀態(tài)可以按照除具體公開的次序以外的次序執(zhí)行,或多個(gè)塊或狀態(tài)可以以單個(gè)塊或狀態(tài)組合。示例性塊或狀態(tài)可以串行、并行或某一其它方式執(zhí)行??梢蕴砑訅K或狀態(tài)至公開的示例性實(shí)施方案,或者從所述公開的示例性實(shí)施方案移除塊或狀態(tài)。本文所描述的示例性系統(tǒng)和部件可以按照與所描述的方式不同的方式配置。例如,可以添加要素至公開的示例性實(shí)施方案,從所述公開的示例性實(shí)施方案移除所述要素,或與所述公開的實(shí)施方案相比重新布置所述要素。

除此以外,鑒于以下條款,可以更好地理解前述內(nèi)容:

1.一種用于識(shí)別事務(wù)數(shù)據(jù)中的分析關(guān)系的系統(tǒng),所述系統(tǒng)包括:

一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn),其維持包括多個(gè)行的表格;

上面存儲(chǔ)有計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器,所述計(jì)算機(jī)可讀指令當(dāng)由計(jì)算設(shè)備執(zhí)行時(shí)引起所述系統(tǒng)至少:

選擇所述多個(gè)行中的第一列和第二列,其中至少部分基于所述第一列與所述第二列之間的第一相關(guān)性估計(jì)選擇所述第一列和所述第二列;

至少部分基于所述多個(gè)行中的第一多個(gè)字段形成第一超級(jí)重對(duì)數(shù),所述第一多個(gè)字段對(duì)應(yīng)于所述第一列;

至少部分基于所述多個(gè)行中的第二多個(gè)字段形成第二超級(jí)重對(duì)數(shù),所述第二多個(gè)字段對(duì)應(yīng)于所述第二列;

計(jì)算所述第一超級(jí)重對(duì)數(shù)和所述第二超級(jí)重對(duì)數(shù)的交集;以及

至少部分基于所述第一多個(gè)字段中的字段與所述第二多個(gè)字段中的字段之間的第二重合估計(jì)識(shí)別所述第一列與所述第二列之間的聯(lián)結(jié)路徑,所述第二估計(jì)至少部分基于所述交集。

2.如條款1所述的系統(tǒng),其進(jìn)一步包括上面存儲(chǔ)有計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器,所述計(jì)算機(jī)可讀指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)引起所述系統(tǒng)至少:

基于所述第一列和所述第二列共同的數(shù)據(jù)類型形成所述第一相關(guān)性估計(jì)。

3.如條款1所述的系統(tǒng),其進(jìn)一步包括上面存儲(chǔ)有計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器,所述計(jì)算機(jī)可讀指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)引起所述系統(tǒng)至少:

通過至少將有關(guān)所述第一列和所述第二列的所述第二重合估計(jì)與有關(guān)兩個(gè)或多個(gè)額外列的額外重合估計(jì)進(jìn)行比較來識(shí)別所述聯(lián)結(jié)路徑。

4.如條款1所述的系統(tǒng),其進(jìn)一步包括上面存儲(chǔ)有計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器,所述計(jì)算機(jī)可讀指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)引起所述系統(tǒng)至少:

通過至少從所述第一超級(jí)重對(duì)數(shù)和所述第二超級(jí)重對(duì)數(shù)的并集減去所述第一超級(jí)重對(duì)數(shù)和所述第二超級(jí)重對(duì)數(shù)的所述交集來形成所述第二重合估計(jì)。

5.如條款1所述的系統(tǒng),其進(jìn)一步包括上面存儲(chǔ)有計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)存儲(chǔ)器,所述計(jì)算機(jī)可讀指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算節(jié)點(diǎn)執(zhí)行時(shí)引起所述系統(tǒng)至少:

通過至少執(zhí)行所述多個(gè)行的第一掃描來形成多個(gè)超級(jí)重對(duì)數(shù);以及

通過至少執(zhí)行所述多個(gè)行的第二掃描來形成所述第一超級(jí)重對(duì)數(shù),其中所述第一超級(jí)重對(duì)數(shù)的大小大于在所述第一掃描期間形成的所述多個(gè)超級(jí)重對(duì)數(shù)中的超級(jí)重對(duì)數(shù)的大小。

6.一種上面存儲(chǔ)有指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述指令當(dāng)由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

至少部分基于多個(gè)行中的第一多個(gè)字段形成第一概率計(jì)數(shù)結(jié)構(gòu),所述第一多個(gè)字段對(duì)應(yīng)于所述多個(gè)行中的第一列;

至少部分基于所述多個(gè)行中的第二多個(gè)字段形成第二概率計(jì)數(shù)結(jié)構(gòu),所述第二多個(gè)字段對(duì)應(yīng)于所述多個(gè)行中的第二列;

計(jì)算所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的交集;以及

至少部分基于所述第一多個(gè)字段中的字段與所述第二多個(gè)字段中的字段之間的重合估計(jì)識(shí)別所述第一列與所述第二列之間的聯(lián)結(jié)路徑,所述重合估計(jì)至少部分基于所述交集。

7.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括進(jìn)一步的指令,所述指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

至少部分基于所述第一列和所述第二列共同的數(shù)據(jù)類型選擇所述第一列和所述第二列以用于形成所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)。

8.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括進(jìn)一步的指令,所述指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

通過至少將有關(guān)所述第一列和所述第二列的所述重合估計(jì)與有關(guān)兩個(gè)或多個(gè)額外列的額外重合估計(jì)進(jìn)行比較來識(shí)別所述聯(lián)結(jié)路徑。

9.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括進(jìn)一步的指令,所述指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

通過至少從所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的并集減去所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的所述交集來形成所述重合估計(jì)。

10.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述重合估計(jì)至少部分基于對(duì)不包括在所述交集中的字段的計(jì)數(shù)。

11.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括進(jìn)一步的指令,所述指令由當(dāng)所述一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

通過至少執(zhí)行所述多個(gè)行的第一掃描和所述多個(gè)行的第二掃描來形成所述第一概率計(jì)數(shù)結(jié)構(gòu),其中針對(duì)所述第二掃描增加所述第一概率計(jì)數(shù)結(jié)構(gòu)的大小。

12.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括進(jìn)一步的指令,所述指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行時(shí)引起所述一個(gè)或多個(gè)計(jì)算設(shè)備至少:

通過至少合并所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)中的對(duì)應(yīng)桶來計(jì)算所述交集。

13.如條款6所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述概率計(jì)數(shù)結(jié)構(gòu)包括重對(duì)數(shù)、超級(jí)重對(duì)數(shù)、布隆過濾器或最小哈希中的至少一個(gè)。

14.一種用于識(shí)別事務(wù)數(shù)據(jù)中的分析關(guān)系的計(jì)算機(jī)實(shí)現(xiàn)方法,所述方法包括:

至少部分基于掃描對(duì)應(yīng)于第一列的第一多個(gè)字段來在計(jì)算設(shè)備的存儲(chǔ)器中形成第一概率計(jì)數(shù)結(jié)構(gòu),所述第一多個(gè)字段存儲(chǔ)在通信地耦合至所述計(jì)算設(shè)備的一個(gè)或多個(gè)存儲(chǔ)設(shè)備上;

至少部分基于對(duì)應(yīng)于第二列的第二多個(gè)字段來在所述計(jì)算設(shè)備的所述存儲(chǔ)器中形成第二概率計(jì)數(shù)結(jié)構(gòu),所述第二多個(gè)字段存儲(chǔ)在所述一個(gè)或多個(gè)存儲(chǔ)設(shè)備上;

計(jì)算所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的交集;以及

至少部分基于所述第一多個(gè)字段中的字段與所述第二多個(gè)字段中的字段之間的重合估計(jì)識(shí)別所述第一列與所述第二列之間的聯(lián)結(jié)路徑,所述重合估計(jì)至少部分基于所述交集。

15.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其進(jìn)一步包括:

至少部分基于所述第一列和所述第二列共同的數(shù)據(jù)類型選擇所述第一列和所述第二列以用于形成所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)。

16.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其進(jìn)一步包括:

通過至少將有關(guān)所述第一列和所述第二列的所述重合估計(jì)與有關(guān)兩個(gè)或多個(gè)額外列的額外重合估計(jì)進(jìn)行比較來識(shí)別所述聯(lián)結(jié)路徑。

17.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其進(jìn)一步包括:

通過從所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的并集減去所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)的所述交集來形成所述重合估計(jì)。

18.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其中所述重合估計(jì)至少部分基于對(duì)不包括在所述交集中的字段的概率地確定的計(jì)數(shù)。

19.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其進(jìn)一步包括:

至少部分基于所述識(shí)別的聯(lián)結(jié)路徑形成分層。

20.如條款14所述的計(jì)算機(jī)實(shí)現(xiàn)方法,其進(jìn)一步包括:

通過至少合并所述第一概率計(jì)數(shù)結(jié)構(gòu)和所述第二概率計(jì)數(shù)結(jié)構(gòu)中的對(duì)應(yīng)桶來計(jì)算所述交集。

還應(yīng)了解,各種項(xiàng)目被圖示成當(dāng)使用時(shí)存儲(chǔ)在存儲(chǔ)器或存儲(chǔ)裝置上,且這些項(xiàng)目或其部分可以在存儲(chǔ)器與其它存儲(chǔ)設(shè)備之間傳遞以用于存儲(chǔ)器管理和數(shù)據(jù)完整性的目的??蛇x地,在其它實(shí)施方案中,軟件模塊和/或系統(tǒng)中的一些或全部可以另一設(shè)備上的存儲(chǔ)器中執(zhí)行,并且經(jīng)由計(jì)算機(jī)間通信與圖示的計(jì)算系統(tǒng)通信。另外,在一些實(shí)施方案中,系統(tǒng)和/或模塊中的一些或全部可以其它方式實(shí)現(xiàn)或提供,諸如至少部分在固件和/或硬件中,包括但不限于一個(gè)或多個(gè)專用集成電路(“asic”)、標(biāo)準(zhǔn)集成電路、控制器(例如,通過執(zhí)行合適的指令,且包括微控制器和/或嵌入式控制器)、現(xiàn)場(chǎng)可編程門陣列(“fpga”)、復(fù)雜可編程邏輯設(shè)備(“cpld”)等。模塊、系統(tǒng)和數(shù)據(jù)結(jié)構(gòu)中的一些或全部可能還存儲(chǔ)(例如,作為軟件指令或結(jié)構(gòu)數(shù)據(jù))在計(jì)算機(jī)可讀介質(zhì)上,所述計(jì)算機(jī)可讀介質(zhì)諸如硬盤、存儲(chǔ)器、網(wǎng)絡(luò)或?qū)⒂珊线m的設(shè)備進(jìn)行讀取或經(jīng)由合適連接的便攜式介質(zhì)產(chǎn)品。所述系統(tǒng)、模塊和數(shù)據(jù)結(jié)構(gòu)還可以作為生成的數(shù)據(jù)信號(hào)(例如,作為載波或其它模擬或數(shù)字傳播信號(hào)的一部分)在包括基于無線的和基于有線/電纜的介質(zhì)的多種計(jì)算機(jī)可讀傳輸介質(zhì)上傳輸,并且可能采用多種形式(例如,作為單個(gè)或多路復(fù)用模擬信號(hào)的一部分,或者作為多個(gè)離散數(shù)字包或幀)。在其它實(shí)施方案中,所述計(jì)算機(jī)程序產(chǎn)品可能還采用其它形式。因此,本發(fā)明可以用其它計(jì)算機(jī)系統(tǒng)配置實(shí)踐。

除非另有特別說明或者另外根據(jù)使用在上下文內(nèi)理解,否則尤其諸如“可能(can、could、might、may)”、“例如”等本文使用的條件語言通常意在表達(dá)某些實(shí)施方案包括而其它實(shí)施方案不包括某些特征、要素和/或步驟。因此,所述條件語言一般并非意在暗示特征、要素和/或步驟無論如何都是一個(gè)或多個(gè)實(shí)施方案所必需的,或者一個(gè)或多個(gè)實(shí)施方案都必然包括用于無論有或沒有作者輸入或提示決定任何特定實(shí)施方案中是否包括或?qū)?zhí)行這些特征、要素和/或步驟的邏輯。術(shù)語“包括(comprising)”、“包括(including)”、“具有”等是同義詞且以開放式方式含有地使用,且不排除額外要素、特征、動(dòng)作、操作等。而且,術(shù)語“或”用于包含含義(而并非排他含義),以使得例如當(dāng)使用以連接至要素的列表,所述術(shù)語“或”表示所述列表中的要素中的一個(gè)、一些或全部。

雖然已經(jīng)描述了某些示例性實(shí)施方案,但是這些實(shí)施方案僅已通過舉例的方式介紹,且并非意在限制本文所公開的本發(fā)明的范圍。因此,前面的描述并非意在暗示任何特定特征、特性、步驟、模塊或塊是必需的或不可缺少的。實(shí)際上,本文所描述的新穎方法和系統(tǒng)可以體現(xiàn)為多種其它形式;另外,可以在不脫離本文所公開的本發(fā)明的精神的情況下對(duì)本文所描述的方法和系統(tǒng)的形式作出各種省略、替換和變更。附圖及其等效形式意在覆蓋將落入本文所公開的發(fā)明中的一些的范圍和精神內(nèi)的這些形式或修改。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
日喀则市| 越西县| 新兴县| 林州市| 界首市| 康保县| 鸡东县| 斗六市| 明溪县| 张家界市| 克拉玛依市| 上高县| 韶关市| 周宁县| 文安县| 泰兴市| 清远市| 个旧市| 饶平县| 平泉县| 凌海市| 教育| 安庆市| 大渡口区| 都安| 鸡泽县| 宣恩县| 建平县| 砀山县| 历史| 锡林郭勒盟| 都安| 清原| 华阴市| 柏乡县| 宜川县| 九龙县| 石嘴山市| 淮南市| 侯马市| 于田县|