欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自動生成近似函數(shù)依賴規(guī)則的方法

文檔序號:6381802閱讀:608來源:國知局
專利名稱:一種自動生成近似函數(shù)依賴規(guī)則的方法
技術(shù)領(lǐng)域
本發(fā)明涉及到一種數(shù)據(jù)庫的處理方法,尤其涉及到一種自動生成近似函數(shù)依賴規(guī)則的方法。
背景技術(shù)
隨著社交網(wǎng)絡(luò)、移動計算和傳感器等新的渠道和技術(shù)不斷涌現(xiàn),大量新型數(shù)據(jù)應(yīng)運而生。我們生活在一個數(shù)據(jù)成指數(shù)式急劇增的時代,常規(guī)技術(shù)已經(jīng)難以應(yīng)對PB(1024TB)級的大規(guī)模數(shù)據(jù)量。分析調(diào)研機構(gòu)IDC在其發(fā)布的數(shù)字宇宙研究報告(Digital Universe Study)-
《從混沛中提取價值》(Extracting Value from Chaos)中指出,全球信息總量每過兩年,就會增長一倍。2011年,全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB。相較2010年同期,這一數(shù)據(jù)上漲了超過1ZB。在被創(chuàng)建的信息數(shù)據(jù)總量中,有75%來自于個人,這包括文字、圖片、視頻和音樂。這些個人數(shù)據(jù)的蔓延增速要比數(shù)據(jù)的創(chuàng)建速度更加迅猛。不過,在報告中IDC同時也認(rèn)為,企業(yè)級的應(yīng)用數(shù)據(jù)有朝一日將會占據(jù)數(shù)據(jù)總量的80%。如何從這些爆炸式增長的數(shù)據(jù)量中,收集、存儲和發(fā)掘利用海量數(shù)據(jù)以獲取洞見,為世界經(jīng)濟創(chuàng)造巨大的價值,是人們急需面對的一個難題。麥肯錫全球研究院在它的《海量數(shù)據(jù)創(chuàng)新、競爭和提高生產(chǎn)率的下一個新領(lǐng)域》報告中預(yù)測,擅用海量數(shù)據(jù)產(chǎn)生價值的行業(yè)巨頭戰(zhàn)勝不擅利用海量數(shù)據(jù)的對手,已經(jīng)越來越成為了顯性的趨勢。在當(dāng)前海量數(shù)據(jù)環(huán)境下或者大數(shù)據(jù)時代,怎樣快速的找出數(shù)據(jù)之間的規(guī)則,分析、挖掘數(shù)據(jù)的規(guī)律,為企業(yè)決策者提供建設(shè)性的建議,是IT技術(shù)人員需要考慮的問題。本發(fā)明正是在此背景之下,針對海量數(shù)據(jù),提出的一種新的、適用海量數(shù)據(jù)環(huán)境的一種自動生成近似函數(shù)依賴規(guī)則的方法。

發(fā)明內(nèi)容
為了實現(xiàn)本發(fā)明目的,本發(fā)明提供一種自動生成近似函數(shù)依賴規(guī)則的方法。所述自動生成近似函數(shù)依賴規(guī)則的方法包含以下幾個步驟步驟SlOO :對數(shù)據(jù)庫r的所有列進(jìn)行掃描分析,生成候選列R,并構(gòu)建所述候選列R各列的分區(qū)P (R);步驟S200 :對所述候選列R按照一定的順序排序,采用策略搜索出所有滿足條件的規(guī)則左部;步驟S300 :對所述策略搜索的搜索空間,采用修剪規(guī)則進(jìn)行修剪,壓縮所述策略搜索的搜索空間;步驟S400 :對所述壓縮的搜索空間進(jìn)行計算并生成近似函數(shù)依賴規(guī)則的右部,同時生成近似函數(shù)依賴規(guī)則。應(yīng)當(dāng)理解,以上總體說明和以下詳細(xì)說明都是說明性和實例性的,旨在提供對所要求的本發(fā)明的進(jìn)一步說明。


所包含的附圖用于提供對本發(fā)明的進(jìn)一步理解,其被并入說明書并構(gòu)成其一部分,

了本發(fā)明的實施例,并與說明書一起用于理解本發(fā)明的原理。圖1是本發(fā)明一種自動生成近似函數(shù)依賴規(guī)則的方法流程圖。。圖2是本發(fā)明較佳實施例的計算生成近似函數(shù)依賴規(guī)則的右部的方法流程圖。圖3是本發(fā)明較佳實施例的計算當(dāng)前freesetCol的閉集closedCol和候選子集candidates方法流程圖。圖4是本發(fā)明較佳實施例的逆序遍歷候選子集candidates方法流程圖。圖5是本發(fā)明較佳實施例的遞增策略搜索結(jié)構(gòu)圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用于解釋本發(fā)明,并不用于限定本發(fā)明。相關(guān)概念和定義函數(shù)依賴(functional dependency,簡稱FD):是指關(guān)系數(shù)據(jù)庫中列與列之間的關(guān)系,其含義為一個列的值由其他某些列的值唯一確定,比如:一數(shù)據(jù)庫中,郵政編碼是由城市和街道地址決定的??紤]數(shù)據(jù)庫r ,定義r中所有列的集合為R,函數(shù)依賴可描述為:X — A,其中X ER,A e R對r中的所有數(shù)據(jù)組合t和U,當(dāng)對所有的B e X都有t [B] = u [B]時,t [A] = u [A],則稱函數(shù)依賴X — A在r上成立。即如果在數(shù)據(jù)庫r中,X列的值相同時,A的值也相同,則X — A成立。對于X — A,如果不存在一個X的子集Y,使得Y — A成立,則稱函數(shù)依賴X — A是最小的,或稱Y — A是冗余的。如果A e X,則X — A是沒有意義的。函數(shù)依賴挖掘的中心任務(wù)是從數(shù)據(jù)庫中挖掘出所有非冗余的且有意義的規(guī)則。近似函數(shù)依賴:是指函數(shù)依賴X —A近似成立。比如一個人姓名中的名通常決定了性別。近似函數(shù)依賴評價標(biāo)準(zhǔn)有多種,最常用的是依據(jù)從數(shù)據(jù)庫r最少刪除多少行后X — A成立。我們在此定義近似函數(shù)依賴X — A的誤差為需要最少刪除的行數(shù)比上數(shù)據(jù)總行數(shù),即e(X - A) = mi4|s||s c r,并且 X — A 在 r\s 上成立}/|r|。分區(qū)(Partition):通常使用分區(qū)來定義和計算函數(shù)依賴關(guān)系,考慮兩個元組t和U,對于列集X,如果對所有的B e X都有t [B] = u [B],則稱t和u關(guān)于X是相等的。通過將相同的元組存貯在一個塊c內(nèi)構(gòu)成X的分區(qū):P(X) = Ic1, c2, c3...cn}。如考慮以下表格中的3列數(shù)據(jù):表一.分區(qū)數(shù)據(jù)源表
元組id ABC
~IAX
~2IBX
權(quán)利要求
1.一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:所述一種自動生成近似函數(shù)依賴規(guī)則的方法包含以下幾個步驟: 步驟SlOO:對數(shù)據(jù)庫r的所有列進(jìn)行掃描分析,生成候選列R,并構(gòu)建所述候選列R各列的分區(qū)P(R); 步驟S200:對所述候選列R按照一定的順序排序,采用策略搜索出所有滿足條件的規(guī)則左部; 步驟S300:對所述策略搜索的搜索空間,采用修剪規(guī)則進(jìn)行修剪,壓縮所述策略搜索的搜索空間; 步驟S400:對所述壓縮的搜索空間進(jìn)行計算并生成近似函數(shù)依賴規(guī)則的右部,同時生成近似函數(shù)依賴規(guī)則。
2.如權(quán)利要求1所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:所述數(shù)據(jù)庫r為給定最小置信度C。
3.如權(quán)利要求1所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:步驟S200中所述的一定順序排序可為候選列R在數(shù)據(jù)庫中順序排序。
4.如權(quán)利要求1所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:步驟S200中所述的策略搜索可為逆序遞增搜索。
5.如權(quán)利要求1所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:步驟S400中所述的計算生成近似函數(shù)依賴規(guī)則的右部,同時生成近似函數(shù)依賴規(guī)則,包含以下幾個步驟: 步驟S401:初始化規(guī)則左部freesetCol,閉集closureCol,以及所述freesetCol對應(yīng)白勺分區(qū) P (freesetCol); 步驟S402:根據(jù)修剪規(guī)則進(jìn)行修剪,將剪去的列更新到closureCol,已修剪的列更新到 freesetCol ; 步驟S403:若所述freesetCol為非freeset,轉(zhuǎn)到步驟S408 ; 步驟S404:根據(jù)所述closureCol計算候選列集avaiIableCol ; 步驟S405:在所述候選列集availableCol中,計算當(dāng)前freesetCol的閉集closedCol和候選子集candidates ; 步驟S406:若所述closedCol為非空,貝U對所述closedCol中的每一個列col,生成近似函數(shù)依賴規(guī)則freesetCol — col并保存; 步驟S407:逆序遍歷所述候選子集candidates,并轉(zhuǎn)到步驟S401 ; 步驟S408:結(jié)束。
6.如權(quán)利要求1或5所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:所述的修剪規(guī)則可包含2種修剪規(guī)則。
7.如權(quán)利要求5所述的一種自動生成近似函數(shù)依賴規(guī)則的方法,其特征在于:步驟S405所述的計算當(dāng)前freesetCol的閉集closedCol和候選子集candidates,包含以下幾個步驟: 步驟S4051:逆序遍歷所述availableCol的列col是否結(jié)束,倘若結(jié)束則直接轉(zhuǎn)到步驟 S4057 ; 步驟 S4052:計算 P (freesetCol U col),并同時計算 e (freesetCol — col);步驟 S4053:判斷 e (freesetCol — col) < (l~c); 步驟 S4054:若 e (freesetCol — col) < (1-c),將 col 添加到 closedCol,更新所述closureCol,并轉(zhuǎn)到步驟 S4051 ; 步驟S4055:判斷所述col大于所述freesetCol中最大的列; 步驟S4056:若所述col大于所述freesetCol中最大的列,將col,P (freesetCol U col)信息保存到所述候選集candidates,并轉(zhuǎn)到步驟S4051 ;若所述col小于所述freesetCol中最大的列,則直接轉(zhuǎn)到步驟S4051 ; 步驟S4057:結(jié)束。
8.如權(quán)利要求5所述的一種自動生成 近似函數(shù)依賴規(guī)則的方法,其特征在于:步驟S407所述的逆序遍歷候選子集candidates,包含以下幾個步驟: 步驟S4071:逆序遍歷所述候選子集candidates的列col是否結(jié)束; 步驟S4072:未結(jié)束,則將col更新到所述freesetCol和closureCol ; 步驟S4073:從所述候選子集candidates中取出col對應(yīng)于的分區(qū)P (freesetCol U col),并設(shè)置為當(dāng)前分區(qū):P (freesetCol) = P (freesetCol U col),轉(zhuǎn)到步驟S401 ; 步驟S4074:遍歷下一 col前,回退freesetCol和closureCol到遍歷前的狀態(tài); 步驟S4075:結(jié)束。
全文摘要
本發(fā)明提供一種自動生成近似函數(shù)依賴規(guī)則的方法,所述自動生成近似函數(shù)依賴規(guī)則的方法包含以下幾個步驟步驟S100對數(shù)據(jù)庫r的所有列進(jìn)行掃描分析,生成候選列R,并構(gòu)建所述候選列R各列的分區(qū)P(R);步驟S200對所述候選列R按照一定的順序排序,采用策略搜索出所有滿足條件的規(guī)則左部;步驟S300對所述策略搜索的搜索空間,采用修剪規(guī)則進(jìn)行修剪,壓縮所述策略搜索的搜索空間;步驟S400對所述壓縮的搜索空間進(jìn)行計算并生成近似函數(shù)依賴規(guī)則的右部,同時生成近似函數(shù)依賴規(guī)則。本發(fā)明可自動挖掘、生成近似函數(shù)依賴規(guī)則,挖掘與生成的效率較高。
文檔編號G06F17/30GK103077181SQ20121047179
公開日2013年5月1日 申請日期2012年11月20日 優(yōu)先權(quán)日2012年11月20日
發(fā)明者王明興, 賈西貝 申請人:深圳市華傲數(shù)據(jù)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宁都县| 仁布县| 西乡县| 任丘市| 稷山县| 基隆市| 江陵县| 政和县| 浪卡子县| 枣庄市| 女性| 维西| 达日县| 陈巴尔虎旗| 平潭县| 荆门市| 肥城市| 泰州市| 东乌| 濮阳县| 饶平县| 突泉县| 德昌县| 吉木萨尔县| 陕西省| 固始县| 剑川县| 无锡市| 东台市| 社旗县| 乐业县| 安义县| 石门县| 逊克县| 舒城县| 博野县| 繁昌县| 金昌市| 高淳县| 宜宾县| 洛南县|