欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法

文檔序號(hào):9708448閱讀:696來源:國知局
關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明數(shù)據(jù)處理領(lǐng)域,具體地,涉及一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法。
【背景技術(shù)】
[0002]關(guān)聯(lián)規(guī)則算法開始是由R.Agrawal等人提出的挖掘顧客交易數(shù)據(jù)中商品項(xiàng)目集間的關(guān)聯(lián)規(guī)則問題,它能夠從所有顧客的交易數(shù)據(jù)中挖掘出商品與商品之間的隱藏關(guān)系,比如買面包的顧客會(huì)順便買牛奶的概率比較大,這將非常利于大商場(chǎng)的貨物排放。
[0003]目前,數(shù)據(jù)關(guān)聯(lián)規(guī)則算法中常用的有兩種:一種是Apr1ri算法,另一種是FP-Growth算法 。Apr i or i算法由于需要不斷的構(gòu)造候選集、篩選候選集挖掘出頻繁項(xiàng)集,需要多次掃描原始數(shù)據(jù),數(shù)據(jù)源很大時(shí),執(zhí)行挖掘效率比較低下;FP-Growth算法則只需掃描原始數(shù)據(jù)兩遍,執(zhí)行挖掘效率相對(duì)比較高。
[0004]如果參與運(yùn)算的數(shù)據(jù)量達(dá)到一定的數(shù)量級(jí)別時(shí),調(diào)用相關(guān)的數(shù)據(jù)關(guān)聯(lián)規(guī)則算法,會(huì)創(chuàng)建非常多的文字節(jié)點(diǎn)數(shù)據(jù)存放在內(nèi)存中并進(jìn)行運(yùn)算,容易導(dǎo)致機(jī)器內(nèi)存不夠用并且算法執(zhí)行效率也比較低下。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于,針對(duì)上述問題,提出一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,以實(shí)現(xiàn)提高大數(shù)據(jù)量處理效率的優(yōu)點(diǎn)。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,包括:
對(duì)數(shù)據(jù)源運(yùn)用關(guān)聯(lián)規(guī)則算法得到相應(yīng)的頻繁一項(xiàng)集;從而過濾掉無用的非頻繁一項(xiàng),得到有用的頻繁一項(xiàng)集文件的步驟;
對(duì)上述得到的頻繁一項(xiàng)集進(jìn)行數(shù)字編碼化,從而得到數(shù)字編碼化的數(shù)據(jù)源的步驟; 以及
對(duì)上述數(shù)字編碼化后的數(shù)據(jù)源再次運(yùn)行關(guān)聯(lián)規(guī)則算法得到頻繁項(xiàng)集結(jié)果集的步驟。
[0007]優(yōu)選的,所述關(guān)聯(lián)規(guī)則算法:包括,Apr1ri算法或FP-Growth算法。
[0008]本發(fā)明的技術(shù)方案具有以下有益效果:
本發(fā)明的技術(shù)方案,先對(duì)數(shù)據(jù)源調(diào)用關(guān)聯(lián)規(guī)則算法得到頻繁一項(xiàng)集,不符合條件的項(xiàng)會(huì)被先過濾掉,減少了無用的數(shù)據(jù)參與后期的運(yùn)算。
[0009]對(duì)數(shù)據(jù)進(jìn)行編碼,使得參與算法運(yùn)算創(chuàng)建樹的過程中,對(duì)樹節(jié)點(diǎn)之間相互比較和查詢運(yùn)算更加有效率,而且占用的內(nèi)存也相對(duì)較小。達(dá)到提高大數(shù)據(jù)量處理效率的目的。
[0010]在經(jīng)濟(jì)上,本技術(shù)方案對(duì)服務(wù)器性能相對(duì)原算法要求比較低,降低服務(wù)器硬件成本。
[0011]在空間和時(shí)間上,節(jié)省了內(nèi)存的占用,提高了數(shù)據(jù)挖掘的執(zhí)行效率,算法性能相對(duì)提尚。
[0012]下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
【附圖說明】
[0013]圖1為現(xiàn)有的FP-Growth算法的運(yùn)算流程圖;
圖2為本發(fā)明實(shí)施例所述的關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法的流程圖;
圖3為本發(fā)明實(shí)施例所述的對(duì)數(shù)據(jù)源進(jìn)行數(shù)字編碼化的結(jié)果示意圖;
圖4為采用本發(fā)明實(shí)施例所述的關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法的數(shù)據(jù)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0014]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0015]一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,包括:
對(duì)數(shù)據(jù)源運(yùn)用關(guān)聯(lián)規(guī)則算法得到相應(yīng)的頻繁一項(xiàng)集;從而過濾掉無用的非頻繁一項(xiàng),得到有用的頻繁一項(xiàng)集文件的步驟;
對(duì)上述得到的頻繁一項(xiàng)集進(jìn)行數(shù)字編碼化,從而得到數(shù)字編碼化的數(shù)據(jù)源的步驟; 以及
對(duì)上述數(shù)字編碼化后的數(shù)據(jù)源再次運(yùn)行關(guān)聯(lián)規(guī)則算法得到頻繁項(xiàng)集結(jié)果集的步驟。[0〇16] 優(yōu)選的,關(guān)聯(lián)規(guī)則算法:包括,Apr1ri算法或FP-Growth算法。
[0017]如圖3所示,常用的關(guān)聯(lián)規(guī)則算法沒有對(duì)參與運(yùn)算的數(shù)據(jù)源數(shù)據(jù)類型進(jìn)行限制,比如FP-Growth算法,它內(nèi)用于存儲(chǔ)各個(gè)節(jié)點(diǎn)的樹結(jié)構(gòu),節(jié)點(diǎn)的內(nèi)容是用文字字符串進(jìn)行存儲(chǔ)在內(nèi)存中,很明顯存儲(chǔ)大量的數(shù)據(jù)節(jié)點(diǎn)會(huì)浪費(fèi)很多內(nèi)存空間,而且節(jié)點(diǎn)的內(nèi)容之間相互比較與查詢,也是非常的低效的
由此,本發(fā)明技術(shù)方案則是用編碼來描述節(jié)點(diǎn)的內(nèi)容,這樣不僅會(huì)節(jié)約內(nèi)存空間而且執(zhí)行效率也會(huì)提尚不少。
[0018]如圖1所示,現(xiàn)有關(guān)聯(lián)規(guī)則算法(FP-Growth算法),直接對(duì)數(shù)據(jù)源數(shù)據(jù)進(jìn)行挖掘處理
如圖2所示,本發(fā)明技術(shù)方案,在挖掘數(shù)據(jù)前,需要對(duì)數(shù)據(jù)源進(jìn)行分析加工壓縮處理首先對(duì)事務(wù)數(shù)據(jù)源調(diào)用關(guān)聯(lián)規(guī)則算法得到所有數(shù)據(jù)的頻繁一項(xiàng)集結(jié)果集進(jìn)行編碼化,在利用前面的編碼,再對(duì)之前的事務(wù)數(shù)據(jù)源進(jìn)行編碼化如圖4所示,最后用編碼化的事務(wù)數(shù)據(jù)進(jìn)行參與關(guān)聯(lián)規(guī)則算法(比如FP-Growth算法)運(yùn)算,得到所需要的頻繁項(xiàng)集結(jié)果集其中:下文具體對(duì)頻繁一項(xiàng)與頻繁項(xiàng)集進(jìn)行說明:
如:顧客消費(fèi)記錄customerl{牛奶,面包,雞蛋,香腸}; customer2{牛奶,面包,黃油,啤酒}; customer3 {牛奶,面包,黃油,肉}。
[0019]如果規(guī)定各種商品在不同的顧客消費(fèi)記錄里出現(xiàn)3次,那就是頻繁一項(xiàng),可以得出:牛奶,面包這兩種商品各出現(xiàn)3次,則牛奶和面包中的每一種商品都是頻繁一項(xiàng)。牛奶和面包的組合在不同的顧客消費(fèi)記錄中共出現(xiàn)了 3次,那它們整體稱為頻繁項(xiàng)集
其中,本發(fā)明技術(shù)方案符合頻繁一項(xiàng)的數(shù)據(jù)源數(shù)字編碼文件,其中過濾掉了無用的非頻繁一項(xiàng),而且又進(jìn)行了數(shù)字編碼化,這樣再參與數(shù)據(jù)關(guān)聯(lián)規(guī)則算法的運(yùn)算,效率會(huì)得到非常大的提升,同樣占用的內(nèi)存空間也會(huì)大大的減少。
[0020]本發(fā)明技術(shù)方案,在內(nèi)存使用量上,使用數(shù)字編碼代替文字參與數(shù)據(jù)關(guān)聯(lián)規(guī)則算法運(yùn)算,會(huì)比直接參與運(yùn)算的數(shù)據(jù)源所占用的內(nèi)存至少減少了 70%以上;
在運(yùn)行時(shí)間效率上,會(huì)使整個(gè)算法的執(zhí)行效率提高80%以上。
[0021]最后應(yīng)說明的是:以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,對(duì)于本領(lǐng)域的技術(shù)人員來說,其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,其特征在于,包括: 對(duì)數(shù)據(jù)源運(yùn)用關(guān)聯(lián)規(guī)則算法得到相應(yīng)的頻繁一項(xiàng)集;從而過濾掉無用的非頻繁一項(xiàng),得到有用的頻繁一項(xiàng)集文件的步驟; 對(duì)上述得到的頻繁一項(xiàng)集進(jìn)行數(shù)字編碼化,從而得到數(shù)字編碼化的數(shù)據(jù)源的步驟; 以及 對(duì)上述數(shù)字編碼化后的數(shù)據(jù)源再次運(yùn)行關(guān)聯(lián)規(guī)則算法得到頻繁項(xiàng)集結(jié)果集的步驟。2.根據(jù)權(quán)利要求1所述的關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,其特征在于,所述關(guān)聯(lián)規(guī)則算法:包括,Apr1ri算法或FP-Growth算法。
【專利摘要】本發(fā)明公開了一種關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)降維與壓縮方法,包括:對(duì)數(shù)據(jù)源運(yùn)用關(guān)聯(lián)規(guī)則算法得到相應(yīng)的頻繁一項(xiàng)集;從而過濾掉無用的非頻繁一項(xiàng),得到有用的頻繁一項(xiàng)集文件的步驟;對(duì)上述得到的頻繁一項(xiàng)集進(jìn)行數(shù)字編碼化,從而得到數(shù)字編碼化的數(shù)據(jù)源的步驟;以及對(duì)上述數(shù)字編碼化后的數(shù)據(jù)源再次運(yùn)行數(shù)據(jù)關(guān)聯(lián)規(guī)則算法得到頻繁項(xiàng)集結(jié)果集的步驟。達(dá)到提高大數(shù)據(jù)量處理效率的目的。
【IPC分類】G06F17/30
【公開號(hào)】CN105468750
【申請(qǐng)?zhí)枴緾N201510838047
【發(fā)明人】江海國
【申請(qǐng)人】央視國際網(wǎng)絡(luò)無錫有限公司
【公開日】2016年4月6日
【申請(qǐng)日】2015年11月26日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
兴业县| 景宁| 萨迦县| 西乌| 出国| 杭州市| 赤城县| 射洪县| 勃利县| 革吉县| 莱州市| 镇平县| 贵阳市| 辽阳县| 宣恩县| 阳山县| 汶上县| 平和县| 武强县| 镇雄县| 安岳县| 滁州市| 榕江县| 彝良县| 海伦市| 启东市| 江达县| 潼南县| 兴海县| 仙桃市| 连城县| 体育| 房产| 辉县市| 扎兰屯市| 马山县| 洛扎县| 黔西县| 拉萨市| 察隅县| 东莞市|