產(chǎn)生最大項(xiàng)目集的方法、基于Apriori分析成績(jī)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及統(tǒng)計(jì)計(jì)算分析技術(shù)領(lǐng)域的,具體地涉及產(chǎn)生最大項(xiàng)目集的方法和分析學(xué)生成績(jī)的方法、系統(tǒng)。
【背景技術(shù)】
[0002]目前學(xué)生成績(jī)分析算法中采用最多的是Apr1ri算法,Apr1ri算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集,而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域,根據(jù)Apr1ri算法,可綜合分析班級(jí)各分?jǐn)?shù)段、最高分、最低分、平均分、標(biāo)準(zhǔn)分、T值、優(yōu)良率等信息,但是數(shù)據(jù)挖掘技術(shù)在教育管理領(lǐng)域內(nèi)的研究相對(duì)較少,而學(xué)校對(duì)這些成績(jī)的處理一般還停留初級(jí)的查詢(xún)、簡(jiǎn)單匯總統(tǒng)計(jì)階段,對(duì)于學(xué)生取得這些成績(jī)的原因、某門(mén)課程的授課效果如何等問(wèn)題往往無(wú)法了解;而且在大數(shù)據(jù)分析情況下,采用一般的Apr1ri算法分析成績(jī)時(shí),首先在每一步產(chǎn)生候選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過(guò)多,沒(méi)有排除不應(yīng)該參與組合的元素,然后每次計(jì)算相集的支持度時(shí),如果數(shù)據(jù)庫(kù)很大,在掃描數(shù)據(jù)庫(kù)時(shí)會(huì)大大增加計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明為了解決現(xiàn)有技術(shù)中學(xué)生成績(jī)無(wú)法真實(shí)地被反映、Apr1ri算法在大數(shù)據(jù)分析中事務(wù)數(shù)據(jù)庫(kù)掃描次數(shù)過(guò)多、計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo)過(guò)大的問(wèn)題,提供了一種產(chǎn)生最大項(xiàng)目集的方法、分析學(xué)生成績(jī)的方法以及分析學(xué)生成績(jī)的系統(tǒng),該方法及系統(tǒng)可有效地反映學(xué)生成績(jī)的真實(shí)情況而且可有效地減少計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo)。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種產(chǎn)生最大項(xiàng)目集的方法包括:
[0005]步驟I,統(tǒng)計(jì)原項(xiàng)目中所有元素一一對(duì)應(yīng)的頻率;
[0006]步驟2,將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集;
[0007]步驟3,在所述頻繁項(xiàng)目集中存在小于所述預(yù)設(shè)支持度的項(xiàng)目的情況下,去除所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目,否則保留原頻繁項(xiàng)目集;
[0008]步驟4,一一判斷經(jīng)過(guò)步驟3之后的所述頻繁項(xiàng)目集中的元素的個(gè)數(shù)和循環(huán)次數(shù)減I的大小,初始循環(huán)次數(shù)為2 ;
[0009]I)當(dāng)所述頻繁項(xiàng)目集中的存在元素的個(gè)數(shù)小于和等于所述循環(huán)次數(shù)減I時(shí),則去除個(gè)數(shù)小于所述循環(huán)次數(shù)減I的元素所在的項(xiàng)目,組合形成新的頻繁項(xiàng)目集替換所述頻繁項(xiàng)目集,返回步驟3,循環(huán)次數(shù)加I ;
[0010]2)當(dāng)所述頻繁項(xiàng)目集中的所有元素的個(gè)數(shù)都等于循環(huán)次數(shù)減I時(shí),則組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。
[0011]優(yōu)選地,在步驟2中,通過(guò)逐層迭代將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集。
[0012]優(yōu)選的,在步驟I之前還包括:通過(guò)先驗(yàn)步驟判斷原項(xiàng)目是否已經(jīng)處理。
[0013]本發(fā)明還提供一種基于Apr1ri分析成績(jī)的方法,該方法包括:
[0014]算法分析步驟:根據(jù)上述的產(chǎn)生最大項(xiàng)目集的方法得到最大項(xiàng)目集;將基于Apr1ri算法產(chǎn)生的最大項(xiàng)目集通過(guò)正態(tài)分布原理算法得出學(xué)生成績(jī)的位置排名。
[0015]優(yōu)選的,在算法分析步驟之前,該方法還包括:步驟分析建模步驟:將基礎(chǔ)成績(jī)數(shù)據(jù)進(jìn)行分析并建模。
[0016]本發(fā)明還提供一種基于Apr1ri分析成績(jī)的系統(tǒng),該系統(tǒng)包括:
[0017]算法分析裝置:根據(jù)上述的產(chǎn)生最大項(xiàng)目集的方法得到最大項(xiàng)目集的裝置;將基于Apr1ri算法產(chǎn)生的最大項(xiàng)目集通過(guò)正態(tài)分布原理算法得出學(xué)生成績(jī)的位置排名的裝置。
[0018]優(yōu)選的,該系統(tǒng)還包括:步驟分析建模裝置:將基礎(chǔ)成績(jī)數(shù)據(jù)進(jìn)行分析并建模的
目.ο
[0019]本發(fā)明通過(guò)設(shè)置一種產(chǎn)生最大項(xiàng)目集的方法、分析學(xué)生成績(jī)的方法以及分析學(xué)生成績(jī)的系統(tǒng),可以有效地反映學(xué)生成績(jī)的真實(shí)情況而且可有效地減少計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo),通過(guò)在循環(huán)處理的過(guò)程中實(shí)現(xiàn)對(duì)出現(xiàn)元素的個(gè)數(shù)的計(jì)數(shù),并通過(guò)循環(huán)過(guò)程中的實(shí)現(xiàn)刪除某個(gè)元素,從而排出由于該元素導(dǎo)致的大規(guī)模的所有組合。
[0020]本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的【具體實(shí)施方式】部分予以詳細(xì)說(shuō)明。
【具體實(shí)施方式】
[0021]以下對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說(shuō)明。應(yīng)當(dāng)理解的是,此處所描述的【具體實(shí)施方式】?jī)H用于說(shuō)明和解釋本發(fā)明,并不用于限制本發(fā)明。
[0022]本發(fā)明提供了一種產(chǎn)生最大項(xiàng)目集的方法包括:
[0023]步驟I,統(tǒng)計(jì)原項(xiàng)目中所有元素一一對(duì)應(yīng)的頻率;
[0024]步驟2,將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集;
[0025]步驟3,在所述頻繁項(xiàng)目集中存在小于所述預(yù)設(shè)支持度的項(xiàng)目的情況下,去除所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目,否則保留原頻繁項(xiàng)目集;
[0026]步驟4,一一判斷經(jīng)過(guò)步驟3之后的所述頻繁項(xiàng)目集中的元素的個(gè)數(shù)和循環(huán)次數(shù)減I的大小,初始循環(huán)次數(shù)為2 ;
[0027]I)當(dāng)所述頻繁項(xiàng)目集中的存在元素的個(gè)數(shù)小于和等于所述循環(huán)次數(shù)減I時(shí),則去除個(gè)數(shù)小于所述循環(huán)次數(shù)減I的元素所在的項(xiàng)目,組合形成新的頻繁項(xiàng)目集替換所述頻繁項(xiàng)目集,返回步驟3,循環(huán)次數(shù)加I ;
[0028]2)當(dāng)所述頻繁項(xiàng)目集中的所有元素的個(gè)數(shù)都等于循環(huán)次數(shù)減I時(shí),則組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。
[0029]通過(guò)上述的實(shí)施方式,本發(fā)明的一種基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法通過(guò)步驟I和步驟2先統(tǒng)計(jì)原項(xiàng)目的所有元素一一對(duì)應(yīng)的頻率,然后將所有的元素組合得到頻繁項(xiàng)目集,通過(guò)步驟3先簡(jiǎn)單地將所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目去除掉,保留大于或等于所述預(yù)設(shè)支持度的原頻繁項(xiàng)目集,步驟4是再統(tǒng)計(jì)將經(jīng)過(guò)步驟3處理后的所述頻繁項(xiàng)目集中每個(gè)元素的個(gè)數(shù),將統(tǒng)計(jì)的個(gè)數(shù)和循環(huán)數(shù)減I的大小進(jìn)行比較(初始循環(huán)次數(shù)為2),排除小于或等于循環(huán)數(shù)減I的元素所在的項(xiàng)目,然后重新組合循環(huán)步驟3直至所述頻繁項(xiàng)目集中的所有元素的個(gè)數(shù)等于循環(huán)次數(shù)減1,得到組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。本發(fā)明提供的這種基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法,在步驟4中排除了不應(yīng)該參與組合的元素,減少了不需要的組合,這樣就有效地減少了事務(wù)數(shù)據(jù)庫(kù)掃描的次數(shù),大大地減少了計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo),從而提高了基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法的效率。
[0030]通過(guò)上述的改進(jìn)的算法在考慮組合之前,對(duì)將參與組合的元素進(jìn)行計(jì)數(shù)的處理,根據(jù)計(jì)數(shù)的結(jié)果決定排除一些不符合組合條件的元素,這樣就降低了組合的可能性,這么久降低循環(huán)判斷的次數(shù)。改進(jìn)的算法對(duì)數(shù)據(jù)庫(kù)進(jìn)行了掃描后的重新生成,雖然會(huì)在記錄中重寫(xiě)浪費(fèi)時(shí)間和I/o開(kāi)銷(xiāo),但是隨著循環(huán)次數(shù)的增加,本算法以后在新生成的數(shù)據(jù)庫(kù)中的掃描次數(shù)的減少很快會(huì)顯示出來(lái)。
[0031 ] 在該種實(shí)施方式中,在步驟2中,通過(guò)逐層迭代將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集。
[0032]在該實(shí)施方式中,在步驟I之前還包括:通過(guò)先驗(yàn)步驟判斷原項(xiàng)目是否已經(jīng)處理,如果原項(xiàng)目是沒(méi)處理的,然后再進(jìn)行步驟I。