欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法

文檔序號(hào):6366348閱讀:224來(lái)源:國(guó)知局
專利名稱:一種基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法。
背景技術(shù)
當(dāng)前網(wǎng)上考試系統(tǒng)的實(shí)現(xiàn)中試題庫(kù)容量的數(shù)量級(jí)還處在千級(jí)、萬(wàn)級(jí),而云教育系統(tǒng)的出現(xiàn)會(huì)使數(shù)量級(jí)上升至十萬(wàn)、百萬(wàn)甚至千萬(wàn)級(jí)。對(duì)于試題庫(kù)的優(yōu)化大多數(shù)是基于數(shù)據(jù)庫(kù)自身的優(yōu)化功能,此種方法對(duì)于小數(shù)量級(jí)的數(shù)據(jù)具有比較明顯的功能,但對(duì)于大數(shù)量級(jí)的數(shù)據(jù)處理卻不具備快速準(zhǔn)確的優(yōu)點(diǎn)。聚類是將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方 法。聚類與分類的不同在于,聚類所要求劃分的類是未知的。本發(fā)明是將聚類的思想應(yīng)用于考試系統(tǒng)試題庫(kù)優(yōu)化。該方法能夠在未知試題庫(kù)是否無(wú)重復(fù)試題的情況下,根據(jù)試題內(nèi)容與詞庫(kù)詞語(yǔ)的匹配程度分詞,并通過(guò)計(jì)算試題與選定中心點(diǎn)的相似度,將相似度最接近的試題聚為一簇,并在本簇內(nèi)查找重復(fù)試題進(jìn)行標(biāo)記。基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法,能夠綜合考慮試題庫(kù)中各試題的相似情況及試題語(yǔ)義,對(duì)語(yǔ)義相似或完全相同的試題進(jìn)行標(biāo)記,從而有效降低了試題庫(kù)的重復(fù)度;各簇內(nèi)并行運(yùn)行,從而大大提升了查重速度,提高了試題查重效率。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于聚類思想的考試系統(tǒng)試題庫(kù)優(yōu)化方法。該方法能夠在未知試題庫(kù)是否無(wú)重復(fù)試題的情況下,根據(jù)試題內(nèi)容與詞庫(kù)詞語(yǔ)的匹配程度分詞,并通過(guò)計(jì)算試題與選定中心點(diǎn)的相似度,將相似度最接近的試題聚為一簇,并在本簇內(nèi)查找重復(fù)試題進(jìn)行標(biāo)記?;诰垲惖目荚囅到y(tǒng)試題庫(kù)優(yōu)化方法,能夠綜合考慮試題庫(kù)中各試題的相似情況及試題語(yǔ)義,對(duì)語(yǔ)義相似或完全相同的試題進(jìn)行標(biāo)記,從而有效降低了試題庫(kù)的重復(fù)度;各簇內(nèi)并行運(yùn)行,從而大大提升了查重速度,提高了試題查重效率。本發(fā)明的目的是這樣實(shí)現(xiàn)的由I個(gè)試題庫(kù)、I個(gè)Web服務(wù)器、I個(gè)詞庫(kù)和n個(gè)用戶構(gòu)成的考試系統(tǒng),在未知試題庫(kù)是否存在重復(fù)試題時(shí),將各試題分詞并與詞庫(kù)中各詞比對(duì),得到中心點(diǎn)與各試題的分詞向量,由此計(jì)算試題與各中心點(diǎn)的相似度,并將試題加入相似度最高的中心點(diǎn)所在的簇內(nèi);在輸入新試題組時(shí),依次對(duì)試題分詞,并與各簇內(nèi)中心點(diǎn)計(jì)算相似度,并將試題加入相似度最高點(diǎn)中心點(diǎn)所在的簇內(nèi);在各簇內(nèi)進(jìn)行相似查找,將各簇內(nèi)的相似試題進(jìn)行標(biāo)記;詞庫(kù)U中各詞之間的權(quán)值關(guān)系表示為Wij,其中,I彡i,j彡n,0彡Wij彡I ;試題集合X = (Z1, Z2,…,ZJ,聚類半徑分別為R1, R2,…,Rs,其中,m為試題總數(shù),s為總簇?cái)?shù);各簇中心點(diǎn)分別表不為A1, A2,…,AyA1分詞后得到各詞表不為(A11, A12,…,Alh),≤其向量表示為局=(an,a,2,---,att),其中,I彡I彡s,h為A1詞總數(shù)即戽維數(shù);由A1,A2,…,As為中心點(diǎn)的簇分別表示為V1, V2,…,Vs ;第k個(gè)試題表不為Zk,Zk分詞后得到各詞表不為Zkl,Zk2,…,Zkh,權(quán)值表不為Qki,Qk2^…,Qkh,其中,I彡k彡m, h表示Zk的詞總數(shù)即忑維數(shù);Zk的向量表示為
\ = (0*1,0*2,…,2 ),其具體方法步驟為1 :輸入詞庫(kù)U,詞庫(kù)中詞語(yǔ)的權(quán)值為Wij,其中,I≤i, j≤n,0Wij≤I ;2 :輸入各簇中心點(diǎn)(A1, A2,…,As),A1為某一個(gè)中心點(diǎn),其中,I≤I≤s,s為中心點(diǎn)總數(shù);3 :輸入中心點(diǎn)簇類半徑R1, R2, -,Rs;4 :輸入試題集X = (Z1, Z2,…,Zm},Zk為試題集中某試題,其中,I彡k彡m,m代表試題總數(shù);5 :若X為空,則程序結(jié)束;否則,執(zhí)行步驟6 ;6 :初始化集合V1, V2,…,Vs為空;7 :令I(lǐng) = I,初始化集合A為空;8 :根據(jù)詞庫(kù)將中心點(diǎn)A1分詞為A11, A12,…,Alh,其中,Alj為中心點(diǎn)A1分詞后的某詞,h為詞語(yǔ)總數(shù),Alj在詞庫(kù)中的權(quán)值為Wlj ;9:令」=1;10 :計(jì)算權(quán)值= Wlj X Iilj,其中,Wlj為Alj權(quán)值,Iilj為該詞出現(xiàn)的次數(shù);11:將1加入'中;12 j + l ;13 :若j > h,則執(zhí)行步驟14 ;否則,執(zhí)行步驟10 ;14:將仏向量表示為A15:將爲(wèi)加入集合A中;16 1+1 ;17 :若I > S,則執(zhí)行步驟18 ;否則,執(zhí)行步驟8 ;18 :令k = 1,初始化集合B為空;19 :根據(jù)詞庫(kù)將試題Zk分詞為Zkl,Zk2,…,Zkh,取得Zkh權(quán)值ww,其中,Zkh為試題中某詞,h為詞語(yǔ)總數(shù);20 :令 j = I ;21 :計(jì)算權(quán)值Qkj = WkjXnkj,其中,Wkj為Qkj權(quán)值,nkJ為該詞出現(xiàn)的次數(shù);22 j+l ;23 :若j > h,則執(zhí)行步驟24 ;否則,執(zhí)行步驟21 ;24 :將 Zk 向量表不為I* = (2*丨,0*2,…,0**);25 :將忑加入集合B中;26 k+l ;27 :若k > m,則執(zhí)行步驟28 ;否則,執(zhí)行步驟19 ;28 :令 k = 1,I = I ;
29 :由集合A中取得中心點(diǎn)A1向量局,集合B中取得中心點(diǎn)Zk向量I*,計(jì)算試題Zk
與中心點(diǎn) A1 的相似度咖(U,) = cos((^ .^)/(^11^1)) Kl = JtQL \P\ =;30 初始化集合C為空; 31 ,Cu = Sim(XkJl),將其加入集合 C 中;32:1+1;33 :若I > S,執(zhí)行步驟34 ;否則,執(zhí)行步驟29 ;34 :若Ckl為C中最大值,則將試題Zk加入V1,執(zhí)行步驟35 ;否則,執(zhí)行步驟35 ;35 k+l, 1 = 1;36 :若k > m,則執(zhí)行步驟37 ;否則,執(zhí)行步驟29 ;37 :令 u = I ;38 :若Vup = Vuq,則標(biāo)記Vutl為重復(fù)題目,其中,Vp,? G * P,執(zhí)行步驟39 ;否貝U,執(zhí)行步驟39 ;39:11+1;40 :若u > S,則結(jié)束程序;否則,執(zhí)行步驟38。本發(fā)明的關(guān)鍵在于如何根據(jù)試題庫(kù)試題的分詞,對(duì)各試題生成向量,為此,引入了詞庫(kù)以維護(hù)詞與詞之間的聯(lián)系。當(dāng)試題庫(kù)容量較大時(shí),對(duì)試題無(wú)法正確分類,使用了聚類思想,對(duì)試題進(jìn)行了比較精確的分類,為試題庫(kù)優(yōu)化做了重要準(zhǔn)備,有利于提高查重速度;而在新題目加入時(shí),只在本簇內(nèi)進(jìn)行比對(duì),減少了一些不必要的操作。其主要?jiǎng)?chuàng)新點(diǎn)如下I、根據(jù)聚類思想將未知的大容量試題庫(kù)進(jìn)行了劃分,使近似度較高的試題聚為一簇,綜合考慮試題庫(kù)中各試題的相似情況及試題語(yǔ)義,對(duì)語(yǔ)義相似或完全相同的試題進(jìn)行標(biāo)記,從而有效降低了試題庫(kù)的重復(fù)度;各簇內(nèi)并行運(yùn)行,從而大大提升了查重速度,提高了試題查重效率。2、引入了詞典,該部件可以維護(hù)詞與詞之間的權(quán)值關(guān)系,保證新試題加入時(shí)在分詞過(guò)程中可以得到每一次的權(quán)值,為之后向量的建立做準(zhǔn)備,并保持詞與詞之間的相互聯(lián)系,更具科學(xué)性。


圖I :基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法;
具體實(shí)施例方式下面結(jié)合附圖舉例對(duì)本發(fā)明做更詳細(xì)地描述本發(fā)明所述算法的特征在于由I個(gè)試題庫(kù)、I個(gè)Web服務(wù)器、I個(gè)詞庫(kù)和n個(gè)用戶構(gòu)成的考試系統(tǒng),在未知試題庫(kù)是否存在重復(fù)試題時(shí),將各試題分詞并與詞庫(kù)中各詞比對(duì),得到中心點(diǎn)與各試題的分詞向量,由此計(jì)算試題與各中心點(diǎn)的相似度,并將試題加入相似度最高點(diǎn)中心點(diǎn)所在的簇內(nèi);在輸入新試題組時(shí),依次對(duì)試題分詞,并與各簇內(nèi)中心點(diǎn)計(jì)算相似度,并將試題加入相似度最高的中心點(diǎn)所在的簇內(nèi);在各簇內(nèi)進(jìn)行相似查找,將各簇內(nèi)的相似試題進(jìn)行標(biāo)記;
詞庫(kù)U中各詞之間的權(quán)值關(guān)系表示為Wij,其中,I≤i,j≤n,0≤Wij≤I ;試題集合X = (Z1, Z2,…,ZJ,聚類半徑分別為R1, R2,…,Rs,其中,m為試題總數(shù),s為總簇?cái)?shù);各簇中心點(diǎn)分別表不為A1;A2,分詞后得到各詞表不為(A11, A12,…,Alh),其向量表示為局=(a,Pa;2, , ,*),其中,I≤I≤s,h為A1詞總數(shù)即局維數(shù);由A1A2,…,As為中心點(diǎn)的簇分別表示為V1, V2,…,Vs ;第k個(gè)試題表不為Zk,Zk分詞后得到各詞表不為Zkl,Zk2,…,Zkh,權(quán)值表不為Qki,Qk2^…,Qkh,其中,I≤k≤m, h表示Zk的詞總數(shù)即忑維數(shù);Zk的向量表示為
叉t = (2* I , 2 ’ …,0** ) ’其具體方法步驟為I :輸入詞庫(kù)U,詞庫(kù)中詞語(yǔ)的權(quán)值為Wij,其中,I ≤i, j ≤ n,0 ≤ Wij≤I ;2 :輸入各簇中心點(diǎn)(A1, A2,…,As), A1為某一個(gè)中心點(diǎn),其中,I≤I≤s,s為中心點(diǎn)總數(shù);3 :輸入中心點(diǎn)簇類半徑R1, R2, -,Rs;4 :輸入試題集X = (Z1, Z2,…,Zm},Zk為試題集中某試題,其中,I≤k≤m,m代表試題總數(shù);5 :若X為空,則程序結(jié)束;否則,執(zhí)行步驟6 ;6 :初始化集合V1, V2,…,Vs為空;7 :令I(lǐng) = I,初始化集合A為空;8 :根據(jù)詞庫(kù)將中心點(diǎn)A1分詞為A11, A12,…,Alh,其中,Au為中心點(diǎn)A1分詞后的某詞,h為詞語(yǔ)總數(shù),Alj在詞庫(kù)中的權(quán)值為Wlj ;9 :令 j = I ;10 :計(jì)算權(quán)值= WljXnlj^1=K Wlj為Alj權(quán)值,Iilj為該詞出現(xiàn)的次數(shù);11:將1加入'中;12 j + l ;13 :若j > h,則執(zhí)行步驟14 ;否則,執(zhí)行步驟10 ;14:將仏向量表示為A =(4,4,...,4*);15:將爲(wèi)加入集合A中;16 1+1 ;17 :若I > S,則執(zhí)行步驟18 ;否則,執(zhí)行步驟8 ;18 :令k = I,初始化集合B為空;19 :根據(jù)詞庫(kù)將試題Zk分詞為Zkl,Zk2,…,Zkh,取得Zkh權(quán)值ww,其中,Zkh為試題中某詞,h為詞語(yǔ)總數(shù);20 :令 j = I ;21 :計(jì)算權(quán)值Qkj = WkjXnkj,其中,Wkj為Qkj權(quán)值,nkJ為該詞出現(xiàn)的次數(shù);22 j+l ;23 :若j > h,則執(zhí)行步驟24 ;否則,執(zhí)行步驟21 ;24 :將Zk向量表示為又=(0*,,么2,…,0**);25 :將I*加入集合B中;
26 k+l ;27 :若k > m,則執(zhí)行步驟28 ;否則,執(zhí)行步驟19 ;28 :令 k = 1,I = I ;29 :由集合A中取得中心點(diǎn)A1向量咸,集合B中取得中心點(diǎn)Zk向量忑,計(jì)算試題Zk
與中心點(diǎn) A1 mwm ^mCxkJl)=COSiOk-a)/(|4||a|)) Kl=例=Jt^;30:初始化集合C為空;31 ,Cu =Sim(XkJl),將其加入集合 C 中;32:1+1; 33 :若I > S,執(zhí)行步驟34 ;否則,執(zhí)行步驟29 ;34 :若Ckl為C中最大值,則將試題Zk加入V1,執(zhí)行步驟35 ;否則,執(zhí)行步驟35 ;35 :k+l, 1 = 1;36 :若k > m,則執(zhí)行步驟37 ;否則,執(zhí)行步驟29 ;37 :令 u = I ;38 : Vup = Vutl,則標(biāo)記Vutl為重復(fù)題目,其中,Vp,9 e [1,/],?*/ ,執(zhí)行步驟39 ;否貝U,執(zhí)行步驟39 ;39 u+l ;40 :若u > S,則結(jié)束程序;否則,執(zhí)行步驟38?;诰垲惖目荚囅到y(tǒng)試題庫(kù)優(yōu)化方法具體實(shí)施模式是這樣的由I個(gè)試題庫(kù)、I個(gè)Web服務(wù)器、I個(gè)詞庫(kù)和n個(gè)用戶構(gòu)成的考試系統(tǒng),在未知試題庫(kù)是否存在重復(fù)試題時(shí),將各試題分詞并與詞庫(kù)中各詞比對(duì),得到中心點(diǎn)與各試題的分詞向量,由此計(jì)算試題與各中心點(diǎn)的相似度,并將試題加入相似度最高點(diǎn)中心點(diǎn)所在的簇內(nèi);在輸入新試題組時(shí),依次對(duì)試題分詞,并與各簇內(nèi)中心點(diǎn)計(jì)算相似度,并將試題加入相似度最高點(diǎn)中心點(diǎn)所在的簇內(nèi);在各簇內(nèi)進(jìn)行相似查找,將各簇內(nèi)的相似試題進(jìn)行標(biāo)記。
權(quán)利要求
1.一種基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法,其特征是由I個(gè)試題庫(kù)、I個(gè)Web服務(wù)器、I個(gè)詞庫(kù)和η個(gè)用戶構(gòu)成的考試系統(tǒng),在未知試題庫(kù)是否存在重復(fù)試題時(shí),將各試題分詞并與詞庫(kù)中各詞比對(duì),得到中心點(diǎn)與各試題的分詞向量,由此計(jì)算試題與各中心點(diǎn)的相似度,并將試題加入相似度最高點(diǎn)中心點(diǎn)所在的簇內(nèi);在輸入新試題組時(shí),依次對(duì)試題分詞,并與各簇內(nèi)中心點(diǎn)計(jì)算相似度,并將試題加入相似度最高的中心點(diǎn)所在的簇內(nèi);在各簇內(nèi)進(jìn)行相似查找,將各簇內(nèi)的相似試題進(jìn)行標(biāo)記; 詞庫(kù)U中各詞之間的權(quán)值關(guān)系表示為Wij,其中,I ^ i, j ^ η,O ^ Wij ^ I ; 試題集合X = (Z1, Z2,…,ZJ,聚類半徑分別為R1, R2,…,Rs,其中,m為試題總數(shù),s為總簇?cái)?shù); 各簇中心點(diǎn)分別表不為A1, A2, ···, As, A1分詞后得到各詞表不為(A11, A12,…,Alh),其向量表示為及=七2,···,αΜ),其中,I彡I彡s, h為Al詞總數(shù)即戾維數(shù);由A1, A2, ···,As為中心點(diǎn)的簇分別表示為V1, V2,…,Vs ; 第k個(gè)試題表不為Zk,Zk分詞后得到各詞表不為Zkl,Zk2,…,Zkh,權(quán)值表不為Qki,Qk2,…,Qkh,其中,I彡k彡m, h表示Zk的詞總數(shù)即疋維數(shù);Zk的向量表示為
2.根據(jù)權(quán)利要求I所述的基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法,其特征是其具體方法步驟為 1:輸入詞庫(kù)U,詞庫(kù)中詞語(yǔ)的權(quán)值為Wij,其中,I彡i, j彡η,Ο彡Wij彡I ; 2:輸入各簇中心點(diǎn)(A1, A2,…,As), A1為某一個(gè)中心點(diǎn),其中,I彡I彡s,s為中心點(diǎn)總數(shù); 3:輸入中心點(diǎn)簇類半徑R1, R2,…,Rs ; 4:輸入試題集X= [I1, Z2,…,Zm},Zk為試題集中某試題,其中,I彡k彡m,m代表試題總數(shù); 5:若X為空,則程序結(jié)束;否則,執(zhí)行步驟6 ; 6:初始化集合V1, V2,…,Vs為空; 7:令I(lǐng) = I,初始化集合A為空; 8:根據(jù)詞庫(kù)將中心點(diǎn)A1分詞為A11, A12,…,Alh,其中,Aw為中心點(diǎn)A1分詞后的某詞,h為詞語(yǔ)總數(shù),Alj在詞庫(kù)中的權(quán)值為Wlj ;9:令 j = I ; 10:計(jì)算權(quán)值a" = WljXnlj^1=K Wlj為Alj權(quán)值,ηυ為該詞出現(xiàn)的次數(shù); 11:將4加入V1中; 12j+l ; 13:若j > h,則執(zhí)行步驟14 ;否則,執(zhí)行步驟10 ;14:將 A1 向量表不為局=(An,An,··· ,Alh); 15:將為加入集合A中; 161+1 ; 17:若I > S,則執(zhí)行步驟18 ;否則,執(zhí)行步驟8 ;18:令k = I,初始化集合B為空; 19:根據(jù)詞庫(kù)將試題Zk分詞為Zkl,Zk2,…,Zkh,取得Zkh權(quán)值&,其中,Zkh為試題中某詞,h為詞語(yǔ)總數(shù);20:令 j = I ; 21:計(jì)算權(quán)值Qkj = wkjXnkj,其中,Wkj為Qkj權(quán)值,nkJ為該詞出現(xiàn)的次數(shù); 22j+l ; 23:若j > h,則執(zhí)行步驟24 ;否則,執(zhí)行步驟21 ;24:將 Zk 向量表不為
全文摘要
本發(fā)明提供的是一種基于聚類的考試系統(tǒng)試題庫(kù)優(yōu)化方法。本發(fā)明的關(guān)鍵在于將文本聚類特征引入到考試系統(tǒng)的試題庫(kù)優(yōu)化過(guò)程中,該方法能夠在未知試題庫(kù)是否無(wú)重復(fù)試題的情況下,根據(jù)試題內(nèi)容與詞庫(kù)詞語(yǔ)的匹配程度分詞,并通過(guò)計(jì)算試題與選定中心點(diǎn)的相似度,將相似度最接近的試題聚為一簇,并在本簇內(nèi)查找重復(fù)試題進(jìn)行標(biāo)記?;诰垲惖目荚囅到y(tǒng)試題庫(kù)優(yōu)化方法,能夠綜合考慮試題庫(kù)中各試題的相似情況及試題語(yǔ)義,對(duì)語(yǔ)義相似或完全相同的試題進(jìn)行標(biāo)記,從而有效降低了試題庫(kù)的重復(fù)度;各簇內(nèi)并行運(yùn)行,從而大大提升了查重速度,提高了試題查重效率。
文檔編號(hào)G06F17/27GK102629272SQ20121006699
公開(kāi)日2012年8月8日 申請(qǐng)日期2012年3月14日 優(yōu)先權(quán)日2012年3月14日
發(fā)明者葉鵬迪, 姚文斌, 王樅, 雷鳴濤, 韓司 申請(qǐng)人:北京郵電大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
芮城县| 福鼎市| 绩溪县| 龙里县| 南昌县| 尼勒克县| 河北区| 岢岚县| 吴川市| 高淳县| 海宁市| 汉阴县| 阳新县| 双鸭山市| 罗江县| 德化县| 阿勒泰市| 张家港市| 克什克腾旗| 黄山市| 平阴县| 黄大仙区| 建德市| 临猗县| 都兰县| 阜新| 东乡族自治县| 吉水县| 铜陵市| 房产| 乐都县| 宁阳县| 丰县| 思茅市| 莱芜市| 天峨县| 新余市| 敖汉旗| 色达县| 商丘市| 新巴尔虎左旗|