一種基于聚類的常態(tài)模式提取方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于聚類的常態(tài)模式提取方法及系統(tǒng)。本方法為:服務(wù)器從各終端采集樣本并聚類,將得到的簇作對(duì)樣本進(jìn)行標(biāo)注;根據(jù)選取的屬性劃分指標(biāo)計(jì)算已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度以及屬性值重要性、屬性重要性,選取若干屬性特征對(duì)樣本進(jìn)行劃分,將劃分結(jié)果作為常態(tài)模式;其中選取樣本一屬性i的一屬性值,計(jì)算具有該屬性值的樣本屬于簇j的條件概率值,以及未增加該屬性值條件時(shí)樣本屬于該簇j的概率值;根據(jù)概率差值作為該屬性值對(duì)于該簇j的屬性值辨識(shí)度;將該屬性值對(duì)于所有簇的辨識(shí)度的平方平均數(shù)作為屬性值辨識(shí)度;根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算屬性i的屬性辨識(shí)度。本方法特征選擇全面、計(jì)算復(fù)雜性小、普適性強(qiáng)。
【專利說明】一種基于聚類的常態(tài)模式提取方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種常態(tài)模式提取系統(tǒng),尤其涉及一種基于聚類的常態(tài)模式提取方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 在現(xiàn)實(shí)生活中,我們經(jīng)常需要對(duì)一組樣本數(shù)據(jù)進(jìn)行分類。常用的處理方法有兩 種:
[0003] 第一種分類方法,基于經(jīng)驗(yàn)確定一些分類的指標(biāo)(屬性、屬性值)并按照這些指標(biāo) 將樣本數(shù)據(jù)分類,例如將一群人分為"青年"、"中年"、"老年"三類,就是基于屬性"年齡層" 做出的。這種分類方式強(qiáng)烈的依賴于分類人的經(jīng)驗(yàn),具有較強(qiáng)的主觀色彩,使得不同人對(duì)同 一組樣本數(shù)據(jù)得到的分類結(jié)果可能有較大不同,而且難以確定究竟哪種分類更加科學(xué)。
[0004] 第二種分類方法,基于數(shù)據(jù)挖掘聚類分析的聚類結(jié)果,將聚類結(jié)果直接作為分類 結(jié)果,這種方法具有較好的客觀性,但存在以下不足:
[0005] (1)主流的聚類算法沒有給出確切的分類標(biāo)準(zhǔn),基于距離得到的聚類簇中,不同樣 本的屬性值混雜,沒有確切的規(guī)律,可能某個(gè)簇的1〇〇個(gè)樣本中99個(gè)都是"性別=男性",僅 有1個(gè)是"性別=女性",使得分類結(jié)果的實(shí)踐指導(dǎo)意義較差。
[0006] (2)對(duì)于一類復(fù)雜的趨勢(shì)數(shù)據(jù)樣本,例如某超市每天的顧客購物情況,使用聚類分 析得到的簇,不能確定相鄰兩天得到的簇之間的關(guān)系,從而難以研究相關(guān)簇之間的時(shí)間序 列關(guān)系。
[0007] (3)主流的聚類算法屬于隨機(jī)算法,基于隨機(jī)的初值,聚類結(jié)果也隨著初值變化, 聚類結(jié)果的不確定性在一定程度上影響了聚類結(jié)果在實(shí)際應(yīng)用中的可信度。
【發(fā)明內(nèi)容】
[0008] 針對(duì)現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種基于聚類的常態(tài)模 式提取方法及系統(tǒng),本發(fā)明的常態(tài)模式劃分方法是基于聚類分析的結(jié)果,具有較強(qiáng)的客觀 性,又有效的克服了主流聚類算法的不足。
[0009] 本發(fā)明通過對(duì)樣本數(shù)據(jù)進(jìn)行聚類分析,將所得"簇"作為已知的分類標(biāo)準(zhǔn)(標(biāo)簽), 提取屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性等"屬性對(duì)相似性的影響力"的 四項(xiàng)指標(biāo),再使用全新的常態(tài)模式提取方法獲取"常態(tài)模式",并給出常態(tài)模式的命名方法。 [0010] 本發(fā)明的技術(shù)方案為:
[0011] 一種基于聚類的常態(tài)模式提取方法,其步驟為:
[0012] 1)數(shù)據(jù)采集,將待分析的樣本數(shù)據(jù)從分布在各地的終端數(shù)據(jù)庫中傳輸匯總到中央 數(shù)據(jù)庫;
[0013] 2)對(duì)樣本數(shù)據(jù)進(jìn)行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標(biāo)簽,對(duì) 樣本進(jìn)行標(biāo)注;
[0014] 3)計(jì)算樣本每一屬性的屬性辨識(shí)度以及每一屬性重要性;其中,
[0015] 屬性辨識(shí)度的計(jì)算方法為:選取樣本一屬性i的一屬性值,計(jì)算具有該屬性值的 樣本屬于簇j的條件概率值,以及未增加該屬性值條件時(shí)樣本屬于該簇j的概率值;將所述 條件概率值與所述概率值的差值作為該屬性值對(duì)于該簇j的屬性值辨識(shí)度;將該屬性值對(duì) 于所有簇的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值的屬性值辨識(shí)度;然后根據(jù)該屬性i 所有屬性值的屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí)度;
[0016] 屬性重要性的計(jì)算方法為:將樣本屬性i取屬性值a時(shí)屬于簇j的樣本量乘以該 屬性值a對(duì)于該簇j的辨識(shí)度,得到該屬性值a對(duì)于該簇j的屬性重要性;將該屬性值對(duì)于 所有簇的屬性值重要性的平方平均數(shù)作為該屬性值的屬性值重要性;根據(jù)屬性i的所有屬 性值重要性計(jì)算該屬性i的屬性重要性;
[0017] 4)根據(jù)屬性辨識(shí)度和屬性重要性進(jìn)行排序,選擇屬性重要性最高的屬性或?qū)傩员?識(shí)度最高的屬性對(duì)采集的樣本進(jìn)行劃分,得到常態(tài)模式。
[0018] 5)常態(tài)模式命名和發(fā)布。
[0019] 進(jìn)一步的,對(duì)該屬性i所有屬性值的屬性值辨識(shí)度平方平均數(shù)作為該屬性i的屬 性辨識(shí)度。
[0020] 進(jìn)一步的,采用基于條件概率和貝葉斯算法計(jì)算所述辨識(shí)度。
[0021] 進(jìn)一步的,分別選用屬性重要性最高的屬性、屬性辨識(shí)度最高的屬性對(duì)樣本進(jìn)行 劃分,得到常態(tài)模式;或者選取劃分結(jié)果與聚類結(jié)果的差異量小的原則選擇屬性重要性最 高的屬性或?qū)傩员孀R(shí)度最高的屬性對(duì)樣本進(jìn)行劃分,得到常態(tài)模式。
[0022] 進(jìn)一步的,步驟3)中計(jì)算所述屬性重要性的方法為:將屬性i所有屬性值的屬性 重要性的平方平均數(shù)作為該屬性的屬性重要性;然后步驟4)根據(jù)屬性辨識(shí)度和屬性重要 性進(jìn)行排序,選擇屬性重要性或?qū)傩员孀R(shí)度最高的屬性對(duì)樣本進(jìn)行劃分。
[0023] 進(jìn)一步的,根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性值,命名所述常態(tài)模式的 名稱。
[0024] 進(jìn)一步的,命名所述常態(tài)模式的名稱的方法為:在得到所述常態(tài)模式的過程中,記 錄每一所述常態(tài)模式所用到的屬性和屬性值;將第一所用的屬性和或?qū)傩灾涤涗洖楦?jié) 點(diǎn),最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn);然后沿著根節(jié)點(diǎn)向該葉節(jié)點(diǎn)發(fā)展,將涉 及的全部屬性值的集合作為該常態(tài)模式的名稱。
[0025] 本發(fā)明的系統(tǒng)如圖5所示,包括:
[0026] (1)數(shù)據(jù)采集模塊。
[0027] 將待分析的樣本數(shù)據(jù)從分布在各地的終端服務(wù)器數(shù)據(jù)庫中傳輸匯總到中央服務(wù) 器的數(shù)據(jù)庫中。
[0028] (2)聚類模塊。
[0029] 對(duì)采集的樣本進(jìn)行聚類分析,得到若干簇,將聚類得到的簇作為樣本的標(biāo)簽,對(duì)樣 本進(jìn)行標(biāo)注。
[0030] (3)指標(biāo)計(jì)算模塊。
[0031] 計(jì)算標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度以及屬性值重要性、屬性重 要性,提取由數(shù)據(jù)本身決定的"屬性對(duì)相似性的影響力"指標(biāo);然后根據(jù)指標(biāo)計(jì)算結(jié)果對(duì)屬 性排序;選取排序靠前的屬性。
[0032] 本發(fā)明將聚類分析獲得的簇作為已知的分類標(biāo)簽,由此,"屬性對(duì)相似性的影響 力"指標(biāo)等價(jià)于"屬性對(duì)已知標(biāo)簽的影響力"指標(biāo)。這是因?yàn)椋褂镁垲惙治龇椒ㄗ寯?shù)據(jù)通 過無監(jiān)督學(xué)習(xí)生成若干"簇",這些簇是基于距離或相似度來確定的,滿足簇中的對(duì)象彼此 相似,而與其他簇中的對(duì)象相異。粗略的看,聚類的結(jié)果與屬性和屬性值沒有直接關(guān)聯(lián),即 不是由某些屬性來劃分的。但是,考慮到距離或相似度的定義基于屬性和屬性值,因此屬性 和屬性值對(duì)簇的形成具有實(shí)際的影響,而且不同的屬性和屬性值的影響力并不相同。因此, 將聚類分析獲得的簇作為已知的分類標(biāo)簽,進(jìn)而提取屬性對(duì)分類的影響力的四項(xiàng)指標(biāo)具有 實(shí)際意義。
[0033] (4)常態(tài)模式劃分模塊。
[0034] 根據(jù)屬性辨識(shí)度和屬性重要性進(jìn)行排序,選擇屬性重要性最高的屬性或?qū)傩员孀R(shí) 度最高的屬性對(duì)采集的樣本進(jìn)行劃分,得到常態(tài)模式。根據(jù)常態(tài)模式劃分所依據(jù)的屬性和 屬性值,命名常態(tài)模式的名稱,然后通過一常態(tài)模式發(fā)布器發(fā)布。
[0035] 常態(tài)模式,可以理解為樣本數(shù)據(jù)中的常見類型,每個(gè)常態(tài)模式都是一組屬性值的 集合,常態(tài)模式集合是對(duì)全體樣本的一種劃分。例如,圖1中的一個(gè)常態(tài)模式可能是{顏色 =黑,形狀=方,尺寸=小},該類型包括了所有小的黑方塊,它對(duì)應(yīng)屬性值{顏色=黑}、 {形狀=方}和{尺寸=小},是這三個(gè)屬性值的集合。當(dāng)然,某一個(gè)確實(shí)的常態(tài)模式中的 屬性值不一定是唯一的,因此,{:顏色=黑或灰,形狀=方,尺寸=小}也可能是一個(gè)常態(tài) 模式。另一方面,由于{顏色=黑,形狀=方或圓,尺寸=小}可以化簡(jiǎn)為{顏色=黑, 尺寸=小},因此,常態(tài)模式對(duì)應(yīng)的屬性值不一定包含所有的屬性,也就是說,有的屬性在常 態(tài)模式的劃分中并不重要。
[0036] 常態(tài)模式的另一個(gè)重要特點(diǎn)是"劃分"性,也就是"不重不漏"。兩個(gè)常態(tài)模式不能 擁有共同的樣本,即不相交;同時(shí),絕大部分樣本都屬于某一個(gè)常態(tài)模式,只有少部分"異常 值"、"離群值"。
[0037] 直觀的講,一個(gè)樣本總體全體常態(tài)模式的集合對(duì)應(yīng)一個(gè)分類樹,如圖2所示,就是 一個(gè)可能的常態(tài)模式集合。
[0038] 這些圖型具體應(yīng)該分成哪些常態(tài)模式難以劃分。本發(fā)明使用"先聚類再分類"的 技術(shù),提取數(shù)據(jù)客觀蘊(yùn)含的屬性重要程度,給出客觀的分類標(biāo)準(zhǔn),即常態(tài)模式。
[0039] 常態(tài)模式覆蓋了絕大部分樣本,除了左下角灰底白點(diǎn)的大圓,這是異常值。
[0040] 一個(gè)需要區(qū)別的概念是正常類型。事實(shí)上,常態(tài)模式并不等價(jià)于正常類型,常態(tài)模 式只是從出現(xiàn)的頻率上給出了出現(xiàn)頻率高的劃分方法,并不意味著它一定是正常的、正確 的。例如,在道路上暫時(shí)沒有機(jī)動(dòng)車通過時(shí)行人闖紅燈過馬路,這是一種常見的行為,但卻 不是正確、合法的行為。當(dāng)然,一般來說,常態(tài)模式是正常類型,不屬于常態(tài)模式的異常值是 不正常的樣本。
[0041] 本發(fā)明通過提取屬性重要性和辨識(shí)度,獲取屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重 要性、屬性重要性等四項(xiàng)指標(biāo),也就是"屬性對(duì)相似性的影響力"。再使用全新的常態(tài)模式提 取方法獲取分類結(jié)果,即"常態(tài)模式"。
[0042] 與現(xiàn)有技術(shù)相比,積極效果為:
[0043] (1)常態(tài)模式獲得的"類"比聚類分析獲得的"簇",具有更加確切的分類標(biāo)準(zhǔn),排 除了由于其他屬性的干擾,使得個(gè)別樣本點(diǎn)分類不準(zhǔn)確的現(xiàn)象,如圖3。例如,可能某個(gè)簇的 100個(gè)樣本中99個(gè)都是"性別=男性",僅有1個(gè)是"性別=女性",使得分類結(jié)果的實(shí)踐指 導(dǎo)意義較差。而本專利將選擇"性別"屬性作為分類標(biāo)準(zhǔn),獲得"性別=男性"和"性別=女 性"兩個(gè)類,分類結(jié)果的實(shí)踐指導(dǎo)意義更好。進(jìn)一步,這個(gè)特殊的、錯(cuò)誤分類的個(gè)體,可以作 為異常值研究對(duì)象。
[0044] (2)對(duì)于一類復(fù)雜的趨勢(shì)數(shù)據(jù)樣本,例如某超市每天的顧客購物情況,使用聚類分 析得到的簇,不能確定相鄰兩天得到的簇之間的關(guān)系,從而難以研究相關(guān)簇之間的時(shí)間序 列關(guān)系。而使用本專利方法可以獲得常態(tài)模式并給出了常態(tài)模式的命名方法,則在不同時(shí) 間點(diǎn)的各個(gè)簇之間建立了明確的時(shí)間序列關(guān)系,即可以研究相同名稱的簇的變化情況,以 及不同時(shí)間點(diǎn)簇的增加或減少情況。
[0045] (3)主流的聚類算法屬于隨機(jī)算法,基于隨機(jī)的初值,聚類結(jié)果也隨著初值變化, 聚類結(jié)果的不確定性在一定程度上影響了聚類結(jié)果在實(shí)際應(yīng)用中的可信度。而本發(fā)明由于 使用了"先聚類再分類"的方法確定常態(tài)模式,降低了初值對(duì)計(jì)算結(jié)果的影響,使分析結(jié)果 更加穩(wěn)定可信。
[0046] 本方法可應(yīng)用于公安情報(bào)數(shù)據(jù)分析、反腐敗數(shù)據(jù)分析、居民家庭用電情況分析、交 通出行模式分析、疾病特征數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析、客戶市場(chǎng)細(xì)分等多種領(lǐng)域,獲取常見 類型集合,從而促進(jìn)資源合理配置,本方法具有較強(qiáng)的普適性。
【專利附圖】
【附圖說明】
[0047] 圖1為常態(tài)模式示意圖;
[0048] 圖2為常態(tài)模式實(shí)例圖;
[0049] 圖3為常態(tài)模式劃分方法結(jié)果對(duì)比圖;
[0050] (a)聚類得到的簇,(b)先聚類再分類獲得的類;
[0051] 圖4為常態(tài)模式提取系統(tǒng)流程圖;
[0052] 圖5為常態(tài)模式提取系統(tǒng)結(jié)構(gòu)圖;
[0053] 圖6為劃分屬性的選擇圖;
[0054] (a)根據(jù)重要性最高的屬性(屬性A)劃分常態(tài)模式,
[0055] (b)根據(jù)辨識(shí)度最高的屬性(屬性B)劃分常態(tài)模式,
[0056] 圖7為類與簇之間的差異圖;
[0057] (a)由聚類分析獲得的五個(gè)簇,(b)根據(jù)屬性的辨識(shí)度和重要性劃分得到的四個(gè) 類;
[0058] 圖8為常態(tài)模式提取及命名操作結(jié)果圖;
[0059] 圖9為本系統(tǒng)實(shí)際獲得的常態(tài)模式命名及相互關(guān)聯(lián)信息圖。
【具體實(shí)施方式】
[0060] 本發(fā)明公開了一種全新的基于聚類的常態(tài)模式提取方法和系統(tǒng),如圖4所示,包 括以下主要步驟。
[0061] 步驟1:數(shù)據(jù)采集。
[0062] 數(shù)據(jù)采集模塊是本系統(tǒng)的硬件基礎(chǔ)。該模塊將待分析的樣本數(shù)據(jù)從分布在各地的 終端數(shù)據(jù)庫中傳輸匯總到中央數(shù)據(jù)庫。
[0063] 步驟2:數(shù)據(jù)清洗。
[0064] 通過數(shù)據(jù)采集終端匯總得到的數(shù)據(jù),難免存在不完整、錯(cuò)誤、重復(fù)等現(xiàn)象。數(shù)據(jù)清 洗步驟用于過濾這些不符合要求的數(shù)據(jù),過濾的結(jié)果將提交給相關(guān)主管部門,確認(rèn)是直接 過濾掉還是作為異常值提取出來做進(jìn)一步分析。
[0065] 步驟3:數(shù)據(jù)聚類。
[0066] 本步驟可以建立在任何一種公知的聚類分析算法結(jié)果之上,通過對(duì)樣本數(shù)據(jù)進(jìn)行 聚類分析,得到若干簇。
[0067] 步驟4 :常態(tài)模式劃分及命名。
[0068] 我們可以將步驟3得到的"簇"作為已知的分類情況,計(jì)算"屬性對(duì)相似性的影響 力"指標(biāo),包括:屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、屬性重要性等四項(xiàng)具體指標(biāo)。
[0069] 步驟4. 1 :劃分指標(biāo)計(jì)算。
[0070] 常態(tài)模式的劃分過程需要重復(fù)的計(jì)算屬性值辨識(shí)度、屬性辨識(shí)度、屬性值重要性、 屬性重要性等相關(guān)指標(biāo)。我們以案例為基礎(chǔ),說明這四項(xiàng)指標(biāo)的主要計(jì)算步驟。并由這四 項(xiàng)指標(biāo)給出全面的屬性影響力排序。
[0071] 四項(xiàng)指標(biāo)計(jì)算案例:
[0072] -個(gè)包含100人的研究樣本,其中包含50名女性和50名男性,其中20人有前科。 通過聚類分析獲得了兩個(gè)"簇",其中"簇1"包含10個(gè)樣本,絕大部分是犯有盜竊罪的人, 而"簇2"包含90個(gè)樣本,絕大部分是未犯有盜竊罪的人。其他數(shù)據(jù)如表1。
[0073] 表1 :四項(xiàng)指標(biāo)計(jì)算案例
[0074]
【權(quán)利要求】
1. 一種基于聚類的常態(tài)模式提取方法,其步驟為: 1) 中央服務(wù)器從各終端服務(wù)器采集樣本數(shù)據(jù),并對(duì)樣本數(shù)據(jù)進(jìn)行聚類分析,得到若干 簇;將聚類得到的簇作為樣本的標(biāo)簽,對(duì)樣本進(jìn)行標(biāo)注; 2) 根據(jù)選取的屬性劃分指標(biāo)計(jì)算已標(biāo)注樣本每一屬性的屬性值辨識(shí)度、屬性辨識(shí)度以 及屬性值重要性、屬性重要性;其中, 屬性值辨識(shí)度的計(jì)算方法為:選取樣本一屬性i的一屬性值a,計(jì)算具有該屬性值a的 樣本屬于簇j的條件概率值,以及未增加該屬性值條件時(shí)樣本屬于該簇j的概率值;將所述 條件概率值與所述概率值的差值作為該屬性值a對(duì)于該簇j的屬性值辨識(shí)度;將該屬性值 a對(duì)于所有簇的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值a的屬性值辨識(shí)度; 屬性辨識(shí)度的計(jì)算方法為:根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí) 度; 屬性值重要性的計(jì)算方法為:將樣本屬性i取屬性值a時(shí)屬于簇j的樣本量乘以該屬 性值a對(duì)于該簇j的屬性辨識(shí)度,得到該屬性值a對(duì)于該簇j的屬性值重要性;將該屬性值 對(duì)于所有簇的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計(jì)算方法為:根據(jù)屬性i所有屬性值重要性計(jì)算該屬性i的屬性重要 性; 3) 分別根據(jù)屬性值辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性?duì)屬性進(jìn)行排 序,基于所述排序結(jié)果選取若干屬性特征對(duì)樣本數(shù)據(jù)進(jìn)行劃分,將劃分結(jié)果作為常態(tài)模式。
2. 如權(quán)利要求1所述的方法,其特征在于對(duì)該屬性i所有屬性值的屬性值辨識(shí)度的平 方平均數(shù)作為該屬性i的屬性辨識(shí)度。
3. 如權(quán)利要求1所述的方法,其特征在于對(duì)該屬性i所有屬性值的屬性值重要性的平 方平均數(shù)作為該屬性i的屬性重要性。
4. 如權(quán)利要求1或2或3所述的方法,其特征在于分別選用屬性重要性最高的屬性、屬 性辨識(shí)度最高的屬性對(duì)樣本進(jìn)行劃分,得到所述常態(tài)模式;或者選取劃分結(jié)果與聚類結(jié)果 的差異量小的原則選擇屬性重要性最高的屬性或?qū)傩员孀R(shí)度最高的屬性對(duì)樣本進(jìn)行劃分, 得到所述常態(tài)模式。
5. 如權(quán)利要求1或2或3所述的方法,其特征在于根據(jù)所述常態(tài)模式劃分所依據(jù)的屬 性和屬性值,命名所述常態(tài)模式的名稱。
6. 如權(quán)利要求5所述的方法,其特征在于命名所述常態(tài)模式的名稱的方法為:在得到 所述常態(tài)模式的過程中,記錄每一所述常態(tài)模式所用到的屬性和屬性值;將第一所用的屬 性和或?qū)傩灾涤涗洖楦?jié)點(diǎn),最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn);然后沿著根 節(jié)點(diǎn)向該葉節(jié)點(diǎn)發(fā)展,將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
7. -種基于聚類的常態(tài)模式提取系統(tǒng),其特征在于包括多個(gè)終端服務(wù)器和一中央服務(wù) 器,所述終端服務(wù)器通過網(wǎng)絡(luò)與所述中央服務(wù)器連接;其中,所述中央服務(wù)器包括數(shù)據(jù)采集 模塊、聚類模塊、指標(biāo)計(jì)算模塊和常態(tài)模式劃分模塊; 所述數(shù)據(jù)采集模塊,用于從各終端服務(wù)器采集樣本數(shù)據(jù); 所述聚類模塊,用于對(duì)采集的樣本數(shù)據(jù)進(jìn)行聚類分析,得到若干簇;將聚類得到的簇作 為樣本的標(biāo)簽,對(duì)樣本進(jìn)行標(biāo)注; 所述指標(biāo)計(jì)算模塊,用于根據(jù)選取的屬性劃分指標(biāo)計(jì)算已標(biāo)注樣本每一屬性的屬性值 辨識(shí)度、屬性辨識(shí)度和或?qū)傩灾抵匾?、屬性重要性,以及根?jù)計(jì)算結(jié)果對(duì)屬性進(jìn)行排序, 選取屬性特征;其中, 屬性值辨識(shí)度的計(jì)算方法為:選取樣本一屬性i的一屬性值a,計(jì)算具有該屬性值a的 樣本屬于標(biāo)簽j的條件概率值,以及未增加該屬性值條件時(shí)樣本屬于該標(biāo)簽j的概率值;將 所述條件概率值與所述概率值的差值作為該屬性值a對(duì)于該標(biāo)簽j的屬性值辨識(shí)度;將該 屬性值a對(duì)于所有標(biāo)簽的屬性值辨識(shí)度的平方平均數(shù)作為該屬性值a的屬性值辨識(shí)度; 屬性辨識(shí)度的計(jì)算方法為:根據(jù)屬性i所有屬性值辨識(shí)度計(jì)算該屬性i的屬性辨識(shí) 度; 屬性值重要性的計(jì)算方法為:將樣本屬性i取屬性值a時(shí)屬于標(biāo)簽j的樣本量乘以該 屬性值a對(duì)于該標(biāo)簽j的屬性辨識(shí)度,得到該屬性值a對(duì)于該標(biāo)簽j的屬性值重要性;將該 屬性值a對(duì)于所有標(biāo)簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計(jì)算方法為:根據(jù)屬性i所有屬性值重要性計(jì)算該屬性i的屬性重要 性; 所述常態(tài)模式劃分模塊,用于根據(jù)所選取的屬性特征對(duì)該總樣本數(shù)據(jù)進(jìn)行劃分,將劃 分結(jié)果作為常態(tài)模式。
8. 如權(quán)利要求7所述的系統(tǒng),其特征在于對(duì)該屬性i所有屬性值的屬性值辨識(shí)度的平 方平均數(shù)作為該屬性i的屬性辨識(shí)度;對(duì)該屬性i所有屬性值的屬性值重要性的平方平均 數(shù)作為該屬性i的屬性重要性。
9. 如權(quán)利要求7所述的系統(tǒng),其特征在于根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性 值,命名所述常態(tài)模式的名稱;所述中央服務(wù)器通過一常態(tài)模式發(fā)布器發(fā)布所述常態(tài)模式。
10. 如權(quán)利要求7或8或9所述的系統(tǒng),其特征在于所述常態(tài)模式劃分模塊在得到所述 常態(tài)模式的過程中,記錄每一所述常態(tài)模式所用到的屬性和屬性值;將第一所用的屬性和 或?qū)傩灾涤涗洖楦?jié)點(diǎn),最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點(diǎn);然后沿著根節(jié)點(diǎn) 向該葉節(jié)點(diǎn)發(fā)展,將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
【文檔編號(hào)】G06F17/30GK104156402SQ201410356933
【公開日】2014年11月19日 申請(qǐng)日期:2014年7月24日 優(yōu)先權(quán)日:2014年7月24日
【發(fā)明者】王電, 陳慶彬, 黃煜可 申請(qǐng)人:中國(guó)軟件與技術(shù)服務(wù)股份有限公司