本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種用于聚類分析中相似度識(shí)別的方法及裝置。
背景技術(shù):
隨著大數(shù)據(jù)時(shí)代的到來(lái),各個(gè)領(lǐng)域都積累了海量的繁雜數(shù)據(jù),使得如何挖掘數(shù)據(jù)中潛在的價(jià)值成了當(dāng)今數(shù)據(jù)大環(huán)境下的研究熱點(diǎn)。其中,聚類分析廣泛應(yīng)用于多個(gè)領(lǐng)域,例如氣象預(yù)報(bào)、電力、金融、林業(yè)等。
聚類分析是數(shù)理統(tǒng)計(jì)中的一種多元分析方法,它是用數(shù)學(xué)方法定量地確定樣本的親疏關(guān)系,從而客觀地劃分類型。通常把被聚類的事物稱為樣本,將被聚類的一組事物稱為樣本集。而相似度函數(shù)可以用于度量樣本數(shù)據(jù)之間相似程度的工具。
目前,常用的相似度函數(shù)有歐氏距離法和灰度關(guān)聯(lián)法,歐氏距離法是一種靜態(tài)分析方法,適用于研究對(duì)象的靜態(tài)分析,只反映兩個(gè)研究對(duì)象空間上的距離大小,能保證序列間的“值相似”度,但不能充分保證研究對(duì)象的形態(tài)或輪廓的相似性,即不能保證“型相似”度;灰色關(guān)聯(lián)度法是動(dòng)態(tài)分析方法,適用于研究對(duì)象的動(dòng)態(tài)歷程,其可以動(dòng)態(tài)分析研究對(duì)象間的變化趨勢(shì),能保證“型相似”度,但不能保證“值相似”度。綜上所述,上述兩種方法在相似度的表述上都缺乏完整性,即不能同時(shí)表示序列間的“型相似”度和“值相似”度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種用于聚類分析中相似度識(shí)別的方法,目的在于解決現(xiàn)有技術(shù)聚類分析中的相似度表述不完整的問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種用于聚類分析中相似度識(shí)別的方法,該方法包括:
獲取第一序列和第二序列;
計(jì)算所述第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和所述第二序列內(nèi)預(yù)分配有所述預(yù)設(shè)權(quán)重的元素間的歐氏距離;
根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算所述第一序列第i維元素和所述第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù),其中,i=2,3,4...n;
根據(jù)所述關(guān)聯(lián)系數(shù),計(jì)算出所述第一序列和所述第二序列間的灰色關(guān)聯(lián)度;
根據(jù)所述灰色關(guān)聯(lián)度和所述歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出所述第一序列和所述第二序列間的相似度。
可選地,所述計(jì)算所述第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和所述第二序列內(nèi)預(yù)分配有所述預(yù)設(shè)權(quán)重的元素間的歐氏距離包括:
基于歐氏距離模型
其中,所述第一序列為x=[x1,x2···xn],所述第二序列為y=[y1,y2···yn];ωi為所述預(yù)設(shè)權(quán)重,ωi∈[0,1];n為序列的總元素個(gè)數(shù)。
可選地,所述根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算所述第一序列第i維元素和所述第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù)包括:
計(jì)算所述第一序列內(nèi)第i維元素的增量
基于關(guān)聯(lián)系數(shù)模型
其中,
可選地,所述根據(jù)所述關(guān)聯(lián)系數(shù),計(jì)算出所述第一序列和所述第二序列間的灰色關(guān)聯(lián)度包括:
基于灰色關(guān)聯(lián)度模型
可選地,所述根據(jù)所述灰色關(guān)聯(lián)度和所述歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出所述第一序列和所述第二序列間的相似度包括:
基于相似度識(shí)別模型
其中,μ和ν均為權(quán)重系數(shù),μ+ν=1。
可選地,所述權(quán)重系數(shù)均為0.5。
本發(fā)明所提供的一種用于聚類分析中相似度識(shí)別的方法,通過(guò)獲取第一序列和第二序列;計(jì)算所述第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和所述第二序列內(nèi)預(yù)分配有所述預(yù)設(shè)權(quán)重的元素間的歐氏距離;根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算所述第一序列第i維元素和所述第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù),其中,i=2,3,4...n;根據(jù)所述關(guān)聯(lián)系數(shù),計(jì)算出所述第一序列和所述第二序列間的灰色關(guān)聯(lián)度;根據(jù)所述灰色關(guān)聯(lián)度和所述歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出所述第一序列和所述第二序列間的相似度。本申請(qǐng)通過(guò)權(quán)重系數(shù),將序列間的歐氏距離和灰色關(guān)聯(lián)度有機(jī)結(jié)合在一起,使得得出的相似度即可以反映兩序列間的空間上的距離大小,也可以反映形態(tài)或輪廓的相似性,即計(jì)算出的相似度可以同時(shí)表示序列間的“型相似”度和“值相似”度。
附圖說(shuō)明
為了更清楚的說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單的介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例所提供的用于聚類分析中相似度識(shí)別方法的一種具體實(shí)施方式的流程示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參見(jiàn)圖1,圖1為本發(fā)明實(shí)施例所提供的用于聚類分析中相似度識(shí)別方法的一種具體實(shí)施方式的流程示意圖,該方法包括以下步驟:
步驟101:獲取第一序列和第二序列。
需要說(shuō)明的是,上述第一序列和第二序列可以是指聚類分析的兩個(gè)研究對(duì)象。第一序列可以具體為x=[x1,x2···xn],第二序列可以具體為y=[y1,y2···yn]。
步驟102:計(jì)算所述第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和所述第二序列內(nèi)預(yù)分配有所述預(yù)設(shè)權(quán)重的元素間的歐氏距離。
具體地,預(yù)先為序列內(nèi)的每個(gè)元素分配一個(gè)權(quán)重,然后再基于歐氏距離的定義,計(jì)算兩個(gè)序列內(nèi)的對(duì)應(yīng)元素間的歐氏距離。例如,第一序列x內(nèi)的第j個(gè)元素xj對(duì)應(yīng)的權(quán)重為wj,第二序列y內(nèi)的第j個(gè)元素yj的權(quán)重也為wj,先計(jì)算(wjxj-wjyj)2平方和,依次類推,依次計(jì)算兩個(gè)序列內(nèi)的每個(gè)元素,再將各個(gè)元素的平方和求和,接著求出序列間的歐氏距離。
作為一種具體實(shí)施方式,上述計(jì)算所述第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和所述第二序列內(nèi)預(yù)分配有所述預(yù)設(shè)權(quán)重的元素間的歐氏距離的過(guò)程可以具體為:基于歐氏距離模型
顯而易見(jiàn)地,ωi的取值可以根據(jù)實(shí)際情況進(jìn)行設(shè)定,在此不作限定。
步驟103:根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算所述第一序列第i維元素和所述第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù),其中,i=2,3,4...n。
需要說(shuō)明的是,上述增量可以由序列的當(dāng)前元素減去前一個(gè)元素得出,例如,
作為一種具體實(shí)施方式,上述根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算所述第一序列第i維元素和所述第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù)的過(guò)程可以具體為:計(jì)算所述第一序列內(nèi)第i維元素的增量
需要說(shuō)明的是,當(dāng)λi等于1時(shí),ε(i)大于0,此時(shí),表示序列x和y的第i維元素相對(duì)于第(i-1)維元素變化的正負(fù)方向一致;而當(dāng)λi等于-1時(shí),ε(i)小于0,此時(shí),表示序列x和y的第i維元素相對(duì)于第(i-1)維元素變化的正負(fù)方向相反。
傳統(tǒng)的灰色關(guān)聯(lián)度只能夠反映序列間同向趨勢(shì)的變化,該同向趨勢(shì)變化為同為正向或同為負(fù)向。此處,引入符號(hào)函數(shù)灰色關(guān)聯(lián)度的計(jì)算模型,使其可以反映不同向趨勢(shì)與同向趨勢(shì)變化。
可以看出,在灰色關(guān)聯(lián)度部分引入符號(hào)函數(shù)λi,可以反映出序列間的正負(fù)關(guān)聯(lián)性,完善了相似度函數(shù)的表達(dá)能力。
步驟104:根據(jù)所述關(guān)聯(lián)系數(shù),計(jì)算出所述第一序列和所述第二序列間的灰色關(guān)聯(lián)度。
具體地,在計(jì)算出序列間各個(gè)元素的關(guān)聯(lián)系數(shù)之后,可以根據(jù)該關(guān)聯(lián)系數(shù)。
作為一種具體實(shí)施方式,上述根據(jù)所述關(guān)聯(lián)系數(shù),計(jì)算出所述第一序列和所述第二序列間的灰色關(guān)聯(lián)度的過(guò)程可以具體為:基于灰色關(guān)聯(lián)度模型
步驟105:根據(jù)所述灰色關(guān)聯(lián)度和所述歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出所述第一序列和所述第二序列間的相似度。
需要說(shuō)明的是,上述預(yù)設(shè)權(quán)重系數(shù)可以是指灰度關(guān)聯(lián)度和歐氏距離的權(quán)重系數(shù),具體地,灰度關(guān)聯(lián)度的權(quán)重系數(shù)記為μ,歐氏距離的權(quán)重系數(shù)記為ν,μ+ν=1。
可選地,μ=0.5,ν=0.5。當(dāng)然,當(dāng)需要提高序列間的“型相似度”時(shí),μ的取值可以相應(yīng)增大;而當(dāng)需要提高序列間的“值相似度”時(shí),ν的取值可以相應(yīng)增大,即可以根據(jù)實(shí)際情況,對(duì)μ、ν的取值進(jìn)行調(diào)整,在此不作限定。
作為一種具體實(shí)施方式,上述根據(jù)所述灰色關(guān)聯(lián)度和所述歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出所述第一序列和所述第二序列間的相似度的過(guò)程可以具體為:基于相似度識(shí)別模型
可以看出,上述相似度識(shí)別模型兩部分,其中一部分是兩序列間的灰色關(guān)聯(lián)度,其可以表示出序列間的形態(tài)或輪廓相似性,即“型相似”度;另一部分是兩序列間的歐氏距離,其可以表示出序列間的空間距離大小,即“值相似”度。將歐氏距離函數(shù)和灰色關(guān)聯(lián)度通過(guò)權(quán)重系數(shù)有機(jī)結(jié)合在一起,可以克服現(xiàn)有技術(shù)中單一方法的局限性,使得相似度的表述上更加完整。
本發(fā)明實(shí)施例所提供的用于聚類分析中相似度識(shí)別方法,通過(guò)獲取第一序列和第二序列;計(jì)算第一序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素和第二序列內(nèi)預(yù)分配有預(yù)設(shè)權(quán)重的元素間的歐氏距離;根據(jù)第一序列內(nèi)第i維元素的增量和第二序列內(nèi)第i維元素的增量,計(jì)算第一序列第i維元素和第二序列內(nèi)第i維元素間的關(guān)聯(lián)系數(shù),其中,i=2,3,4...n;根據(jù)關(guān)聯(lián)系數(shù),計(jì)算出第一序列和第二序列間的灰色關(guān)聯(lián)度;根據(jù)灰色關(guān)聯(lián)度和歐氏距離,以預(yù)設(shè)權(quán)重系數(shù),計(jì)算出第一序列和第二序列間的相似度。該方法通過(guò)權(quán)重系數(shù),將序列間的歐氏距離和灰色關(guān)聯(lián)度有機(jī)結(jié)合在一起,使得得出的相似度即可以反映兩序列間的空間上的距離大小,也可以反映形態(tài)或輪廓的相似性,即計(jì)算出的相似度可以同時(shí)表示序列間的“型相似”度和“值相似”度。
以上對(duì)本發(fā)明所提供的用于聚類分析中相似度識(shí)別方法進(jìn)行了詳細(xì)介紹。本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以對(duì)本發(fā)明進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。