欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法

文檔序號(hào):6536819閱讀:338來源:國(guó)知局
一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法
【專利摘要】本發(fā)明涉及一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法,屬于機(jī)器學(xué)習(xí)領(lǐng)域。首先確定基于項(xiàng)目的相似矩陣和基于用戶偏好的同現(xiàn)矩陣,通過兩矩陣得到最終的相似矩陣;進(jìn)而通過去除邊緣點(diǎn),選擇聚類初始中心點(diǎn),完成對(duì)初始中心點(diǎn)的選擇。本發(fā)明可以有效提高聚類效果。
【專利說明】—種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法,屬于機(jī)器學(xué)習(xí)領(lǐng)域。
【背景技術(shù)】
[0002]聚類是一種無(wú)監(jiān)督的學(xué)習(xí)方法,它通過一定的規(guī)則將數(shù)據(jù)對(duì)象按照定義的相似性劃分成為多個(gè)類或簇,在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。到目前為止,聚類分析的應(yīng)用已十分廣泛,包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、圖像分割、和數(shù)據(jù)挖掘等。目前,主要的聚類算法分為劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。而劃分式聚類算法是實(shí)際應(yīng)用中聚類分析的支柱。劃分式聚類算法需要預(yù)先指定聚類數(shù)目或聚類中心,通過反復(fù)迭代運(yùn)算,逐步降低目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)值收斂時(shí),得到最終聚類結(jié)果。劃分式聚類算法簡(jiǎn)單、快速而且能有效的處理大數(shù)據(jù)集,但此聚類算法存在高計(jì)算性及對(duì)數(shù)據(jù)的輸入順序敏感的缺點(diǎn),且需要預(yù)先指定聚類數(shù)目或聚類中心。初始聚類中心點(diǎn)對(duì)聚類結(jié)果的影響很大。如果初始聚類中心點(diǎn)選擇不當(dāng),得到的聚類結(jié)果可能會(huì)陷入局部最優(yōu),從而得不到較好的聚類結(jié)果。而劃分式聚類初始聚類中心點(diǎn)的選擇方法也是多種多樣,主要有以下幾種方法:
[0003]隨機(jī)選擇法:隨機(jī)選取k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心點(diǎn);
[0004]經(jīng)驗(yàn)法:依據(jù)經(jīng)驗(yàn),根據(jù)個(gè)體性質(zhì),選擇k個(gè)有代表意義的點(diǎn)作為初始聚類中心
占.[0005]遞推法:首先計(jì)算全體數(shù)據(jù)樣本的均值,以這個(gè)數(shù)值點(diǎn)作為初始聚類中心,然后計(jì)算距離第一個(gè)數(shù)值點(diǎn)最遠(yuǎn)的一個(gè)點(diǎn)作為第2個(gè)聚類中心,以此類推,由第k-Ι個(gè)聚類中心計(jì)算聚類最遠(yuǎn)的一個(gè)數(shù)據(jù)樣本作為最后一個(gè)聚類中心。
[0006]密度估計(jì)選擇法:計(jì)算特定半徑內(nèi)的每個(gè)數(shù)據(jù)樣本的密度,具有最大密度的點(diǎn)作為第一個(gè)聚類中心點(diǎn),然后再計(jì)算剩下的初始中心點(diǎn),若是具有第二大密度的點(diǎn)距離第一個(gè)聚類中心點(diǎn)的距離大于特定值則作為第2個(gè)初始聚類中心點(diǎn),按此方法依次選出k個(gè)中心點(diǎn);
[0007]距離優(yōu)化選擇法:按照最大最小距離計(jì)算
[0008]采用遺傳算法計(jì)算聚類初始中心點(diǎn)等。
[0009]由于初始聚類中心點(diǎn)對(duì)聚類結(jié)果的影響很大。如果初始聚類中心點(diǎn)選擇不當(dāng),得到的聚類結(jié)果可能會(huì)陷入局部最優(yōu),從而得不到較好的聚類結(jié)果。為了獲得恰當(dāng)?shù)某跏季垲愔行狞c(diǎn),避免聚類結(jié)果陷入局部最優(yōu),本專利提出一種新的聚類初始中心點(diǎn)的選擇方法。

【發(fā)明內(nèi)容】

[0010]本發(fā)明的目的是為了解決基于劃分的算法的初始中心點(diǎn)的選擇的問題,使用用戶的偏好信息和商品屬性來構(gòu)造相似矩陣,從而得到初試中心點(diǎn)。
[0011]本發(fā)明技術(shù)方案的實(shí)現(xiàn)過程為:[0012]步驟1、確定基于項(xiàng)目的相似矩陣;
[0013]定義項(xiàng)目的特征向量Jtemi= (P1, p2,..., pm);其中m為項(xiàng)目的屬性個(gè)數(shù),Pi(l≤ i ≤m)代表了此項(xiàng)目第i個(gè)特征向量的值。然后每個(gè)項(xiàng)目可以轉(zhuǎn)換為用一個(gè)向量Uemi= (w1; w2,…,wm)表示,其中向量維數(shù)是m,即項(xiàng)目的屬性特征個(gè)數(shù)。然后通過計(jì)算表示項(xiàng)目的向量間的距離Au來表示Uemi和iten^之間的相似性,從而構(gòu)成相似矩陣
【權(quán)利要求】
1.一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法,其特征在于: 步驟1、確定基于項(xiàng)目的相似矩陣;定義項(xiàng)目的特征向量dteniiKPi, P2,…,pm);其中m為項(xiàng)目的屬性個(gè)數(shù),Pi (1 ≤ i ≤m)代表了此項(xiàng)目第i個(gè)特征向量的值;然后每個(gè)項(xiàng)目可以轉(zhuǎn)換為用一個(gè)向量Uemi= (W1, W2,…,wffl)表示,其中向量維數(shù)是m,即項(xiàng)目的屬性特征個(gè)數(shù);然后通過計(jì)算表示項(xiàng)目的向量間的距離Aij來表示Uemi和Uemj之間的相似性,從而構(gòu)成相似矩陣
2.如權(quán)利要求1所述的一種基于用戶偏好與項(xiàng)目屬性的聚類初始點(diǎn)選擇方法,選擇聚類初始中心點(diǎn)的特征在于: (1)在獲得的相似矩陣中,找出最大相似度,然后將這個(gè)最大相似度的兩個(gè)點(diǎn)的中心點(diǎn)作為聚類的中心點(diǎn),記錄到Cluster^中;并計(jì)算兩個(gè)點(diǎn)到它們的中心點(diǎn)的距離,找出較大距離的點(diǎn),將相似矩陣中代表較大的距離的點(diǎn)的行和列刪除,得到新的相似矩陣; (2)再?gòu)纳鲜鱿嗨凭仃囍姓业阶畲笙嗨贫?,依次?jì)算具有此最大相似度的兩個(gè)點(diǎn)分別到所有聚類初始中心點(diǎn)Cluster^的距離,若是存在距離小于給定閾值ω,則合并此點(diǎn)到具有最小距離的聚類中,重新計(jì)算聚類中心點(diǎn),否則若是不存在距離小于給定閾值ω,則此點(diǎn)作為新的聚類中心,并將此點(diǎn)作為另外一個(gè)初始中心點(diǎn)加入到Cluster []中;然后將此最大相似度的兩個(gè)點(diǎn)所代表的的行和列刪除得到新的相似矩陣;進(jìn)行迭代,直至聚類中心點(diǎn)的個(gè)數(shù)為k。
【文檔編號(hào)】G06F17/30GK103793504SQ201410035844
【公開日】2014年5月14日 申請(qǐng)日期:2014年1月24日 優(yōu)先權(quán)日:2014年1月24日
【發(fā)明者】宿紅毅, 王彩群, 閆波, 鄭宏 申請(qǐng)人:北京理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
合水县| 丘北县| 双牌县| 乡宁县| 信阳市| 建昌县| 隆尧县| 浪卡子县| 东平县| 平远县| 永胜县| 南皮县| 墨脱县| 邻水| 绥宁县| 榆树市| 图们市| 青岛市| 红安县| 山丹县| 安丘市| 汝城县| 渝中区| 葫芦岛市| 怀柔区| 商丘市| 安远县| 景德镇市| 丰都县| 南郑县| 商水县| 镇远县| 万年县| 阿拉善左旗| 湘乡市| 麻城市| 正阳县| 东阳市| 西乌珠穆沁旗| 古浪县| 东安县|