本申請涉及計算機數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及無監(jiān)督的特征選擇方法、裝置。
背景技術(shù):
目前,基于大數(shù)據(jù)分析的應(yīng)用不斷涌現(xiàn),如信息檢索、挖掘用戶的消費傾向、消費模式等;通過對樣本數(shù)據(jù)進行分析,提取出能夠描述樣本數(shù)據(jù)的屬性信息,即樣本的特征。例如,從某商品的網(wǎng)絡(luò)銷售數(shù)據(jù)中,可以提取出購買用戶等級、購買次數(shù)、購金額等特征。一般的,樣本數(shù)據(jù)都具有多個特征,但未必每個特征都對數(shù)據(jù)的分析有用處,因此需要從大量特征中選出有效的特征,以減少特征集中特征的個數(shù),進而減小具體應(yīng)用中基于特征集的計算過程的復(fù)雜度,提高預(yù)測精度。
針對樣本數(shù)據(jù)的特征選擇問題,相關(guān)技術(shù)中已經(jīng)給出多種實現(xiàn)方法,這些實現(xiàn)方法大多都是需要依賴樣本數(shù)據(jù)分類標示的有監(jiān)督方式,即各條樣本數(shù)據(jù)的類別應(yīng)當為已知,從而根據(jù)這些已知類別調(diào)整特征選擇模型的參數(shù),以保證特征選擇的準確率。
但是有些應(yīng)用場景下樣本數(shù)據(jù)不具備分類標示,從而難以通過現(xiàn)有特征選擇方法進行特征選擇。另外,應(yīng)用現(xiàn)有特征選擇方法會出現(xiàn)所選出的兩個或兩個以上特征所代表的信息相似的現(xiàn)象,即最終得到的特征集存在信息冗余。
技術(shù)實現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本申請?zhí)峁┮环N無監(jiān)督的特征選擇方法、裝置。
本申請第一方面,提供一種無監(jiān)督的特征選擇方法,包括:
計算樣本數(shù)據(jù)的所有特征之間的相似度;
以特征為節(jié)點,根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖;
對所述特征拓撲圖進行分割,得到一個或多個連通圖;
根據(jù)所述連通圖,確定目標特征集。
結(jié)合第一方面,在第一方面第一種可行的實施方式中,根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖,包括:
在任意相似度大于零的兩個節(jié)點之間添加一條邊,得到所述特征拓撲圖。
結(jié)合第一方面,或者第一方面第一種可行的實施方式,在第一方面第二種可行的實 施方式中,對所述特征拓撲圖進行分割,得到一個或多個連通圖,包括:
分別將所述特征拓撲圖中每條邊對應(yīng)的相似度與預(yù)設(shè)相似度閾值進行比較;
刪除所述特征拓撲圖中相似度小于所述預(yù)設(shè)相似度閾值的邊;
將通過邊連接的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
結(jié)合第一方面,或者第一方面第一種可行的實施方式,在第一方面第三種可行的實施方式中,對所述特征拓撲圖進行分割,得到一個或多個連通圖,包括:
為所述特征拓撲圖中的每個節(jié)點設(shè)置唯一的標簽;
將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點;
對于每個節(jié)點,將自己的標簽和接收到的所有來自鄰居的標簽進行比較,選其中值最小的標簽作為相應(yīng)節(jié)點的新標簽;
判斷各個節(jié)點的標簽是否發(fā)生變化;
如果存在至少一個節(jié)點的標簽發(fā)生變化,則返回執(zhí)行所述將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點的步驟;
如果所有節(jié)點的標簽均未發(fā)生變化,則將標簽相同的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
結(jié)合第一方面,或者第一方面第一種可行的實施方式,在第一方面第四種可行的實施方式中,根據(jù)所述連通圖,確定目標特征集,包括:
分別確定每個連通圖中的核心節(jié)點,并將各個核心節(jié)點對應(yīng)的特征記入目標特征集。
結(jié)合第一方面第四種可行的實施方式,在第一方面第五種可行的實施方式中,分別確定每個連通圖中的核心節(jié)點,包括:
根據(jù)各個節(jié)點的節(jié)點度值、介數(shù)值和kcore系數(shù)中的任意一種確定每個連通圖中的核心節(jié)點。
本申請第二方面,提供一種無監(jiān)督的特征選擇裝置,包括:
相似度計算單元,用于計算樣本數(shù)據(jù)的所有特征之間的相似度;
拓撲圖構(gòu)建單元,用于以特征為節(jié)點,根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖;
連通圖挖掘單元,用于對所述特征拓撲圖進行分割,得到一個或多個連通圖;
目標特征選擇單元,用于根據(jù)所述連通圖,確定目標特征集。
結(jié)合第二方面,在第二方面第一種可行的實施方式中,所述拓撲圖構(gòu)建單元具體被配置為:
在任意相似度大于零的兩個節(jié)點之間添加一條邊,得到所述特征拓撲圖。
結(jié)合第二方面,或者第二方面第一種可行的實施方式,在第二方面第二種可行的實施方式中,所述連通圖挖掘單元包括:第一挖掘模塊;
所述第一挖掘模塊被配置為:
分別將所述特征拓撲圖中每條邊對應(yīng)的相似度與預(yù)設(shè)相似度閾值進行比較;
刪除所述特征拓撲圖中相似度小于所述預(yù)設(shè)相似度閾值的邊;
將通過邊連接的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
結(jié)合第二方面,或者第二方面第一種可行的實施方式,在第二方面第三種可行的實施方式中,所述連通圖挖掘單元包括:第二挖掘模塊;
所述第二挖掘模塊被配置為:
為所述特征拓撲圖中的每個節(jié)點設(shè)置唯一的標簽;
將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點;
對于每個節(jié)點,將自己的標簽和接收到的所有來自鄰居的標簽進行比較,選其中值最小的標簽作為相應(yīng)節(jié)點的新標簽;
判斷各個節(jié)點的標簽是否發(fā)生變化;
如果存在至少一個節(jié)點的標簽發(fā)生變化,則返回執(zhí)行所述將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點的步驟;
如果所有節(jié)點的標簽均未發(fā)生變化,則將標簽相同的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
結(jié)合第二方面,或者第二方面第一種可行的實施方式,在第二方面第四種可行的實施方式中,所述目標特征選擇單元具體被配置為:
分別確定每個連通圖中的核心節(jié)點,并將各個核心節(jié)點對應(yīng)的特征記入目標特征集。
結(jié)合第二方面第四種可行的實施方式,在第二方面第五種可行的實施方式中,所述目標特征選擇單元具體被配置為:根據(jù)各個節(jié)點的節(jié)點度值、介數(shù)值和kcore系數(shù)中的任意一種確定每個連通圖中的核心節(jié)點。
由以上技術(shù)方案可知,本申請實施例基于圖論知識完成對樣本數(shù)據(jù)的分析,首先根 據(jù)特征之間的相似度構(gòu)建特征拓撲圖,然后將該特征拓撲圖進行分割,使得相似度較高的特征節(jié)點劃分在同一個連通圖中,實現(xiàn)對樣本數(shù)據(jù)的特征聚類,從而在無法預(yù)先確定樣本數(shù)據(jù)的分類標示的場景下也可以對樣本數(shù)據(jù)的特征進行選擇;在通過連通圖完成特征聚類后,進一步從每個連通圖中選出一個節(jié)點,并將該節(jié)點對應(yīng)的特征為代表特征,記入目標特征集,從而得到整個樣本數(shù)據(jù)對應(yīng)的全面且不重復(fù)的代表特征。因此,本實施例不需要依賴樣本數(shù)據(jù)的分類標示,可以實現(xiàn)無監(jiān)督的特征選擇,且保證目標特征集中不會出現(xiàn)兩個或兩個以上相類似的特征,使得目標特征集可以更直觀地描述樣本數(shù)據(jù),避免信息冗余。
應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本申請。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是本申請實施例提供的一種無監(jiān)督的特征選擇方法的流程圖。
圖2是本申請實施例提供的無監(jiān)督的特征選擇方法中挖掘連通圖的原理示意圖。
圖3是本申請實施例提供的無監(jiān)督的特征選擇方法中分割特征拓撲圖的一種方法示意圖。
圖4是本申請實施例提供的一種無監(jiān)督的特征選擇裝置的結(jié)構(gòu)框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1示出的一種無監(jiān)督的特征選擇方法的流程圖。如圖1所示,該方法包括以下步驟。
s11、計算樣本數(shù)據(jù)的所有特征之間的相似度。
具體的,本申請實施例可以根據(jù)歐氏距離、余弦距離和杰卡德相似系數(shù)中的任意一種計算兩個特征之間的相似度。
其中,歐氏距離表征空間兩點之間的絕對距離。假設(shè)兩個特征分別為x、y,可以視 為多維空間中的兩個點,坐標分別為x(x1,x2,...)和y(y1,y2,...),則其歐氏距離計算公式為:
余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。特征x和y的余弦距離,即x和y對應(yīng)的向量
杰卡德相似系數(shù),兩個集合的交集元素個數(shù)與這兩個集合的并集元素個數(shù)之間的比值,稱為這兩個集合的杰卡德系數(shù);對于特征x和y,其對應(yīng)的向量
當然,除了上述歐氏距離、余弦距離和杰卡德相似系數(shù)以為,本申請實施例還可以采用其他方法計算兩個特征之間的相似度,實際應(yīng)用中可以根據(jù)具體場景的不同,選擇不同的公式來計算特征之間的相似性。
s12、以特征為節(jié)點,根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖。
s13、對所述特征拓撲圖進行分割,得到一個或多個連通圖。
在拓撲圖中,若任意兩個節(jié)點間均有路徑相連(既包括通過一條邊直接相連,也包括通過至少一個節(jié)點和至少兩條邊間接相連),則稱為連通圖。根據(jù)上述建圖的邏輯可知,相對于連通圖外的節(jié)點,處于同一連通圖中的各節(jié)點之間的連接關(guān)系更緊密,即處于同一連通圖中的各節(jié)點對應(yīng)的特征之間的相似度更高,也即步驟s13實際是將相似特征對應(yīng)的節(jié)點聚合到同一個連通圖中,實現(xiàn)對樣本數(shù)據(jù)的特征聚類,從而不需要預(yù)知樣本數(shù)據(jù)的分類標示。
s14、根據(jù)所述連通圖,確定目標特征集。
由于每個連通圖都相當于一類相似特征的集合,故本實施例步驟s14可以從每個連通圖中選擇一個節(jié)點,將該節(jié)點對應(yīng)的特征作為該連通圖所對應(yīng)的特征集合的代表特征, 記入目標特征集,使得目標特征集中每種類型的特征僅包含一個,保證目標特征集中的特征之間的差異性。
由以上技術(shù)方案可知,本申請實施例基于圖論知識完成對樣本數(shù)據(jù)的分析,首先根據(jù)特征之間的相似度構(gòu)建特征拓撲圖,然后將該特征拓撲圖進行分割,使得相似度較高的特征節(jié)點劃分在同一個連通圖中,實現(xiàn)對樣本數(shù)據(jù)的特征聚類,從而在無法預(yù)先確定樣本數(shù)據(jù)的分類標示的場景下也可以對樣本數(shù)據(jù)的特征進行選擇;在通過連通圖完成特征聚類后,進一步從每個連通圖中選擇一個節(jié)點,并將該節(jié)點對應(yīng)的特征為代表特征,記入目標特征集,從而得到整個樣本數(shù)據(jù)對應(yīng)的全面且不重復(fù)的代表特征。因此,本實施例不需要依賴樣本數(shù)據(jù)的分類標示,可以實現(xiàn)無監(jiān)督的特征選擇,且保證目標特征集中不會出現(xiàn)兩個或兩個以上相類似的特征,使得目標特征集可以更直觀地描述樣本數(shù)據(jù),避免信息冗余。
在本申請一個可行的實施例中,步驟s12所述的根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖,具體可以包括:
在任意相似度大于零的兩個節(jié)點之間添加一條邊,得到所述特征拓撲圖。
如圖2所示,假設(shè)有標號為1至8的八個特征,分別表示某購物網(wǎng)站中某個商品7天瀏覽次數(shù)、14天瀏覽次數(shù)、30天瀏覽次數(shù)、60天瀏覽次數(shù)、7天購買次數(shù)、14天購買次數(shù)、30天購買次數(shù)、60天購買次數(shù)。構(gòu)建這八個特征對應(yīng)的特征拓撲圖的過程為:經(jīng)過相似度計算得知,標號為1和2的兩個特征之間的相似度為0.7,則將二者對應(yīng)的節(jié)點通過一條邊連接,標號為3和7的兩個特征之間的相似度為0.2,則將二者對應(yīng)的節(jié)點通過一條邊連接……依此類推,可以得到圖2所示特征拓撲圖。另外,為了更直觀的展現(xiàn)特征之間的相似度高低,可以設(shè)定相似度越小,相應(yīng)的邊長度越大,使得相應(yīng)的兩個節(jié)點之間距離越大(例如圖2中,由于0.7>0.2,故標號1和2之間的邊比標號3和7之間的邊短),從而可以根據(jù)節(jié)點密集程度確定相應(yīng)特征的相似度高低,即節(jié)點之間越密集度,相應(yīng)的特征之間相似度越高。
在本申請一個可行的實施例中,上述步驟s14所述的根據(jù)所述連通圖,確定目標特征集,具體可以包括:
分別確定每個連通圖中的核心節(jié)點,并將各個核心節(jié)點對應(yīng)的特征記入目標特征集。
仍參照圖2,根據(jù)上述步驟s13對八個特征對應(yīng)的特征拓撲圖進行分割,可以得到標號分別為a和b的兩個連通圖(虛線圈表示);進而,在步驟s14中可以確定連通圖a的核心節(jié)點為節(jié)點3,連通圖b的核心節(jié)點為節(jié)點7,并將該核心節(jié)點3和7對應(yīng)的特征作為代表特征記入目標特征集,即核心節(jié)點3對應(yīng)的特征為節(jié)點1至4對應(yīng)的四個特征 的代表特征,核心節(jié)點7對應(yīng)的特征為節(jié)點5至8對應(yīng)的四個特征的代表特征。
可選的,上述確定各個連通圖的核心節(jié)點的方法有多種,至少包括:根據(jù)各個節(jié)點的節(jié)點度值(nodedegree)、介數(shù)值和kcore系數(shù)中的任意一種確定所述核心節(jié)點;具體可以根據(jù)應(yīng)用場景的不同,選擇不同的確定方法。
其中,某個節(jié)點的節(jié)點度值,指在拓撲圖中該節(jié)點相關(guān)聯(lián)的邊的條數(shù);相應(yīng)的,可以選擇節(jié)點度值最大的節(jié)點作為核心節(jié)點。
某個節(jié)點的介數(shù)值,指拓撲圖中經(jīng)過該節(jié)點的最短路徑的數(shù)目與拓撲圖中最短路徑的總數(shù)之間的比值;相應(yīng)的,可以選擇介數(shù)值最大的節(jié)點作為核心節(jié)點。
根據(jù)kcore算法計算各節(jié)點在連通圖結(jié)構(gòu)上的kcore系數(shù),本質(zhì)上是過濾連通圖中的邊緣節(jié)點,找出連通圖中相對核心位置的點并發(fā)現(xiàn)他們的關(guān)聯(lián)。
仍以圖2所示情境為例,根據(jù)節(jié)點度值確定核心節(jié)點的步驟為:連通圖a中,節(jié)點3相關(guān)聯(lián)的邊共4條,即節(jié)點3的節(jié)點度值為4,且連通圖a中其他節(jié)點的節(jié)點度值都小于4,故可以確定節(jié)點3為連通圖a的核心節(jié)點;相應(yīng)的,節(jié)點3對應(yīng)的特征作為連通圖a的代表特征,被記入目標特征集。
由以上技術(shù)方案可知,本申請基于圖論知識對樣本數(shù)據(jù)特征進行聚類、選擇,不需要依賴樣本數(shù)據(jù)的分類標示(即無監(jiān)督),且最終得到的目標特征集中的各個代表特征差異都較大,不會存在信息冗余。以電商數(shù)據(jù)為例,對于“用戶的星級”、“15天瀏覽次數(shù)”、“15天購買次數(shù)”、“15天購買總金額”等用戶特征,通過本實施例可以識別出“15天瀏覽次數(shù)”、“15天購買次數(shù)”和“15天購買總金額”三者為相似特征,目標特征集中最多存在三者中的一個。
上述步驟s13所述的對特征拓撲圖進行分割,實際是實現(xiàn)特征聚類,也即實現(xiàn)對所有特征的無監(jiān)督分類。實際應(yīng)用中,步驟s13的具體實施方法可以有多種。在本申請一個可行的實施例中,可以直接根據(jù)特征之間的相似度進行特征拓撲圖的分割,具體步驟如下:
s1311、分別將所述特征拓撲圖中每條邊對應(yīng)的相似度與預(yù)設(shè)相似度閾值進行比較;
s1312、刪除所述特征拓撲圖中相似度小于所述預(yù)設(shè)相似度閾值的邊;
s1313、將通過邊連接的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
具體的,兩個特征之間的相似度取值范圍為[0,1],相似度為0表示兩個特征完全不相似,相似度為1表示兩個特征完全相同。相應(yīng)的,上述預(yù)設(shè)相似度閾值可以根據(jù)具體應(yīng)用場景設(shè)置,預(yù)設(shè)相似度閾值越高,特征拓撲圖中節(jié)點分布越分散,從而可以挖掘出的連通圖個數(shù)越多且每個連通圖的規(guī)模越小,從而使得目標特征集中可以得到更多的 代表特征;相反,預(yù)設(shè)相似度閾值越低,特征拓撲圖中節(jié)點分布越密集,可以挖掘出的連通圖個數(shù)越少且每個連通圖的規(guī)模越大,從而最終得到的目標特征集中代表特征越少。一般的,預(yù)設(shè)相似度閾值不宜小于0.5。
仍參照圖2,對標號為1至8的八個特征對應(yīng)的特征拓撲圖進行分割,假設(shè)預(yù)設(shè)相似度閾值設(shè)置為0.5則將特征拓撲圖中每條邊對應(yīng)的相似度分別與0.5進行比較,刪除相似度小于0.5的邊,如節(jié)點3和7之間的邊(以虛線表示),從而可以得到a和b兩個連通圖。
參照圖3、在本申請另一個可行的實施例中,步驟s13中還可以基于標簽傳播算法實現(xiàn)對特征拓撲圖的分割,具體步驟如下:
s1321、為所述特征拓撲圖中的每個節(jié)點設(shè)置一個唯一的標簽;具體的,可以將節(jié)點id作為其標簽。
s1322、將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點。
s1323、對于每個節(jié)點,將自己的標簽和接收到的所有來自鄰居的標簽進行比較,選其中值最小的標簽作為相應(yīng)節(jié)點的新標簽。
s1324、判斷各個節(jié)點的標簽是否發(fā)生變化(即判斷是否存在標簽發(fā)生變化的節(jié)點),如果存在至少一個節(jié)點的標簽發(fā)生變化,則返回至步驟s1322,如果所有節(jié)點的標簽均未發(fā)生變化,則執(zhí)行步驟s1325。
s1325、將標簽相同的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
仍參照圖2所示情境,對于節(jié)點1,將其標簽label1分別傳播至其鄰居節(jié)點2和3,并接收鄰居節(jié)點2、3傳播來的標簽label2和label3,將label1、label2和label3進行比較,得到的比較結(jié)果為label3的值最小,則將節(jié)點1的標簽由label1更改為label3;其他節(jié)點也依照與節(jié)點1相同的方式進行標簽傳播、比較及更新。由于至少節(jié)點1對應(yīng)的標簽發(fā)生了變化,故返回步驟s1322,繼續(xù)在八個節(jié)點之間進行標簽傳播、比較及更新;依此循環(huán),直至相對于上一次循環(huán)結(jié)果,八個節(jié)點的標簽都無變化,停止循環(huán)并執(zhí)行步驟s1325;例如,假設(shè)此時節(jié)點1至4對應(yīng)的標簽都為label3,節(jié)點5至8對應(yīng)的標簽都為label7,則將標簽同為label3的節(jié)點1至4劃分在同一個連通圖a中(實際意義為表征瀏覽次數(shù)的特征都劃分在了連通圖a中),標簽同為label7的節(jié)點5至8劃分在同一個連通圖b中(實際意義為表征購買次數(shù)的特征都劃分在了連通圖b中)。
需要說明的是,上述步驟s1323中選擇值最小的標簽作為節(jié)點的新標簽僅僅是一種具體實施方式,也可以選擇值最大的標簽,只要保證同一特征拓撲圖中的所有節(jié)點采用的選擇標準一致即可。
上述標簽傳播算法尤其適用于特征拓撲圖較簡單的場景,標簽傳播、比較工作量不會太大,且簡單易行。在本申請其他實施例中,對于較復(fù)雜的特征拓撲圖,也可以采用社區(qū)發(fā)現(xiàn)算法完成對特征拓撲圖的分割(特征聚類),得到連通圖。
另外,本申請實施例還提供了一種計算機存儲介質(zhì),例如可以是rom、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等;該計算機存儲介質(zhì)中存儲有程序,當所述存儲介質(zhì)中的程序由數(shù)據(jù)分析平臺的相應(yīng)處理器執(zhí)行時,使得該數(shù)據(jù)分析平臺能夠執(zhí)行上述方法實施例中記載的無監(jiān)督的特征選擇方法的部分或全部步驟。
相應(yīng)于上述無監(jiān)督的特征選擇方法,本申請實施例還提供了一種無監(jiān)督的特征選擇裝置。圖4為該裝置的一種結(jié)構(gòu)框圖,具體包括:相似度計算單元301、拓撲圖構(gòu)建單元302、連通圖挖掘單元303和目標特征選擇單元304。
其中,該相似度計算單元301用于,計算樣本數(shù)據(jù)的所有特征之間的相似度。
該拓撲圖構(gòu)建單元302用于,以特征為節(jié)點,根據(jù)節(jié)點之間的相似度構(gòu)建特征拓撲圖。
該連通圖挖掘單元303用于,對所述特征拓撲圖進行分割,得到一個或多個連通圖。
該目標特征選擇單元304用于,根據(jù)所述連通圖,確定目標特征集。
由以上裝置結(jié)構(gòu)可知,本申請實施例首先根據(jù)特征之間的相似度構(gòu)建特征拓撲圖,然后將該特征拓撲圖進行分割,使得相似度較高的特征節(jié)點劃分在同一個連通圖中,實現(xiàn)對樣本數(shù)據(jù)的特征聚類,從而在無法預(yù)先確定樣本數(shù)據(jù)的分類標示的場景下也可以對樣本數(shù)據(jù)的特征進行選擇;在通過連通圖完成特征聚類后,進一步從每個連通圖中選出一個節(jié)點,并將該節(jié)點對應(yīng)的特征為代表特征,記入目標特征集,從而得到整個樣本數(shù)據(jù)對應(yīng)的全面且不重復(fù)的代表特征。因此,本實施例不需要依賴樣本數(shù)據(jù)的分類標示,可以實現(xiàn)無監(jiān)督的特征選擇,且保證目標特征集中不會出現(xiàn)兩個或兩個以上相類似的特征,使得目標特征集可以更直觀地描述樣本數(shù)據(jù),避免信息冗余。
在本申請一個可行的實施例中,上述拓撲圖構(gòu)建單元302具體被配置為:在任意相似度大于零的兩個節(jié)點之間添加一條邊,得到所述特征拓撲圖。
在本申請一個可行的實施例中,上述連通圖挖掘單元303可以包括第一挖掘模塊;該第一挖掘模塊具體被配置為:分別將所述特征拓撲圖中每條邊對應(yīng)的相似度與預(yù)設(shè)相似度閾值進行比較;刪除所述特征拓撲圖中相似度小于所述預(yù)設(shè)相似度閾值的邊;將通過邊連接的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
在本申請另一個可行的實施例中,上述連通圖挖掘單元303也可以包括第二挖掘模塊;該第二挖掘模塊具體被配置為:為所述特征拓撲圖中的每個節(jié)點設(shè)置唯一的標簽;將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點;對于每個節(jié)點,將自己的標簽和接收到的所有來自鄰居的標簽進行比較,選其中值最小的標簽作為相應(yīng)節(jié)點的新標簽;判斷各個節(jié)點的標簽是否發(fā)生變化;如果存在至少一個節(jié)點的標簽發(fā)生變化,則返回執(zhí)行所述將每個節(jié)點的標簽傳播至相應(yīng)的鄰居節(jié)點的步驟;如果所有節(jié)點的標簽均未發(fā)生變化,則將標簽相同的節(jié)點劃分在同一個連通圖中,得到一個或多個連通圖。
在本申請一個可行的實施例中,上述目標特征選擇單元304具體被配置為:分別確定每個連通圖中的核心節(jié)點,并將各個核心節(jié)點對應(yīng)的特征記入目標特征集。
可選的,為確定每個連通圖中的核心節(jié)點,所述目標特征選擇單元具體被配置為:根據(jù)各個節(jié)點的節(jié)點度值、介數(shù)值和kcore系數(shù)中的任意一種確定每個連通圖中的核心節(jié)點。
關(guān)于上述實施例中的裝置,其中各個單元執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本申請未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。