專利名稱:一種利用鑒別隨機鄰域嵌入分析的數(shù)據(jù)降維方法
技術領域:
本發(fā)明涉及信號處理、機器學習、模式識別和人工智能領域,尤其是ー種數(shù)據(jù)降維方法。
背景技術:
數(shù)據(jù)降維方法是運用計算機圖形學和特征提取技術,挖掘高維數(shù)據(jù)的低維本質表達,并進行交互處理的理論、方法和技木。數(shù)據(jù)降維方法的基本原理按一般降維方法所必需的過程可劃分為“數(shù)據(jù)預處理”、“映射”、“繪制顯示”或“特征表達”幾個步驟,即先將所采集的模擬數(shù)據(jù)和實測數(shù)據(jù)進行預處理及存儲,然后利用映射模塊完成將多維數(shù)據(jù)轉變成本質表達的功能,接著通過繪制功能將幾何數(shù)據(jù)轉換成圖像或者進行本質特征的后續(xù)處理。其 中映射功能實質上完成的是數(shù)據(jù)建模功能,是數(shù)據(jù)降維方法的核心。因此,優(yōu)秀的數(shù)據(jù)建模是數(shù)據(jù)降維方法的關鍵。傳統(tǒng)的數(shù)據(jù)降維方法,大致可歸為以下5類①用多個子窗ロ分別表示數(shù)據(jù)維的不同組合,如散列圖矩陣(scatterplot matrices)和面向像素技術(pixel-orientedtechniques);②在低維空間中對所有的數(shù)據(jù)維進行重新排列,如星型坐標系(starcoordinates)和平行坐標系(parallel coordinates);③按照所有的數(shù)據(jù)維對低維空間進行層次劃分,如dimensional stacking和他treemap ;④采用具有多個可視特征的圖標(icon),姆個可視特征都可以代表一個數(shù)據(jù)維,如Chemoff-faces和stick figures ;⑤將數(shù)據(jù)映射到低維空間中,盡可能保持數(shù)據(jù)間的某種關系不變,如PCA (principal componentanalysis), MDS (multi-dimensional, scaling), SOlVUself-organizingmapノ,IS0MAP,LLE(locally linear embeddingノ,SNE(stochastic neighbor embedding)、t_SNE 等。才目比而言,降維映射方法能更好地展現(xiàn)數(shù)據(jù)的本質結構,本發(fā)明提出的方法就屬于這ー類。經專利查詢統(tǒng)計,國內外已有不少數(shù)據(jù)降維方法方面的專利例如,用于近似查詢的長序列數(shù)據(jù)降維方法(200710303987. 4)、一種基于規(guī)則鄰域的數(shù)據(jù)降維方法(200810063304. 7)、一種基于因子分析模型的高光譜數(shù)據(jù)降維方法(200910078443. I)等。
發(fā)明內容
為了克服已有降維映射方法非線性本質和無監(jiān)瞀學習特征的不足,本發(fā)明提供一種線性有監(jiān)瞀的、可通過類別信息提升算法的可視化性能和判別能力的利用鑒別隨機鄰域嵌入分析的數(shù)據(jù)降維方法。本發(fā)明解決其技術問題所采用的技術方案是—種利用鑒別隨機鄰域嵌入分析的數(shù)據(jù)降維方法,包括以下步驟(I)待降維數(shù)據(jù)輸入輸入數(shù)據(jù)矩陣X = [X17X2,.. . ,xN]及其類別標簽,方差參數(shù)入以及最大迭代次數(shù)Mt;(2)對輸入的數(shù)據(jù)進行初始化2. I)根據(jù)X計算輸入樣本間兩兩歐式距離;
2. 2)依據(jù)原空間的樣本相似度和類別標簽計算聯(lián)合概率Pu
權利要求
1.一種利用鑒別隨機鄰域嵌入分析的數(shù)據(jù)降維方法,其特征在于包括以下步驟 (1)待降維數(shù)據(jù)輸入輸入數(shù)據(jù)矩陣X= [X1, X2, , ΧΝ]及其類別標簽,方差參數(shù)λ以及最大迭代次數(shù)Mt ; (2)對輸入的數(shù)據(jù)進行初始化 ·2.I)根據(jù)X計算輸入樣本間兩兩歐式距離; ·2. 2)依據(jù)原空間的樣本相似度和類別標簽計算聯(lián)合概率pu
全文摘要
一種利用鑒別隨機鄰域嵌入分析的數(shù)據(jù)降維方法,包括以下步驟(1)待降維數(shù)據(jù)輸入輸入數(shù)據(jù)矩陣X=[x1,x2,...,xN]及其類別標簽,方差參數(shù)λ以及最大迭代次數(shù)Mt;(2)對輸入的數(shù)據(jù)進行初始化;(3)利用映射模塊進行數(shù)據(jù)建模依據(jù)子空間的樣本相似度和類別標簽計算聯(lián)合概率qij,通過KL散度制定目標代價函數(shù),在此目標函數(shù)下,通過經典的共軛梯度法更新變換矩陣At進行迭代求解,其中C(A)針對A的梯度;輸出最終投影矩陣如果步驟B中包含主成分分析的預處理步驟則輸出的投影矩陣為AtW,否則輸出At。本發(fā)明是線性有監(jiān)督的、可通過類別信息提升算法的可視化性能和判別能力。
文檔編號G06F17/30GK102682089SQ20121012245
公開日2012年9月19日 申請日期2012年4月24日 優(yōu)先權日2012年4月24日
發(fā)明者王萬良, 蔣一波, 邱虹, 鄭建煒, 陳旻昊 申請人:浙江工業(yè)大學