欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于隨機梯度下降算法的k均值大規(guī)模數(shù)據(jù)聚類方法

文檔序號:8282386閱讀:315來源:國知局
一種基于隨機梯度下降算法的k均值大規(guī)模數(shù)據(jù)聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種聚類方法,具體涉及一種基于隨機梯度下降算法的K均值大規(guī)模 數(shù)據(jù)聚類方法。
【背景技術(shù)】
[0002] 近年來隨著數(shù)據(jù)收集手段和能力的提升,個人、特別是企業(yè)可以獲取的數(shù)據(jù)量急 劇增加。例如,國家電網(wǎng)公司在SG186工程建成之后,八大業(yè)務應用平均日增數(shù)據(jù)記錄達 5000余萬條(144G);而隨著智能電網(wǎng)和SG-ERP的建設,公司的數(shù)據(jù)增長速度還會再翻幾 番。超大規(guī)模復合型信息存儲、備份與容災都將成為重要的技術(shù)領(lǐng)域,數(shù)據(jù)中心與容災中 心的建設效果將直接影響到企業(yè)整體業(yè)務的連續(xù)性。如何通過強大的算法,充分利用電力 生產(chǎn)控制和企業(yè)經(jīng)營中產(chǎn)生的歷史數(shù)據(jù)、實時數(shù)據(jù)、預測數(shù)據(jù)以及不同地域空間、層級的數(shù) 據(jù),更迅速地完成數(shù)據(jù)的價值"提純",是電力大數(shù)據(jù)亟待解決的難題。
[0003] 企業(yè)數(shù)據(jù)來源廣泛,規(guī)模日益增長。從某種意義上講,對公司來說有價值的信息所 占的比重正在下降,如何從海量的信息中找到有用的信息正在變得越來越困難。對數(shù)據(jù)進 行有效、充分地整理和分析,減少或壓縮無價值的數(shù)據(jù),提高有效數(shù)據(jù)的利用價值,可縮小 數(shù)據(jù)存儲規(guī)模、降低數(shù)據(jù)分析占用的計算資源,從而直接引導企業(yè)信息資產(chǎn)優(yōu)化。
[0004] 隨著計算機技術(shù)和存儲設備的快速發(fā)展,人們能夠輕易地獲取數(shù)以萬計甚至 百萬計的數(shù)據(jù)。如何從這些數(shù)據(jù)中分析出對我們有用的或者感興趣的信息,成為當前迫切 需要解決的問題。傳統(tǒng)的K均值聚類算法是數(shù)據(jù)挖掘領(lǐng)域使用的比較多的方法,首先隨機 初始化K個聚類中心,然后根據(jù)每個樣本到聚類中心的距離將所有的樣本分成K個不同的 類型,最后用每一類中所有樣本的平均值來更新聚類中心,整個過程不斷迭代,直到收斂。 顯然,每次迭代時需要計算所有樣本到K個聚類中心的距離,當面對大規(guī)模數(shù)據(jù)時,其計算 過程需要花費大量的時間,大大降低了算法的執(zhí)行效率。
[0005] 目前,大數(shù)據(jù)的處理流程一般可以概括為四步:數(shù)據(jù)采集、導入及預處理、統(tǒng)計與 分析、挖掘及決策支持。其中,挖掘與決策支持主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的 計算,從而起到預測和決策支持的效果,以此來實現(xiàn)一些高級別數(shù)據(jù)分析的需求,比較典型 的有用于聚類的K均值聚類算法。然而,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)面臨的最大問題就是實時性 差,需要花費大量的時間來對數(shù)據(jù)進行處理。對于實時變化的數(shù)據(jù)來說,很難及時獲取有用 的信息,從而影響企業(yè)的決策。

【發(fā)明內(nèi)容】

[0006] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于隨機梯度下降算法的K均值 大規(guī)模數(shù)據(jù)聚類方法,大大提高了算法的執(zhí)行效率,達到了更好的聚類效果。能夠更加快速 有效的對數(shù)據(jù)進行挖掘,該方法的提出為處理電力大數(shù)據(jù)以及其它數(shù)據(jù)問題提供了一種可 能。
[0007] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0008] 本發(fā)明提供一種基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,所述方法 包括以下步驟:
[0009] 步驟1 :隨機初始化K個聚類中心;
[0010] 步驟2 :采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類型;
[0011] 步驟3 :對目標函數(shù)進行迭代;
[0012] 步驟4 :重復步驟1-3,直到聚類中心收斂。
[0013] 所述步驟1中,對于需要處理的K類數(shù)據(jù)集,隨機初始化K個聚類中心Wl,W2,…, wk,…,wKe R d,其中,R表示實數(shù),d表示維度,于是Rd表示d維實數(shù),w k表示第k類數(shù)據(jù)集 對應的聚類中心。
[0014] 所述步驟1中,將每個聚類中心中數(shù)據(jù)樣本的個數(shù)I^n2,…,!^,···,η# N初始化 為0,其中N表示整數(shù),nk表示第k類數(shù)據(jù)集對應的數(shù)據(jù)樣本個數(shù)。
[0015] 所述步驟2中,隨機采樣數(shù)據(jù)樣本Z e Rd,并根據(jù)最小距離對應的聚類中心將數(shù)據(jù) 樣本z劃分到所屬類型。
[0016] 最小距離對應的聚類中心中數(shù)據(jù)集的代號用k#表示,有:
【主權(quán)項】
1. 一種基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特征在于:所述方法 包括W下步驟: 步驟1 ;隨機初始化K個聚類中也; 步驟2 ;采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類型; 步驟3;對目標函數(shù)進行迭代; 步驟4 ;重復步驟1-3,直到聚類中也收斂。
2. 根據(jù)權(quán)利要求1所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:所述步驟1中,對于需要處理的K類數(shù)據(jù)集,隨機初始化K個聚類中也wi,W2,…, Wk,…,WkE R d,其中,R表示實數(shù),d表示維度,于是Rd表示d維實數(shù),W k表示第k類數(shù)據(jù)集 對應的聚類中也。
3. 根據(jù)權(quán)利要求2所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:所述步驟1中,將每個聚類中也中數(shù)據(jù)樣本的個數(shù)n。叫,…,rik,N初始化 為0,其中N表示整數(shù),rik表示第k類數(shù)據(jù)集對應的數(shù)據(jù)樣本個數(shù)。
4. 根據(jù)權(quán)利要求3所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:所述步驟2中,隨機采樣數(shù)據(jù)樣本Z G Rd,并根據(jù)最小距離對應的聚類中也將數(shù)據(jù) 樣本Z劃分到所屬類型。
5. 根據(jù)權(quán)利要求4所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:最小距離對應的聚類中也中數(shù)據(jù)集的代號用表示,有:
其中,(z-Wk)2表示數(shù)據(jù)樣本Z到Wk的距離。
6. 根據(jù)權(quán)利要求4所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:所述步驟3具體包括W下步驟: 步驟3-1 ;設目標函數(shù)為,有:
Qkme悲關(guān)于的導數(shù)用化麵。表示,有:
其中,?為第類數(shù)據(jù)集對應的聚類中也; 步驟3-2 ;設表示第類數(shù)據(jù)集對應的數(shù)據(jù)樣本個數(shù),采用 <- 和 +1 分別更新 w,.和/V。
7. 根據(jù)權(quán)利要求6所述的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,其特 征在于:所述步驟4中,重復執(zhí)行步驟1-3,若滿足前后兩次迭代的聚類中也距離闊值小于 1〇-6,則表明聚類中也Wi,W2,…,Wk,…,Wk收斂。

【專利摘要】本發(fā)明提供一種基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,包括以下步驟:隨機初始化K個聚類中心;采樣數(shù)據(jù)樣本,并將該數(shù)據(jù)樣本劃分到所屬類型;對目標函數(shù)進行迭代;重復步驟1-3,使得聚類中心收斂。本發(fā)明提供的基于隨機梯度下降算法的K均值大規(guī)模數(shù)據(jù)聚類方法,大大提高了算法的執(zhí)行效率,達到了更好的聚類效果。能夠更加快速有效的對數(shù)據(jù)進行挖掘,該方法的提出為處理電力大數(shù)據(jù)以及其它數(shù)據(jù)問題提供了一種可能。
【IPC分類】G06F17-30
【公開號】CN104598565
【申請?zhí)枴緾N201510011974
【發(fā)明人】韓海韻, 丁杰, 戴江鵬, 周愛華, 孫玉寶
【申請人】國家電網(wǎng)公司, 中國電力科學研究院
【公開日】2015年5月6日
【申請日】2015年1月9日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
松阳县| 泾川县| 静宁县| 肃北| 荥阳市| 墨脱县| 宣恩县| 芒康县| 南木林县| 海城市| 巧家县| 青岛市| 敖汉旗| 潍坊市| 巩义市| 肃宁县| 广灵县| 赣榆县| 巨野县| 宝丰县| 赣榆县| 定襄县| 白朗县| 腾冲县| 大洼县| 乐至县| 荣成市| 六盘水市| 达日县| 安乡县| 绩溪县| 盐城市| 九江市| 开阳县| 兴仁县| 平邑县| 泽州县| 顺平县| 巴林右旗| 泽州县| 桓台县|