智能分析決策系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種智能分析決策系統(tǒng)及方法,包括數(shù)據(jù)加載模塊、數(shù)據(jù)預(yù)處理模塊、描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊、分析模型管理模塊,所述分析模型管理模塊分別與數(shù)據(jù)預(yù)處理模塊、描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊連接,調(diào)入描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊的信息,數(shù)據(jù)預(yù)處理模塊將信息輸入,最終提供分析模型的規(guī)范化管理。實(shí)現(xiàn)業(yè)務(wù)信息的可觀察、可判斷、可預(yù)測、可決策,相互支撐,回溯改進(jìn),促進(jìn)各大業(yè)務(wù)應(yīng)用的智能化發(fā)展,滿足當(dāng)前各業(yè)務(wù)應(yīng)用對信息的高級應(yīng)用要求,促進(jìn)信息化建設(shè)工作的快速健康開展。
【專利說明】
智能分析決策系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設(shè)及一種智能分析決策系統(tǒng)及方法。
【背景技術(shù)】
[0002] 國家電網(wǎng)公司在"十二五"規(guī)劃中提出建設(shè)戰(zhàn)略決策層的智能分析與輔助決策應(yīng) 用、完善經(jīng)營管理層的智能分析與輔助決策應(yīng)用的新任務(wù),需要建立公司智能分析決策體 系,建立統(tǒng)一的分析決策平臺,快速構(gòu)建各類分析決策應(yīng)用,促進(jìn)分析決策應(yīng)用建設(shè)的規(guī)范 化。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種智能分析決策系統(tǒng)及方法。
[0004] 本發(fā)明的目的通過如下技術(shù)方案實(shí)現(xiàn):智能分析決策系統(tǒng)包括數(shù)據(jù)加載模塊:提 供訪問外部分析數(shù)據(jù)的驅(qū)動及訪問配置管理,用于訪問分析數(shù)據(jù)源;
[0005] 數(shù)據(jù)預(yù)處理模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對數(shù)據(jù)進(jìn)行處 理,W滿足挖掘算法的數(shù)據(jù)輸入要求;
[0006] 描述性統(tǒng)計模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對離散變量統(tǒng) 計與連續(xù)變量統(tǒng)計;
[0007] 數(shù)據(jù)挖掘算法模塊:預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘算法,滿足分類、聚類、關(guān)聯(lián)、回歸等挖 掘需求;
[000引模型評估模塊:提供挖掘算法運(yùn)行結(jié)果的評估方法,用于表示模型結(jié)果的好壞;分 析模型管理模塊:分別與數(shù)據(jù)預(yù)處理模塊、描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估 模塊連接,調(diào)入描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊的信息,數(shù)據(jù)預(yù)處理模 塊將信息輸入,最終提供分析模型的規(guī)范化管理。
[0009] 智能分析決策方法,包括W下步驟:
[0010] 數(shù)據(jù)加載:從數(shù)據(jù)庫中分析數(shù)據(jù)或從文件中訪問讀取數(shù)據(jù),之后將數(shù)據(jù)輸出;
[0011] 描述性統(tǒng)計:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行統(tǒng)計分析處;
[0012] 數(shù)據(jù)預(yù)處理:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理;
[0013] 數(shù)據(jù)挖掘算法:W滿足分類、聚類、關(guān)聯(lián)、回歸,挖掘需求,預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘 算法;
[0014] 模型評估:提供挖掘算法運(yùn)行結(jié)果的評估方法,W表示模型結(jié)果的好壞;
[0015] 分析模型管理:將調(diào)用描述性統(tǒng)計的結(jié)果W及數(shù)據(jù)預(yù)處理的結(jié)果、數(shù)據(jù)挖掘算法 的結(jié)果、模型評估的結(jié)果,提供分析模型的規(guī)范化管理。
[0016] 其中,數(shù)據(jù)加載包括數(shù)據(jù)項配置,關(guān)系型數(shù)據(jù)庫,Excel/CSV。
[0017] 其中,描述性統(tǒng)計包括對離散變量統(tǒng)計與連續(xù)變量統(tǒng)計。
[0018] 其中,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)計算、數(shù)據(jù)抽樣、數(shù)據(jù) 分隔。
[0019] 其中,數(shù)據(jù)挖掘算法包括分類算法、聚類算法、回歸算法、關(guān)聯(lián)規(guī)則算法中的一種 或多種。
[0020] 其中,模型評估包括針對準(zhǔn)確率、絕對誤差、平方根誤差、kappa、混淆矩陣因素的 評估。
[0021] 其中,分析模型管理包括模型管理、流程建模設(shè)計器、結(jié)果展現(xiàn)、模型運(yùn)行。
[0022] 較之現(xiàn)有技術(shù)而言,本發(fā)明的優(yōu)點(diǎn)在于:是在SG186工程全面建設(shè)的基礎(chǔ)上,進(jìn)一 步建設(shè)的高級決策分析和信息的綜合展現(xiàn)能力。通過對業(yè)務(wù)的全面監(jiān)控、分析和預(yù)測,有效 支持科學(xué)決策,從而支撐各類業(yè)務(wù)的管理和發(fā)展需要,幫助公司桐悉當(dāng)前,掌控未來,隨需 而變。建立統(tǒng)一的基于SG-UAP的智能分析決策套件旨在建設(shè)一個符合電力行業(yè)特色與需求 的分析決策類應(yīng)用支撐平臺,提供統(tǒng)計分析、模擬、預(yù)測分析、數(shù)據(jù)挖掘及豐富展現(xiàn)的能力。 通過該套件,來支撐各大業(yè)務(wù)應(yīng)用的分析決策需求,提升分析質(zhì)量與效果;且套件化的統(tǒng)一 建設(shè)模式有利于使各類分析決策工作規(guī)范化,避免分散建設(shè)、重復(fù)建設(shè)、再次形成信息孤 島;套件能夠為各業(yè)務(wù)應(yīng)用提供局部的分析決策功能支撐,并可通過結(jié)果發(fā)布等方式,向各 業(yè)務(wù)應(yīng)用共享分析結(jié)果,實(shí)現(xiàn)分析決策向業(yè)務(wù)應(yīng)用的反饋;最終實(shí)現(xiàn)業(yè)務(wù)信息的可觀察、可 判斷、可預(yù)測、可決策,相互支撐,回溯改進(jìn),促進(jìn)各大業(yè)務(wù)應(yīng)用的智能化發(fā)展,滿足當(dāng)前各 業(yè)務(wù)應(yīng)用對信息的高級應(yīng)用要求,促進(jìn)信息化建設(shè)工作的快速健康開展。
【附圖說明】
[0023] 圖1是本發(fā)明各模塊的連接關(guān)系示意圖。
[0024] 圖2是本發(fā)明的整體圖。
【具體實(shí)施方式】
[0025] 下面結(jié)合說明書附圖和實(shí)施例對本
【發(fā)明內(nèi)容】
進(jìn)行詳細(xì)說明:
[0026] 如圖1和2所示為本發(fā)明提供的的實(shí)施例示意圖,智能分析決策系統(tǒng)包括數(shù)據(jù)加載 模塊:提供訪問外部分析數(shù)據(jù)的驅(qū)動及訪問配置管理,用于訪問分析數(shù)據(jù)源;
[0027] 數(shù)據(jù)預(yù)處理模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對數(shù)據(jù)進(jìn)行處 理,W滿足挖掘算法的數(shù)據(jù)輸入要求;
[0028] 描述性統(tǒng)計模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對離散變量統(tǒng) 計與連續(xù)變量統(tǒng)計;
[0029] 數(shù)據(jù)挖掘算法模塊:預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘算法,滿足分類、聚類、關(guān)聯(lián)、回歸等挖 掘需求;
[0030] 模型評估模塊:提供挖掘算法運(yùn)行結(jié)果的評估方法,用于表示模型結(jié)果的好壞;分 析模型管理模塊:分別與數(shù)據(jù)預(yù)處理模塊、描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估 模塊連接,調(diào)入描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊的信息,數(shù)據(jù)預(yù)處理模 塊將信息輸入,最終提供分析模型的規(guī)范化管理。
[0031] 智能分析決策方法,包括W下步驟,數(shù)據(jù)加載:從數(shù)據(jù)庫中分析數(shù)據(jù)或從文件中訪 問讀取數(shù)據(jù),之后將數(shù)據(jù)輸出;
[0032] 描述性統(tǒng)計:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行統(tǒng)計分析處;
[0033] 數(shù)據(jù)預(yù)處理:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理;
[0034] 數(shù)據(jù)挖掘算法:W滿足分類、聚類、關(guān)聯(lián)、回歸,挖掘需求,預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘 算法;
[0035] 模型評估:提供挖掘算法運(yùn)行結(jié)果的評估方法,W表示模型結(jié)果的好壞;
[0036] 分析模型管理:將調(diào)用描述性統(tǒng)計的結(jié)果W及數(shù)據(jù)預(yù)處理的結(jié)果、數(shù)據(jù)挖掘算法 的結(jié)果、模型評估的結(jié)果,提供分析模型的規(guī)范化管理。
[0037] 數(shù)據(jù)加載:包括提供訪問外部分析數(shù)據(jù)的驅(qū)動及訪問配置管理。通過該功能,訪問 分析數(shù)據(jù)源。具體包括數(shù)據(jù)項配置,關(guān)系型數(shù)據(jù)庫,Exce 1/CSV;
[0038] 描述性統(tǒng)計:包括對離散變量統(tǒng)計與連續(xù)變量統(tǒng)計。離散變量統(tǒng)計包括統(tǒng)計頻數(shù) 和頻率,連續(xù)變量統(tǒng)計包括統(tǒng)計平均數(shù),中位數(shù),眾數(shù),方差,標(biāo)準(zhǔn)差等參數(shù)。
[0039] 數(shù)據(jù)預(yù)處理:包括提供數(shù)據(jù)操作方法,對數(shù)據(jù)進(jìn)行處理,W滿足挖掘算法的數(shù)據(jù)輸 入要求。具體包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)計算、數(shù)據(jù)抽樣、數(shù)據(jù)分隔;
[0040] 其中數(shù)據(jù)清洗,是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的一道操作,處理流程 包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的 數(shù)據(jù)。括類型檢查、缺值處理、空值域約束、記錄去重;
[0041 ]數(shù)據(jù)轉(zhuǎn)換,是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過程,是將數(shù)據(jù)轉(zhuǎn)換 或歸并W構(gòu)成一個適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包括化Se when、類型轉(zhuǎn)換、數(shù)值區(qū) 間化、規(guī)范化、歸一化。其中化Se when是指支持類似SQL方式的化Se when語句;類型轉(zhuǎn)換是 指根據(jù)轉(zhuǎn)換的數(shù)據(jù)類型定義,對輸入數(shù)據(jù)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換;數(shù)值區(qū)間化按數(shù)值將指定字 段值區(qū)間化為N個區(qū)間,每個區(qū)間數(shù)據(jù)取值范圍相等,并為該字段按不同區(qū)間設(shè)置特定值; 數(shù)據(jù)規(guī)范化是指將被挖掘?qū)ο蟮膶傩詳?shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間(如[- 1,1 ]或[0,1 ]);歸一化對指定字段按該字段的均值和標(biāo)準(zhǔn)偏差,進(jìn)行zscore歸一化。
[0042] 數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合在一起并形成一個統(tǒng)一的數(shù)據(jù)集合。數(shù)據(jù) 集成包括化in、Append、化ion。其中化in是指根據(jù)連接配置,對兩個不同的數(shù)據(jù)集進(jìn)行左連 接、右連接、內(nèi)連接、全外連接等連接操作;Append是指將一個集合中的列字段與數(shù)據(jù)追加 到另一個集合的列后面;Union是指對兩個數(shù)據(jù)集進(jìn)行類似SQL的UNION操作,將兩個集合進(jìn) 行合并操作。
[0043] 數(shù)據(jù)計算是指對數(shù)據(jù)集合進(jìn)行數(shù)學(xué)計算與統(tǒng)計操作。數(shù)據(jù)計算包括數(shù)學(xué)計算、 Group By統(tǒng)計、日期計算、條件判斷。數(shù)學(xué)計算是指通過對現(xiàn)有多字段混合計算生成的新字 段;GroupBy統(tǒng)計是對指定的屬性按照某幾個字段進(jìn)行匯總統(tǒng)計,匯總統(tǒng)計的操作包括:平 均值、計數(shù)、最大值、求和、中位數(shù)、方差、標(biāo)準(zhǔn)差;日期計算是指對日期進(jìn)行計算,包括兩個 日期求差操作、計算前一天日期、計算后一天日期等;條件判斷是指根據(jù)配置條件判斷,計 算生成響應(yīng)條件下的數(shù)值。
[0044] 數(shù)據(jù)抽樣是對從數(shù)據(jù)集中抽取部分個體作為樣本。數(shù)據(jù)抽樣包括隨機(jī)抽樣、分層 抽樣。隨機(jī)抽樣是集合中每個部分都有同等被抽中的可能,是一種完全依照機(jī)會均等的原 則進(jìn)行的抽樣調(diào)查;分層抽樣是將數(shù)據(jù)集分成互不交叉的層,然后按一定的比例,從各層次 獨(dú)立地抽取一定數(shù)量的個體,將各層次取出的個體合在一起作為樣本。
[0045] 數(shù)據(jù)分割是將數(shù)據(jù)集按照一定規(guī)則分為若干份。數(shù)據(jù)分隔包括線性分隔、分層分 隔。線性分隔是將數(shù)據(jù)集按比例順序截取成N份;分層分隔是將數(shù)據(jù)集分割為互不交叉的 層。
[0046] 模型評估:提供挖掘算法運(yùn)行結(jié)果的評估方法,用于表示模型結(jié)果的好壞。主要考 慮針對準(zhǔn)確率、絕對誤差、平方根誤差、kappa、混淆矩陣等因素考慮。準(zhǔn)確率,是用來同時表 示測量結(jié)果中系統(tǒng)誤差和隨機(jī)誤差大小的程度,多次測量值的平均值與真值的接近程度, 常用于分類模型評估;絕對誤差是指預(yù)測值-實(shí)際值,常用于數(shù)值預(yù)測模型評估;平方根誤 差常用于數(shù)值預(yù)測模型評估,具體公式為(平均絕對誤差)
提升圖是將預(yù) 測分類按照概率大小進(jìn)行10等分,評估每類預(yù)測正確的效益;Kappa統(tǒng)計是比較兩個或多個 觀測者對同一事物,或觀測者對同一事物的兩次或多次觀測結(jié)果是否一致,W由于機(jī)遇造 成的一致性和實(shí)際觀測的一致性之間的差別大小作為評價基礎(chǔ)的統(tǒng)計指標(biāo)。Kappa統(tǒng)計量 和加權(quán)Kappa統(tǒng)計量不僅可W用于無序和有序分類的一致性、重現(xiàn)性檢驗,而且能給出一個 反映一致性大小的"量"值?;煜仃囍饕糜诒容^分類結(jié)果和實(shí)際測得值,可W把分類結(jié) 果的精度顯示在一個混淆矩陣?yán)锩妗?br>[0047] 分析模型管理:提供分析模型的規(guī)范化管理功能,包括模型分類管理、模型定義管 理、流程建模設(shè)計器、模型運(yùn)行。模型管理對分析模型分類、基本信息信息及其邏輯配置進(jìn) 行統(tǒng)一的管理;流程建模設(shè)計器,提供可視化的流程建模功能,用于實(shí)現(xiàn)業(yè)務(wù)分析邏輯配置 實(shí)現(xiàn)?;跀?shù)據(jù)加載、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法、模型評估等功能提供的方法,流程建模設(shè) 計器提供其方法可視化的操作界面,用于其輸入?yún)?shù)設(shè)置、方法間數(shù)據(jù)流轉(zhuǎn)配置;結(jié)果展 現(xiàn):提供模型結(jié)果的可視化展現(xiàn)功能,包括文本展現(xiàn)、二維表展現(xiàn)、圖形展現(xiàn)等多種方式;模 型模型運(yùn)行是指模型運(yùn)行解析引擎,解析分析模型邏輯配置內(nèi)容,獲取相應(yīng)的操作節(jié)點(diǎn)及 節(jié)點(diǎn)間數(shù)據(jù)流轉(zhuǎn),調(diào)用對應(yīng)的數(shù)據(jù)處理方法,處理數(shù)據(jù),返回結(jié)果。
[0048] 數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算。為了創(chuàng)建模 型,算法將首先分析您提供的數(shù)據(jù),并查找特定類型的模式和趨勢。算法使用此分析的結(jié)果 來定義用于創(chuàng)建挖掘模型的最佳參數(shù)。然后,運(yùn)些參數(shù)應(yīng)用于整個數(shù)據(jù)集,W便提取可行模 式和詳細(xì)統(tǒng)計信息。算法根據(jù)其挖掘結(jié)果模式的不同,可分為分類、聚類、回歸、關(guān)聯(lián)規(guī)則W 及時間序列等類型。
[0049] 分類是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會一個分類函數(shù)或構(gòu)造一個分類模型(也稱"分類 器"),而且該函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定類別中的某一個,從而可 W應(yīng)用于數(shù)據(jù)預(yù)測;若要構(gòu)造分類模型,則需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入,該訓(xùn)練樣 本數(shù)據(jù)集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,其一個具體的樣本記錄形式可W表示為(VI, V2,…,化,C),其中,Vi表示樣本的屬性值,C表示類別。
[0化0] 常用的分類算法有K-NN、Naive Bayes、ID3、決策樹、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等算法。 [0化1 ] K-P^N化-Nearest化ig化or) ,K最近鄰分類算法。該方法的思路是:如果一個樣本在 特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該 樣本也屬于運(yùn)個類別。算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類 決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
[0052] K-r^N算法的輸入?yún)?shù)包括K值設(shè)置、W及樣本距離計算方法。樣本距離計算方法, 包括歐式距離法、堪培拉距離、切比雪夫距離法。
[0053] Naive Bayes,樸素貝葉斯模型,貝葉斯分類器的分類原理是通過某對象的先驗概 率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概 率的類作為該對象所屬的類。
[0054] Naive Bayes算法的輸入?yún)?shù),包括是否進(jìn)行拉普拉斯修正、評估模式、粒度、最小 J 1、1' I |、1子 A*A~ 寬度寺。
[0055] ID3算法是W信息論為基礎(chǔ),W信息賭和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對數(shù)據(jù) 的歸納分類。信息賭就是一組數(shù)據(jù)包含的信息,概率的度量。一組數(shù)據(jù)越有序信息賭也就越 低,極端時如果一組數(shù)據(jù)中只有一個非0,其它都是0,那么賭等于0,因為只有可能是運(yùn)個非 0的情況發(fā)生,它給人們的信息已經(jīng)確定了,或者說不含有任何信息了,因為信息賭含量為 0。一組數(shù)據(jù)越無序信息賭也就越高,極端時如果一組數(shù)據(jù)均勻分布,那么它的賭最大,因為 我們不知道那種情況發(fā)生的概率大些。假如一組數(shù)據(jù)由{dl,d2,…,dn}構(gòu)成,其和是sum,求 信息賭的公式是 D
[0056] ID3算法的輸入?yún)?shù)包括劃分標(biāo)準(zhǔn)、最小劃分大小、葉子最少節(jié)點(diǎn)數(shù)、增益最小值。
[0057] 決策樹(C4.5),是基于ID3算法進(jìn)行改進(jìn)后的一種算法,相比于ID3算法,改進(jìn)要點(diǎn) 包括:1)。用信息增益率來選擇屬性。2)在決策樹構(gòu)造過程中進(jìn)行剪枝,因為某些具有很少 元素的結(jié)點(diǎn)可能會使構(gòu)造的決策樹過適應(yīng)(Ove計itting),如果不考慮運(yùn)些結(jié)點(diǎn)可能會更 好。3)對非離散數(shù)據(jù)也能處理。其中,信息增益率計算公式具體如下:
[005引按照類標(biāo)簽對訓(xùn)練數(shù)據(jù)集D的屬性集A進(jìn)行劃分,得到信息賭:
[0化9];
[0060] : I到一組信息賭:
[0061]
[0062] 然后計算信息增益,即前者對后者做差,得到屬性集合A-組信息增益:
[0063] gain(A) = in fo(D)-in Toa(^D)
[0064] 決策樹算法的輸入?yún)?shù)包括:分類標(biāo)準(zhǔn)、最小劃分大小、最小葉子大小、最小增益、 最大深度、置信度、是否預(yù)修剪、是否修剪。
[00化]神經(jīng)網(wǎng)絡(luò),是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱"神經(jīng)元",或"單元")和之間相互 聯(lián)接構(gòu)成。每個節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵函數(shù)。每兩個節(jié)點(diǎn)間的連接都代表 一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重,運(yùn)相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸 出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界 某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達(dá)。
[0066] 神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)包括:隱藏層數(shù)、訓(xùn)練周期、學(xué)習(xí)比率、momentum、錯誤評估 等。
[0067] 隨機(jī)森林,是用隨機(jī)的方式建立一個森林,森林里面有很多決策樹組成,隨機(jī)森林 的每一棵決策樹之間時沒有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個新的輸入樣本進(jìn)入的時候, 就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,判斷運(yùn)個樣本應(yīng)該屬于哪一類,然后統(tǒng)計 哪一類被選擇最多,就預(yù)測運(yùn)個樣本為那一類。
[0068] 隨機(jī)森林算法的輸入?yún)?shù)包括決策樹數(shù)量、分類標(biāo)準(zhǔn)、最小劃分大小、最小葉子大 小、最小增益、最大深度、置信度、是否預(yù)修剪、是否修剪。
[0069] 聚類是數(shù)理統(tǒng)計中研究"物W類聚"的一種方法,是把一組個體按照相似性歸成若 干類,其目的是使得屬于同一個類別數(shù)據(jù)之間的相似性盡可能大,而不同類別的數(shù)據(jù)之間 的相似性盡可能小。它與分類分析不同,聚類分析輸入的是一組未分類的記錄,并且運(yùn)些記 錄應(yīng)分成幾類事先也不知道。聚類分析就是首先通過分析數(shù)據(jù)庫中的數(shù)據(jù),合理地來劃分 記錄,然后再確定每個記錄所在類別。
[0070] 常用的聚類算法有 K-Means、DBSCAN、K-Medoids。
[0071] K-means算法是硬聚類算法,是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利 用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則。K-means算法W歐式距離作為相似度測度, 它是求對應(yīng)某一初始聚類中屯、向量V最優(yōu)分類,使得評價指標(biāo)J最小。算法采用誤差平方和 準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)。
[0072] K-means算法的輸入?yún)?shù)包括:聚類K值、最大計算次數(shù)、最大優(yōu)化步數(shù)。
[0073] DBSCAN是一個基于密度的聚類算法,它將簇定義為密度相連的點(diǎn)的最大集合,能 夠把具有足夠高密度的區(qū)域劃分為簇。
[0074] DBSCAN算法的輸入?yún)?shù),包括E領(lǐng)域、核屯、對象、測量方法等。
[00巧]K-medoids和K-means是有區(qū)別的,不一樣的地方在于中屯、點(diǎn)的選取,在K-means 中,將中屯、點(diǎn)取為當(dāng)前cluster中所有數(shù)據(jù)點(diǎn)的平均值,在K-medoids算法中,我們將從當(dāng)前 cluster中選取運(yùn)樣一個點(diǎn)--它到其他所有(當(dāng)前cluster中的)點(diǎn)的距離之和最小-- 作為中屯、點(diǎn)。
[0076] K-medoids算法的輸入?yún)?shù)包括聚類K值、最大計算次數(shù)、最大優(yōu)化步數(shù)。
[0077] 回歸分析,是確定兩種或兩種W上變量間相互依賴的定量關(guān)系的一種分析方法。, 回歸分析按照設(shè)及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和 因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包 括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,運(yùn)種回歸分析稱為一 元線性回歸分析。如果回歸分析中包括兩個或兩個W上的自變量,且因變量和自變量之間 是線性關(guān)系,則稱為多元線性回歸分析。
[0078] 常用的回歸分析算法包括:線性回歸、邏輯回歸、局部多項式線性回歸。
[0079] 線性回歸,假設(shè)"特征"和"結(jié)果"都滿足線性,即不超過一次。線性回歸都可W通過 最小二乘法求出其方程。
[0080] 邏輯回歸采用最大似然估計法,對齊回歸參數(shù)進(jìn)行估計。最大似然估計是利用總 體的分布密度或概率分布的表達(dá)式及其樣本所提供信息建立起求未知參數(shù)估計量的一種 方法。
[0081] 局部多項式回歸是對兩維散點(diǎn)圖進(jìn)行平滑的常用方法,它結(jié)合了傳統(tǒng)線性回歸的 簡潔性和非線性回歸的靈活性。當(dāng)要估計某個響應(yīng)變量值時,先從其預(yù)測變量附近取一個 數(shù)據(jù)子集,然后對該子集進(jìn)行線性回歸或二次回歸,回歸時采用加權(quán)最小二乘法,即越靠近 估計點(diǎn)的值其權(quán)重越大,最后利用得到的局部回歸模型來估計響應(yīng)變量的值。
[0082] 關(guān)聯(lián)規(guī)則算法
[0083] 假設(shè)I = IIi,12,…,1"}是項的集合。給定一個數(shù)據(jù)集D,其中每個事務(wù) (Transaction )t是I的非空子集,即,每一個交易都與一個唯一的標(biāo)識符TID (lYansaction ID)對應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(SUPPOd)是D中事務(wù)同時包含X、Y的百分比,即概率;置 信度(confidence)是D中事務(wù)已經(jīng)包含X的情況下,包含Y的百分比,即條件概率。如果滿足 最小支持度闊值和最小置信度闊值,則認(rèn)為關(guān)聯(lián)規(guī)則是有效的。
[0084] 常用的關(guān)聯(lián)規(guī)則算法包括:FP-Growth。
[00化]FP (Frequent Pattern),在算法中使用了 一種稱為頻繁模式樹(Frequent Pattern Tree)的數(shù)據(jù)結(jié)構(gòu)。FP-化ee是一種特殊的前綴樹,由頻繁項頭表和項前綴樹構(gòu)成。 FP-Growth算法基于W上的結(jié)構(gòu)加快整個挖掘過程。
[0086] FP-Growth算法的輸入?yún)?shù)包括:發(fā)現(xiàn)頻繁集最小值,頻繁集最小值、重試最大次 數(shù)、集合最大項數(shù)。
【主權(quán)項】
1. 一種智能分析決策系統(tǒng),其特征在于: 包括數(shù)據(jù)加載模塊:提供訪問外部分析數(shù)據(jù)的驅(qū)動及訪問配置管理,用于訪問分析數(shù) 據(jù)源; 數(shù)據(jù)預(yù)處理模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對數(shù)據(jù)進(jìn)行處理, 以滿足挖掘算法的數(shù)據(jù)輸入要求; 描述性統(tǒng)計模塊:與數(shù)據(jù)加載模塊連接,接受數(shù)據(jù)加載模塊的數(shù)據(jù),對離散變量統(tǒng)計與 連續(xù)變量統(tǒng)計; 數(shù)據(jù)挖掘算法模塊:預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘算法,滿足分類、聚類、關(guān)聯(lián)、回歸的挖掘需 求; 模型評估模塊:提供挖掘算法運(yùn)行結(jié)果的評估方法,用于表示模型結(jié)果的好壞; 分析模型管理模塊:分別與數(shù)據(jù)預(yù)處理模塊、描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模 型評估模塊連接,調(diào)入描述性統(tǒng)計模塊、數(shù)據(jù)挖掘算法模塊、模型評估模塊的信息,數(shù)據(jù)預(yù) 處理模塊將信息輸入,最終提供分析模型的規(guī)范化管理。2. 權(quán)利要求1所述的智能分析決策方法,其特征在于:包括如下步驟: 數(shù)據(jù)加載:從數(shù)據(jù)庫中分析數(shù)據(jù)或從文件中訪問讀取數(shù)據(jù),之后將數(shù)據(jù)輸出; 描述性統(tǒng)計:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行統(tǒng)計分析; 數(shù)據(jù)預(yù)處理:接受數(shù)據(jù)加載輸出的數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理; 數(shù)據(jù)挖掘算法:以滿足分類、聚類、關(guān)聯(lián)、回歸,挖掘需求,預(yù)置結(jié)構(gòu)化數(shù)據(jù)的挖掘算法; 模型評估:提供挖掘算法運(yùn)行結(jié)果的評估方法,以表示模型結(jié)果的好壞; 分析模型管理:將調(diào)用描述性統(tǒng)計的結(jié)果以及數(shù)據(jù)預(yù)處理的結(jié)果、數(shù)據(jù)挖掘算法的結(jié) 果、模型評估的結(jié)果,提供分析模型的規(guī)范化管理。3. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:數(shù)據(jù)加載包括數(shù)據(jù)項配置, 關(guān)系型數(shù)據(jù)庫,Excel/CSV。4. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:描述性統(tǒng)計包括對離散變量 統(tǒng)計與連續(xù)變量統(tǒng)計。5. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、 數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成、數(shù)據(jù)計算、數(shù)據(jù)抽樣、數(shù)據(jù)分隔。6. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:所述的數(shù)據(jù)挖掘算法包括分 類算法、聚類算法、回歸算法、關(guān)聯(lián)規(guī)則算法中的一種或多種。7. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:模型評估包括針對準(zhǔn)確率、 絕對誤差、平方根誤差、kappa、混淆矩陣因素的評估。8. 根據(jù)權(quán)利要求2所述的智能分析決策方法,其特征在于:分析模型管理包括模型管 理、流程建模設(shè)計器、結(jié)果展現(xiàn)、模型運(yùn)行。
【文檔編號】G06F17/18GK106022477SQ201610329444
【公開日】2016年10月12日
【申請日】2016年5月18日
【發(fā)明人】許元斌, 王繼業(yè), 曾楠, 陳宏 , 鄒保平, 黃文思, 郝悍勇, 羅義旺, 李金湖, 李云, 余仰淇, 林燊, 劉燕秋, 駱偉藝, 羅文甜, 張歡, 林翰, 吳少平, 陳智鵬, 劉彩
【申請人】國網(wǎng)信通億力科技有限責(zé)任公司, 國家電網(wǎng)公司, 國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司, 國網(wǎng)江蘇省電力公司