欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

異常數(shù)據(jù)檢測方法和裝置與流程

文檔序號:11407228閱讀:209來源:國知局
異常數(shù)據(jù)檢測方法和裝置與流程
本發(fā)明涉及數(shù)據(jù)檢測
技術(shù)領(lǐng)域
,具體而言,涉及異常數(shù)據(jù)檢測方法和裝置。
背景技術(shù)
:現(xiàn)有技術(shù)中在沒有領(lǐng)域或領(lǐng)域知識有限的情況下從近自然語言文本中檢測異常通常有所限制,例如,對于機(jī)器日志,實(shí)現(xiàn)當(dāng)機(jī)器日志中出現(xiàn)異常時,可以利用機(jī)器學(xué)習(xí)得到的模型,從而檢測到機(jī)器日志中的異常;對于機(jī)器學(xué)習(xí),如果用于機(jī)器學(xué)習(xí)培訓(xùn)的數(shù)據(jù)維度過大,則會帶來如下不良效果:1)計(jì)算量顯著上升,計(jì)算成本增加,機(jī)器學(xué)習(xí)的培訓(xùn)效率下降;2)培訓(xùn)結(jié)果易于過度擬合,即培訓(xùn)結(jié)果更接近原來培訓(xùn)數(shù)據(jù)集的特征,而不是目標(biāo)數(shù)據(jù)集的特征。3)現(xiàn)有技術(shù)中通過簡單的削減數(shù)據(jù)維度,此種方法雖然可以帶來計(jì)算量的下降,但是該方法有時會去除對培訓(xùn)目標(biāo)具有代表性的維度,會使培訓(xùn)結(jié)果的精度或可靠度下降。針對現(xiàn)有技術(shù)中所存在的用于培訓(xùn)的數(shù)據(jù)維度大導(dǎo)致的問題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了一種異常數(shù)據(jù)檢測方法和裝置,以解決現(xiàn)有技術(shù)中所存在的用于培訓(xùn)的數(shù)據(jù)維度大導(dǎo)致的問題。根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種異常數(shù)據(jù)檢測方法,包括:獲取文本;從所述文本中提取多條數(shù)據(jù),其中,所述多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個屬性值構(gòu)成,每個屬性值對應(yīng)該數(shù)據(jù)的一個屬性,所述每一條數(shù)據(jù)的屬性均相同;對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值,其中,所述每一條數(shù)據(jù)的新屬性值的個數(shù)小于匯合之前的所述每一條數(shù)據(jù)的屬性值的個數(shù);使用所述每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,所述數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。進(jìn)一步地,獲取所述文本包括:獲取所述文本中用自然語言表達(dá)的數(shù)據(jù)。進(jìn)一步地,從所述文本中提取多條數(shù)據(jù)包括:將所述文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)。進(jìn)一步地,將所述文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)包括:對所述文本數(shù)據(jù)進(jìn)行正規(guī)化處理,其中,所述正規(guī)化處理為去除所述文本數(shù)據(jù)中的特殊字符和/或?qū)⑺鑫谋緮?shù)據(jù)中的大寫字母變?yōu)樾懽帜负?或提取所述文本數(shù)據(jù)中的所述多個屬性值。進(jìn)一步地,提取所述文本數(shù)據(jù)中的所述多個屬性值包括:通過分詞分析從所述用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值或通過詞頻分析從所述用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值。進(jìn)一步地,對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值包括:對所述每一條數(shù)據(jù)的屬性值通過主成分分析進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值。進(jìn)一步地,對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值包括:將所述每一條數(shù)據(jù)的屬性值直接合并得到所述每一條數(shù)據(jù)的新屬性值。進(jìn)一步地,對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值之后包括:獲取所述每一條數(shù)據(jù)的新屬性值的優(yōu)先級;根據(jù)每一個新屬性值的優(yōu)先級從所述所有新屬性值中篩選出所述一個或多個新屬性值;根據(jù)篩選出的所述一個或多個新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型。進(jìn)一步地,使用所述每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型包括:根據(jù)所述每一條數(shù)據(jù)的新屬性值將所述每一條數(shù)據(jù)進(jìn)行分類;對相同分類的數(shù)據(jù)根據(jù)發(fā)生時間和頻率進(jìn)行學(xué)習(xí)得到所述數(shù)據(jù)模型,其中,所述發(fā)生時間和所述頻率作為區(qū)分異常數(shù)據(jù)的根據(jù)之一。根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種異常數(shù)據(jù)檢測裝置。根據(jù)本發(fā)明的異常數(shù)據(jù)檢測裝置包括:獲取單元,用于獲取文本;提取單元,用于從所述文本中提取多條數(shù)據(jù),其中,所述多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個屬性值構(gòu)成,每個屬性值對應(yīng)該數(shù)據(jù)的一個屬性,所述每一條數(shù)據(jù)的屬性均相同;匯合單元,用于對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值,其中,所述每一條數(shù)據(jù)的新屬性值的個數(shù)小于匯合之前的所述每一條數(shù)據(jù)的屬性值的個數(shù);學(xué)習(xí)單元,用于使用所述每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,所述數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。進(jìn)一步地,所述獲取單元包括:第一獲取模塊,用于獲取所述文本中用自然語言表達(dá)的數(shù)據(jù)。進(jìn)一步地,所述提取單元包括:轉(zhuǎn)化模塊,用于將所述文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)。進(jìn)一步地,所述提取單元包括:提取模塊,用于將所述文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)之后通過分詞分析從所述用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值或通過詞頻分析從所述用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值。進(jìn)一步地,所述匯合單元包括:分析模塊,用于對所述每一條數(shù)據(jù)的屬性值通過主成分分析進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值。進(jìn)一步地,所述匯合單元包括:合并模塊,用于將所述每一條數(shù)據(jù)的屬性值直接合并得到所述每一條數(shù)據(jù)的新屬性值。進(jìn)一步地,所述匯合單元,還包括:第二獲取模塊,用于對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值之后獲取所述每一條數(shù)據(jù)的新屬性值的優(yōu)先級;篩選模塊,用于根據(jù)每一個新屬性值的優(yōu)先級從所述所有新屬性值中篩選出所述一個或多個新屬性值;學(xué)習(xí)模塊,用于根據(jù)篩選出的所述一個或多個新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型。進(jìn)一步地,所述學(xué)習(xí)單元包括:分類模塊,用于根據(jù)所述每一條數(shù)據(jù)的新屬性值將所述每一條數(shù)據(jù)進(jìn)行分類;獲取模塊,用于對相同分類的數(shù)據(jù)根據(jù)發(fā)生時間和頻率進(jìn)行學(xué)習(xí)得到所述數(shù)據(jù)模型,其中,所述發(fā)生時間和所述頻率作為區(qū)分異常數(shù)據(jù)的根據(jù)之一。根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種存儲介質(zhì),所述存儲介質(zhì)包括存儲的程序,其中,在所述程序運(yùn)行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行上述方法。根據(jù)發(fā)明實(shí)施例,一種異常數(shù)據(jù)檢測方法采用獲取文本;從所述文本中提取多條數(shù)據(jù),其中,所述多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個屬性值構(gòu)成,每個屬性值對應(yīng)該數(shù)據(jù)的一個屬性,所述每一條數(shù)據(jù)的屬性均相同;對所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值,其中,所述每一條數(shù)據(jù)的新屬性值的個數(shù)小于匯合之前的所述每一條數(shù)據(jù)的屬性值的個數(shù);使用所述每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,所述數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。通過本發(fā)明解決了現(xiàn)有技術(shù)中所存在的用于培訓(xùn)的數(shù)據(jù)維度大導(dǎo)致的問題,提高培訓(xùn)效率的同時提高了培訓(xùn)結(jié)果的準(zhǔn)確度。附圖說明構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法的流程圖;圖2是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測裝置的結(jié)構(gòu)圖。具體實(shí)施方式需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。為了使本
技術(shù)領(lǐng)域
的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。本發(fā)明實(shí)施例提供了一種異常數(shù)據(jù)檢測方法。圖1是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法的流程圖。如圖1所示,該方法包括步驟如下:步驟s102,獲取文本;步驟s104,從文本中提取多條數(shù)據(jù),其中,多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個屬性值構(gòu)成,每個屬性值對應(yīng)該數(shù)據(jù)的一個屬性,每一條數(shù)據(jù)的屬性均相同;步驟s106,對每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值,其中,每一條數(shù)據(jù)的新屬性值的個數(shù)小于匯合之前的每一條數(shù)據(jù)的屬性值的個數(shù);步驟s108,使用每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。例如,當(dāng)機(jī)器日記中有幾千條記錄,直接對它們進(jìn)行機(jī)器學(xué)習(xí)培訓(xùn)時會存在兩個問題,一個是計(jì)算量太過龐大,另一個是由于數(shù)據(jù)記錄很多,所以在訓(xùn)練時很容易將比較少的特別數(shù)據(jù)排除掉,而這些數(shù)據(jù)往往就是有問題的數(shù)據(jù),是需要進(jìn)行檢測到異常的數(shù)據(jù)。每一條記錄都由不同的屬性值組成,比如一條數(shù)據(jù)記錄是s=f(x)/datexyz11…,則該條記錄中的屬性值有s、date、11、=f(x)/、xyz等,通過本實(shí)施例的方法將幾千條記錄的屬性值進(jìn)行劃分為不同的類別,即不同的屬性,比如s對應(yīng)屬性是字母、date對應(yīng)屬性是日期、11對應(yīng)屬性是數(shù)字。然后將很多不同的維度(多一個屬性代表多一個維度)縮減為少數(shù)幾個維度,也就是每條數(shù)據(jù)記錄分配了新的屬性,每條數(shù)據(jù)記錄在新的屬性的劃分下都有新的屬性值,比如,新的屬性值可以為s=f(x)/xyz和date11,對新的屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,根據(jù)該數(shù)據(jù)模型區(qū)分判斷每一條數(shù)據(jù)記錄是否為異常數(shù)據(jù)。在上述步驟采用了將數(shù)據(jù)的屬性值進(jìn)行降維,這不同于現(xiàn)有技術(shù)中,直接使用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)培訓(xùn)得到檢測模型的方法。從而解決了現(xiàn)有技術(shù)中所存在的用于培訓(xùn)的數(shù)據(jù)維度大導(dǎo)致的問題,在提高培訓(xùn)效率的同時提高了培訓(xùn)結(jié)果的準(zhǔn)確度,同時可以在沒有領(lǐng)域知識或者領(lǐng)域知識有限的情況下運(yùn)用該實(shí)施例對異常數(shù)據(jù)進(jìn)行較準(zhǔn)確的檢測。在上述文本中獲取的數(shù)據(jù)可以是多種形式的數(shù)據(jù),在一個可選的實(shí)施方式中,獲取的數(shù)據(jù)形式可以是用自然語言表達(dá)的數(shù)據(jù),還可以是用其他語言表達(dá)的數(shù)據(jù)。通過該方式可以檢測任何基于自然語言的異常檢測,比如,一組統(tǒng)計(jì)表格數(shù)據(jù)等,還可以對表格形式的數(shù)據(jù)進(jìn)行異常檢測,可以對機(jī)器日記形式的數(shù)據(jù)進(jìn)行異常檢測,從而增加了異常檢測的普遍性,使本實(shí)施例的方法適用于多種情況。在獲取到用自然語言表達(dá)的文本數(shù)據(jù)后,可以將所檢驗(yàn)的對象轉(zhuǎn)化為便于機(jī)器學(xué)習(xí)的數(shù)據(jù),在一個可選的實(shí)施方式中,即將文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)。通過上述過程將文本數(shù)據(jù)轉(zhuǎn)化為適用于機(jī)器學(xué)習(xí)的數(shù)據(jù)后,更加便于培訓(xùn)模型,從而增加機(jī)器學(xué)習(xí)的效率。將文本數(shù)據(jù)轉(zhuǎn)化為適用于機(jī)器學(xué)習(xí)的數(shù)據(jù)主要是通過正規(guī)化對文本數(shù)據(jù)進(jìn)行處理,正規(guī)化處理可以有三種不同的實(shí)施方式,每種實(shí)施方式之間可以任意進(jìn)行組合,第一個可選的實(shí)施方式是:去除文本數(shù)據(jù)中的特殊字符;第二種可選的實(shí)施方式是:將文本數(shù)據(jù)中的大寫字母變?yōu)樾懽帜福坏谌N可選的實(shí)施方式是:提取所述文本數(shù)據(jù)中的所述多個屬性值。上述將文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)時需要提取所述文本數(shù)據(jù)中的所述多個屬性值,每一條數(shù)據(jù)可能是連續(xù)的一些數(shù)字字母組成的,這種數(shù)據(jù)是沒有辦法了解到其屬性值的,而在很多沒有領(lǐng)域知識或者領(lǐng)域知識有限的情況下時,所得到的數(shù)據(jù)文本都常常是沒有屬性值的,遇到以上這些情況時,還可以對多條數(shù)據(jù)提取屬性值,提取屬性值的方式有兩種,在一個可選的實(shí)施方式中,可以通過分詞分析的方法從用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值,分詞分析是通過規(guī)劃分詞、統(tǒng)計(jì)分詞或混合分詞對將一組數(shù)據(jù)作為一個句子進(jìn)行分詞處理,拆分為多個分詞,下面以規(guī)劃分詞對上述分詞分析進(jìn)行解釋,比如一條數(shù)據(jù)為“error=21date3monthxyz”,通過在預(yù)先設(shè)定的分詞詞典中尋找類似的詞進(jìn)行分詞,比如分詞詞典中設(shè)置了“error”、“date”、“month”,就將這些詞切下,作為特征提取出來,也就是作為數(shù)據(jù)的屬性值提取出來。上述規(guī)劃分詞的分詞方法適用于已有分詞詞典的情況下,有時一組數(shù)據(jù)中會出現(xiàn)一些詞典中沒有出現(xiàn)的詞,也就是完全沒有領(lǐng)域知識的情況,則可以使用統(tǒng)計(jì)分詞的方法將一條數(shù)據(jù)進(jìn)行拆分,比如,一條數(shù)據(jù)為“date21date3monthxyz”,則通過統(tǒng)計(jì)分詞將該條數(shù)據(jù)拆分為“21”、“3”、“xyz”、“date”和“month”等。再比如一條數(shù)據(jù)為“getandpublishwebservice@fail.”,首先將該文本數(shù)據(jù)進(jìn)行正規(guī)化處理轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的數(shù)據(jù),此時該條數(shù)據(jù)變?yōu)椤癵etandpublishwebservicefail”該條數(shù)據(jù)中的大寫字母變?yōu)榱诵懽帜?,特殊字符@被去除,然后在沒有領(lǐng)域知識的情況下,通過統(tǒng)計(jì)分詞的方式將該條數(shù)據(jù)差分為“get”、“and”、“publish”、“web”、“service”、“fail”。本實(shí)施例中統(tǒng)計(jì)分詞的方法可以支持中文或英文,在進(jìn)行統(tǒng)計(jì)分詞時,可以將原有數(shù)據(jù)拆分為一個或一個以上的詞所組成的分詞詞組,例如,我喜歡蘋果,可以進(jìn)行分詞處理后變?yōu)槲摇⑾矚g、蘋果,也可以進(jìn)行統(tǒng)計(jì)分詞后分解為我喜歡、喜歡蘋果。除了上述通過分詞分析的方法從多條數(shù)據(jù)中提取多個屬性值,還可以通過詞頻分析從用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值,即對每一數(shù)據(jù)統(tǒng)計(jì)重復(fù)出現(xiàn)的詞,將重復(fù)出現(xiàn)概率大的詞作為一個屬性值提取出,例如,一條數(shù)據(jù)為“date21date3monthxyz”通過詞頻統(tǒng)計(jì)分析方法將詞頻出現(xiàn)概率最高的“date”提取出。從而更加便于機(jī)器學(xué)習(xí),增加機(jī)器學(xué)習(xí)的準(zhǔn)確性和效率。在上述步驟中,對每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值時有兩種實(shí)施方式,第一種實(shí)施方式是對每一條數(shù)據(jù)的屬性值通過主成分分析進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值。主成分分析是將多維進(jìn)行降維的一種方法,主成分分析也稱主分量分析,利用降維的思想把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo)。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,1個變量就有1個主成分。本實(shí)施例的每一條數(shù)據(jù)經(jīng)過主成分分析后,將原本的指標(biāo)轉(zhuǎn)化為新的指標(biāo),也就是將每一條數(shù)據(jù)的屬性變?yōu)榱诵碌膶傩?,新的屬性小于原本的屬性?shù)量,每一條數(shù)據(jù)的屬性值也變?yōu)樾碌膶傩灾怠5诙N實(shí)施方式是將每一條數(shù)據(jù)的屬性值直接合并得到每一條數(shù)據(jù)的新屬性值。直接合并是指將一些類似的屬性直接合并,比如都是數(shù)字形式的屬性可以作為一種類似的屬性,再比如都是時間形式的屬性可以作為一種類似的屬性,還可以將文本形式的屬性值對應(yīng)的屬性作為一種類似的屬性,然后可以合并上述這些類似屬性對應(yīng)的屬性值,從而達(dá)到降維的目的。通過上述合并方式,利用無損的特征合并有效的減少數(shù)據(jù)維度的同時,又不降低機(jī)器學(xué)習(xí)的效果,還可以保證所保留的數(shù)據(jù)維度仍然可以具有最大限度的代表性,從而增加異常檢測的準(zhǔn)確性。對每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值之后,還可以根據(jù)新屬性值得優(yōu)先級來篩選數(shù)據(jù)模型,在一個可選的實(shí)施方式中,可以先獲取每一條數(shù)據(jù)的新屬性值的優(yōu)先級;再根據(jù)每一個新屬性值的優(yōu)先級從所有新屬性值中篩選出一個或多個新屬性值;最后根據(jù)篩選出的一個或多個新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型。新的屬性值的優(yōu)先級可以是指新的屬性值中最能代表數(shù)據(jù)特點(diǎn)的屬性值,也可以是根據(jù)不同情況來指定一個優(yōu)先級,比如,統(tǒng)計(jì)一組數(shù)據(jù)時,更加關(guān)注帶有“error”一詞的數(shù)據(jù)異常情況,因此可以將單詞屬性中的帶有“error”一詞開頭詞組的數(shù)據(jù)作為最高優(yōu)先級。根據(jù)該屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型。通過上述過程中的選取優(yōu)先級來篩選掉一部分屬性值,減少數(shù)據(jù)的維度,將篩選出的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,從而增加計(jì)算的速度,減少計(jì)算成本。在對每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型時,還可以將異常數(shù)據(jù)的發(fā)生時間和頻率作為篩選異常數(shù)據(jù)的標(biāo)準(zhǔn),例如可以根據(jù)每一條數(shù)據(jù)的新屬性值將每一條數(shù)據(jù)進(jìn)行分類;對相同分類的數(shù)據(jù)根據(jù)發(fā)生時間和頻率進(jìn)行學(xué)習(xí)得到數(shù)據(jù)模型,其中,發(fā)生時間和頻率作為區(qū)分異常數(shù)據(jù)的根據(jù)之一。下面舉例對于發(fā)生時間作為區(qū)分異常數(shù)據(jù)進(jìn)行說明:當(dāng)一組數(shù)據(jù)在某一段時間內(nèi)反復(fù)出現(xiàn)時就可以得到的數(shù)學(xué)模型,當(dāng)該組數(shù)據(jù)突然不再出現(xiàn)時就可以立刻判定為異常。有時機(jī)器日記出現(xiàn)問題時,會表現(xiàn)為同樣的數(shù)據(jù)反復(fù)出現(xiàn)的情況,或者下面舉例對于頻率作為區(qū)分異常數(shù)據(jù)進(jìn)行說明:根據(jù)一組數(shù)據(jù)出現(xiàn)的頻率學(xué)習(xí)建立判定異常數(shù)據(jù)的數(shù)學(xué)模型,當(dāng)該組數(shù)據(jù)出現(xiàn)的頻率突然改變時,則可以根據(jù)數(shù)學(xué)模型判定為異常的數(shù)據(jù)。下面結(jié)合一個可選的實(shí)施例進(jìn)行說明。表1是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法的待檢測數(shù)據(jù)表,如表1所示,表1在該數(shù)據(jù)表中,每一橫排代表一組數(shù)據(jù),每組數(shù)據(jù)有很多列,即有很多屬性,比如gender、height等,數(shù)據(jù)的每一個屬性都有對應(yīng)的屬性值,每一條數(shù)據(jù)均由多個屬性值構(gòu)成。比如,id為1的第1條數(shù)據(jù)的屬性值有:1、165、55、1、1,分別對應(yīng)的屬性為:gender、height、age、city、occupation。表1中待檢測數(shù)據(jù)表的city和occupation等列可以使用數(shù)字替代;對表1中每一組數(shù)據(jù)的屬性值通過主成分分析進(jìn)行降維得到每一條數(shù)據(jù)的新屬性值(新的feature),表2是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法的降維數(shù)據(jù)表,如表2所示:表2通過降維,本實(shí)施例將5列變成了3列,分別是pc1、pc2、pc3,新的feature(新的屬性值)是原有列的線性變換,具體變換公式如下:pc1=-0.3085328*gender+0.3260416*height+0.5555709*age+0.5013550*city-0.4883529*occupation;pc2=0.3574484*gender-0.5767465*height+0.4192386*age-0.3488463*city-0.4920766*occupation;pc3=-0.87057667*gender-0.43415427*height-0.09021272*age-0.20623074*city-0.05419287*occupation;經(jīng)過變化后的數(shù)據(jù)表如表3所示:表3每組數(shù)據(jù)的屬性變?yōu)閜c1、pc2、pc3,但是新的屬性值是由原有的屬性值經(jīng)過變換得到,也就是由原有的屬性組成,所以新的屬性保留有原有屬性的信息特點(diǎn)。將經(jīng)過變化后的數(shù)據(jù)表中每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,通過數(shù)據(jù)模型區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。下面結(jié)合另一個可選的實(shí)施例進(jìn)行說明。以表4為例,表4是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法的待檢測數(shù)據(jù)表,先判斷表4待檢測數(shù)據(jù)表中每組數(shù)據(jù)的屬性值是文本、數(shù)字還是時間,將每組數(shù)據(jù)的文本,數(shù)字,時間等列分別進(jìn)行直接合并,得到每組數(shù)據(jù)的新屬性值。合并后的數(shù)據(jù)表如表5所示。表4idnumerictext1165,55男,北京,it2180,29男,上海,公務(wù)員3172,40男,深圳,金融4144,38男,北京,金融5132,26男,北京,公務(wù)員6170,45女,上海,it7160,23女,上海,金融8150,45女,上海,金融9174,23女,北京,公務(wù)員10163,67女,深圳,金融表5將經(jīng)過變化后的數(shù)據(jù)表中每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,通過數(shù)據(jù)模型區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。本發(fā)明實(shí)施例還提供了一種異常數(shù)據(jù)檢測裝置。該裝置可以通過獲取單元、提取單元、匯合單元和學(xué)習(xí)單元實(shí)現(xiàn)其功能。需要說明的是,本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測裝置可以用于執(zhí)行本發(fā)明實(shí)施例所提供的一種異常數(shù)據(jù)檢測方法,本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測方法也可以通過本發(fā)明實(shí)施例所提供的一種異常數(shù)據(jù)檢測裝置來執(zhí)行。圖2是根據(jù)本發(fā)明實(shí)施例的一種異常數(shù)據(jù)檢測裝置的示意圖。如圖2所示,一種異常數(shù)據(jù)檢測裝置包括:獲取單元22,用于獲取文本;提取單元24,用于從文本中提取多條數(shù)據(jù),其中,多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個屬性值構(gòu)成,每個屬性值對應(yīng)該數(shù)據(jù)的一個屬性,每一條數(shù)據(jù)的屬性均相同;匯合單元26,用于對每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值,其中,每一條數(shù)據(jù)的新屬性值的個數(shù)小于匯合之前的每一條數(shù)據(jù)的屬性值的個數(shù);學(xué)習(xí)單元28,用于使用每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。在一個可選的實(shí)施方式中,獲取單元包括:第一獲取模塊,用于獲取文本中用自然語言表達(dá)的數(shù)據(jù)。在一個可選的實(shí)施方式中,提取單元包括:轉(zhuǎn)化模塊,用于將文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)。在一個可選的實(shí)施方式中,提取單元包括:提取模塊,用于將文本數(shù)據(jù)轉(zhuǎn)化為用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)之后通過分詞分析從用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值或通過詞頻分析從用于機(jī)器學(xué)習(xí)的多條數(shù)據(jù)中提取多個屬性值。在一個可選的實(shí)施方式中,匯合單元包括:分析模塊,用于對每一條數(shù)據(jù)的屬性值通過主成分分析進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值。在一個可選的實(shí)施方式中,匯合單元包括:合并模塊,用于將每一條數(shù)據(jù)的屬性值直接合并得到每一條數(shù)據(jù)的新屬性值。在一個可選的實(shí)施方式中,匯合單元,還包括:第二獲取模塊,用于對每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到每一條數(shù)據(jù)的新屬性值之后獲取每一條數(shù)據(jù)的新屬性值的優(yōu)先級;篩選模塊,用于根據(jù)每一個新屬性值的優(yōu)先級從所有新屬性值中篩選出一個或多個新屬性值;學(xué)習(xí)模塊,用于根據(jù)篩選出的一個或多個新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型。在一個可選的實(shí)施方式中,學(xué)習(xí)單元包括:分類模塊,用于根據(jù)每一條數(shù)據(jù)的新屬性值將每一條數(shù)據(jù)進(jìn)行分類;獲取模塊,用于對相同分類的數(shù)據(jù)根據(jù)發(fā)生時間和頻率進(jìn)行學(xué)習(xí)得到數(shù)據(jù)模型,其中,發(fā)生時間和頻率作為區(qū)分異常數(shù)據(jù)的根據(jù)之一。上述一種異常數(shù)據(jù)檢測裝置實(shí)施例是與一種異常數(shù)據(jù)檢測方法相對應(yīng)的,所以對于有益效果不再贅述。通過上述實(shí)施例的分析描述,相對于現(xiàn)有技術(shù)檢測來說,上述實(shí)施例中的部分可選實(shí)施方式有以下技術(shù)上的效果:對于機(jī)器學(xué)習(xí),如果用于培訓(xùn)的數(shù)據(jù)維度過大,則會帶來如下不良效果:1)計(jì)算量顯著上升,計(jì)算成本增加,培訓(xùn)效率下降;2)培訓(xùn)結(jié)果易于過度擬合(即培訓(xùn)結(jié)果更接近培訓(xùn)數(shù)據(jù)集的特征,而不是目標(biāo)數(shù)據(jù)集的特征)。本發(fā)明實(shí)施例提供了一種存儲介質(zhì),存儲介質(zhì)包括存儲的程序,其中,在程序運(yùn)行時控制存儲介質(zhì)所在設(shè)備執(zhí)行上述方法。簡單的削減數(shù)據(jù)維度雖然可以帶來計(jì)算量的下降,但是如果去除的是對培訓(xùn)目標(biāo)具有代表性的維度,那么也會造成培訓(xùn)結(jié)果的精度或可靠度下降。因此我們需要利用有效的方法來降低數(shù)據(jù)的維度,同時保證所保留的維度仍然可以具有最大限度的代表性(即無損降維)。本實(shí)施例利用無損的特征合并減少數(shù)據(jù)維度,同時不降低機(jī)器學(xué)習(xí)的效果。需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。在上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。在本申請所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可為個人計(jì)算機(jī)、移動終端、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
井研县| 蛟河市| 华亭县| 当雄县| 静安区| 龙州县| 东阿县| 三江| 长丰县| 三明市| 巩义市| 康保县| 鄯善县| 杨浦区| 盐津县| 平顺县| 榆树市| 新晃| 定日县| 桐梓县| 内乡县| 涿鹿县| 新宁县| 大邑县| 尤溪县| 宁南县| 招远市| 开远市| 鄂伦春自治旗| 赣州市| 高台县| 靖西县| 井研县| 襄樊市| 陆丰市| 江山市| 和硕县| 凤城市| 上杭县| 衡南县| 叙永县|