本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
在多個(gè)行業(yè)中都會(huì)存在一些數(shù)據(jù),例如,餐飲業(yè)、旅游業(yè)的會(huì)員消費(fèi)等數(shù)據(jù),會(huì)員消費(fèi)數(shù)據(jù)逐漸發(fā)展成為了跨行業(yè)、跨國(guó)家、線(xiàn)上線(xiàn)下聯(lián)合的數(shù)據(jù),這些數(shù)據(jù)往往來(lái)自多個(gè)樣本,由于單純以消費(fèi)折扣為手段的積分計(jì)劃等已經(jīng)不能吸引到真正有價(jià)值的顧客,因此對(duì)這些大數(shù)據(jù)的分析具有重要的參考價(jià)值,能夠快速定位有價(jià)值的客戶(hù),合理利用這些大數(shù)據(jù)能夠?yàn)槠髽I(yè)帶來(lái)更大的利益。
現(xiàn)有技術(shù)中對(duì)上述數(shù)據(jù)的分析采用的是高斯混合判別分析,引用全體數(shù)據(jù)作為計(jì)算量,但是直接使用全體數(shù)據(jù)容易受到噪音的影響導(dǎo)致準(zhǔn)確度低。
針對(duì)相關(guān)技術(shù)中數(shù)據(jù)處理方法準(zhǔn)確度低的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種數(shù)據(jù)處理方法和裝置,以解決相關(guān)技術(shù)中數(shù)據(jù)處理方法準(zhǔn)確度低的問(wèn)題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種數(shù)據(jù)處理方法,該方法包括:接收目標(biāo)數(shù)據(jù);根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,其中,所述數(shù)據(jù)分類(lèi)模型是根據(jù)過(guò)濾后的多個(gè)樣本數(shù)據(jù)建立的模型;基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果;輸出分類(lèi)結(jié)果。
進(jìn)一步地,根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率包括:根據(jù)數(shù)據(jù)分類(lèi)模型中記錄的正態(tài)分布密度函數(shù),計(jì)算目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)中每個(gè)屬性的屬性概率,其中,每個(gè)預(yù)定類(lèi)包括多個(gè)屬性;計(jì)算每個(gè)預(yù)定類(lèi)中多個(gè)屬性的屬性概率的加權(quán)值,得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)的概率。
進(jìn)一步地,基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果包括:將最大概率值對(duì)應(yīng)的預(yù)定類(lèi),確定為目標(biāo)數(shù)據(jù)所屬的預(yù)定類(lèi)。
進(jìn)一步地,在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)別的概率之前,方法還包括:采集多個(gè)樣本數(shù)據(jù),其中,樣本數(shù)據(jù)中的每個(gè)樣本包括多個(gè)類(lèi),每個(gè)類(lèi)包括多個(gè)屬性;對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù),其中,無(wú)效數(shù)據(jù)為樣本數(shù)據(jù)中屬性值缺失率超過(guò)預(yù)設(shè)閾值的數(shù)據(jù);對(duì)每個(gè)類(lèi)的每個(gè)屬性分別計(jì)算樣本數(shù)據(jù)的屬性分布;根據(jù)屬性分布建立數(shù)據(jù)分類(lèi)模型。
進(jìn)一步地,在對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù)之后,方法還包括:計(jì)算每個(gè)類(lèi)的每個(gè)屬性的數(shù)據(jù)的均值和標(biāo)準(zhǔn)差;過(guò)濾掉與均值的差值超過(guò)兩倍標(biāo)準(zhǔn)差的數(shù)據(jù)。
進(jìn)一步地,在對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù)之后,方法還包括:對(duì)樣本數(shù)據(jù)進(jìn)行向量化表示,得到向量化數(shù)據(jù)。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,還提供了一種數(shù)據(jù)處理裝置,該裝置包括:接收單元,用于接收目標(biāo)數(shù)據(jù);確定單元,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,其中,所述數(shù)據(jù)分類(lèi)模型是根據(jù)過(guò)濾后的多個(gè)樣本數(shù)據(jù)建立的模型;處理單元,用于基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果;輸出單元,用于輸出分類(lèi)結(jié)果。
進(jìn)一步地,確定單元包括:根據(jù)數(shù)據(jù)分類(lèi)模型中記錄的正態(tài)分布密度函數(shù),計(jì)算目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)中每個(gè)屬性的屬性概率,其中,每個(gè)預(yù)定類(lèi)包括多個(gè)屬性;計(jì)算單元,用于計(jì)算每個(gè)預(yù)定類(lèi)中多個(gè)屬性的屬性概率的加權(quán)值,得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)的概率。
進(jìn)一步地,處理單元具體用于:將最大概率值對(duì)應(yīng)的預(yù)定類(lèi),確定為目標(biāo)數(shù)據(jù)所屬的預(yù)定類(lèi)。
進(jìn)一步地,裝置還包括:采集單元,用于在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)別的概率之前,采集多個(gè)樣本數(shù)據(jù),其中,樣本數(shù)據(jù)中的每個(gè)樣本包括多個(gè)類(lèi),每個(gè)類(lèi)包括多個(gè)屬性;過(guò)濾單元,用于對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù),其中,無(wú)效數(shù)據(jù)為樣本數(shù)據(jù)中屬性值缺失率超過(guò)預(yù)設(shè)閾值的數(shù)據(jù);屬性分布計(jì)算單元,用于對(duì)每個(gè)類(lèi)的每個(gè)屬性分別計(jì)算樣本數(shù)據(jù)的屬性分布;建立單元,用于根據(jù)屬性分布建立數(shù)據(jù)分類(lèi)模型。
通過(guò)本發(fā)明的上述實(shí)施例,可以基于過(guò)濾后的多個(gè)樣本數(shù)據(jù)預(yù)先建立數(shù)據(jù)分類(lèi)模型,在接收到新的目標(biāo)數(shù)據(jù)之后,利用該預(yù)先建立的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,并基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,確定目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果。在上述實(shí)施例中,由于建立數(shù)據(jù)分類(lèi)模型時(shí),是基于過(guò)濾后的樣本數(shù)據(jù)建立的,過(guò)濾數(shù)據(jù)可以減少樣本數(shù)據(jù)中的無(wú)效數(shù)據(jù)或者噪音數(shù)據(jù),基于該模型確定的目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果準(zhǔn)確率高,解決了現(xiàn)有技術(shù)中是數(shù)據(jù)處理方法準(zhǔn)確度低的問(wèn)題。
附圖說(shuō)明
構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法的流程圖;以及
圖2是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理裝置的示意圖。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
需要說(shuō)明的是,本申請(qǐng)的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法。
圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法的流程圖,如圖1所示,該方法包括以下步驟:
步驟S102:接收目標(biāo)數(shù)據(jù)。
步驟S104:根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,其中,所述數(shù)據(jù)分類(lèi)模型是根據(jù)過(guò)濾后的多個(gè)樣本數(shù)據(jù)建立的模型。
步驟S106:基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果。
步驟S108:輸出分類(lèi)結(jié)果。
通過(guò)本發(fā)明的上述實(shí)施例,可以基于過(guò)濾后的多個(gè)樣本數(shù)據(jù)預(yù)先建立數(shù)據(jù)分類(lèi)模型,在接收到新的目標(biāo)數(shù)據(jù)之后,利用該預(yù)先建立的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,并基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,確定目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果。在上述實(shí)施例中,由于建立數(shù)據(jù)分類(lèi)模型時(shí),是基于過(guò)濾后的樣本數(shù)據(jù)建立的,過(guò)濾數(shù)據(jù)可以減少樣本數(shù)據(jù)中的無(wú)效數(shù)據(jù)或者噪音數(shù)據(jù),基于該模型確定的目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果準(zhǔn)確率高,解決了現(xiàn)有技術(shù)中是數(shù)據(jù)處理方法準(zhǔn)確度低的問(wèn)題。
可選地,創(chuàng)建數(shù)據(jù)輸入界面,該數(shù)據(jù)輸入界面上設(shè)置有輸入框,該輸入框可以用于輸入目標(biāo)數(shù)據(jù),處理器可以從該輸入框接收目標(biāo)數(shù)據(jù)。
另一種可選地,創(chuàng)建數(shù)據(jù)導(dǎo)入接口,該數(shù)據(jù)導(dǎo)入接口與目標(biāo)數(shù)據(jù)的生成系統(tǒng)建立連接,處理器通過(guò)該數(shù)據(jù)導(dǎo)入接口采集目標(biāo)數(shù)據(jù)。
上述實(shí)施例中的目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)可以為消費(fèi)數(shù)據(jù),該消費(fèi)數(shù)據(jù)中包括性別、年齡、職業(yè)、居住地、頻次以及消費(fèi)金額等多個(gè)維度的信息。當(dāng)然,本申請(qǐng)的目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)還可以為其他領(lǐng)域的數(shù)據(jù),本申請(qǐng)對(duì)此不做限定。
在上述步驟S104確定的技術(shù)方案中,可以獲取預(yù)先創(chuàng)建的數(shù)據(jù)分類(lèi)模型,具體地,可以獲取多個(gè)樣本數(shù)據(jù),對(duì)該多個(gè)樣本數(shù)據(jù)進(jìn)行過(guò)濾,以將該多個(gè)樣本數(shù)據(jù)中的無(wú)效數(shù)據(jù)剔除,基于過(guò)濾后的多個(gè)樣本數(shù)據(jù)的類(lèi)別分布信息建立數(shù)據(jù)分類(lèi)模型。
可選地,在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率之后,基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果,也即,基于目標(biāo)數(shù)據(jù)屬于不同類(lèi)的概率,確定目標(biāo)數(shù)據(jù)屬于哪個(gè)類(lèi),并輸出該分類(lèi)結(jié)果,該分類(lèi)結(jié)果可以圖表、或文字的形式展示在界面上,也可以將分類(lèi)結(jié)果記錄在文檔中,輸出該文檔,本申請(qǐng)對(duì)該輸出方式和格式不做限定。
具體地,根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率包括:根據(jù)數(shù)據(jù)分類(lèi)模型中記錄的正態(tài)分布密度函數(shù),計(jì)算目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)中每個(gè)屬性的屬性概率,其中,每個(gè)預(yù)定類(lèi)包括多個(gè)屬性;計(jì)算每個(gè)預(yù)定類(lèi)中多個(gè)屬性的屬性概率的加權(quán)值,得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)的概率。
根據(jù)本申請(qǐng)的上述實(shí)施例,對(duì)于接收到的目標(biāo)數(shù)據(jù),可根據(jù)分類(lèi)的平均值,標(biāo)準(zhǔn)差計(jì)算該目標(biāo)數(shù)據(jù)屬于不同預(yù)定類(lèi)中各個(gè)屬性的分布概率:
在一個(gè)可選的實(shí)施例中,目標(biāo)數(shù)據(jù)屬于第k個(gè)分類(lèi)的第i個(gè)屬性的概率可用正態(tài)分布密度函數(shù)計(jì)算,設(shè)定數(shù)據(jù)分類(lèi)模型中記錄有m個(gè)分類(lèi),第k個(gè)分類(lèi)具有i個(gè)有效屬性,則第k個(gè)分類(lèi)的第i個(gè)屬性的概率可用正態(tài)分布密度函數(shù)計(jì)算,該其中,xi表示該目標(biāo)數(shù)據(jù)的第i個(gè)屬性的屬性值,表示第k個(gè)分類(lèi)的第i個(gè)屬性的計(jì)算平均值,表示該第k個(gè)分類(lèi)的第i個(gè)屬性的標(biāo)準(zhǔn)差。
在計(jì)算得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)中每個(gè)屬性的屬性概率之后,計(jì)算每個(gè)預(yù)定類(lèi)中多個(gè)屬性的屬性概率的加權(quán)值,得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)的概率。
具體地,第k個(gè)分類(lèi)的概率為各個(gè)屬性概率與權(quán)重wi的乘積:
該實(shí)施例中每個(gè)屬性的權(quán)重均可以動(dòng)態(tài)調(diào)整。
進(jìn)一步地,基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果包括:將最大概率值對(duì)應(yīng)的預(yù)定類(lèi),確定為目標(biāo)數(shù)據(jù)所屬的預(yù)定類(lèi)。
具體地,若有m個(gè)預(yù)定類(lèi),則選擇m個(gè)pk中的最大的值,將最大的值對(duì)應(yīng)的預(yù)定類(lèi)確定為目標(biāo)數(shù)據(jù)所屬的分類(lèi)。
本申請(qǐng)上述的m、k、i均為自然數(shù),k為小于等于m的自然數(shù)。
在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)別的概率之前,方法還包括:采集多個(gè)樣本數(shù)據(jù),其中,樣本數(shù)據(jù)中的每個(gè)樣本包括多個(gè)類(lèi),每個(gè)類(lèi)包括多個(gè)屬性;對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù),其中,無(wú)效數(shù)據(jù)為樣本數(shù)據(jù)中屬性值缺失率超過(guò)預(yù)設(shè)閾值的數(shù)據(jù);對(duì)每個(gè)類(lèi)的每個(gè)屬性分別計(jì)算樣本數(shù)據(jù)的屬性分布;根據(jù)屬性分布建立數(shù)據(jù)分類(lèi)模型。
具體地,在對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù)之后,方法還包括:計(jì)算每個(gè)類(lèi)的每個(gè)屬性的數(shù)據(jù)的均值和標(biāo)準(zhǔn)差;過(guò)濾掉與均值的差值超過(guò)兩倍標(biāo)準(zhǔn)差的數(shù)據(jù)。
進(jìn)一步地,在對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù)之后,方法還包括:對(duì)樣本數(shù)據(jù)進(jìn)行向量化表示,得到向量化數(shù)據(jù)。
在已經(jīng)獲取到多個(gè)樣本數(shù)據(jù)的情況下,可以對(duì)每個(gè)樣本數(shù)據(jù)按照不同的預(yù)定類(lèi)的不同屬性設(shè)置標(biāo)簽,在將樣本數(shù)據(jù)設(shè)置標(biāo)簽并分為K組之后,樣本數(shù)據(jù)中包括對(duì)象的性別、年齡、職業(yè)、時(shí)間(如,年內(nèi)累計(jì)消費(fèi)分鐘)、頻次(年內(nèi)消費(fèi)次數(shù))、金額(年內(nèi)累計(jì)消費(fèi)額),在準(zhǔn)備好數(shù)據(jù)之后,多個(gè)樣本數(shù)據(jù)的各個(gè)屬性的分布符合正態(tài)分布。
對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)的過(guò)濾,具體地,該過(guò)濾操作可以包括下述至少之一的操作:
(1)去除缺失率過(guò)高的屬性,將缺失率超過(guò)預(yù)定閾值的屬性去掉。例如,設(shè)置缺失率的預(yù)定閾值為70%,若100個(gè)樣本數(shù)據(jù)中有80個(gè)樣本數(shù)據(jù)中均未記錄性別屬性信息,只有20個(gè)記錄了性別屬性信息,該性別屬性信息的缺失率為80%,超過(guò)了70%,則將該屬性去掉。
上述的去掉可以是將所有數(shù)據(jù)中的該屬性的屬性值不再作為模型的輸入?yún)?shù)。
(2)對(duì)丟失屬性填充,例如,用對(duì)應(yīng)有效屬性的平均值替換。例如,100個(gè)樣本數(shù)據(jù)中有40個(gè)樣本數(shù)據(jù)中記錄的消費(fèi)金額屬性信息為100元,有40個(gè)記錄的消費(fèi)金額屬性信息為500元,還有20個(gè)沒(méi)有記錄消費(fèi)金額屬性信息,則可以確定屬性平均值為300元,可以將該20個(gè)沒(méi)有記錄消費(fèi)金額的樣本數(shù)據(jù)中消費(fèi)金額屬性信息的值填充為300元。
(3)去除差異過(guò)小的屬性,例如,當(dāng)樣本數(shù)據(jù)中目標(biāo)屬性的屬性值的相同率超過(guò)預(yù)設(shè)閾值,不考慮此屬性。例如,設(shè)置預(yù)設(shè)閾值為95%,100個(gè)樣本數(shù)據(jù)中有99個(gè)樣本數(shù)據(jù)中記錄的性別屬性信息為女性,該屬性值的相同率超過(guò)了95%,則在創(chuàng)建數(shù)據(jù)分類(lèi)模型時(shí)不考慮該數(shù)據(jù)。
在對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行過(guò)濾之后,對(duì)過(guò)濾后的多個(gè)樣本中的數(shù)據(jù)進(jìn)行向量化處理,具體地,將不同的屬性值對(duì)應(yīng)設(shè)置為不同的向量,如,性別、職業(yè)分類(lèi)屬性,如[性別]=男替換為[性別男]=1和[性別女]=0兩個(gè)屬性來(lái)替換,未知?jiǎng)t均為0;[職業(yè)]=職業(yè)K可替換為[職業(yè)1]=0,[職業(yè)2]=0,……,[職業(yè)k]=1,……,[職業(yè)n]=0。
對(duì)向量化的數(shù)據(jù),進(jìn)行每一類(lèi)的每個(gè)屬性計(jì)算分布,具體地,計(jì)算多個(gè)向量化的樣本數(shù)據(jù)對(duì)應(yīng)每一類(lèi)的每個(gè)屬性的均值和標(biāo)準(zhǔn)差。
例如,選取第k類(lèi)數(shù)據(jù),選取分類(lèi)數(shù)據(jù)Ak=δ分類(lèi)=k(A);則對(duì)于第k類(lèi)數(shù)據(jù),第i個(gè)屬性的分布如下:
平均值:
標(biāo)準(zhǔn)差“
每一類(lèi)的每一屬性過(guò)濾掉-2σ到2σ以外的的噪音數(shù)據(jù)(設(shè)檢測(cè)值屬性為x,即目標(biāo)數(shù)據(jù)的對(duì)應(yīng)該屬性的屬性值),則:
選取分類(lèi)數(shù)據(jù)
更新計(jì)算平均值
更新標(biāo)準(zhǔn)差
在本發(fā)明的上述實(shí)施例中,通過(guò)去除邊緣數(shù)據(jù)(出現(xiàn)概率<5%),增加了主要數(shù)據(jù)所占的比重,使提取分類(lèi)時(shí)所用的數(shù)據(jù)更具有代表性。
上述實(shí)施例中權(quán)重使不同屬性的代表的重要性體現(xiàn)出來(lái),而不是各個(gè)方面均勻的占比。例如,可將客戶(hù)按金額分類(lèi)的更為準(zhǔn)確些,通過(guò)對(duì)金額相關(guān)的屬性設(shè)置較大的權(quán)重來(lái)完成。
需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,還提供了一種數(shù)據(jù)處理裝置,該裝置包括圖2所示的:接收單元21,用于接收目標(biāo)數(shù)據(jù);確定單元23,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,其中,數(shù)據(jù)分類(lèi)模型是根據(jù)多個(gè)樣本數(shù)據(jù)的屬性分布信息建立的模型;處理單元25,用于基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果;輸出單元27,用于輸出分類(lèi)結(jié)果。
通過(guò)本發(fā)明的上述實(shí)施例,可以基于過(guò)濾后的多個(gè)樣本數(shù)據(jù)預(yù)先建立數(shù)據(jù)分類(lèi)模型,在接收到新的目標(biāo)數(shù)據(jù)之后,利用該預(yù)先建立的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,并基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,確定目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果。在上述實(shí)施例中,由于建立數(shù)據(jù)分類(lèi)模型時(shí),是基于過(guò)濾后的樣本數(shù)據(jù)建立的,過(guò)濾數(shù)據(jù)可以減少樣本數(shù)據(jù)中的無(wú)效數(shù)據(jù)或者噪音數(shù)據(jù),基于該模型確定的目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果準(zhǔn)確率高,解決了現(xiàn)有技術(shù)中是數(shù)據(jù)處理方法準(zhǔn)確度低的問(wèn)題。
可選地,創(chuàng)建數(shù)據(jù)輸入界面,該數(shù)據(jù)輸入界面上設(shè)置有輸入框,該輸入框可以用于輸入目標(biāo)數(shù)據(jù),處理器可以從該輸入框接收目標(biāo)數(shù)據(jù)。
另一種可選地,創(chuàng)建數(shù)據(jù)導(dǎo)入接口,該數(shù)據(jù)導(dǎo)入接口與目標(biāo)數(shù)據(jù)的生成系統(tǒng)建立連接,處理器通過(guò)該數(shù)據(jù)導(dǎo)入接口采集目標(biāo)數(shù)據(jù)。
上述實(shí)施例中的目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)可以為消費(fèi)數(shù)據(jù),該消費(fèi)數(shù)據(jù)中包括性別、年齡、職業(yè)、居住地、頻次以及消費(fèi)金額等多個(gè)維度的信息。當(dāng)然,本申請(qǐng)的目標(biāo)數(shù)據(jù)和樣本數(shù)據(jù)還可以為其他領(lǐng)域的數(shù)據(jù),本申請(qǐng)對(duì)此不做限定。
在上述技術(shù)方案中,可以獲取預(yù)先創(chuàng)建的數(shù)據(jù)分類(lèi)模型,具體地,可以獲取多個(gè)樣本數(shù)據(jù),對(duì)該多個(gè)樣本數(shù)據(jù)進(jìn)行過(guò)濾,以將該多個(gè)樣本數(shù)據(jù)中的無(wú)效數(shù)據(jù)剔除,基于過(guò)濾后的多個(gè)樣本數(shù)據(jù)的類(lèi)別分布信息建立數(shù)據(jù)分類(lèi)模型。
可選地,在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率之后,基于目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)的概率,得到目標(biāo)數(shù)據(jù)的分類(lèi)結(jié)果,也即,基于目標(biāo)數(shù)據(jù)屬于不同類(lèi)的概率,確定目標(biāo)數(shù)據(jù)屬于哪個(gè)類(lèi),并輸出該分類(lèi)結(jié)果,該分類(lèi)結(jié)果可以圖表、或文字的形式展示在界面上,也可以將分類(lèi)結(jié)果記錄在文檔中,輸出該文檔,本申請(qǐng)對(duì)該輸出方式和格式不做限定。
進(jìn)一步地,確定單元包括:根據(jù)數(shù)據(jù)分類(lèi)模型中記錄的正態(tài)分布密度函數(shù),計(jì)算目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)中每個(gè)屬性的屬性概率,其中,每個(gè)預(yù)定類(lèi)包括多個(gè)屬性;計(jì)算單元,用于計(jì)算每個(gè)預(yù)定類(lèi)中多個(gè)屬性的屬性概率的加權(quán)值,得到目標(biāo)數(shù)據(jù)屬于每個(gè)預(yù)定類(lèi)的概率。
進(jìn)一步地,處理單元具體用于:將最大概率值對(duì)應(yīng)的預(yù)定類(lèi),確定為目標(biāo)數(shù)據(jù)所屬的預(yù)定類(lèi)。
進(jìn)一步地,該裝置還包括:采集單元,用于在根據(jù)預(yù)設(shè)的數(shù)據(jù)分類(lèi)模型確定目標(biāo)數(shù)據(jù)屬于各個(gè)預(yù)定類(lèi)別的概率之前,采集多個(gè)樣本數(shù)據(jù),其中,樣本數(shù)據(jù)中的每個(gè)樣本包括多個(gè)類(lèi),每個(gè)類(lèi)包括多個(gè)屬性;過(guò)濾單元,用于對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)過(guò)濾,得到過(guò)濾后的數(shù)據(jù),其中,無(wú)效數(shù)據(jù)為樣本數(shù)據(jù)中屬性值缺失率超過(guò)預(yù)設(shè)閾值的數(shù)據(jù);屬性分布計(jì)算單元,用于對(duì)每個(gè)類(lèi)的每個(gè)屬性分別計(jì)算樣本數(shù)據(jù)的屬性分布;建立單元,用于根據(jù)屬性分布建立數(shù)據(jù)分類(lèi)模型。
上述的過(guò)濾單元具體用于對(duì)多個(gè)樣本數(shù)據(jù)進(jìn)行無(wú)效數(shù)據(jù)的過(guò)濾,具體地,該過(guò)濾操作可以包括下述至少之一的操作:
(1)去除缺失率過(guò)高的屬性,將缺失率超過(guò)預(yù)定閾值的屬性去掉。例如,設(shè)置缺失率的預(yù)定閾值為70%,若100個(gè)樣本數(shù)據(jù)中有80個(gè)樣本數(shù)據(jù)中均未記錄性別屬性信息,只有20個(gè)記錄了性別屬性信息,該性別屬性信息的缺失率為80%,超過(guò)了70%,則將該屬性去掉。
上述的去掉可以是將所有數(shù)據(jù)中的該屬性的屬性值刪除。
(2)對(duì)丟失屬性填充,例如,用對(duì)應(yīng)有效屬性的平均值替換。例如,100個(gè)樣本數(shù)據(jù)中有80個(gè)樣本數(shù)據(jù)中記錄的性別屬性信息為女性,只有10個(gè)記錄的性別屬性信息為男性,還有10個(gè)沒(méi)有記錄性別屬性信息,則可以確定屬性平均值為女性,則可以將該10個(gè)沒(méi)有記錄性別的樣本數(shù)據(jù)中性別屬性信息的值填充為女性。
(3)去除差異過(guò)小的屬性,例如,當(dāng)樣本數(shù)據(jù)中目標(biāo)屬性的屬性值的相同率超過(guò)預(yù)設(shè)閾值,不考慮此屬性。例如,設(shè)置預(yù)設(shè)閾值為95%,100個(gè)樣本數(shù)據(jù)中有99個(gè)樣本數(shù)據(jù)中記錄的性別屬性信息為女性,該屬性值的相同率超過(guò)了95%,則在創(chuàng)建數(shù)據(jù)分類(lèi)模型時(shí)不考慮該數(shù)據(jù)。
在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。