技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開了一種面向大數(shù)據(jù)的信息補(bǔ)全方法,該方法充分利用缺失數(shù)據(jù)的特點(diǎn):缺失數(shù)據(jù)的取值和它所在元組中其他屬性或者屬性組合取值即證據(jù)鏈有關(guān),通過挖掘每條有缺失數(shù)據(jù)的元組中缺失數(shù)據(jù)所有的相關(guān)證據(jù),綜合這些相關(guān)證據(jù)成為估計(jì)缺失屬性取值的證據(jù)鏈,最后通過證據(jù)鏈來估計(jì)缺失數(shù)據(jù)的取值。由于直接從原有的數(shù)據(jù)集中計(jì)算缺失數(shù)據(jù)相關(guān)證據(jù)鏈來預(yù)測缺失值得取值,所以本發(fā)明在填充缺失值時(shí)不僅擁有高的填充準(zhǔn)確率和抗缺失率,而且簡單易行,不需要掌握數(shù)據(jù)集中數(shù)據(jù)的分布,領(lǐng)域知識,也不需要在數(shù)據(jù)集上訓(xùn)練估計(jì)模型,為補(bǔ)全數(shù)據(jù)節(jié)省大量的時(shí)間。本分明可以基于Map?Reduce分布式編程框架運(yùn)行,可以分布式補(bǔ)全大規(guī)模數(shù)據(jù)集。
技術(shù)研發(fā)人員:徐小龍;崇衛(wèi)之
受保護(hù)的技術(shù)使用者:南京郵電大學(xué)
技術(shù)研發(fā)日:2017.03.16
技術(shù)公布日:2017.07.04