技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種面向流式大數(shù)據(jù)的基數(shù)估計(jì)方法,所述面向流式大數(shù)據(jù)的基數(shù)估計(jì)方法針對(duì)流式大數(shù)據(jù),通過(guò)降低計(jì)算精度提高基數(shù)估計(jì)效率;對(duì)HyperLogLog?Counting算法所需的中間統(tǒng)計(jì)信息進(jìn)行分區(qū)計(jì)算,選擇高效的哈希算法和最優(yōu)的分桶個(gè)數(shù),通過(guò)改進(jìn)的分桶方法將哈希過(guò)的數(shù)據(jù)較為均勻的映射到m個(gè)不同的桶號(hào)中,并進(jìn)行增量維護(hù),再進(jìn)行合并得到最終的中間統(tǒng)計(jì)信息,從而計(jì)算基數(shù)估計(jì)值。本發(fā)明有效的利用了歷史數(shù)據(jù),避免了重復(fù)計(jì)算,極大的提高了基數(shù)估計(jì)的效率;實(shí)現(xiàn)了高精度基數(shù)估計(jì),相比傳統(tǒng)算法給出了高效的分桶方法,提高了基數(shù)估計(jì)的精度;算法空間復(fù)雜度很低,降低了計(jì)算資源消耗。
技術(shù)研發(fā)人員:趙興文;王浩;李暉;朱輝
受保護(hù)的技術(shù)使用者:西安電子科技大學(xué)
文檔號(hào)碼:201611201376
技術(shù)研發(fā)日:2016.12.22
技術(shù)公布日:2017.05.24