1.一種基于用戶真實(shí)流量數(shù)據(jù)補(bǔ)全App的Host/Url特征集的方法,其特征在于,該方法包括以下步驟:
(1)從某個(gè)App的初始Host/Url特征集中選取種子特征集,記為{urlseed}。
(2)對(duì)種子特征集{urlseed}中的每個(gè)成員,都在多用戶的真實(shí)流量數(shù)據(jù)中進(jìn)行特征補(bǔ)全。
(3)從補(bǔ)全后的特征集中選取新的種子,構(gòu)成新的種子特征集,迭代地進(jìn)行特征補(bǔ)全,直到不再得到新的種子為止。
2.根據(jù)權(quán)利要求1所述的一種基于用戶真實(shí)流量數(shù)據(jù)補(bǔ)全App的Host/Url特征集的方法,其特征在于,所述的步驟1中從某個(gè)App的初始Host/Url特征集中選取種子特征集,具體包括以下步驟:
(1)統(tǒng)計(jì)該App初始特征集中的每個(gè)Host/Url特征出現(xiàn)在不同App的Host/Url特征集中的次數(shù)。只出現(xiàn)在該App中則次數(shù)為1,出現(xiàn)在2個(gè)不同的App中則次數(shù)為2,以此類推。
(2)種子特征集{urlseed}中的成員,將優(yōu)先選取所有出現(xiàn)在不同App的特征集中次數(shù)只有1次的Host/Url特征。如果在初始特征集中沒有出現(xiàn)次數(shù)只有1次的Host/Url特征,則選取出現(xiàn)次數(shù)最少的幾個(gè)Host/Url特征,將其作為種子特征集的唯一成員。
3.根據(jù)權(quán)利要求1所述的一種基于用戶真實(shí)流量數(shù)據(jù)補(bǔ)全App的Host/Url特征集的方法,其特征在于,所述的步驟2中對(duì)種子特征集{urlseed}中的每個(gè)種子urli,都在多用戶的真實(shí)流量數(shù)據(jù)中進(jìn)行特征補(bǔ)全,具體包括以下步驟:
(1)從多個(gè)用戶各自的流量數(shù)據(jù)中提取種子urli訪問時(shí)刻前后一段時(shí)間范圍內(nèi)的Host/Url特征,構(gòu)成{urlcand}。
(2)對(duì)來自N個(gè)用戶的候選特征集{urlcand}k(k=1,2,...,N)進(jìn)行關(guān)聯(lián)分析,得到若干個(gè)頻繁項(xiàng)集。
(3)將得到的頻繁項(xiàng)集中不屬于初始Host/Url特征集的新Host/Url特征提取出來,對(duì)初始特征集進(jìn)行補(bǔ)全。