1.一種騷擾號碼的識別方法,其特征在于,包括有:
步驟一、選取若干已確認的騷擾和非騷擾號碼,計算所述騷擾和非騷擾號碼在一段時間內的通信行為指標,然后將所述騷擾和非騷擾號碼及其通信行為指標形成訓練樣本集來構建隨機森林分類模型,所述隨機森林分類模型的輸入是每個用戶號碼的通信行為指標,輸出是所有決策樹判定其為騷擾號碼和非騷擾號碼的預測概率;
步驟二、將待識別號碼在一段時間內的通信行為指標輸入隨機森林分類模型,并計算隨機森林分類模型中所有決策樹判定其為騷擾號碼和非騷擾號碼的預測概率,以據(jù)此來判定所述待識別號碼是否是騷擾號碼。
2.根據(jù)權利要求1所述的方法,其特征在于,計算用戶號碼在一段時間內的通信行為指標,進一步包括有:
步驟A、采集用戶連續(xù)多天的歷史話單數(shù)據(jù),選取多個時間粒度,然后尋找用戶在每個時間粒度下的高頻通話時段,最后根據(jù)用戶在每個時間粒度下的高頻通話時段內的通信行為指標來計算用戶在每個時間粒度下的通信行為指標,用戶號碼在一段時間內的通信行為指標包括但不限于:用戶在每個時間粒度下的通信行為指標、用戶號碼和用戶標識。
3.根據(jù)權利要求2所述的方法,其特征在于,所述時間粒度取值但不限于:1分鐘、5分鐘、15分鐘、30分鐘、60分鐘、180分鐘、360分鐘、720分鐘、1440分鐘。
4.根據(jù)權利要求2所述的方法,其特征在于,步驟A進一步包括有:
步驟A1、逐一提取用戶每天的話單數(shù)據(jù);
步驟A2、讀取該天話單數(shù)據(jù)的起止時間,并計算所述起止時間所覆蓋的最大時間粒度Tmax,即從選取的多個時間粒度中挑選出其值小于所述起止時間的對應時長的最大時間粒度;
步驟A3、逐一提取每個時間粒度,并判斷所提取的時間粒度是否小于或等于Tmax,如果是,則將該天話單數(shù)據(jù)的起止時間的對應時長劃分成多個連續(xù)的、并以所提取的時間粒度為時長的通信時段,然后計算用戶在每個通信時段內的通話頻次,所述用戶在每個通信時段內的通話頻次也即是所提取的時間粒度在該天的每個通信時段的通話頻次,繼續(xù)提取下一個時間粒度,直至提取完所有時間粒度;如果否,則繼續(xù)提取下一個時間粒度,直至提取完所有時間粒度;
步驟A4、判斷是否提取完所有天的話單數(shù)據(jù),如果是,則繼續(xù)下一步;如果否,則繼續(xù)提取用戶下一天的話單數(shù)據(jù),然后轉向步驟A2;
步驟A5、從每個時間粒度在所有天的所有通信時段的通話頻次中挑選最大值,所述最大值對應的通信時段即是用戶在該時間粒度下的高頻通信時段;
步驟A6、計算用戶在每個時間粒度下的通信行為指標,也即是用戶在每個時間粒度下的高頻通話時段內的通信行為指標。
5.根據(jù)權利要求1所述的方法,其特征在于,通信行為指標包括但不限于:呼叫頻次、被叫個數(shù)、通話時長、振鈴時長、主動釋放次數(shù)、被動釋放次數(shù)、被叫離散度、同一主叫的被叫號碼間相關系數(shù)、呼叫相同萬號段最大頻次、主叫占比、呼叫時間間隔標準差,其中:
同一主叫的被叫號碼間相關系數(shù)是用戶呼叫過的所有被叫號碼相互之間存在有通話行為的個數(shù)和用戶呼叫過的所有被叫號碼總數(shù)的比值,呼叫相同萬號段最大頻次是用戶呼叫過的、且屬于相同萬號段的被叫號碼最大數(shù),其中,萬號段是被叫號碼被去掉后4位之后的剩余號段。
6.根據(jù)權利要求1所述的方法,其特征在于,步驟一中,將所述騷擾和非騷擾號碼及其通信行為指標形成訓練樣本集來構建隨機森林分類模型,進一步包括有:
步驟11、采用隨機森林分類模型,從訓練樣本集中每個訓練樣本的M個通信行為指標中隨機選取m個通信行為指標來產(chǎn)生K個特征子集進行訓練,從而生成K棵決策樹,每棵決策樹包含有自身對輸入號碼所屬類別的預測概率,其中,決策樹采用Gini不純度的方法來構建。
7.根據(jù)權利要求6所述的方法,其特征在于,所述步驟11中,對于第k棵決策樹,其生成過程進一步包括有:
步驟111、采用bootstrap方法從訓練樣本集S中有放回的抽取N個樣本來構成第k棵決策樹的根節(jié)點的樣本集s(k),并設定分支覆蓋樣本的最小個數(shù)為d,其中,N是訓練樣本集S的樣本數(shù),訓練樣本集S中每個訓練樣本的特征維數(shù)為M;
步驟112、從M維特征中隨機提取m維指標作為第k棵決策樹的特征集;
步驟113、從第k棵決策樹的根節(jié)點開始,根據(jù)Gini不純度最小原則,分別計算m維特征的Gini不純度:其中,IG(jk)是第k棵決策樹的第j維特征的Gini不純度,Z1是根節(jié)點的樣本集s(k)在j的特征條件下經(jīng)最優(yōu)二叉分隔后所產(chǎn)生的左節(jié)點的樣本集,Z2是根節(jié)點的樣本集s(k)在j的特征條件下經(jīng)最優(yōu)二叉分隔后所產(chǎn)生的右節(jié)點的樣本集,N(Z1)、N(Z2)分別是Z1、Z2的樣本量,Gini(Z1)、Gini(Z2)分別是Z1、Z2的Gini不純度;
步驟114、從m維特征的Gini不純度中選取最小值,并將最小值對應的特征作為根節(jié)點,再將該根節(jié)點分裂為左節(jié)點和右節(jié)點,然后以根節(jié)點作為限制條件,繼續(xù)計算所述根節(jié)點的m維特征的Gini不純度,并選擇其中最小值對應的特征作為根節(jié)點繼續(xù)生長,以此類推,從而形成決策樹,如果其中有一分支覆蓋樣本的個數(shù)小于d時,則設置所述分支的當前節(jié)點為葉子節(jié)點,即該節(jié)點停止生長,繼續(xù)訓練其他節(jié)點,直到所有節(jié)點都訓練過了或者被標記為葉子節(jié)點。
8.根據(jù)權利要求7所述的方法,其特征在于,m的計算公式是:Gini(Zl)的計算公式是:其中,l=1或2,i=0或1,當i=0則表示非騷擾號碼,當i=1則表示騷擾號碼,是第k棵決策樹中第j個特征條件下的Zl對應分支中,所識別的騷擾號碼或非騷擾號碼的概率。
9.根據(jù)權利要求1所述的方法,其特征在于,步驟二進一步包括有:
步驟21、將待識別號碼在一段時間內的通信行為指標輸入隨機森林分類模型,計算每棵決策樹的每個葉子節(jié)點對待識別號碼所屬類別的預測概率:其中,i=0或1,當i=0則表示為非騷擾號碼,當i=1則表示為騷擾號碼,是第k棵決策樹的第r個葉子節(jié)點對待識別號碼屬于第i個類別的預測概率,是第k棵決策樹的第r個葉子節(jié)點中屬于第i個類別的號碼數(shù),是第k棵決策樹的第r個葉子節(jié)點包含的號碼總數(shù);
步驟22、計算每棵決策樹判定待識別號碼所屬類別的預測概率:其中,Pk(i)是第k棵決策樹判定待識別號碼屬于第i個類別的預測概率,Rk是第k棵決策樹的葉子節(jié)點總數(shù);
步驟23、計算所有決策樹判定待識別號碼所屬類別的預測概率之和:其中,w(i)是所有決策樹判定待識別號碼屬于第i個類別的預測概率之和,然后從中挑選最大值,待識別號碼所屬類別即是最大值對應的類別。
10.根據(jù)權利要求1所述的方法,其特征在于,還包括有:
步驟B1、從測試樣本集中逐一提取每個測試樣本的通信行為指標,并將提取出的所有通信行為指標輸入到每個隨機森林分類模型中,從而獲得每個隨機森林分類模型對測試樣本是否是騷擾號碼的判定結果;
步驟B2、將每個隨機森林分類模型識別出的騷擾號碼與已確認的騷擾號碼進行匹配,分別計算每個隨機森林分類模型的準確率和召回率;
步驟B3、根據(jù)準確率和召回率,計算每個隨機森林分類模型的識別率:其中Precision是準確率,Recall是召回率,并從所有隨機森林分類模型的識別率中挑選F最大值,所述最大值對應的隨機森林分類模型即是最優(yōu)隨機森林分類模型。