欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種騷擾號碼的識別方法與流程

文檔序號:12479650閱讀:5403來源:國知局
一種騷擾號碼的識別方法與流程

本發(fā)明涉及一種騷擾號碼的識別方法,屬于網(wǎng)絡(luò)通信技術(shù)領(lǐng)域。



背景技術(shù):

騷擾電話以推廣廣告內(nèi)容、詐騙信息為主,已經(jīng)成為擾亂社會安定的非法職業(yè)。通過綜合分析,騷擾電話普遍具有以下特點:

1、被叫分散,騷擾號碼在單位時間內(nèi)呼出多個號碼,頻率高,而且各被叫號碼間的相關(guān)性較??;

2、騷擾電話與被叫間通常相關(guān)性較弱,即歷史通話關(guān)系很少,而且騷擾號碼通常作為主叫發(fā)起呼叫的數(shù)量遠(yuǎn)遠(yuǎn)大于其作為被叫的數(shù)量;

3、騷擾電話的通話時長通常較短,而且被叫掛機(jī)的概率較大;

4、騷擾電話通常具有呼叫頻次高、且集中分布于某一時間段的特點。

專利申請CN200910079707.5(申請名稱:一種騷擾電話的識別方法及裝置,申請日:2009-03-06,申請人:中興通訊股份有限公司)公開了一種騷擾電話的識別方法及裝置,在移動電話中引入了對陌生電話號碼的識別處理,通過對陌生來電號碼的呼叫時間區(qū)間、呼叫持續(xù)的時間長度、以及呼入次數(shù)的統(tǒng)計,與用戶的判斷規(guī)則進(jìn)行自動比較,識別出騷擾電話。該技術(shù)方案僅涉及到呼叫時間區(qū)間、呼叫持續(xù)的時間長度、以及呼入次數(shù)的統(tǒng)計來識別騷擾號碼,判斷方法非常簡單,并未充分利用主、被叫號碼的呼叫特征來從現(xiàn)網(wǎng)的海量話務(wù)數(shù)據(jù)中有效識別騷擾號碼。

因此,如何充分利用主、被叫號碼的呼叫特征,從現(xiàn)網(wǎng)的海量話務(wù)數(shù)據(jù)中有效識別騷擾號碼,仍是一個值得深入研究的技術(shù)問題。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明的目的是提供一種騷擾號碼的識別方法,能充分利用主、被叫號碼的呼叫特征,從現(xiàn)網(wǎng)的海量話務(wù)數(shù)據(jù)中有效識別騷擾號碼。

為了達(dá)到上述目的,本發(fā)明提供了一種騷擾號碼的識別方法,包括有:

步驟一、選取若干已確認(rèn)的騷擾和非騷擾號碼,計算所述騷擾和非騷擾號碼在一段時間內(nèi)的通信行為指標(biāo),然后將所述騷擾和非騷擾號碼及其通信行為指標(biāo)形成訓(xùn)練樣本集來構(gòu)建隨機(jī)森林分類模型,所述隨機(jī)森林分類模型的輸入是每個用戶號碼的通信行為指標(biāo),輸出是所有決策樹判定其為騷擾號碼和非騷擾號碼的預(yù)測概率;

步驟二、將待識別號碼在一段時間內(nèi)的通信行為指標(biāo)輸入隨機(jī)森林分類模型,并計算隨機(jī)森林分類模型中所有決策樹判定其為騷擾號碼和非騷擾號碼的預(yù)測概率,以據(jù)此來判定所述待識別號碼是否是騷擾號碼。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:呼叫離散度、被叫關(guān)系圈、呼出呼入比、呼叫時間分布等通信行為指標(biāo)可以有效地體現(xiàn)出騷擾號碼的行為特點,本發(fā)明采用隨機(jī)森林分類模型,以呼叫頻次、被叫個數(shù)、通話時長、振鈴時長、主動釋放次數(shù)、被動釋放次數(shù)、被叫離散度、同一主叫的被叫號碼間相關(guān)系數(shù)、呼叫相同萬號段最大頻次、主叫占比、呼叫時間間隔標(biāo)準(zhǔn)差等多個通信行為指標(biāo)作為輸入,并根據(jù)所有決策樹判定為騷擾號碼和非騷擾號碼的概率來識別騷擾號碼,從而能利用主、被叫號碼的呼叫特征,充分挖掘大量訓(xùn)練樣本中的數(shù)據(jù)特征,從現(xiàn)網(wǎng)的海量話務(wù)數(shù)據(jù)中有效識別騷擾號碼,并且通信行為指標(biāo)還可以根據(jù)實際需要而靈活調(diào)整;由于騷擾電話具有呼叫頻次高且集中分布于某一時間段的特點,本發(fā)明還進(jìn)一步將全天的話單數(shù)據(jù)劃分成以多個時間粒度為時長的通信時段,并基于不同時間粒度下的高頻通信時段來計算用戶號碼的各種通信行為指標(biāo),從而能進(jìn)一步提高騷擾號碼識別的準(zhǔn)實時和高效性;本發(fā)明還可以構(gòu)建多個隨機(jī)森林分類模型,并根據(jù)測試后獲得的隨機(jī)森林分類模型的識別率來從中選擇一個最優(yōu)的隨機(jī)森林分類模型。

附圖說明

圖1是本發(fā)明一種騷擾號碼的識別方法流程圖。

圖2是步驟A的具體操作流程圖。

圖3是步驟11中,對于第k棵決策樹,k=1、2、...、K,其生成過程的具體操作流程圖。

圖4是圖1步驟二的具體操作流程圖。

圖5是本發(fā)明構(gòu)建一個測試樣本集分別對多個隨機(jī)森林分類模型進(jìn)行測試,并根據(jù)測試結(jié)果從中選擇一個最優(yōu)的隨機(jī)森林分類模型的具體操作流程圖。

具體實施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述。

如圖1所示,本發(fā)明一種騷擾號碼的識別方法,包括有:

步驟一、選取若干已確認(rèn)的騷擾和非騷擾號碼,計算所述騷擾和非騷擾號碼在一段時間內(nèi)的通信行為指標(biāo),然后將所述騷擾和非騷擾號碼及其通信行為指標(biāo)形成訓(xùn)練樣本集來構(gòu)建隨機(jī)森林分類模型,所述隨機(jī)森林分類模型的輸入是每個用戶號碼的通信行為指標(biāo),輸出是所有決策樹判定其為騷擾號碼和非騷擾號碼的預(yù)測概率;

步驟二、將待識別號碼在一段時間內(nèi)的通信行為指標(biāo)輸入隨機(jī)森林分類模型,并計算隨機(jī)森林分類模型中所有決策樹判定其為騷擾號碼和非騷擾號碼的預(yù)測概率,以據(jù)此來判定所述待識別號碼是否是騷擾號碼。

步驟一中,可以通過歷史已經(jīng)確認(rèn)的騷擾號碼(比如通過互聯(lián)網(wǎng)公司獲取、或通過運(yùn)營商舉報投訴系統(tǒng)標(biāo)注的騷擾號碼等)黑名單、和白名單操作手冊來選取已確認(rèn)的騷擾和非騷擾號碼,然后通過信令采集的方式從信令監(jiān)測系統(tǒng)或A口等設(shè)備來采集呼叫事件信令話單數(shù)據(jù)、或者從BOSS采集歷史話單數(shù)據(jù),從而獲得上述選取號碼在一段時間內(nèi)的通信信息,并將其中關(guān)鍵字段數(shù)據(jù)格式有誤或關(guān)鍵字段數(shù)據(jù)存在空缺值的通信記錄進(jìn)行剔除。

由于騷擾電話具有呼叫頻次高且集中分布于某一時間段的特點,同時為了進(jìn)一步提高騷擾號碼識別的準(zhǔn)實時和高效性,本發(fā)明還可以基于不同的時間粒度來分別計算用戶號碼的通信行為指標(biāo),所述時間粒度可以取值但不限于:1分鐘、5分鐘、15分鐘、30分鐘、60分鐘、180分鐘、360分鐘、720分鐘、1440分鐘,這樣,用戶號碼在一段時間內(nèi)的通信行為指標(biāo)可以包括有用戶在每個時間粒度下的通信行為指標(biāo)、用戶號碼和用戶標(biāo)識等,其中,用戶標(biāo)識用于標(biāo)識用戶號碼是否是騷擾號碼(例如將從黑名單中選取的號碼標(biāo)識為騷擾號碼,從白名單中選取的號碼標(biāo)識為非騷擾號碼)。本發(fā)明中,基于時間粒度來計算用戶號碼(包括騷擾和非騷擾號碼、以及待識別號碼)在一段時間內(nèi)的通信行為指標(biāo),還可以進(jìn)一步包括有:

步驟A、采集用戶連續(xù)多天的歷史話單數(shù)據(jù),選取多個時間粒度,然后尋找用戶在每個時間粒度下的高頻通話時段,最后根據(jù)用戶在每個時間粒度下的高頻通話時段內(nèi)的通信行為指標(biāo)來計算用戶在每個時間粒度下的通信行為指標(biāo)。

如圖2所示,步驟A還可以進(jìn)一步包括有:

步驟A1、逐一提取用戶每天的話單數(shù)據(jù);

步驟A2、讀取該天話單數(shù)據(jù)的起止時間,并計算所述起止時間所覆蓋的最大時間粒度Tmax,即從選取的多個時間粒度中挑選出其值小于所述起止時間的對應(yīng)時長的最大時間粒度;

如果采集的話單數(shù)據(jù)由于丟失或其他原因而存在缺失,例如只采集到12:00---24:00之間的歷史話單數(shù)據(jù),則本發(fā)明僅保留話單數(shù)據(jù)的起止時間內(nèi)的最長時間粒度Tmax內(nèi)的所有時間粒度;

步驟A3、逐一提取每個時間粒度,并判斷所提取的時間粒度是否小于或等于Tmax,如果是,則將該天話單數(shù)據(jù)的起止時間的對應(yīng)時長劃分成多個連續(xù)的、并以所提取的時間粒度為時長的通信時段,然后計算用戶在每個通信時段內(nèi)的通話頻次,所述用戶在每個通信時段內(nèi)的通話頻次也即是所提取的時間粒度在該天的每個通信時段的通話頻次,繼續(xù)提取下一個時間粒度,直至提取完所有時間粒度;如果否,則繼續(xù)提取下一個時間粒度,直至提取完所有時間粒度;

所提取的時間粒度須小于或等于Tmax,比如Tmax=30分鐘時,則所提取的時間粒度分別為1分鐘、5分鐘、15分鐘、30分鐘,而大于Tmax的時間粒度則不再作進(jìn)一步計算,當(dāng)一天話單數(shù)據(jù)的起止時間為0:00--24:00,所提取的時間粒度T為30分鐘時,所劃分成的通信時段分別為:0:00--0:30、0:31--1:00、....、23:01--23:30、23:31--24:00,且按時間粒度劃分的通信時段均從本通信時段的00秒開始,至下一通信時段的前1分鐘第59秒結(jié)束;

步驟A4、判斷是否提取完所有天的話單數(shù)據(jù)?如果是,則繼續(xù)下一步;如果否,則繼續(xù)提取用戶下一天的話單數(shù)據(jù),然后轉(zhuǎn)向步驟A2;

步驟A5、從每個時間粒度在所有天的所有通信時段的通話頻次中挑選最大值,所述最大值對應(yīng)的通信時段即是用戶在該時間粒度下的高頻通信時段,也就是用戶在連續(xù)多天內(nèi)呼叫頻次最高且集中的通信時段;

步驟A6、計算用戶在每個時間粒度下的通信行為指標(biāo),也即是用戶在每個時間粒度下的高頻通話時段內(nèi)的通信行為指標(biāo),所述通信行為指標(biāo)可以包括但不限于:呼叫頻次、被叫個數(shù)、通話時長、振鈴時長、主動釋放次數(shù)、被動釋放次數(shù)、被叫離散度、同一主叫的被叫號碼間相關(guān)系數(shù)、呼叫相同萬號段最大頻次、主叫占比(即呼出次數(shù)/呼出呼入總次數(shù))、呼叫時間間隔標(biāo)準(zhǔn)差(計算該指標(biāo)被叫號碼需3個或3個以上)等。其中,同一主叫的被叫號碼間相關(guān)系數(shù)是用戶呼叫過的所有被叫號碼相互之間存在有通話行為的個數(shù)和用戶呼叫過的所有被叫號碼總數(shù)的比值,例如,用戶A在時間粒度T的高頻通話時段內(nèi)呼叫了100個被叫號碼,被叫號碼在指定時間段內(nèi)(如在第1-5天的訓(xùn)練期內(nèi))有4個被叫號碼B、C、D、E之間存在有通話行為(例如共存在5次有通話時長>=0的呼叫:B->C,D->E,C->B,C->D,D->C),則同一主叫(即用戶A)的被叫號碼間相關(guān)系數(shù)為:4/100;呼叫相同萬號段最大頻次是用戶呼叫過的、且屬于相同萬號段的被叫號碼最大數(shù),萬號段是被叫號碼被去掉后4位之后的剩余號段,例如,用戶呼叫的被叫號碼的萬號段有:1395193、1395193、1390123、1390438,相同萬號段的被叫號碼數(shù)量分別為2、1、1,則呼叫相同萬號段最大頻次為2。

步驟A6中,當(dāng)用戶在每個時間粒度下的通信行為指標(biāo)個數(shù)為a,選取的時間粒度個數(shù)為b,則隨機(jī)森林分類模型的訓(xùn)練樣本集中每個用戶的特征(即通信行為指標(biāo))數(shù)可以為:M=a*b+2。

隨機(jī)森林分類模型具有能夠處理高維屬性數(shù)據(jù)、無需做特征選擇、訓(xùn)練速度快、訓(xùn)練過程中可以檢測到屬性間的相互影響、可實現(xiàn)并行化、可輸出屬性重要程度以及分類概率和預(yù)測類別等優(yōu)點,因此可以選取隨機(jī)森林分類模型用于識別騷擾號碼。

本發(fā)明中,隨機(jī)森林分類模型的基本思想是:首先,利用有放回的隨機(jī)抽樣方法從原始訓(xùn)練集(N個樣本M維屬性)中抽取k組樣本,且每組樣本的樣本容量都與原始訓(xùn)練集相同,均為N;其次,隨機(jī)選取m維屬性,m值小于等于總屬性維數(shù)M;然后,每次對N個樣本m維屬性生成一棵決策樹,共建立K個決策樹模型,得到K種分類結(jié)果;最后,根據(jù)K種分類結(jié)果對每個記錄進(jìn)行投票表決,決定其最終分類。因此,隨機(jī)森林分類模型的構(gòu)建主要有兩部分,一部分是決策樹的構(gòu)建,形成決策樹森林,本發(fā)明中決策樹可以采用Gini不純度的方法,不純度越小,屬性越重要;另一部分是決策過程,采用投票表決方式輸出最優(yōu)分類結(jié)果。這樣,步驟一中,將所述騷擾和非騷擾號碼及其通信行為指標(biāo)形成訓(xùn)練樣本集來構(gòu)建隨機(jī)森林分類模型,還可以進(jìn)一步包括有:

步驟11、采用隨機(jī)森林分類模型,從訓(xùn)練樣本集中每個訓(xùn)練樣本的M個通信行為指標(biāo)中隨機(jī)選取m個通信行為指標(biāo)來產(chǎn)生K個特征子集進(jìn)行訓(xùn)練,從而生成K棵決策樹,每棵決策樹包含有自身對輸入號碼所屬類別的預(yù)測概率。其中,決策樹可以采用Gini不純度的方法,不純度越小,則特征越重要。

如圖3所示,所述步驟11中,對于第k棵決策樹,k=1、2、...、K,其生成過程還可以進(jìn)一步包括有:

步驟111、采用bootstrap方法從訓(xùn)練樣本集S中有放回的抽取N個樣本來構(gòu)成第k棵決策樹的根節(jié)點的樣本集s(k),并設(shè)定分支覆蓋樣本的最小個數(shù)為d,其中,N是訓(xùn)練樣本集S的樣本數(shù),訓(xùn)練樣本集S中每個訓(xùn)練樣本的特征維數(shù)(即通信行為指標(biāo)個數(shù))為M;

每顆決策樹的根節(jié)點的樣本集s(k)和訓(xùn)練樣本集S的樣本數(shù)均相同;

步驟112、從M維特征中隨機(jī)提取m維指標(biāo)作為第k棵決策樹的特征集,其中,m的計算公式可以是:

步驟113、從第k棵決策樹的根節(jié)點開始,根據(jù)Gini不純度最小原則,分別計算m維特征的Gini不純度:其中,IG(jk)是第k棵決策樹的第j維特征的Gini不純度,Z1是根節(jié)點的樣本集s(k)在j的特征條件下經(jīng)最優(yōu)二叉分隔后所產(chǎn)生的左節(jié)點的樣本集,Z2是根節(jié)點的樣本集s(k)在j的特征條件下經(jīng)最優(yōu)二叉分隔后所產(chǎn)生的右節(jié)點的樣本集,N(Z1)、N(Z2)分別是Z1、Z2的樣本量,Gini(Z1)、Gini(Z2)分別是Z1、Z2的Gini不純度,且Gini(Z1)(I=1或2)的計算公式還可以進(jìn)一步是:i=0或1,當(dāng)i=0則表示非騷擾號碼,當(dāng)i=1則表示騷擾號碼,是第k棵決策樹中第j個特征條件下的Z1對應(yīng)分支中,所識別的騷擾號碼或非騷擾號碼的概率;

步驟114、從m維特征的Gini不純度中選取最小值,并將最小值對應(yīng)的特征作為根節(jié)點,再將該根節(jié)點分裂為左節(jié)點和右節(jié)點,然后以根節(jié)點作為限制條件,繼續(xù)計算所述根節(jié)點的m維特征的Gini不純度,并選擇其中最小值對應(yīng)的特征作為根節(jié)點繼續(xù)生長,以此類推,從而形成決策樹,如果其中有一分支覆蓋樣本的個數(shù)小于d時,則設(shè)置所述分支的當(dāng)前節(jié)點為葉子節(jié)點,即該節(jié)點停止生長,繼續(xù)訓(xùn)練其他節(jié)點,直到所有節(jié)點都訓(xùn)練過了或者被標(biāo)記為葉子節(jié)點。

如圖4所示,圖1步驟二還可以進(jìn)一步包括有:

步驟21、將待識別號碼在一段時間內(nèi)的通信行為指標(biāo)輸入隨機(jī)森林分類模型,計算每棵決策樹的每個葉子節(jié)點對待識別號碼所屬類別的預(yù)測概率:其中,i=0或1,當(dāng)i=0則表示為非騷擾號碼,當(dāng)i=1則表示為騷擾號碼,是第k棵決策樹的第r個葉子節(jié)點對待識別號碼屬于第i個類別的預(yù)測概率,是第k棵決策樹的第r個葉子節(jié)點中屬于第i個類別的號碼數(shù),是第k棵決策樹的第r個葉子節(jié)點包含的號碼總數(shù);

步驟22、計算每棵決策樹判定待識別號碼所屬類別的預(yù)測概率:其中,Pk(i)是第k棵決策樹判定待識別號碼屬于第i個類別的預(yù)測概率,Rk是第k棵決策樹的葉子節(jié)點總數(shù);

步驟23、計算所有決策樹判定待識別號碼所屬類別的預(yù)測概率之和:其中,w(i)是所有決策樹判定待識別號碼屬于第i個類別的預(yù)測概率之和,然后從中挑選最大值,待識別號碼所屬類別即是最大值對應(yīng)的類別,即當(dāng)w(0)>w(1)時,則待識別號碼所屬類別為0(即非騷擾號碼),當(dāng)w(0)<w(1)時,則待識別號碼所屬類別為1(即騷擾號碼)。

隨機(jī)森林分類模型隨機(jī)生成K棵決策樹,每顆決策樹包含有多個葉子節(jié)點。對于每個輸入的用戶號碼來說,通常其中有的葉子節(jié)點會判定用戶號碼為騷擾號碼,有的葉子節(jié)點會判定用戶號碼為非騷擾號碼,根據(jù)所有葉子節(jié)點對用戶號碼所屬類別的預(yù)測概率,可以獲得每棵決策樹判定用戶號碼為騷擾號碼和非騷擾號碼的概率,且每棵決策樹判定用戶號碼為騷擾號碼和非騷擾號碼的概率之和為1,例如,第1棵決策樹判定用戶號碼為騷擾號碼的概率為5/6,為非騷擾號碼的概率則是1/6,第2課決策樹判定用戶號碼為騷擾號碼的概率為2/7,非騷擾號碼的概率為5/7,.......,第K棵決策樹判定用戶號碼為騷擾號碼的概率為=3/5,非騷擾號碼的概率為2/5,那么K棵決策樹判定其為騷擾號碼的概率之和(即5/6+2/7+...+3/5)、和判定其為非騷擾號碼的概率之和(即1/6+5/7+...+2/5),如果其為騷擾號碼的概率之和大于非騷擾號碼的概率之和,則輸入號碼是騷擾號碼,反之則是非騷擾號碼。

在構(gòu)建隨機(jī)森林分類模型時,決策樹個數(shù)、特征維數(shù)(即通信行為指標(biāo)個數(shù))以及決策樹的深度等值的設(shè)置都會影響到隨機(jī)森林分類模型的識別效果,為了進(jìn)一步提升識別效果,本發(fā)明還可以構(gòu)建多個隨機(jī)森林分類模型(決策樹個數(shù)、特征維數(shù)以及決策樹的深度的取值不同),同時還構(gòu)建一個測試樣本集分別對多個隨機(jī)森林分類模型進(jìn)行測試,并根據(jù)測試結(jié)果從中選擇一個最優(yōu)的隨機(jī)森林分類模型。如圖5所示,本發(fā)明還可以包括有:

步驟B1、從測試樣本集中逐一提取每個測試樣本的通信行為指標(biāo),并將提取出的所有通信行為指標(biāo)輸入到每個隨機(jī)森林分類模型中,從而獲得每個隨機(jī)森林分類模型對測試樣本是否是騷擾號碼的判定結(jié)果;

步驟B2、將每個隨機(jī)森林分類模型識別出的騷擾號碼與已確認(rèn)的騷擾號碼(例如互聯(lián)網(wǎng)公司標(biāo)識的騷擾號碼、運(yùn)營商舉報投訴系統(tǒng)標(biāo)注的騷擾號碼等)進(jìn)行匹配,分別計算每個隨機(jī)森林分類模型的準(zhǔn)確率和召回率;

步驟B3、根據(jù)準(zhǔn)確率和召回率,計算每個隨機(jī)森林分類模型的識別率:其中Precision是準(zhǔn)確率,Recall是召回率,并從所有隨機(jī)森林分類模型的識別率中挑選F最大值,所述最大值對應(yīng)的隨機(jī)森林分類模型即是最優(yōu)隨機(jī)森林分類模型。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宜阳县| 常山县| 翁源县| 安庆市| 原阳县| 策勒县| 大田县| 张家川| 孟州市| 黑水县| 元氏县| 阳朔县| 岳池县| 年辖:市辖区| 定兴县| 阿尔山市| 赤城县| 西宁市| 通许县| 巴林右旗| 黄陵县| 巫溪县| 凤冈县| 普兰店市| 蓝田县| 阜平县| 颍上县| 伊吾县| 泽库县| 江孜县| 通榆县| 资溪县| 梅河口市| 龙井市| 榆林市| 大丰市| 仪陇县| 察哈| 新干县| 兴宁市| 柞水县|