欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法及系統(tǒng)與流程

文檔序號(hào):11458646閱讀:260來(lái)源:國(guó)知局
一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法及系統(tǒng)與流程

本發(fā)明涉及通信網(wǎng)絡(luò)的數(shù)據(jù)分析領(lǐng)域,特別涉及一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法及系統(tǒng)。



背景技術(shù):

手機(jī)在我們當(dāng)今社會(huì)生活中無(wú)疑是一種必不可少的日常通訊工具,使用手機(jī)這種日常通訊工具在進(jìn)行通話或短信等通信行為活動(dòng)中,會(huì)產(chǎn)生一系列的詳細(xì)通信單數(shù)據(jù),根據(jù)這種通信單,可以構(gòu)建出全面詳細(xì)的電話通信網(wǎng)絡(luò)。

隨著各行業(yè)業(yè)務(wù)數(shù)據(jù)量的井噴式增長(zhǎng),數(shù)據(jù)挖掘這門(mén)學(xué)科受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。數(shù)據(jù)挖掘,一般是指在海量數(shù)據(jù)基礎(chǔ)上,基于計(jì)算科學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)倉(cāng)庫(kù)、模式識(shí)別等相關(guān)領(lǐng)域技術(shù)以及結(jié)合業(yè)務(wù)領(lǐng)域?qū)<抑R(shí)構(gòu)建高效可用的數(shù)據(jù)挖掘模型,從已知數(shù)據(jù)中挖掘未知且極具價(jià)值的知識(shí)信息,適用于多種領(lǐng)域。

通信網(wǎng)絡(luò)數(shù)據(jù)分析,是根據(jù)電話通信單構(gòu)建出一種基于通信的社交網(wǎng)絡(luò)基礎(chǔ)上,使用或利用計(jì)算科學(xué)、統(tǒng)計(jì)學(xué)、社會(huì)心理學(xué)等多學(xué)科的融合理論和方法,為理解人類(lèi)各種社交關(guān)系的形成、行為特點(diǎn)分析以及信息傳播的規(guī)律等提供的分析方法,現(xiàn)有在社交網(wǎng)絡(luò)拓?fù)渲蟹治鼍W(wǎng)絡(luò)節(jié)點(diǎn)重要程度的主要技術(shù)有:

現(xiàn)有技術(shù)一:hits算法,該算法出自于kleinberg,jon(1999)."authoritativesourcesinahyperlinkedenvironment".journaloftheacm.46(5):604–632.doi:10.1145/324133.324140.最早應(yīng)用在信息檢索領(lǐng)域,用于分析網(wǎng)頁(yè)的重要程度,該算法是web結(jié)構(gòu)挖掘中最具權(quán)威性和使用最廣泛的算法。hits算法利用web的鏈接結(jié)構(gòu)進(jìn)行挖掘,其核心思想是建立在頁(yè)面鏈接關(guān)系的基礎(chǔ)上,對(duì)鏈接結(jié)構(gòu)的進(jìn)行改進(jìn)。hits算法通過(guò)兩個(gè)評(píng)價(jià)權(quán)值——權(quán)威值(authority)和樞紐值(hub)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估,其基本思想是利用頁(yè)面之間的引用鏈接來(lái)挖掘隱含在其中的有用信息(如權(quán)威性),具有計(jì)算簡(jiǎn)單且效率高的特點(diǎn),hits算法認(rèn)為對(duì)每一個(gè)網(wǎng)頁(yè)應(yīng)該將其內(nèi)容權(quán)威值(authority)和樞紐值(hub)分開(kāi)來(lái)考慮,在對(duì)網(wǎng)頁(yè)內(nèi)容權(quán)威值(authority)做出評(píng)價(jià)的基礎(chǔ)上再對(duì)頁(yè)面的樞紐值(hub)進(jìn)行評(píng)價(jià),然后給出該頁(yè)面的綜合評(píng)價(jià)。權(quán)威值(authority)與網(wǎng)頁(yè)自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁(yè)所引用的網(wǎng)頁(yè),其權(quán)威值(authority)越高;樞紐值(hub)與網(wǎng)頁(yè)提供的超鏈接頁(yè)面的質(zhì)量相關(guān),引用越多高質(zhì)量頁(yè)面的網(wǎng)頁(yè),其樞紐值(hub)越高。該算法用于社交網(wǎng)絡(luò)拓?fù)渲锌梢苑謩e考慮權(quán)威值(authority)和樞紐值(hub)來(lái)計(jì)算該網(wǎng)絡(luò)中的網(wǎng)絡(luò)節(jié)點(diǎn)的重要性。

現(xiàn)有技術(shù)二:pagerank是google提出的專(zhuān)有的算法,用于衡量特定網(wǎng)頁(yè)相對(duì)于搜索引擎索引中的其他網(wǎng)頁(yè)而言的重要程度。同樣最早用于信息檢索領(lǐng)域,計(jì)算頁(yè)面的“得票數(shù)”,一個(gè)頁(yè)面的“得票數(shù)”由所有鏈向它的頁(yè)面的重要性來(lái)決定,到一個(gè)頁(yè)面的鏈接相當(dāng)于對(duì)該頁(yè)投一票。一個(gè)頁(yè)面的pagerank是由所有鏈向它的頁(yè)面(“鏈入頁(yè)面”)的重要性經(jīng)過(guò)遞歸算法得到的。一個(gè)有較多鏈入頁(yè)面的網(wǎng)頁(yè)會(huì)有較高的等級(jí),相反如果一個(gè)頁(yè)面沒(méi)有任何鏈入頁(yè)面,那么它沒(méi)有等級(jí)。該算法用于社交網(wǎng)絡(luò)拓?fù)渲袝r(shí)往往不考慮網(wǎng)絡(luò)連接的有向性,單純考慮網(wǎng)絡(luò)中用戶(hù)連接數(shù)去計(jì)算該網(wǎng)絡(luò)中的網(wǎng)絡(luò)節(jié)點(diǎn)的重要性。

社會(huì)生活中存在著各種各樣需要對(duì)人物重要程度進(jìn)行評(píng)價(jià)、以及關(guān)鍵人物發(fā)現(xiàn)等的應(yīng)用場(chǎng)景。例如警察針對(duì)犯罪偵查過(guò)程中,,疑犯的鎖定和排除是警察破案的關(guān)鍵。傳統(tǒng)方法針對(duì)具有異常通信特征的關(guān)鍵人物發(fā)現(xiàn)中往往綜合社會(huì)行為學(xué)、心理學(xué)、現(xiàn)代刑偵技術(shù)手段等。現(xiàn)有針對(duì)異常通信特征的關(guān)鍵人物發(fā)現(xiàn)技術(shù)主要有:

現(xiàn)有技術(shù)三,人工排查方法。這種人工排查方法,效果顯著,但單純靠人工去排查鎖定,效率低,周期長(zhǎng),而且存在遺漏的可能。

現(xiàn)有技術(shù)的缺陷:通信網(wǎng)絡(luò)是根據(jù)用戶(hù)電話呼入呼出構(gòu)建的一種有向圖,不考慮的方向性現(xiàn)有技術(shù)二的pagerank方法去計(jì)算難以滿足需求。而現(xiàn)有技術(shù)一的hits算法盡管綜合的考慮了有向性,計(jì)算權(quán)威值(authority)和樞紐值(hub),卻不能滿足帶權(quán)重的社交網(wǎng)絡(luò)圖,更不能滿足我們應(yīng)用到具有異常通信特征的關(guān)鍵人物挖掘場(chǎng)景。而現(xiàn)有技術(shù)三,人工排查的方法,盡管有效,但是挖掘周期長(zhǎng),甚至可能出現(xiàn)遺漏。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法及系統(tǒng)。

本發(fā)明提出一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法,包括:

步驟1,獲取通信記錄并進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的通信記錄構(gòu)建有向加權(quán)通信網(wǎng)絡(luò),根據(jù)所述有向加權(quán)通信網(wǎng)絡(luò)構(gòu)建有權(quán)鄰接矩陣,并根據(jù)通信關(guān)系計(jì)算權(quán)威值與樞紐值;

步驟2,根據(jù)所述權(quán)威值,及所述有向加權(quán)通信網(wǎng)絡(luò)中兩節(jié)點(diǎn)鏈接邊的權(quán)重,計(jì)算新權(quán)威值與新樞紐值;

步驟3,設(shè)置異常特征參數(shù)α,并根據(jù)所述新權(quán)威值與所述新樞紐值,計(jì)算最終權(quán)威值,對(duì)所述最終權(quán)威值進(jìn)行最大-最小規(guī)范化,獲得關(guān)鍵人物。

所述步驟1中預(yù)處理包括刪除通信記錄中的重復(fù)數(shù)據(jù)、非常規(guī)號(hào)碼,將缺省值進(jìn)行補(bǔ)全。

所述步驟1中構(gòu)建有向加權(quán)網(wǎng)絡(luò)包括根據(jù)通信網(wǎng)絡(luò)中節(jié)點(diǎn)的“主叫”、“被叫”的頻率構(gòu)建有向加權(quán)通信網(wǎng)絡(luò)。

所述步驟2中計(jì)算新權(quán)威值與新樞紐值的公式為:

hub(u)=∑(authority(v)*edgepower/σout_edgepower(u))

authority(u)=σ(hub(v)*edgepower/σin_edgepower(u))

其中hub(u)為樞紐值,authority(v)為權(quán)威值,edgepower為節(jié)點(diǎn)u和節(jié)點(diǎn)v的鏈接邊權(quán)重,σout_edgepower(u)為節(jié)點(diǎn)u的出度的總和,σin_edgepower(u)為節(jié)點(diǎn)u的入度的總和。

刪除鏈接邊權(quán)重小于預(yù)設(shè)閾值的邊。

本發(fā)明還提出一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘系統(tǒng),包括:

計(jì)算權(quán)威值與樞紐值模塊,用于獲取通信記錄并進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的通信記錄構(gòu)建有向加權(quán)通信網(wǎng)絡(luò),根據(jù)所述有向加權(quán)通信網(wǎng)絡(luò)構(gòu)建有權(quán)鄰接矩陣,并根據(jù)通信關(guān)系計(jì)算權(quán)威值與樞紐值;

計(jì)算新權(quán)威值與新樞紐值模塊,用于根據(jù)所述權(quán)威值,及所述有向加權(quán)通信網(wǎng)絡(luò)中兩節(jié)點(diǎn)鏈接邊的權(quán)重,計(jì)算新權(quán)威值與新樞紐值;

獲得關(guān)鍵人物模塊,用于設(shè)置異常特征參數(shù)α,并根據(jù)所述新權(quán)威值與所述新樞紐值,計(jì)算最終權(quán)威值,對(duì)所述最終權(quán)威值進(jìn)行最大-最小規(guī)范化,獲得關(guān)鍵人物。

所述計(jì)算權(quán)威值與樞紐值模塊中預(yù)處理包括刪除通信記錄中的重復(fù)數(shù)據(jù)、非常規(guī)號(hào)碼,將缺省值進(jìn)行補(bǔ)全。

所述計(jì)算權(quán)威值與樞紐值模塊中構(gòu)建有向加權(quán)網(wǎng)絡(luò)包括根據(jù)通信網(wǎng)絡(luò)中節(jié)點(diǎn)的“主叫”、“被叫”的頻率構(gòu)建有向加權(quán)通信網(wǎng)絡(luò)。

所述計(jì)算新權(quán)威值與新樞紐值模塊中計(jì)算新權(quán)威值與新樞紐值的公式為:

hub(u)=∑(authority(v)*edgepower/∑out_edgepower(u))

authority(u)=σ(hub(v)*edgepower/σin_edgepower(u))

其中hub(u)為樞紐值,authority(v)為權(quán)威值,edgepower為節(jié)點(diǎn)u和節(jié)點(diǎn)v的鏈接邊權(quán)重,σout_edgepower(u)為節(jié)點(diǎn)u的出度的總和,σin_edgepower(u)為節(jié)點(diǎn)u的入度的總和。

刪除鏈接邊權(quán)重小于預(yù)設(shè)閾值的邊。

由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:

本發(fā)明實(shí)驗(yàn)采用一起真實(shí)案件的通信網(wǎng)絡(luò)挖掘結(jié)果顯示,排除10086、10010等非常規(guī)號(hào)碼,最終真實(shí)有效的電話號(hào)碼總共有1015個(gè),經(jīng)本發(fā)明的計(jì)算公式模型得出權(quán)威值(authority)從大到小排序得結(jié)果的top100中包含了經(jīng)警察驗(yàn)證全部的疑犯使用的電話號(hào)碼,其中top10中包含5個(gè)疑犯使用電話號(hào)碼。

附圖說(shuō)明

圖1為具體實(shí)施方案流程圖;

圖2為有向無(wú)權(quán)圖;

圖3為有向加權(quán)圖;

圖4為包含準(zhǔn)確率pred、召回率recall、f1值得測(cè)試結(jié)果圖。

其中附圖標(biāo)記為:

步驟s01-s15。

具體實(shí)施方式

以下為本發(fā)明的實(shí)施例,如圖1所示,具體實(shí)施方案為:

s01、將通信記錄導(dǎo)入數(shù)據(jù)庫(kù)中。通信記錄中包含許多字段,取與本實(shí)施例相關(guān)的字段導(dǎo)入數(shù)據(jù)庫(kù),與本實(shí)施例相關(guān)字段有:id、src、imei、imsi、dest、calltype、tmbetween、startdt,其中src是用于所導(dǎo)入數(shù)據(jù)庫(kù)的通信記錄的源號(hào)碼;imei是存儲(chǔ)是由15位數(shù)字組成的"電子串號(hào)",它與每臺(tái)移動(dòng)電話機(jī)一一對(duì)應(yīng),而且該碼是全世界唯一的國(guó)際移動(dòng)設(shè)備身份碼;imsi是儲(chǔ)存在sim卡中用于存儲(chǔ)區(qū)別移動(dòng)用戶(hù)的標(biāo)志,可用于區(qū)別移動(dòng)用戶(hù)的有效信息的國(guó)際移動(dòng)用戶(hù)識(shí)別碼;dest是存儲(chǔ)與src電話號(hào)有過(guò)聯(lián)系的目的電話號(hào)碼;calltype用于存儲(chǔ)src與dest的呼叫類(lèi)型,主要值有‘主叫’、‘被叫’、‘短信發(fā)送’、‘短信接收’等通信數(shù)據(jù)類(lèi)型;tmbetween字段用于存儲(chǔ)src和dest的兩個(gè)電話號(hào)碼間通話的時(shí)長(zhǎng);startdt是存儲(chǔ)src與dest通話開(kāi)始時(shí)間,或者是短信發(fā)送時(shí)間等。

s02、數(shù)據(jù)預(yù)處理。數(shù)據(jù)中存在許多缺省值、重復(fù)數(shù)據(jù)、非常規(guī)號(hào)碼,為避免這類(lèi)數(shù)據(jù)對(duì)最終結(jié)果造成嚴(yán)重的影響需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟如下:

取呼叫類(lèi)型calltype為‘主叫’、‘被叫’兩種類(lèi)型,去掉重復(fù)的數(shù)據(jù),例如某src主叫dest的記錄a中與另一條記錄b,其中記錄a的dest號(hào)碼為記錄b的src,而記錄a的src號(hào)碼為記錄b的dest,呼叫類(lèi)型calltype卻為被叫,且startdt字段中的值是一樣的,為避免重復(fù)處理類(lèi)似數(shù)據(jù),將此類(lèi)重復(fù)記錄去掉。

缺省值處理,采取有一一對(duì)應(yīng)關(guān)系的進(jìn)行補(bǔ)全處理。例如數(shù)據(jù)中有字段src值為null的數(shù)據(jù),采取依照imsi與src一一對(duì)應(yīng)關(guān)系進(jìn)行補(bǔ)全。對(duì)于沒(méi)有一一對(duì)應(yīng)關(guān)系的數(shù)據(jù)采取舍去的處理方式。

對(duì)于如10086、10010等非常規(guī)號(hào)碼,為避免非常規(guī)號(hào)碼導(dǎo)致樞紐值(hub)和權(quán)威值(authority)計(jì)算出現(xiàn)錯(cuò)誤,將該類(lèi)號(hào)碼的通話記錄去掉。

s03、將s02中預(yù)處理好的數(shù)據(jù)用于構(gòu)建通信網(wǎng)絡(luò)的有向圖。例如,號(hào)碼a呼叫過(guò)號(hào)碼b,或者說(shuō)號(hào)碼a給號(hào)碼b打過(guò)電話,就將號(hào)碼a與號(hào)碼b連接方向由a到b。最終構(gòu)建的有向圖如圖2所示形式,圖2為號(hào)碼a打給號(hào)碼b和號(hào)碼d,號(hào)碼b和號(hào)碼c打給號(hào)碼a。

s04、根據(jù)s03方法構(gòu)建好的有向圖,構(gòu)建與之相對(duì)應(yīng)的表示有向圖頂點(diǎn)鄰接關(guān)系的鄰接矩陣,圖2中所示例子構(gòu)建出連接矩陣形式為如下所示,橫向表示點(diǎn)的出度,縱向表示點(diǎn)的入度。

s05、根據(jù)s02中處理好的數(shù)據(jù)及s03中的方法構(gòu)建一種有向加權(quán)通信網(wǎng)絡(luò)。本發(fā)明主要是根據(jù)通信網(wǎng)絡(luò)中的節(jié)點(diǎn)‘主叫’、‘被叫’的頻率構(gòu)建有向加權(quán)通信網(wǎng)絡(luò)圖如圖3所示。圖3中e號(hào)碼打給f號(hào)碼2次打給g號(hào)碼2次,f號(hào)碼打給g號(hào)碼2次,g號(hào)碼打給e號(hào)碼1次。

s06、根據(jù)s05的有向加權(quán)通信網(wǎng)絡(luò)及s04的構(gòu)建方法,構(gòu)建有權(quán)鄰接矩陣??紤]到號(hào)碼間的通信頻率的關(guān)鍵因素,不能單純的通過(guò)考慮兩號(hào)碼是否有過(guò)練習(xí)計(jì)算權(quán)威值(authority),固依照構(gòu)建的有向加權(quán)通信網(wǎng)絡(luò)構(gòu)建有權(quán)鄰接矩陣。如按照?qǐng)D3構(gòu)建有權(quán)鄰接矩陣如下:

s07、通過(guò)s05、s06構(gòu)建有向加權(quán)通信網(wǎng)絡(luò)及相關(guān)的鄰接矩陣的基礎(chǔ)上進(jìn)行權(quán)威值(authority)計(jì)算。其中權(quán)威值(authority)計(jì)算主要參考由康奈爾大學(xué)(cornelluniversity)的jonkleinberg博士于1997年首先提出的hits算法。

hits算法應(yīng)用于通信網(wǎng)絡(luò)這一場(chǎng)景恰好可以反映主叫被叫關(guān)系,也就是圖2中節(jié)點(diǎn)的入度出度關(guān)系,主叫越多的權(quán)威值(authority)大的號(hào)碼其樞紐值(hub)也會(huì)很大,而被叫越多的樞紐值(hub)大的號(hào)碼的權(quán)威值(authority)也會(huì)變得很大,反復(fù)迭代最終衡量號(hào)碼的重要程度。

該算法的主要計(jì)算公式為:

hub(u)=σauthority(v)

其中v點(diǎn)是u在有向圖中出度大于0的點(diǎn)。

authority(u)=σhub(v)

其中v點(diǎn)是u在有向圖中入度大于0的點(diǎn)。

s08、將樞紐值(hub)和權(quán)威值(authority)的計(jì)算公式中引入兩號(hào)碼鏈接邊的權(quán)重,公式如下:

hub(u)=σ(authority(v)*edgepower/∑out_edgepower(u))

authority(u)=∑(hub(v)*edgepower/∑in_edgepower(u))

其中edgepower為節(jié)點(diǎn)u和節(jié)點(diǎn)v的鏈接邊的權(quán)重,σout_edgepower(u)為節(jié)點(diǎn)u的出度的總和,∑in_edgepower(u)為節(jié)點(diǎn)u的入度的總和,除以這樣的總和是為了標(biāo)準(zhǔn)化各邊的權(quán)重。

s09、在s08加入邊的權(quán)重的計(jì)算中,往往會(huì)出現(xiàn)某些號(hào)碼與某些權(quán)威值(authority)和樞紐值(hub)較大的號(hào)碼只聯(lián)系了一次而與某些權(quán)威值(authority)和樞紐值(hub)較低的值聯(lián)系比較密切,最終結(jié)果權(quán)威值(authority)和樞紐值(hub)卻很大這樣的誤判,去掉兩號(hào)聯(lián)系的次數(shù)低于2的邊。這樣的做法是依照通信專(zhuān)家經(jīng)驗(yàn)兩人聯(lián)系‘有來(lái)有回’超過(guò)3次算比較熟悉的人,‘有來(lái)有回’是指如圖2中a給b打過(guò)電話,b給a也打過(guò)電話的狀態(tài),這里考慮避免出現(xiàn)某些關(guān)鍵人物僅和其中一些特定的人少量聯(lián)系‘只去不回’、‘只接不去’,‘只去不回’是指如圖2中a給c打過(guò)電話而c給a沒(méi)打過(guò)電話的狀態(tài),‘只接不去’是指如圖2中c只接到a的電話而c沒(méi)有給a回過(guò)電話的狀態(tài),卻通知一些重要事情或者可能是某些重要信號(hào),這里沒(méi)有完全按照通信專(zhuān)家的經(jīng)驗(yàn)去掉‘有來(lái)有回’總數(shù)低于3次的邊,而是去掉兩個(gè)號(hào)碼聯(lián)系,‘只去不回’或者是‘只接不去’的次數(shù)低于一定頻率的邊。

s10、從數(shù)據(jù)的觀點(diǎn)出發(fā),找出具備異常特征的號(hào)碼。發(fā)明人在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)一類(lèi)特殊號(hào)碼,這類(lèi)號(hào)碼在通話記錄中的imei多次出現(xiàn)替換的現(xiàn)象。imei是用于存儲(chǔ)是由15位數(shù)字組成的"電子串號(hào)",該碼是全世界唯一的國(guó)際移動(dòng)設(shè)備身份碼,除雙卡雙待的手機(jī)會(huì)出現(xiàn)兩個(gè)imei,絕大多數(shù)手機(jī)都只具備唯一的imei。固依照經(jīng)驗(yàn)考慮,普通公民這種行為出現(xiàn)頻繁更換手機(jī)的幾率比較小,找出頻繁更換手機(jī)imei號(hào)的異常手機(jī)號(hào)。若兩個(gè)號(hào)碼u和v聯(lián)系中都出現(xiàn)該行為特征,則將這類(lèi)號(hào)碼通話與正常通話做明顯區(qū)分。固將兩個(gè)聯(lián)系號(hào)碼同時(shí)出現(xiàn)這類(lèi)特征的聯(lián)系在計(jì)算的樞紐值(hub)和權(quán)威值(authority)中乘上一個(gè)很大的參數(shù)α(范圍2-500),出現(xiàn)該異常特征的參數(shù)α定為一個(gè)較大的參數(shù),而普通聯(lián)系參數(shù)定為1。

s11、根據(jù)上述步驟構(gòu)建在通信網(wǎng)絡(luò)中用于挖掘關(guān)鍵人物的數(shù)據(jù)分析算法公式。用于計(jì)算樞紐值(hub)和權(quán)威值(authority)的計(jì)算公式如下所示:

hub(u)=σ(authority(v)*edgepower*α/∑out_edgepower(u))

authority(u)=∑(hub(v)*edgepower*α/σin_edgepower(u))

s12、按照s11中構(gòu)建的公式進(jìn)行計(jì)算。具體步驟如下:

將所有通信網(wǎng)絡(luò)中的節(jié)點(diǎn)也就是電話號(hào)碼的樞紐值(hub)和權(quán)威值(authority)進(jìn)行初始化,其中樞紐值(hub)初始化為該電話號(hào)碼主叫的總次數(shù),而權(quán)威值(authority)則初始化為該電話號(hào)碼被叫的總次數(shù)。

初始化后將所有節(jié)點(diǎn)按照構(gòu)建的通信網(wǎng)絡(luò)的連接關(guān)系和計(jì)算公式,反復(fù)迭代,計(jì)算出最終的樞紐值(hub)和權(quán)威值(authority)。

s13、權(quán)威值(authority)的計(jì)算是綜合樞紐值(hub)計(jì)算得出,將權(quán)威值(authority)進(jìn)行最大-最小規(guī)范化。最大-最小規(guī)范化的公式如下:

其中new_v是規(guī)范后的結(jié)果,old_v是規(guī)范化前的數(shù)據(jù),old_min和old_max是規(guī)范化前的最小和最大值,new_max和new_min是新的映射區(qū)間。

s14、按照最大-最小規(guī)范化后的權(quán)威值(authority)依照從大到小順序進(jìn)行排序,最終得出一個(gè)關(guān)于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘結(jié)果。

s15、實(shí)驗(yàn)結(jié)果評(píng)價(jià):主要評(píng)價(jià)指標(biāo)有準(zhǔn)確率pred、召回率recall、f1值,取權(quán)威值(authority)的排序結(jié)果中topn,共n個(gè),其中經(jīng)警察驗(yàn)證的疑犯號(hào)碼為accute準(zhǔn)確率pred公式如下:

召回率recall公式中realsum為經(jīng)警察驗(yàn)證的所有疑犯號(hào)碼總數(shù),召回率recall公式如下:

根據(jù)pred和recall可以計(jì)算f1值,f1值得計(jì)算公式如下:

根據(jù)上述三個(gè)公式依次取top10、top40、top70、top100計(jì)算準(zhǔn)確率pred、召回率recall、f1值的計(jì)算圖如下圖4所示,計(jì)算結(jié)果表如下所示。

本發(fā)明還提出一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘系統(tǒng),包括:

計(jì)算權(quán)威值與樞紐值模塊,用于獲取通信記錄并進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的通信記錄構(gòu)建有向加權(quán)通信網(wǎng)絡(luò),根據(jù)所述有向加權(quán)通信網(wǎng)絡(luò)構(gòu)建有權(quán)鄰接矩陣,并根據(jù)通信關(guān)系計(jì)算權(quán)威值與樞紐值;

計(jì)算新權(quán)威值與新樞紐值模塊,用于根據(jù)所述權(quán)威值,及所述有向加權(quán)通信網(wǎng)絡(luò)中兩節(jié)點(diǎn)鏈接邊的權(quán)重,計(jì)算新權(quán)威值與新樞紐值;

獲得關(guān)鍵人物模塊,用于設(shè)置異常特征參數(shù)α,并根據(jù)所述新權(quán)威值與所述新樞紐值,計(jì)算最終權(quán)威值,對(duì)所述最終權(quán)威值進(jìn)行最大-最小規(guī)范化,獲得關(guān)鍵人物。

所述計(jì)算權(quán)威值與樞紐值模塊中預(yù)處理包括刪除通信記錄中的重復(fù)數(shù)據(jù)、非常規(guī)號(hào)碼,將缺省值進(jìn)行補(bǔ)全。

所述計(jì)算權(quán)威值與樞紐值模塊中構(gòu)建有向加權(quán)網(wǎng)絡(luò)包括根據(jù)通信網(wǎng)絡(luò)中節(jié)點(diǎn)的“主叫”、“被叫”的頻率構(gòu)建有向加權(quán)通信網(wǎng)絡(luò)。

所述計(jì)算新權(quán)威值與新樞紐值模塊中計(jì)算新權(quán)威值與新樞紐值的公式為:

hub(u)=∑(authority(v)*edgepower/∑out_edgepower(u))

authority(u)=σ(hub(v)*edgepower/σin_edgepower(u))

其中hub(u)為樞紐值,authority(v)為權(quán)威值,edgepower為節(jié)點(diǎn)u和節(jié)點(diǎn)v的鏈接邊權(quán)重,σout_edgepower(u)為節(jié)點(diǎn)u的出度的總和,∑in_edgepower(u)為節(jié)點(diǎn)u的入度的總和。

刪除鏈接邊權(quán)重小于預(yù)設(shè)閾值的邊。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
灵山县| 同德县| 灵台县| 吕梁市| 富阳市| 五河县| 龙江县| 刚察县| 铜陵市| 溧水县| 涟水县| 嘉祥县| 驻马店市| 若羌县| 太白县| 祥云县| 阳西县| 大理市| 佳木斯市| 罗源县| 和静县| 崇文区| 界首市| 蓝山县| 新晃| 阜南县| 织金县| 北京市| 大理市| 龙里县| 南岸区| 和平区| 武功县| 卢湾区| 天水市| 迁西县| 翁牛特旗| 巴里| 游戏| 马公市| 磐石市|