欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)挖掘處理方法以及裝置的制造方法

文檔序號:10655084閱讀:238來源:國知局
一種數(shù)據(jù)挖掘處理方法以及裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種數(shù)據(jù)挖掘處理方法以及裝置,其中方法包括:獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。采用本發(fā)明,可準確分析識別出用戶實名,以豐富社交網(wǎng)絡的功能。
【專利說明】
一種數(shù)據(jù)挖掘處理方法以及裝置
技術領域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術領域,尤其涉及一種數(shù)據(jù)挖掘處理方法以及裝置?!颈尘凹夹g】
[0002]隨著互聯(lián)網(wǎng)技術的發(fā)展,越來越多用戶會參與到社交網(wǎng)絡中。用戶在加入到社交網(wǎng)絡之前,需要先進行用戶注冊,而所注冊的用戶名可以為用戶任意輸入的字符,即用戶注冊信息中可以不包含用戶的實名。而若要在社交網(wǎng)絡中進行安全監(jiān)控,則需要用戶的實名才能識別出用戶是否為欺詐用戶;又如若要在社交網(wǎng)絡中進行精確人群挖掘,則也需要用到用戶的實名。但是對于目前的社交網(wǎng)絡,只能通過用戶自主提供來獲取用戶的實名,而當用戶不愿提供實名時,社交網(wǎng)絡的服務器側(cè)是無法得知該用戶的實名,從而導致社交網(wǎng)絡的部分功能無法完全實現(xiàn)。
【發(fā)明內(nèi)容】

[0003]本發(fā)明實施例提供一種數(shù)據(jù)挖掘處理方法以及裝置,可準確分析識別出用戶實名,以豐富社交網(wǎng)絡的功能。
[0004]本發(fā)明實施例提供了一種數(shù)據(jù)挖掘處理方法,包括:
[0005]獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0006]根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次, 計算所述各候選實名分別對應的后驗概率;
[0007]將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0008]相應地,本發(fā)明實施例還提供了一種數(shù)據(jù)挖掘處理裝置,包括:
[0009]獲取挖掘模塊,用于獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;[〇〇1〇]計算模塊,用于根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;
[0011]確定模塊,用于將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0012]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,最后將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能?!靖綀D說明】
[0013]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0014]圖1是本發(fā)明實施例提供的一種數(shù)據(jù)挖掘處理方法的流程示意圖;
[0015]圖2是本發(fā)明實施例提供的另一種數(shù)據(jù)挖掘處理方法的流程示意圖;
[0016]圖3是本發(fā)明實施例提供的又一種數(shù)據(jù)挖掘處理方法的流程示意圖;
[0017]圖4是本發(fā)明實施例提供的又一種數(shù)據(jù)挖掘處理方法的流程示意圖;
[0018]圖5是本發(fā)明實施例提供的一種數(shù)據(jù)挖掘處理裝置的結(jié)構(gòu)示意圖;
[0019]圖6是本發(fā)明實施例提供的一種獲取挖掘模塊的結(jié)構(gòu)示意圖;
[0020]圖7是本發(fā)明實施例提供的一種計算模塊的結(jié)構(gòu)示意圖;[0021 ]圖8是本發(fā)明實施例提供的一種第一概率計算單元的結(jié)構(gòu)示意圖;
[0022]圖9是本發(fā)明實施例提供的一種確定模塊的結(jié)構(gòu)示意圖;
[0023]圖10是本發(fā)明實施例提供的另一種數(shù)據(jù)挖掘處理裝置的結(jié)構(gòu)示意圖;
[0024]圖11是本發(fā)明實施例提供的一種服務器的結(jié)構(gòu)示意圖?!揪唧w實施方式】[〇〇25]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0026]請參見圖1,是本發(fā)明實施例提供的一種數(shù)據(jù)挖掘處理方法的流程示意圖,所述方法可以包括:
[0027]S101,獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0028]具體的,基于社交網(wǎng)絡的服務器可以獲取與待挖掘用戶對應的多個用戶備注信息,其中,所述待挖掘用戶是指服務器需分析識別出其真實的實名的用戶,所述多個用戶備注信息是指其他好友用戶對所述待挖掘用戶進行備注的信息。例如,所述待挖掘用戶有100 個好友用戶,1〇〇個好友用戶有75個好友用戶對所述待挖掘用戶進行備注,則可以將這75個好友所備注的信息作為所述多個用戶備注信息。所述服務器進一步在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名。例如,所述至少一個候選用戶備注信息中有20個候選用戶備注信息均為“王AB”、3個候選用戶備注信息均為“黃AC”、15個候選用戶備注信息均為“黃AB”、30個候選用戶備注信息均為“王AC”,則可以將“王AB”、“黃AC"、“黃AB”、“王AC"均作為所述候選實名。
[0029]其中,所述服務器在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息的具體過程可以為:獲取與待挖掘用戶對應的多個用戶備注信息,并根據(jù)姓名結(jié)構(gòu)規(guī)則和預設的姓氏匹配表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備注信息;將所述第一類用戶備注信息中包含專有名詞和/或高頻詞的用戶備注信息刪除,并將刪除后所剩余的第一類用戶備注信息確定為至少一個候選用戶備注信息。其中,所述專有名詞可以包括如老師、師傅、先生、小姐等專有角色詞,所述高頻詞可以包括如明天、后天、吃飯、喝水等高頻出現(xiàn)的詞。例如,若某個第一類用戶備注信息為“王老師”,則可以確定該第一類用戶備注信息包含專有名詞,因此,可以刪除該第一類用戶備注信息。
[0030]其中,所述姓名結(jié)構(gòu)規(guī)則可以指正常姓名的字數(shù),如正常姓名一般為2至4個漢字 (單姓的姓名為2至3個漢字,復姓的姓名為3至4個漢字)。因此,所述根據(jù)姓名結(jié)構(gòu)規(guī)則和預設的姓氏匹配表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備注信息的具體過程可以為:所述服務器可以先基于有效切詞算法對獲取到的多個用戶備信息進行切詞(如若用戶備注信息為“他是王AB”,則切詞后的用戶備注信息變?yōu)椤巴魽B”),再將包含2 至4個漢字的切詞后的用戶備注信息篩選出來,得到初步篩選用戶備注信息,之后再根據(jù)預設的姓氏匹配表中的單姓集合對包含2個字的初步篩選用戶備注信息進行匹配,以檢測包含2個字的初步篩選用戶備注信息的第一個漢字是否存在于所述單姓集合中,若存在,則確定包含2個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,否則將其剔除;并同時根據(jù)預設的姓氏匹配表中的復姓集合對包含4個字的初步篩選用戶備注信息進行匹配,以檢測包含4個字的初步篩選用戶備注信息的前兩個漢字是否存在于所述復姓集合中,若存在,則確定包含4個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,否則將其剔除;并同時根據(jù)所述單姓集合和所述復姓集合對包含3 個字的初步篩選用戶備注信息進行匹配,以檢測包含3個字的初步篩選用戶備注信息的第一個漢字是否存在于所述單姓集合或前兩個漢字是否存在于所述復姓集合,只要檢測出滿足其中一個條件,即可以確定包含3個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,若都不滿足則將其剔除。[〇〇31]S102,根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;
[0032]具體的,所述服務器可以獲取所述至少一個候選用戶備注信息中各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓氏拼音和名字拼音。例如,某個候選用戶備注信息為“張曉波”,則對應的全拼音為“zhang xiaobo”,其中,姓氏拼音為“zhang”,名字拼音為 “xiaobo”。所述服務器再根據(jù)所述各候選用戶備注信息統(tǒng)計各相同姓氏拼音分別對應的出現(xiàn)頻次和各相同名字拼音分別對應的出現(xiàn)頻次,例如,所述至少一個候選用戶備注信息包括20個“張曉波”、25個“張小波”、10個“王小波”以及5個“張海波”,則可以得知相同姓氏拼音包括“zhang”和“wang”,相同名字拼音包括“xiaobo”和“haibo”,從而可以統(tǒng)計出相同姓氏拼音“zhang”的出現(xiàn)頻次為50,相同姓氏拼音“wang”的出現(xiàn)頻次為10,相同名字拼音 “xiaobo”的出現(xiàn)頻次為55,相同名字拼音“haibo”的出現(xiàn)頻次為5。此后,所述服務器再根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率,并根據(jù)最大的聯(lián)合概率的相同全拼音對應的出現(xiàn)頻次以及所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率。
[0033]其中,所述根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率的具體過程為:根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同姓氏拼音分別對應的第一概率;根據(jù)各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同名字拼音分別對應的第二概率;對各所述第一概率和各所述第二概率進行計算,以得到各相同全拼音分別對應的聯(lián)合概率。
[0034] 其中,所述聯(lián)合概率的計算公式為:聯(lián)合概率1?并音=P_并音并音即為所述第一概率,臘即為所述第二概率。所述后驗概率的計算公式為:后驗概率P(候選實名|最佳全拼音)=在最佳全拼音中的候選實名的出現(xiàn)頻次/最佳全拼音的出現(xiàn)頻次,所述最佳全拼音是指最大的聯(lián)合概率的相同全拼音,其中,若候選實名的全拼音不為所述最佳全拼音, 則在最佳全拼音中的該候選實名的出現(xiàn)頻次為0。例如,所述至少一個候選用戶備注信息包括30個“吳曉波”、20個“吳小波”、10個“武曉波”、10個“張曉波”以及30個“張海波”,其中相同全拼音包括“wu xiaobo”、“zhang xiaobo”、“zhang haibo”,其中相同姓氏拼音“wu”的并音=“wu”的出現(xiàn)頻次/候選用戶備注信息總量=60/100,相同姓氏拼音“zhang”的1??并音 =“zhang”的出現(xiàn)頻次/候選用戶備注信息總量= 40/100,相同名字拼音“xiaobo”的并音 =“xiaobo”的出現(xiàn)頻次/候選用戶備注信息總量= 70/100,相同名字拼音“haibo”的并音 =“ha i b 〇”的出現(xiàn)頻次/候選用戶備注信息總量=3 0/10 0;從而可以計算出相同全拼音“wu xiaobo”的聯(lián)合概率1?并音=相同姓氏拼音“wu”的Pa?臘*相同名字拼音“xiaobo”的并音= 42/100,相同全拼音“zhang xiaobo”的聯(lián)合概率1?并音=相同姓氏拼音“zhang”的Pffi珊音*相同名字拼音“xiaobo”的P箱f臘=28/100,相同全拼音“zhang haibo”的聯(lián)合概率1?臘=相同姓氏拼音“zhang”的1??臘*相同名字拼音“haibo”的拼音=12/100;由此可見,相同全拼音 “wu xiaobo”的聯(lián)合概率最大,因此,將相同全拼音“wu xiaobo”作為最佳全拼音;進一步可以計算出“吳曉波”的后驗概率P(吳曉波I最佳全拼音“wu xiaobo”)=30/60,“吳小波”的后驗概率P(吳小波I最佳全拼音“wu xiaobo”)= 20/60, “武曉波”的后驗概率P(武曉波I最佳全拼音“wu xiaobo”)= 10/60, “張曉波”的后驗概率P(張曉波|最佳全拼音“wu xiaobo”)= 〇,“張海波”的后驗概率P(張海波I最佳全拼音“wu xiaobo”)=0。
[0035]S103,將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0036]具體的,所述服務器計算出所述各候選實名分別對應的后驗概率后,可以將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,即可以將所述最優(yōu)實名確定為所述待挖掘用戶的真是實名,從而可以實現(xiàn)對用戶的實名進行準確識別。例如,候選實名包括 “吳曉波”、“吳小波”、“武曉波”、“張曉波”、“張海波”,其中,“吳曉波”的后驗概率為30/60、 “吳小波”的后驗概率為20/60、“武曉波”的后驗概率為10/60、“張曉波”的后驗概率為0、“張海波”的后驗概率為〇,則可以將最大的后驗概率的“吳曉波”確定為所述待挖掘用戶的最優(yōu)實名。
[0037]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名,并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,最后將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能。
[0038]請參見圖2,是本發(fā)明實施例提供的另一種數(shù)據(jù)挖掘處理方法的流程示意圖,所述方法可以包括:
[0039]S201,獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0040]S202,根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;[0041 ] 其中,S201至S202步驟的具體實現(xiàn)方式可以參見上述圖1對應實施例中的S101至 S102,這里不再進行贅述。[〇〇42]S203,判斷最大的后驗概率是否大于預設概率閾值;
[0043]具體的,所述服務器計算出所述各候選實名分別對應的后驗概率后,可以進一步判斷最大的后驗概率是否大于預設概率閾值。[〇〇44]S204,將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0045]具體的,若S203判斷為是,說明所述最大的后驗概率具有足夠的可信度,因此,可以將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,以保證所述最優(yōu)實名就是所述待挖掘用戶的真正實名。[〇〇46]S205,根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0047]具體的,若S203判斷為否,則所述服務器可以根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。所述調(diào)權規(guī)則包括:候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系、相同全拼音的權重與修正參數(shù)的映射關系、候選實名的字符復雜度與修正參數(shù)的映射關系、 候選實名的字符長度與修正參數(shù)的映射關系、姓氏的普及程度與修正參數(shù)的映射關系中的至少一種映射關系。所述候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系是指多個不同的出現(xiàn)頻次范圍與多個不同的修正參數(shù)之間的映射關系,越大的出現(xiàn)頻次范圍對應越大的修正參數(shù),而對于低于次數(shù)閾值的出現(xiàn)頻次范圍對應的修正參數(shù)則為負數(shù),如候選實名A的出現(xiàn)頻次比候選實名B的出現(xiàn)頻次多,則候選實名A對應的修正參數(shù)越大,即候選實名A對應的后驗概率將會增加更多的數(shù)值;又如候選實名C的出現(xiàn)頻次低于次數(shù)閾值,則需要降低候選實名 C對應的后驗概率。所述相同全拼音的權重與修正參數(shù)的映射關系是指多個不同的權重范圍與多個不同的修正參數(shù)之間的映射關系,越大的權重范圍對應越大的修正參數(shù),而對于低于權重閾值的權重范圍對應的修正參數(shù)則可以為負數(shù),如某相同全拼音的數(shù)量占用戶備注信息總量的比值越大,則該相同全拼音的權重越大,則該相同全拼音對應的修正參數(shù)就越大,即可以提高為該相同全拼音的多個候選實名分別對應的后驗概率。所述候選實名的字符復雜度與修正參數(shù)的映射關系是指多個不同的字符復雜度與多個不同的修正參數(shù)之間的映射關系,越大的字符復雜度對應越大的修正參數(shù),如某個候選實名包含很難寫且不常見(即較大的字符復雜度)的漢字,則該候選實名可以對應較大的修正參數(shù),即可以大幅提高該候選實名對應的后驗概率。所述候選實名的字符長度與修正參數(shù)的映射關系是指多個不同的字符長度與多個不同的修正參數(shù)之間的映射關系,越長的字符長度對應越大的修正參數(shù),如候選實名A的字符長度大于候選實名B的字符長度,則候選實名A可以對應更大的修正參數(shù),即可以更大幅度地提高候選實名A對應的后驗概率。所述姓氏的普及程度與修正參數(shù)的映射關系是指多個不同的姓氏普及程度與多個不同的修正參數(shù)之間的映射關系,越普及的姓氏對應的修正參數(shù)越大,而對于低于普及程度閾值的姓氏對應的修正參數(shù)則可以為負數(shù),如姓氏“王”對應的修正參數(shù)比姓氏“歐陽”對應的修正參數(shù)大。因此,所述服務器可以根據(jù)所述調(diào)權規(guī)則中的一種映射關系或多種映射關系的組合,對所述各候選實名分別對應的后驗概率進行修正(修正的過程可以是增加后驗概率,也可以是降低后驗概率),并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0048]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,且當最大的后驗概率大于預設概率閾值時,可以將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能;而且當最大的后驗概率小于或等于預設概率閾值時,還可以進一步根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以進一步提高對實名的識別準確性。
[0049]請參見圖3,是本發(fā)明實施例提供的又一種數(shù)據(jù)挖掘處理方法的流程示意圖,所述方法可以包括:
[0050]S301,獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0051]S302,根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;[〇〇52] 其中,S301至S302步驟的具體實現(xiàn)方式可以參見上述圖1對應實施例中的S101至 S102,這里不再進行贅述。[〇〇53]S303,判斷最大的后驗概率是否大于預設概率閾值;[〇〇54]具體的,所述服務器計算出所述各候選實名分別對應的后驗概率后,可以進一步判斷最大的后驗概率是否大于預設概率閾值。
[0055]S304,將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0056]具體的,若S303判斷為是,說明所述最大的后驗概率具有足夠的可信度,因此,可以將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,以保證所述最優(yōu)實名就是所述待挖掘用戶的真正實名。
[0057] S305,根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名;[〇〇58]具體的,若S303判斷為否,則所述服務器可以獲取所述各候選用戶備注信息分別對應的用戶(即對所述待挖掘用戶進行備注的用戶)的備注屬性,一個用戶的備注屬性包括該用戶對好友進行備注中為實名的用戶備注信息數(shù)量和該用戶對好友進行備注的所有用戶備注信息的數(shù)量,所述服務器再根據(jù)所述備注屬性計算所述各候選用戶備注信息分別對應的用戶備注實名習慣值,其中,所述用戶備注實名習慣值是指用戶對好友進行備注中為實名的用戶備注信息數(shù)量與該用戶對好友進行備注的所有用戶備注信息的數(shù)量的比值。例如,某個候選用戶備注信息對應的用戶(即對所述待挖掘用戶進行備注的用戶)為用戶A,若用戶A對他人進行備注所生成的所有用戶備注信息的數(shù)量為100,且這100個用戶備注信息中有70個用戶備注信息為真正的實名,則可以計算出用戶A的用戶備注實名習慣值為70/ 100。所述服務器計算出所述各候選用戶備注信息分別對應的用戶備注實名習慣值之后,可以根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0059]其中,所述根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值的具體過程可以為:以其中一個候選實名A為例,所述服務器可以將候選實名A對應的多個候選用戶備注信息(這多個候選用戶備注信息的內(nèi)容均為候選實名A)確定為多個目標候選用戶備注信息,然后計算所述多個目標候選用戶備注信息分別對應的用戶備注實名習慣值的平均值;再將所述平均值與候選實名A對應的后驗概率進行相加以得到對應的排序權重值,或者可以將所述平均值加上某一系數(shù)后再乘以候選實名A對應的后驗概率以得到對應的排序權重值,其他的候選實名均是基于相同的計算原理計算出對應的排序權重值。
[0060]可選的,若上述圖2對應實施例中的S205所計算出的最大的修正后的后驗概率依然小于所述預設概率閾值,則可以以S305的計算原理計算修正后的后驗概率對應的排序權重值,以更準確地確定出最優(yōu)實名。
[0061]可選的,若S305所計算出的最大的排序權重值依然小于所述預設概率閾值,則可以以上述圖2對應實施例中的S205的計算原理對排序權重值進行修正,以更準確地確定出最優(yōu)實名。
[0062]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,且當最大的后驗概率大于預設概率閾值時,可以將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能;而且當最大的后驗概率小于或等于預設概率閾值時,還可以進一步根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以進一步提高對實名的識別準確性。
[0063]請參見圖4,是本發(fā)明實施例提供的又一種數(shù)據(jù)挖掘處理方法的流程示意圖,所述方法可以包括:
[0064] S401,獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0065] S402,根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;[〇〇66] 其中,S401至S402步驟的具體實現(xiàn)方式可以參見上述圖1對應實施例中的S101至 S102,這里不再進行贅述。[〇〇67] S403,判斷最大的后驗概率是否大于預設概率閾值;
[0068]具體的,所述服務器計算出所述各候選實名分別對應的后驗概率后,可以進一步判斷最大的后驗概率是否大于預設概率閾值。[〇〇69] S404,將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;[〇〇7〇]具體的,若S403判斷為是,說明所述最大的后驗概率具有足夠的可信度,因此,可以將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,以保證所述最優(yōu)實名就是所述待挖掘用戶的真正實名。
[0071] S405,選擇最大和第二大的后驗概率的候選實名分別對應的候選用戶備注信息, 并對所選擇出的候選用戶備注信息進行特征抽取,并根據(jù)抽取的所述特征和預設的排序 rank模型對最大和第二大的后驗概率的候選實名進行評分,并將評分高的候選實名作為所述待挖掘用戶的最優(yōu)實名;[〇〇72]具體的,若S403判斷為否,則所述服務器可以選擇最大和第二大的后驗概率的候選實名分別對應的候選用戶備注信息,并對所選擇出的候選用戶備注信息進行特征抽取, 并根據(jù)抽取的所述特征和預設的排序rank模型對最大和第二大的后驗概率的候選實名進行評分,并將評分高的候選實名作為所述待挖掘用戶的最優(yōu)實名。其中,所述rank模型可以為基于pairwise的rank模型。所述特征可以包括候選用戶備注信息對應的切詞前的用戶備注信息的總字符長度、姓名前的字符長度、姓名后的字符長度,候選用戶備注信息的總字符長度,待挖掘用戶的用戶備注實名習慣值,候選用戶備注信息對應的用戶(對待挖掘用戶進行備注的用戶)的用戶備注實名習慣值。[0〇73]在使用rank模型進行評分之前,需要建立和訓練rank模型,建立和訓練rank模型的具體過程可以為:獲取與已知用戶實名的用戶對應的用于訓練rank模型的多個訓練用戶備注信息,并將所述多個訓練用戶備注信息中相同的訓練用戶備注信息分別作為訓練候選實名;將為所述用戶實名的訓練候選實名所對應的各訓練用戶備注信息作為第一支撐集合;所述第一支撐集合對應第一得分數(shù)值;將為非所述用戶實名且具有所述用戶實名的全拼音的訓練候選實名所對應的各訓練用戶備注信息作為第二支撐集合;所述第二支撐集合對應第二得分數(shù)值,所述第一得分數(shù)值大于所述第二得分數(shù)值;抽取所述第一支撐集合的特征和所述第二支撐集合的特征,并根據(jù)所述第一支撐集合的特征和所述第一得分數(shù)值、 所述第二支撐集合的特征和所述第二得分數(shù)值建立并訓練rank模型。因此,基于rank模型對最大和第二大的后驗概率的候選實名進行評分的過程可以為:根據(jù)所輸入的兩個候選實名分別對應的多個候選用戶備注信息所屬的支撐集合(為第一支撐集合或第二支撐集合) 的得分數(shù)值,分別計算出兩個候選實名對應的最終評分。[〇〇74]可選的,若上述圖2對應實施例中的S205所計算出的最大的修正后的后驗概率依然小于所述預設概率閾值,則可以基于rank模型在最大和第二大的修正后的后驗概率對應的候選實名中選擇出最優(yōu)實名。
[0075]可選的,若上述圖3對應實施例中的S305所計算出的最大的排序權重值依然小于所述預設概率閾值,則可以基于rank模型在最大和第二大的排序權重值對應的候選實名中選擇出最優(yōu)實名。
[0076]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,且當最大的后驗概率大于預設概率閾值時,可以將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能;而且當最大的后驗概率小于或等于預設概率閾值時,還可以進一步基于rank模型在最大和第二大的后驗概率的候選實名中選擇出最優(yōu)實名,從而可以進一步提尚對實名的識別準確性。
[0077]請參見圖5,是本發(fā)明實施例提供的一種數(shù)據(jù)挖掘處理裝置的結(jié)構(gòu)示意圖,所述數(shù)據(jù)挖掘處理裝置1可以應用于基于社交網(wǎng)絡的服務器中,所述數(shù)據(jù)挖掘處理裝置1可以包括:獲取挖掘模塊10、計算模塊20、確定模塊30;
[0078]所述獲取挖掘模塊10,用于獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0079]具體的,所述獲取挖掘模塊10可以獲取與待挖掘用戶對應的多個用戶備注信息, 其中,所述待挖掘用戶是指服務器需分析識別出其真實的實名的用戶,所述多個用戶備注信息是指其他好友用戶對所述待挖掘用戶進行備注的信息。例如,所述待挖掘用戶有1〇〇個好友用戶,100個好友用戶有75個好友用戶對所述待挖掘用戶進行備注,則可以將這75個好友所備注的信息作為所述多個用戶備注信息。所述獲取挖掘模塊10進一步在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名。例如,所述至少一個候選用戶備注信息中有20個候選用戶備注信息均為“王AB”、3個候選用戶備注信息均為“黃AC”、15個候選用戶備注信息均為“黃AB”、30個候選用戶備注信息均為“王AC”,則可以將“王AB”、“黃AC"、“黃AB”、 “王AC均作為所述候選實名。
[0080]進一步的,請一并參見圖6,是本發(fā)明實施例提供的一種獲取挖掘模塊10的結(jié)構(gòu)示意圖,所述獲取挖掘模塊10可以包括:獲取篩選單元101、刪除確定單元102;
[0081]所述獲取篩選單元101,用于獲取與待挖掘用戶對應的多個用戶備注信息,并根據(jù)姓名結(jié)構(gòu)規(guī)則和預設的姓氏匹配表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備注信息;[〇〇82]具體的,所述姓名結(jié)構(gòu)規(guī)則可以指正常姓名的字數(shù),如正常姓名一般為2至4個漢字(單姓的姓名為2至3個漢字,復姓的姓名為3至4個漢字)。因此,所述獲取篩選單元101可以先基于有效切詞算法對獲取到的多個用戶備信息進行切詞(如若用戶備注信息為“他是王AB”,則切詞后的用戶備注信息變?yōu)椤巴魽B”),再將包含2至4個漢字的切詞后的用戶備注信息篩選出來,得到初步篩選用戶備注信息,之后再根據(jù)預設的姓氏匹配表中的單姓集合對包含2個字的初步篩選用戶備注信息進行匹配,以檢測包含2個字的初步篩選用戶備注信息的第一個漢字是否存在于所述單姓集合中,若存在,則確定包含2個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,否則將其剔除;所述獲取篩選單元 101還同時根據(jù)預設的姓氏匹配表中的復姓集合對包含4個字的初步篩選用戶備注信息進行匹配,以檢測包含4個字的初步篩選用戶備注信息的前兩個漢字是否存在于所述復姓集合中,若存在,則確定包含4個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,否則將其剔除;所述獲取篩選單元101還同時根據(jù)所述單姓集合和所述復姓集合對包含3個字的初步篩選用戶備注信息進行匹配,以檢測包含3個字的初步篩選用戶備注信息的第一個漢字是否存在于所述單姓集合或前兩個漢字是否存在于所述復姓集合,只要檢測出滿足其中一個條件,即可以確定包含3個字的初步篩選用戶備注信息滿足姓氏條件并將其作為第一類用戶備注信息,若都不滿足則將其剔除。[〇〇83]所述刪除確定單元102,用于將所述第一類用戶備注信息中包含專有名詞和/或高頻詞的用戶備注信息刪除,并將刪除后所剩余的第一類用戶備注信息確定為至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0084]其中,所述專有名詞可以包括如老師、師傅、先生、小姐等專有角色詞,所述高頻詞可以包括如明天、后天、吃飯、喝水等高頻出現(xiàn)的詞。例如,若某個第一類用戶備注信息為 “王老師”,則所述刪除確定單元102可以確定該第一類用戶備注信息包含專有名詞,因此, 所述刪除確定單元102可以刪除該第一類用戶備注信息。
[0085]所述計算模塊20,用于根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;[〇〇86]具體的,請一并參見圖7,是本發(fā)明實施例提供的一種計算模塊20的結(jié)構(gòu)示意圖, 所述計算模塊20可以包括:拼音獲取單元201、頻次統(tǒng)計單元202、第一概率計算單元203、第二概率計算單元204;
[0087]所述拼音獲取單元201,用于獲取各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓氏拼音和名字拼音;
[0088]具體的,所述拼音獲取單元201可以獲取所述至少一個候選用戶備注信息中各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓氏拼音和名字拼音。例如,某個候選用戶備注信息為“張曉波”,則對應的全拼音為“zhang xiaobo”,其中,姓氏拼音為“zhang”,名字拼音為“xiaobo”。
[0089]所述頻次統(tǒng)計單元202,用于根據(jù)所述各候選用戶備注信息統(tǒng)計各相同姓氏拼音分別對應的出現(xiàn)頻次和各相同名字拼音分別對應的出現(xiàn)頻次;
[0090]所述第一概率計算單元203,用于根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率;
[0091]所述第二概率計算單元204,用于根據(jù)最大的聯(lián)合概率的相同全拼音對應的出現(xiàn)頻次以及所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;
[0092]其中,所述后驗概率的計算公式為:后驗概率P(候選實名|最佳全拼音)=在最佳全拼音中的候選實名的出現(xiàn)頻次/最佳全拼音的出現(xiàn)頻次,所述最佳全拼音是指最大的聯(lián)合概率的相同全拼音,其中,若候選實名的全拼音不為所述最佳全拼音,則在最佳全拼音中的該候選實名的出現(xiàn)頻次為〇。[〇〇93]進一步的,再請一并參見圖8,是本發(fā)明實施例提供的一種第一概率計算單元203 的結(jié)構(gòu)示意圖,所述第一概率計算單元203可以包括:第一概率計算子單元2031、第二概率計算子單元2032、聯(lián)合概率計算子單元2033;
[0094]所述第一概率計算子單元2031,用于根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同姓氏拼音分別對應的第一概率;
[0095]所述第二概率計算子單元2032,用于根據(jù)各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同名字拼音分別對應的第二概率;[〇〇96]所述聯(lián)合概率計算子單元2033,用于對各所述第一概率和各所述第二概率進行計算,以得到各相同全拼音分別對應的聯(lián)合概率;
[0097]其中,所述聯(lián)合概率的計算公式為:聯(lián)合概率1?并音=P_并音并音即為所述第一概率,并音即為所述第二概率。[〇〇98]例如,所述至少一個候選用戶備注信息包括30個“吳曉波”、20個“吳小波”、10個 “武曉波”、10個“張曉波”以及30個“張海波”,其中相同全拼音包括“wu xiaobo”、“zhang xiaobo”、“zhang haibo”,則所述第一概率計算子單元2031可以計算出相同姓氏拼音“wu” 的音=“wu”的出現(xiàn)頻次/候選用戶備注信息總量=6 0 /10 0,所述第一概率計算子單元 2031計算出相同姓氏拼音“zhang”的Pa?并音=“zhang”的出現(xiàn)頻次/候選用戶備注信息總量 = 40/100,所述第二概率計算子單元2032可以計算出相同名字拼音“xiaobo”的?箱;}臘= “xiaobo”的出現(xiàn)頻次/候選用戶備注信息總量= 70/100,所述第二概率計算子單元2032可以計算出相同名字拼音“haibo”的并音=“haibo”的出現(xiàn)頻次/候選用戶備注信息總量= 30/100;從而所述聯(lián)合概率計算子單元2033可以計算出相同全拼音“wu xiaobo”的聯(lián)合概率1?拼音=相同姓氏拼音“wu”的1??并音*相同名字拼音“xiaobo”的并音=42/100,所述聯(lián)合概率計算子單元2033計算出相同全拼音“zhang xiaobo”的聯(lián)合概率1?臘=相同姓氏拼音 “zhang”的P顚黯*相同名字拼音“xiaobo”的P箱f臘=28/100,所述聯(lián)合概率計算子單元2033 計算出相同全拼音“zhang haibo”的聯(lián)合概率1?并音=相同姓氏拼音“zhang”的Pa?并音*相同名字拼音“haibo”的12/100;由此可見,相同全拼音“wu xiaobo”的聯(lián)合概率最大, 因此,將相同全拼音“wu xiaobo”作為最佳全拼音;所述第二概率計算單元204進一步可以計算出“吳曉波”的后驗概率P(吳曉波I最佳全拼音“WU xiaobo”)= 30/60,所述第二概率計算單元204計算出“吳小波”的后驗概率P(吳小波|最佳全拼音“wu xiaobo”)= 20/60,所述第二概率計算單元204計算出“武曉波”的后驗概率P(武曉波|最佳全拼音“wu xiaobo”)= 10/60,所述第二概率計算單元204計算出“張曉波”的后驗概率P(張曉波|最佳全拼音“wu xiaobo”)= 0,所述第二概率計算單元204計算出“張海波”的后驗概率P(張海波|最佳全拼音“wu xiaobo”)=0〇
[0099]所述確定模塊30,用于將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0100]具體的,計算出所述各候選實名分別對應的后驗概率后,所述確定模塊30可以將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,即可以將所述最優(yōu)實名確定為所述待挖掘用戶的真是實名,從而可以實現(xiàn)對用戶的實名進行準確識別。例如,候選實名包括“吳曉波”、“吳小波”、“武曉波”、“張曉波”、“張海波”,其中,“吳曉波”的后驗概率為30/ 60、“吳小波”的后驗概率為20/60、“武曉波”的后驗概率為10/60、“張曉波”的后驗概率為0、 “張海波”的后驗概率為0,則所述確定模塊30可以將最大的后驗概率的“吳曉波”確定為所述待挖掘用戶的最優(yōu)實名。
[0101]進一步的,請一并參見圖9,是本發(fā)明實施例提供的一種確定模塊30的結(jié)構(gòu)示意圖,所述確定模塊30可以包括:第一判斷單元301、第一確定單元302、修正確定單元303、第二判斷單元304、第二確定單元305、權重計算確定單元306、第三判斷單元307、第三確定單元308、模型評分確定單元309;
[0102]所述第一判斷單元301,用于判斷最大的后驗概率是否大于預設概率閾值;[〇1〇3]所述第一確定單元302,用于若所述第一判斷單元301判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;[〇1〇4]所述修正確定單元303,用于若所述第一判斷單元301判斷為否,則根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0105]其中,所述調(diào)權規(guī)則包括:候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系、相同全拼音的權重與修正參數(shù)的映射關系、候選實名的字符復雜度與修正參數(shù)的映射關系、候選實名的字符長度與修正參數(shù)的映射關系、姓氏的普及程度與修正參數(shù)的映射關系中的至少一種映射關系。所述第一判斷單元301、所述第一確定單元302以及所述修正確定單元303的具體實現(xiàn)方式可以參見上述圖2對應實施例中的S201-S205,這里不再進行贅述。
[0106]所述第二判斷單元304,用于判斷最大的后驗概率是否大于預設概率閾值;[〇1〇7]所述第二確定單元305,用于若所述第二判斷單元304判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0108]所述權重計算確定單元306,用于若所述第二判斷單元304判斷為否,則根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0109]其中,所述用戶備注實名習慣值是指用戶對好友進行備注中為實名的用戶備注信息數(shù)量與該用戶對好友進行備注的所有用戶備注信息的數(shù)量的比值。所述第二判斷單元304、所述第二確定單元305以及所述權重計算確定單元306的具體實現(xiàn)方式可以參見上述圖3對應實施例中的S301-S305,這里不再進行贅述。
[0110]所述第三判斷單元307,用于判斷最大的后驗概率是否大于預設概率閾值;[〇111 ]所述第三確定單元308,用于若所述第三判斷單元307判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;[〇112]所述模型評分確定單元309,用于若所述第三判斷單元307判斷為否,則選擇最大和第二大的后驗概率的候選實名分別對應的候選用戶備注信息,并對所選擇出的候選用戶備注信息進行特征抽取,并根據(jù)抽取的所述特征和預設的排序rank模型對最大和第二大的后驗概率的候選實名進行評分,并將評分高的候選實名作為所述待挖掘用戶的最優(yōu)實名; [〇113]其中,所述第三判斷單元307、所述第三確定單元308以及所述模型評分確定單元 309的具體實現(xiàn)方式可以參見上述圖4對應實施例中的S401-S405,這里不再進行贅述。
[0114]可選的,當所述第一判斷單元301、所述第一確定單元302以及所述修正確定單元 303在執(zhí)行相應操作時,所述第二判斷單元304、所述第二確定單元305、所述權重計算確定單元306、所述第三判斷單元307、所述第三確定單元308以及所述模型評分確定單元309均停止工作。當所述第二判斷單元304、所述第二確定單元305以及所述權重計算確定單元306 在執(zhí)行相應操作時,所述第一判斷單元301、所述第一確定單元302、所述修正確定單元303、 所述第三判斷單元307、所述第三確定單元308以及所述模型評分確定單元309均停止工作。 當所述第三判斷單元307、所述第三確定單元308以及所述模型評分確定單元309在執(zhí)行相應操作時,所述第一判斷單元301、所述第一確定單元302、所述修正確定單元303、所述第二判斷單元304、所述第二確定單元305以及所述權重計算確定單元306均停止工作。其中,所述第一判斷單元301、所述第二判斷單元304以及所述第三判斷單元307可以為同一個判斷單元;所述第一確定單元302、所述第二確定單元305以及所述第三確定單元308可以為同一個確定單元。
[0115]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,最后將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能。
[0116]再請參見圖10,是本發(fā)明實施例提供的另一種數(shù)據(jù)挖掘處理裝置1的結(jié)構(gòu)示意圖, 所述數(shù)據(jù)挖掘處理裝置1可以應用于基于社交網(wǎng)絡的服務器中,所述數(shù)據(jù)挖掘處理裝置1可以包括上述圖5對應實施例中的獲取挖掘模塊10、計算模塊20、確定模塊30,進一步的,所述數(shù)據(jù)挖掘處理裝置1還可以包括:獲取確定模塊40、集合確定模塊50、模型訓練模塊60; [〇117]所述獲取確定模塊40,用于獲取與已知用戶實名的用戶對應的用于訓練rank模型的多個訓練用戶備注信息,并將所述多個訓練用戶備注信息中相同的訓練用戶備注信息分別作為訓練候選實名;[〇118]所述集合確定模塊50,用于將為所述用戶實名的訓練候選實名所對應的各訓練用戶備注信息作為第一支撐集合;所述第一支撐集合對應第一得分數(shù)值;
[0119]所述集合確定模塊50,還用于將為非所述用戶實名且具有所述用戶實名的全拼音的訓練候選實名所對應的各訓練用戶備注信息作為第二支撐集合;所述第二支撐集合對應第二得分數(shù)值,所述第一得分數(shù)值大于所述第二得分數(shù)值;
[0120]所述模型訓練模塊60,用于抽取所述第一支撐集合的特征和所述第二支撐集合的特征,并根據(jù)所述第一支撐集合的特征和所述第一得分數(shù)值、所述第二支撐集合的特征和所述第二得分數(shù)值建立并訓練rank模型;[〇121]其中,通過所述獲取確定模塊40、所述集合確定模塊50以及所述模型訓練模塊60 建立并訓練出rank模型后,可以使上述圖9對應實施例中的模型評分確定單元309根據(jù)輸入 rank模型中的兩個候選實名分別對應的多個候選用戶備注信息所屬的支撐集合(為第一支撐集合或第二支撐集合)的得分數(shù)值,分別計算出兩個候選實名對應的最終評分。
[0122]再請參見圖11,是本發(fā)明實施例提供的一種服務器的結(jié)構(gòu)示意圖,如圖11所示,所述服務器1000可以包括:至少一個處理器1001,例如CPU,至少一個網(wǎng)絡接口 1004,用戶接口 1003,存儲器1005,至少一個通信總線1002。其中,通信總線1002用于實現(xiàn)這些組件之間的連接通信。其中,用戶接口 1003可以包括顯示屏(Display)、鍵盤(Keyboard),可選用戶接口 1003還可以包括標準的有線接口、無線接口。網(wǎng)絡接口 1004可選的可以包括標準的有線接口、無線接口(如W1-FI接口)。存儲器1005可以是高速RAM存儲器,也可以是非不穩(wěn)定的存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1005可選的還可以是至少一個位于遠離前述處理器1001的存儲裝置。如圖11所示,作為一種計算機存儲介質(zhì)的存儲器 1005中可以包括操作系統(tǒng)、網(wǎng)絡通信模塊、用戶接口模塊以及設備控制應用程序。
[0123]在圖11所示的服務器1000中,網(wǎng)絡接口 1004主要用于連接客戶端,以接收客戶端發(fā)送的用戶備注信息;而用戶接口 1003主要用于為用戶提供輸入的接口,獲取用戶輸出的數(shù)據(jù);而處理器1001可以用于調(diào)用存儲器1005中存儲的設備控制應用程序,以實現(xiàn)
[0124]獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;
[0125]根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次, 計算所述各候選實名分別對應的后驗概率;
[0126]將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0127]在一個實施例中,所述處理器1001在執(zhí)行獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名時,具體執(zhí)行:
[0128]獲取與待挖掘用戶對應的多個用戶備注信息,并根據(jù)姓名結(jié)構(gòu)規(guī)則和預設的姓氏匹配表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備注信息;
[0129]將所述第一類用戶備注信息中包含專有名詞和/或高頻詞的用戶備注信息刪除, 并將刪除后所剩余的第一類用戶備注信息確定為至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名。[〇13〇]在一個實施例中,所述處理器1001在執(zhí)行根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率時,具體執(zhí)行:
[0131]獲取各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓氏拼音和名字拼音;
[0132]根據(jù)所述各候選用戶備注信息統(tǒng)計各相同姓氏拼音分別對應的出現(xiàn)頻次和各相同名字拼音分別對應的出現(xiàn)頻次;
[0133]根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率;
[0134]根據(jù)最大的聯(lián)合概率的相同全拼音對應的出現(xiàn)頻次以及所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率。
[0135]在一個實施例中,所述處理器1001在執(zhí)行根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率時,具體執(zhí)行:
[0136]根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同姓氏拼音分別對應的第一概率;
[0137]根據(jù)各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相同名字拼音分別對應的第二概率;
[0138]對各所述第一概率和各所述第二概率進行計算,以得到各相同全拼音分別對應的聯(lián)合概率。
[0139]在一個實施例中,所述處理器1001在執(zhí)行將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名時,具體執(zhí)行:[〇14〇]判斷最大的后驗概率是否大于預設概率閾值;
[0141]若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0142]若判斷為否,則根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0143]其中,所述調(diào)權規(guī)則包括:候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系、相同全拼音的權重與修正參數(shù)的映射關系、候選實名的字符復雜度與修正參數(shù)的映射關系、候選實名的字符長度與修正參數(shù)的映射關系、姓氏的普及程度與修正參數(shù)的映射關系中的至少一種映射關系。
[0144]在一個實施例中,所述處理器1001在執(zhí)行將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名時,具體執(zhí)行:
[0145]判斷最大的后驗概率是否大于預設概率閾值;
[0146]若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0147]若判斷為否,則根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0148]其中,所述用戶備注實名習慣值是指用戶對好友進行備注中為實名的用戶備注信息數(shù)量與該用戶對好友進行備注的所有用戶備注信息的數(shù)量的比值。
[0149]在一個實施例中,所述處理器1001在執(zhí)行將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名時,具體執(zhí)行:
[0150]判斷最大的后驗概率是否大于預設概率閾值;
[0151]若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;
[0152]若判斷為否,則選擇最大和第二大的后驗概率的候選實名分別對應的候選用戶備注信息,并對所選擇出的候選用戶備注信息進行特征抽取,并根據(jù)抽取的所述特征和預設的排序rank模型對最大和第二大的后驗概率的候選實名進行評分,并將評分高的候選實名作為所述待挖掘用戶的最優(yōu)實名。
[0153]在一個實施例中,所述處理器1001還執(zhí)行:
[0154]獲取與已知用戶實名的用戶對應的用于訓練rank模型的多個訓練用戶備注信息, 并將所述多個訓練用戶備注信息中相同的訓練用戶備注信息分別作為訓練候選實名;
[0155]將為所述用戶實名的訓練候選實名所對應的各訓練用戶備注信息作為第一支撐集合;所述第一支撐集合對應第一得分數(shù)值;
[0156]將為非所述用戶實名且具有所述用戶實名的全拼音的訓練候選實名所對應的各訓練用戶備注信息作為第二支撐集合;所述第二支撐集合對應第二得分數(shù)值,所述第一得分數(shù)值大于所述第二得分數(shù)值;
[0157]抽取所述第一支撐集合的特征和所述第二支撐集合的特征,并根據(jù)所述第一支撐集合的特征和所述第一得分數(shù)值、所述第二支撐集合的特征和所述第二得分數(shù)值建立并訓練rank模型;
[0158]其中,訓練后的rank模型中的所述第一支撐集合和所述第二支撐集合是用于對所輸入的候選實名進行評分。
[0159]本發(fā)明實施例通過在多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名, 并根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,最后將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名,從而可以實現(xiàn)在用戶沒有提供實名的情況下基于用戶備注信息準確分析出用戶的實名,進而可以基于所分析出的實名豐富社交網(wǎng)絡的各種功能。[〇16〇]本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
[0161]以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【主權項】
1.一種數(shù)據(jù)挖掘處理方法,其特征在于,包括:獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶備注信息中挖掘分析 出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備 注信息分別作為候選實名;根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并 根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出現(xiàn)頻次,計算所 述各候選實名分別對應的后驗概率;將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。2.如權利要求1所述的方法,其特征在于,所述獲取與待挖掘用戶對應的多個用戶備注 信息,并在所述多個用戶備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至 少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名,包括:獲取與待挖掘用戶對應的多個用戶備注信息,并根據(jù)姓名結(jié)構(gòu)規(guī)則和預設的姓氏匹配 表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備注信息;將所述第一類用戶備注信息中包含專有名詞和/或高頻詞的用戶備注信息刪除,并將 刪除后所剩余的第一類用戶備注信息確定為至少一個候選用戶備注信息,并將所述至少一 個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名。3.如權利要求1所述的方法,其特征在于,所述根據(jù)各候選用戶備注信息分別對應的拼 音,統(tǒng)計各相同拼音分別對應的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和 所述各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率,包括:獲取各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓氏拼音和名字拼音;根據(jù)所述各候選用戶備注信息統(tǒng)計各相同姓氏拼音分別對應的出現(xiàn)頻次和各相同名 字拼音分別對應的出現(xiàn)頻次;根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音分別對應的出現(xiàn)頻次以及 候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概率;根據(jù)最大的聯(lián)合概率的相同全拼音對應的出現(xiàn)頻次以及所述各候選實名分別對應的 出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率。4.如權利要求3所述的方法,其特征在于,所述根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻 次、各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音 分別對應的聯(lián)合概率,包括:根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相 同姓氏拼音分別對應的第一概率;根據(jù)各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算所述各相 同名字拼音分別對應的第二概率;對各所述第一概率和各所述第二概率進行計算,以得到各相同全拼音分別對應的聯(lián)合概率。5.如權利要求1所述的方法,其特征在于,所述將最大的后驗概率的候選實名作為所述 待挖掘用戶的最優(yōu)實名,包括:判斷最大的后驗概率是否大于預設概率閾值;若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;若判斷為否,則根據(jù)預設的調(diào)權規(guī)則對所述各候選實名分別對應的后驗概率進行修 正,并將最大的修正后的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;其中,所述調(diào)權規(guī)則包括:候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系、相同全拼音的 權重與修正參數(shù)的映射關系、候選實名的字符復雜度與修正參數(shù)的映射關系、候選實名的 字符長度與修正參數(shù)的映射關系、姓氏的普及程度與修正參數(shù)的映射關系中的至少一種映 射關系。6.如權利要求1所述的方法,其特征在于,所述將最大的后驗概率的候選實名作為所述 待挖掘用戶的最優(yōu)實名,包括:判斷最大的后驗概率是否大于預設概率閾值;若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;若判斷為否,則根據(jù)所述各候選用戶備注信息分別對應的用戶備注實名習慣值以及所 述各候選實名分別對應的后驗概率,計算所述各候選實名分別對應的排序權重值,并將最 大的排序權重值的候選實名作為所述待挖掘用戶的最優(yōu)實名;其中,所述用戶備注實名習慣值是指用戶對好友進行備注中為實名的用戶備注信息數(shù) 量與該用戶對好友進行備注的所有用戶備注信息的數(shù)量的比值。7.如權利要求1所述的方法,其特征在于,所述將最大的后驗概率的候選實名作為所述 待挖掘用戶的最優(yōu)實名,包括:判斷最大的后驗概率是否大于預設概率閾值;若判斷為是,則將所述最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名;若判斷為否,則選擇最大和第二大的后驗概率的候選實名分別對應的候選用戶備注信 息,并對所選擇出的候選用戶備注信息進行特征抽取,并根據(jù)抽取的所述特征和預設的排 序rank模型對最大和第二大的后驗概率的候選實名進行評分,并將評分高的候選實名作為 所述待挖掘用戶的最優(yōu)實名。8.如權利要求7所述的方法,其特征在于,還包括:獲取與已知用戶實名的用戶對應的用于訓練rank模型的多個訓練用戶備注信息,并將 所述多個訓練用戶備注信息中相同的訓練用戶備注信息分別作為訓練候選實名;將為所述用戶實名的訓練候選實名所對應的各訓練用戶備注信息作為第一支撐集合; 所述第一支撐集合對應第一得分數(shù)值;將為非所述用戶實名且具有所述用戶實名的全拼音的訓練候選實名所對應的各訓練 用戶備注信息作為第二支撐集合;所述第二支撐集合對應第二得分數(shù)值,所述第一得分數(shù) 值大于所述第二得分數(shù)值;抽取所述第一支撐集合的特征和所述第二支撐集合的特征,并根據(jù)所述第一支撐集合 的特征和所述第一得分數(shù)值、所述第二支撐集合的特征和所述第二得分數(shù)值建立并訓練 rank模型;其中,訓練后的rank模型中的所述第一支撐集合和所述第二支撐集合是用于對所輸入 的候選實名進行評分。9.一種數(shù)據(jù)挖掘處理裝置,其特征在于,包括:獲取挖掘模塊,用于獲取與待挖掘用戶對應的多個用戶備注信息,并在所述多個用戶 備注信息中挖掘分析出至少一個候選用戶備注信息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名;計算模塊,用于根據(jù)各候選用戶備注信息分別對應的拼音,統(tǒng)計各相同拼音分別對應 的出現(xiàn)頻次,并根據(jù)所述各相同拼音分別對應的出現(xiàn)頻次和所述各候選實名分別對應的出 現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率;確定模塊,用于將最大的后驗概率的候選實名作為所述待挖掘用戶的最優(yōu)實名。10.如權利要求9所述的裝置,其特征在于,所述獲取挖掘模塊包括:獲取篩選單元,用于獲取與待挖掘用戶對應的多個用戶備注信息,并根據(jù)姓名結(jié)構(gòu)規(guī) 則和預設的姓氏匹配表在所述多個用戶備注信息中篩選出滿足姓氏條件的第一類用戶備 注信息;刪除確定單元,用于將所述第一類用戶備注信息中包含專有名詞和/或高頻詞的用戶 備注信息刪除,并將刪除后所剩余的第一類用戶備注信息確定為至少一個候選用戶備注信 息,并將所述至少一個候選用戶備注信息中相同的候選用戶備注信息分別作為候選實名。11.如權利要求9所述的裝置,其特征在于,所述計算模塊包括:拼音獲取單元,用于獲取各候選用戶備注信息分別對應的全拼音,所述全拼音包括姓 氏拼首和名字拼首;頻次統(tǒng)計單元,用于根據(jù)所述各候選用戶備注信息統(tǒng)計各相同姓氏拼音分別對應的出 現(xiàn)頻次和各相同名字拼音分別對應的出現(xiàn)頻次;第一概率計算單元,用于根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次、各相同名字拼音 分別對應的出現(xiàn)頻次以及候選用戶備注信息總量,計算各相同全拼音分別對應的聯(lián)合概 率;第二概率計算單元,用于根據(jù)最大的聯(lián)合概率的相同全拼音對應的出現(xiàn)頻次以及所述 各候選實名分別對應的出現(xiàn)頻次,計算所述各候選實名分別對應的后驗概率。12.如權利要求11所述的裝置,其特征在于,所述第一概率計算單元包括:第一概率計算子單元,用于根據(jù)各相同姓氏拼音分別對應的出現(xiàn)頻次以及候選用戶備 注信息總量,計算所述各相同姓氏拼音分別對應的第一概率;第二概率計算子單元,用于根據(jù)各相同名字拼音分別對應的出現(xiàn)頻次以及候選用戶備 注信息總量,計算所述各相同名字拼音分別對應的第二概率;聯(lián)合概率計算子單元,用于對各所述第一概率和各所述第二概率進行計算,以得到各 相同全拼音分別對應的聯(lián)合概率。13.如權利要求9所述的裝置,其特征在于,所述確定模塊包括:第一判斷單元,用于判斷最大的后驗概率是否大于預設概率閾值;第一確定單元,用于若所述第一判斷單元判斷為是,則將所述最大的后驗概率的候選 實名作為所述待挖掘用戶的最優(yōu)實名;修正確定單元,用于若所述第一判斷單元判斷為否,則根據(jù)預設的調(diào)權規(guī)則對所述各 候選實名分別對應的后驗概率進行修正,并將最大的修正后的后驗概率的候選實名作為所 述待挖掘用戶的最優(yōu)實名;其中,所述調(diào)權規(guī)則包括:候選實名的出現(xiàn)頻次與修正參數(shù)的映射關系、相同全拼音的 權重與修正參數(shù)的映射關系、候選實名的字符復雜度與修正參數(shù)的映射關系、候選實名的 字符長度與修正參數(shù)的映射關系、姓氏的普及程度與修正參數(shù)的映射關系中的至少一種映射關系。14.如權利要求9所述的裝置,其特征在于,所述確定模塊包括:第二判斷單元,用于判斷最大的后驗概率是否大于預設概率閾值;第二確定單元,用于若所述第二判斷單元判斷為是,則將所述最大的后驗概率的候選 實名作為所述待挖掘用戶的最優(yōu)實名;權重計算確定單元,用于若所述第二判斷單元判斷為否,則根據(jù)所述各候選用戶備注 信息分別對應的用戶備注實名習慣值以及所述各候選實名分別對應的后驗概率,計算所述 各候選實名分別對應的排序權重值,并將最大的排序權重值的候選實名作為所述待挖掘用 戶的最優(yōu)實名;其中,所述用戶備注實名習慣值是指用戶對好友進行備注中為實名的用戶備注信息數(shù) 量與該用戶對好友進行備注的所有用戶備注信息的數(shù)量的比值。15.如權利要求9所述的裝置,其特征在于,所述確定模塊包括:第三判斷單元,用于判斷最大的后驗概率是否大于預設概率閾值;第三確定單元,用于若所述第三判斷單元判斷為是,則將所述最大的后驗概率的候選 實名作為所述待挖掘用戶的最優(yōu)實名;模型評分確定單元,用于若所述第三判斷單元判斷為否,則選擇最大和第二大的后驗 概率的候選實名分別對應的候選用戶備注信息,并對所選擇出的候選用戶備注信息進行特 征抽取,并根據(jù)抽取的所述特征和預設的排序rank模型對最大和第二大的后驗概率的候選 實名進行評分,并將評分高的候選實名作為所述待挖掘用戶的最優(yōu)實名。16.如權利要求15所述的裝置,其特征在于,還包括:獲取確定模塊,用于獲取與已知用戶實名的用戶對應的用于訓練rank模型的多個訓練 用戶備注信息,并將所述多個訓練用戶備注信息中相同的訓練用戶備注信息分別作為訓練 候選實名;集合確定模塊,用于將為所述用戶實名的訓練候選實名所對應的各訓練用戶備注信息 作為第一支撐集合;所述第一支撐集合對應第一得分數(shù)值;所述集合確定模塊,還用于將為非所述用戶實名且具有所述用戶實名的全拼音的訓練 候選實名所對應的各訓練用戶備注信息作為第二支撐集合;所述第二支撐集合對應第二得 分數(shù)值,所述第一得分數(shù)值大于所述第二得分數(shù)值;模型訓練模塊,用于抽取所述第一支撐集合的特征和所述第二支撐集合的特征,并根 據(jù)所述第一支撐集合的特征和所述第一得分數(shù)值、所述第二支撐集合的特征和所述第二得 分數(shù)值建立并訓練rank模型;其中,訓練后的rank模型中的所述第一支撐集合和所述第二支撐集合是用于對所輸入 的候選實名進行評分。
【文檔編號】G06Q50/00GK106021235SQ201610387322
【公開日】2016年10月12日
【申請日】2016年6月1日
【發(fā)明人】黃引剛
【申請人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
马尔康县| 克山县| 宁津县| 祁阳县| 汉川市| 自贡市| 钟山县| 安塞县| 额济纳旗| 晋中市| 北宁市| 黑河市| 新乡市| 宜兴市| 德惠市| 手机| 江门市| 莱芜市| 垣曲县| 桦甸市| 溧阳市| 霍山县| 甘孜县| 乌鲁木齐县| 东丰县| 钟祥市| 鹰潭市| 淳安县| 肥西县| 石家庄市| 沈阳市| 密云县| 漠河县| 新巴尔虎右旗| 弥勒县| 万年县| 岐山县| 东乌| 罗山县| 宝丰县| 深圳市|