1.一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,其包括如下步驟:
S1、采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到步驟S2、步驟S3;
S2、篩除采集與挖掘后的數(shù)據(jù)中的常見人名,并對篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到步驟S4;
S3、對采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到步驟S4;
S4、根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫;
S5、根據(jù)特殊人名集合與特征庫建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。
2.如權(quán)利要求1所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,其還包括如下步驟:
S6、根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評估。
3.如權(quán)利要求2所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,
特殊人名為少見姓氏人名或遵循某種字輩規(guī)則的非常見姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過轉(zhuǎn)義推理的,形式化表示為Vothers。
4.如權(quán)利要求3所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,
所述步驟S2中通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類包括:
以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對姓氏進(jìn)行概率計(jì)算:
其中,F(xiàn)(xi|Li)(i=1...n)表示人名為Li的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。
5.如權(quán)利要求4所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,
SNNPAR模型如下:
上式用于表示特殊姓名與籍貫的匹配程度,即通過特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。
6.一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,其包括如下單元:
信息采集單元,用于采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到篩選分類單元、特征提取關(guān)聯(lián)規(guī)則單元;
篩選分類單元,用于篩除采集與挖掘后的數(shù)據(jù)中的常見人名,并對篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到特殊人名集合與特征庫建立單元;
特征提取關(guān)聯(lián)規(guī)則單元,用于對采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到特殊人名集合與特征庫建立單元;
特殊人名集合與特征庫建立單元,用于根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提 取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫;
推斷單元,用于根據(jù)特殊人名集合與特征庫建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。
7.如權(quán)利要求6所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,其還包括如下步驟:
性能評估單元,用于根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評估。
8.如權(quán)利要求7所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,
特殊人名為少見姓氏人名或遵循某種字輩規(guī)則的非常見姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過轉(zhuǎn)義推理的,形式化表示為Vothers。
9.如權(quán)利要求8所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,
所述篩選分類單元中通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類包括:
以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對姓氏進(jìn)行概率計(jì)算:
其中,F(xiàn)(xi|Li)(i=1...n)表示人名為Li的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。
10.如權(quán)利要求9所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,
SNNPAR模型如下:
上式用于表示特殊姓名與籍貫的匹配程度,即通過特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。