欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法及系統(tǒng)與流程

文檔序號:11830489閱讀:來源:國知局

技術(shù)特征:

1.一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,其包括如下步驟:

S1、采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到步驟S2、步驟S3;

S2、篩除采集與挖掘后的數(shù)據(jù)中的常見人名,并對篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到步驟S4;

S3、對采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到步驟S4;

S4、根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫;

S5、根據(jù)特殊人名集合與特征庫建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。

2.如權(quán)利要求1所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,其還包括如下步驟:

S6、根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評估。

3.如權(quán)利要求2所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,

特殊人名為少見姓氏人名或遵循某種字輩規(guī)則的非常見姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過轉(zhuǎn)義推理的,形式化表示為Vothers。

4.如權(quán)利要求3所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,

所述步驟S2中通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類包括:

以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對姓氏進(jìn)行概率計(jì)算:

其中,F(xiàn)(xi|Li)(i=1...n)表示人名為Li的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。

5.如權(quán)利要求4所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其特征在于,

SNNPAR模型如下:

上式用于表示特殊姓名與籍貫的匹配程度,即通過特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。

6.一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,其包括如下單元:

信息采集單元,用于采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到篩選分類單元、特征提取關(guān)聯(lián)規(guī)則單元;

篩選分類單元,用于篩除采集與挖掘后的數(shù)據(jù)中的常見人名,并對篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到特殊人名集合與特征庫建立單元;

特征提取關(guān)聯(lián)規(guī)則單元,用于對采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到特殊人名集合與特征庫建立單元;

特殊人名集合與特征庫建立單元,用于根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提 取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫;

推斷單元,用于根據(jù)特殊人名集合與特征庫建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。

7.如權(quán)利要求6所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,其還包括如下步驟:

性能評估單元,用于根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評估。

8.如權(quán)利要求7所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,

特殊人名為少見姓氏人名或遵循某種字輩規(guī)則的非常見姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過轉(zhuǎn)義推理的,形式化表示為Vothers。

9.如權(quán)利要求8所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,

所述篩選分類單元中通過分類校驗(yàn)特殊人名與常見人名進(jìn)行分類包括:

以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對姓氏進(jìn)行概率計(jì)算:

其中,F(xiàn)(xi|Li)(i=1...n)表示人名為Li的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。

10.如權(quán)利要求9所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其特征在于,

SNNPAR模型如下:

上式用于表示特殊姓名與籍貫的匹配程度,即通過特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
安阳市| 林周县| 雷州市| 胶州市| 大厂| 东阳市| 内江市| 井陉县| 兰坪| 嘉定区| 宜宾县| 巫山县| 奇台县| 虎林市| 土默特左旗| 金昌市| 景洪市| 白沙| 宜宾市| 封丘县| 锦州市| 郴州市| 左权县| 汾阳市| 紫金县| 化德县| 河池市| 凉城县| 双牌县| 平阴县| 金平| 凯里市| 临夏市| 文山县| 云南省| 开封市| 格尔木市| 会昌县| 米易县| 临湘市| 县级市|