本發(fā)明涉及大數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,特別涉及一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法及系統(tǒng)。
背景技術(shù):
:隨著信息時(shí)代的發(fā)展和時(shí)代的進(jìn)步,各方各業(yè)都產(chǎn)生了很多行業(yè)性質(zhì)的大數(shù)據(jù)。針對(duì)大數(shù)據(jù)的研究對(duì)各方各業(yè)的發(fā)展存在無(wú)法估量的知識(shí)價(jià)值、經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值。當(dāng)前,國(guó)內(nèi)外學(xué)者鮮有針對(duì)大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)的相關(guān)工作。主要包括以下幾個(gè)方面:中文人名的識(shí)別:中文分詞技術(shù)的研究是中文信息處理的一項(xiàng)基礎(chǔ)性課題,廣泛應(yīng)用于搜索引擎、機(jī)器翻譯、信息抽取、文本聚類等領(lǐng)域。目前,影響分詞質(zhì)量的主要因素是歧義切分和對(duì)未登錄詞的識(shí)別,而人名在未登錄詞中又是數(shù)量最多、識(shí)別難度最大的一類,分詞系統(tǒng)中往往針對(duì)人名有專門的模塊進(jìn)行識(shí)別。提高對(duì)人名識(shí)別的質(zhì)量,不僅能夠提高分詞的精度,而且對(duì)信息抽取和詞法分析有很大幫助。臧勇真針對(duì)現(xiàn)代漢語(yǔ)文本,主要研究人名的自動(dòng)識(shí)別問(wèn)題。在對(duì)大規(guī)模姓名樣本庫(kù)和語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上,對(duì)人名用字和人名邊界詞進(jìn)行分析,總結(jié)人名用字和人名邊界詞出現(xiàn)規(guī)律,使用基于相對(duì)可信度的統(tǒng)計(jì)模型和針對(duì)系統(tǒng)自身特點(diǎn)設(shè)計(jì)的一系列規(guī)則來(lái)進(jìn)行人名識(shí)別。漢語(yǔ)未登錄詞識(shí)別:未登錄詞的識(shí)別是漢語(yǔ)自動(dòng)分詞中的主要問(wèn)題。呂雅娟等人以對(duì)中國(guó)人名,中國(guó)地名和外國(guó)譯名進(jìn)行整體識(shí)別為目標(biāo),采用分解處理策略降低了整體處理難度,并使用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)了最佳路徑的搜索,較好地解決了未登錄詞之間的沖突問(wèn)題。中國(guó)姓氏的自動(dòng)識(shí)別:張華平等人提出了一種基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別方法。其基本思想是:根據(jù)在人名識(shí)別中的作用,采取Viterbi算法對(duì)切詞結(jié)果進(jìn)行角色標(biāo)注,在角色序列的基礎(chǔ)上,進(jìn)行模式最大匹配,最終實(shí)現(xiàn)中國(guó)人名的識(shí)別。識(shí)別過(guò)程中只需要將某個(gè)詞作為特定角色的概率以及角色之間的轉(zhuǎn)移概率。該方法的實(shí)用性還在于:這些角色信息完全可以從真實(shí)語(yǔ)料庫(kù)中自動(dòng)抽取得到。中文人名的辨識(shí):專用名詞雖然只占中文文章中的詞的百分之一到百分之二,但是,如果不對(duì)這些專用名詞加以處理,將會(huì)形成自動(dòng)分詞的錯(cuò)誤的大部分。張俊盛等人描述了包括中文姓名辨識(shí)的分詞方法,然后介紹其實(shí)驗(yàn)結(jié)果。最后,他們討論了中文姓名辨識(shí)被遺漏和誤判的原因,并提出未來(lái)的研究方向。專有名詞的識(shí)別對(duì)自動(dòng)分詞有重要意義。黃德根等人針對(duì)如何識(shí)別中文姓名做了有益的嘗試,主要采用基于統(tǒng)計(jì)方法,進(jìn)行中文姓名識(shí)別。同時(shí),建立了有監(jiān)督學(xué)習(xí)機(jī)制,提出了句子切分結(jié)果可信度等概念,并在此基礎(chǔ)上建立了較好的統(tǒng)計(jì)模型。劉秉偉等人介紹一個(gè)中文姓名的自動(dòng)識(shí)別系統(tǒng),該系統(tǒng)使用從姓名樣本庫(kù)和真實(shí)文本語(yǔ)料庫(kù)中得到的大量統(tǒng)計(jì)數(shù)據(jù),以提高系統(tǒng)識(shí)別性能。李中國(guó)等人提出了一種基于篇章信息的中國(guó)人名識(shí)別算法。他們從標(biāo)注語(yǔ)料中提取人名左右邊界詞語(yǔ)及人名用字頻度作為系統(tǒng)知識(shí)源。識(shí)別過(guò)程是:首先利用帶有頻度的邊界模板識(shí)別出可能的人名,并把識(shí)別結(jié)果擴(kuò)散到整篇文章以召回?cái)?shù)據(jù)稀疏導(dǎo)致的遺漏人名。然后應(yīng)用上下文局部統(tǒng)計(jì)量及幾條啟發(fā)式規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行邊界校正。專名識(shí)別技術(shù)是影響中文自動(dòng)分詞精度的一個(gè)重要方面,也是自動(dòng)分詞技術(shù)的難點(diǎn)之一。羅智勇等人以人名識(shí)別為例,分析了目前流行的基于語(yǔ)料庫(kù)和統(tǒng)計(jì)語(yǔ)言模型的專名識(shí)別方法中在概率估值問(wèn)題上存在的弊端;同時(shí)在規(guī)則和統(tǒng)計(jì)相結(jié)合的基礎(chǔ)上,提出了一種基于可信度的人名識(shí)別方法,并給出了一個(gè)漸進(jìn)式模型訓(xùn)練方法,克服了人工標(biāo)注語(yǔ)料庫(kù)規(guī)模的限制。倪吉等人根據(jù)中國(guó)人名的形成方式,總結(jié)和統(tǒng)計(jì)了人名的用字特征和邊界模板特征,通過(guò)計(jì)算人名內(nèi)聚度、人名區(qū)分度和邊界模板可信度的綜合概率作為人名可信度,對(duì)文本中人名進(jìn)行識(shí)別或?qū)σ炎R(shí)別的人名進(jìn)行糾正。同時(shí),他們將可信度檢測(cè)模塊嵌入到一個(gè)簡(jiǎn)易的命名實(shí)體平臺(tái)中。中文姓名識(shí)別是自然語(yǔ)言處理中專名識(shí)別的一個(gè)重要的子問(wèn)題。王振華等人將中文姓名的識(shí)別過(guò)程細(xì)分為三個(gè)步驟:抽取階段、分類階段和消歧階段。利用中文姓和名的用字概率信息,在文本中抽取潛在的中文姓名,以及其相關(guān)的上下文詞法、語(yǔ)法和語(yǔ)義特征,并將潛在姓名是否是真實(shí)姓名的判別看作是兩分類問(wèn)題,并利用決策樹(shù)算法來(lái)實(shí)現(xiàn)初步判別,最后消除初步判別結(jié)果中的歧義現(xiàn)象。鄭家恒等人在大規(guī)模語(yǔ)料基礎(chǔ)上提取和分析了中文姓氏和名字用字的使用頻率,研究了中文姓名識(shí)別的評(píng)價(jià)函數(shù),動(dòng)態(tài)地建立了姓名識(shí)別統(tǒng)計(jì)數(shù)據(jù)表和姓名閾值。提出了在不作分詞處理的原始文本中進(jìn)行中文姓名識(shí)別的方法。時(shí)迎超等人實(shí)現(xiàn)了一個(gè)基于多實(shí)體識(shí)別系統(tǒng)整合和啟發(fā)式規(guī)則的后處理方法的人名識(shí)別系統(tǒng),從而實(shí)現(xiàn)對(duì)文檔中的人名,特別是查詢?cè)~所涉及的人名的識(shí)別?,F(xiàn)有技術(shù)中尚未有針對(duì)大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)的相關(guān)技術(shù)。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提出一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法及系統(tǒng)。一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其包括如下步驟:S1、采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對(duì)人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到步驟S2、步驟S3;S2、篩除采集與挖掘后的數(shù)據(jù)中的常見(jiàn)人名,并對(duì)篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到步驟S4;S3、對(duì)采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到步驟S4;S4、根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫(kù);S5、根據(jù)特殊人名集合與特征庫(kù)建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,其還包括如下步驟:S6、根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評(píng)估。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,特殊人名為少見(jiàn)姓氏人名或遵循某種字輩規(guī)則的非常見(jiàn)姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識(shí)物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過(guò)轉(zhuǎn)義推理的,形式化表示為Vothers。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,所述步驟S2中通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類包括:以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對(duì)姓氏進(jìn)行概率計(jì)算:P(x1x2...xn|NAME)≈P(x1|L1)×P(x2|L2)...P(xn|Ln)≈F(x1|L1)F(x1)×F(x2|L2)F(x2)×...×F(xn|Ln)F(xn)]]>其中,F(xiàn)(xi|Li)(i=1...n)表示人名為L(zhǎng)i的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,SNNPAR模型如下:P(y)SN-NP=SN(i)~NP(j)=Σi=1nxsi/dyΣj=1mjgj/m]]>上式用于表示特殊姓名與籍貫的匹配程度,即通過(guò)特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。本發(fā)明還提供一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其包括如下單元:信息采集單元,用于采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對(duì)人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到篩選分類單元、特征提取關(guān)聯(lián)規(guī)則單元;篩選分類單元,用于篩除采集與挖掘后的數(shù)據(jù)中的常見(jiàn)人名,并對(duì)篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到特殊人名集合與特征庫(kù)建立單元;特征提取關(guān)聯(lián)規(guī)則單元,用于對(duì)采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到特殊人名集合與特征庫(kù)建立單元;特殊人名集合與特征庫(kù)建立單元,用于根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫(kù);推斷單元,用于根據(jù)特殊人名集合與特征庫(kù)建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,其還包括如下步驟:性能評(píng)估單元,用于根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評(píng)估。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,特殊人名為少見(jiàn)姓氏人名或遵循某種字輩規(guī)則的非常見(jiàn)姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識(shí)物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過(guò)轉(zhuǎn)義推理的,形式化表示為Vothers。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,所述篩選分類單元中通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類包括:以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對(duì)姓氏進(jìn)行概率計(jì)算:P(x1x2...xn|NAME)≈P(x1|L1)×P(x2|L2)...P(xn|Ln)≈F(x1|L1)F(x1)×F(x2|L2)F(x2)×...×F(xn|Ln)F(xn)]]>其中,F(xiàn)(xi|Li)(i=1...n)表示人名為L(zhǎng)i的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,SNNPAR模型如下:P(y)SN-NP=SN(i)~NP(j)=Σi=1nxsi/dyΣj=1mjgj/m]]>上式用于表示特殊姓名與籍貫的匹配程度,即通過(guò)特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。實(shí)施本發(fā)明提供的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法及系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:與傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘不同的是,大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)的研究存在針對(duì)其研究對(duì)象的特殊性。首先,在眾多姓氏中針對(duì)特殊人名的搜索、挖掘與標(biāo)記;在完成后,針對(duì)特殊人名建立特殊人名特征文本庫(kù)。然后,對(duì)特殊人名與籍貫建立關(guān)聯(lián)規(guī)則,與此同時(shí)將籍貫進(jìn)行地域歸屬。由此,就達(dá)到了將特殊人名與地域同時(shí)建立關(guān)聯(lián)規(guī)則的目的。實(shí)現(xiàn)這一目標(biāo),對(duì)公安部門的案情偵測(cè)審理,著名人物祖籍地推斷,家族遷涉軌跡溯源,族譜與輩份修編等研究均有重要的指導(dǎo)意義。此外,本發(fā)明也有利于以此為依據(jù)探索構(gòu)建新的社會(huì)關(guān)系圖,從而方便開(kāi)展社交與商務(wù)活動(dòng)。附圖說(shuō)明圖1是本發(fā)明實(shí)施例的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)結(jié)構(gòu)框圖。圖2為特殊人名與籍貫/地域推斷流程圖;圖3為特殊姓或名與籍貫地關(guān)聯(lián)樣本特征庫(kù)示例圖;圖4為SNNPAR模型與實(shí)驗(yàn)設(shè)計(jì)圖。具體實(shí)施方式如圖1至4所示,針對(duì)現(xiàn)有技術(shù)的缺陷,本發(fā)明提出了一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法,其包括如下步驟:S1、采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對(duì)人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到步驟S2、步驟S3;數(shù)據(jù)采樣與挖掘包括分類、聚類、交叉訓(xùn)練等。關(guān)聯(lián)規(guī)則提取:對(duì)于特殊姓名的認(rèn)定,本發(fā)明實(shí)施例首先采用人工的方法對(duì)特殊姓名建立訓(xùn)練特征庫(kù),然后對(duì)庫(kù)中的特殊姓名采用無(wú)監(jiān)督學(xué)習(xí)的方法進(jìn)行樣本聚類。在建立特征庫(kù)時(shí),每個(gè)姓名都與一個(gè)籍貫地相對(duì)應(yīng),在聚類后就可得到特殊的姓或名所對(duì)應(yīng)的籍貫地聚類結(jié)果。圖3為特征庫(kù)中部分訓(xùn)練樣本的片段。S2、篩除采集與挖掘后的數(shù)據(jù)中的常見(jiàn)人名,并對(duì)篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到步驟S4;S3、對(duì)采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到步驟S4。建立特殊姓名與籍貫之間的聯(lián)系判定規(guī)則,建立信息規(guī)則的線索依據(jù)有:1、各地區(qū)的簡(jiǎn)稱(俗稱)與不同歷史時(shí)期的行政管轄區(qū)域名;2、各地區(qū)獨(dú)有的建筑景觀、氣候物產(chǎn)、著名人物、社會(huì)文化活動(dòng)信息關(guān)鍵詞;3、非常見(jiàn)姓氏的族譜字輩與生活區(qū)域分布信息;4、特有的少數(shù)民族姓氏以及其生活區(qū)域信息;5、具有歷史淵源的特殊姓氏與活動(dòng)區(qū)域記錄;6、國(guó)家歷次人口普查中的姓氏與分布區(qū)域的統(tǒng)計(jì)資料。通過(guò)對(duì)這些信息的抽象歸類,可以建立起特殊姓名與籍貫地關(guān)聯(lián)的推理規(guī)則模型。S4、根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫(kù);S5、根據(jù)特殊人名集合與特征庫(kù)建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。SNNPAR模型:特殊姓氏-籍貫關(guān)聯(lián)規(guī)則模型(SpecificNameNativePlaceAssociationRulesModel),簡(jiǎn)稱SNNPAR模型。此模型能在海量數(shù)據(jù)中針對(duì)特殊姓名建立起與籍貫地的關(guān)聯(lián)規(guī)則,然后通過(guò)關(guān)聯(lián)規(guī)則庫(kù)進(jìn)行查詢,從而推斷出特殊姓名的籍貫地。模型的建立和實(shí)驗(yàn)驗(yàn)證的總體設(shè)計(jì)思路如圖2所示。地域:所謂地域在本發(fā)明實(shí)施例中是指根據(jù)人口普查中的姓氏與分布區(qū)域所得到的統(tǒng)計(jì)資料中,對(duì)應(yīng)的特殊人名的分布區(qū)域。一個(gè)特殊姓氏樣本有可能對(duì)應(yīng)多個(gè)地域,一個(gè)行政區(qū)劃的籍貫也有可能存在多個(gè)地域。稀有程度:在本發(fā)明實(shí)施例中,稀有程度用來(lái)界定某特殊人名(或姓氏)在地域中所占有的比重,比重越小,特殊人名(或姓氏)的稀有程度越高。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,其還包括如下步驟:S6、根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評(píng)估。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,特殊人名為少見(jiàn)姓氏人名或遵循某種字輩規(guī)則的非常見(jiàn)姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識(shí)物命名的,形式化表示為Vregion,如“豫州”、“雪蓮”、“郭沫若”(古沫水與若水,現(xiàn)大渡河與岷江)等詞匯;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea,如湖南桃源維族“翦”姓,云南昭通蒙族“?!毙?;3、按照家譜字輩命名的,形式化表示為Vgeneration;以三字名為例,有的字輩在第二字,有的字輩在第三字,如“樊明文、樊明武”,“藏伯之、藏季之”。4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過(guò)轉(zhuǎn)義推理的,形式化表示為Vothers。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,所述步驟S2中通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類包括:姓名識(shí)別:在中文分詞系統(tǒng)中,姓名的識(shí)別通常是以姓氏進(jìn)行驅(qū)動(dòng)的,識(shí)別過(guò)程中主要計(jì)算的是以姓氏用字的二元統(tǒng)計(jì)概率模型?;谝宰执疄樾帐系淖?jǐn)?shù)不同,建立以下計(jì)算公式對(duì)姓氏進(jìn)行概率計(jì)算:P(x1x2...xn|NAME)≈P(x1|L1)×P(x2|L2)...P(xn|Ln)≈F(x1|L1)F(x1)×F(x2|L2)F(x2)×...×F(xn|Ln)F(xn)---(1)]]>公式(1)中,F(xiàn)(xi|Li)(i=1...n)表示人名為L(zhǎng)i的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。由于常見(jiàn)姓氏(人名)會(huì)導(dǎo)致該公式計(jì)算結(jié)果的急劇增大,因此通過(guò)公式(1)計(jì)算得出的最終結(jié)果可以較準(zhǔn)確的將常見(jiàn)姓氏篩選出來(lái),從而達(dá)到將特殊姓氏(人名)與常見(jiàn)姓氏(人名)區(qū)分開(kāi)的目的。值得說(shuō)明的,特殊中文姓氏遠(yuǎn)多于常見(jiàn)姓氏,利用上述統(tǒng)計(jì)學(xué)計(jì)算公式推理,仍存在不確定事件的小概率樣例發(fā)生。統(tǒng)計(jì)學(xué)方法能正確識(shí)別絕大部分姓氏,針對(duì)類不確定出現(xiàn)的小概率事件,可再采用與規(guī)則提取相結(jié)合的方法,以彌補(bǔ)統(tǒng)計(jì)學(xué)方法的不足。因此,通過(guò)上述過(guò)程處理后,可以較高的區(qū)分度將特殊人名(姓氏)與常見(jiàn)人名(姓氏)區(qū)分開(kāi)。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)方法中,大數(shù)據(jù)環(huán)境下的特殊人名與與籍貫相關(guān)聯(lián)的整個(gè)計(jì)算過(guò)程將在如圖4所示的大數(shù)據(jù)運(yùn)算框架下進(jìn)行。首先模型需要進(jìn)行數(shù)據(jù)源的數(shù)據(jù)采集、數(shù)據(jù)采樣、交叉分組訓(xùn)練、聚類和特征提取等一系列數(shù)據(jù)處理過(guò)程。該過(guò)程在分布式的云計(jì)算集群上進(jìn)行。然后,需要對(duì)數(shù)據(jù)集中的源數(shù)據(jù)進(jìn)行數(shù)據(jù)項(xiàng)和數(shù)據(jù)結(jié)構(gòu)的定義。之后需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,數(shù)據(jù)的查詢、分析和處理等數(shù)據(jù)操作。最后,將進(jìn)行模型的分布式運(yùn)算過(guò)程。整體運(yùn)算過(guò)程將基于大數(shù)據(jù)架構(gòu)Rewdis(桶運(yùn)算、節(jié)點(diǎn)存儲(chǔ)與備份)和構(gòu)造分布式運(yùn)算的Map-Reduce數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)運(yùn)算過(guò)程。其中,圖4中的SN表示特殊姓名,NP表示籍貫。SNNPAR模型如下:P(y)SN-NP=SN(i)~NP(j)=Σi=1nxsi/dyΣj=1mjgj/m---(2)]]>上式用于表示特殊姓名與籍貫的匹配程度,即通過(guò)特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)。從公式(2)中的分子部分可以看出,一個(gè)姓氏的推斷樣本對(duì)應(yīng)的地域數(shù)目有可能存在多個(gè),因此該樣本在地域數(shù)目中所占的比例可用來(lái)表征該特殊姓氏的稀有程度。從公式(2)中的分母部分可以看出,當(dāng)某個(gè)樣本的所屬籍貫被真實(shí)確定后,該樣本可能被推斷的籍貫有可能存在多個(gè),因此分母部分表征了推斷模型對(duì)于樣本所屬籍貫的推斷準(zhǔn)確度。如圖1所示,本發(fā)明實(shí)施例還提供一種大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng),其包括如下單元:信息采集單元,用于采集人名與籍貫信息,包括人名的姓氏、讀音、籍貫地,并對(duì)人名與籍貫信息進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)采樣與挖掘得到采集與挖掘后的數(shù)據(jù);同時(shí)跳轉(zhuǎn)到篩選分類單元、特征提取關(guān)聯(lián)規(guī)則單元。篩選分類單元,用于篩除采集與挖掘后的數(shù)據(jù)中的常見(jiàn)人名,并對(duì)篩除后的數(shù)據(jù)進(jìn)行特殊人名甄別與標(biāo)記;通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類校驗(yàn)得到樣本數(shù)據(jù)結(jié)構(gòu)的定義;并跳轉(zhuǎn)到特殊人名集合與特征庫(kù)建立單元。特征提取關(guān)聯(lián)規(guī)則單元,用于對(duì)采集與挖掘后的數(shù)據(jù)進(jìn)行特征提取并建立關(guān)聯(lián)規(guī)則;并跳轉(zhuǎn)到特殊人名集合與特征庫(kù)建立單元。特殊人名集合與特征庫(kù)建立單元,用于根據(jù)樣本數(shù)據(jù)結(jié)構(gòu)的定義以及提取的特征、關(guān)聯(lián)規(guī)則建立特殊人名集合與特征庫(kù)。推斷單元,用于根據(jù)特殊人名集合與特征庫(kù)建立推斷模型SNNPAR,并根據(jù)模型SNNPAR進(jìn)行特殊人名與籍貫、地域推斷。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,其還包括如下步驟:性能評(píng)估單元,用于根據(jù)特殊人名與籍貫、地域推斷結(jié)果進(jìn)行推斷性能評(píng)估。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,特殊人名為少見(jiàn)姓氏人名或遵循某種字輩規(guī)則的非常見(jiàn)姓氏人名,或具有某種紀(jì)念意義的人名,形式化表示為Vname;特殊姓氏的取名規(guī)則包括:1、以地域名或地域標(biāo)識(shí)物命名的,形式化表示為Vregion;2、姓氏在特定區(qū)域的少數(shù)封閉族群姓氏,形式化表示為Varea;3、按照家譜字輩命名的,形式化表示為Vgeneration;4、同一姓氏在不同地域有著不同讀音,形式化表示為Vphonics;5、姓名與地理位置存在不明確關(guān)聯(lián),但通過(guò)轉(zhuǎn)義推理的,形式化表示為Vothers。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,所述篩選分類單元中通過(guò)分類校驗(yàn)特殊人名與常見(jiàn)人名進(jìn)行分類包括:以姓氏用字的二元統(tǒng)計(jì)概率模型,基于以字串為姓氏的字?jǐn)?shù)不同,建立以下計(jì)算公式對(duì)姓氏進(jìn)行概率計(jì)算:P(x1x2...xn|NAME)≈P(x1|L1)×P(x2|L2)...P(xn|Ln)≈F(x1|L1)F(x1)×F(x2|L2)F(x2)×...×F(xn|Ln)F(xn)]]>其中,F(xiàn)(xi|Li)(i=1...n)表示人名為L(zhǎng)i的條件下,姓氏為xi的樣本個(gè)數(shù);F(xi)(i=1...n)表示姓氏為xi的樣本個(gè)數(shù);二者的比值表示某一姓氏或人名的稀有程度。在本發(fā)明所述的大數(shù)據(jù)環(huán)境下的特殊人名與籍貫關(guān)聯(lián)系統(tǒng)中,SNNPAR模型如下:P(y)SN-NP=SN(i)~NP(j)=Σi=1nxsi/dyΣj=1mjgj/m]]>上式用于表示特殊姓名與籍貫的匹配程度,即通過(guò)特殊姓名推斷籍貫的精度;其中xs表示姓氏,dy表示地域的數(shù)目,jg表示籍貫,n表示特殊姓名中存在的規(guī)則條目數(shù),m表示待推斷的籍貫個(gè)數(shù)??梢岳斫獾氖?,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3