欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種人名的識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào):6331328閱讀:300來(lái)源:國(guó)知局
專利名稱:一種人名的識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)和搜索領(lǐng)域,尤其涉及一種人名的識(shí)別方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,用戶越來(lái)越多的通過(guò)互聯(lián)網(wǎng)中搜索軟件對(duì)中國(guó)的人名進(jìn)行搜索?,F(xiàn)有的人名的識(shí)別方法具體為從語(yǔ)料庫(kù)(即存儲(chǔ)數(shù)據(jù)庫(kù))中自動(dòng)抽取角色信息,采取Viterbi算法對(duì)切詞結(jié)果進(jìn)行角色標(biāo)注,在角色序列的基礎(chǔ)上,進(jìn)行模式最大匹配,最終實(shí)現(xiàn)中國(guó)人名的識(shí)別。按照現(xiàn)有技術(shù)所提供的技術(shù)方案,發(fā)現(xiàn)現(xiàn)有技術(shù)中存在如下技術(shù)問(wèn)題現(xiàn)有技術(shù)提供的技術(shù)方案的方法是對(duì)切詞結(jié)果進(jìn)行角色標(biāo)注的,所以當(dāng)切詞結(jié)果出現(xiàn)錯(cuò)誤時(shí),容易對(duì)人名識(shí)別錯(cuò)誤,識(shí)別錯(cuò)誤率高。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種人名的識(shí)別方法,旨在解決現(xiàn)有技術(shù)的識(shí)別方法對(duì)切詞結(jié)果出現(xiàn)錯(cuò)誤時(shí),容易對(duì)人名識(shí)別錯(cuò)誤,識(shí)別錯(cuò)誤率高的問(wèn)題。本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種人名的識(shí)別方法,所述方法包括如下步驟將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;根據(jù)該初始序列中的詞條確定候選人名;如該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名。本發(fā)明還提供一種人名的識(shí)別系統(tǒng),所述系統(tǒng)包括存儲(chǔ)單元,用于將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;確定單元,用于根據(jù)該初始序列中的詞條確定候選人名;識(shí)別單元,用于在該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)預(yù)設(shè)次數(shù)超過(guò)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名。本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比,有益效果在于本發(fā)明的技術(shù)方案對(duì)初始序列的人名和該人名出現(xiàn)次數(shù)建立人名頻率表,然后根據(jù)該初始序列的詞條確定候選人名,并將該候選人名與該人名頻率表中的人名進(jìn)行比對(duì),如出現(xiàn)在該人名頻率表中,且該人名頻率表中的次數(shù)超過(guò)次數(shù)閾值時(shí),確定該候選人名為漏識(shí)別的人名,由于該方法是以初始序列為基礎(chǔ)進(jìn)行錯(cuò)誤修正的,所以其具有當(dāng)切詞結(jié)果出現(xiàn)錯(cuò)誤時(shí),會(huì)對(duì)現(xiàn)有技術(shù)的識(shí)別結(jié)果(即初始序列)進(jìn)行錯(cuò)誤修正的處理,所以其具有提高人名識(shí)別準(zhǔn)確率的優(yōu)點(diǎn)。


圖1是本發(fā)明提供的一種人名的識(shí)別方法的流程圖;圖2是本發(fā)明實(shí)施例一提供一種人名的識(shí)別方法的流程圖3為本發(fā)明實(shí)施例一提供一種人名修正流程圖;圖4是本發(fā)明實(shí)施例二提供一種人名的識(shí)別方法的流程圖;圖5是本發(fā)明實(shí)施例三提供一種人名的識(shí)別方法的流程圖;圖6為本發(fā)明提供一種人名的識(shí)別系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明提供一種人名的識(shí)別方法,該方法如圖1所示,具體包括如下步驟S10、將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;需要說(shuō)明的是,上述初始序列可以為對(duì)人名經(jīng)過(guò)初步識(shí)別處理后的序列。上述識(shí)別處理的方法可以為現(xiàn)有技術(shù)的方法,例如Viterbi算法,當(dāng)然也可以為別的識(shí)別方法,只要該方法能夠初步識(shí)別出人名即可,本發(fā)明并不局限該識(shí)別方法的具體表現(xiàn)形式。Sl 1、根據(jù)該初始序列中的詞條確定候選人名;S12、如該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名。可選的,該方法還可以包括標(biāo)注該識(shí)別出的人名,并根據(jù)該候選人名在初始序列中出現(xiàn)的次數(shù)來(lái)更新人名頻率表。上述預(yù)設(shè)次數(shù)閾值用戶可以預(yù)先自行設(shè)定,例如1、2、3等等,本發(fā)明并不局限該次數(shù)閾值的具體取值。可選的,實(shí)現(xiàn)Sll的具體方法可以為下屬方式中的任何一種,當(dāng)然也可以為下屬方式中的任意組合。方式A、將初始序列中連續(xù)的二個(gè)或多個(gè)詞條組合成候選人名;方式B、將初始序列中二個(gè)字的人名詞條與該詞條的后一個(gè)詞條的第一個(gè)漢字組成候選人名;方式C、將初始序列中三個(gè)字的人名詞條的前二個(gè)字組成候選人名。需要說(shuō)明的是,本發(fā)明提供的人名識(shí)別方法主要用于中文人名的識(shí)別,如果其他文字的人名具有中文人名的特征,則也可以應(yīng)用到其它文字,例如滿文或一些其它的少數(shù)
名族文字等。本實(shí)施例提供的方法對(duì)初始序列的人名和該人名出現(xiàn)次數(shù)建立人名頻率表,然后根據(jù)該初始序列的詞條確定候選人名,并將該候選人名與該人名頻率表中的人名進(jìn)行比對(duì),如出現(xiàn)在該人名頻率表中,且該人名頻率表中的次數(shù)超過(guò)次數(shù)閾值時(shí),確定該候選人名為漏識(shí)別的人名,將該候選人名標(biāo)識(shí),并更新該人名頻率表,由于該方法是以初始序列為基礎(chǔ)進(jìn)行錯(cuò)誤修正的,所以其具有當(dāng)切詞結(jié)果出現(xiàn)錯(cuò)誤時(shí),會(huì)對(duì)現(xiàn)有技術(shù)的識(shí)別結(jié)果(即初始序列)進(jìn)行錯(cuò)誤修正的處理,所以其能著重解決人名識(shí)別中的傳統(tǒng)難題無(wú)姓氏人名識(shí)別和人名識(shí)別歧義,從而能提高人名識(shí)別準(zhǔn)確率。實(shí)施例一本實(shí)施例提供一種人名的識(shí)別方法,本實(shí)施例實(shí)現(xiàn)的技術(shù)場(chǎng)景為本實(shí)施例提供的方法由識(shí)別設(shè)備完成,該識(shí)別設(shè)備具體可以為,計(jì)算機(jī)、移動(dòng)終端、PDA等數(shù)碼電子設(shè)備,本實(shí)施例以中文為例,本實(shí)施例以下段文檔為例來(lái)說(shuō)明本實(shí)施例的識(shí)別方法,需要說(shuō)明的是,下段文字可以為經(jīng)過(guò)現(xiàn)有技術(shù)的識(shí)別處理方法處理后的序列,為了方便說(shuō)明,本實(shí)施例將經(jīng)過(guò)識(shí)別方法識(shí)別處理后的序列統(tǒng)一稱為初始序列。該初始序列具體如下所示之前因走音晉級(jí)激怒包小柏/nr的“話題選手”曾軼可/nr當(dāng)晚再次成為焦點(diǎn)人物。內(nèi)地“支持派”評(píng)委還是非??春迷W可/nr的原創(chuàng)音樂(lè)和清新臺(tái)風(fēng)。被稱為“綿羊天使”的曾軼可/nr帶來(lái)的依舊是自己的原創(chuàng)作品《獅子座》。曾軼可/nr仍然是“爭(zhēng)議可”。曾軼可/nr與第二輪得分最低的“小燕子”李麗/nr進(jìn)行終極1 對(duì)決。此刻曾軼可/nr與李麗/nr的投票比分為0 2。然后她旁邊的李麗/nr拉了下她說(shuō)冷靜點(diǎn)。曾軼可/nr的“想罵人”三個(gè)字非常清晰。記者發(fā)現(xiàn)曾軼可/nr已經(jīng)連夜撰寫博客。對(duì)比賽中因安慰李麗/nr所說(shuō)的一句不當(dāng)話語(yǔ)進(jìn)行了真誠(chéng)的道歉。曾軼可/nr表示絕對(duì)不會(huì)因?yàn)橥饨绲脑u(píng)說(shuō)放棄自己的音樂(lè)夢(mèng)想。李麗/nr也在自己的博客里替曾軼可/nr澄清。但陸續(xù)I3K的軼可還是忍不住淚水。李麗喜/nr得2007雪碧我型我秀全國(guó)第13名。李麗方/nr得以勝出。曾軼/nr可以一票之差不敵劉惜君/nr轉(zhuǎn)為待定。其中,上述初始序列中的“nr”的詞條為識(shí)別出的人名。上述詞條可以為字典里預(yù)先定義的一些詞,例如“可以”、“全國(guó)”等等,當(dāng)然也可以為人為設(shè)置的一些詞,例如“李連杰”、“成龍”、“喬丹”等;需要說(shuō)明的是,初始序列中的詞條通過(guò)空格符隔開(kāi),例如“但陸續(xù)”中,詞條“但”和詞條“陸續(xù)”通過(guò)空格符隔開(kāi)。本實(shí)施例提供的方法如圖2所示,具體包括如下步驟S20、將該初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;上述初始序列的人名頻率表具體可以如表1所示表 1
人名次數(shù)曾軼可10包小柏1李麗7李麗喜1李麗方1曾軼1S21、將連續(xù)的二個(gè)或多個(gè)詞條組合成候選人名;需要說(shuō)明的是,上述詞條可以為單個(gè)字的詞條,例如“在”;當(dāng)然在實(shí)際情況中,也可以為多個(gè)字的詞條,例如“話語(yǔ)”。需要說(shuō)明的是,如有連續(xù)的多個(gè)單字詞條時(shí),其組成的候選人名也可以為多個(gè)候選人名,這里以連續(xù)的二個(gè)單字詞條組合成候選人名為例,“拉了下她說(shuō)”可以組成4個(gè)候選人名,分別為“拉下”、“了下”、“下她”、“她說(shuō)”。需要說(shuō)明的是,上述組合成候選人名單字詞條的個(gè)數(shù)一般為2、3、4 ;當(dāng)然該個(gè)數(shù)的定義只是按當(dāng)前中國(guó)姓名字?jǐn)?shù)的習(xí)慣來(lái)規(guī)定的,不排除當(dāng)習(xí)慣改變時(shí),命名字?jǐn)?shù)變成8、9、10等字?jǐn)?shù),例如外國(guó)人的中文名字的個(gè)數(shù)即為超過(guò)4的個(gè)數(shù),上述多個(gè)可以根據(jù)實(shí)際情況設(shè)定。S22、如該候選人名出現(xiàn)在上述人名頻率表中,且出現(xiàn)次數(shù)大于次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名標(biāo)注,并更新該人名頻率表。上述更新該人名頻率表的具體方式可以為對(duì)該人名頻率表中出現(xiàn)的該候選人名的次數(shù)進(jìn)行更新,例如該候選人名出現(xiàn)過(guò)2次,則將該人名頻率表中對(duì)該候選人名的次數(shù)增加2次。本實(shí)施例方法中的修正的流程圖如圖3所示,其中,可以將S20的人名存儲(chǔ)在圖3的人名頻率表中,而錯(cuò)誤修正可以完成S21和S22的操作。本實(shí)施例提供的方法對(duì)初始序列的人名和該人名出現(xiàn)次數(shù)建立人名頻率表,然后將連續(xù)的二個(gè)或多個(gè)詞條組成候選人名與該人名頻率表中的人名進(jìn)行比對(duì),如出現(xiàn)在該人名頻率表中,且該人名頻率表中的次數(shù)超過(guò)次數(shù)閾值時(shí),確定該候選人名為漏識(shí)別的人名,將該候選人名標(biāo)識(shí),并更新該人名頻率表,由于該方法是以初始序列為基礎(chǔ)進(jìn)行錯(cuò)誤修正的,所以其具有當(dāng)切詞結(jié)果出現(xiàn)錯(cuò)誤時(shí),會(huì)對(duì)現(xiàn)有技術(shù)的識(shí)別結(jié)果(即初始序列)進(jìn)行錯(cuò)誤修正的處理,所以其能著重解決人名識(shí)別中的傳統(tǒng)難題無(wú)姓氏人名識(shí)別和人名識(shí)別歧義,從而能提高人名識(shí)別準(zhǔn)確率的優(yōu)點(diǎn)。實(shí)施例二 本實(shí)施例提供一種人名的識(shí)別方法,本實(shí)施例提供的技術(shù)場(chǎng)景與實(shí)施例一提供的技術(shù)場(chǎng)景相同,該方法如圖4所示,包括如下步驟S40、將該初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;該人名頻率表具體可以如表1所示。S41、將二個(gè)字的人名詞條與該詞條的后一個(gè)詞條的第一個(gè)漢字組成候選人名;下面以一個(gè)實(shí)際的例子來(lái)說(shuō)明S41的實(shí)現(xiàn)方法,這里以上述二個(gè)字的人名詞條“曾軼/nr”,該詞條的后一個(gè)詞條為“可以”,則組成的候選人名為“曾軼可”。當(dāng)然在實(shí)際情況中,也可以將二個(gè)字的人名詞條與該詞條的后一個(gè)詞條的前兩個(gè)漢字組成候選人名。S42、如該候選人名出現(xiàn)在上述人名頻率表中,且出現(xiàn)次數(shù)大于次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名標(biāo)注,并更新該人名頻率表。這里假設(shè)次數(shù)閾值為3次,當(dāng)然在實(shí)際情況中,可以設(shè)置成其它的數(shù)字,例如2、4或1等等,由于候選人名“曾軼可”在人名頻率表中出現(xiàn)的次數(shù)為10次,大于次數(shù)閾值,所以對(duì)“曾軼可”進(jìn)行人名標(biāo)注,并更新人名頻率表,更新后的人名頻率表如表2所示表權(quán)利要求
1.一種人名的識(shí)別方法,其特征在于,所述方法包括如下步驟將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中,根據(jù)該初始序列中的詞條確定候選人名;如該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法將該候選人名作為識(shí)別出的人名之后還包括如下步驟標(biāo)注該識(shí)別出的人名,并根據(jù)該候選人名在初始序列中出現(xiàn)的次數(shù)來(lái)更新人名頻率表。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該初始序列中的詞條確定候選人名的步驟具體包括將該初始序列中連續(xù)的二個(gè)或多個(gè)詞條組合成候選人名。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該初始序列中的詞條確定候選人名的步驟具體包括將該初始序列中二個(gè)字的人名詞條與該詞條的后一個(gè)詞條的第一個(gè)漢字或前二個(gè)漢字組成候選人名。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該初始序列中的詞條確定候選人名的步驟具體包括將該初始序列中三個(gè)字的人名詞條的前二個(gè)字組成候選人名。
6.一種人名的識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括存儲(chǔ)單元,用于將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;確定單元,用于根據(jù)該初始序列中的詞條確定候選人名;識(shí)別單元,用于在該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括標(biāo)注更新單元,用于標(biāo)注該識(shí)別出的人名,并根據(jù)該候選人名在初始序列中出現(xiàn)的次數(shù)來(lái)更新人名頻率表。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述候選單元包括連續(xù)組合模塊,用于將該初始序列中連續(xù)的二個(gè)或多個(gè)詞條組合成候選人名。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述候選單元包括組合模塊,用于將該初始序列中二個(gè)字的人名詞條與該詞條的后一個(gè)詞條的第一個(gè)漢字或前兩個(gè)漢字組成候選人名。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述候選單元包括組成模塊,用于將該初始序列中三個(gè)字的人名詞條的前二個(gè)字組成候選人名。
全文摘要
本發(fā)明適用于互聯(lián)網(wǎng)和搜索領(lǐng)域,本發(fā)明提供了一種人名的識(shí)別方法及系統(tǒng),該方法包括如下步驟將初始序列中識(shí)別出的人名以及該人名出現(xiàn)的次數(shù)存儲(chǔ)在人名頻率表中;根據(jù)該初始序列中的詞條確定候選人名;如該候選人名出現(xiàn)在該人名頻率表中,且出現(xiàn)次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值時(shí),將該候選人名作為識(shí)別出的人名標(biāo)注。本發(fā)明提供的技術(shù)方案具有提高人名識(shí)別準(zhǔn)確率的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK102385587SQ201010270770
公開(kāi)日2012年3月21日 申請(qǐng)日期2010年8月27日 優(yōu)先權(quán)日2010年8月27日
發(fā)明者方高林, 羅長(zhǎng)升 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
武山县| 萝北县| 灵寿县| 定兴县| 无棣县| 自治县| 天柱县| 天全县| 苗栗县| 夏津县| 南皮县| 刚察县| 太湖县| 东兰县| 浦东新区| 张家界市| 游戏| 左云县| 磐安县| 军事| 个旧市| 开阳县| 焦作市| 卢龙县| 三台县| 林甸县| 淮安市| 沙雅县| 睢宁县| 宁阳县| 鹤庆县| 大港区| 建德市| 磴口县| 东海县| 天津市| 永丰县| 临夏市| 高碑店市| 荣昌县| 绵阳市|