欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種命名實體識別的方法及裝置的制作方法

文檔序號:6441013閱讀:246來源:國知局
專利名稱:一種命名實體識別的方法及裝置的制作方法
技術領域
本申請涉及人工智能領域,尤其涉及一種命名實體識別的方法及裝置。
背景技術
隨著計算機網(wǎng)絡規(guī)模的日益擴大,大量的信息以電子文檔的形式出現(xiàn)在人們面前,互聯(lián)網(wǎng)已成為海量信息的載體。人們迫切希望計算機能夠從海量信息中抽取出有用的信息,而信息抽取的主要任務之一就是命名實體識別(Named Entity Recognized, NER)。命名實體是指被命名的唯一確定的具有特定意義的最小信息單位——專有名稱和數(shù)量短語。主要包括有七種類型的命名實體:人名、地名、組織名、日期、時間、貨幣值和百分數(shù)。命名實體識別的主要是任務是識別出文本中的命名實體并加以歸類。在這七種命名實體中,由于人名、地名和組織名等命名實體具有開放性和發(fā)展性的特點,并且形成規(guī)律具有很大的隨機性,所以對它們的識別會有較多的錯選或漏選,現(xiàn)在大多數(shù)命名實體識別的研究都集中在這三種命名實體的識別技術上?;跅l件隨機場(conditional random fields)的命名實體識別,是目前常用的一種命名實體識別方法。該方法將命名實體識別過程分為兩層,底層的條件隨機場模型僅以觀察值為條件,用于簡單命名實體的識別。然后,將識別的結果傳遞到高層識別模型,這樣高層模型的輸入變量不僅包含觀察值,還包含底層模型的簡單識別結果,從而為高層條件隨機場模型識別復雜命名實體打下基礎。然而在實現(xiàn)本申請實施例中技術方案的過程中,本申請人發(fā)現(xiàn)現(xiàn)有技術至少存在如下缺點:由于現(xiàn)有技術中,只是基于條件隨機場的兩層模型對命名實體進行識別,而沒有考慮到識別出的命名實體的正確與否,所以存在著識別不夠準確的技術問題。

發(fā)明內(nèi)容
本發(fā)明提供一種命名實體識別的方法及裝置,用以解決現(xiàn)有技術中,由于只是基于條件隨機場的兩層模型對命名實體進行識別,而沒有考慮到識別出的命名實體的正確與否,所以存在著識別不夠準確的技術問題。本發(fā)明通過本申請中的實施例,提供如下技術方案:一方面,本發(fā)明通過本申請中的一個實施例,提供如下技術方案:一種用于識別命名實體的識別模型生成方法,包括:獲得待訓練文本的第一特征信息集;對待訓練文本的第一特征信息集進行訓練,獲得第一識別模型;基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);對所述第二特征信息集中進行訓練,獲得錯誤驅動模型。
進一步的,所述獲得第一特征信息集,具體為:獲得待訓練文本的第三特征信息集;對待訓練文本的第三特征信息集進行訓練,獲得第三識別模型;基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。進一步的,所述獲得待訓練文本的第三特征信息集,具體為:獲得所述待訓練文本;將所述待訓練文本劃分為至少一個待訓練短句;獲得用于標記所述至少一個待訓練短句的標記集合;基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。進一步的,所述第三特征信息集具體包括:所述至少一個待訓練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術方案:一種命名實體識別的方法,包括如下步驟:獲得待訓練文本的第一特征信息集;基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述獲得待訓練文本的第一特征信息集,具體為:獲得待識別文本的第二特征信息集;基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。進一步的,所述基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括:獲取所述K個命名實體的種類信息、位置信息、詞性信息。進一步的,所述獲得待識別文本的第三特征信息集,具體為:獲得所述待識別文本;將所述待識別文本劃分為至少一個待識別短句;獲得用于標記所述至少一個待識別短句的標記集合;基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。進一步的,所述第一特征信息集具體包括:所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術方案:
一種用于識別命名實體的識別模型生成裝置,包括:第一特征信息集合獲得模塊:用戶獲得待訓練文本的第一特征信息集;第一訓練模塊獲得模塊:用于對待訓練文本的第一特征信息集進行訓練,獲得第一識別模型;第二特征信息集獲得模塊:基于所述第一識別模型對所述第一特征信息集進行識另IJ,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤驅動模型獲得模塊:用于對所述第二特征信息集中進行訓練,獲得錯誤驅動模型。進一步的,所述第一特征信息集獲得模塊,具體包括:第三特征信息集獲得單元:用于獲得待訓練文本的第三特征信息集;第三識別模型獲得單元:用于對待訓練文本的第三特征信息集進行訓練,獲得第三識別模型;第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。進一步的,所述第三特征信息集獲得單元,具體包括:待訓練文本獲得單元:用于獲得所述待訓練文本;劃分單元:用于將所述待訓練文本劃分為至少一個待訓練短句;標記集合獲得單元:用于獲得用于標記所述至少一個待訓練短句的標記集合;標記單元:用于基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術方案:一種命名實體識別的裝置,包括:第一特征信息集獲得模塊:用于獲得待訓練文本的第一特征信息集;第二特征信息集獲得模塊:用于基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤糾正模塊:用于基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述第一特征信息集獲得模塊,主要包括:第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集;第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。進一步的,還包括:K個命名實體信息單元:用于基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信
息、位置信息、詞性信息。進一步的,所述第三特征信息集獲得單元,具體包括:待識別文本獲得單元:用于獲得所述待識別文本;劃分單元:用于將所述待識別文本劃分為至少一個待識別短句;標記集合獲得單元:用于獲得用于標記所述至少一個待識別短句的標記集合;標記單元:用于基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。上述技術方案中的一個或多個技術方案,具有如下技術效果或優(yōu)點:由于采用了在基于條件隨機場模型識別命名實體的基礎上采用了錯誤驅動模型對條件隨機場模型識別出的命名實體進行錯誤糾正的技術方案,故而達到了提高命名實體識別準確性、其中簡單命名實體的識別準確率達到97.35、復雜命名實體識別準確率達到87.6%的技術效果。


圖1為本申請實施例一中識別命名實體的識別模型生成方法的流程圖;圖2為本申請實施例一中獲得待訓練文本的第一特征信息集的流程圖;圖3為本申請實施例一中獲得待訓練文本的第三特征信息集的流程圖;圖4為本申請實施例一、二中待訓練文本和待識別文本的第一特征信息集的標準模式;圖5為本申請實施例二中命名實體識別的方法的流程圖;圖6為本申請實施例二中獲得待識別文本的第一特征信息集的流程圖;圖7為本申請實施例二中獲得待識別文本的第一特征信息集的流程圖;圖8為本申請實施例三中識別命名實體的識別模型生成裝置的方框圖;圖9為本申請實施例四中命名實體識別的裝置的方框圖。
具體實施例方式為了使本申請所屬技術領域中的技術人員更清楚地理解本申請,下面結合附圖,通過具體實施例對本申請技術方案作詳細描述。請參考圖1至圖4,本申請實施例一提供一種用于識別命名實體的識別模型生成方法,包括如下步驟:SlOl:獲得待訓練文本的第一特征信息集;進一步的,所述獲得第一特征信息集,如圖2所示,具體為:S201:獲得待訓練文本的第三特征信息集;進一步的,所述獲得待訓練文本的第三特征信息集,如圖3所示,具體為:S301:獲得所述待訓練文本;S302:將所述待訓練文本劃分為至少一個待訓練短句;S303:獲得用于標記所述至少一個待訓練短句的標記集合;S304:基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。進一步的,所述第三特征信息集具體包括:所述至少一個待訓練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。在具體實施過程中,如圖4所示,假設待訓練文本為“張三主持會議通過九屆全國人大一次會議有關議案本報北京”,那么先基于一定的規(guī)則,將這段待訓練文本劃分成待訓
練短句??招?04:表示各個待訓練短句之間的分割線。然后可以獲得用戶標記所述至少一個待訓練短句的標記集合,在本申請實施例一中,標記集合為:C = {BR, IR, BT, IT, BS, IS, BZ, IZ}其中:BR標記人名的第一個字;IR標記人名的其余字;BT標記機構名的第一個字;IT標記機構名的其余字;BS標記地名的第一個字;IS標記機構名的其余字;BZ標記其他命名實體的第一個字;IZ標記其他命名實體的其余字。但是在具體實施過程中,標記集合不限于C = {BR, IR,BT, IT, BS, IS, BZ, IZ}的形式,只要本申請所屬領域的技術人員所設置的標記所達到的技術效果與本申請達到的技術效果相同,都屬于本申請發(fā)明思想概念范圍內(nèi)。然后經(jīng)過標記,待訓練文本就被處理成如圖3所示的條件隨機場訓練所需的第三特征信息集的模式。其中:401:指的是一個文字的特征信息;402:是文字的標記集合;403:指的是多個文字的特征信息。在具體實施過程中,條件隨進場訓練所需的第三特征信息集,不限于如圖4所示的模式,可能根據(jù)具體情況,增加一些參數(shù)或者減少一些參數(shù),但是只要本申請所屬領域的技術人員所選擇的第一特征信息集和本申請所達到的技術效果相同,都屬于本申請發(fā)明思想概念的范圍內(nèi)。S202:對待訓練文本的第三特征信息集進行訓練,獲得第三識別模型;在具體實施過程中,對待訓練文本的第三特征信息集進行訓練時,是基于一第三特征模板進行訓練的。S203:基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。S102:對待訓練文本的第一特征信息集進行訓練,獲得第一識別模型;在具體實施過程中,對待訓練文本的第一特征信息集進行訓練,是基于一第一特征模板進行訓練的。S103:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);S104:對所述第二特征信息集進行訓練,獲得錯誤驅動模型。在具體實施過程中,對第二特征信息集進行訓練,是基于一第二特征模板進行訓練的。另外,獲得的錯誤驅動模型,主要是用于識別第二特征信息集中獲得的M個命名實體是否識別錯誤。在具體實施過程中,第一特征模板、第二特征模板以及第三特征模板,可以在多個特征模板中經(jīng)過多次優(yōu)化,選擇識別效果最好的特征模板。其具體優(yōu)化方式可以是:在基于第一特征模板對第一特征信息集進行識別獲得簡單識別模型后,對其進行識別,然后調(diào)整第一特征模板,再對第一特征信息集進行識別,然后再識別,以此選擇最優(yōu)的第一特征模板,第二特征模板、第三特征模板的選擇過程和第一特征模板的選擇過程類似;也可以是:先選擇第一特征模板、第二特征模板、第三特征模板,然后對第一特征信息集進行識別,獲得簡單識別模型、復雜識別模型和錯誤驅動模型,最后總體進行識別,以選擇最優(yōu)的特征模板。但是,在具體實施過程中,第一特征模板、第二特征模板、第三特征模板的選擇方式不限于上述方式,只要本申請所屬領域的技術人員所選擇的第一特征模板、第二特征模板、第三特征模板所達到的技術效果與本申請所達到的技術效果等同,都屬于本申請的發(fā)明思想概念范圍以內(nèi)。請參考圖5,本申請實施例二提供一種命名實體識別的方法,包括如下步驟:S501:獲得待識別文本的第一特征信息集;進一步的,所述獲得待識別文本的第一特征信息集,如圖6所示,具體為:S601:獲得待識別文本的第三特征信息集;進一步的,所述獲得待識別文本的第三特征信息集,如圖7所示,具體為:S701:獲得所述待識別文本;S702:將所述待識別文本劃分為至少一個待識別短句;S703:獲得用于標記所述至少一個待識別短句的標記集合;S704:基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。進一步的,所述第一特征信息集具體包括:所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。在具體實施過程中,獲得待識別文本的第三特征信息集和獲得待訓練文本的第一特征信息集,其獲得過程差不多,以待識別文本為“張三主持會議通過九屆全國人大一次會議有關議案本報北京”為例,那么先將所述待識別文本處理成如圖4所示的第三特征信息集的形式。當然,在具體實施過程中,生成待訓練文本和待識別文本的第三特征信息集是兩個完全不同的過程,所以基于不同的條件因素,即是是相同的文本,所生成的待訓練文本的第二特征息集和待識別文本的第二特征息集也未必相同。
S602:基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。S502:基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);在具體實施過程中,第二識別模型識別的命名實體中是所有命名實體中較為簡單、容易識別的部分。假設基于第二識別模型對前面的待識別文本進行識別,獲得的命名實體為“張三”“北京”。那么先將這兩個命名實體于第二特征信息集中進行標記,其標記方式和第一特征信息集的標記方式相同,也是采用的標記集合C對其進行標記,當然也可以采用其他第一識別模型能夠識別的標記方式。S503:基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。由于,基于第一識別模型和第二識別模型識別出的命名實體中可能存在錯誤的命名實體,所以要基于錯誤驅動模型對其進行修正。例如,前面識別出三個命名實體“張三”“北京” “全國人”,經(jīng)過錯誤驅動模型判斷“全國人”識別錯誤,應該是“全國人大”,所以對其進行修正。最后獲得三個命名實體為“張三” “北京” “全國人大”。進一步的,所述基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括:獲取所述K個命名實體的種類信息、位置信息、詞性信息。在具體實施過程中,由于識別出的命名實體未必能直接應用,所以還要提取出命名實體的各種屬性信息,比如種類信息、位置信息和詞性信息,以滿足不同應用場合的需求。當然,在具體實施過程中,提取出的屬性信息不限于命名實體的種類信息、位置信息和詞性信息,只要本申請所屬領域的技術人員所提取出的屬性信息所達到的技術效果和本申請所達到的技術效果等同,都屬于本申請的發(fā)明思想概念范圍內(nèi)。請參考圖8,本申請實施例三提供一種用于識別命名實體的識別模型生成裝置,如圖8所示,包括:第一特征信息集合獲得模塊801:用戶獲得待訓練文本的第一特征信息集;進一步的,所述第一特征信息集獲得模塊,具體包括:第三特征信息集獲得單元:用于獲得待訓練文本的第三特征信息集;進一步的,所述第三特征信息集獲得單元,具體包括:待訓練文本獲得單元:用于獲得所述待訓練文本;劃分單元:用于將所述待訓練文本劃分為至少一個待訓練短句;標記集合獲得單元:用于獲得用于標記所述至少一個待訓練短句的標記集合;標記單元:用于基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。第三識別模型獲得單元:用于對待訓練文本的第三特征信息集進行訓練,獲得第三識別模型;第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。第一訓練模塊獲得模塊802:用于對待訓練文本的第一特征信息集進行訓練,獲得第一識別模型;第二特征信息集獲得模塊803:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤驅動模型獲得模塊804:用于對所述第二特征信息集中進行訓練,獲得錯誤驅動模型。由于本申請實施三中的裝置為與實施本申請實施例一中的方法所對應的裝置,所以基于本申請實施例一中的方法,本領域所屬技術人員能夠了解本申請實施三中的裝置的具體實施方法以及本申請實施三的裝置的各種變化形式。所以在此對于該裝置的運行不再詳細介紹,只要本領域所屬技術人員基于本申請實施例一中的方法所采用的裝置,都屬于本申請所欲保護的范圍。請參考圖9,本申請實施例四提供一種命名實體識別的裝置,包括如下結構:第一特征信息集獲得模塊901:用于獲得待訓練文本的第一特征信息集;進一步的所述第一特征信息集獲得模塊901,主要包括:第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集;進一步的所述第三特征信息集獲得單元,具體包括:待識別文本獲得單元:用于獲得所述待識別文本;劃分單元:用于將所述待識別文本劃分為至少一個待識別短句;標記集合獲得單元:用于獲得用于標記所述至少一個待識別短句的標記集合;標記單元:用于基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。第二特征信息集獲得模塊902:用于基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);
錯誤糾正模塊903:用于基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述裝置還包括:K個命名實體信息單元:用于基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信息、位置信息、詞性信息。由于本申請實施四中的裝置為與實施本申請實施例二中的方法所對應的裝置,所以基于本申請實施例二中的方法,本領域所屬技術人員能夠了解本申請實施四中的裝置的具體實施方法以及本申請實施四的裝置的各種變化形式。所以在此對于該裝置的運行不再詳細介紹,只要本領域所屬技術人員基于本申請實施例二中的方法所采用的裝置,都屬于本申請所欲保護的范圍。上述技術方案中的一個或多個技術方案,具有如下技術效果或優(yōu)點:由于采用了在基于條件隨機場模型識別命名實體的基礎上采用了錯誤驅動模型對條件隨機場模型識別出的命名實體進行錯誤糾正的技術方案,故而達到了提高命名實體識別準確性的技術效果。盡管已描述了本申請的優(yōu)選實施例,但本領域內(nèi)的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。
權利要求
1.一種用于識別命名實體的識別模型生成方法,其特征在于,包括: 獲得待訓練文本的第一特征信息集; 對待訓練文本的第一特征信息集進行訓練,獲得第一識別模型; 基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 對所述第二特征信息集中進行訓練,獲得錯誤驅動模型。
2.如權利要求1所述的方法,其特征在于,所述獲得第一特征信息集,具體為: 獲得待訓練文本的第三特征信息集; 對待訓練文本的第三特征信息集進行訓練,獲得第三識別模型; 基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。
3.如權利要求2所述的方法,其特征在于,所述獲得待訓練文本的第三特征信息集,具體為: 獲得所述待訓練文本; 將所述待訓練文本劃分為至少一個待訓練短句; 獲得用于標記所述 至少一個待訓練短句的標記集合; 基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。
4.如權利要求2或3所述的方法,其特征在于,所述第三特征信息集具體包括: 所述至少一個待訓練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。
5.一種命名實體識別的方法,其特征在于,包括: 獲得待訓練文本的第一特征信息集; 基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
6.如權利要求5所述的方法,其特征在于,所述獲得待訓練文本的第一特征信息集,具體為: 獲得待識別文本的第三特征信息集; 基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。
7.如權利要求5所述的方法,其特征在于,所述基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括: 獲取所述K個命名實體的種類信息、位置信息、詞性信息。
8.如權利要求6所述的方法,其特征在于,所述獲得待識別文本的第三特征信息集,具體為: 獲得所述待識別文本; 將所述待識別文本劃分為至少一個待識別短句; 獲得用于標記所述至少一個待識別短句的標記集合; 基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。
9.如權利要求7或8所述的方法,其特征在于,所述第一特征信息集具體包括: 所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標點符號信息。
10.一種用于識別命名實體的識別模型生成裝置,其特征在于,包括: 第一特征信息集合獲得模塊:用戶獲得待訓練文本的第一特征信息集; 第一訓練模塊獲得模塊:用于對待訓練文本的第一特征信息集進行訓練,獲得第一識別豐旲型; 第二特征信息集獲得模塊:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 錯誤驅動模型獲得模塊:用于對所述第二特征信息集中進行訓練,獲得錯誤驅動模型。
11.如權利要求10所 述的裝置,其特征在于,所述第一特征信息集獲得模塊,具體包括: 第三特征信息集獲得單元:用于獲得待訓練文本的第三特征信息集; 第三識別模型獲得單元:用于對待訓練文本的第三特征信息集進行訓練,獲得第三識別豐旲型; 第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。
12.如權利要求11所述的裝置,其特征在于,所述第三特征信息集獲得單元,具體包括: 待訓練文本獲得單元:用于獲得所述待訓練文本; 劃分單元:用于將所述待訓練文本劃分為至少一個待訓練短句; 標記集合獲得單元:用于獲得用于標記所述至少一個待訓練短句的標記集合; 標記單元:用于基于所述標記集合對所述至少一個待訓練短句進行標記,獲得第三特征信息集。
13.—種命名實體識別的裝置,其特征在于,包括: 第一特征信息集獲得模塊:用于獲得待訓練文本的第一特征信息集; 第二特征信息集獲得模塊:用于基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 錯誤糾正模塊:用于基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
14.如權利要求13所述的裝置,其特征在于,所述第一特征信息集獲得模塊,主要包括: 第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集; 第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。
15.如權利要求13所述的裝置,其特征在于,還包括: K個命名實體信息單元:用于基于所述錯誤驅動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信息、位置信息、詞性信息。
16.如權利要求14所述的裝置,其特征在于,所述第三特征信息集獲得單元,具體包括: 待識別文本獲得單元:用于獲得所述待識別文本; 劃分單元:用于將所述待識別文本劃分為至少一個待識別短句; 標記集合獲得單元:用于獲得用于標記所述至少一個待識別短句的標記集合; 標記單元:用于基于所述標記集合對所述至少一個待識別短句進行標記,獲得第三特征信息集。
全文摘要
本申請公開了一種用于識別命名實體的識別模型生成方法及裝置、以及一種命名實體識別的方法及裝置,所述命名實體識別方法包括獲得待訓練文本的第一特征信息集;基于第一識別模型對待訓練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);基于錯誤驅動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
文檔編號G06F17/30GK103164426SQ20111041446
公開日2013年6月19日 申請日期2011年12月13日 優(yōu)先權日2011年12月13日
發(fā)明者劉志超, 于曉明, 楊建武 申請人:北大方正集團有限公司, 北京大學, 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阳曲县| 宁南县| 武邑县| 常熟市| 兴城市| 甘德县| 巫溪县| 饶平县| 龙州县| 天祝| 仙居县| 松江区| 潼南县| 普陀区| 江油市| 安阳市| 安龙县| 清流县| 宁化县| 平遥县| 峨边| 鱼台县| 丰宁| 蒲城县| 六安市| 平邑县| 博爱县| 克山县| 双柏县| 达拉特旗| 扶余县| 金乡县| 墨江| 济源市| 通河县| 灵山县| 松江区| 万全县| 海门市| 新邵县| 平南县|