欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于人工智能的命名實(shí)體識別方法及裝置與流程

文檔序號:12124535閱讀:642來源:國知局
基于人工智能的命名實(shí)體識別方法及裝置與流程

本申請涉及自然語言技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的命名實(shí)體識別方法及裝置。



背景技術(shù):

人工智能(Artificial Intelligence,簡稱AI)。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機(jī)科學(xué)的一個分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。

自然語言處理是人工智能的一個重要方向,而命名實(shí)體識別(Name Entity Recognition,NER)是其研究中重要且不可缺少的一步。

隨著互聯(lián)網(wǎng)信息量的迅速增長和網(wǎng)絡(luò)文化的發(fā)展,網(wǎng)絡(luò)用語中新詞層出不窮,舊詞語義日新月異,例如“小蘋果”、“親愛的”、“餓了么”等。其中,絕大部份新詞、新意都是實(shí)體詞匯、詞義,即描述現(xiàn)實(shí)世界中存在的人、事物以及概念的詞。大量的新詞和不斷變化的語義使得自然語言處理中命名實(shí)體的識別十分困難。

相關(guān)技術(shù)中,提出監(jiān)督的機(jī)器學(xué)習(xí)模型或者是簡單詞典、規(guī)則匹配的命名實(shí)體識別方法。然而,有監(jiān)督的機(jī)器學(xué)習(xí)模型雖然準(zhǔn)確率高,但是需要大量人工標(biāo)注的訓(xùn)練語料,使得模型的更新成本高,更新頻率低,從而模型的時效性差,簡單詞典、規(guī)則匹配的命名實(shí)體識別方法準(zhǔn)確率較低。



技術(shù)實(shí)現(xiàn)要素:

本申請的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。

為此,本申請的第一個目的在于提出一種基于人工智能的命名實(shí)體識別方法,該方法通過利用條件隨機(jī)場模型和根據(jù)預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型,同時對待識別文本進(jìn)行識別,能夠保證對時效性較高的待識別文本進(jìn)行準(zhǔn)確識別,提高了命名實(shí)體識別的時效性、準(zhǔn)確性和準(zhǔn)確率。

本申請的第二個目的在于提出了一種基于人工智能的命名實(shí)體識別裝置。

本申請的第三個目的在于提出了另一種基于人工智能的命名實(shí)體識別裝置。

本申請的第四個目的在于提出了一種非臨時性計算機(jī)可讀存儲介質(zhì)。

本申請的第五個目的在于提出了一種計算機(jī)程序產(chǎn)品。

為達(dá)上述目的,根據(jù)本申請第一方面實(shí)施例提出的一種基于人工智能的命名實(shí)體識別方法,包括以下步驟:

根據(jù)條件隨機(jī)場模型(Conditional Random Field,簡稱CRF),對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果;

根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中所述預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型;

判斷所述第一識別結(jié)果和第二識別結(jié)果是否一致;

若否,則選擇置信度高的識別結(jié)果作為所述待識別文本的命名實(shí)體識別結(jié)果。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法,首先根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果,然后根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,并判斷第一識別結(jié)果和第二識別結(jié)果是否一致,最后在第一識別結(jié)果和第二識別結(jié)果一致時選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。由此,通過利用條件隨機(jī)場模型和根據(jù)預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型,同時對待識別文本進(jìn)行識別,能夠保證對時效性較高的待識別文本進(jìn)行準(zhǔn)確識別,提高了命名實(shí)體識別的時效性、準(zhǔn)確性和準(zhǔn)確率。

為達(dá)上述目的,根據(jù)本申請的第二方面實(shí)施例提出的一種基于人工智能的命名實(shí)體識別裝置,包括:

第一確定模塊,用于根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果;

第二確定模塊,用于根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中所述預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型;

判斷模塊,用于判斷所述第一識別結(jié)果和第二識別結(jié)果是否一致;

選擇模塊,用于在所述第一識別結(jié)果和第二識別結(jié)果不一致時,選擇置信度高的識別結(jié)果作為所述待識別文本的命名實(shí)體識別結(jié)果。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別裝置,首先根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果,然后根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,并判斷第一識別結(jié)果和第二識別結(jié)果是否一致,最后在第一識別結(jié)果和第二識別結(jié)果一致時選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。由此,通過利用條件隨機(jī)場模型和根據(jù)預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型,同時對待識別文本進(jìn)行識別,能夠保證對時效性較高的待識別文本進(jìn)行準(zhǔn)確識別,提高了命名實(shí)體識別的時效性、準(zhǔn)確性和準(zhǔn)確率。

為達(dá)上述目的,根據(jù)本申請的第三方面實(shí)施例提出的一種基于人工智能的命名實(shí)體識別裝置,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:

根據(jù)條件隨機(jī)場模型(Conditional Random Field,簡稱CRF),對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果;

根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中所述預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型;

判斷所述第一識別結(jié)果和第二識別結(jié)果是否一致;

若否,則選擇置信度高的識別結(jié)果作為所述待識別文本的命名實(shí)體識別結(jié)果。

為達(dá)上述目的,根據(jù)本申請的第四方面實(shí)施例提出的一種非臨時性計算機(jī)可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由移動終端的處理器被執(zhí)行時,使得移動終端能夠執(zhí)行一種基于人工智能的命名實(shí)體識別方法,所述方法包括:

根據(jù)條件隨機(jī)場模型(Conditional Random Field,簡稱CRF),對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果;

根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中所述預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型;

判斷所述第一識別結(jié)果和第二識別結(jié)果是否一致;

若否,則選擇置信度高的識別結(jié)果作為所述待識別文本的命名實(shí)體識別結(jié)果。

為達(dá)上述目的,根據(jù)本申請的第五方面實(shí)施例提出的一種計算機(jī)程序產(chǎn)品,當(dāng)所述計算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時,執(zhí)行一種基于人工智能的命名實(shí)體識別方法,所述方法包括:

根據(jù)條件隨機(jī)場模型(Conditional Random Field,簡稱CRF),對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果;

根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中所述預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型;

判斷所述第一識別結(jié)果和第二識別結(jié)果是否一致;

若否,則選擇置信度高的識別結(jié)果作為所述待識別文本的命名實(shí)體識別結(jié)果。

本申請附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實(shí)踐了解到。

附圖說明

本申請的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:

圖1是根據(jù)本申請一個實(shí)施例的基于人工智能的命名實(shí)體識別方法的流程圖;

圖2是根據(jù)本申請一個實(shí)施例的確定普通語義先驗(yàn)的示意圖;

圖3是根據(jù)本申請另一個實(shí)施例的基于人工智能的命名實(shí)體識別方法的流程圖;

圖4是根據(jù)本申請一個實(shí)施例的確定實(shí)體類別先驗(yàn)的示意圖;

圖5是根據(jù)本申請一個實(shí)施例的基于人工智能的命名實(shí)體識別裝置的結(jié)構(gòu)示意圖;以及

圖6是根據(jù)本申請另一個實(shí)施例的基于人工智能的命名實(shí)體識別裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本申請的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本申請,而不能理解為對本申請的限制。

下面參考附圖描述本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法及裝置。

圖1是根據(jù)本申請一個實(shí)施例的基于人工智能的命名實(shí)體識別方法的流程圖。

如圖1所示,本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法包括以下步驟:

步驟101,根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果。

其中,本實(shí)施例提供的基于人工智能的命名實(shí)體識別方法可以被配置在手機(jī)、電腦、智能佩戴設(shè)備等電子設(shè)備中。

通常,在語言文本中,命名實(shí)體是信息的主要載體,用來表達(dá)文本的主要內(nèi)容。隨著大量的新詞和不斷變化的語義使得命名實(shí)體識別十分困難,通過監(jiān)督的機(jī)器學(xué)習(xí)模型或者是簡單詞典、規(guī)則匹配等命名實(shí)體識別方法的識別準(zhǔn)確率低。

為了解決上述問題,本申請實(shí)施例提出一種基于人工智能的命名實(shí)體識別方法,能夠保證模型具有較高的時效性,提升了命名實(shí)體識別的準(zhǔn)確率。

首先,可以采用現(xiàn)有的條件隨機(jī)場模型對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果。其中,待識別文本可以是用戶通過查詢輸入法直接輸入的文本、或者是用戶通過查詢語音進(jìn)而語音識別系統(tǒng)轉(zhuǎn)換的文本等。

步驟102,根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型。

其中,預(yù)設(shè)時間段可以根據(jù)實(shí)際應(yīng)用需要進(jìn)行選擇設(shè)置,比如為最近一周、最近一個月等,以預(yù)設(shè)時間段內(nèi)的檢索日志語料,生成預(yù)設(shè)的實(shí)體詞匯功能模型,從而可以保證實(shí)體詞匯功能模型的時效性較高。

其中,預(yù)設(shè)的實(shí)體詞匯功能模型中可以包括實(shí)體詞匯的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征等中的一種或者多種。舉例說明如下:

在本示例中,根據(jù)包括實(shí)體詞匯的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征庫的預(yù)設(shè)的實(shí)體詞匯功能模型,待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果。具體地,首先可以通過詞典、規(guī)則匹配等方法得到待識別文本中所有的候選命名實(shí)體詞匯。

進(jìn)而,通過候選命名實(shí)體詞匯對應(yīng)的切分歧義先驗(yàn),判斷其作為命名實(shí)體詞匯的置信度的高低。其中,預(yù)設(shè)的實(shí)體詞匯功能模型中各個實(shí)體詞匯的切分歧義先驗(yàn),是通過統(tǒng)計各實(shí)體詞匯的邊界在檢索日志中與分詞邊界發(fā)生沖突的概率,以及在檢索日志中被其他實(shí)體詞匯覆蓋的概率確定的。若實(shí)體詞匯的邊界與分詞邊界切分沖突概率大(例如大于百分之八十),或者是被其他實(shí)體詞匯覆蓋的概率大(例如大于百分之八十),則表明實(shí)體詞匯對應(yīng)的切分歧義大,即實(shí)體詞匯通常是被切開的,從而其作為實(shí)體詞匯的置信度就低。

進(jìn)而,通過候選命名實(shí)體詞匯對應(yīng)的普通語義先驗(yàn),判斷其作為命名實(shí)體詞匯的置信度的高低。其中,預(yù)設(shè)的實(shí)體詞匯功能模型中各個實(shí)體詞匯的普通語義先驗(yàn),是通過各命名實(shí)體詞匯在檢索日志中的位置分布概率、時間分布概率、類別分布概率及在詞典中的詞性確定的。

其中,普通語義是指作為非實(shí)體的語義,包括普通詞、普通短語和普通句子。與實(shí)體詞匯相比,普通詞、普通短語和普通句子等使用的領(lǐng)域類別、時間范圍更廣。

圖2是根據(jù)本申請一個實(shí)施例的確定普通語義先驗(yàn)的示意圖。如圖2所示,通過位置分布概率、時間分布概率、類別分布概率及在詞典中的詞性后經(jīng)過結(jié)果融合得到普通語義先驗(yàn)。

其中,位置分布概率具體是指由于用戶的使用習(xí)慣,在檢索日志中,被檢索的實(shí)體詞匯通常單獨(dú)出現(xiàn),或與限定詞用空格分開;反之,普通詞、短語通常與上下文連成一體。由此,根據(jù)各實(shí)體詞匯獨(dú)立或分割檢索的概率,即可估算其普通語義先驗(yàn)。

其中,時間分布概率,是指根據(jù)實(shí)體詞匯在檢索日志中的變化趨勢。其中,普通詞、短語在檢索日志中的分布隨時間的變化趨勢相對平緩,而實(shí)體詞匯在時間維度上的分布一般存在明顯的上升期和衰退期。由此,根據(jù)變化趨勢顯著性可估算普通語義先驗(yàn)。

其中,類別分布概率,是指實(shí)體詞匯在檢索日志中的各個類別中分布的概率。通常,實(shí)體詞匯多集中分布在特定的類別檢索日志中,而普通詞、短語一般均勻分布在各個類別檢索日志中,領(lǐng)域相關(guān)的普通詞則均勻分布在領(lǐng)域內(nèi)的各個檢索日志中。由此,根據(jù)類間分布或類內(nèi)分布的均勻性可估算普通語義先驗(yàn)。

其中,在詞典中的詞性具體是指現(xiàn)有詞典中記載的高頻動詞、副詞、形容詞等可作為普通語義的高優(yōu)候選。由此,可以根據(jù)詞性估算普通語義先驗(yàn)。

由此,實(shí)體詞匯的普通詞先驗(yàn)越高,表明它作為普通義項概率越高,作為實(shí)體詞匯的置信度越低。

另外,還可以通過候選命名實(shí)體詞匯對應(yīng)的實(shí)體特征匹配結(jié)果,判斷其作為命名實(shí)體詞匯的置信度的高低。其中,預(yù)設(shè)的實(shí)體詞匯功能模型中各個實(shí)體詞匯的實(shí)體特征庫中,包括的是與各實(shí)體詞匯在檢索日志中的所有關(guān)聯(lián)特征。如果實(shí)體特征匹配越多,表明匹配到的特征權(quán)重越高,從而其作為實(shí)體詞匯的置信度越高。

由此,可以通過上述方式得到候選命名實(shí)體詞匯分別對應(yīng)的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征匹配結(jié)果,從而確定各候選命名實(shí)體詞匯分別對應(yīng)的置信度,從候選命名實(shí)體詞匯中,將置信度最高的第一命名實(shí)體詞匯確定為第二識別結(jié)果。

為了本領(lǐng)域人員更加清楚上述實(shí)施例的具體過程,以“陳可辛親愛的小孩適合看嗎”作為待識別文本為例進(jìn)行詳細(xì)說明。

首先,通過詞典匹配得到?jīng)_突的候選命名實(shí)體詞匯為“親愛”、“親愛的”和“親愛的小孩”。

進(jìn)而,從切分歧義先驗(yàn)上看三個候選命名實(shí)體詞匯邊界與分詞邊界沒有發(fā)生沖突。

進(jìn)而,從普通語義先驗(yàn)上看候選命名實(shí)體詞匯“親愛”作為普通語義的概率最高,候選命名實(shí)體詞匯“親愛的”在特定時間段(電影上映時間)作為普通語義的概率不高。

進(jìn)而,從實(shí)體特征匹配結(jié)果上看候選命名實(shí)體詞匯“親愛”(電視劇)匹配特征“看”,候選命名實(shí)體詞匯“親愛的”匹配特征“陳可辛”和“看”,候選命名實(shí)體詞匯“親愛的小孩”沒有匹配到實(shí)體特征,

由此,根據(jù)切分歧義先驗(yàn)可以確定候選命名實(shí)體詞匯為“親愛”、“親愛的”和“親愛的小孩”置信度高,例如均為0.95。根據(jù)普通語義先驗(yàn)可以確定候選命名實(shí)體詞匯“親愛”置信度低,例如為0.1,候選命名實(shí)體詞匯“親愛的”置信度不低,例如為0.6。根據(jù)實(shí)體特征匹配結(jié)果可以確定“親愛的小孩”置信度最低,例如為0.05,“親愛”置信度低,例如為“0.5”,“親愛的”置信度最高,例如為“0.9”。從而可以確定“親愛的”置信度最高,作為第二識別結(jié)果。

步驟103,判斷第一識別結(jié)果和第二識別結(jié)果是否一致。

步驟104,若否,則選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。

具體地,繼續(xù)以上述例子為例進(jìn)行說明,根據(jù)條件隨機(jī)場對上述“陳可辛親愛的小孩適合看嗎”進(jìn)行命名實(shí)體識別,其中,第一識別結(jié)果和第二識別結(jié)果是否一致的情況有很多種。舉例說明如下:

第一種示例,根據(jù)條件隨機(jī)場中的一種模型對上述“陳可辛親愛的小孩適合看嗎”進(jìn)行命名實(shí)體識別,得到的第一識別結(jié)果為“陳可辛”、“親愛的”、“小孩”和“看”。根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果也為“陳可辛”、“親愛的”、“小孩”和“看”。

由此,第一識別結(jié)果和第二識別結(jié)果一致,可以將其中任一結(jié)果作為待識別文本“陳可辛親愛的小孩適合看嗎”的命名實(shí)體識別結(jié)果。

第二種示例,根據(jù)條件隨機(jī)場中的一種模型對上述“陳可辛親愛的小孩適合看嗎”進(jìn)行命名實(shí)體識別,得到的第一識別結(jié)果為“陳可辛”、“親愛”、“小孩”和“看”。根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果也為“陳可辛”、“親愛的”、“小孩”和“看”。

由此,第一識別結(jié)果和第二識別結(jié)果不一致,將置信度高的第二識別結(jié)果作為待識別文本“陳可辛親愛的小孩適合看嗎”的命名實(shí)體識別結(jié)果。

需要說明的是,如果第一識別結(jié)果和第二識別結(jié)果的置信度一致,可以選擇“長”的識別結(jié)果作為最終結(jié)果。例如,“羽泉親愛的”的查詢對應(yīng)的兩個識別結(jié)果分別是第一識別結(jié)果“羽泉演唱的親愛的”和第二識別結(jié)果“羽泉所唱的歌曲親愛的”,選擇第二識別結(jié)果作為“羽泉親愛的”的命名實(shí)體識別結(jié)果。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法,首先根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果,然后根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,并判斷第一識別結(jié)果和第二識別結(jié)果是否一致,最后在第一識別結(jié)果和第二識別結(jié)果一致時選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。由此,通過利用條件隨機(jī)場模型和根據(jù)預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型,同時對待識別文本進(jìn)行識別,能夠保證對時效性較高的待識別文本進(jìn)行準(zhǔn)確識別,提高了命名實(shí)體識別的時效性、準(zhǔn)確性和準(zhǔn)確率。

圖3是根據(jù)本申請另一個實(shí)施例的基于人工智能的命名實(shí)體識別方法的流程圖。

如圖3所示,本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法包括以下步驟:

步驟201,根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果。

步驟202,確定待識別文本中包括的候選命名實(shí)體詞匯。

步驟203,確定候選命名實(shí)體詞匯分別對應(yīng)的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征匹配結(jié)果。

步驟204,根據(jù)候選命名實(shí)體詞匯分別對應(yīng)的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征匹配結(jié)果,確定候選命名實(shí)體詞匯分別對應(yīng)的置信度。

需要說明的是,步驟S201-S204的描述與上述步驟S101-S102相對應(yīng),因此對的步驟S201-S204的描述參考上述步驟S101-S102的描述,在此不再贅述。

步驟205,確定候選命名實(shí)體詞匯中,包括的置信度最高的第一命名實(shí)體詞匯。

步驟206,判斷第一命名實(shí)體詞匯,是否對應(yīng)至少兩個實(shí)體類別或者實(shí)體。

步驟207,若是,則判斷待識別文本的上下文特征是否完整,若是,則執(zhí)行步驟208,否則,執(zhí)行步驟209。

步驟208,根據(jù)待識別文本上下文特征,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。

可以理解的是,第一命名實(shí)體詞匯可能對應(yīng)多個實(shí)體類別、或者是實(shí)體,例如“親愛的”對應(yīng)的實(shí)體類別可能為電影,也可能為歌曲,或者“李娜”對應(yīng)的實(shí)體,可能為網(wǎng)球運(yùn)動員,也可能為歌星。

由此,為了進(jìn)一步提高命名實(shí)體識別的準(zhǔn)確率,在將置信度最高的命名實(shí)體詞匯確定為第二識別結(jié)果之前,需要判斷第一命名實(shí)體詞匯,是否對應(yīng)至少兩個實(shí)體類別或者實(shí)體。

進(jìn)而,在獲知第一命名實(shí)體詞匯對應(yīng)多個實(shí)體時,根據(jù)待識別文本上下文特征,例如“陳可辛親愛的”,識別為“陳可辛”所導(dǎo)電影“親愛的”,并賦予較高的置信度。再例如,“羽泉親愛的”識別為“羽泉”所唱歌曲“親愛的”,并賦予較高的置信度。由此,具有較高的消歧能力,進(jìn)一步提高命名實(shí)體識別的準(zhǔn)確率。

需要說明的是,上述第一方面實(shí)施例中,如果不通過候選命名實(shí)體詞匯對應(yīng)的實(shí)體特征匹配結(jié)果,判斷其作為命名實(shí)體詞匯的置信度的高低。本示例中可以通過第一實(shí)體詞匯對應(yīng)的實(shí)體特征匹配結(jié)果,判斷其作為命名實(shí)體詞匯的置信度的高低。

具體地,實(shí)體特征是上下文中能反映候選詞匯傾向于作為實(shí)體、特定實(shí)體類別甚至特定實(shí)體義項的特征詞匯。用戶檢索命名實(shí)體時通常采用空格的方式來附加一些限制條件,如“親愛的黃渤”,“親愛的在線觀看”等等,這些限制條件多數(shù)可以作為實(shí)體的候選特征。再根據(jù)用戶點(diǎn)擊百科實(shí)體義項頁面的行為日志,可以將部分候選特征與特定的實(shí)體義項建立關(guān)聯(lián),從而達(dá)到幫助實(shí)體消歧的目的。

步驟209,根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型中的實(shí)體類別先驗(yàn)和實(shí)體需求度,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。

步驟2010,從候選命名實(shí)體詞匯中,將置信度最高的第一命名實(shí)體詞匯確定為第二識別結(jié)果。

具體地,可能存在上下文特征缺失即上下文特征不完整的情況下,此時,可以通過預(yù)設(shè)的實(shí)體詞匯功能模型中的實(shí)體類別先驗(yàn)和實(shí)體需求度,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。

其中,通過第一實(shí)體詞匯對應(yīng)的實(shí)體類別先驗(yàn),判斷其作為命名實(shí)體詞匯的置信度的高低。其中,預(yù)設(shè)的實(shí)體詞匯功能模型中各個實(shí)體詞匯的實(shí)體類別先驗(yàn),是通過各實(shí)體詞匯的構(gòu)詞成分分類,及在檢索日志中的所有關(guān)聯(lián)特征的分類比例、對應(yīng)的檢索結(jié)果的分類比例三種結(jié)果融合確定的。

圖4是根據(jù)本申請一個實(shí)施例的確定實(shí)體類別先驗(yàn)的示意圖。如圖4所示,通過第一實(shí)體詞匯的構(gòu)詞成分分類,及在檢索日志中的所有關(guān)聯(lián)特征的分類比例、對應(yīng)的檢索結(jié)果的分類比例后經(jīng)過結(jié)果融合得到實(shí)體類別先驗(yàn)。

其中,構(gòu)詞成分分類具體是指部分類別的實(shí)體詞匯存在明顯的構(gòu)詞特征,如公司名、菜名等,利用構(gòu)詞成份特征可以實(shí)現(xiàn)對部分類別實(shí)體的準(zhǔn)確分類。

其中,在檢索日志中的所有關(guān)聯(lián)特征的分類比例具體是指利用用戶檢索日志中的并列特征信息進(jìn)行分類,分類結(jié)果一定程度上反映了用戶主觀認(rèn)知中被檢索實(shí)體詞匯的實(shí)體類別先驗(yàn)。

其中,對應(yīng)的檢索結(jié)果的分類比例具體是指搜索引擎返回結(jié)果體現(xiàn)了實(shí)體詞匯在互聯(lián)網(wǎng)中使用形式的客觀分布,通過對每條檢索結(jié)果進(jìn)行分類進(jìn)而估算出實(shí)體類別先驗(yàn)。

需要說明的是,為避免干擾,可以從檢索結(jié)果中清除推廣信息,并同時引入例如百度貼吧、百度知道等的檢索結(jié)果。

其中,通過第一實(shí)體詞匯對應(yīng)的實(shí)體用戶需求度,判斷其作為命名實(shí)體詞匯的置信度的高低。其中,預(yù)設(shè)的實(shí)體詞匯功能模型中各個實(shí)體詞匯的實(shí)體用戶需求度,是通過第一實(shí)體詞匯的不同實(shí)體義項即不同意義在檢索日志中所占的比例,確定第一實(shí)體詞匯的實(shí)體用戶需求度。

可以理解的是,在特定時間內(nèi)用戶對同一實(shí)體詞匯的多個義項需求度通常會存在顯著差異,根據(jù)檢索日志中用戶對不同百科頁面(一個百科頁面對應(yīng)一個實(shí)體義項)的點(diǎn)擊行為,即可統(tǒng)計出用戶對不同實(shí)體義項的需求程度。

步驟2011,判斷第一識別結(jié)果和第二識別結(jié)果是否一致。

步驟2012,若否,則選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。

需要說明的是,步驟S2010-S2011的描述與上述步驟S103-S104相對應(yīng),因此對的步驟S2010-S2011的描述參考上述步驟S103-S104的描述,在此不再贅述。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別方法,進(jìn)一步通過判斷第一命名實(shí)體詞匯,是否對應(yīng)至少兩個實(shí)體類別或者實(shí)體,在是的情況下,根據(jù)待識別文本上下文特征,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度,以及判斷待識別文本的上下文特征是否完整,在不完整的情況下,根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型中的實(shí)體類別先驗(yàn)和實(shí)體需求度,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。由此,在根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型確定的識別結(jié)果又歧義時,通過根據(jù)命名實(shí)體對應(yīng)的不同類的別先驗(yàn)及實(shí)體需求度,對識別結(jié)果進(jìn)行進(jìn)一步消歧,從而進(jìn)一步提高了命名實(shí)體識別的準(zhǔn)確性和準(zhǔn)確率。

為了實(shí)現(xiàn)上述實(shí)施例,本申請還提出了一種基于人工智能的命名實(shí)體識別裝置。

圖5是根據(jù)本申請一個實(shí)施例的基于人工智能的命名實(shí)體識別裝置的結(jié)構(gòu)示意圖。

如圖5所示,該基于人工智能的命名實(shí)體識別裝置包括:第一確定模塊51、第二確定模塊52、判斷模塊53、選擇模塊54和第三確定模塊55。

其中,第一確定模塊51用于根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果。

第二確定模塊52用于根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,其中預(yù)設(shè)的實(shí)體詞匯功能模型為基于預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型。

判斷模塊53用于判斷第一識別結(jié)果和第二識別結(jié)果是否一致。

選擇模塊54用于在第一識別結(jié)果和第二識別結(jié)果不一致時,選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。

首先,可以采用現(xiàn)有的條件隨機(jī)場模型對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果。

在本示例中,根據(jù)包括實(shí)體詞匯的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征庫的預(yù)設(shè)的實(shí)體詞匯功能模型,待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果。

第二確定模塊52包括:第一確定單元521、第二確定單元522、第三確定單元523和第四確定單元524。

其中,第一確定單元521用于確定待識別文本中包括的候選命名實(shí)體詞匯。

第二確定單元522用于確定候選命名實(shí)體詞匯分別對應(yīng)的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征匹配結(jié)果。

第三確定單元523用于根據(jù)候選命名實(shí)體詞匯分別對應(yīng)的切分歧義先驗(yàn)、普通語義先驗(yàn)和實(shí)體特征匹配結(jié)果,確定候選命名實(shí)體詞匯分別對應(yīng)的置信度。

第四確定單元524用于從候選命名實(shí)體詞匯中,將置信度最高的第一命名實(shí)體詞匯確定為第二識別結(jié)果。

其中,確定檢索日志中包括的第一實(shí)體詞匯的切分歧義先驗(yàn),第三確定模塊55用于:統(tǒng)計檢索日志中,第一實(shí)體詞匯的邊界與分詞邊界發(fā)生沖突的概率、及第一實(shí)體詞匯的邊界被其他實(shí)體詞匯覆蓋的概率。根據(jù)第一實(shí)體詞匯的邊界與分詞邊界發(fā)生沖突的概率、和/或第一實(shí)體詞匯的邊界被其他實(shí)體詞匯覆蓋的概率,確定第一實(shí)體詞匯的切分歧義。

其中,確定檢索日志中包括的第一實(shí)體詞匯的普通語義先驗(yàn),第三確定模塊55用于:根據(jù)第一實(shí)體詞匯,在檢索日志中的位置分布概率、時間分布概率、類別分布概率及在詞典中的詞性,確定第一實(shí)體詞匯的普通語義先驗(yàn)。

其中,確定檢索日志中包括的第一實(shí)體詞匯的實(shí)體特征庫,第三確定模塊用于:根據(jù)第一實(shí)體詞匯,在檢索日志中的所有關(guān)聯(lián)特征,確定第一實(shí)體詞匯的實(shí)體特征庫。

需要說明的是,前述對基于人工智能的命名實(shí)體識別方法實(shí)施例的解釋說明也適用于該實(shí)施例的基于人工智能的命名實(shí)體識別裝置,其實(shí)現(xiàn)原理類似,此處不再贅述。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別裝置,首先根據(jù)條件隨機(jī)場模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第一識別結(jié)果,然后根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型,對待識別文本進(jìn)行命名實(shí)體識別,確定第二識別結(jié)果,并判斷第一識別結(jié)果和第二識別結(jié)果是否一致,最后在第一識別結(jié)果和第二識別結(jié)果一致時選擇置信度高的識別結(jié)果作為待識別文本的命名實(shí)體識別結(jié)果。由此,通過利用條件隨機(jī)場模型和根據(jù)預(yù)設(shè)時間段內(nèi)的檢索日志生成的功能模型,同時對待識別文本進(jìn)行識別,能夠保證對時效性較高的待識別文本進(jìn)行準(zhǔn)確識別,提高了命名實(shí)體識別的時效性、準(zhǔn)確性和準(zhǔn)確率。

圖6是根據(jù)本申請另一個實(shí)施例的基于人工智能的命名實(shí)體識別裝置的結(jié)構(gòu)示意圖。

如圖6所示,在如圖5所示的基礎(chǔ)上,該基于人工智能的命名實(shí)體識別裝置還包括:獲取模塊56。

獲取模塊56用于獲取預(yù)設(shè)時間段內(nèi)的檢索日志。

第二確定模塊52還包括第一判斷單元525、第五確定單元526、第二判斷單元527和第六確定單元528。

其中,第一判斷單元525用于判斷第一命名實(shí)體詞匯,是否對應(yīng)至少兩個實(shí)體類別或者實(shí)體。

第五確定單元526用于第一命名實(shí)體詞匯對應(yīng)至少兩個實(shí)體類別或者實(shí)體時,根據(jù)待識別文本上下文特征,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。

第二判斷單元527用于判斷待識別文本的上下文特征是否完整。

第六確定單元528用于在待識別文本的上下文特征完整時,根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型中的實(shí)體類別先驗(yàn)和實(shí)體需求度,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。

其中,確定檢索日志中包括的第一實(shí)體詞匯的實(shí)體類別先驗(yàn),第三確定模塊55用于根據(jù)第一實(shí)體詞匯的構(gòu)詞成分分類,及在檢索日志中的所有關(guān)聯(lián)特征的分類比例、對應(yīng)的檢索結(jié)果的分類比例,確定第一實(shí)體詞匯的實(shí)體類別先驗(yàn)。

其中,確定檢索日志中包括的第一實(shí)體詞匯的實(shí)體用戶需求度,第三確定模塊55用于根據(jù)第一實(shí)體詞匯的不同實(shí)體義項,在檢索日志中所占的比例,確定第一實(shí)體詞匯的實(shí)體用戶需求度。

需要說明的是,前述對基于人工智能的命名實(shí)體識別方法實(shí)施例的解釋說明也適用于該實(shí)施例的基于人工智能的命名實(shí)體識別裝置,其實(shí)現(xiàn)原理類似,此處不再贅述。

本申請實(shí)施例的基于人工智能的命名實(shí)體識別裝置,進(jìn)一步通過判斷第一命名實(shí)體詞匯,是否對應(yīng)至少兩個實(shí)體類別或者實(shí)體,在是的情況下,根據(jù)待識別文本上下文特征,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度,以及判斷待識別文本的上下文特征是否完整,在不完整的情況下,根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型中的實(shí)體類別先驗(yàn)和實(shí)體需求度,確定與第一命名實(shí)體詞匯對應(yīng)的至少兩個實(shí)體類別或者實(shí)體,分別對應(yīng)的置信度。由此,在根據(jù)預(yù)設(shè)的實(shí)體詞匯功能模型確定的識別結(jié)果又歧義時,通過根據(jù)命名實(shí)體對應(yīng)的不同類的別先驗(yàn)及實(shí)體需求度,對識別結(jié)果進(jìn)行進(jìn)一步消歧,從而進(jìn)一步提高了命名實(shí)體識別的準(zhǔn)確性和準(zhǔn)確率。

在本申請的描述中,需要理解的是,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本申請的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。

在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本申請的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個或多個實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

盡管上面已經(jīng)示出和描述了本申請的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本申請的限制,本領(lǐng)域的普通技術(shù)人員在本申請的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
广河县| 乡城县| 禹州市| 长泰县| 申扎县| 五莲县| 冕宁县| 东城区| 三都| 武平县| 阿荣旗| 酉阳| 贞丰县| 丘北县| 连南| 黄平县| 彩票| 随州市| 苏尼特右旗| 海淀区| 固阳县| 荣昌县| 灵武市| 乌拉特中旗| 乳山市| 北碚区| 大同县| 金山区| 方正县| 抚松县| 合山市| 婺源县| 嵊泗县| 东乡族自治县| 五原县| 东宁县| 衡山县| 清涧县| 温泉县| 宜丰县| 太湖县|