本發(fā)明實(shí)施例涉及文本提取領(lǐng)域,特別涉及一種文本實(shí)體提取方法及裝置。
背景技術(shù):
:隨著人機(jī)交互技術(shù)的不斷發(fā)展,越來越多的智能設(shè)備開始具備自然語言認(rèn)知功能。在使用這類智能設(shè)備時(shí),用戶只需要發(fā)起自然語言指令,智能設(shè)備即能夠?qū)ψ匀徽Z言指令進(jìn)行認(rèn)知分析,并根據(jù)分析結(jié)果執(zhí)行相應(yīng)操作,其中,認(rèn)知分析技術(shù)的核心在于如何從自然語言指令中提取特定的文本實(shí)體。比如,當(dāng)接收到的自然語言指令指示播放歌曲時(shí),智能設(shè)備需要通過認(rèn)知分析技術(shù)從該自然語言指令中提取出諸如歌手名和/或歌曲名的文本實(shí)體。在文本提取領(lǐng)域,從自然語言指令中提取出文本實(shí)體通?;谀0迤ヅ鋵?shí)現(xiàn)。采用模板匹配的方式提取自然語言指令中的文本實(shí)體時(shí),智能設(shè)備將獲取到的自然語言指令與大量預(yù)設(shè)模板進(jìn)行匹配,并根據(jù)匹配到的預(yù)設(shè)模板從自然語言指令中提取相應(yīng)的文本實(shí)體。比如,智能設(shè)備獲取到的自然語言指令為“我想聽歌手A的歌曲B”,并查找到匹配的預(yù)設(shè)模板“我想聽[歌手]的[歌曲]”,從而根據(jù)該模板提取到文本實(shí)體“歌手A”和“歌曲B”。然而,由于自然語言指令的不確定性,為了達(dá)到較好的認(rèn)知效果,開發(fā)人員需要預(yù)先設(shè)置大量的模板,導(dǎo)致在進(jìn)行模板匹配時(shí)需要花費(fèi)大量時(shí)間;并且,在未查找到完全匹配的模板時(shí),智能設(shè)備將無法從自然語言指令中提取到相應(yīng)文本實(shí)體。技術(shù)實(shí)現(xiàn)要素:為了解決開發(fā)人員需要預(yù)先設(shè)置大量的模板,導(dǎo)致在進(jìn)行模板匹配時(shí)需要花費(fèi)大量時(shí)間;且在未查找到完全匹配的模板時(shí),智能設(shè)備將無法從自然語言指令中提取到相應(yīng)文本實(shí)體的問題,本發(fā)明實(shí)施例提供了一種文本實(shí)體提取方法及裝置。所述技術(shù)方案如下:根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種文本實(shí)體提取方法,該方法包括:確定目標(biāo)文本中包含的候選文本實(shí)體;對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的候選分詞組合,各個(gè)候選分詞組合中包含的候選文本實(shí)體不同;計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率,組合概率指目標(biāo)文本采用候選分詞組合時(shí)語法成立的概率;根據(jù)組合概率確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合;根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取文本實(shí)體。根據(jù)本發(fā)明實(shí)施例的第二方面,提供了一種文本實(shí)體提取裝置,該裝置包括:第一確定模塊,用于確定目標(biāo)文本中包含的候選文本實(shí)體;生成模塊,用于對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的候選分詞組合,各個(gè)候選分詞組合中包含的候選文本實(shí)體不同;計(jì)算模塊,用于計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率,組合概率指目標(biāo)文本采用候選分詞組合時(shí)語法成立的概率;第二確定模塊,用于根據(jù)組合概率確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合;提取模塊,用于根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取文本實(shí)體。通過獲取目標(biāo)文本中包含的候選文本實(shí)體,并對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的候選分詞組合,從而根據(jù)各個(gè)候選分詞組合對應(yīng)的組合概率確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合,最終根據(jù)該目標(biāo)分詞組合從目標(biāo)文本中提取文本實(shí)體;相較于基于預(yù)設(shè)模板進(jìn)行文本實(shí)體提取,本發(fā)明實(shí)施例中文本實(shí)體的提取不依賴預(yù)設(shè)模板,縮短了前期配置所耗費(fèi)時(shí)間;同時(shí),相較于模板匹配,采用概率計(jì)算的方式確定目標(biāo)分詞組合的速度更快,能夠避免因未查找到匹配的模板而導(dǎo)致文本實(shí)體提取失敗的問題。附圖說明為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1示出了本發(fā)明一個(gè)實(shí)施例提供實(shí)施環(huán)境的示意圖;圖2是一個(gè)實(shí)施例提供的文本實(shí)體提取方法的原理示意圖;圖3示出了本發(fā)明一個(gè)實(shí)施例提供的文本實(shí)體提取方法的流程圖;圖4A示出了本發(fā)明另一個(gè)實(shí)施例提供的文本實(shí)體提取方法的流程圖;圖4B是圖4A所示文本實(shí)體提取方法所涉及的組合概率計(jì)算過程的流程圖;圖4C是候選分詞組合中N元組劃分過程的實(shí)施示意圖;圖4D示出了本發(fā)明再一個(gè)實(shí)施例提供的文本實(shí)體提取方法的流程圖;圖5示出了本發(fā)明一個(gè)實(shí)施例提供的文本實(shí)體提取裝置的結(jié)構(gòu)方框圖;圖6示出了本發(fā)明一個(gè)實(shí)施例提供的服務(wù)器的結(jié)構(gòu)方框圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。在本文中提及的“多個(gè)”是指兩個(gè)或兩個(gè)以上?!昂?或”,描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。字符“/”一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。為了方便理解,下面對本發(fā)明實(shí)施例中涉及的名詞進(jìn)行解釋。文本:指由若干文字組成的文字字符串,本發(fā)明實(shí)施例中涉及的文本特指短文本。短文本指僅包含少量句子的自然語言文本,在人機(jī)交互領(lǐng)域,該短文本通常指用戶發(fā)出的自然語言指令。比如,該短文本可以為:我想聽歌手A的演唱的歌曲B;查一下北京明天的天氣等等。文本實(shí)體:文本實(shí)體用于指示文本中特定類型或具有特定含義的詞語。比如,文本“我想聽歌手A的演唱的歌曲B”中包含文本實(shí)體“歌手A”和“歌曲B”。N-Gram(N-Grammar,N元文法)模型:N-Gram模型是一種用于計(jì)算文本文法成立概率的模型。N-Gram模型基于如下假設(shè):文本中文本元素的出現(xiàn)概率只與前面N-1個(gè)文本元素相關(guān),而與文本中其他文本元素?zé)o關(guān),且整個(gè)文本的文法成立概率為各個(gè)文本元素的出現(xiàn)概率的乘積。本發(fā)明實(shí)施例中,N-Gram模型用于指示N個(gè)文本元素按序組合的概率,該概率通過統(tǒng)計(jì)語料資源中N個(gè)文本元素同時(shí)出現(xiàn)的次數(shù)得到。比如,N-Gram模型用于指示文本元素“我”和“想”按照“我想”這一順序組合的概率,或,按照“想我”這一順序組合的概率。常見的N-Gram模型包括二元的Bi-Gram模型和三元的Tri-Gram模型。請參考圖1,其示出了本發(fā)明一個(gè)實(shí)施例提供實(shí)施環(huán)境的示意圖,該實(shí)施環(huán)境中包括智能設(shè)備110和服務(wù)器120。智能設(shè)備110是具有數(shù)據(jù)處理功能的電子設(shè)備。該電子設(shè)備為智能手機(jī)、平板電腦、智能音箱、可穿戴式智能設(shè)備或智能家居設(shè)備。在一種可能的實(shí)施方式中,智能設(shè)備110具有自然語言認(rèn)知分析功能,即智能設(shè)備110能夠根據(jù)接收到的自然語言指令執(zhí)行相應(yīng)操作,其中,該自然語言指令為用戶發(fā)起的語音指令或用戶輸入的文字指令。比如,當(dāng)智能設(shè)備110為智能音箱時(shí),智能音箱能夠根據(jù)用戶的語音指令執(zhí)行播放音樂、查詢天氣等操作;當(dāng)智能設(shè)備110位智能家居設(shè)備時(shí),智能家居設(shè)備能夠根據(jù)用戶的語音指令提供相應(yīng)的智能家居服務(wù)。智能設(shè)備110與服務(wù)器120之間通過有線或無線網(wǎng)絡(luò)相連。服務(wù)器120為智能設(shè)備110的后臺服務(wù)器。該后臺服務(wù)器為若干臺服務(wù)器構(gòu)成的服務(wù)器集群或云計(jì)算中心。在一種可能的實(shí)施方式中,服務(wù)器110用于根據(jù)語料資源生成N-Gram模型,并向各個(gè)智能設(shè)備110提供該N-Gram模型,以便智能設(shè)備110根據(jù)該N-Gram模型從自然語言指令中提取文本實(shí)體(即自然語言認(rèn)知分析),從而根據(jù)提取出的文本實(shí)體執(zhí)行相應(yīng)操作。同時(shí),服務(wù)器110還用于接收各個(gè)智能設(shè)備110收集到的用戶語料數(shù)據(jù),并根據(jù)該用戶語料數(shù)據(jù)對N-Gram模型進(jìn)行優(yōu)化,進(jìn)而向智能設(shè)備110提供優(yōu)化后的N-Gram模型。在其他可能的實(shí)施方式中,智能設(shè)備110還用于將獲取到的自然語言指令發(fā)送至服務(wù)器120,由服務(wù)器120根據(jù)訓(xùn)練生成的N-Gram模型提取自然語言指令中包含的文本實(shí)體,并將提取出的文本實(shí)體返回至智能設(shè)備110,以便智能設(shè)備110根據(jù)該文本實(shí)體執(zhí)行相應(yīng)操作??蛇x地,上述的無線網(wǎng)絡(luò)或有線網(wǎng)絡(luò)使用標(biāo)準(zhǔn)通信技術(shù)和/或協(xié)議。網(wǎng)絡(luò)通常為因特網(wǎng)、但也可以是任何網(wǎng)絡(luò),包括但不限于局域網(wǎng)(LocalAreaNetwork,LAN)、城域網(wǎng)(MetropolitanAreaNetwork,MAN)、廣域網(wǎng)(WideAreaNetwork,WAN)、移動、有線或者無線網(wǎng)絡(luò)、專用網(wǎng)絡(luò)或者虛擬專用網(wǎng)絡(luò)的任何組合)。在一些實(shí)施例中,使用包括超文本標(biāo)記語言(HyperTextMark-upLanguage,HTML)、可擴(kuò)展標(biāo)記語言(ExtensibleMarkupLanguage,XML)等的技術(shù)和/或格式來代表通過網(wǎng)絡(luò)交換的數(shù)據(jù)。此外還可以使用諸如安全套接字層(SecureSocketLayer,SSL)、傳輸層安全(TransportLayerSecurity,TLS)、虛擬專用網(wǎng)絡(luò)(VirtualPrivateNetwork,VPN)、網(wǎng)際協(xié)議安全(InternetProtocolSecurity,IPsec)等常規(guī)加密技術(shù)來加密所有或者一些鏈路。在另一些實(shí)施例中,還可以使用定制和/或?qū)S脭?shù)據(jù)通信技術(shù)取代或者補(bǔ)充上述數(shù)據(jù)通信技術(shù)。本發(fā)明各個(gè)實(shí)施例提供的文本實(shí)體提取方法,用于智能設(shè)備110或服務(wù)器120中,為了方便描述,下述各個(gè)實(shí)施例以該文本實(shí)體提取方法用于服務(wù)器120為例進(jìn)行說明,并不對本發(fā)明構(gòu)成限定。與基于模板匹配不同的是,如圖2所示,本發(fā)明實(shí)施例涉及的文本實(shí)體提取方法主要分為模型訓(xùn)練階段210和文本實(shí)體提取階段220。其中,在模型訓(xùn)練階段210,服務(wù)器通過對預(yù)設(shè)語料資源進(jìn)行分析統(tǒng)計(jì),訓(xùn)練生成N-Gram模型,其中,該預(yù)設(shè)語料資源為預(yù)設(shè)模板和攜帶標(biāo)注的語料數(shù)據(jù)中的至少一種;在文本實(shí)體提取階段220,服務(wù)器首先根據(jù)實(shí)體庫確定目標(biāo)文本中包含的候選文本實(shí)體,并根據(jù)確定出的候選文本實(shí)體構(gòu)建候選分詞組合,然后根據(jù)模型訓(xùn)練階段210訓(xùn)練得到的N-Gram模型計(jì)算各個(gè)候選分詞組合的概率,進(jìn)而根據(jù)各個(gè)候選分詞組合的概率確定出目標(biāo)分詞組合,并最終根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取出文本實(shí)體。下面采用示意性的實(shí)施例進(jìn)行說明。請參考圖3,其示出了本發(fā)明一個(gè)實(shí)施例提供的文本實(shí)體提取方法的流程圖,本實(shí)施例以該文本實(shí)體提取方法用于圖1所示的服務(wù)器120為例進(jìn)行說明,該方法包括:步驟301,確定目標(biāo)文本中包含的候選文本實(shí)體??蛇x的,該目標(biāo)文本由智能設(shè)備根據(jù)接收到的自然語言語音指令轉(zhuǎn)換得到??蛇x的,服務(wù)器根據(jù)目標(biāo)文本所屬的目標(biāo)領(lǐng)域,確定目標(biāo)文本中包含的候選文本實(shí)體,以及各個(gè)候選文本實(shí)體對應(yīng)的實(shí)體類型。比如,當(dāng)目標(biāo)文本所屬的目標(biāo)領(lǐng)域?yàn)橐魳奉I(lǐng)域時(shí),服務(wù)器確定出的候選文本實(shí)體包括歌手A、歌手a和歌曲B,其中,歌手A和歌手a對應(yīng)的實(shí)體類型為歌手名,歌曲B對應(yīng)的實(shí)體類型為歌曲名。步驟302,對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的候選分詞組合,各個(gè)候選分詞組合中包含的候選文本實(shí)體不同。確定出候選文本實(shí)體后,服務(wù)器進(jìn)一步對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的若干種候選分詞組合,即目標(biāo)文本對應(yīng)的若干種分詞方式。在一種可能的實(shí)施方式中,服務(wù)器將不同實(shí)體類型的候選文本實(shí)體進(jìn)行排列組合,從而生成覆蓋所有組合方式的候選文本實(shí)體組合。比如,服務(wù)器確定出的候選文本實(shí)體包括歌手A、歌手a(歌手A和歌手a的實(shí)體類型均為歌手名)和歌曲B(實(shí)體類型為歌曲名),并生成5種候選文本實(shí)體組合,這5種候選文本實(shí)體組合分別為:(歌手A)、(歌手a)、(歌曲B)、(歌手A,歌曲B)和(歌手a,歌曲B)。步驟303,計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率,組合概率指目標(biāo)文本采用候選分詞組合時(shí)語法成立的概率??蛇x的,針對各個(gè)候選分詞組合,服務(wù)器根據(jù)預(yù)先訓(xùn)練的N-Gram模型計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率,其中,該組合概率用于指示目標(biāo)文本采用候選分詞組合時(shí)語法成立的概率,且組合概率越高,表示目標(biāo)文本采用該候選分詞組合時(shí)語法成立的概率越高,即目標(biāo)文本采用該候選分詞組合進(jìn)行分詞的準(zhǔn)確性越高,更符合目標(biāo)文本的實(shí)際語義。步驟304,根據(jù)組合概率確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合。可選的,服務(wù)器比較各個(gè)候選分詞組合對應(yīng)的組合概率,并將組合概率最高的候選分詞組合確定為目標(biāo)文本對應(yīng)的目標(biāo)分詞組合,即確定目標(biāo)文本采用語法成立概率最高的候選分詞組合進(jìn)行分詞。步驟305,根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取文本實(shí)體。可選的,服務(wù)器根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取相應(yīng)的文本實(shí)體后,將該文本實(shí)體反饋給智能設(shè)備,以便智能設(shè)備根據(jù)該文本實(shí)體執(zhí)行相應(yīng)操作。比如,服務(wù)器從目標(biāo)文本中提取到文本實(shí)體歌手A和歌曲B,并反饋給智能音箱,智能音箱則根據(jù)接收到文本實(shí)體播放歌手A演唱的歌曲B。在實(shí)際實(shí)施過程中,服務(wù)器首先需要構(gòu)建不同領(lǐng)域的實(shí)體庫,并根據(jù)少量語料資源訓(xùn)練N-Gram模型;在文本實(shí)體提取階段,服務(wù)器即根據(jù)實(shí)體庫確定目標(biāo)文本中包含的候選文本實(shí)體,并利用訓(xùn)練生成的N-Gram模型計(jì)算各個(gè)候選分詞組合的組合概率。下面采用示意性的實(shí)施進(jìn)行說明。請參考圖4A,其示出了本發(fā)明另一個(gè)實(shí)施例提供的文本實(shí)體提取方法的流程圖,本實(shí)施例以該文本實(shí)體提取方法用于圖1所示的智能設(shè)備110為例進(jìn)行說明,該方法包括:步驟401,獲取預(yù)設(shè)語料資源,預(yù)設(shè)語料資源包括預(yù)設(shè)模板和攜帶標(biāo)注的語料數(shù)據(jù)中的至少一種。其中,該預(yù)設(shè)模板為開發(fā)人員手動編寫的少量模板;語料數(shù)據(jù)為服務(wù)器從網(wǎng)絡(luò)中抓取的網(wǎng)絡(luò)語料數(shù)據(jù),或由智能設(shè)備上報(bào)的用戶語料數(shù)據(jù),語料數(shù)據(jù)中攜帶的標(biāo)注用于指示語料中的實(shí)體以及實(shí)體所屬的實(shí)體類別。在一種可能的實(shí)施方式中,在可用語料數(shù)據(jù)較少的情況下,服務(wù)器獲取開發(fā)人員手動編寫的少量預(yù)設(shè)模板;而隨著語料數(shù)據(jù)的增多,服務(wù)器獲取預(yù)設(shè)模板的同時(shí),獲取智能設(shè)備上報(bào)的用戶語料數(shù)據(jù)(攜帶標(biāo)注)。可選的,不同領(lǐng)域?qū)?yīng)的預(yù)設(shè)語料資源不同。比如,針對音樂領(lǐng)域,該預(yù)設(shè)語料資源中包括音樂相關(guān)的預(yù)設(shè)模板和/或攜帶標(biāo)注的音樂相關(guān)的語料數(shù)據(jù);針對智能家居領(lǐng)域,該預(yù)設(shè)語料資源中包括智能家居控制指令相關(guān)的預(yù)設(shè)模板和/或攜帶標(biāo)注的智能家居設(shè)備相關(guān)的語料數(shù)據(jù)。示意性的,針對音樂領(lǐng)域,服務(wù)器獲取到開發(fā)人員手動編寫的預(yù)設(shè)模板包括:(1)、我想聽[singer]的[song](2)、[song]是誰唱的(3)、[album]里有[song]嗎(4)、[song]的演唱者是誰其中,文本實(shí)體[singer]用于指示歌手名,文本實(shí)體[song]用于指示歌曲名,文本實(shí)體[album]用于指示專輯名。為了方便描述,本實(shí)施例均基于上述示例進(jìn)行舉例說明,并不對本發(fā)明構(gòu)成限定。步驟402,根據(jù)預(yù)設(shè)語料資源訓(xùn)練N-Gram模型,N-Gram模型用于指示N個(gè)文本元素按序組合的概率,文本元素為文本中的字或詞,N≥2,N為正整數(shù)。可選的,針對不同領(lǐng)域的預(yù)設(shè)語料資源,服務(wù)器生成各個(gè)領(lǐng)域各自對應(yīng)的N-Gram模型。在一種可能的實(shí)施方式中,服務(wù)器獲取到的預(yù)設(shè)語料資源中包含預(yù)設(shè)模板,服務(wù)器即統(tǒng)計(jì)預(yù)設(shè)模板中N個(gè)文本元素同時(shí)出現(xiàn)的第一次數(shù),并統(tǒng)計(jì)N個(gè)文本元素按不同順序組合的第二次數(shù),從而根據(jù)第一次數(shù)和第二次數(shù)計(jì)算出N個(gè)文本元素按序組合的概率。比如,服務(wù)器統(tǒng)計(jì)到預(yù)設(shè)模板中“我”和“想”這兩個(gè)文本元素(均為字)同時(shí)出現(xiàn)的次數(shù)為1,且按照“我想”這一順序組合的次數(shù)為1,則“我”和“想”這兩個(gè)文本元素按照“我想”這一順序組合的概率為1/1=1.0。又比如,服務(wù)器統(tǒng)計(jì)到預(yù)設(shè)模板中“[song]”和“的”這兩個(gè)文本元素(前者為詞,后者為字)同時(shí)出現(xiàn)的次數(shù)為2,且按照“[song]的”這一順序組合的次數(shù)為1,則“[song]”和“的”這兩個(gè)文本元素按照“[song]的”這一順序組合的概率為1/2=0.5??蛇x的,當(dāng)獲取到攜帶標(biāo)注的語料數(shù)據(jù)時(shí),服務(wù)器根據(jù)該語料數(shù)據(jù)對生成的N-Gram模型進(jìn)行優(yōu)化,提高N-Gram模型的精度,從而達(dá)到更好的文本實(shí)體提取效果。步驟403,確定目標(biāo)文本所屬的目標(biāo)領(lǐng)域。由于不同領(lǐng)域?qū)?yīng)的實(shí)體庫不同,因此,為了提高后續(xù)確定候選文本實(shí)體的準(zhǔn)確性,服務(wù)器獲取到目標(biāo)文本后,首先確定該目標(biāo)文本所屬的目標(biāo)領(lǐng)域,并進(jìn)一步根據(jù)該目標(biāo)領(lǐng)域?qū)?yīng)的實(shí)體庫確定處目標(biāo)文本中包含的候選文本實(shí)體。在一種可能的實(shí)施方式中,服務(wù)器獲取到目標(biāo)文本后,識別該目標(biāo)文本中包含的關(guān)鍵詞,并根據(jù)該關(guān)鍵詞確定目標(biāo)文本所屬的目標(biāo)領(lǐng)域。比如,服務(wù)器獲取到的目標(biāo)文本為“我想聽周杰倫的七里香”,并識別出目標(biāo)文本中包含關(guān)鍵詞“聽”,從而確定目標(biāo)領(lǐng)域?yàn)橐魳奉I(lǐng)域。在其他可能的實(shí)施方式中,服務(wù)器還可以根據(jù)智能設(shè)備所提供的服務(wù)確定該目標(biāo)文本所屬的目標(biāo)領(lǐng)域,本發(fā)明實(shí)施例并不對服務(wù)器確定目標(biāo)領(lǐng)域的具體方式進(jìn)行限定。步驟404,根據(jù)目標(biāo)領(lǐng)域?qū)?yīng)的實(shí)體庫確定目標(biāo)文本中包含的候選文本實(shí)體。進(jìn)一步的,確定目標(biāo)文本所屬的目標(biāo)領(lǐng)域后,服務(wù)器獲取該目標(biāo)領(lǐng)域?qū)?yīng)的實(shí)體庫,并根據(jù)該實(shí)體庫確定目標(biāo)文本中包含的候選文本實(shí)體。其中,該實(shí)體庫中包含大量目標(biāo)領(lǐng)域的相關(guān)詞匯。比如,服務(wù)器確定出目標(biāo)領(lǐng)域?yàn)橐魳奉I(lǐng)域,并獲取音樂相關(guān)的實(shí)體庫,其中,該實(shí)體庫包括歌手實(shí)體庫(包含大量歌手名)、歌曲實(shí)體庫(包含大量歌名)和專輯實(shí)體庫(包含大量專輯名)。在一種可能的實(shí)施方式中,為了提高確定候選文本實(shí)體的速度,服務(wù)器采用字典樹(TrieTree)確定目標(biāo)文本中包含的候選文本實(shí)體。示意性的,服務(wù)器根據(jù)歌手實(shí)體庫和歌名實(shí)體庫,確定目標(biāo)文本“我想聽張曉四的長江頌”中包含的候選文本實(shí)體分別為張曉(歌手名)、張曉四(歌手名)、長江頌(歌曲名)。步驟405,對候選文本實(shí)體進(jìn)行組合,生成目標(biāo)文本對應(yīng)的候選分詞組合,各個(gè)候選分詞組合中包含的候選文本實(shí)體不同。確定出目標(biāo)文本中包含的所有候選文本實(shí)體后,服務(wù)器對候選文本實(shí)體進(jìn)行組合,并基于組合后的候選文本實(shí)體生成目標(biāo)文本對應(yīng)的若干種候選分詞組合,即目標(biāo)文本對應(yīng)的若干種分詞方式。示意性的,服務(wù)器獲取到目標(biāo)文本為“我想聽張曉四的長江頌”,并確定出候選文本實(shí)體包括“張曉”、“張曉四”和“長江頌”,則生成目標(biāo)文本對應(yīng)的候選分詞組合如表一所示。表一編號候選分詞組合[singer][song]1我想聽[singer]的長江頌張曉四-2我想聽[singer]四的長江頌張曉-3我想聽張曉四的[song]-長江頌4我想聽[singer]的[song]張曉四長江頌5我想聽[singer]四的[song]張曉長江頌其中,編號為1的候選分詞組合中包含的候選文本實(shí)體為“張曉四”;編號為2的候選分詞組合中包含的候選文本實(shí)體為“張曉”;編號為3的候選分詞組合中包含的候選文本實(shí)體為“長江頌”;編號為4的候選分詞組合中包含的候選文本實(shí)體為“張曉四”和“長江頌”;編號為5的候選分詞組合中包含的候選文本實(shí)體為“張曉”和“長江頌”。步驟406,獲取N-Gram模型。生成目標(biāo)文本對應(yīng)的候選分詞組合后,服務(wù)器獲取上述步驟402訓(xùn)練得到的N-Gram模型。步驟407,根據(jù)N-Gram模型計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率。進(jìn)一步的,服務(wù)器根據(jù)N-Gram模型計(jì)算各個(gè)候選分詞組合對應(yīng)的組合概率,即計(jì)算目標(biāo)文本采用相應(yīng)候選分詞組合時(shí)的語法成立概率。在一種可能的實(shí)施方式中,由于N-Gram模型用于指示N個(gè)文本元素按序組合的概率,因此,在計(jì)算候選分詞組合的組合概率時(shí),服務(wù)器將候選分詞組合中的文本元素劃分為若干個(gè)N元組,并根據(jù)各個(gè)N元組各自對應(yīng)的概率計(jì)算該候選分詞組合的概率。如圖4B所示,本步驟包括如下步驟。步驟407A,將L個(gè)文本元素中相鄰的N個(gè)文本元素劃分至同一N元組,L個(gè)文本元素中包含L-N+1個(gè)N元組。如圖4C所示,目標(biāo)文本對應(yīng)的一個(gè)候選分詞組合中包括L個(gè)文本元素41(序號分別為1至L),L個(gè)文本元素中包括候選文本實(shí)體,以及除候選文本實(shí)體以外目標(biāo)文本中的文本內(nèi)容(字或詞)。服務(wù)器將L個(gè)文本元素中相鄰的N個(gè)文本元素劃分為同一N元組,從而生成L-N+1個(gè)N元組。如圖4C所示,服務(wù)器將L個(gè)文本元組中相鄰的2個(gè)文本元素劃分為同一二元組,從而生成L-1個(gè)二元組。示意性的,對于表一中編號為4的候選分詞組合“我想聽[singer]的[song]”,該候選分詞組合中包含6個(gè)文本元素,分別為“我”、“想”、“聽”、“[singer]”、“的”、“[song]”。服務(wù)器將6個(gè)文本元素中相鄰的2個(gè)文本元素劃分至同一二元組,得到5個(gè)二元組,分別為(我,想)、(想,聽)、(聽,[singer])、([singer],的)、(的,[song])。在其他可能的實(shí)施方式中,服務(wù)器還可以將兩個(gè)以上相鄰的文本元素劃分為同一N元組,本實(shí)施例僅以劃分為二元組為例進(jìn)行示意性說明,并不對本發(fā)明構(gòu)成限定。步驟407B,根據(jù)N-Gram模型確定各個(gè)N元組對應(yīng)的第一概率,得到L-N+1個(gè)第一概率。進(jìn)一步的,服務(wù)器根據(jù)訓(xùn)練的N-Gram模型,確定劃分出的各個(gè)N元組對應(yīng)的第一概率。當(dāng)N-Gram模型僅由少量預(yù)設(shè)模板訓(xùn)練而成時(shí),N-Gram模型的精度較低,且覆蓋的N元組較少,相應(yīng)的,服務(wù)器可能無法在從N-Gram模型中查找到與劃分出的N元組相匹配的N元組,進(jìn)而無法確定該N元組對應(yīng)的第一概率。為了使該N-Gram模型具有一定的范化能力,在一種可能的實(shí)施方式中,當(dāng)N-Gram模型中包含與劃分出的N元組相匹配的N元組時(shí),服務(wù)器則根據(jù)該N-Gram模型確定該N元組的第一概率;當(dāng)N-Gram模型中不包含與劃分出的N元組相匹配的N元組時(shí),服務(wù)器則通過下述步驟407C確定該N元組對應(yīng)的第一概率。步驟407C,若N-Gram模型中不包含該N元組對應(yīng)的第一概率,則將預(yù)設(shè)概率值確定為N元組對應(yīng)的第一概率。若N-Gram模型中不包含劃分出的N元組對應(yīng)的第一概率,服務(wù)器則將預(yù)設(shè)概率值確定為該N元組對應(yīng)的第一概率,其中,該預(yù)設(shè)概率值通常較小,比如該預(yù)設(shè)概率值為10-6。步驟407D,根據(jù)L-N+1個(gè)第一概率計(jì)算候選分詞組合對應(yīng)的組合概率。通過上述步驟407A至407C,服務(wù)器計(jì)算得到個(gè)N元組各自對應(yīng)的第一概率??蛇x的,在計(jì)算候選分詞組合對應(yīng)的組合概率時(shí),服務(wù)器獲取第i-N+1個(gè)文本元素至第i個(gè)文本元素所構(gòu)成的N元組對應(yīng)的第一概率(共獲取到L-N+1個(gè)),并對獲取到的各個(gè)第一概率進(jìn)行累乘,從而將累乘結(jié)果確定為候選分詞組合對應(yīng)的組合概率。在一種可能的實(shí)施方式中,服務(wù)器根據(jù)L-N+1個(gè)第一概率,通過概率計(jì)算公式計(jì)算候選分詞組合對應(yīng)的組合概率,該概率計(jì)算公式為:其中,p(s)為組合概率,p(wi|wi-1|...|wi-N+1)為第i-N+1個(gè)文本元素至第i個(gè)元素所構(gòu)成的N元組對應(yīng)的第一概率,N≤i≤L,i為正整數(shù)。結(jié)合上述步驟407B中所示的實(shí)施例,編號為4的候選分詞組合對應(yīng)的組合概率即為p(想|我)×p(聽|想)×p([singer]|聽)×p(的|[singer])×p([song]|的)。服務(wù)器重復(fù)上述步驟407B至407D,計(jì)算得到目標(biāo)文本對應(yīng)的各個(gè)候選分詞組合的組合概率。示意性的,服務(wù)器計(jì)算得到各個(gè)候選分詞組合的組合概率如表二所示,表二編號候選分詞組合[singer][song]組合概率1我想聽[singer]的長江頌張曉四-0.082我想聽[singer]四的長江頌張曉-0.023我想聽張曉四的[song]-長江頌0.074我想聽[singer]的[song]張曉四長江頌0.145我想聽[singer]四的[song]張曉長江頌0.04步驟408,根據(jù)組合概率確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合。根據(jù)計(jì)算得到各個(gè)組合概率,服務(wù)器確定目標(biāo)文本對應(yīng)的目標(biāo)分詞組合,其中,目標(biāo)文本采用目標(biāo)分詞組合時(shí)語法成立的概率最高,即采用目標(biāo)分詞組合進(jìn)行分詞更符合目標(biāo)文本的實(shí)際語義。在一種可能的實(shí)施方式中,在圖4A的基礎(chǔ)上,如圖4D所示,本步驟包括如下步驟。步驟408A,將組合概率中值最大的組合概率對應(yīng)的候選分詞組合確定為目標(biāo)分詞組合。比如,結(jié)合表二所示,編號為4的候選分詞組合對應(yīng)的組合概率的值最大,服務(wù)器即將該“我想聽[singer]的[song]”確定為目標(biāo)分詞組合。步驟408B,檢測組合概率中值最大的組合概率是否大于預(yù)設(shè)概率閾值;若值最大的組合概率大于預(yù)設(shè)概率閾值,則將值最大的組合概率對應(yīng)的候選分詞組合確定為目標(biāo)分詞組合。為了進(jìn)一步提高文本實(shí)體提取的準(zhǔn)確性,服務(wù)器獲取到值最大的組合概率后,進(jìn)步檢測該值最大的組合概率是否大于預(yù)設(shè)概率閾值。若值最大的組合概率大于預(yù)設(shè)概率閾值,則將值最大的組合概率對應(yīng)的候選分詞組合確定為目標(biāo)分詞組合;若值最大的組合概率小于預(yù)設(shè)概率閾值(即使用最大組合概率對應(yīng)的候選分詞組合進(jìn)行分詞,也無法表達(dá)出目標(biāo)文本的實(shí)際含義),則停止從目標(biāo)文本中提取文本實(shí)體。比如,當(dāng)預(yù)設(shè)概率閾值為0.005,且計(jì)算得到各個(gè)候選分詞組合對應(yīng)的組合概率分別為0.004、0.0001和0.0015時(shí),由于值最大的組合概率(即0.004)小于預(yù)設(shè)概率閾值,因此,確定無法從目標(biāo)文本中提取文本實(shí)體。可選的,對于無法提取文本實(shí)體的目標(biāo)文本,服務(wù)器將該目標(biāo)文本交由人工處理,并接收人工標(biāo)注的文本實(shí)體。步驟409,根據(jù)目標(biāo)分詞組合從目標(biāo)文本中提取文本實(shí)體。可選的,服務(wù)器根據(jù)目標(biāo)分詞組合所指示的分詞方式,從目標(biāo)文本中提取相應(yīng)的文本實(shí)體。比如,結(jié)合上述實(shí)施例,服務(wù)器根據(jù)目標(biāo)分詞組合“我想聽[singer]的[song]所指示的分詞方式,從目標(biāo)文本“我想聽張曉四的長江頌”中提取出文本實(shí)體“張曉四”和“長江頌”。可選的,服務(wù)器對提取出的文本實(shí)體進(jìn)行合法性校驗(yàn)和/或關(guān)聯(lián)性校驗(yàn),并在文本實(shí)體合法和/或文本實(shí)體關(guān)聯(lián)時(shí),向智能設(shè)備反饋文本實(shí)體,以便智能設(shè)備根據(jù)文本實(shí)體執(zhí)行相應(yīng)操作。本實(shí)施例中,服務(wù)器根據(jù)少量語料資源生成N-Gram模型,并利用該N-Gram模型計(jì)算各個(gè)候選分詞組合的組合概率,從而避免前期配置大量匹配模板,適用于語料資源較少的初期階段。本實(shí)施例中,服務(wù)器在確定候選文本實(shí)體前,預(yù)先確定目標(biāo)文本所屬的目標(biāo)領(lǐng)域,從而利用目標(biāo)領(lǐng)域?qū)?yīng)的實(shí)體庫挖掘目標(biāo)文本中包含的候選文本實(shí)體,進(jìn)而提高確定出的候選文本實(shí)體的準(zhǔn)確性。下述為本發(fā)明裝置實(shí)施例,對于裝置實(shí)施例中未詳盡描述的細(xì)節(jié),可以參考上述一一對應(yīng)的方法實(shí)施例。請參考圖5,其示出了本發(fā)明一個(gè)實(shí)施例提供的文本實(shí)體提取裝置的結(jié)構(gòu)方框圖。該文本實(shí)體提取裝置通過硬件或者軟硬件的結(jié)合實(shí)現(xiàn)成為圖1中服務(wù)器120的全部或者一部分。該文本實(shí)體提取裝置包括:第一確定模塊510、生成模塊520、計(jì)算模塊530、第二確定模塊540和提取模塊550。第一確定模塊510,用于實(shí)現(xiàn)上述步驟301的功能;生成模塊520,用于實(shí)現(xiàn)上述步驟302或405的功能;計(jì)算模塊530,用于實(shí)現(xiàn)上述步驟303的功能;第二確定模塊540,用于實(shí)現(xiàn)上述步驟304或408的功能;提取模塊550,用于實(shí)現(xiàn)上述步驟305或409的功能。可選的,該裝置還包括:獲取模塊和訓(xùn)練模塊;獲取模塊,用于實(shí)現(xiàn)上述步驟401的功能;訓(xùn)練模塊,用于實(shí)現(xiàn)上述步驟402的功能;計(jì)算模塊530,包括:獲取單元和計(jì)算單元;獲取單元,用于實(shí)現(xiàn)上述步驟406的功能;計(jì)算單元,用于實(shí)現(xiàn)上述步驟407的功能??蛇x的,候選分詞組合中包含L個(gè)文本元素,L個(gè)文本元素中包括候選文本實(shí)體,以及候選文本實(shí)體外目標(biāo)文本中的文本內(nèi)容;計(jì)算單元,還用于實(shí)現(xiàn)上述步驟407A至407D的功能??蛇x的,第一確定模塊510,包括:第一確定單元和第二確定單元;第一確定單元,用于實(shí)現(xiàn)上述步驟403的功能;第二確定單元,用于實(shí)現(xiàn)上述步驟404的功能。可選的,第二確定模塊540,包括:第三確定單元和第四確定單元;第三確定單元,用于實(shí)現(xiàn)上述步驟408A的功能;第四確定單元,用于實(shí)現(xiàn)上述步驟408B的功能。請參考圖6,其示出了本發(fā)明一個(gè)實(shí)施例提供的服務(wù)器的結(jié)構(gòu)方框圖。該服務(wù)器600實(shí)現(xiàn)為上述實(shí)施例的文本實(shí)體提取裝置。具體來講:服務(wù)器600包括中央處理單元(CPU)601、包括隨機(jī)存取存儲器(RAM)602和只讀存儲器(ROM)603的系統(tǒng)存儲器604,以及連接系統(tǒng)存儲器604和中央處理單元601的系統(tǒng)總線605。所述服務(wù)器600還包括幫助計(jì)算機(jī)內(nèi)的各個(gè)器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))606,和用于存儲操作系統(tǒng)613、應(yīng)用程序614和其他程序模塊615的大容量存儲設(shè)備607。所述基本輸入/輸出系統(tǒng)606包括有用于顯示信息的顯示器608和用于用戶輸入信息的諸如鼠標(biāo)、鍵盤之類的輸入設(shè)備609。其中所述顯示器608和輸入設(shè)備609都通過連接到系統(tǒng)總線605的輸入輸出控制器610連接到中央處理單元601。所述基本輸入/輸出系統(tǒng)606還可以包括輸入輸出控制器610以用于接收和處理來自鍵盤、鼠標(biāo)、或電子觸控筆等多個(gè)其他設(shè)備的輸入。類似地,輸入輸出控制器610還提供輸出到顯示屏、打印機(jī)或其他類型的輸出設(shè)備。所述大容量存儲設(shè)備607通過連接到系統(tǒng)總線605的大容量存儲控制器(未示出)連接到中央處理單元601。所述大容量存儲設(shè)備607及其相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)為服務(wù)器600提供非易失性存儲。也就是說,所述大容量存儲設(shè)備607可以包括諸如硬盤或者CD-ROM驅(qū)動器之類的計(jì)算機(jī)可讀介質(zhì)(未示出)。不失一般性,所述計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括以用于存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括RAM、ROM、EPROM、EEPROM、閃存或其他固態(tài)存儲其技術(shù),CD-ROM、DVD或其他光學(xué)存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設(shè)備。當(dāng)然,本領(lǐng)域技術(shù)人員可知所述計(jì)算機(jī)存儲介質(zhì)不局限于上述幾種。上述的系統(tǒng)存儲器604和大容量存儲設(shè)備607可以統(tǒng)稱為存儲器。根據(jù)本發(fā)明的各種實(shí)施例,所述服務(wù)器600還可以通過諸如因特網(wǎng)等網(wǎng)絡(luò)連接到網(wǎng)絡(luò)上的遠(yuǎn)程計(jì)算機(jī)運(yùn)行。也即服務(wù)器600可以通過連接在所述系統(tǒng)總線605上的網(wǎng)絡(luò)接口單元611連接到網(wǎng)絡(luò)612,或者說,也可以使用網(wǎng)絡(luò)接口單元611來連接到其他類型的網(wǎng)絡(luò)或遠(yuǎn)程計(jì)算機(jī)系統(tǒng)(未示出)。所述存儲器還包括一個(gè)或者一個(gè)以上的程序,所述一個(gè)或者一個(gè)以上程序存儲于存儲器中,所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行本發(fā)明實(shí)施例提供的文本實(shí)體提取方法的指令。本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的文本實(shí)體提取方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM,ReadOnlyMemory)、隨機(jī)存取記憶體(RAM,RandomAccessMemory)、磁盤或光盤等。上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3