命名實(shí)體的識(shí)別方法
【專利摘要】本申請(qǐng)公開了一種命名實(shí)體的識(shí)別方法,先對(duì)待處理文本中的特殊詞進(jìn)行識(shí)別,接下來(lái)對(duì)待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換,然后在此基礎(chǔ)上進(jìn)行商品實(shí)體、商品分類實(shí)體、品牌實(shí)體、商品屬性名實(shí)體以及商品屬性值實(shí)體等實(shí)體的識(shí)別。采用本發(fā)明可以不受無(wú)關(guān)關(guān)鍵字的影響,實(shí)現(xiàn)對(duì)商品和商品屬性等實(shí)體的準(zhǔn)確識(shí)別。
【專利說(shuō)明】命名實(shí)體的識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于自然語(yǔ)言的人機(jī)自動(dòng)應(yīng)答技術(shù),特別是涉及人機(jī)自動(dòng)應(yīng)答系統(tǒng)中的一種命名實(shí)體的識(shí)別方法。
【背景技術(shù)】
[0002]基于自然語(yǔ)言的人機(jī)自動(dòng)應(yīng)答系統(tǒng),是自然語(yǔ)言理解的一個(gè)重要應(yīng)用。人機(jī)自動(dòng)應(yīng)答系統(tǒng)在針對(duì)某一領(lǐng)域知識(shí)庫(kù)進(jìn)行特殊處理之后,用戶可以通過(guò)瀏覽器以自然語(yǔ)言形式提出問(wèn)題,系統(tǒng)可以多媒體的形式自動(dòng)給出答案,而且能夠針對(duì)用戶要求進(jìn)行相關(guān)的統(tǒng)計(jì)和針對(duì)具體情況給出適當(dāng)?shù)慕ㄗh。
[0003]命名實(shí)體識(shí)別是自然語(yǔ)言理解的一個(gè)重要組成部分,它主要通過(guò)發(fā)現(xiàn)和標(biāo)記自然語(yǔ)目文本中的命名實(shí)體。語(yǔ)義標(biāo)注是將自然語(yǔ)目中的命名實(shí)體替換為機(jī)器可理解的?目息,最常見的就是信息的編碼。比如對(duì)于“聯(lián)想Κ900有貨嗎? ”這句話,其中,“聯(lián)想Κ900”將會(huì)被識(shí)別和標(biāo)注為商品,同時(shí)會(huì)標(biāo)注出該商品的商品編號(hào)為“ΧΧΧΧΧΧΧΧΧ”。
[0004]基于自然語(yǔ)言的人機(jī)自動(dòng)應(yīng)答系統(tǒng)廣泛應(yīng)用于電子商務(wù)領(lǐng)域中,在該領(lǐng)域中通常以商品和商品屬性作為命名實(shí)體,需要從用戶輸入的自然語(yǔ)言中將此類命名實(shí)體準(zhǔn)確有效識(shí)別出來(lái)。目前最常用的一種命名實(shí)體識(shí)別方法是直接使用搜索引擎識(shí)別商品名。具體方法為:將用戶輸入的自然語(yǔ)言進(jìn)行分詞,然后以各分詞結(jié)果為關(guān)鍵詞進(jìn)行搜索系統(tǒng)數(shù)據(jù)庫(kù),最后對(duì)搜索結(jié)果進(jìn)行處理,識(shí)別出該自然語(yǔ)言中的命名實(shí)體。
[0005]上述命名實(shí)體識(shí) 別方法比較適合于不存在無(wú)關(guān)關(guān)鍵字的識(shí)別情況,可以快速確定需要搜索的命名實(shí)體,但是對(duì)于存在無(wú)關(guān)關(guān)鍵字時(shí),往往不能識(shí)別無(wú)關(guān)關(guān)鍵字的語(yǔ)義,錯(cuò)誤的作為關(guān)鍵字進(jìn)行搜索,定位到錯(cuò)誤的命名實(shí)體。
【發(fā)明內(nèi)容】
[0006]有鑒于此,本發(fā)明的主要目的在于提供一種命名實(shí)體的識(shí)別方法,該方法可以對(duì)商品和商品屬性進(jìn)行準(zhǔn)確有效地識(shí)別。
[0007]為了達(dá)到上述目的,本發(fā)明提出的技術(shù)方案為:
[0008]一種命名實(shí)體的識(shí)別方法,包括:
[0009]a、將用戶在當(dāng)前會(huì)話中輸入的語(yǔ)句作為待處理文本,對(duì)所述待處理文本中符合預(yù)設(shè)規(guī)則的數(shù)字和超鏈接進(jìn)行識(shí)別,并將所述待處理文本中的超鏈接替換為預(yù)設(shè)的超鏈接替代符號(hào);
[0010]b、對(duì)所述待處理文本中的特殊詞進(jìn)行識(shí)別,并將連續(xù)的僅以空格間隔的所有特殊詞標(biāo)記為一個(gè)特殊詞串,所述特殊詞包括英文字符、數(shù)字和除句號(hào)和逗號(hào)之外的符號(hào);
[0011]C、分別以每個(gè)所述特殊詞為關(guān)鍵詞,搜索系統(tǒng)的商品品牌和型號(hào)數(shù)據(jù)庫(kù),對(duì)所述待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將所述待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換;
[0012]d、如果當(dāng)前會(huì)話非首次會(huì)話,則根據(jù)上一次會(huì)話的命名實(shí)體識(shí)別過(guò)程中確定的初始命名實(shí)體,對(duì)所述待處理文本中的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行識(shí)別;所述初始命名實(shí)體為商品實(shí)體或商品分類實(shí)體;
[0013]e、對(duì)步驟c中得到的所述待處理文本進(jìn)行分詞;并以分詞后得到的每個(gè)詞為索弓丨,查找系統(tǒng)的品牌和商品分類詞典,對(duì)所述待處理文本中的品牌實(shí)體和商品分類實(shí)體進(jìn)行識(shí)別;
[0014]f、按照預(yù)設(shè)的關(guān)鍵詞規(guī)則,根據(jù)當(dāng)前識(shí)別出的所述實(shí)體,確定當(dāng)前用于商品搜索的關(guān)鍵詞;使用所述關(guān)鍵詞,搜索預(yù)設(shè)的商品數(shù)據(jù)庫(kù),并從所搜索的商品中,選擇出預(yù)設(shè)W個(gè)商品;根據(jù)最大公共子串原則,對(duì)所述W個(gè)商品進(jìn)行篩選,將篩選到的每個(gè)商品標(biāo)記為商品實(shí)體,并記錄所述商品實(shí)體的商品編號(hào);
[0015]g、根據(jù)當(dāng)前已識(shí)別出的所述商品實(shí)體和所述商品分類實(shí)體,查詢系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體;
[0016]h、如果當(dāng)前存在與所有所述實(shí)體無(wú)關(guān)的特殊詞,則利用所述無(wú)關(guān)的特殊詞,搜索所述商品數(shù)據(jù)庫(kù)和所述商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體;
[0017]1、對(duì)當(dāng)前已識(shí)別出的所有實(shí)體進(jìn)行篩選,確定出本次會(huì)話的所有命名實(shí)體;并確定出用于下一次會(huì)話識(shí)別的初始命名實(shí)體。
[0018]綜上所述,本發(fā)明提出的命名實(shí)體的識(shí)別方法,先對(duì)待處理文本中的特殊詞進(jìn)行識(shí)別,接下來(lái)對(duì)待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換,然后在此基礎(chǔ)上進(jìn)行商品實(shí)體、商品分類實(shí)體、品牌實(shí)體、商品屬性名實(shí)體以及商品屬性值實(shí)體等實(shí)體的識(shí)別。如此進(jìn)行命名實(shí)體的識(shí)別,可以不受無(wú)關(guān)關(guān)鍵字的影響,實(shí)現(xiàn)對(duì)商品和商品屬性等實(shí)體的準(zhǔn)確識(shí)別。
【專利附圖】
【附圖說(shuō)明】
[0019]圖1為本發(fā)明實(shí)施例一的流程示意圖。
【具體實(shí)施方式】
[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述。
[0021]本發(fā)明的核心思想是:先對(duì)特殊詞進(jìn)行識(shí)別,再對(duì)型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換,然后在此基礎(chǔ)上進(jìn)行商品實(shí)體、商品分類實(shí)體、品牌實(shí)體、商品屬性名實(shí)體以及商品屬性值實(shí)體等實(shí)體的識(shí)別。如此可以不受無(wú)關(guān)關(guān)鍵字的影響,實(shí)現(xiàn)對(duì)商品和商品屬性等實(shí)體的準(zhǔn)確識(shí)別。
[0022]圖1為本發(fā)明實(shí)施例一的流程示意圖,如圖1所示,該實(shí)施例的命名實(shí)體識(shí)別方法主要包括以下步驟:
[0023]步驟101、將用戶在當(dāng)前會(huì)話中輸入的語(yǔ)句作為待處理文本,對(duì)所述待處理文本中符合預(yù)設(shè)規(guī)則的數(shù)字和超鏈接進(jìn)行識(shí)別,并將所述待處理文本中的超鏈接替換為預(yù)設(shè)的超鏈接替代符號(hào)。
[0024]所述符合預(yù)設(shè)規(guī)則的數(shù)字和超鏈接為:滿足商品編號(hào)規(guī)則的數(shù)字和滿足商品頁(yè)面規(guī)則的超鏈接。
[0025]本步驟中,需要將待處理文本中的超鏈接替換為預(yù)設(shè)的超鏈接替代符號(hào),以便在后續(xù)步驟中,實(shí)現(xiàn)對(duì)商品屬性名實(shí)體、商品屬性值實(shí)體等用文字描述的實(shí)體的識(shí)別。
[0026]步驟102、對(duì)所述待處理文本中的特殊詞進(jìn)行識(shí)別,并將連續(xù)的僅以空格間隔的所有特殊詞標(biāo)記為一個(gè)特殊詞串。
[0027]所述特殊詞包括英文字符、數(shù)字和除句號(hào)和逗號(hào)之外的符號(hào)。
[0028]這里需要說(shuō)明的是,本發(fā)明中需要先對(duì)文本中的特殊詞進(jìn)行識(shí)別,以便此后在此基礎(chǔ)上準(zhǔn)確識(shí)別出文本中的型號(hào)實(shí)體、商品屬性名實(shí)體、商品屬性值實(shí)體等實(shí)體。
[0029]步驟103、分別以每個(gè)所述特殊詞為關(guān)鍵詞,搜索系統(tǒng)的商品品牌和型號(hào)數(shù)據(jù)庫(kù),對(duì)所述待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將所述待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換。
[0030]較佳地,本步驟中對(duì)所述待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別的具體方法如下:
[0031]分別以每個(gè)所述特殊詞為關(guān)鍵詞,搜索系統(tǒng)的商品品牌和型號(hào)數(shù)據(jù)庫(kù);將搜索到的型號(hào)信息與所述待處理文本進(jìn)行全詞匹配,將與所述型號(hào)信息所匹配的特殊詞標(biāo)記為型號(hào)實(shí)體;對(duì)于每個(gè)所述型號(hào)實(shí)體,在該型號(hào)實(shí)體的關(guān)聯(lián)詞列表屬性中記錄用于搜索到該型號(hào)實(shí)體的特殊詞,并在該特殊詞的關(guān)聯(lián)實(shí)體列表屬性中記錄該型號(hào)實(shí)體。
[0032]這里,對(duì)于每個(gè)所述型號(hào)實(shí)體,在該型號(hào)實(shí)體的關(guān)聯(lián)詞列表屬性中記錄用于搜索到該型號(hào)實(shí)體的特殊詞,并在該特殊詞的關(guān)聯(lián)實(shí)體列表屬性中記錄該型號(hào)實(shí)體,可以實(shí)現(xiàn)特殊詞與相關(guān)型號(hào)實(shí)體間的關(guān)聯(lián)。
[0033]這里,在對(duì)待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別后,需要用預(yù)設(shè)的數(shù)字串將待處理文本中與型號(hào)實(shí)體關(guān)聯(lián)的特殊詞替換,以便后續(xù)步驟中在對(duì)商品屬性名實(shí)體、商品屬性值實(shí)體等用文字描述的命名實(shí)體進(jìn)行識(shí)別時(shí),避免型號(hào)實(shí)體的干擾,提高識(shí)別的準(zhǔn)確性。
[0034]步驟104、如果當(dāng)前會(huì)話非首次會(huì)話,則根據(jù)上一次會(huì)話的命名實(shí)體識(shí)別過(guò)程中確定的初始命名實(shí)體,對(duì)所述待處理文本中的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行識(shí)別;所述初始命名實(shí)體為商品實(shí)體或商品分類實(shí)體。
[0035]本步驟為了減少無(wú)關(guān)關(guān)鍵字的干擾,先用之前會(huì)話中識(shí)別出的商品實(shí)體或商品分類實(shí)體進(jìn)行商品屬性名實(shí)體和商品屬性值實(shí)體的識(shí)別。
[0036]較佳地,本步驟中可以采用下述方法對(duì)待處理文本中的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行識(shí)別:
[0037]步驟1041、以所述初始命名實(shí)體為關(guān)鍵詞,查找系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),獲得該初始命名實(shí)體關(guān)聯(lián)的商品屬性名和商品屬性值,并獲取所述商品屬性名和商品屬性值各自關(guān)聯(lián)的詞表。
[0038]這里,所述詞表包括同義詞和部分詞,其中部分詞和現(xiàn)有系統(tǒng)一樣,是指詞中所包含的詞,即屬于詞的一部分。
[0039]步驟1042、將所獲得的商品屬性名、商品屬性值以及所述詞表中的每個(gè)詞分別與所述待處理文本進(jìn)行匹配,對(duì)于所述待處理文本中能夠匹配的每個(gè)詞,在組成該詞的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中,記錄該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體,并在該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體中的關(guān)聯(lián)詞列表屬性中,記錄組成該詞的字。[0040]采用上述方法進(jìn)行商品屬性名實(shí)體和商品屬性值實(shí)體的識(shí)別,可以使得對(duì)文本中命名實(shí)體的識(shí)別,不受非實(shí)體名的其它字符干擾。
[0041]步驟105、對(duì)步驟103中得到的所述待處理文本進(jìn)行分詞;并以分詞后得到的每個(gè)詞為索引,查找系統(tǒng)的品牌和商品分類詞典,對(duì)所述待處理文本中的品牌實(shí)體和商品分類實(shí)體進(jìn)行識(shí)別。
[0042]較佳地,本步驟可采用下述方法實(shí)現(xiàn):
[0043]對(duì)步驟103中得到的所述待處理文本進(jìn)行分詞;以分詞后得到的每個(gè)詞為索引,查找系統(tǒng)的品牌和商品分類詞典,識(shí)別出所述待處理文本中的品牌實(shí)體和商品分類實(shí)體,對(duì)于每個(gè)品牌實(shí)體和商品分類實(shí)體,在該實(shí)體的關(guān)聯(lián)詞列表屬性中記錄識(shí)別出該實(shí)體的詞所包含的字,并在識(shí)別出該實(shí)體的詞所包含的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中記錄該實(shí)體。
[0044]這里,具體的分詞方法同現(xiàn)有技術(shù),在此不再贅述。
[0045]較佳地,本步驟還可以進(jìn)一步包括:對(duì)于分詞后得到的每個(gè)詞,標(biāo)注相應(yīng)的詞性。
[0046]步驟106、按照預(yù)設(shè)的關(guān)鍵詞規(guī)則,根據(jù)當(dāng)前識(shí)別出的所述實(shí)體,確定當(dāng)前用于商品搜索的關(guān)鍵詞;使用所述關(guān)鍵詞,搜索預(yù)設(shè)的商品數(shù)據(jù)庫(kù),并從所搜索的商品中,選擇出預(yù)設(shè)W個(gè)商品;根據(jù)最大公共子串原則,對(duì)所述W個(gè)商品進(jìn)行篩選,將篩選到的每個(gè)商品標(biāo)記為商品實(shí)體,并記錄所述商品實(shí)體的商品編號(hào)。
[0047]所述步驟106中所確定出的關(guān)鍵詞中不包含關(guān)聯(lián)實(shí)體列表屬性中記錄有商品屬性名實(shí)體或商品屬性值實(shí)體并且未記錄有品牌實(shí)體和型號(hào)實(shí)體的特殊詞;
[0048]較佳地,所述關(guān)鍵詞規(guī)則將包括以下幾條:
[0049]對(duì)于包含滿足預(yù)設(shè)第一條件的字的每個(gè)詞,將該詞分別與每個(gè)關(guān)聯(lián)實(shí)體列表屬性中記錄有型號(hào)實(shí)體的特殊詞的組合,作為當(dāng)前用于商品搜索的關(guān)鍵詞;所述第一條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有品牌實(shí)體;
[0050]對(duì)于包含滿足所述第一條件的字的每個(gè)詞,將原始的所述待處理文本中以該詞開始并以特殊詞串結(jié)束的所有內(nèi)容,作為當(dāng)前用于商品搜索的關(guān)鍵詞;
[0051]對(duì)于包含滿足所述第一條件的字的每個(gè)詞,將原始的所述待處理文本中以該詞開始并以包含滿足預(yù)設(shè)第二條件的字的詞結(jié)束的所有內(nèi)容,作為當(dāng)前用于商品搜索的關(guān)鍵詞;所述第二條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有商品分類實(shí)體;
[0052]對(duì)于關(guān)聯(lián)實(shí)體列表屬性中未記錄有商品屬性名實(shí)體和商品屬性值實(shí)體的每個(gè)特殊詞,如果在原始的所述待處理文本中,該特殊詞之后緊跟著包含滿足所述第二條件的字的詞,則將該特殊詞與緊跟其后的所述詞的組合,作為當(dāng)前用于商品搜索的關(guān)鍵詞;
[0053]將關(guān)聯(lián)實(shí)體列表屬性中記錄有型號(hào)實(shí)體的每個(gè)特殊詞,作為當(dāng)前用于商品搜索的關(guān)鍵詞。
[0054]在實(shí)際應(yīng)用中,可以從所搜索的商品中,任意選擇出預(yù)設(shè)W個(gè)商品。這里,W的具體數(shù)值可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際的算法復(fù)雜度等性能要求進(jìn)行設(shè)置。
[0055]較佳地,本步驟中對(duì)所述W個(gè)商品進(jìn)行篩選,將篩選到的每個(gè)商品標(biāo)記為商品實(shí)體,并記錄所述商品實(shí)體的商品編號(hào),可以采用下述方法實(shí)現(xiàn):
[0056]對(duì)于所述W個(gè)商品中的每個(gè)商品,將該商品的商品名與原始的所述待處理文本進(jìn)行匹配,得到該商品名的最長(zhǎng)公共子串;
[0057]對(duì)于所有W個(gè)商品中最長(zhǎng)公共子串的長(zhǎng)度最長(zhǎng)的商品,將該商品的所述最長(zhǎng)公共子串所包含的每個(gè)字和特殊詞記錄在該商品對(duì)應(yīng)的商品實(shí)體的關(guān)聯(lián)詞列表屬性中,并在該商品的所述最長(zhǎng)公共子串所包含的每個(gè)字和特殊詞的關(guān)聯(lián)實(shí)體列表屬性中記錄該商品對(duì)應(yīng)的商品實(shí)體。
[0058]步驟107、根據(jù)當(dāng)前已識(shí)別出的所述商品實(shí)體和所述商品分類實(shí)體,查詢系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體。
[0059]較佳地,本步驟可以建立下步驟方法實(shí)現(xiàn):
[0060]對(duì)于當(dāng)前已識(shí)別出的每個(gè)商品相關(guān)實(shí)體,所述商品相關(guān)實(shí)體包括商品實(shí)體和商品分類實(shí)體,以該商品相關(guān)實(shí)體為關(guān)鍵詞,查找系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),獲得該商品相關(guān)實(shí)體關(guān)聯(lián)的商品屬性名和商品屬性值,并獲取所述商品屬性名和商品屬性值各自關(guān)聯(lián)的詞表,所述詞表包括同義詞和部分詞;
[0061]將所獲得的商品屬性名、商品屬性值以及所述詞表中的每個(gè)詞分別與所述待處理文本進(jìn)行匹配,對(duì)于所述待處理文本中能夠匹配的每個(gè)詞,在組成該詞的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中,記錄該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體,并在該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體中的關(guān)聯(lián)詞列表屬性中,記錄組成該詞的字。
[0062]步驟108、如果當(dāng)前存在與所有所述實(shí)體無(wú)關(guān)的特殊詞,則利用所述無(wú)關(guān)的特殊詞,搜索所述商品數(shù)據(jù)庫(kù)和所述商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體。
[0063]這里,所有所述實(shí)體是指當(dāng)前已識(shí)別出的所有實(shí)體。與所有所述實(shí)體無(wú)關(guān)的特殊詞即未進(jìn)行實(shí)體關(guān)聯(lián)的特殊詞,具體為:關(guān)聯(lián)實(shí)體列表屬性為空的特殊詞。本步驟,進(jìn)一步利用未進(jìn)行實(shí)體關(guān)聯(lián)的特殊詞進(jìn)行商品屬性名實(shí)體和商品屬性值實(shí)體的識(shí)別,以確保對(duì)文本中所有相關(guān)的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行準(zhǔn)確識(shí)別。
[0064]較佳地,本步驟可以采用下述方法實(shí)現(xiàn):
[0065]步驟1081、對(duì)于當(dāng)前存在關(guān)聯(lián)實(shí)體列表屬性為空的每個(gè)所述特殊詞,如果所述待處理文本中包含滿足預(yù)設(shè)第二條件的字的詞,則將每個(gè)包含滿足所述第二條件的字的詞分別與該特殊詞的組合,作為當(dāng)前的商品查詢關(guān)鍵詞,否則,將該特殊詞作為當(dāng)前的商品查詢關(guān)鍵詞;所述第二條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有商品分類實(shí)體。
[0066]步驟1082、使用當(dāng)前的商品查詢關(guān)鍵詞,搜索所述商品數(shù)據(jù)庫(kù);并從所搜索的商品中,選擇出預(yù)設(shè)Q個(gè)商品。
[0067]在實(shí)際應(yīng)用中,可以采用任意選擇的方式,選擇出Q個(gè)商品。
[0068]這里,所述Q的具體數(shù)值可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際的算法復(fù)雜度等性能要求進(jìn)行設(shè)置。
[0069]步驟1083、對(duì)于所述Q個(gè)商品中的每個(gè)商品,將該商品的商品名與原始的所述待處理文本進(jìn)行匹配,得到該商品名的最長(zhǎng)公共子串。
[0070]步驟1084、利用所有Q個(gè)商品中最長(zhǎng)公共子串的長(zhǎng)度最長(zhǎng)的商品,查詢所述系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體。
[0071]步驟109、對(duì)當(dāng)前已識(shí)別出的所有實(shí)體進(jìn)行篩選,確定出本次會(huì)話的所有命名實(shí)體;并確定出用于下一次會(huì)話識(shí)別的初始命名實(shí)體。[0072]本步驟中可以采用下述步驟進(jìn)行所述篩選:
[0073]步驟1091、利用當(dāng)前已識(shí)別出的所有實(shí)體建立實(shí)體候選集合。
[0074]步驟1092、按照關(guān)聯(lián)詞列表屬性中記錄的字和特殊詞的數(shù)量從大到小的順序,對(duì)所述實(shí)體候選集合中的所有實(shí)體進(jìn)行排序。
[0075]步驟1093、從所述實(shí)體候選集合中選擇出最前面且未被選擇過(guò)的實(shí)體,作為當(dāng)前的篩選參照實(shí)體。
[0076]步驟1094、對(duì)于當(dāng)前的篩選參照實(shí)體的關(guān)聯(lián)詞列表屬性中的每個(gè)字和特殊詞,將其關(guān)聯(lián)實(shí)體列表屬性中記錄的除該篩選參照實(shí)體之外的其他實(shí)體,從所述實(shí)體候選集合中刪除。
[0077]步驟1095、判斷所述實(shí)體候選集合中是否還有未被選擇過(guò)的實(shí)體,如果有,則執(zhí)行步驟1093,否則,將當(dāng)前所述實(shí)體候選集合中的所有實(shí)體確定出本次會(huì)話的所有命名實(shí)體。
[0078]較佳地,所述步驟109中確定出用于下一次會(huì)話識(shí)別的初始命名實(shí)體包括:
[0079]如果步驟109中所確定出的本次會(huì)話的所有命名實(shí)體中包含有商品實(shí)體,則將在所述待處理文本中最后出現(xiàn)的商品實(shí)體作為用于下一次會(huì)話識(shí)別的初始命名實(shí)體;否則,將在所述待處理文本中最后出現(xiàn)的商品分類實(shí)體作為用于下一次會(huì)話識(shí)別的初始命名實(shí)體。
[0080]這里為了提高下一次會(huì)話中對(duì)命名實(shí)體識(shí)別的效率和準(zhǔn)確度,需要確定用于下一次會(huì)話識(shí)別的初始命名實(shí)體。
[0081]綜上所述,以上僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種命名實(shí)體的識(shí)別方法,其特征在于,包括: a、將用戶在當(dāng)前會(huì)話中輸入的語(yǔ)句作為待處理文本,對(duì)所述待處理文本中符合預(yù)設(shè)規(guī)則的數(shù)字和超鏈接進(jìn)行識(shí)別,并將所述待處理文本中的超鏈接替換為預(yù)設(shè)的超鏈接替代符號(hào); b、對(duì)所述待處理文本中的特殊詞進(jìn)行識(shí)別,并將連續(xù)的僅以空格間隔的所有特殊詞標(biāo)記為一個(gè)特殊詞串,所述特殊詞包括英文字符、數(shù)字和除句號(hào)和逗號(hào)之外的符號(hào); C、分別以每個(gè)所述特殊詞為關(guān)鍵詞,搜索系統(tǒng)的商品品牌和型號(hào)數(shù)據(jù)庫(kù),對(duì)所述待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別,并用預(yù)設(shè)的數(shù)字串將所述待處理文本中被識(shí)別出為型號(hào)實(shí)體的特殊詞替換; d、如果當(dāng)前會(huì)話非首次會(huì)話,則根據(jù)上一次會(huì)話的命名實(shí)體識(shí)別過(guò)程中確定的初始命名實(shí)體,對(duì)所述待處理文本中的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行識(shí)別;所述初始命名實(shí)體為商品實(shí)體或商品分類實(shí)體; e、對(duì)步驟c中得到的所述待處理文本進(jìn)行分詞;并以分詞后得到的每個(gè)詞為索引,查找系統(tǒng)的品牌和商品分類詞典,對(duì)所述待處理文本中的品牌實(shí)體和商品分類實(shí)體進(jìn)行識(shí)別; f、按照預(yù)設(shè)的關(guān)鍵詞規(guī)則,根據(jù)當(dāng)前識(shí)別出的所述實(shí)體,確定當(dāng)前用于商品搜索的關(guān)鍵詞;使用所述關(guān)鍵詞,搜索預(yù)設(shè)的商品數(shù)據(jù)庫(kù),并從所搜索的商品中,選擇出預(yù)設(shè)W個(gè)商品;根據(jù)最大公共子串原則,對(duì)所述W個(gè)商品進(jìn)行篩選,將篩選到的每個(gè)商品標(biāo)記為商品實(shí)體,并記錄所述商品實(shí)體的商品編號(hào); g、根據(jù)當(dāng)前已識(shí)別出的所述商品實(shí)體和所述商品分類實(shí)體,查詢系統(tǒng)的商品、商品分類、商品屬性名和商品屬`性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體; h、如果當(dāng)前存在與所有所述實(shí)體無(wú)關(guān)的特殊詞,則利用所述無(wú)關(guān)的特殊詞,搜索所述商品數(shù)據(jù)庫(kù)和所述商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體; 1、對(duì)當(dāng)前已識(shí)別出的所有實(shí)體進(jìn)行篩選,確定出本次會(huì)話的所有命名實(shí)體;并確定出用于下一次會(huì)話識(shí)別的初始命名實(shí)體。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述符合預(yù)設(shè)規(guī)則的數(shù)字和超鏈接為:滿足商品編號(hào)規(guī)則的數(shù)字和滿足商品頁(yè)面規(guī)則的超鏈接。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟c中對(duì)所述待處理文本中的型號(hào)實(shí)體進(jìn)行識(shí)別包括: 分別以每個(gè)所述特殊詞為關(guān)鍵詞,搜索系統(tǒng)的商品品牌和型號(hào)數(shù)據(jù)庫(kù);將搜索到的型號(hào)信息與所述待處理文本進(jìn)行全詞匹配,將與所述型號(hào)信息所匹配的特殊詞標(biāo)記為型號(hào)實(shí)體;對(duì)于每個(gè)所述型號(hào)實(shí)體,在該型號(hào)實(shí)體的關(guān)聯(lián)詞列表屬性中記錄用于搜索到該型號(hào)實(shí)體的特殊詞,并在該特殊詞的關(guān)聯(lián)實(shí)體列表屬性中記錄該型號(hào)實(shí)體。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟d中對(duì)所述待處理文本中的商品屬性名實(shí)體和商品屬性值實(shí)體進(jìn)行識(shí)別包括: 以所述初始命名實(shí)體為關(guān)鍵詞,查找系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),獲得該初始命名實(shí)體關(guān)聯(lián)的商品屬性名和商品屬性值,并獲取所述商品屬性名和商品屬性值各自關(guān)聯(lián)的詞表,所述詞表包括同義詞和部分詞; 將所獲得的商品屬性名、商品屬性值以及所述詞表中的每個(gè)詞分別與所述待處理文本進(jìn)行匹配,對(duì)于所述待處理文本中能夠匹配的每個(gè)詞,在組成該詞的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中,記錄該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體,并在該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體中的關(guān)聯(lián)詞列表屬性中,記錄組成該詞的字。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟e包括: 對(duì)步驟c中得到的所述待處理文本進(jìn)行分詞;以分詞后得到的每個(gè)詞為索引,查找系統(tǒng)的品牌和商品分類詞典,識(shí)別出所述待處理文本中的品牌實(shí)體和商品分類實(shí)體,對(duì)于每個(gè)品牌實(shí)體和商品分類實(shí)體,在該實(shí)體的關(guān)聯(lián)詞列表屬性中記錄識(shí)別出該實(shí)體的詞所包含的字,并在識(shí)別出該實(shí)體的詞所包含的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中記錄該實(shí)體。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述步驟e進(jìn)一步包括:對(duì)于分詞后得到的每個(gè)詞,標(biāo)注相應(yīng)的詞性。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟f中所確定出的關(guān)鍵詞中不包含:關(guān)聯(lián)實(shí)體列表屬性中記錄有商品屬性名實(shí)體或商品屬性值實(shí)體并且未記錄有品牌實(shí)體和型號(hào)實(shí)體的特殊詞; 所述關(guān)鍵詞規(guī)則包括: 對(duì)于包含滿足預(yù)設(shè)第一條件 的字的每個(gè)詞,將該詞分別與每個(gè)關(guān)聯(lián)實(shí)體列表屬性中記錄有型號(hào)實(shí)體的特殊詞的組合,作為當(dāng)前用于商品搜索的關(guān)鍵詞;所述第一條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有品牌實(shí)體; 對(duì)于包含滿足所述第一條件的字的每個(gè)詞,將原始的所述待處理文本中以該詞開始并以特殊詞串結(jié)束的所有內(nèi)容,作為當(dāng)前用于商品搜索的關(guān)鍵詞; 對(duì)于包含滿足所述第一條件的字的每個(gè)詞,將原始的所述待處理文本中以該詞開始并以包含滿足預(yù)設(shè)第二條件的字的詞結(jié)束的所有內(nèi)容,作為當(dāng)前用于商品搜索的關(guān)鍵詞;所述第二條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有商品分類實(shí)體; 對(duì)于關(guān)聯(lián)實(shí)體列表屬性中未記錄有商品屬性名實(shí)體和商品屬性值實(shí)體的每個(gè)特殊詞,如果在原始的所述待處理文本中,該特殊詞之后緊跟著包含滿足所述第二條件的字的詞,則將該特殊詞與緊跟其后的所述詞的組合,作為當(dāng)前用于商品搜索的關(guān)鍵詞; 將關(guān)聯(lián)實(shí)體列表屬性中記錄有型號(hào)實(shí)體的每個(gè)特殊詞,作為當(dāng)前用于商品搜索的關(guān)鍵
ο
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟f中所述根據(jù)最大公共子串原則,對(duì)所述W個(gè)商品進(jìn)行篩選,將篩選到的每個(gè)商品標(biāo)記為商品實(shí)體,并記錄所述商品實(shí)體的商品編號(hào)包括: 對(duì)于所述W個(gè)商品中的每個(gè)商品,將該商品的商品名與原始的所述待處理文本進(jìn)行匹配,得到該商品名的最長(zhǎng)公共子串; 對(duì)于所有W個(gè)商品中最長(zhǎng)公共子串的長(zhǎng)度最長(zhǎng)的商品,將該商品的所述最長(zhǎng)公共子串所包含的每個(gè)字和特殊詞記錄在該商品對(duì)應(yīng)的商品實(shí)體的關(guān)聯(lián)詞列表屬性中,并在該商品的所述最長(zhǎng)公共子串所包含的每個(gè)字和特殊詞的關(guān)聯(lián)實(shí)體列表屬性中記錄該商品對(duì)應(yīng)的商品實(shí)體。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟g包括:對(duì)于當(dāng)前已識(shí)別出的每個(gè)商品相關(guān)實(shí)體,所述商品相關(guān)實(shí)體包括商品實(shí)體和商品分類實(shí)體,以該商品相關(guān)實(shí)體為關(guān)鍵詞,查找系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),獲得該商品相關(guān)實(shí)體關(guān)聯(lián)的商品屬性名和商品屬性值,并獲取所述商品屬性名和商品屬性值各自關(guān)聯(lián)的詞表,所述詞表包括同義詞和部分詞; 將所獲得的商品屬性名、商品屬性值以及所述詞表中的每個(gè)詞分別與所述待處理文本進(jìn)行匹配,對(duì)于所述待處理文本中能夠匹配的每個(gè)詞,在組成該詞的每個(gè)字的關(guān)聯(lián)實(shí)體列表屬性中,記錄該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體,并在該詞所在詞表所屬的商品屬性名或商品屬性值實(shí)體中的關(guān)聯(lián)詞列表屬性中,記錄組成該詞的字。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟h包括: h1、對(duì)于當(dāng)前存在關(guān)聯(lián)實(shí)體列表屬性為空的每個(gè)所述特殊詞,如果所述待處理文本中包含滿足預(yù)設(shè)第二條件的字的詞,則將每個(gè)包含滿足所述第二條件的字的詞分別與該特殊詞的組合,作為當(dāng)前的商品查詢關(guān)鍵詞,否則,將該特殊詞作為當(dāng)前的商品查詢關(guān)鍵詞;所述第二條件為關(guān)聯(lián)實(shí)體列表屬性中記錄有商品分類實(shí)體; h2、使用當(dāng)前的商品查詢關(guān)鍵詞,搜索所述商品數(shù)據(jù)庫(kù);并從所搜索的商品中,選擇出預(yù)設(shè)Q個(gè)商品; h3、對(duì)于所述Q個(gè)商品中的每個(gè)商品,將該商品的商品名與原始的所述待處理文本進(jìn)行匹配,得到該商品名的最長(zhǎng)公共子串; h4、利用所有Q個(gè)商品中最長(zhǎng)公共子串的長(zhǎng)度最長(zhǎng)的商品,查詢所述系統(tǒng)的商品、商品分類、商品屬性名和商品屬性值的關(guān)聯(lián)數(shù)據(jù)庫(kù),識(shí)別出相應(yīng)的商品屬性名實(shí)體和商品屬性值實(shí)體。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟i中所述篩選包括: 步驟il、利用當(dāng)前已識(shí)別出的所有實(shí)體建立實(shí)體候選集合; 步驟i2、按照關(guān)聯(lián)詞列表屬性中記錄的字和特殊詞的數(shù)量從大到小的順序,對(duì)所述實(shí)體候選集合中的所有實(shí)體進(jìn)行排序; 步驟i3、從所述實(shí)體候選集合中選擇出最前面且未被選擇過(guò)的實(shí)體,作為當(dāng)前的篩選參照實(shí)體; 步驟i4、對(duì)于當(dāng)前的篩選參照實(shí)體的關(guān)聯(lián)詞列表屬性中的每個(gè)字和特殊詞,將其關(guān)聯(lián)實(shí)體列表屬性中記錄的除該篩選參照實(shí)體之外的其他實(shí)體,從所述實(shí)體候選集合中刪除;步驟i5、判斷所述實(shí)體候選集合中是否還有未被選擇過(guò)的實(shí)體,如果有,則執(zhí)行步驟i3,否則,將當(dāng)前所述實(shí)體候選集合中的所有實(shí)體確定出本次會(huì)話的所有命名實(shí)體。
12.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟i中確定出用于下一次會(huì)話識(shí)別的初始命名實(shí)體包括: 如果步驟i中所確定出的本次會(huì)話的所有命名實(shí)體中包含有商品實(shí)體,則將在所述待處理文本中最后出現(xiàn)的商品實(shí)體作為用于下一次會(huì)話識(shí)別的初始命名實(shí)體;否則,將在所述待處理文本中最后出現(xiàn)的商品分類實(shí)體作為用于下一次會(huì)話識(shí)別的初始命名實(shí)體。
【文檔編號(hào)】G06F17/30GK103631948SQ201310674046
【公開日】2014年3月12日 申請(qǐng)日期:2013年12月11日 優(yōu)先權(quán)日:2013年12月11日
【發(fā)明者】張永成, 羅歡, 何泉昊, 張喜, 姜文 申請(qǐng)人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司