本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種商品命名實體識別模型生成方法及商品搜索文本處理方法。
背景技術(shù):
1、線上購物平臺,其核心在于提供便捷、高效的購物體驗。近年來隨著線上業(yè)務(wù)的不斷發(fā)展與壯大,用戶對其在各個方面的需求與要求也是與日俱增。其中,就包括了用戶搜索的準(zhǔn)確性與豐富度,這能極大地提升用戶直接的購物體驗,進而促進用戶與平臺的互動和粘性。
2、現(xiàn)有技術(shù)主要是以切詞+字面匹配的方法進行搜索商品召回的,這種方法精確度高,解釋性強,匹配速度快,但同時詞庫維護成本高,需要人工手動添加關(guān)鍵詞來保持詞庫的豐富度,難以適應(yīng)不斷更新的用戶搜詞。并且,在排序階段一般也不會再去考慮詞的詞性以及實體類型的權(quán)重信息,無法更好地照顧到用戶的搜索意圖,容易出現(xiàn)錯排、漏排的情況。
3、提供一種能夠用于搜索的商品的命名實體識別方法,在提高詞庫的豐富度的同時保證排序的準(zhǔn)確性,對線上購物平臺的搜索模塊有著重要意義,在未來也能在優(yōu)化商品信息管理以及改進產(chǎn)品和服務(wù)等方面發(fā)揮作用。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是提供一種商品命名實體識別模型生成方法及商品搜索文本處理方法。
2、為了解決上述問題,本發(fā)明提供了一種商品命名實體識別模型生成方法,包括:獲取用戶側(cè)的歷史搜索數(shù)據(jù)以及商品側(cè)的標(biāo)準(zhǔn)商品的主標(biāo)題、副標(biāo)題以及導(dǎo)購屬性作為原始數(shù)據(jù);采用人工智能的主動學(xué)習(xí)標(biāo)注方式,采用所述原始數(shù)據(jù)訓(xùn)練預(yù)訓(xùn)練模型并生成訓(xùn)練數(shù)據(jù);采用所述預(yù)訓(xùn)練模型與雙向長短期記憶網(wǎng)絡(luò)、以及條件隨機場構(gòu)建組合模型;采用所述訓(xùn)練數(shù)據(jù)的文本作為輸入文本對所述組合模型進行訓(xùn)練,生成商品命名實體識別模型,訓(xùn)練過程中凍結(jié)所述預(yù)訓(xùn)練模型的參數(shù);對所述商品命名實體識別模型進行評估,評估指標(biāo)包括準(zhǔn)確率、精確率、召回率以及f值。
3、在一些實施例中,所述命名實體包括品牌詞、修飾詞、主體詞、規(guī)格詞。
4、在一些實施例中,所述用戶側(cè)的歷史搜索數(shù)據(jù)為去噪處理后的數(shù)據(jù)。
5、在一些實施例中,通過隨機方式抽取所述商品側(cè)的標(biāo)準(zhǔn)商品。
6、在一些實施例中,所述的采用人工智能的主動學(xué)習(xí)標(biāo)注方式,采用所述原始數(shù)據(jù)訓(xùn)練預(yù)訓(xùn)練模型并生成訓(xùn)練數(shù)據(jù)的步驟中,采用bioes標(biāo)注方法進行序列標(biāo)注。
7、在一些實施例中,所述預(yù)訓(xùn)練模型為roberta模型。
8、在一些實施例中,采用所述訓(xùn)練數(shù)據(jù)中的文本作為輸入文本對所述組合模型進行訓(xùn)練的步驟進一步包括:輸入文本通過所述預(yù)訓(xùn)練模型的分詞器切分成多個文本單元;所述文本單元進入所述預(yù)訓(xùn)練模型轉(zhuǎn)換成二維張量;所述二維張量進入雙向長短期記憶網(wǎng)絡(luò)編碼形成新的二維張量;所述新的二維張量經(jīng)過條件隨機場解碼成所述輸入文本對應(yīng)位置的實體索引;根據(jù)所述實體索引獲取所述輸入文本對應(yīng)的命名實體。
9、在一些實施例中,所述評估指標(biāo)還包括對所述商品命名實體識別模型的全局的評估指標(biāo),所述全局的評估指標(biāo)為各個命名實體各自的評估指標(biāo)的值的平均值或者加權(quán)求和的值。
10、為了解決上述問題,本發(fā)明還提供了一種商品搜索文本處理方法,包括:從搜索端獲取待識別文本;將所述待識別文本輸入所述商品命名實體識別模型生成方法生成的商品搜索命名實體識別模型進行命名實體識別,識別出命名實體;將所述命名實體中的品牌詞和主體詞導(dǎo)入搜索關(guān)鍵詞詞庫;從語料庫中檢索所述命名實體中的主體詞對應(yīng)的近義詞,導(dǎo)入搜索同義詞近義詞詞庫;使用所述搜索關(guān)鍵詞詞庫和搜索同義詞近義詞詞庫匹配商品以提供搜索序列,并且通過給所述命名實體賦權(quán)重對所述搜索序列排序。
11、在一些實施例中,通過詞向量生成模型從語料庫中檢索所述命名實體中的主體詞對應(yīng)的近義詞。
12、上述技術(shù)方案,通過獲取用戶側(cè)的歷史搜索數(shù)據(jù)以及商品側(cè)的標(biāo)準(zhǔn)商品的主標(biāo)題、副標(biāo)題以及導(dǎo)購屬性作為原始數(shù)據(jù),采用人工智能的主動學(xué)習(xí)標(biāo)注方式,訓(xùn)練預(yù)訓(xùn)練模型并生成訓(xùn)練數(shù)據(jù),對所述預(yù)訓(xùn)練模型與雙向長短期記憶網(wǎng)絡(luò)、以及條件隨機場構(gòu)建的組合模型進行訓(xùn)練,生成商品命名實體識別模型,訓(xùn)練過程中凍結(jié)所述預(yù)訓(xùn)練模型的參數(shù),并對生成的所述商品命名實體識別模型進行評估,將所述商品命名實體識別模型用于商品的搜索,提升了搜索的詞庫的豐富度和搜索排序的準(zhǔn)確性,進而提高了線上購物平臺搜索結(jié)果頁面的點擊率和轉(zhuǎn)化率,進一步提高了線上購物平臺搜索框的成交轉(zhuǎn)化率,降低了搜索無結(jié)果率。
13、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說明書的一部分。
1.一種商品命名實體識別模型生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,所述命名實體包括品牌詞、修飾詞、主體詞、規(guī)格詞。
3.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,所述用戶側(cè)的歷史搜索數(shù)據(jù)為去噪處理后的數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,通過隨機方式抽取所述商品側(cè)的標(biāo)準(zhǔn)商品。
5.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,所述的采用人工智能的主動學(xué)習(xí)標(biāo)注方式,采用所述原始數(shù)據(jù)訓(xùn)練預(yù)訓(xùn)練模型并生成訓(xùn)練數(shù)據(jù)的步驟中,采用bioes標(biāo)注方法進行序列標(biāo)注。
6.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,所述預(yù)訓(xùn)練模型為roberta模型。
7.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,采用所述訓(xùn)練數(shù)據(jù)中的文本作為輸入文本對所述組合模型進行訓(xùn)練的步驟進一步包括:
8.根據(jù)權(quán)利要求1所述的商品命名實體識別模型生成方法,其特征在于,所述評估指標(biāo)還包括對所述商品命名實體識別模型的全局的評估指標(biāo),所述全局的評估指標(biāo)為各個命名實體各自的評估指標(biāo)的值的平均值或者加權(quán)求和的值。
9.一種商品搜索文本處理方法,其特征在于,包括:
10.根據(jù)權(quán)利要求9所述的商品搜索文本處理方法,其特征在于,通過詞向量生成模型從語料庫中檢索所述命名實體中的主體詞對應(yīng)的近義詞。