基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,具體的說,是涉及一種基于用戶行為數(shù)據(jù)的近義 詞識(shí)別方法。
【背景技術(shù)】
[0002] 近年來,互聯(lián)網(wǎng)電子商務(wù)蓬勃發(fā)展,影響滲透到人類生活的方方面面?;ヂ?lián)網(wǎng)上存 在著不同品類上億種商品,單靠人工,甚至不可能將所有商品遍歷一遍,更遑論識(shí)別分析, 個(gè)性化搜索是解決大數(shù)據(jù)提取的重要方案。在大數(shù)據(jù)領(lǐng)域,文字搜索面臨的最大挑戰(zhàn)就是 提高召回率。準(zhǔn)確的詞語聯(lián)想,可以極大地提高搜索結(jié)果召回率。然而,現(xiàn)有技術(shù)中,并沒 有解決商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對命名實(shí)體的近義詞識(shí)別的問題,極大地降低了詞語 聯(lián)想的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于克服上述缺陷,提供一種基于用戶行為數(shù)據(jù)的近義詞識(shí)別方 法,解決了如何識(shí)別商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對命名實(shí)體的近義詞識(shí)別的問題。
[0004] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0005] 基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,包括以下步驟:
[0006] (1)將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,提取目標(biāo)商品的商品描述數(shù)據(jù)和用戶行為數(shù) 據(jù);
[0007] (2)隨機(jī)選擇部分商品描述數(shù)據(jù)分詞并進(jìn)行標(biāo)注;
[0008] (3)返回標(biāo)注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓(xùn)練集數(shù)據(jù);
[0009] (4)通過訓(xùn)練集數(shù)據(jù)訓(xùn)練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模 型,并由隱馬爾可夫算法識(shí)別提取的商品描述數(shù)據(jù),得到結(jié)果數(shù)據(jù)有效實(shí)體詞庫;
[0010] (5)過濾用戶行為數(shù)據(jù),從中提取用戶瀏覽行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù);
[0011] (6)讀取用戶瀏覽行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù),組成多個(gè)相似詞類數(shù)據(jù)集;
[0012] (7)調(diào)用隱馬爾可夫算法模型,識(shí)別相似詞類數(shù)據(jù)集中每個(gè)近義詞類的有效實(shí)體 和相同詞性的實(shí)體,組成與相似詞類數(shù)據(jù)集數(shù)量對應(yīng)的近義詞組;
[0013] (8)整理匯總所有近義詞組,計(jì)算詞與詞之間的相似度;
[0014] (9)按相似度大小歸一化排序,輸出近義詞識(shí)別結(jié)果。
[0015] 進(jìn)一步的,所述步驟(6)的具體方法如下:
[0016] 讀取用戶瀏覽行為數(shù)據(jù)
[0017] (61)讀取用戶瀏覽行為數(shù)據(jù),建立用戶-商品二部圖;
[0018] (62)利用經(jīng)典的基于物品的協(xié)同過濾算法,計(jì)算商品間的相似度;
[0019] (63)提取每個(gè)商品對應(yīng)的相似度最高的5-10個(gè)商品對應(yīng)的詞,組成一個(gè)相似詞 類;
[0020] 讀取用戶搜索行為數(shù)據(jù)
[0021] (64)讀取用戶搜索行為數(shù)據(jù),提取用戶每次搜索輸入的搜索詞和點(diǎn)擊過的所有商 品對應(yīng)的詞,組成一個(gè)搜索詞類;
[0022] (65)提取同一個(gè)商品被搜索點(diǎn)擊時(shí),用戶輸入的搜索詞,組成一個(gè)相似詞類。
[0023] 進(jìn)一步的,所述原始數(shù)據(jù)包括原始商品描述數(shù)據(jù)和原始用戶行為數(shù)據(jù)。
[0024] 進(jìn)一步的,所述步驟(1)的具體方法如下:
[0025] (11)讀取原始商品描述數(shù)據(jù),根據(jù)品類映射表過濾,得到目標(biāo)商品的商品描述數(shù) 據(jù);
[0026] (12)讀取原始用戶行為數(shù)據(jù),過濾非目標(biāo)商品的用戶行為數(shù)據(jù),得到目標(biāo)商品的 用戶行為數(shù)據(jù)。
[0027] 進(jìn)一步的,所述步驟(7)中識(shí)別相似詞類數(shù)據(jù)集中每個(gè)近義詞類的有效實(shí)體和相 同詞性的實(shí)體的具體方法如下:
[0028] (71)調(diào)用隱馬爾可夫算法模型,輸入商品描述數(shù)據(jù)中的商品標(biāo)題文字;
[0029] (72)通過隱馬爾可夫算法識(shí)別出商品標(biāo)題中的不同詞性的有效實(shí)體詞;
[0030] (73)統(tǒng)計(jì)不同詞性的有效實(shí)體詞被識(shí)別出的次數(shù)和每次被識(shí)別出的詞性標(biāo)記,取 出現(xiàn)次數(shù)最多的詞性標(biāo)記作為商品標(biāo)題文字的標(biāo)記,并輸出實(shí)體識(shí)別結(jié)果。
[0031] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0032] 本發(fā)明解決了如何識(shí)別商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對命名實(shí)體的近義詞識(shí)別 的問題;與現(xiàn)有技術(shù)相比,應(yīng)用本發(fā)明,可以從現(xiàn)在最火熱,最有市場價(jià)值的電子商務(wù)商品 數(shù)據(jù)中,識(shí)別命名實(shí)體和近義詞關(guān)系,為進(jìn)一步的數(shù)據(jù)挖掘,情感分析,知識(shí)庫建立,聯(lián)想搜 索等研宄和應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。
【附圖說明】
[0033] 圖1為本發(fā)明整體流程圖。
[0034] 圖2為本發(fā)明中數(shù)據(jù)預(yù)處理流程示意圖。
[0035] 圖3為本發(fā)明中建立隱馬爾可夫算法模型的流程示意圖。
[0036] 圖4為本發(fā)明中命名實(shí)體識(shí)別方法的流程示意圖。
[0037] 圖5為本發(fā)明中近義詞識(shí)別方法的流程示意圖。
[0038] 圖6為本發(fā)明中物品相似法近義詞識(shí)別方法的流程示意圖。
[0039] 圖7為本發(fā)明中搜索詞相似法近義詞識(shí)別方法的流程示意圖。
[0040] 圖8為本發(fā)明中實(shí)搜索物品相似近義詞識(shí)別方法的流程示意圖。
[0041] 圖9為本發(fā)明中數(shù)據(jù)整合方法的流程示意圖。
【具體實(shí)施方式】
[0042] 下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明,本發(fā)明的實(shí)施方式包括但不限于 下列實(shí)施例。
[0043] 實(shí)施例
[0044] 如圖!至9所示,本實(shí)施例提供了一種基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法, 包括以下步驟:
[0045] 一、將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,提取目標(biāo)商品的商品描述數(shù)據(jù)item, data和用 戶行為數(shù)據(jù)pageview. data ;其中,原始數(shù)據(jù)是指原始商品描述數(shù)據(jù)和原始用戶行為數(shù)據(jù)。
[0046] 如圖2所示,預(yù)處理方法如下:
[0047] 商品描述數(shù)據(jù)
[0048] 讀取原始商品描述數(shù)據(jù),讀取品類映射表,根據(jù)品類映射表過濾,得到目標(biāo)商品的 商品描述數(shù)據(jù),如下表所示:
【主權(quán)項(xiàng)】
1. 基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,其特征在于,包括以下步驟: (1) 將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,提取目標(biāo)商品的商品描述數(shù)據(jù)和用戶行為數(shù)據(jù); (2) 隨機(jī)選擇部分商品描述數(shù)據(jù)分詞并進(jìn)行標(biāo)注; (3) 返回標(biāo)注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓(xùn)練集數(shù)據(jù); (4) 通過訓(xùn)練集數(shù)據(jù)訓(xùn)練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,并 由隱馬爾可夫算法識(shí)別提取的商品描述數(shù)據(jù),得到結(jié)果數(shù)據(jù)有效實(shí)體詞庫; (5) 過濾用戶行為數(shù)據(jù),從中提取用戶瀏覽行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù); (6) 讀取用戶瀏覽行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù),組成多個(gè)相似詞類數(shù)據(jù)集; (7) 調(diào)用隱馬爾可夫算法模型,識(shí)別相似詞類數(shù)據(jù)集中每個(gè)近義詞類的有效實(shí)體和相 同詞性的實(shí)體,組成與相似詞類數(shù)據(jù)集數(shù)量對應(yīng)的近義詞組; (8) 整理匯總所有近義詞組,計(jì)算詞與詞之間的相似度; (9) 按相似度大小歸一化排序,輸出近義詞識(shí)別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,其特征在于,所 述步驟(6)的具體方法如下: 讀取用戶瀏覽行為數(shù)據(jù) (61) 讀取用戶瀏覽行為數(shù)據(jù),建立用戶-商品二部圖; (62) 利用經(jīng)典的基于物品的協(xié)同過濾算法,計(jì)算商品間的相似度; (63) 提取每個(gè)商品對應(yīng)的相似度最高的5-10個(gè)商品對應(yīng)的詞,組成一個(gè)相似詞類; 讀取用戶搜索行為數(shù)據(jù) (64) 讀取用戶搜索行為數(shù)據(jù),提取用戶每次搜索輸入的搜索詞和點(diǎn)擊過的所有商品對 應(yīng)的詞,組成一個(gè)搜索詞類; (65) 提取同一個(gè)商品被搜索點(diǎn)擊時(shí),用戶輸入的搜索詞,組成一個(gè)相似詞類。
3. 根據(jù)權(quán)利要求1所述的基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,其特征在于,所 述原始數(shù)據(jù)包括原始商品描述數(shù)據(jù)和原始用戶行為數(shù)據(jù)。
4. 根據(jù)權(quán)利要求3所述的基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,其特征在于,所 述步驟(1)的具體方法如下: (11) 讀取原始商品描述數(shù)據(jù),根據(jù)品類映射表過濾,得到目標(biāo)商品的商品描述數(shù)據(jù); (12) 讀取原始用戶行為數(shù)據(jù),過濾非目標(biāo)商品的用戶行為數(shù)據(jù),得到目標(biāo)商品的用戶 行為數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1所述的基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,其特征在于,所 述步驟(7)中識(shí)別相似詞類數(shù)據(jù)集中每個(gè)近義詞類的有效實(shí)體和相同詞性的實(shí)體的具體 方法如下: (71) 調(diào)用隱馬爾可夫算法模型,輸入商品描述數(shù)據(jù)中的商品標(biāo)題文字; (72) 通過隱馬爾可夫算法識(shí)別出商品標(biāo)題中的不同詞性的有效實(shí)體詞; (73) 統(tǒng)計(jì)不同詞性的有效實(shí)體詞被識(shí)別出的次數(shù)和每次被識(shí)別出的詞性標(biāo)記,取出現(xiàn) 次數(shù)最多的詞性標(biāo)記作為商品標(biāo)題文字的標(biāo)記,并輸出實(shí)體識(shí)別結(jié)果。
【專利摘要】本發(fā)明公開了一種基于電商用戶行為數(shù)據(jù)的近義詞識(shí)別方法,解決了現(xiàn)有技術(shù)中如何識(shí)別商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對命名實(shí)體的近義詞識(shí)別的問題。該識(shí)別方法包括:(1)將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;(2)隨機(jī)選擇部分商品描述數(shù)據(jù)分詞并進(jìn)行標(biāo)注;(3)返回標(biāo)注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓(xùn)練集數(shù)據(jù);(4)通過訓(xùn)練集數(shù)據(jù)訓(xùn)練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,得到結(jié)果數(shù)據(jù)有效實(shí)體詞庫;(5)過濾用戶行為數(shù)據(jù);(6)組成多個(gè)相似詞類數(shù)據(jù)集;(7)組成與相似詞類數(shù)據(jù)集數(shù)量對應(yīng)的近義詞組;(8)整理匯總所有近義詞組,計(jì)算詞與詞之間的相似度;(9)輸出近義詞識(shí)別結(jié)果。
【IPC分類】G06F17-30
【公開號(hào)】CN104657514
【申請?zhí)枴緾N201510129041
【發(fā)明人】王軍, 甘駿, 彭中正, 王磊, 張迪, 肖琴
【申請人】成都知數(shù)科技有限公司
【公開日】2015年5月27日
【申請日】2015年3月24日