同義詞的獲取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種同義詞的獲取方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展,電子商務(wù)也逐步發(fā)展起來。對于電子商務(wù)網(wǎng)站的站內(nèi)搜 索引擎而言,應(yīng)該盡可能準(zhǔn)確的將與用戶所輸入的搜索請求的同義詞相匹配的網(wǎng)頁檢索出 來。在檢索中同義詞是語言中廣泛存在的現(xiàn)象,這是由客觀概念與具體詞語間的復(fù)雜關(guān)系 造成的。
[0003] 對于業(yè)務(wù)同義詞詞表的構(gòu)建,假如通過人工逐一標(biāo)記,耗時(shí)長,同時(shí)不能保證數(shù)據(jù) 能夠被完全覆蓋,而且人工帶有個(gè)人感情色彩以及經(jīng)驗(yàn)主義,所以人工生成的業(yè)務(wù)同義詞 詞表正確性存在一定的主觀兀素。
[0004] 現(xiàn)有的同義詞林標(biāo)記,由于同義詞林龐大,內(nèi)容廣泛,很多同義詞不屬于業(yè)務(wù)詞 類,沒必要進(jìn)行標(biāo)記但需要進(jìn)行額外的過濾,同時(shí),同義詞林沒有針對性,對于某些業(yè)務(wù)同 義詞沒有特殊標(biāo)記,所以用同義詞林標(biāo)注的業(yè)務(wù)同義詞詞表,會(huì)存在過多不相關(guān)的同義詞 對,以及會(huì)對某些業(yè)務(wù)同義詞對有所疏漏。所以,針對業(yè)務(wù)數(shù)據(jù)特點(diǎn),有必要通過數(shù)據(jù)獲取 的方式,智能快捷的標(biāo)注出該業(yè)務(wù)場景下的同義詞詞表。
[0005] 現(xiàn)有的同義詞獲取的方法側(cè)重于基于詞匯字面相似度算法以及基于《同義詞詞 林》、《知網(wǎng)》等語義詞典的語義相似度算法?;谠~匯相似度算法的方法,主要是基于詞匯 字形相似度算法,有時(shí)會(huì)引入權(quán)重計(jì)算來提高字面相似度的識(shí)別效果,或是引入詞性特點(diǎn) 對同義詞識(shí)別進(jìn)行歸類計(jì)算。但是現(xiàn)有技術(shù)中基于詞匯字面相似度算法的同義詞獲取方 法,只是通過編輯距離處理生成同義詞集,識(shí)別效率還不夠高,在識(shí)別出來的同義詞詞表中 還需要進(jìn)行大量的人工篩選操作才能獲得最終的同義詞詞表。
[0006] 在語義相似度算法上,主要是根據(jù)《同義詞詞林》的編碼規(guī)范,將詞匯相似度比較 轉(zhuǎn)換成詞匯在詞林中的編碼相似度的比較?,F(xiàn)有的基于語義相似度算法的同義詞獲取方 法,在業(yè)務(wù)應(yīng)用上很多時(shí)候顯得不太實(shí)用,一來詞林龐大,一般具有通用性,所以涵蓋了大 量不必要的同義詞信息,而且詞林不具有針對性,對于一些業(yè)務(wù)詞匯沒有進(jìn)行詞性標(biāo)注,有 時(shí)候還需要將一些詞林詞匯進(jìn)行合成才能獲得業(yè)務(wù)詞匯,這個(gè)合成過程就會(huì)容易造成歧義 詞匯的出現(xiàn)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是提供了一種同義詞的獲取方法及裝置,以解決現(xiàn)有技術(shù)中檢索同 義詞時(shí),歧義同義詞和不精確的同義詞的出現(xiàn)。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明一方面提供了一種同義詞的獲取方法,該方法包括:獲取 文本集,對文本集進(jìn)行分詞生成第一詞語集;對第一詞語集通過停詞表識(shí)別,進(jìn)行無效詞過 濾生成第二詞語集;對第二詞語集中的任意兩個(gè)詞語進(jìn)行編輯距離處理生成第一同義詞對 集;對第一詞語集中的詞語構(gòu)建向量空間模型;根據(jù)向量空間模型,獲得第一同義詞對集 中的每對同義詞的空間向量,計(jì)算第一同義詞對集中的每對同義詞的余弦相似度值,并根 據(jù)余弦相似度值將每對同義詞進(jìn)行余弦閾值過濾策略的識(shí)別,生成第二同義詞對集;對第 二同義詞對集中的詞語進(jìn)行詞性標(biāo)注,通過詞性過濾策略生成第三同義詞對集;將第三同 義詞對集中的詞語通過一元模型處理后,生成第四同義詞對集,以獲取同義詞。
[0009] 本發(fā)明另一方面提供了一種同義詞的獲取裝置,該裝置包括:分詞模塊,用于獲取 文本集,對文本集進(jìn)行分詞生成第一詞語集;過濾模塊,用于對第一詞語集通過停詞表識(shí) 另IJ,進(jìn)行無效詞過濾生成第二詞語集;編輯距離模塊,用于對第二詞語集中的任意兩個(gè)詞語 進(jìn)行編輯距離處理生成第一同義詞對集;向量模塊,用于對第一詞語集中的詞語構(gòu)建向量 空間模型;余弦模塊,用于根據(jù)向量空間模型,獲得第一同義詞對集中的每對同義詞的空間 向量,計(jì)算第一同義詞對集中的每對同義詞的余弦相似度值,并根據(jù)余弦相似度值將每對 同義詞進(jìn)行余弦閾值過濾策略的識(shí)別,生成第二同義詞對集;詞性策略模塊,用于對第二同 義詞對集中的詞語進(jìn)行詞性標(biāo)注,通過詞性過濾策略生成第三同義詞對集;一元模型模塊, 用于將第三同義詞對集中的詞語通過一元模型處理后,生成第四同義詞對集,以獲取同義 。
[0010] 本發(fā)明提供的同義詞的獲取方法及裝置除了對詞語進(jìn)行編輯距離處理之外,還通 過對詞語進(jìn)行無效詞過濾、余弦相似度過濾、詞性過濾和構(gòu)建一元模型處理生成更為準(zhǔn)確 的同義詞對集,實(shí)現(xiàn)了檢索出的同義詞更為準(zhǔn)確,并且沒有歧義詞語和無效詞語出現(xiàn),從而 智能快捷的檢索出同義詞的相關(guān)網(wǎng)頁。
【附圖說明】
[0011] 圖1為本發(fā)明實(shí)施例一的同義詞的獲取方法流程圖;
[0012] 圖2為本發(fā)明實(shí)施例一的對詞語進(jìn)行編輯距離處理的流程圖;
[0013] 圖3為本發(fā)明實(shí)施例二的同義詞的獲取裝置示意圖;
[0014] 圖4為本發(fā)明實(shí)施例二的編輯距離模塊對詞語進(jìn)行編輯距離處理的裝置示意圖。
【具體實(shí)施方式】
[0015] 為使本發(fā)明實(shí)施例的技術(shù)方案以及優(yōu)點(diǎn)表達(dá)的更清楚,下面通過附圖和實(shí)施例, 對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0016] 本發(fā)明提供的一種同義詞的獲取方法及裝置,該方法通過對詞語進(jìn)行無效詞過 濾、編輯距離處理、余弦相似度過濾、詞性過濾和構(gòu)建一元模型(Unigram)處理生成更為準(zhǔn) 確的同義詞對集,通過本發(fā)明中的同義詞的獲取方法及裝置實(shí)現(xiàn)了檢索出的同義詞更為準(zhǔn) 確,并且沒有歧義詞語和無效詞語出現(xiàn),從而智能快捷的檢索出同義詞的相關(guān)網(wǎng)頁。該方法 通過對詞語進(jìn)行無效詞過濾、編輯距離處理、余弦相似度過濾、詞性過濾和構(gòu)建一元模型處 理生成更為準(zhǔn)確的同義詞對集。
[0017] 圖1為本發(fā)明實(shí)施例一的同義詞的獲取方法流程圖。如圖1所示,同義詞的獲取 方法具體包括以下步驟:
[0018] 步驟101、獲取文本集,對文本集進(jìn)行分詞生成第一詞語集。
[0019] 具體地,文本集是在服務(wù)器中預(yù)先準(zhǔn)備好的一組文本,例如:用戶與客服交流的聊 天記錄,這些文本或聊天記錄都存儲(chǔ)在服務(wù)器上,文本集就是在這個(gè)服務(wù)器上獲取的,或者 文本集來源于專業(yè)業(yè)務(wù)人員整理的知識(shí)點(diǎn)數(shù)據(jù)。
[0020] 對文本集進(jìn)行分詞的是利用具有將文本集中的語句段落進(jìn)行拆分,分成多個(gè)詞語 的功能的軟件或模塊來完成的,例如:阿里分詞(ALI word s印arate,ALIWS)軟件。例如分 詞模塊對"請問新款的秋冬連衣裙今年什么時(shí)間上架啊"進(jìn)行分詞,分為"請問、新款、的、秋 冬連衣裙、今年、什么、時(shí)間、上架、啊"納入第一詞語集,"問問最新款連衣裙中的秋冬裝連 衣裙今年什么時(shí)候買"分為"問問、最新款、連衣裙、中、的、秋冬裝連衣裙、今年、什么時(shí)候、 買"也納入第一詞語集。
[0021] 步驟102、對第一詞語集通過停詞表識(shí)別,進(jìn)行無效詞過濾生成第二詞語集。
[0022] 具體地,停詞表是一個(gè)包括有很多無效詞的詞庫,無效詞是沒有太多實(shí)際業(yè)務(wù)意 義的詞或字,這些無效詞大多數(shù)是助詞、語氣詞和代詞等,例如:的,了,啊,我的,你的。通 過停詞表將第一詞語集中的無效詞過濾,比如"的,了,啊"類似的詞過濾掉后生成第二詞語 集。例如對步驟101中第一詞語集中的"請問、新款、的、秋冬連衣裙、今年、什么、時(shí)間、上 架、啊"進(jìn)行無效詞過濾,生成"請問、新款、秋冬連衣裙、今年、什么、時(shí)間、上架"納入第二 詞語集,"問問最新款連衣裙中的秋冬裝連衣裙今年什么時(shí)候買"進(jìn)行無效詞過濾,生成"問 問、最新款、連衣裙、秋冬裝連衣裙、今年、什么時(shí)候、買"納入第二詞語集。經(jīng)過過濾后生成 的第二詞語集中的詞語比第一詞語集中的詞語更為準(zhǔn)確,并減少了第一詞語集的冗余。
[0023] 步驟103、對第二詞語集中的任意兩個(gè)詞語進(jìn)行編輯距離處理生成第一同義詞對 集。
[0024] 圖2為本發(fā)明實(shí)施例一的對詞語進(jìn)行編輯距離處理的流程圖。如圖2所示,對詞 語進(jìn)行編輯距離處理具體包括以下步驟:
[0025] 步驟201、判斷任意兩個(gè)詞語的長度比例是否小于等于2且大于等于1/2,如果是 則進(jìn)行下一步,如果否則計(jì)算結(jié)束。
[0026] 具體地,兩個(gè)詞語的長度大于2后,再判斷是否詞語a的長度〈=2*詞語b的長度, 且詞語b的長度〈=2*詞語a的長度,如果結(jié)果為是則往下執(zhí)行,否則計(jì)算結(jié)束,其中wordl 為詞語a,w〇rd2為詞語b。例如:第二詞語集中的詞語"秋冬連衣裙"與"秋冬裝連衣裙"的 長度比例是5/6, 5/6小于等于2且大于等于1/2,則進(jìn)行下一步驟。
[0027] 步驟202、計(jì)算任意兩個(gè)詞語的編輯距離。
[0028] 具體地,計(jì)算詞語a與詞語b的編輯距離。例如:詞語"秋冬連衣裙"與"秋冬裝連 衣裙"的編輯距離為1。是第(3)步驟中計(jì)算詞語a (wordl)和詞語b (W〇rd2)的編輯距 離,編輯距離是根據(jù)最短編輯(Levenshtein)距離法公式計(jì)算得來,Levenshtein距離,由 俄羅斯科學(xué)家Vladinir Levenshtein在1965年提出的一種字符串相似度計(jì)算概念,是指對 于兩個(gè)字符串,由其中一個(gè)轉(zhuǎn)成另一個(gè)所需要的最少編輯操作次數(shù)。其中,最短編輯距離主 要的修改操作包括:插入一個(gè)字符、刪除一個(gè)字符以及將一個(gè)字符替換成另一個(gè)字符,這3 個(gè)修改操作都是允許的編輯操作。如果兩個(gè)字符串間的編輯距離越少,則代表它們越相似, 相反,則代表它們越不同。
[0029] 步驟203、判斷任意兩個(gè)詞語的編輯距離是否小于等于兩個(gè)詞語的長度中的最小 長度的1/2,如果是則進(jìn)行下一步,如果否則計(jì)算結(jié)束。
[0030] 具體地,判斷是否編輯距離dis〈=0. 5*兩個(gè)詞語長度中的最小長度,如果結(jié)果為 是則往下執(zhí)行,如果為否則計(jì)算結(jié)束。由于詞語"秋冬連衣裙"和"秋冬裝連衣裙"的最小 長度為5,編輯距離1小于等于兩個(gè)詞語的長度中的最小長度5的1/2,則往下執(zhí)行。
[0031] 步驟204、輸出所有滿足判斷條件的兩個(gè)詞語為第一同義詞對集。
[0032] 具體地,輸出詞語a和詞語b為第一同義詞對集。輸出"秋冬連衣裙"與"秋冬裝 連衣裙"納入第一同義詞對集。
[0033] 其中,對第二詞語集中的任意兩個(gè)詞語進(jìn)行編輯距離處理生成第一同義詞對集的 具體計(jì)算邏輯程序?yàn)椋?br>[0034] input (wordl, word2):
[0035] (1)如果wordl,word2的單詞長度大于2,則往下執(zhí)行,否則