以應用于公告搜索和云客服搜索中。
[0187] 例如"秋冬裝連衣裙"的一元模型值小,出現(xiàn)的概率少,將把"秋冬裝連衣裙"從第 三同義詞中刪除。如"戶口本""戶口簿"這組同義詞,或許在業(yè)務同義詞詞典中正是需要 的,需要保留下來。所以,此時對于沒用的名詞類同義詞對的過濾,可通過對第三同義詞對 集中的詞語構(gòu)建一元模型(Unigram),采用Unigram模型的計算結(jié)果進行篩選。因為某個名 詞假如不是業(yè)務重點詞,則其Unigram模型下計算出來生成的出現(xiàn)概率應該十分的低。所 以篩選策略為:如果某個名詞在Unigram模型的計算下,出現(xiàn)概率少于閾值U,則刪除該對 應的同義詞對,其中U根據(jù)需要自定義經(jīng)驗值。
[0188] 因此,通過本發(fā)明中的同義詞的獲取方法及裝置實現(xiàn)了檢索出的同義詞更為準 確,并且沒有歧義詞語和無效詞語出現(xiàn)。從而智能快捷的檢索出同義詞的相關網(wǎng)頁。一元模 型處理主要是過濾掉出現(xiàn)概率低的詞語,通過對詞語進行詞性標注后進行詞性過濾處理, 可以避免由于歧義詞語的出現(xiàn)導致同義詞配對不準確。
[0189] 專業(yè)人員應該還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的 單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬 件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。 這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。 專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn) 不應認為超出本發(fā)明的范圍。
[0190] 結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的 軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器 (ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術領域 內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
[0191] 以上的【具體實施方式】,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細 說明,所應理解的是,以上僅為本發(fā)明的【具體實施方式】而已,并不用于限定本發(fā)明的保護范 圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明 的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種同義詞的獲取方法,其特征在于,所述方法包括: 獲取文本集,對所述文本集進行分詞生成第一詞語集; 對所述第一詞語集通過停詞表識別,進行無效詞過濾生成第二詞語集; 對所述第二詞語集中的任意兩個詞語進行編輯距離處理,生成第一同義詞對集; 對所述第一詞語集中的詞語構(gòu)建向量空間模型; 根據(jù)所述向量空間模型,獲得所述第一同義詞對集中的每對同義詞的空間向量,計算 所述第一同義詞對集中的每對同義詞的余弦相似度值,并根據(jù)所述余弦相似度值將所述每 對同義詞進行余弦閾值過濾策略的識別,生成第二同義詞對集; 對所述第二同義詞對集中的詞語進行詞性標注,通過詞性過濾策略生成第三同義詞對 集; 將所述第三同義詞對集中的詞語通過一元模型處理后,生成第四同義詞對集,以獲取 同義詞。2. 根據(jù)權(quán)利要求1中的同義詞的獲取方法,其特征在于,所述對所述第二詞語集中的 任意兩個詞語進行編輯距離處理生成第一同義詞對集具體包括: 判斷所述任意兩個詞語的長度比例是否小于等于2且大于等于1/2,如果是則進行下 一步,如果否則計算結(jié)束; 計算所述任意兩個詞語的編輯距離; 判斷所述任意兩個詞語的編輯距離是否小于等于所述兩個詞語的長度中的最小長度 的1/2,如果是則進行下一步,如果否則計算結(jié)束; 輸出所有滿足判斷條件的兩個詞語為第一同義詞對集。3. 根據(jù)權(quán)利要求2中的同義詞的獲取方法,其特征在于,所述計算所述兩個詞語的編 輯距離具體包括:根據(jù)如下公式計算所述兩個詞語的編輯距離:a、b是所述第二詞語集中的任意兩個詞語,azai-ai-an,b=tv"b/"bn,屯為a的第i個字符到b的第j個字符的編輯距離,m為a的長度,n為b的長度,為a的第i個字符, bj為b的第j個字符。4. 根據(jù)權(quán)利要求1中的同義詞的獲取方法,其特征在于,所述對所述第一詞語集中的 詞語構(gòu)建向量空間模型具體包括:根據(jù)如下公式為所述第一詞語集中的詞語構(gòu)建向量空間 模型:其中,山為所述第一詞語集中的任意詞語,為山的空間向量,t為所述第一詞語集 中的詞語總數(shù),wtl為第i個詞語與第t個詞語在上下文語境中的關系。5. 根據(jù)權(quán)利要求1中的同義詞的獲取方法,其特征在于,所述根據(jù)所述向量空間模型, 獲得所述第一同義詞對集中的每對同義詞的空間向量,計算所述第一同義詞對集中的每對 同義詞的余弦相似度值具體包括: 根據(jù)所述向量空間模型,獲得所述第一同義詞對集中的任意一對同義詞A與B的空間 向量戈根據(jù)如下公式計算每對同義詞的余弦相似度值:其中,A與B是所述第一同義詞對集中的任意一對同義詞,1與@是A與B的空間向 量,;i=(4:,u), ,,,,,4>,.、."乂;,反)的取值范圍為卜1,13。6. 根據(jù)權(quán)利要求1中的同義詞的獲取方法,其特征在于,所述將所述第三同義詞對集 中的詞語通過一元模型處理后,生成第四同義詞對集具體包括:根據(jù)如下公式計算所述第 三同義詞對集中的詞語的一元模型值,將所述第三同義詞對集根據(jù)所述一元模型值通過概 率閾值過濾生成所述第四同義詞對集:其中,Wi為所述第三同義詞對集中的任意詞語,P(WJ為I的一元模型值,表示I在所 述文本集中出現(xiàn)的概率,C(WJ表示詞語I在所述文本集中出現(xiàn)的次數(shù),t表示所述文本集 中所有詞語出現(xiàn)的總次數(shù),將P(Wi)小于概率閾值U的詞語過濾,其中U是自定義的值。7. -種基于上述權(quán)利要求1-6任一所述同義詞的獲取方法所生成的同義詞的搜索方 法。8. -種同義詞的獲取裝置,其特征在于,所述裝置包括: 分詞模塊,用于獲取文本集,對所述文本集進行分詞生成第一詞語集; 過濾模塊,用于對所述第一詞語集通過停詞表識別,進行無效詞過濾生成第二詞語 集; 編輯距離模塊,用于對所述第二詞語集中的任意兩個詞語進行編輯距離處理生成第一 同義詞對集; 向量模塊,用于對所述第一詞語集中的詞語構(gòu)建向量空間模型; 余弦模塊,用于根據(jù)所述向量空間模型,獲得所述第一同義詞對集中的每對同義詞的 空間向量,計算所述第一同義詞對集中的每對同義詞的余弦相似度值,并根據(jù)所述余弦相 似度值將所述每對同義詞進行余弦閾值過濾策略的識別,生成第二同義詞對集; 詞性策略模塊,用于對所述第二同義詞對集中的詞語進行詞性標注,通過詞性過濾策 略生成第三同義詞對集; 一元模型模塊,用于將所述第三同義詞對集中的詞語通過一元模型處理后,生成第四 同義詞對集,以獲取同義詞。9. 根據(jù)權(quán)利要求8中的同義詞的獲取裝置,其特征在于,所述編輯距離模塊,用于對所 述第二詞語集中的任意兩個詞語進行編輯距離處理生成第一同義詞對集具體包括: 第一判斷單元,用于判斷所述任意兩個詞語的長度比例是否小于等于2且大于等于1/2,如果是則進行下一步,如果否則計算結(jié)束; 計算單元,用于計算所述任意兩個詞語的編輯距離; 第二判斷單元,用于判斷所述任意兩個詞語的編輯距離是否小于等于所述兩個詞語的 長度中的最小長度的1/2,如果是則進行下一步,如果否則計算結(jié)束; 輸出單元,用于輸出所有滿足判斷條件的兩個詞語為第一同義詞對集。10. 根據(jù)權(quán)利要求9中的同義詞的獲取裝置,其特征在于,所述計算單元,用于計算所 述兩個詞語的編輯距離具體包括:根據(jù)如下公式計算所述兩個詞語的編輯距離:a、b是所述第二詞語集中的任意兩個詞語,azai-ai-an,b=tv"b/"bn,屯為a的第i個字符到b的第j個字符的編輯距離,m為a的長度,n為b的長度,為a的第i個字符, bj為b的第j個字符。11. 根據(jù)權(quán)利要求8中的同義詞的獲取裝置,其特征在于,所述向量模塊,用于對所述 第一詞語集中的詞語構(gòu)建向量空間模型具體包括:根據(jù)如下公式為所述第一詞語集中的詞 語構(gòu)建向量空間模型:其中,山為所述第一詞語集中的任意詞語,為山的空間向量,t為所述第一詞語集 中的詞語總數(shù),Wtl為第i個詞語與第t個詞語在上下文語境中的關系。12. 根據(jù)權(quán)利要求8中的同義詞的獲取裝置,其特征在于,所述根據(jù)所述向量空間模 型,獲得所述第一同義詞對集中的每對同義詞的空間向量,計算所述第一同義詞對集中的 每對同義詞的余弦相似度值具體包括: 根據(jù)所述向量空間模型,獲得所述第一同義詞對集中的任意一對同義詞A與B的空間 向量為根據(jù)如下公式計算每對同義詞的余弦相似度值:其中,A與B是所述第一同義詞對集中的任意一對同義詞,2_與¥是A與B的空間向 量,爲:,幾,',4):,及=你14),▲(】,爲的取值范圍為[_1,1]。13.根據(jù)權(quán)利要求8中的同義詞的獲取裝置,其特征在于,所述一元模型模塊,用于將 第三同義詞對集中的詞語通過一元模型處理后,生成第四同義詞對集具體包括:根據(jù)如下 公式計算第三同義詞對集中的詞語的一元模型值,將所述第三同義詞對集根據(jù)所述一元模 型值通過概率閾值過濾生成所述第四同義詞對集 :其中,Wi為所述第三同義詞對集中的任意詞語,P(WJ為I的一元模型值,表示I在所 述文本集中出現(xiàn)的概率,C(WJ表示詞語I在所述文本集中出現(xiàn)的次數(shù),t表示所述文本集 中所有詞語出現(xiàn)的總次數(shù),將P(Wi)小于概率閾值U的詞語過濾,其中U是自定義的值。
【專利摘要】本發(fā)明涉及一種同義詞的獲取方法及裝置,該方法包括:獲取文本集,對文本集進行分詞生成第一詞語集;對第一詞語集通過停詞表進行無效詞過濾生成第二詞語集;對第二詞語集中的任意兩個詞語進行編輯距離處理生成第一同義詞對集;對第一詞語集中的詞語構(gòu)建向量空間模型;根據(jù)該模型獲得每對同義詞的空間向量,計算每對同義詞的余弦相似度值,將每對同義詞進行余弦閾值過濾策略的識別,生成第二同義詞對集;對第二同義詞對集中的詞語進行詞性標注生成第三同義詞對集;將第三同義詞對集中的詞語通過一元模型處理后獲取同義詞。因此,本申請實現(xiàn)了檢索出的同義詞更為準確,并且沒有歧義詞語和無效詞語出現(xiàn),從而智能的檢索出同義詞的相關網(wǎng)頁。
【IPC分類】G06F17/30
【公開號】CN105095204
【申請?zhí)枴緾N201410156167
【發(fā)明人】阮淑梨, 蔣建, 魏洪平, 謝慶偉
【申請人】阿里巴巴集團控股有限公司
【公開日】2015年11月25日
【申請日】2014年4月17日