專利名稱:基于序列模式的新詞發(fā)現(xiàn)方法
技術領域:
本發(fā)明涉及文本信息處理技術領域,特別涉及一種基于序列模式的新詞發(fā)現(xiàn)方法。
背景技術:
近年來,隨著網(wǎng)絡日益普及,互聯(lián)網(wǎng)上的文本規(guī)模逐步擴大,信息資源不斷增加。 為了從大量的資源中檢索和挖掘有價值的信息,研究界大力發(fā)展文本處理的技術。其中,新 詞發(fā)現(xiàn)技術是諸多公司和研究所的研究熱點。所謂新詞發(fā)現(xiàn),是指從文本中以自動或半自動的方式獲得未登錄詞。半自動的新 詞獲取需要人工干預,而自動新詞獲取不需要人工干預。新詞發(fā)現(xiàn)是學術界和工業(yè)界的研究熱點。對于學術界而言,良好的新詞發(fā)現(xiàn)方法 能夠極大地擴充詞典,減輕詞典編纂者的工作量,也能極大地幫助研究人員研究新詞新語。 對于工業(yè)界而言,好的新詞發(fā)現(xiàn)方法可以在應用在不同領域,例如拼音輸入法、微博和博客 的實時挖掘、分詞系統(tǒng)的詞表擴充、輿論監(jiān)控、敏感詞提取、突發(fā)性事件發(fā)現(xiàn)和熱點信息提
取等等。盡管學術界對新詞的定義存在爭議,導致對新詞的界定不盡相同。比較流行的定 義為,新詞是通過各種途徑產(chǎn)生的具有現(xiàn)代漢語基本詞匯所沒有的新形式、新意義和新用 法的詞語。該定義在理論上可行,但在工程實踐中可操作性不強。新意義和新用法在實踐 中不容易判定。因此,本方法從文本處理的工程實際出發(fā),把新詞界定為未登錄詞,即詞表未覆蓋 的詞語都是新詞。關于新詞發(fā)現(xiàn)的研究方法,主要包括如下兩種(1)基于監(jiān)督的新詞發(fā)現(xiàn)方法,該方法適合處理低頻和較短的字符串組成的新詞。 這種方法一般基于訓練語料,采用各種統(tǒng)計模型進行識別?;诒O(jiān)督的新詞發(fā)現(xiàn)方法的缺 點在于容易受到訓練語料和分詞系統(tǒng)的影響,導致系統(tǒng)準確率不高或者獲得的新詞存在種 種限制。(2)基于非監(jiān)督的新詞發(fā)現(xiàn)方法,該方法適合處理高頻和較長的字符串組成的新 詞。這種方法一般不需要訓練語料進行統(tǒng)計分析,直接從字或詞出發(fā)計算字符串或詞串的 成詞概率?;诜潜O(jiān)督的新詞發(fā)現(xiàn)方法的缺點在于計算復雜度太高,新詞發(fā)現(xiàn)的準確率不
尚ο
發(fā)明內容
(一)要解決的技術問題本發(fā)明要解決的技術問題是如何提供一種計算復雜度低、新詞發(fā)現(xiàn)準確率高并 能夠支持任意長度的新詞發(fā)現(xiàn)的新詞發(fā)現(xiàn)方法。(二)技術方案
為解決上述技術問題,本發(fā)明提供了一種基于序列模式的新詞發(fā)現(xiàn)方法,該方法 包括步驟A、基于序列模式抽取候選字符串;步驟B、估計候選字符串的成詞概率;步驟C、將成詞概率大于第一預設閾值的候選字符串作為新詞輸出。優(yōu)選地,所述步驟C具體包括基于N元語法對成詞概率大于第一預設閾值的候選 字符串進行垃圾串過濾,將剩余的候選字符串作為新詞輸出。優(yōu)選地,所述基于N元語法對成詞概率大于第一預設閾值的候選字符串進行垃圾 串過濾,將剩余的候選字符串作為新詞輸出具體包括步驟301、對成詞概率大于第一預設閾值的候選字符串進行分詞;步驟302、對詞進行N元搭配測試,找出垃圾串;步驟303、對垃圾串進行過濾,將剩余的候選字符串作為新詞輸出。優(yōu)選地,所述基于N元語法對成詞概率大于第一預設閾值的候選字符串進行垃圾 串過濾,將剩余的候選字符串作為新詞輸出具體包括如果成詞概率大于第一預設閾值的 候選字符串的子串是新詞且該子串成詞概率高于所述成詞概率大于第一預設閾值的候選 字符串的成詞概率,則判定所述成詞概率大于第一預設閾值的候選字符串是垃圾串,對垃 圾串進行過濾,將所述成詞概率大于第一預設閾值的候選字符串的子串作為新詞輸出。優(yōu)選地,所述步驟A具體包括步驟201、計算漢字頻次;步驟202、輸出左候選字符串和右候選字符串;步驟203、抽取候選字符串。優(yōu)選地,所述步驟202具體包括構造左有序pat數(shù)組結構輸出左候選字符串并構 造右有序Pat數(shù)組結構輸出右候選字符串。優(yōu)選地,所述構造左有序pat數(shù)組結構輸出左候選字符串具體包括計算累積頻 次,構造索引堆,對索引堆排序,根據(jù)索引堆提取公共前綴,將出現(xiàn)頻度大于第二預設閾值 的公共前綴作為左候選字符串輸出。優(yōu)選地,所述構造右有序pat數(shù)組結構輸出右候選字符串具體包括計算累積頻 次,構造索引堆,對索引堆排序,根據(jù)索引堆提取公共前綴,將出現(xiàn)頻度大于第三預設閾值 的公共前綴作為右候選字符串輸出。優(yōu)選地,所述成詞概率的計算公式為:p (S) = λ J (S) * λ 2q (S),其中,t (S)和q (S)
分別為字符串S的左右鄰接概率和內部構成概率。入工和λ2分別為t(s)和q(S)的權重;
所述t(S)的計算公式為
權利要求
一種基于序列模式的新詞發(fā)現(xiàn)方法,其特征在于,該方法包括步驟A、基于序列模式抽取候選字符串;步驟B、估計候選字符串的成詞概率;步驟C、將成詞概率大于第一預設閾值的候選字符串作為新詞輸出。
2.如權利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟C具體包括基于N元語 法對成詞概率大于第一預設閾值的候選字符串進行垃圾串過濾,將剩余的候選字符串作為 新詞輸出。
3.如權利要求2所述的新詞發(fā)現(xiàn)方法,其特征在于,所述基于N元語法對成詞概率大 于第一預設閾值的候選字符串進行垃圾串過濾,將剩余的候選字符串作為新詞輸出具體包 括步驟301、對成詞概率大于第一預設閾值的候選字符串進行分詞;步驟302、對詞進行N元搭配測試,找出垃圾串;步驟303、對垃圾串進行過濾,將剩余的候選字符串作為新詞輸出。
4.如權利要求2所述的新詞發(fā)現(xiàn)方法,其特征在于,所述基于N元語法對成詞概率大 于第一預設閾值的候選字符串進行垃圾串過濾,將剩余的候選字符串作為新詞輸出具體包 括如果成詞概率大于第一預設閾值的候選字符串的子串是新詞且該子串成詞概率高于所 述成詞概率大于第一預設閾值的候選字符串的成詞概率,則判定所述成詞概率大于第一預 設閾值的候選字符串是垃圾串,對垃圾串進行過濾,將所述成詞概率大于第一預設閾值的 候選字符串的子串作為新詞輸出。
5.如權利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟A具體包括步驟201、計算漢字頻次;步驟202、輸出左候選字符串和右候選字符串;步驟203、抽取候選字符串。
6.如權利要求5所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟202具體包括構造左有 序pat數(shù)組結構輸出左候選字符串并構造右有序pat數(shù)組結構輸出右候選字符串。
7.如權利要求6所述的新詞發(fā)現(xiàn)方法,其特征在于,所述構造左有序pat數(shù)組結構輸出 左候選字符串具體包括計算累積頻次,構造索引堆,對索引堆排序,根據(jù)索引堆提取公共 前綴,將出現(xiàn)頻度大于第二預設閾值的公共前綴作為左候選字符串輸出。
8.如權利要求6所述的新詞發(fā)現(xiàn)方法,其特征在于,所述構造右有序pat數(shù)組結構輸出 右候選字符串具體包括計算累積頻次,構造索引堆,對索引堆排序,根據(jù)索引堆提取公共 前綴,將出現(xiàn)頻度大于第三預設閾值的公共前綴作為右候選字符串輸出。
9.如權利要求1-8中任一項所述的新詞發(fā)現(xiàn)方法,其特征在于,所述成詞概率的計算 公式為p(S) = Xlt(S)*X2q(S),其中,t(S)和q(S)分別為字符串S的左右鄰接概率和內 部構成概率。入工和λ2分別為t(S)和q(S)的權重;所述t (S)的計算公式為柳=count(Sl) * count(SR) * fregjS) Jreq(S) freq{S) a其中,Coimt(SL)為字符串S的左鄰接字數(shù)目;count (Se)為字符串S的右鄰接字數(shù)目; freq(S)為字符串S的頻次;α為調整因子;所述q(S)的計算公式為2q{S) = ^qm(Si)=Σ禮⑷Si eS,、 word(s) ^)=———freq(s)其中WOTd(S)表示字符S與其它字符組合成詞的頻次,Qffl(S)表示字S的構詞能力, freq(s)為字符s的頻次。
10.如權利要求9所述的新詞發(fā)現(xiàn)方法,其特征在于,所述county為1 ;所述 count (Se)為 1 ο
全文摘要
本發(fā)明公開了一種基于序列模式的新詞發(fā)現(xiàn)方法,該方法包括步驟A、基于序列模式抽取候選字符串;步驟B、估計候選字符串的成詞概率;步驟C、將成詞概率大于第一預設閾值的候選字符串作為新詞輸出。該方法根據(jù)已有的序列模式發(fā)現(xiàn)算法挖掘得到候選字符串,通過對字符串上下文和內部結構來估計字符串的成詞概率,并引入N元語法和分詞算法來進行候選字符串的過濾。該方法的優(yōu)點在于1)新詞發(fā)現(xiàn)的計算復雜度大大降低,大大提高了新詞發(fā)現(xiàn)的速度。2)支持任意長度的新詞發(fā)現(xiàn)。3)準確率明顯超出了已有的新詞發(fā)現(xiàn)方法,通過采用全新的字符串成詞概率估計和垃圾串過濾策略,本方法的新詞發(fā)現(xiàn)準確率大大提高。
文檔編號G06F17/22GK101976233SQ201010503929
公開日2011年2月16日 申請日期2010年9月30日 優(yōu)先權日2010年9月30日
發(fā)明者牟小峰 申請人:北京新媒傳信科技有限公司