專(zhuān)利名稱(chēng):新詞發(fā)現(xiàn)中的字符串過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本信息處理技術(shù)領(lǐng)域,特別涉及一種新詞發(fā)現(xiàn)中的字符串過(guò)濾方法。
背景技術(shù):
近年來(lái),隨著互聯(lián)網(wǎng)的逐漸流行,各種電子資源文本規(guī)模日漸擴(kuò)大,文本中包含的 信息越來(lái)越多。為了從大量的資源中檢索和挖掘有價(jià)值的信息,研究界和企業(yè)界大力開(kāi)發(fā) 各種文本處理和數(shù)據(jù)挖掘技術(shù)。各種文本處理和數(shù)據(jù)挖掘的方法往往是基于詞語(yǔ),因此自 動(dòng)發(fā)現(xiàn)新詞是進(jìn)行文本處理和數(shù)據(jù)挖掘的重要部分。所謂新詞發(fā)現(xiàn),是指從文本中以自動(dòng)或半自動(dòng)的方式獲得未登錄詞。由于現(xiàn)有漢語(yǔ)分詞方法、理論及實(shí)現(xiàn)中的種種缺陷,尚無(wú)一種漢語(yǔ)分詞方法能夠 在分詞準(zhǔn)確率和分詞速度上達(dá)到較高的水平。漢語(yǔ)分詞的準(zhǔn)確率高,往往需要增大分詞中 的計(jì)算開(kāi)銷(xiāo),從而導(dǎo)致分詞系統(tǒng)在工程上不適用;漢語(yǔ)分詞的速度快,往往需要降低分詞中 的準(zhǔn)確率,從而也容易導(dǎo)致分詞系統(tǒng)在工程上不適用。導(dǎo)致分詞系統(tǒng)準(zhǔn)確率無(wú)法提高的重要原因在于未登錄詞識(shí)別準(zhǔn)確率不高,包括人 名、地名、組織機(jī)構(gòu)名和其它類(lèi)型的新詞。為了提高未登錄詞的識(shí)別準(zhǔn)確率,必須從文本里 發(fā)現(xiàn)未登錄詞,并把這些發(fā)現(xiàn)的未登錄詞注入詞典,從而減少未登錄詞的識(shí)別錯(cuò)誤。新詞發(fā)現(xiàn)的研究方法主要包括如下兩種1)基于監(jiān)督的新詞發(fā)現(xiàn)方法,該方法適合處理低頻和較短的字符串組成的新詞。 這種方法一般基于訓(xùn)練語(yǔ)料,采用各種統(tǒng)計(jì)模型進(jìn)行識(shí)別?;诒O(jiān)督的新詞發(fā)現(xiàn)方法的缺 點(diǎn)在于容易受到訓(xùn)練語(yǔ)料和分詞系統(tǒng)的影響,導(dǎo)致系統(tǒng)準(zhǔn)確率不高或者獲得的新詞存在種 種限制。2)基于非監(jiān)督的新詞發(fā)現(xiàn)方法,該方法適合處理高頻和較長(zhǎng)的字符串組成的新 詞。這種方法一般不需要訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,直接從字或詞出發(fā)計(jì)算字符串或詞串的 成詞概率?;诜潜O(jiān)督的新詞發(fā)現(xiàn)的缺點(diǎn)在于計(jì)算復(fù)雜性太高,新詞發(fā)現(xiàn)的準(zhǔn)確率不高。對(duì)基于無(wú)監(jiān)督的新詞發(fā)現(xiàn)方法而言,需要把垃圾串(即垃圾字符串)和詞語(yǔ)串 (詞語(yǔ)字符串)區(qū)分開(kāi)來(lái)。垃圾串并不是新詞,詞語(yǔ)串是新詞。所謂新詞發(fā)現(xiàn),就是把垃圾 串和詞語(yǔ)串區(qū)分開(kāi),僅保留詞語(yǔ)串即可。由于二者并沒(méi)有明顯的外在形式特征,因此該問(wèn)題 并不容易處理。學(xué)術(shù)界現(xiàn)有的區(qū)分垃圾串和詞語(yǔ)串的方法如下(1)基于規(guī)則的垃圾串過(guò)濾。通過(guò)對(duì)文本中詞語(yǔ)構(gòu)成特點(diǎn)的分析,總結(jié)得到大量構(gòu) 詞法知識(shí),包括過(guò)濾規(guī)則、構(gòu)詞規(guī)則、特殊構(gòu)詞規(guī)則等。通過(guò)語(yǔ)言學(xué)規(guī)則來(lái)限定和約束字與 字的組合從而發(fā)現(xiàn)新詞。基于規(guī)則的方法對(duì)于過(guò)濾明顯的垃圾串非常有用,該方法能區(qū)分 出絕大多數(shù)詞語(yǔ)串,但是也會(huì)保留大量垃圾串,過(guò)濾精度比較低。(2)基于字符串組合概率來(lái)過(guò)濾垃圾串。通過(guò)分詞系統(tǒng)切分文本,通過(guò)統(tǒng)計(jì)單字與 其它字符串的成詞概率來(lái)保留詞語(yǔ)串或過(guò)濾垃圾串。字與字或字與字符串之間的成詞概率通過(guò)大規(guī)模語(yǔ)料庫(kù)可以估計(jì)得到,成詞概率超過(guò)預(yù)設(shè)閾值的字符串可以作為詞語(yǔ)串或者垃 圾串。相對(duì)于規(guī)則方法而言,統(tǒng)計(jì)方法能夠從成詞概率上估計(jì)字符串的概率大小,該方法在 準(zhǔn)確率上明顯優(yōu)于規(guī)則方法,但仍然保留了大量垃圾串。(3)基于η元語(yǔ)法的新詞發(fā)現(xiàn)。通過(guò)統(tǒng)計(jì)字與字的N元搭配來(lái)發(fā)現(xiàn)新詞,例如二元、 三元、四元等等,并對(duì)超出一定出現(xiàn)閾值的N元字符串進(jìn)行語(yǔ)言學(xué)規(guī)則過(guò)濾,符合規(guī)則的字 符串判斷為新詞。該方法的缺陷在于,新詞的長(zhǎng)度并不確定,因此必須統(tǒng)計(jì)大量字符串的N 元搭配,而這種統(tǒng)計(jì)方法往往會(huì)占用大量資源。如果僅統(tǒng)計(jì)長(zhǎng)度有限的新詞,則較長(zhǎng)的新詞 必定會(huì)遺漏。另外,基于規(guī)則的過(guò)濾方法的效果并不太好。(4)基于多種特征量的背景比對(duì)。通過(guò)比較候選字符串的多種特征量以及和背景 文本之間的概率差異來(lái)判斷新詞的概率,這些特征量包括上下文熵、似然比等等。背景文本 往往是與測(cè)試文本相似的文本,通過(guò)比較二者之間的差異來(lái)判斷測(cè)試文本中的新詞。該方 法的缺陷在于計(jì)算復(fù)雜性較高,而且背景文本的確定也比較困難,實(shí)用性并不好。以上諸種垃圾串過(guò)濾方法均有其局限性,或者過(guò)濾的準(zhǔn)確率太低,或者計(jì)算復(fù)雜 性太高,過(guò)濾效果和表現(xiàn)并不能滿(mǎn)足工程應(yīng)用的要求。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問(wèn)題本發(fā)明要解決的技術(shù)問(wèn)題是如何提供一種計(jì)算復(fù)雜度低、新詞發(fā)現(xiàn)準(zhǔn)確率高并 能夠支持任意長(zhǎng)度的新詞發(fā)現(xiàn)中的字符串過(guò)濾方法。(二)技術(shù)方案為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種新詞發(fā)現(xiàn)中字符串過(guò)濾方法,該方法包 括步驟Α、估計(jì)候選字符串的成詞概率;步驟B、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為詞語(yǔ)串輸出。優(yōu)選地,所述步驟B具體包括基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選 字符串進(jìn)行垃圾串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出。優(yōu)選地,所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾 串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出具體包括步驟201、對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行分詞;步驟202、對(duì)詞進(jìn)行N元搭配測(cè)試,找出垃圾串;步驟203、對(duì)垃圾串進(jìn)行過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出。優(yōu)選地,所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾 串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出具體包括如果成詞概率大于第一預(yù)設(shè)閾值 的候選字符串的子串是新詞且該子串成詞概率高于所述成詞概率大于第一預(yù)設(shè)閾值的候 選字符串的成詞概率,則判定所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串是垃圾串,對(duì) 垃圾串進(jìn)行過(guò)濾,將所述成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串作為詞語(yǔ)串輸 出ο優(yōu)選地所述成詞概率的計(jì)算公式為:p (S) = λ J (S) * λ 2q (S),其中,t (S)和q (S) 分別為字符串S的左右鄰接概率和內(nèi)部構(gòu)成概率。入工和λ2分別為t(s)和q(S)的權(quán)重;所述t(S)的計(jì)算公式為
「0029權(quán)利要求
一種新詞發(fā)現(xiàn)中字符串過(guò)濾方法,其特征在于,該方法包括步驟A、估計(jì)候選字符串的成詞概率;步驟B、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為詞語(yǔ)串輸出。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟B具體包括基于N元語(yǔ)法對(duì)成詞 概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行垃圾串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出ο
3.如權(quán)利要求2所述的方法,其特征在于,所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè) 閾值的候選字符串進(jìn)行垃圾串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出具體包括步驟201、對(duì)成詞概率大于第一預(yù)設(shè)閾值的候選字符串進(jìn)行分詞;步驟202、對(duì)詞進(jìn)行N元搭配測(cè)試,找出垃圾串;步驟203、對(duì)垃圾串進(jìn)行過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出。
4.如權(quán)利要求2所述的方法,其特征在于,所述基于N元語(yǔ)法對(duì)成詞概率大于第一預(yù)設(shè) 閾值的候選字符串進(jìn)行垃圾串過(guò)濾,將剩余的候選字符串作為詞語(yǔ)串輸出具體包括如果 成詞概率大于第一預(yù)設(shè)閾值的候選字符串的子串是新詞且該子串成詞概率高于所述成詞 概率大于第一預(yù)設(shè)閾值的候選字符串的成詞概率,則判定所述成詞概率大于第一預(yù)設(shè)閾值 的候選字符串是垃圾串,對(duì)垃圾串進(jìn)行過(guò)濾,將所述成詞概率大于第一預(yù)設(shè)閾值的候選字 符串的子串作為詞語(yǔ)串輸出。
5.如權(quán)利要求1所述的方法,其特征在于,所述成詞概率的計(jì)算公式為p(S)= λ it(S)*X 2q(s),其中,t(S)和q(S)分別為字符串S的左右鄰接概率和內(nèi)部構(gòu)成概率。入工 和λ2分別為t(S)和q(S)的權(quán)重;所述t (S)的計(jì)算公式為
6.如權(quán)利要求5所述的方法,其特征在于,所述count(SJ為1 ;所述count (Sk)為1 ; 所述α為10000。
7.如權(quán)利要求1-6中任一項(xiàng)所述的方法,其特征在于,在步驟A之前,該方法進(jìn)一步包 括抽取候選字符串的步驟。
8.如權(quán)利要求7所述的方法,其特征在于,所述抽取候選字符串的方法為基于監(jiān)督的 新詞發(fā)現(xiàn)方法和基于非監(jiān)督的新詞發(fā)現(xiàn)方法之一或二者的結(jié)合。
全文摘要
本發(fā)明公開(kāi)了一種新詞發(fā)現(xiàn)中字符串過(guò)濾方法,該方法包括步驟A、估計(jì)候選字符串的成詞概率;步驟B、將成詞概率大于第一預(yù)設(shè)閾值的候選字符串作為詞語(yǔ)串輸出。本發(fā)明所述方法在區(qū)分垃圾串和詞語(yǔ)串時(shí)使用了概率估計(jì)方法,通過(guò)詞的上下文約束和詞位的成詞概率來(lái)給字符串排序,同時(shí)采用了N元搭配來(lái)過(guò)濾垃圾串。本發(fā)明所述方法的優(yōu)點(diǎn)在于1)支持任意長(zhǎng)度的新詞發(fā)現(xiàn)(大于等于2個(gè)漢字);2)識(shí)別準(zhǔn)確率明顯提高;3)計(jì)算復(fù)雜度低,符合工程實(shí)用的目的。
文檔編號(hào)G06F17/27GK101950306SQ201010298510
公開(kāi)日2011年1月19日 申請(qǐng)日期2010年9月29日 優(yōu)先權(quán)日2010年9月29日
發(fā)明者牟小峰 申請(qǐng)人:北京新媒傳信科技有限公司