欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法

文檔序號(hào):6402693閱讀:422來(lái)源:國(guó)知局
專利名稱:一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,涉及到從中文電子文檔中自動(dòng)提取詞語(yǔ)集合的方法。
背景技術(shù)
近年來(lái),隨著科研、經(jīng)濟(jì)和Internet等領(lǐng)域的迅速發(fā)展,電子文檔的數(shù)量加速增長(zhǎng),如何快速和有效地處理這些海量電子文檔已成為信息檢索、知識(shí)管理、Web服務(wù)等領(lǐng)域的關(guān)鍵任務(wù)之一。由此,文本檢索、分類、自動(dòng)摘要等電子文檔自動(dòng)處理技術(shù)成為了相關(guān)領(lǐng)域的研究熱點(diǎn)。在這些技術(shù)中,自動(dòng)提取電子文檔中的所有詞語(yǔ)(簡(jiǎn)稱“提詞”)是一項(xiàng)基礎(chǔ)工作。本發(fā)明的提詞方法針對(duì)的是中文電子文檔的自動(dòng)處理,如無(wú)特殊說(shuō)明,后文的“文檔”均指“中文電子文檔”,“詞語(yǔ)”均指“中文詞語(yǔ)”。文檔中的詞語(yǔ)(term或者word)依據(jù)是否遵循意義組合原理(thePrinciple ofCompositionality,—個(gè)復(fù)雜表達(dá)式的意義由其各個(gè)組成部分的意義及其組合結(jié)構(gòu)決定。)分為兩種:原子詞和合成詞(也稱復(fù)合詞)。原子詞(atomic word, aw)是語(yǔ)言中用于組合形成其它新詞的短詞,不遵循意義組合原理,如,“系統(tǒng)”、“知識(shí)”等。合成詞(compoundword,cw)是由多個(gè)原子詞組成的面向內(nèi)容的長(zhǎng)詞,這些詞的構(gòu)成一般遵循意義組合原理。如,“系統(tǒng)工程”、“知識(shí)管理”等。原子詞的自動(dòng)提取可以基于原子詞詞典輕松完成。由于原子詞比較穩(wěn)定,較少出現(xiàn)新詞,所以,基于漢語(yǔ)主題詞表或者中國(guó)分類主題詞表等詞典就可提取得到,并且準(zhǔn)確率與召回率均令人滿意。合成詞的自動(dòng)提取方法主要有兩類:一種是基于統(tǒng)計(jì)的方法,如基于串頻與串長(zhǎng)的提詞方法等。一種是基于詞性分析的方法,如依據(jù)詞性的組詞規(guī)則提取合成詞的方法等。這兩種方法各有其優(yōu)缺點(diǎn)?;诮y(tǒng)計(jì)方法提取合成詞的基本思想為:相鄰漢字共現(xiàn)的頻率越高,越有可能是一個(gè)獨(dú)立的詞語(yǔ)。因此,該方法的一般過(guò)程為:(1)依據(jù)某一算法切分電子文檔,獲取其中的每一個(gè)子串;(2)統(tǒng)計(jì)每一子串的出現(xiàn)頻率或者其左右子串單獨(dú)出現(xiàn)的概率等判斷指標(biāo);(3)依據(jù)這些指標(biāo)是否達(dá)到閾值來(lái)判定該子串是否獨(dú)立成詞。這種方法的優(yōu)點(diǎn)在于:不基于詞典,因此不受詞典限制,一般召回率較高,能夠提取得到新出現(xiàn)的詞語(yǔ)。缺點(diǎn)在于:(I)統(tǒng)計(jì)方法一般僅適用于自動(dòng)提取大語(yǔ)料中的詞語(yǔ);(2)不能同時(shí)保證準(zhǔn)確率和召回率,為追求高準(zhǔn)確率所設(shè)定的閾值必然會(huì)導(dǎo)致較低的召回率;(3)在切分文檔獲取子串時(shí)不考慮語(yǔ)法和詞法,從而導(dǎo)致最終將一部分“不成詞”的子串也錯(cuò)誤地列入提詞結(jié)果,如,“系統(tǒng)工”、“識(shí)管理”等。基于詞性分析的方法一般基于原子詞詞典對(duì)語(yǔ)料進(jìn)行原子詞切分,然后依據(jù)規(guī)則取原子詞的組合(如,多元名詞)作為詞語(yǔ)。張新等人在文章《基于規(guī)則與統(tǒng)計(jì)的本體概念自動(dòng)獲取方法研究》中提出了一種依據(jù)詞性判斷漢字串是否獨(dú)立成詞的自動(dòng)提取術(shù)語(yǔ)的方法?;谠~性分析的提詞方法優(yōu)點(diǎn)是準(zhǔn)確率高;缺點(diǎn)是:召回率極低,受限于規(guī)則集合的準(zhǔn)確性和完備性。為克服上述合成詞提取方法的缺陷以提高自動(dòng)提詞的性能,于娟等人在文章《結(jié)合詞性分析與串頻統(tǒng)計(jì)的詞語(yǔ)提取方法》中提出了一種結(jié)合原子詞詞性分析和原子詞串頻統(tǒng)計(jì)的提詞方法。該方法的基本思想是:特定詞性的原子詞參與組詞的概率較高,且共現(xiàn)頻率較高的原子詞串“成詞”的可能性較高?;谶@個(gè)思想,該方法首先將電子文檔處理為一組由特定詞性的原子詞所組成的詞串,然后統(tǒng)計(jì)這些詞串及其子串的頻率,最后得到“成詞”的詞語(yǔ),達(dá)成自動(dòng)提取文檔中詞語(yǔ)的目的。但是,這種方法仍然存在缺陷。盡管該方法的召回率令人滿意,但是結(jié)果集合中存在大量“半截詞”,如“管理信息”(存在于‘管理信息系統(tǒng)’)、“全球性”(存在于‘全球性企業(yè)’)等詞,影響了方法的準(zhǔn)確率。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,解決由于自動(dòng)提取結(jié)果中存在“半截詞”而影響準(zhǔn)確率的問(wèn)題,實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)地高效地提取中文電子文檔中的詞語(yǔ)。本發(fā)明采用以下方案實(shí)現(xiàn):一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于包括以下步驟:步驟SOl:將電子文檔處理為一組由特定詞性的原子詞所組成的詞串;步驟S02:統(tǒng)計(jì)該些原子詞詞串及其子串的頻率,將出現(xiàn)次數(shù)超過(guò)N次的原子詞詞串做為候選詞語(yǔ),其中N為可設(shè)定參數(shù);步驟S03:刪除候選詞語(yǔ)集合中僅做為子串出現(xiàn)的詞語(yǔ),得到文檔中出現(xiàn)的詞語(yǔ)的集合,實(shí)現(xiàn)自動(dòng)提取中文電子文檔中的詞語(yǔ)的目的。在本發(fā)明一實(shí)施例中,所述步驟SOl的實(shí)現(xiàn)方式包括如下步驟:SOll:對(duì)電子文檔進(jìn)行原子詞切分和詞性標(biāo)注,得到經(jīng)過(guò)原子詞切分和詞性標(biāo)注的文檔;S012:刪除無(wú)用原子詞,得到原子詞串的集合,其中包括以下兩步刪除兩種無(wú)用原子詞:S0121:根據(jù)詞性刪除無(wú)用原子詞:將不參與組詞的原子詞替換為一第一預(yù)定符號(hào),輸出結(jié)果中,原子詞之間采用一第二預(yù)定符號(hào)作為間隔,原子詞串之間采用所述第一預(yù)定符號(hào)作為間隔;S0122:依據(jù)一個(gè)停用原子詞列表進(jìn)一步刪除原子詞,將停用原子詞替換為所述第一預(yù)定符號(hào),由此生成新的原子詞串的有序集合。在本發(fā)明一實(shí)施例中,所述第一預(yù)定符號(hào)為換行符,所述第二預(yù)定符號(hào)為空格。在本發(fā)明一實(shí)施例中,所述步驟SOll中對(duì)電子文檔進(jìn)行原子詞切分和詞性標(biāo)注采用中科院分詞系統(tǒng)ICTCLAS或哈爾濱工業(yè)大學(xué)的分詞系統(tǒng)IRLAS完成。在本發(fā)明一實(shí)施例中,所述步驟S02采用以下算法實(shí)現(xiàn):I)對(duì)于原子詞串集合中的每一個(gè)原子詞串AWS,執(zhí)行步驟2);2)對(duì)于原子詞串的每一個(gè)原子詞,順序執(zhí)行步驟3)、4);3)切分得到以該原子詞為首的AWS的所有子串;4)對(duì)于每一個(gè)子串,執(zhí)行步驟5);
5)判斷子串在語(yǔ)料中出現(xiàn)的次數(shù)是否超過(guò)N次,如果是,執(zhí)行步驟6);否則,執(zhí)行步驟7);6)去除子串中的間隔符形成漢字串,作為候選詞語(yǔ);同時(shí)保存其出現(xiàn)頻率;7)返回步驟2)。本發(fā)明設(shè)計(jì)并實(shí)現(xiàn)一個(gè)自動(dòng)提取中文電子文檔中所出現(xiàn)的詞語(yǔ)的方法。與已有的提詞方法相比較,該方法:(1)在切分漢字串時(shí),以原子詞為步長(zhǎng),避免了因原子詞被切分導(dǎo)致的錯(cuò)誤提詞,如“系統(tǒng)工”、“識(shí)管理”等。(2)在提取合成詞時(shí),表現(xiàn)出較高的性能;很少單獨(dú)使用的合成詞也能夠提取得到,如“決策支持”等。(3)解決了結(jié)果集合中存在“半截詞”的問(wèn)題,提高了自動(dòng)提詞的準(zhǔn)確率。本發(fā)明的效果和益處是:解決了自動(dòng)提詞性能不高、自動(dòng)化程度有限的實(shí)際問(wèn)題和困難。高效的自動(dòng)提詞方法是文本自動(dòng)處理的基礎(chǔ),是信息檢索、文本摘要、內(nèi)容管理等應(yīng)用的有力保證。良好的詞語(yǔ)提取方法能夠促進(jìn)上述工作的自動(dòng)化程度和性能。


圖1是本發(fā)明實(shí)施例的方法流程示意圖。圖2是本發(fā)明另一實(shí)施例具體的方法流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。如圖1所示,本實(shí)施例提供一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于包括以下步驟:步驟SOl:將電子文檔處理為一組由特定詞性的原子詞所組成的詞串;步驟S02:統(tǒng)計(jì)該些原子詞詞串及其子串的頻率,將出現(xiàn)次數(shù)超過(guò)N次的原子詞詞串做為候選詞語(yǔ),其中N為可設(shè)定參數(shù),較佳的該N可以為2 ;步驟S03:刪除候選詞語(yǔ)集合中僅做為子串出現(xiàn)的詞語(yǔ),得到文檔中出現(xiàn)的詞語(yǔ)的集合,實(shí)現(xiàn)自動(dòng)提取中文電子文檔中的詞語(yǔ)的目的。具體的,請(qǐng)參見(jiàn)圖2,本實(shí)施例所述自動(dòng)提詞方法分以下步驟提取中文電子文檔中的詞語(yǔ)集合:1.對(duì)電子文檔進(jìn)行原子詞切分和詞性標(biāo)注,得到經(jīng)過(guò)原子詞切分和詞性標(biāo)注的文檔。該步驟對(duì)輸入的電子文檔進(jìn)行原子詞切分和詞性標(biāo)注??刹捎弥锌圃悍衷~系統(tǒng)ICTCLAS或哈爾濱工業(yè)大學(xué)的分詞系統(tǒng)IRLAS等。2.刪除無(wú)用原子詞,得到原子詞串的集合。無(wú)用原子詞指的是那些一般不參與組成合成詞的原子詞。該步驟處理經(jīng)過(guò)原子詞切分和詞性標(biāo)注的電子文檔,分兩步刪除兩種無(wú)用原子詞,輸出結(jié)果為由保留原子詞組成的詞串的有序集合。這里為方便后續(xù)說(shuō)明,做如下定義:定義1:原子詞串(Chinese atomic word s tring, AWS)是一個(gè)由一個(gè)或多個(gè)中文原子詞構(gòu)成的有限序列。記為AWsyaw1-Bw2-...awn—〃,其中aw^aw2—...awn—是AWS的值,awj (I < i < η)是原子詞。一個(gè)原子詞串的長(zhǎng)度(記為AWSLen)是指構(gòu)成該原子詞串的原子詞的個(gè)數(shù)。例如,"信息_系統(tǒng):是一個(gè)原子詞串,長(zhǎng)度為2,是對(duì)“信息系統(tǒng)”進(jìn)行原子詞切分后形成的。原子詞串中的相鄰原子詞之間可使用空格作為分隔符。為了明晰起見(jiàn),不妨采用下劃線”表示空格。定義2:原子詞串的子串是該原子詞串的一個(gè)子序列。例如,〃信息_",〃系統(tǒng):和〃信息_系統(tǒng):是原子詞串〃信息_系統(tǒng):的子
串OI)根據(jù)詞性刪除。該步驟根據(jù)詞性刪除無(wú)用原子詞。在輸入經(jīng)過(guò)原子詞切分和詞性標(biāo)注的電子文檔后,該模塊保留那些標(biāo)注為特定詞性的原子詞,將一般不參與組詞的原子詞(如,介詞、助詞等)替換為換行符(或其它預(yù)定符號(hào),這里并不以此為限),如此,輸出的是原子詞串的有序集合,原子詞串由保留的原子詞構(gòu)成。輸出結(jié)果中,原子詞之間采用單個(gè)空格作為間隔,原子詞串之間采用換行符作為間隔。2)停用原子詞刪除。該步驟依據(jù)一個(gè)停用原子詞列表進(jìn)一步刪除原子詞,將停用原子詞替換為換行符,由此生成新的原子詞串的有序集合。停用原子詞,即那些從詞性上判斷有可能參與組成合成詞但實(shí)際情況下一般不參與組詞的詞,如,是(動(dòng)詞)、要(動(dòng)詞)、提供(動(dòng)詞)、不少(形容詞)等。3.統(tǒng)計(jì)子串出現(xiàn)頻率,得到候選詞語(yǔ)集合。上一步驟將經(jīng)過(guò)原子詞切分和詞性標(biāo)注的電子文檔處理為一組原子詞串的有序集合。這一步驟切分這些原子詞串的子串,輸出在文檔中多次出現(xiàn)的子串,作為候選詞語(yǔ)。這些候選詞語(yǔ)包括原子詞、合成詞以及部分不能獨(dú)立成詞的漢字串。算法步驟如下:I)對(duì)于原子詞串集合中的每一個(gè)原子詞串AWSdAS 2)。2)對(duì)于原子詞串的每一個(gè)原子詞,順序執(zhí)行3)、4)。3)切分得到以該原子詞為首的AWS的所有子串。4)對(duì)于每一個(gè)子串,執(zhí)行5)。5)判斷子串在語(yǔ)料中出現(xiàn)的次數(shù)是否超過(guò)N次(N為可設(shè)定參數(shù)),如果是,執(zhí)行
6);否則,執(zhí)行7)。6)去除子串中的間隔符形成漢字串,作為候選詞語(yǔ);同時(shí)保存其出現(xiàn)頻率。7)返回2)。4.刪除“半截詞”,得到詞語(yǔ)集合。該步驟處理候選詞語(yǔ)集合,刪除其中僅做為子串出現(xiàn)的候選詞語(yǔ),得到最終的自動(dòng)提詞結(jié)果一電子文檔中的詞語(yǔ)集合。僅作為子串出現(xiàn)的候選詞語(yǔ)是指,那些在文檔中出現(xiàn)頻率與其母串相同的子串。在實(shí)際的詞語(yǔ)提取過(guò)程中,為了提高結(jié)果的準(zhǔn)確性,在自動(dòng)提取得到詞語(yǔ)集合后,也可以添加一個(gè)人工修正的步驟。人工修正是專家手動(dòng)修改自動(dòng)提取結(jié)果的過(guò)程。為了讓一般技術(shù)人員更好的理解本發(fā)明:以表一所示文檔為例。
權(quán)利要求
1.一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于包括以下步驟: 步驟SOl:將電子文檔處理為一組由特定詞性的原子詞所組成的詞串; 步驟S02:統(tǒng)計(jì)該些原子詞詞串及其子串的頻率,將出現(xiàn)次數(shù)超過(guò)N次的原子詞詞串做為候選詞語(yǔ),其中N為可設(shè)定參數(shù); 步驟S03:刪除候選詞語(yǔ)集合中僅做為子串出現(xiàn)的詞語(yǔ),得到文檔中出現(xiàn)的詞語(yǔ)的集合,實(shí)現(xiàn)自動(dòng)提取中文電子文檔中的詞語(yǔ)的目的。
2.根據(jù)權(quán)利要求1所述的一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于:所述步驟SOl的實(shí)現(xiàn)方式包括如下步驟: SOll:對(duì)電子文檔進(jìn)行原子詞切分和詞性標(biāo)注,得到經(jīng)過(guò)原子詞切分和詞性標(biāo)注的文檔; S012:刪除無(wú)用原子詞,得到原子詞串的集合,其中包括以下兩步刪除兩種無(wú)用原子詞: 50121:根據(jù)詞性刪除無(wú)用原子詞:將不參與組詞的原子詞替換為一第一預(yù)定符號(hào),輸出結(jié)果中,原子詞之間采用一第二預(yù)定符號(hào)作為間隔,原子詞串之間采用所述第一預(yù)定符號(hào)作為間隔; 50122:依據(jù)一個(gè)停用原子詞列表進(jìn)一步刪除原子詞,將停用原子詞替換為所述第一預(yù)定符號(hào),由此生成新的原子詞串的有序集合。
3.根據(jù)權(quán)利要求2所述的一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于:所述第一預(yù)定符號(hào)為換行符,所述第二預(yù)定符號(hào)為空格。
4.根據(jù)權(quán)利要求2所述的一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于:所述步驟SOll中對(duì)電子文檔進(jìn)行原子詞切分和詞性標(biāo)注采用分詞系統(tǒng)ICTCLAS或分詞系統(tǒng)IRLAS完成。
5.根據(jù)權(quán)利要求1所述的一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于:所述步驟S02采用以下算法實(shí)現(xiàn): 1)對(duì)于原子詞串集合中的每一個(gè)原子詞串AWS,執(zhí)行步驟2); 2)對(duì)于原子詞串的每一個(gè)原子詞,順序執(zhí)行步驟3)、4); 3)切分得到以該原子詞為首的AWS的所有子串; 4)對(duì)于每一個(gè)子串,執(zhí)行步驟5); 5)判斷子串在語(yǔ)料中出現(xiàn)的次數(shù)是否超過(guò)N次,如果是,執(zhí)行步驟6);否則,執(zhí)行步驟7); 6)去除子串中的間隔符形成漢字串,作為候選詞語(yǔ);同時(shí)保存其出現(xiàn)頻率; 7)返回步驟2)。
全文摘要
本發(fā)明涉及一種從中文電子文檔中自動(dòng)提取詞語(yǔ)的方法,其特征在于包括以下步驟步驟S01將電子文檔處理為一組由特定詞性的原子詞所組成的詞串;步驟S02統(tǒng)計(jì)該些原子詞詞串及其子串的頻率,將出現(xiàn)次數(shù)超過(guò)N次的原子詞詞串做為候選詞語(yǔ),其中N為可設(shè)定參數(shù);步驟S03刪除候選詞語(yǔ)集合中僅做為子串出現(xiàn)的詞語(yǔ),得到文檔中出現(xiàn)的詞語(yǔ)的集合,實(shí)現(xiàn)自動(dòng)提取中文電子文檔中的詞語(yǔ)的目的。本發(fā)明的效果和益處是解決了自動(dòng)提詞性能不高、自動(dòng)化程度有限的實(shí)際問(wèn)題和困難。高效的自動(dòng)提詞方法是文本自動(dòng)處理的基礎(chǔ),是信息檢索、文本摘要、內(nèi)容管理等應(yīng)用的有力保證。良好的詞語(yǔ)提取方法能夠促進(jìn)上述工作的自動(dòng)化程度和性能。
文檔編號(hào)G06F17/30GK103207921SQ20131015649
公開(kāi)日2013年7月17日 申請(qǐng)日期2013年4月28日 優(yōu)先權(quán)日2013年4月28日
發(fā)明者于娟 申請(qǐng)人:福州大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
桓台县| 离岛区| 库尔勒市| 滨州市| 登封市| 吴桥县| 禹城市| 阳新县| 两当县| 松阳县| 汝州市| 宜州市| 昌都县| 梁平县| 金山区| 中西区| 龙游县| 祁连县| 林甸县| 潼关县| 临沭县| 三明市| 余姚市| 桃源县| 石门县| 营口市| 沅陵县| 黄冈市| 林口县| 偏关县| 长白| 滕州市| 板桥市| 潞西市| 阳西县| 商南县| 忻州市| 陈巴尔虎旗| 博乐市| 沐川县| 无为县|