欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

新詞發(fā)現(xiàn)的方法及裝置與流程

文檔序號:11691033閱讀:186來源:國知局
新詞發(fā)現(xiàn)的方法及裝置與流程

本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種新詞發(fā)現(xiàn)的方法及裝置。



背景技術(shù):

隨著信息傳播方式的便捷化,網(wǎng)絡(luò)上新信息產(chǎn)生的速度越來越快,信息量在不斷的膨脹,各種網(wǎng)絡(luò)新詞、流行語、行業(yè)新詞層出不窮。而這些新詞如何在文本處理和信息挖掘領(lǐng)域中被快速和有效地識別成為一大難點(diǎn)。通常在文本處理和信息挖掘中是使用詞典或者詞庫進(jìn)行詞的識別,因此對于新詞的識別同樣也可以建立一個相對完整的新詞庫供研究分析者作為參考來進(jìn)行新詞的識別。

通常的新詞庫的建立使用的是傳統(tǒng)的統(tǒng)計學(xué)方法從用于發(fā)現(xiàn)新詞的語料中發(fā)現(xiàn)新詞,然后將發(fā)現(xiàn)的新詞組成新詞庫。具體的從語料中發(fā)現(xiàn)新詞的過程是:首先從語料選出可能作為新詞的候選新詞;然后利用候選新詞中字與字的共現(xiàn)特征,即根據(jù)候選新詞中每個字單獨(dú)出現(xiàn)的概率與候選新詞中的字同時出現(xiàn)的概率來獲得字與字之間的統(tǒng)計信息,然后依據(jù)字與字之間的統(tǒng)計信息找出語料中的新詞。

上述傳統(tǒng)的統(tǒng)計學(xué)方法發(fā)現(xiàn)新詞的過程中僅考慮字與字之間的統(tǒng)計信息,該種方法僅分析候選新詞中每個字單獨(dú)出現(xiàn)的概率與候選新詞中的字同時出現(xiàn)的概率,因此對語料的依賴性較大。對于在不同領(lǐng)域的混合語料中,其中出現(xiàn)頻率較低的新詞容易被過濾掉,造成新詞的遺漏。



技術(shù)實現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種新詞發(fā)現(xiàn)的方法及裝置。

為解決上述技術(shù)問題,一方面,本發(fā)明提供了一種新詞發(fā)現(xiàn)的方法,該方法包括:

獲取候選新詞以及所述候選新詞的子字符串,所述候選新詞是在用于 發(fā)現(xiàn)新詞的語料中出現(xiàn)的滿足預(yù)設(shè)頻次閾值的字符串;

根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算所述候選新詞的詞內(nèi)統(tǒng)計信息值,所述左詞綴為字符串左側(cè)相鄰的字符,所述右詞綴為字符串右側(cè)相鄰的字符,所述詞內(nèi)統(tǒng)計信息值用于表征所述候選新詞內(nèi)部字符之間的聚合程度;

根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述候選新詞在所述語料中出現(xiàn)的頻次,計算所述候選新詞的詞間統(tǒng)計信息值,所述詞間統(tǒng)計信息值用于表征所述候選新詞與所述候選新詞相鄰的字符搭配的固定程度;

根據(jù)所述詞內(nèi)統(tǒng)計信息值和所述詞間統(tǒng)計信息值計算得到所述候選新詞的成詞得分;

根據(jù)所述成詞得分確定所述候選新詞是否為新詞。

另一方面,本發(fā)明還提供了一種新詞發(fā)現(xiàn)的裝置,該裝置包括:

獲取單元,用于獲取候選新詞以及所述候選新詞的子字符串,所述候選新詞是在用于發(fā)現(xiàn)新詞的語料中出現(xiàn)的滿足預(yù)設(shè)頻次閾值的字符串;

第一計算單元,用于根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算所述候選新詞的詞內(nèi)統(tǒng)計信息值,所述左詞綴為字符串左側(cè)相鄰的字符,所述右詞綴為字符串右側(cè)相鄰的字符,所述詞內(nèi)統(tǒng)計信息值用于表征所述候選新詞內(nèi)部字符之間的聚合程度;

第二計算單元,用于根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述候選新詞在所述語料中出現(xiàn)的頻次,計算所述候選新詞的詞間統(tǒng)計信息值,所述詞間統(tǒng)計信息值用于表征所述候選新詞與所述候選新詞相鄰的字符搭配的固定程度;

第三計算單元,用于根據(jù)所述詞內(nèi)統(tǒng)計信息值和所述詞間統(tǒng)計信息值計算得到所述候選新詞的成詞得分;

確定單元,用于根據(jù)所述成詞得分確定所述候選新詞是否為新詞。

借由上述技術(shù)方案,本發(fā)明提供的新詞發(fā)現(xiàn)的方法及裝置,能夠首先在用于發(fā)現(xiàn)新詞的語料中獲取滿足預(yù)設(shè)頻次閾值的字符串作為候選新詞,并獲取候選新詞的子字符串,然后根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和 對應(yīng)的子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值,并根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值,最后根據(jù)得到的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算候選新詞的成詞得分,并且根據(jù)成詞得分確定候選新詞是否為新詞。與現(xiàn)有技術(shù)相比,本發(fā)明能夠通過在語料中選出候選新詞后,計算候選新詞的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值,然后根據(jù)兩個值計算成詞得分,進(jìn)而來判斷候選新詞是否可以成為新詞。另外在詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算時使用的是候選新詞的左右詞綴以及候選新詞的子字符串的左右詞綴的統(tǒng)計信息,這些都是候選新詞附近的統(tǒng)計信息,因此,降低了對語料的依賴性,不會造成在不同領(lǐng)域的混合語料中低頻新詞的遺漏。

附圖說明

通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1示出了本發(fā)明實施例提供的一種新詞發(fā)現(xiàn)的方法流程圖;

圖2示出了本發(fā)明實施例提供的另一種新詞發(fā)現(xiàn)的方法流程圖;

圖3示出了本發(fā)明實施例提供的一種新詞發(fā)現(xiàn)的裝置的組成框圖;

圖4示出了本發(fā)明實施例提供的另一種新詞發(fā)現(xiàn)的裝置的組成框圖。

具體實施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

為解決現(xiàn)有發(fā)現(xiàn)新詞的方法中容易造成低頻新詞遺漏的問題,本發(fā)明實施例提供了一種新詞發(fā)現(xiàn)的方法,如圖1所示,該方法包括:

101、獲取候選新詞以及候選新詞的子字符串。

在用于發(fā)現(xiàn)新詞的語料中獲取出現(xiàn)頻次滿足預(yù)設(shè)頻次閾值的字符串,并將獲取到的字符串確定為候選新詞。需要說明的是,獲取的符合預(yù)設(shè)頻次閾值的字符串不包括現(xiàn)有詞典中存在的詞,在獲取時會結(jié)合現(xiàn)有的詞典將已經(jīng)存在在詞典中的詞過濾掉。確定候選新詞后,提取出每個候選新詞的子字符串。

其中,用于發(fā)現(xiàn)新詞的語料是通過數(shù)據(jù)收集工具收集得到的。通常的收集方式包括:使用網(wǎng)絡(luò)爬蟲爬取語料、通過第三方購買語料或者直接使用由科研機(jī)構(gòu)提供的語料等多種收集方式。

另外需要說明的是本實施例中的新詞是指未登錄詞,即沒有在詞典中出現(xiàn)的詞。通常的新詞包括:命名的實體,主要包括商品名、機(jī)構(gòu)名等;新造詞,主要包括:特定時間段內(nèi)出現(xiàn)在網(wǎng)絡(luò)上的流行語,如給力、正能量等;以及其他的專業(yè)術(shù)語或者音譯詞等。

102、根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值。

候選新詞的左右詞綴分別指:候選新詞左側(cè)相鄰的字符以及候選新詞右側(cè)相鄰的字符;同樣子字符串的左右詞綴分別指:子字符串左側(cè)相鄰的字符以及子字符串右側(cè)相鄰的字符。而其中的左右詞綴的統(tǒng)計信息是指在步驟101中的用于發(fā)現(xiàn)新詞的語料中統(tǒng)計候選新詞以及子字符串的左右側(cè)相鄰的字符的統(tǒng)計特征值,并根據(jù)候選新詞和子字符串分別對應(yīng)的統(tǒng)計特征值的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值。需要說明的是,詞內(nèi)統(tǒng)計信息值用于表征候選新詞內(nèi)部字符之間的聚合程度,詞內(nèi)統(tǒng)計信息值越大表示候選新詞內(nèi)部字符之間的聚合程度越高。

103、根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值。

本步驟中候選新詞的左右詞綴的統(tǒng)計信息與步驟102中的候選新詞左右詞綴的統(tǒng)計信息是相同的,此處不再贅述。詞間統(tǒng)計信息值是根據(jù)候選新詞的左右詞綴統(tǒng)計信息值和候選新詞在用于發(fā)現(xiàn)新詞的語料中出現(xiàn)的頻次計算得到的,需要說明的是詞間統(tǒng)計信息值用于表征候選新詞與候選新詞相鄰的字符搭配的固定程度,詞間統(tǒng)計信息值越大表示候選新詞能夠出 現(xiàn)在不同的字符之間,即能夠出現(xiàn)在不同的上下文環(huán)境中,可以更靈活地應(yīng)用于不同的應(yīng)用場景。

104、根據(jù)詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算得到候選新詞的成詞得分。

將由步驟102得到的詞內(nèi)統(tǒng)計信息值和步驟103得到的詞間統(tǒng)計信息值兩者進(jìn)行融合,最后得到候選新詞的成詞得分。

105、根據(jù)成詞得分確定候選新詞是否為新詞。

根據(jù)得到的候選新詞的成詞得分判斷候選新詞是否可以成為新詞,在判斷時會給出一個得分的閾值,當(dāng)候選新詞的成詞得分大于得分的閾值時就可以確定該候選新詞為新詞,其中閾值的選定可以根據(jù)語料的選擇和實際的需求確定,也可以通過多次的試驗訓(xùn)練出一個合理的經(jīng)驗值作為得分的閾值。另外需要說明的是,本實施例中的成詞得分與成為新詞的概率大小是成正比的,得分越高,成為新詞的可能性越大。

本實施例提供的新詞發(fā)現(xiàn)的方法,能夠首先在用于發(fā)現(xiàn)新詞的語料中獲取滿足預(yù)設(shè)頻次閾值的字符串作為候選新詞,并獲取候選新詞的子字符串,然后根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和對應(yīng)的子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值,并根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值,最后根據(jù)得到的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算候選新詞的成詞得分,并且根據(jù)成詞得分確定候選新詞是否為新詞。與現(xiàn)有技術(shù)相比,本實施例能夠通過在語料中選出候選新詞后,計算候選新詞的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值,然后根據(jù)兩個值計算成詞得分,進(jìn)而來判斷候選新詞是否可以成為新詞。另外在詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算時使用的是候選新詞的左右詞綴以及候選新詞的子字符串的左右詞綴的統(tǒng)計信息,這些都是候選新詞附近的統(tǒng)計信息,因此,降低了對語料的依賴性,不會造成在不同領(lǐng)域的混合語料中低頻新詞的遺漏。

進(jìn)一步的,作為對圖1所示實施例的細(xì)化及擴(kuò)展,本發(fā)明還提供了另一實施例。如圖2所示,該實施例中新詞發(fā)現(xiàn)的方法包括:

201、對用于發(fā)現(xiàn)新詞的語料進(jìn)行過濾得到有效語料。

首先使用圖1步驟101中的獲取語料的方式獲取用于發(fā)現(xiàn)新詞的語料。為了加快發(fā)現(xiàn)新詞的速度和排除一些干擾的因素,通常需要對語料進(jìn)行過濾得到有效語料。

對語料進(jìn)行過濾包括兩個方面:第一方面去除非法的字符、空格、垃圾信息等;第二方面去除停用詞,本實施例中的停用詞是主要針對一些無意義的詞,包括語氣詞、感嘆詞、助詞等,比如“呢”,“吧”,“哦”等。具體的在進(jìn)行去除非法的字符、空格、垃圾信息以及停用詞時是根據(jù)預(yù)設(shè)的詞表進(jìn)行去除的,預(yù)設(shè)的詞表中包括了常用的非法的字符、空格、垃圾信息、停用詞等。

202、從有效語料中挖掘符合預(yù)設(shè)字符長度和預(yù)設(shè)頻次閾值的字符串作為候選新詞。

獲取到有效語料后就可以在有效語料中提取候選新詞。

在提取候選新詞時,只需要按照語料中的字符的順序依次提取預(yù)設(shè)字符長度的字符串,預(yù)設(shè)字符長度是根據(jù)語言學(xué)特征設(shè)定的,即通常成詞的字符長度,可以將預(yù)設(shè)字符長度設(shè)為三個字符、四個字符,或者其他更多的合理的字符長度,設(shè)置預(yù)設(shè)字符長度也是為了提前排除字符長度不合理的字符串,進(jìn)而提高獲取候選新詞的速率。

在得到預(yù)設(shè)字符長度的字符串后,再根據(jù)預(yù)設(shè)頻次閾值篩選出大于預(yù)設(shè)頻次閾值的字符串作為候選新詞。另外為了提高篩選的效率,在篩選的過程中運(yùn)用了兩個假設(shè):一個是如果一個n個字符構(gòu)成的字符串不是一個頻繁的項集,則該項集的超項集一定是不頻繁的;另外一個是如果一個文檔中不包含一個長度為n的頻繁項集,則該文檔中一定不包含長度大于n的頻繁項集,n為正整數(shù)。其中的頻繁項集在本實施例中指在有效語料中出現(xiàn)的次數(shù)大于預(yù)設(shè)頻次閾值的符合預(yù)設(shè)字符長度的字符串。

為了更清楚的表達(dá)上述獲取候選新詞的過程,給出一個具體的示例進(jìn)行說明,如下所示:

假設(shè)有效語料中的一個句子為“代言人亮相時代廣場向世界傳遞著正能量”假設(shè)預(yù)設(shè)字符長度為三個字符、四個字符。那么得到的預(yù)設(shè)字符長度的字符串為:

三個字符長度的字符串包括:“代言人”“言人亮”“人亮相”…“遞著正”“著正能”“正能量”;

四個字符長度的字符串包括:“代言人亮”“言人亮相”“人亮相時”…“傳遞著正”“遞著正能”“著正能量”。

在上述示例中對于兩個假設(shè)的具體的含義是,假設(shè)已確定字符串“代言人”在有效語料中出現(xiàn)的次數(shù)不大于預(yù)設(shè)頻次閾值,則“代言人亮”在有效語料中出現(xiàn)的次數(shù)也不大于預(yù)設(shè)頻次閾值,即在判斷了“代言人”不能成為候選新詞后,不用再計算“代言人亮”的出現(xiàn)的次數(shù),直接確定其也不能成為候選新詞。

203、判斷候選新詞的字符長度,并確定候選新詞的子字符串。

確定候選新詞后,就可以為每個候選新詞確定對應(yīng)的子字符串,確定子字符串是為后面計算詞間統(tǒng)計信息值的必要準(zhǔn)備。具體的確定子字符串是將除候選新詞本身以外的字符長度大于等于2的字符串確定為其對應(yīng)的子字符串。另外,對于候選新詞獲取到的子字符串的個數(shù)可以由公式l(s)*(l(s)-1)/2-1得到,其中l(wèi)(s)為候選新詞的字符長度,且l(s)為大于2的正整數(shù),即本實施例中只適用于候選新詞的字符長度大于2的情況。

204、統(tǒng)計候選新詞的左詞綴個數(shù)以及右詞綴個數(shù)。

統(tǒng)計候選新詞在有效語料中左詞綴個數(shù),左詞綴的個數(shù)為候選新詞左側(cè)出現(xiàn)的不同的字符的個數(shù);并且統(tǒng)計候選新詞在有效語料中右詞綴個數(shù),右詞綴個數(shù)為候選新詞右側(cè)出現(xiàn)的不同的字符的個數(shù)。具體說明左右詞綴個數(shù)的統(tǒng)計方法,給出具體的示例:假設(shè)某個候選新詞“正能量”在有效語料中出現(xiàn)了三次,每次出現(xiàn)的地方其對應(yīng)的左右側(cè)的字符分別為:左側(cè)字符—“出”“著”“出”,右側(cè)字符—“帶”“發(fā)”“賦”,那么“正能量”對應(yīng)的左右詞綴的個數(shù)分別為2和3。

205、分別統(tǒng)計候選新詞的各子字符串的左詞綴個數(shù)和右詞綴個數(shù)。

按照步驟204中統(tǒng)計候選新詞左右詞綴的方法,分別統(tǒng)計得到候選新詞的各子字符串的左詞綴個數(shù)和右詞綴個數(shù)。

206、根據(jù)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)以及各子字符串的左詞綴個數(shù)和右詞綴個數(shù)計算詞內(nèi)統(tǒng)計信息值。

根據(jù)步驟204和步驟205得到的候選新詞和子字符串的左右詞綴的個數(shù),然后通過下述公式計算詞內(nèi)統(tǒng)計信息值:

其中,f1為詞內(nèi)統(tǒng)計信息值、f(si)為與各子字符串對應(yīng)的子字符串統(tǒng)計信息值、l(s)為候選新詞的字符長度,且l(s)為大于2的正整數(shù);

當(dāng)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)中的較小值大于子字符串的左詞綴個數(shù)和右詞綴個數(shù)中的較小值時,f(si)為1;

當(dāng)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)中的較小值不大于子字符串的左詞綴個數(shù)和右詞綴個數(shù)中的較小值時,f(si)為0。

另外需要說明的是i的取值范圍:i的范圍為[1,l(s)*(l(s)-1)/2-1]。

f1的值越大,表示候選新詞的子字符串的左右詞綴的個數(shù)相對比較少,可以認(rèn)為其左右詞綴僅出現(xiàn)在候選新詞的內(nèi)部,表明候選新詞內(nèi)部的聚合程度較高,是成為一個真正的詞匯應(yīng)該具有的特征。

207、根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中的出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值。

根據(jù)步驟204得到的候選新詞的左右詞綴個數(shù)以及候選新詞在語料中或者有效語料中出現(xiàn)的頻次,通過下述公式計算詞間統(tǒng)計信息值:

f2=(pl(s)+pr(s))/(2*p(s));

其中,f2為候選新詞的詞間統(tǒng)計信息值、pl(s)和pr(s)分別為候選新詞的左詞綴個數(shù)和右詞綴個數(shù)、p(s)為候選新詞在語料中或者有效語料中出現(xiàn)的頻次。

f2的值越大表示候選新詞附近的左右詞綴個數(shù)較多,即表示候選新詞與其相鄰的字符的搭配的固定程度不高,進(jìn)一步表明候選新詞能夠在不同的上下文中出現(xiàn),可以靈活地應(yīng)用于不同的應(yīng)用場景中,這也是一個真正的詞匯通常應(yīng)該具有的特征。

208、根據(jù)詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算得到候選新詞的成詞得分。

將由步驟206得到的詞內(nèi)統(tǒng)計信息值和步驟207得到的詞間統(tǒng)計信息值按照預(yù)設(shè)的權(quán)重進(jìn)行融合,將兩者進(jìn)行融合是因為詞內(nèi)統(tǒng)計信息值和詞 間統(tǒng)計信息值都是成為一個真正詞匯需要考慮的因素。本實施例中將詞內(nèi)統(tǒng)計信息值的權(quán)重設(shè)為1,詞間統(tǒng)計信息值的權(quán)重設(shè)為α,α為正數(shù)。然后按照下述公式計算候選新詞的成詞得分:

f=f1+αf2

對于α的選擇有三種情況,具體的:通常情況下,α的值取1;當(dāng)在實際應(yīng)用中,若想增加詞間統(tǒng)計信息在成詞得分中的貢獻(xiàn),則可以將α設(shè)為大于1的適當(dāng)?shù)闹?;若想增加詞內(nèi)統(tǒng)計信息值在成詞得分中的貢獻(xiàn)則可以將α設(shè)為小于1的適當(dāng)?shù)闹怠?/p>

209、根據(jù)成詞得分確定候選新詞是否為新詞。

由步驟208中的公式可以得到每個候選新詞的成詞得分,成詞得分越高,表示候選新詞成為新詞的機(jī)會越大。在根據(jù)成詞得分確定候選新詞是否為新詞的實現(xiàn)方式與圖1步驟105的實現(xiàn)方式相同,此處不再贅述。

進(jìn)一步的,對于步驟202中的獲取候選新詞的方法還可以包括:在得到預(yù)設(shè)字符長度的字符串后,利用字符串中字符之間的共現(xiàn)分布,選擇出字符串的聯(lián)合分布概率遠(yuǎn)高于各字符獨(dú)立出現(xiàn)的概率的字符串作為候選新詞。其中對于遠(yuǎn)高于的判斷可以設(shè)定一個具體的閾值;或者在得到預(yù)設(shè)字符長度的字符串后,通過計算字符串的信息熵的方法來獲取候選新詞。對于獲取候選新詞的方式?jīng)]有嚴(yán)格的限制,除了前面提到的三種方式外,別的常用的候選新詞提取的方法都可以,但是在對于不同的方法中選擇不同的閾值時要遵循盡量選擇出更多的候選新詞的原則。

進(jìn)一步的,對于步驟208中的將詞內(nèi)統(tǒng)計信息值與詞間統(tǒng)計信息值按照權(quán)重進(jìn)行融合時還可以通過別的公式進(jìn)行融合,比如計算兩者的算術(shù)平均值、期望值或者方差值等來得到成詞得分,然后進(jìn)一步根據(jù)成詞得分來確定候選新詞是否可以成為新詞。

進(jìn)一步的,作為對上述圖1和圖2所示方法的實現(xiàn),本發(fā)明實施例另一實施例還提供了一種新詞發(fā)現(xiàn)的裝置,用于對上述圖1和圖2所示的方法進(jìn)行實現(xiàn)。該裝置實施例與前述方法實施例對應(yīng),為便于閱讀,本裝置實施例不再對前述方法實施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實施例中的裝置能夠?qū)?yīng)實現(xiàn)前述方法實施例中的全部內(nèi)容。如圖3所 示,該裝置包括:獲取單元31、第一計算單元32、第二計算單元33、第三計算單元34及確定單元35。

獲取單元31,用于獲取候選新詞以及候選新詞的子字符串,候選新詞是在用于發(fā)現(xiàn)新詞的語料中出現(xiàn)的滿足預(yù)設(shè)頻次閾值的字符串;

第一計算單元32,用于根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值,左詞綴為字符串左側(cè)相鄰的字符,右詞綴為字符串右側(cè)相鄰的字符,詞內(nèi)統(tǒng)計信息值用于表征候選新詞內(nèi)部字符之間的聚合程度;

第二計算單元33,用于根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值,詞間統(tǒng)計信息值用于表征候選新詞與候選新詞相鄰的字符搭配的固定程度;

第三計算單元34,用于根據(jù)詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算得到候選新詞的成詞得分;

確定單元35,用于根據(jù)成詞得分確定候選新詞是否為新詞。

進(jìn)一步的,如圖4所示,獲取單元31,包括:

過濾模塊311,用于對語料進(jìn)行過濾得到有效語料;

挖掘模塊312,用于從有效語料中挖掘符合預(yù)設(shè)字符長度和預(yù)設(shè)頻次閾值的字符串作為候選新詞;

確定模塊313,用于將除所述候選新詞本身以外的字符長度大于等于2的字符串確定為所述子字符串。

進(jìn)一步的,如圖4所示,裝置進(jìn)一步包括:

第一統(tǒng)計單元36,用于在獲取候選新詞以及候選新詞的子字符串之后,統(tǒng)計候選新詞的左詞綴個數(shù),左詞綴個數(shù)為在有效語料中候選新詞左側(cè)出現(xiàn)的不同的字符的個數(shù);

第二統(tǒng)計單元37,用于統(tǒng)計候選新詞的右詞綴個數(shù),右詞綴個數(shù)為在有效語料中候選新詞右側(cè)出現(xiàn)的不同的字符的個數(shù);

第三統(tǒng)計單元38,用于分別統(tǒng)計候選新詞的各子字符串的左詞綴個數(shù)和右詞綴個數(shù)。

進(jìn)一步的,第一計算單元32用于:

根據(jù)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)以及各子字符串的左詞綴個數(shù)和右詞綴個數(shù)計算詞內(nèi)統(tǒng)計信息值。

進(jìn)一步的,通過下述公式計算第一計算單元32中的詞內(nèi)統(tǒng)計信息值:

其中,f1為詞內(nèi)統(tǒng)計信息值、f(si)為與各子字符串對應(yīng)的子字符串統(tǒng)計信息值、l(s)為候選新詞的字符長度,且l(s)為大于2的正整數(shù);

當(dāng)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)中的較小值大于子字符串的左詞綴個數(shù)和右詞綴個數(shù)中的較小值時,f(si)為1;

當(dāng)候選新詞的左詞綴個數(shù)和右詞綴個數(shù)中的較小值不大于子字符串的左詞綴個數(shù)和右詞綴個數(shù)中的較小值時,f(si)為0。

進(jìn)一步的,通過下述公式計算第二計算單元33中候選新詞的詞間統(tǒng)計信息值:

f2=(pl(s)+pr(s))/(2*p(s));

其中,f2為候選新詞的詞間統(tǒng)計信息值、pl(s)和pr(s)分別為候選新詞的左詞綴個數(shù)和右詞綴個數(shù)、p(s)為候選新詞在語料或者有效語料中出現(xiàn)的頻次。

本實施例提供的新詞發(fā)現(xiàn)的裝置,能夠首先在用于發(fā)現(xiàn)新詞的語料中獲取滿足預(yù)設(shè)頻次閾值的字符串作為候選新詞,并獲取候選新詞的子字符串,然后根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和對應(yīng)的子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算候選新詞的詞內(nèi)統(tǒng)計信息值,并根據(jù)候選新詞的左右詞綴的統(tǒng)計信息和候選新詞在語料中出現(xiàn)的頻次,計算候選新詞的詞間統(tǒng)計信息值,最后根據(jù)得到的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算候選新詞的成詞得分,并且根據(jù)成詞得分確定候選新詞是否為新詞。與現(xiàn)有技術(shù)相比,本實施例能夠通過在語料中選出候選新詞后,計算候選新詞的詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值,然后根據(jù)兩個值計算成詞得分,進(jìn)而來判斷候選新詞是否可以成為新詞。另外在詞內(nèi)統(tǒng)計信息值和詞間統(tǒng)計信息值計算時使用的是候選新詞的左右詞綴以及候選新詞的子字符串的左右詞綴的統(tǒng)計信息,這些都是候選新詞附近的統(tǒng)計信息,因此,降低了對語料的依賴性,不會造成在不同領(lǐng)域的混合語料中低頻新詞的遺漏。

所述新詞發(fā)現(xiàn)裝置包括處理器和存儲器,上述獲取單元31、第一計算單元32、第二計算單元33、第三計算單元34及確定單元35等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。

本申請還提供了一種計算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取候選新詞以及所述候選新詞的子字符串,所述候選新詞是在用于發(fā)現(xiàn)新詞的語料中出現(xiàn)的滿足預(yù)設(shè)頻次閾值的字符串;根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述子字符串的左右詞綴的統(tǒng)計信息的關(guān)系,計算所述候選新詞的詞內(nèi)統(tǒng)計信息值,所述左詞綴為字符串左側(cè)相鄰的字符,所述右詞綴為字符串右側(cè)相鄰的字符,所述詞內(nèi)統(tǒng)計信息值用于表征所述候選新詞內(nèi)部字符之間的聚合程度;根據(jù)所述候選新詞的左右詞綴的統(tǒng)計信息和所述候選新詞在所述語料中的出現(xiàn)的頻次,計算所述候選新詞的詞間統(tǒng)計信息值,所述詞間統(tǒng)計信息值用于表征所述候選新詞與所述候選新詞相鄰的字符搭配的固定程度;根據(jù)所述詞內(nèi)統(tǒng)計信息值和所述詞間統(tǒng)計信息值計算得到所述候選新詞的成詞得分;根據(jù)所述成詞得分確定所述候選新詞是否為新詞。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。

本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方 框中指定的功能的裝置。

這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

在一個典型的配置中,計算設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

存儲器可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。存儲器是計算機(jī)可讀介質(zhì)的示例。

計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲器(sram)、動態(tài)隨機(jī)存取存儲器(dram)、其他類型的隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。

以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范 圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
于田县| 胶州市| 孝义市| 额尔古纳市| 焦作市| 奉贤区| 武义县| 布尔津县| 台山市| 金平| 榆社县| 洪江市| 乌什县| 遵化市| 临沂市| 会理县| 梁平县| 霍州市| 莫力| 隆子县| 师宗县| 广汉市| 遂川县| 常山县| 宁陕县| 财经| 定边县| 民权县| 枣强县| 慈利县| 彝良县| 黔江区| 郎溪县| 嘉善县| 闵行区| 右玉县| 通许县| 霍邱县| 麦盖提县| 南昌县| 桂平市|