專利名稱:一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,特別涉及一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng)和方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息的發(fā)布和傳播越來越快,網(wǎng)絡(luò)新詞也隨之層出不窮。根據(jù)中國語言文字工作委員會的專家所做的統(tǒng)計,自改革開放以來20年內(nèi)平均每年產(chǎn)生800多個新詞語,而近年來,網(wǎng)絡(luò)的發(fā)達(dá)早已使新詞的產(chǎn)生速度遠(yuǎn)遠(yuǎn)超過這一數(shù)字。新詞的產(chǎn)生導(dǎo)致進(jìn)行互聯(lián)網(wǎng)信息處理時,對詞語的切分、理解和信息檢索的能力大大下降。因此如何有效地發(fā)現(xiàn)新詞,是互聯(lián)網(wǎng)信息處理領(lǐng)域的一項重要工作。因此,這里所稱的“新詞”,不僅包含傳統(tǒng)語言學(xué)上的詞語,還包括互聯(lián)網(wǎng)上最新出現(xiàn)的廣為傳頌的短語。目前的新詞發(fā)現(xiàn)方法主要有基于統(tǒng)計和基于規(guī)則兩種方法。基于統(tǒng)計的方法,首 先利用統(tǒng)計模型,根據(jù)詞語的特征信息獲取候選串,再利用詞頻等信息過濾垃圾串,該方法依賴于語料庫的完善,并且傾向于識別較短或高頻的新詞,識別新短語及低頻詞的能力較差?;谝?guī)則的方法,一般是根據(jù)新詞的語言構(gòu)詞特征或構(gòu)詞模式特點建立規(guī)則庫、領(lǐng)域詞典或模式庫,然后通過模式匹配發(fā)現(xiàn)新詞,該方法需要專業(yè)領(lǐng)域知識及語言學(xué)基礎(chǔ),可移植性和可擴(kuò)展性較差,更新速度較慢。新詞常常是對新事物或新事件的概述,在構(gòu)成方面沒有普遍統(tǒng)一的規(guī)律,常常不符合漢字的構(gòu)詞規(guī)則,并且新詞產(chǎn)生速度快,覆蓋范圍廣,語料收集工作較難同步。因此傳統(tǒng)的基于統(tǒng)計和基于規(guī)則進(jìn)行新詞識別的方法已無法滿足當(dāng)前快速、準(zhǔn)確發(fā)現(xiàn)新詞的需求。但是現(xiàn)有技術(shù)采用基于統(tǒng)計的方法,對語料庫的要求較高,容易產(chǎn)生垃圾串,且常常由于數(shù)據(jù)稀疏導(dǎo)致無法識別出低頻新詞;而基于規(guī)則的方法又依賴規(guī)則獲取的有效性和完備性,無法滿足新詞快速更新的需求。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng)和方法,以解決現(xiàn)有統(tǒng)計方法的語料庫難獲取和規(guī)則方法的不易擴(kuò)展等問題,通過使用詞串共現(xiàn)率,輔以過濾策略,該新詞自動查找系統(tǒng)和方法不需要構(gòu)建語料庫和特殊規(guī)則,能夠簡便易行地從查詢?nèi)罩局凶詣影l(fā)現(xiàn)新詞。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng),主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊;其中
查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時新詞發(fā)現(xiàn)的時間,定期的從查詢?nèi)罩局蝎@取定時間隔的這一段時間內(nèi)的查詢串及查詢頻次,并對查詢串進(jìn)行分詞處理,保存每個n-gram串及相應(yīng)的頻次;新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計相同n-gram串的頻次;根據(jù)單個詞的頻次和n-gram串的頻次計算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串;
新詞生成模塊,對候選新詞集合應(yīng)用過濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫中,從而實現(xiàn)增量式新詞發(fā)現(xiàn)。其中所述過濾和剪枝策略包括基本語言學(xué)構(gòu)詞規(guī)則策略和成詞模式過濾策略。所述基本語言學(xué)構(gòu)詞規(guī)則策略,包括字?jǐn)?shù)過濾規(guī)則,純數(shù)字字母串和日期過濾規(guī)貝U,常見輔助詞過濾規(guī)則和常見查詢搭配詞過濾規(guī)則。所述成詞模式過濾策略,包括疊詞模式過濾和四字詞的2-2模式剪枝。
—種基于查詢?nèi)罩镜男略~自動查找方法,該方法包括
A、查詢串的分詞處理步驟選取一段時間的查詢?nèi)罩?,使用查詢串及查詢頻次,刪除該查詢?nèi)罩局械钠渌畔?,并使用分詞工具對查詢串進(jìn)行切分;
B、新詞發(fā)現(xiàn)的實現(xiàn)步驟,包括詞串頻率的統(tǒng)計、詞串共現(xiàn)率計算以及父子串歸并;
C、新詞過濾的步驟,包括對生成的候選新詞集合進(jìn)行過濾,去除垃圾串。其中步驟A所述使用分詞工具對查詢串進(jìn)行切分,對于一個查詢串,分詞切分時會返回多個粒度的結(jié)果;采用分詞的最大粒度結(jié)果,以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。步驟A進(jìn)一步包括按照傳統(tǒng)語言學(xué)概念,將詞語根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞,并通過擴(kuò)展該語言學(xué)概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個詞稱為token,則n-gram 的格式為[token-1][空格][token-2]…[token-n]。其中詞串頻率統(tǒng)計,具體為統(tǒng)計1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram,t f (n-gram) >;其中,I -gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計算詞串共現(xiàn)率時需要使用,因此仍需統(tǒng)計該類詞串的詞頻并單獨保存起來;
詞串共現(xiàn)率計算,具體為使用詞串中所有詞共同出現(xiàn)的概率來表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合;所述共現(xiàn)率根據(jù)每個詞的詞頻和整個詞串的詞頻計算得到,以解決基于統(tǒng)計的方法中單純根據(jù)單個詞的詞頻篩選時,由于數(shù)據(jù)稀疏而導(dǎo)致的漏識別低頻新詞的問題;
父子串歸并,具體為遍歷獲取到的所有n-gram串,如果兩個詞串存在父子包含關(guān)系,且兩者的查詢頻率相同或相近,則從候選新詞集合中刪除子串。步驟C所述新詞過濾策略,具體為根據(jù)語言學(xué)構(gòu)詞規(guī)則統(tǒng)計及成詞模式研究獲得垃圾串過濾規(guī)則,主要包括字?jǐn)?shù)過濾規(guī)則、純數(shù)字字母串和日期過濾規(guī)則、常見輔助詞過濾規(guī)則、常見查詢詞過濾枝規(guī)則及疊詞模式過濾規(guī)則、2-2模式剪枝規(guī)則。本發(fā)明所提供的基于查詢?nèi)罩镜男略~自動查找系統(tǒng)和方法,具有以下優(yōu)點
該發(fā)明使用詞串共現(xiàn)率,輔以過濾策略的基于查詢?nèi)罩镜男略~發(fā)現(xiàn)方法,解決了基于統(tǒng)計方法中由于語料庫導(dǎo)致的垃圾串多、低頻新詞無法識別的問題,及基于規(guī)則方法中依賴規(guī)則定義而不易擴(kuò)展的問題。本發(fā)明還采用了增量式的新詞發(fā)現(xiàn)技術(shù),新詞一經(jīng)發(fā)現(xiàn),可立即加入分詞詞庫中,能夠確保新詞不被重復(fù)發(fā)現(xiàn)。本發(fā)明的新詞自動查找系統(tǒng)和方法,應(yīng)用于任意技術(shù)領(lǐng)域的查詢?nèi)罩緲颖緮?shù)據(jù)集中,尤其適用于分詞詞典擴(kuò)充及熱詞挖掘等方面的應(yīng)用。
圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動查找方法流程 圖2為本發(fā)明所述的新詞發(fā)現(xiàn)過程示意 圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動查找系統(tǒng)示意圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的方法作進(jìn)一步詳細(xì)的說明。本發(fā)明的基本思想是針對統(tǒng)計方法的語料庫難獲取和規(guī)則方法的不易擴(kuò)展等問 題,提出本發(fā)明的使用詞串共現(xiàn)率,輔以過濾策略的基于查詢?nèi)罩镜男略~自動發(fā)現(xiàn)系統(tǒng)和方法。其目的在于,達(dá)到不需構(gòu)建語料庫和特殊規(guī)則,能夠簡便易行地從查詢?nèi)罩局凶詣影l(fā)現(xiàn)新詞。本發(fā)明還實現(xiàn)了增量式新詞發(fā)現(xiàn),新詞一經(jīng)發(fā)現(xiàn),可立即加入分詞詞庫中,確保新詞不被重復(fù)發(fā)現(xiàn)。其適用于分詞詞典擴(kuò)充及熱詞挖掘等各方面應(yīng)用。新詞識別技術(shù),通常分為基于字和基于詞兩種。一般來說,基于字的新詞識別方法以單個字為基本元素,能獲取較高的召回率,而基于詞的新詞識別方法以每個詞為基本元素,具有較高的準(zhǔn)確率。隨著樣本集的增大,兩者的差距呈先大后小的趨勢,當(dāng)樣本集較為巨大時,差距可以忽略不計。然而,樣本數(shù)據(jù)集畢竟有限,因此本發(fā)明采用基于詞的方法,即先利用分詞工具對查詢串做分詞處理,再進(jìn)行新詞的識別。圖3為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動查找系統(tǒng)示意圖,如圖3所示,該基于查詢?nèi)罩镜男略~查找系統(tǒng)主要包括查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303。其中
所述查詢?nèi)罩绢A(yù)處理模塊301,用于根據(jù)設(shè)置的定時新詞發(fā)現(xiàn)的時間,定期的從查詢?nèi)罩局蝎@取定時間隔的這一段時間內(nèi)的查詢串及查詢頻次,并對查詢串進(jìn)行分詞處理,保存每個n-gram串及相應(yīng)的頻次。新詞發(fā)現(xiàn)模塊302,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計相同n-gram串的頻次;根據(jù)單個詞的頻次和n-gram串的頻次計算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串。新詞生成模塊303,對候選新詞集合進(jìn)行過濾和剪枝,去除候選新詞集合中的垃圾串,得到最終的新詞集合。將最終新詞集合導(dǎo)入分詞詞庫中,實現(xiàn)增量式新詞發(fā)現(xiàn)?;谀乘阉饕娴牟樵?nèi)罩炯?,結(jié)合附圖3所示的查詢?nèi)罩绢A(yù)處理模塊301、新詞發(fā)現(xiàn)模塊302和新詞生成模塊303,對本發(fā)明的新詞自動查找/發(fā)現(xiàn)方法作進(jìn)一步的詳細(xì)說明。圖I為本發(fā)明提供的基于查詢?nèi)罩镜男略~自動發(fā)現(xiàn)方法流程圖,如圖I所示,該方法包括如下步驟
步驟101 :查詢串的分詞處理步驟。首先根據(jù)設(shè)置的定時新詞發(fā)現(xiàn)的時間,定期的從查詢?nèi)罩局蝎@取定時間隔的這一段時間內(nèi)的查詢串及查詢頻次。使用分詞工具對查詢串進(jìn)行切分,對于一個查詢串,分詞切分時會返回多個粒度的結(jié)果,本發(fā)明采用分詞的最大粒度結(jié)果,從而保證詞串中任意詞的組合都不是已經(jīng)存在的詞。按照傳統(tǒng)語言學(xué)概念,詞語根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞等。本發(fā)明擴(kuò)展了該概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將詞串分為2-gram、3-gram、…、n-gram。詞串中的每個詞稱為 token,則 n-gram 的格式為[token-1][空格][token-2]…[token-n]。步驟102 :新詞發(fā)現(xiàn)的具體實現(xiàn)步驟。如附圖2所示,所述新詞發(fā)現(xiàn)的具體實現(xiàn)過程,主要包括步驟201 步驟203。步驟201 :串頻統(tǒng)計的步驟。雖然從查詢?nèi)罩局蝎@取的查詢串是唯一的,但是其切分后的n-gram子串卻會有所重復(fù)。串頻統(tǒng)計階段,先統(tǒng)計1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram, tf (n-gram) >。其中1-gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計算詞串共現(xiàn)率時需要使用,因此仍需統(tǒng)計該類詞串的詞頻并單獨保存起來。其數(shù)據(jù)結(jié)構(gòu)采用stl的hash_map,實現(xiàn)快速地串頻統(tǒng)計。
步驟202 :詞串共現(xiàn)率計算的步驟;使用詞串中所有詞共同出現(xiàn)的概率來表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合。基于假設(shè)如果組成詞串的所有詞經(jīng)常同時出現(xiàn),且該組合在這些詞的所有組合中出現(xiàn)的概率較高,則認(rèn)為這個詞串是一個新詞。共現(xiàn)率根據(jù)每個詞的詞頻和整個詞串的詞頻計算得到,不是單純使用詞頻閾值進(jìn)行新詞過濾,解決了基于統(tǒng)計的方法中由于數(shù)據(jù)稀疏導(dǎo)致的漏識別低頻新詞的問題。所述詞串共現(xiàn)率計算公式如下
其中,n-gram為候選新詞串,tf (n-gram)是n-gram串在查詢?nèi)罩局械牟樵冾l次,tf (token-k)是第k個詞在查詢?nèi)罩局械牟樵冾l次。步驟203 :父子串歸并的步驟。根據(jù)n-gram串的定義,高階gram串會包含低階gram串,則稱聞階gram串為父串,低階gram串為子串。若兩者的頻次相同或相近,說明低階gram串每次都是作為高階gram串的子串出現(xiàn),從未或很少單獨出現(xiàn),因此其無法單獨作為新詞,應(yīng)舍棄子串,保留父串。遍歷獲取到的所有n-gram串,如果兩個串存在父子包含關(guān)系,且兩者的出現(xiàn)頻率相同或相近,則從候選新詞集合中刪除子串。具體實現(xiàn)如下
步驟2031,遍歷n-gram集合,假設(shè)當(dāng)前n-gram的頻次是n,則輸出其每一個后綴,頻次也置為n,但為其置上特殊位,標(biāo)識其為衍生的n-gram。步驟2032,按字典序排序包含衍生n-gram的新候選n-gram集合。步驟2033,遍歷排序后的n-gram集合,讀取當(dāng)前行,如果當(dāng)前n-gram為衍生的n-gram,則從n-gram集合中刪除當(dāng)前詞串,讀取下一行詞串,假設(shè)待處理的n-gram為S。步驟2034,讀取s后續(xù)行對應(yīng)的詞串,直到第一個不是以s為前綴的n-gram結(jié)束;根據(jù)頻次比值,判斷以s為前綴的n-gram的頻次是否與s相同或相近;如果存在頻次相同或相近的父串,從初始n-gram集合中刪除S,否則保留S。步驟2035,轉(zhuǎn)步驟2033處理s的下一行詞串,直至處理完所有候選n-gram串。步驟103 :新詞過濾的步驟。該步驟對生成的候選新詞集合進(jìn)行過濾,去除垃圾串。過濾和剪枝策略分為基本語言學(xué)構(gòu)詞規(guī)則策略和成詞模式過濾策略。根據(jù)語言學(xué)構(gòu)詞規(guī)則,定義了以下幾種過濾規(guī)則
I)字?jǐn)?shù)過濾規(guī)則由于新詞一般都是概括性詞語,因此字?jǐn)?shù)不會過長,根據(jù)統(tǒng)計得知,新詞一般均在10字以內(nèi)。因此,本發(fā)明過濾掉過長的候選新詞串。2)純數(shù)字字母串和日期過濾規(guī)則一般不會出現(xiàn)單純由數(shù)字和字母組成的新詞或日期與漢字混合組成新詞的情況,如“56kv”或“2012年I月I日”,因此將純數(shù)字串或包含日期的詞串過濾掉。本發(fā)明定義了識別數(shù)字、字母和日期的正則表達(dá)式進(jìn)行過濾處理。3)常見輔助詞過濾規(guī)則有些常見輔助詞,如“的”、“了”、“是”等,雖然出現(xiàn)頻率較高,但是不應(yīng)作為新詞的詞首或詞尾。使用歷史查詢?nèi)罩緮?shù)據(jù),統(tǒng)計獲得兩個詞庫詞首過濾詞庫和詞尾過濾詞庫。若當(dāng)前詞串的詞首或詞尾分別在這兩個詞庫中,則過濾掉當(dāng)前詞串。4)常見查詢搭配詞過濾規(guī)則有些常見查詢詞,如“高清”、“全集”、“優(yōu)酷”等,雖然經(jīng)常與影視劇搭配使用,但是不應(yīng)為新詞的一部分,而將這些詞去除后的串常常為新詞。因此對包含這種類型詞的串,判斷刪除該類詞后的詞串是否存在于候選新詞集合中,若不存在,則將做刪除操作后的詞串添加到新詞集合中。詞語模式是指詞串中詞的組成方式,如“1-1-1模式”是指詞語由三個單字詞組成、 “2-1模式”是指詞語由一個兩字詞和一個單字詞組成。根據(jù)組成詞語的模式,即成詞模式過濾策略,分為如下幾類
I)疊詞模式過濾當(dāng)詞串為1-1…1-1模式時,由于共現(xiàn)率的計算方式,導(dǎo)致若詞串包含多個相同單字詞時,其共現(xiàn)率會較高,然而大部分情況下,由多個相同字重疊組成的串不應(yīng)作為詞語,因此過濾掉滿足這種條件的1-1…1-1模式串。2)四字詞的2-2模式剪枝當(dāng)四字詞由兩個二字詞組成,且其中一個二字詞為人稱代詞,如“我們”、“你們”等,應(yīng)舍棄該詞串。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng),其特征在于,主要包括查詢?nèi)罩绢A(yù)處理模塊、新詞發(fā)現(xiàn)模塊和新詞生成模塊;其中 查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時新詞發(fā)現(xiàn)的時間,定期的從查詢?nèi)罩局蝎@取定時間隔的這一段時間內(nèi)的查詢串及查詢頻次,并對查詢串進(jìn)行分詞處理,保存每個n-gram串及相應(yīng)的頻次; 新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計相同n-gram串的頻次;根據(jù)單個詞的頻次和n-gram串的頻次計算n-gram詞串的共現(xiàn)率,并選取共現(xiàn)率較高的詞串作為候選新詞集合;歸并候選新詞集合中相近頻次的父子串; 新詞生成模塊,對候選新詞集合應(yīng)用過濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。
2.將最終新詞集合導(dǎo)入分詞詞庫中,從而實現(xiàn)增量式新詞發(fā)現(xiàn)。
3.根據(jù)權(quán)利要求I所述的基于查詢?nèi)罩镜男略~自動查找系統(tǒng),其特征在于,所述過濾和剪枝策略包括基本語言學(xué)構(gòu)詞規(guī)則策略和成詞模式過濾策略。
4.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動查找系統(tǒng),其特征在于,所述基本語言學(xué)構(gòu)詞規(guī)則策略,包括字?jǐn)?shù)過濾規(guī)則,純數(shù)字字母串和日期過濾規(guī)則,常見輔助詞過濾規(guī)則和常見查詢搭配詞過濾規(guī)則。
5.根據(jù)權(quán)利要求2所述的基于查詢?nèi)罩镜男略~自動查找系統(tǒng),其特征在于,所述成詞模式過濾策略,包括疊詞模式過濾和四字詞的2-2模式剪枝。
6.一種基于查詢?nèi)罩镜男略~自動查找方法,其特征在于,該方法包括 A、查詢串的分詞處理步驟選取一段時間的查詢?nèi)罩荆褂貌樵兇安樵冾l次,刪除該查詢?nèi)罩局械钠渌畔ⅲ⑹褂梅衷~工具對查詢串進(jìn)行切分; B、新詞發(fā)現(xiàn)的實現(xiàn)步驟,包括詞串頻率的統(tǒng)計、詞串共現(xiàn)率計算以及父子串歸并; C、新詞過濾的步驟,包括對生成的候選新詞集合進(jìn)行過濾,去除垃圾串。
7.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動查找方法,其特征在于,步驟A所述使用分詞工具對查詢串進(jìn)行切分,對于一個查詢串,分詞切分時會返回多個粒度的結(jié)果;采用分詞的最大粒度結(jié)果,以保證詞串中任意詞的組合均不為已經(jīng)存在的詞。
8.根據(jù)權(quán)利要求6所述的基于查詢?nèi)罩镜男略~自動查找方法,其特征在于,步驟A進(jìn)一步包括按照傳統(tǒng)語言學(xué)概念,將詞語根據(jù)成詞字?jǐn)?shù)分為單元詞、二元詞、三元詞、四元詞和多元詞,并通過擴(kuò)展該語言學(xué)概念,根據(jù)數(shù)據(jù)串進(jìn)行分詞處理后成詞的詞數(shù),將所述詞串分為2-gram、3-gram、…、n-gram ;詞串中的每個詞稱為token,則n-gram的格式為[token-1][空格][token-2]…[token-n]。
9.根據(jù)權(quán)利要求5、6或7所述的基于查詢?nèi)罩镜男略~自動查找方法,其特征在于 詞串頻率統(tǒng)計,具體為統(tǒng)計1-gram、2-gram、3-gram、4-gram和5-gram的詞串的頻次,并將相同詞串的詞頻進(jìn)行累加,輸出為n-gram及其詞頻,表示為〈n-gram, tf (n-gram) > ;其中,1-gram的詞是已存在的詞,不需進(jìn)入候選新詞集合,但在計算詞串共現(xiàn)率時需要使用,因此仍需統(tǒng)計該類詞串的詞頻并單獨保存起來; 詞串共現(xiàn)率計算,具體為使用詞串中所有詞共同出現(xiàn)的概率來表示其組合成詞的可能性,選取共現(xiàn)率較高的詞串作為候選新詞集合;所述共現(xiàn)率根據(jù)每個詞的詞頻和整個詞串的詞頻計算得到,以解決基于統(tǒng)計的方法中單純根據(jù)單個詞的詞頻篩選時,由于數(shù)據(jù)稀疏而導(dǎo)致的漏識別低頻新詞的問題; 父子串歸并,具體為遍歷獲取到的所有n-gram串,如果兩個詞串存在父子包含關(guān)系,且兩者的查詢頻率相同或相近,則從候選新詞集合中刪除子串。
10.根據(jù)權(quán)利要求5所述的基于查詢?nèi)罩镜男略~自動查找方法,其特征在于,步驟C所述新詞過濾策略,具體為根據(jù)語言學(xué)構(gòu)詞規(guī)則統(tǒng)計及成詞模式研究獲得垃圾串過濾規(guī)則,主要包括字?jǐn)?shù)過濾規(guī)則、純數(shù)字字母串和日期過濾規(guī)則、常見輔助詞過濾規(guī)則、常見查詢詞過濾枝規(guī)則及疊詞模式過濾規(guī)則、2-2模式剪枝規(guī)則。
全文摘要
本發(fā)明公開了一種基于查詢?nèi)罩镜男略~自動查找系統(tǒng)及方法,主要包括查詢?nèi)罩绢A(yù)處理模塊,用于根據(jù)設(shè)置的定時新詞發(fā)現(xiàn)的時間,定期從查詢?nèi)罩局蝎@取定時間隔的這一段時間內(nèi)的查詢串及查詢頻次等;新詞發(fā)現(xiàn)模塊,根據(jù)所述查詢串的分詞結(jié)果,統(tǒng)計相同n-gram串的頻次;計算n-gram詞串的共現(xiàn)率;歸并候選新詞集合中相近頻次的父子串;新詞生成模塊,對候選新詞集合應(yīng)用過濾和剪枝策略,去除候選新詞集合中的垃圾串,得到最終的新詞集合。采用本發(fā)明,解決現(xiàn)有統(tǒng)計方法的語料庫難獲取和規(guī)則方法的不易擴(kuò)展等問題,通過使用詞串共現(xiàn)率,輔以過濾策略,能夠簡便易行地從查詢?nèi)罩局凶詣影l(fā)現(xiàn)新詞,將最終新詞集合導(dǎo)入分詞詞庫中,從而實現(xiàn)增量式新詞發(fā)現(xiàn)。
文檔編號G06F17/30GK102831194SQ20121027490
公開日2012年12月19日 申請日期2012年8月3日 優(yōu)先權(quán)日2012年8月3日
發(fā)明者張愛琦, 崔世起, 楊青 申請人:人民搜索網(wǎng)絡(luò)股份公司