本發(fā)明涉及自然語言處理領域,特別是涉及一種領域詞典的生成方法及裝置。
背景技術:
:在自然語言處理領域中,領域詞典的構建是最基本的任務之一,一份高質量的領域詞典對于信息檢索、文檔分類等高層自然語言處理任務具有很大幫助。在領域詞典的構建過程中,領域詞的自動識別和生成具有很大的難度,主要表現(xiàn)為不屬于領域詞的詞語被錯誤的判別成領域詞并添加至領域詞典中;或者應當為領域詞的詞語未被識別出來,導致其未被添加至領域詞典中。在使用傳統(tǒng)方法構建領域詞典的過程中發(fā)明人發(fā)現(xiàn):過去對于領域詞典的構建僅依賴于領域語料,但所做的統(tǒng)計量無外乎詞頻(termfrequency,簡稱TF)或詞頻逆向文件頻率(termfrequency-inversedocumentfrequency,簡稱TF-IDF)等,無法將高頻的非領域詞過濾掉,導致領域詞典的準確度不高。技術實現(xiàn)要素:有鑒于此,本發(fā)明提出了一種領域詞典的生成方法及裝置,主要目的在于解決領域詞典的構建過程中高頻非領域詞無法識別的問題。依據(jù)本發(fā)明的第一個方面,本發(fā)明提供了一種領域詞典的生成方法,包括:獲取通用語料,從通用語料中得到領域語料;對通用語料及領域語料進行中文分詞得到候選詞;統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù);根據(jù)每一個候選詞在所述通用語料中的統(tǒng)計數(shù)據(jù)以及在所述領域語料中的統(tǒng)計數(shù)據(jù),計算所述每一個候選詞的卡方統(tǒng)計量,獲得所述每一個候 選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。依據(jù)本發(fā)明的第二個方面,本發(fā)明提供了一種領域詞典的生成裝置,包括:獲取單元,用于獲取通用語料,從通用語料中得到領域語料;處理單元,用于對獲取單元獲取的通用語料及領域語料進行中文分詞得到候選詞;統(tǒng)計單元,用于統(tǒng)計處理單元得到的每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù);計算單元,用于根據(jù)統(tǒng)計單元得到的每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。借由上述技術方案,本發(fā)明實施例提供的領域詞典的生成方法及裝置,能夠獲取通用語料并從中得到領域語料,對通用語料及領域語料進行中文分詞得到候選詞,分別統(tǒng)計每一個候選詞在通用語料中以及在領域語料中的統(tǒng)計數(shù)據(jù),根據(jù)每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。與現(xiàn)有技術中構建領域詞典時僅僅依賴領域語料,對詞頻或詞頻逆向文件頻率進行統(tǒng)計,無法將高頻的非領域詞過濾掉的缺點相比,本發(fā)明在領域語料的基礎上增加了非領域語料的對照集,并使用了新的統(tǒng)計量指標卡方統(tǒng)計量來衡量候選詞對區(qū)分文檔屬于領域語料與否的貢獻程度,從而很好的對高頻非領域詞進行識別和過濾。上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和 其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。附圖說明通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了本發(fā)明實施例提供的一種領域詞典的生成方法的流程圖;圖2示出了本發(fā)明實施例提供的一種領域詞典的生成裝置的組成框圖;圖3示出了本發(fā)明實施例提供的一種領域詞典的生成裝置的組成框圖。具體實施方式下面將參照附圖更加詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。在傳統(tǒng)的構建領域詞典的過程中,由于僅僅依賴于領域語料對候選詞基于詞頻或詞頻逆向文件頻率進行統(tǒng)計,當一些高頻的非領域詞出現(xiàn)在領域語料中時,通過這種方式將無法識別出高頻的非領域詞,會將高頻的非領域詞誤認為領域詞而添加在領域詞典中。為了解決傳統(tǒng)的方式構建領域詞典時高頻的非領域詞無法識別的問題,本發(fā)明實施例提供了一種領域詞典的生成方法,如圖1所示,該方法包括:101、獲取通用語料,從通用語料中得到領域語料。通常,在統(tǒng)計自然語言處理中實際上不可能觀測到大規(guī)模的語言實例,所以,人們簡單的用文本作為替代,并把文本中的上下文關系作為現(xiàn)實世界中語言的上下文關系的替代品,一個文本集合被稱為一個語料庫,當有幾個這樣的文本集合時,稱之為語料庫集合。在本實施例中,所謂的通用語料和領域語料是相對關系而非絕對關系,通用語料是相對于領域語料的一層抽象或者上位概念,并非一定是大而全的一套語料。例如,如果本發(fā) 明實施例需要構建一套體育領域詞典,則需要大而全的一套通用語料和體育領域語料來共同完成;若只要構建一套網(wǎng)球領域詞典,則體育領域語料應被視為通用語料,再結合網(wǎng)球領域語料進行詞典的構建。因此,本實施例獲取通用語料的方式有多種,需要根據(jù)構建的詞典所屬的領域來相應的獲取通用語料,并從通用語料中得到領域語料。在實際應用過程中,可以通過下載或購買語料庫,從而得到通用語料和領域語料;同時,Web語料以其大規(guī)模性、易獲得性和整體的領域無關性而成為通用語料獲取的一個來源,因此可以從互聯(lián)網(wǎng)上獲取通用語料,并根據(jù)網(wǎng)站對頁面的分類標記得到領域語料。上述方式只是本實施例的示意,并不對本發(fā)明獲取通用語料和領域語料進行限制,其他方式也可用于本發(fā)明中來獲取通用語料和領域語料。102、對通用語料及領域語料進行中文分詞得到候選詞。在本發(fā)明實施例中,當步驟101得到通用語料以及領域語料后,無論是通用語料還是領域語料都要進行中文分詞。其中,中文分詞是將一個漢字序列切分成一個一個單獨的詞,分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。在實際進行中文分詞的過程中,可以使用基于字符串匹配的分詞方法、基于理解的分詞方法或者基于統(tǒng)計的分詞方法。本發(fā)明實施例為了得到準確的分詞結果,作為一種可選的實施方式,可以綜合以上不同的分詞方法對步驟101獲取的通用語料和領域語料進行中文分詞,得到完備的候選詞。103、統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù)。當在步驟102中得到候選詞后,由于通用語料中的一部分文檔作為領域語料,那么其他部分文檔則作為非領域語料。對于一個候選詞來說,若其出現(xiàn)的文檔大多數(shù)是領域文檔,且其未出現(xiàn)的文檔大多數(shù)是非領域文檔,那么該候選詞對于區(qū)分文檔是否屬于領域語料有很大的幫助,說明該候選詞可能是領域詞。反之,若某一候選詞存在于領域文檔和非領域文檔的可能性相當,那么認為該候選詞對于區(qū)分文檔是否屬于領域語料沒有什么幫助,說明該候選詞更可能是非領域詞。因此,步驟103需要統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),本實施例中的統(tǒng)計數(shù)據(jù)也就是每個候選詞在領域文檔集合和非領域文檔集合中出現(xiàn)與未出現(xiàn)的文檔數(shù)。其中,對于某個候選詞在某篇文檔中出現(xiàn)多次的情況,則該文檔只被記錄一次,不需重復計數(shù)。104、根據(jù)每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞。在步驟104中結合步驟103的統(tǒng)計數(shù)據(jù),根據(jù)得到的每一個候選詞的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,得到每一個候選詞的得分,該得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度,將得分與設定的條件進行比較后,保留符合條件的候選詞作為領域詞典的領域詞。其中,候選詞的卡方統(tǒng)計量得分越高,表示候選詞越傾向于出現(xiàn)在領域語料內(nèi)且越不傾向于出現(xiàn)在非領域語料內(nèi)。本實施例設定的用于篩選候選詞得到領域詞的條件,即為接受候選詞屬于領域詞的臨界限制,該臨界限制可以由一個或多個條件共同約束,滿足全部條件的候選詞即可作為領域詞添加到領域詞典中。在本實施例中,設定的條件可以有一個,當然也可以設定多個條件共同篩選候選詞。本發(fā)明實施例提供的領域詞典的生成方法,能夠獲取通用語料并從中得到領域語料,對通用語料及領域語料進行中文分詞得到候選詞,分別統(tǒng)計每一個候選詞在通用語料中以及在領域語料中的統(tǒng)計數(shù)據(jù),根據(jù)每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。與現(xiàn)有技術中構建領域詞典時僅僅依賴領域語料,對詞頻或詞頻逆向文件頻率進行統(tǒng)計,無法將高頻的非領域詞過濾掉的缺點相比,本發(fā)明在領域語料的基礎上增加了非領域語料的對照集,并使用了新的統(tǒng)計量指標卡方統(tǒng)計量來衡量候選 詞對區(qū)分文檔屬于領域語料與否的貢獻程度,從而很好的對高頻非領域詞進行識別和過濾。進一步的,為了更好的對上述圖1所示的方法進行理解,作為對上述實施方式的細化和擴展,本發(fā)明實施例將針對圖1中的步驟進行詳細說明。在通過本發(fā)明的方法構建領域詞典時,可以基于網(wǎng)絡爬蟲工具從互聯(lián)網(wǎng)上抓取通用語料,通常是從網(wǎng)站的某個頁面(一般是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止,用這種方式獲取到的通用語料往往大而全。同時,獲取到的通用語料中,網(wǎng)頁文檔都帶有確定語料所屬的具體領域的標簽,也就是文檔的分類信息,根據(jù)網(wǎng)頁文檔的標簽可以從通用語料中得到需要的領域語料。例如,可以通過網(wǎng)絡爬蟲工具從門戶網(wǎng)站的新聞頁面進行抓取,新聞頁面內(nèi)的所有文檔即構成了通用語料,若需要構建體育領域詞典,則新聞頁面中的體育頻道內(nèi)的文檔即構成了領域語料,根據(jù)網(wǎng)頁頁面所屬的分類信息即可從通用語料中得到領域語料。當通過網(wǎng)絡爬蟲工具從網(wǎng)絡上獲取到通用語料,并根據(jù)頁面所屬的分類信息得到領域語料后,就需要對通用語料和領域語料進行中文分詞得到候選詞。在進行分詞的過程中,可以將通用語料及領域語料的文檔切分為若干個詞語按順序排列的候選詞串,得到多個候選詞。作為一種可選的實施方式,本實施例提供了一種基于字符匹配原理的方法對通用語料及領域語料進行中文分詞,將待分析的通用語料及領域語料中的漢字串與一個充分大的機器詞典中的詞條進行匹配,若在機器詞典中找到通用語料或領域語料中的某個字符串,則匹配成功,識別出一個切分詞。例如,按照匹配方向的不同,可以進行正向匹配(由左到右進行匹配)或逆向匹配(由右到左進行匹配);按照匹配長度的不同,可以進行最長匹配(識別出的切分詞較少)或最短匹配(識別出的切分詞較多);還可以將上述各種方法相互組合對通用語料及領域語料進行中文分詞以期提高切分的準確率。由于漢語單字成詞的特點,正向最短匹配和逆向最短匹配一般很少用。由于逆向匹配的匹配精度略高于正向匹配,因此本實施例可以采用正向最長匹配和 逆向最長匹配相結合對通用語料及領域語料進行中文分詞,提高切分的準確率。當對通用語料和領域語料完成中文分詞得到候選詞之后,由于在大量的候選詞中存在那些自身屬于正常詞匯,但是必然不會被作為領域詞的候選詞,這樣的候選詞如果進行后續(xù)的統(tǒng)計和計算,則會導致領域詞典構建過程中的時空開銷過大,影響領域詞典構建的效率。因此,在對通用語料和領域語料進行中文分詞之后還需要對候選詞進行預處理,也就是對大量的候選詞進行清洗,過濾掉必然不屬于領域詞的候選詞,得到領域候選詞,從而減少待統(tǒng)計的候選詞的數(shù)量,降低統(tǒng)計成本。在實際對候選詞進行過濾時,可以采用多種方式過濾掉不屬于領域詞的候選詞。例如,可以根據(jù)候選詞的詞長大小過濾掉詞長不符合條件的候選詞、將候選詞中的停用詞過濾掉以及不屬于領域詞的英文詞和數(shù)字詞過濾掉。這里需要說明的是,對候選詞進行預處理的過濾手段包括但不限于最小詞長過濾、最大詞長過濾、停用詞過濾、英文詞過濾及數(shù)字詞過濾。從理論上講,對候選詞進行預處理僅僅是對后續(xù)數(shù)據(jù)準備時的一項數(shù)據(jù)清洗工作,不進行數(shù)據(jù)清洗,直接使用帶有噪音的分詞結果,同樣可以進行后續(xù)領域詞典的構建,但是為了節(jié)約構建領域詞典的時空開銷以及提高領域詞典的構建效率,本發(fā)明實施例可以在統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù)之前,對候選詞進行預處理。在對候選詞進行預處理,過濾掉必然不屬于領域詞的候選詞得到領域候選詞之后,本實施例需要使用計數(shù)器統(tǒng)計包含某一領域候選詞的領域文檔的第一數(shù)量A、包含該領域候選詞的非領域文檔的第二數(shù)量B、不包含該領域候選詞的領域文檔的第三數(shù)量C及不包含該領域候選詞的非領域文檔的第四數(shù)量D。由于通用語料中的一部分文檔作為領域語料使用,那么其他部分的文檔則作為非領域語料?,F(xiàn)以某一個領域候選詞w為例,若領域候選詞w出現(xiàn)的文檔大部分是領域文檔,且領域候選詞w未出現(xiàn)的文檔大部分是非領域文檔,那么可以認為領域候選詞w對于區(qū)分文檔是否屬于領域文檔有很大的指向性,領域候選詞w更可能是領域詞。反之,若領域候選詞w出現(xiàn) 的文檔的數(shù)量和領域候選詞w未出現(xiàn)的文檔的數(shù)量相當,那么可以認為領域候選詞w對于區(qū)分文檔是否屬于領域文檔沒有參考價值,領域候選詞w更可能是非領域詞。這里需要說明的是,為了使領域候選詞的統(tǒng)計數(shù)據(jù)標準化,對于某個領域候選詞在一篇文檔中多次出現(xiàn)的情況,本發(fā)明實施例只對該文檔統(tǒng)計一次,不重復計數(shù),上述統(tǒng)計結果可以整理成如下表所示:領域文檔數(shù)量非領域文檔數(shù)量包含領域候選詞wAB不包含領域候選詞wCD其中,A表示包含領域候選詞w且屬于領域文檔的文檔數(shù)量;B表示包含領域候選詞w但不屬于領域文檔的文檔數(shù)量;C表示不包含領域候選詞w但屬于領域文檔的文檔數(shù)量;D表示不包含領域候選詞w且不屬于領域文檔的文檔數(shù)量。根據(jù)上述統(tǒng)計數(shù)據(jù)還可以得到以下數(shù)據(jù),即A+B+C+D表示全部文檔的數(shù)量,記為N;A+B表示包含領域候選詞w的全部文檔數(shù);C+D表示不包含領域候選詞w的全部文檔數(shù);A+C表示全部領域文檔數(shù);B+D表示全部非領域文檔數(shù)。當統(tǒng)計出關于領域候選詞的相關數(shù)據(jù)后,可以采用新的統(tǒng)計量的方式,根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算領域候選詞的卡方統(tǒng)計量,得到每一個領域候選詞的得分。本發(fā)明實施例計算領域候選詞的卡方統(tǒng)計量,得到領域候選詞的得分,用于衡量領域候選詞對于區(qū)分文檔屬于領域文檔與否的貢獻,其計算公式為:通過上述公式計算出領域候選詞的卡方統(tǒng)計量得分,領域候選詞的得分越高表示該詞越傾向于出現(xiàn)在領域語料中且越傾向于不出現(xiàn)在非領域語料中。當根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算出領域候選詞的卡方統(tǒng)計量,得到領域候選詞的得分后,需要根據(jù)設定的條件與領域候選詞的得分進行比較,保留符合條件的領域候選詞作為領域詞典的領域詞。其中,設定的條件可 以為卡方統(tǒng)計量得分的分值閾值,領域候選詞的得分不得小于該分值閾值,保留得分大于等于該分值閾值的領域候選詞作為領域詞。其中,該分值閾值是基于領域候選詞被正確的選為領域詞時的得分的歷史記錄通過計算得到,例如可以算出領域候選詞被正確的選為領域詞時的得分的歷史記錄的加權平均數(shù)作為分值閾值。在實際情況中,也會出現(xiàn)一種情況即出現(xiàn)某一領域候選詞的領域文檔和非領域文檔的數(shù)量都非常少,很可能是由于獲取的通用語料和領域語料不夠全面,此時若根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算領域候選詞的卡方統(tǒng)計量,得到該領域候選詞的得分,那么該得分無法準確衡量該領域候選詞對于區(qū)分文檔屬于領域文檔與否的貢獻程度。因此,作為另一種實施方式,可以在根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算領域候選詞的卡方統(tǒng)計量之前,當發(fā)現(xiàn)包含某一領域候選詞的領域文檔和非領域文檔的數(shù)量分別小于設定的數(shù)量閾值時,不需要進行后續(xù)的卡方統(tǒng)計量計算,直接過濾掉該領域候選詞。這里需要說明的是,用于從領域候選詞中篩選出領域詞而設定的條件,作為可以接受領域候選詞屬于領域詞的臨界限制,可以由一個條件或多個條件共同作為約束,只有滿足全部條件約束的領域候選詞才能作為領域詞添加到領域詞典中。設定的條件包括但不限于以下,如領域候選詞的卡方統(tǒng)計量得分不得小于分值閾值、領域候選詞出現(xiàn)在不同文檔中的最少文檔數(shù)量約束等。本發(fā)明實施例在統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù)之前,對中文分詞后得到的候選詞進行預處理,過濾掉不屬于領域詞的候選詞,得到領域候選詞,從而減少后續(xù)待統(tǒng)計的候選詞的數(shù)量,降低統(tǒng)計成本,節(jié)約構建領域詞典的時空開銷以及提高領域詞典的構建效率。此外,在根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算領域候選詞的卡方統(tǒng)計量之前,直接過濾掉出現(xiàn)次數(shù)過少的領域候選詞,從而提高了從領域候選詞中篩選出領域詞的準確率。進一步的,作為對上述圖1所示方法的實現(xiàn),本發(fā)明實施例提供了一種領域詞典的生成裝置,如圖2所示,該裝置包括:獲取單元21、處理單 元22、統(tǒng)計單元23及計算單元24,其中,獲取單元21,用于獲取通用語料,從通用語料中得到領域語料;處理單元22,用于對獲取單元21獲取的通用語料及領域語料進行中文分詞得到候選詞;統(tǒng)計單元23,用于統(tǒng)計處理單元22得到的每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù);計算單元24,用于根據(jù)統(tǒng)計單元23得到的每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。進一步的,獲取單元21用于基于網(wǎng)絡爬蟲工具從互聯(lián)網(wǎng)上抓取通用語料,根據(jù)頁面所屬的分類信息從通用語料中得到領域語料。進一步的,處理單元22用于將通用語料及領域語料的文檔切分為詞語按順序排列的候選詞串,得到多個候選詞。進一步的,處理單元22還用于對候選詞進行清洗,過濾掉不屬于領域詞的候選詞,得到領域候選詞。進一步的,統(tǒng)計單元23用于統(tǒng)計包含某一領域候選詞的領域文檔的數(shù)量、包含該領域候選詞的非領域文檔的數(shù)量、不包含該領域候選詞的領域文檔的數(shù)量及不包含該領域候選詞的非領域文檔的數(shù)量。進一步的,如圖3所示,該裝置還包括:過濾單元25,用于當包含某一候選詞的領域文檔和非領域文檔的數(shù)量分別小于設定的數(shù)量閾值時,直接過濾掉該候選詞。本發(fā)明實施例提供的領域詞典的生成裝置,能夠獲取通用語料并從中得到領域語料,對通用語料及領域語料進行中文分詞得到候選詞,分別統(tǒng)計每一個候選詞在通用語料中以及在領域語料中的統(tǒng)計數(shù)據(jù),根據(jù)每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù),計算每一個候選詞的卡方統(tǒng)計量,獲得每一個候選詞的得分,并將得分與設定的條件進行比較,保留符合條件的候選詞作為領域詞典的領域詞,得分用于表 征候選詞對于區(qū)分文檔屬于領域語料與否的貢獻程度。與現(xiàn)有技術中構建領域詞典時僅僅依賴領域語料,對詞頻或詞頻逆向文件頻率進行統(tǒng)計,無法將高頻的非領域詞過濾掉的缺點相比,本發(fā)明在領域語料的基礎上增加了非領域語料的對照集,并使用了新的統(tǒng)計量指標卡方統(tǒng)計量來衡量候選詞對區(qū)分文檔屬于領域語料與否的貢獻程度,從而很好的對高頻非領域詞進行識別和過濾。此外,本發(fā)明實施例在統(tǒng)計每一個候選詞在通用語料中的統(tǒng)計數(shù)據(jù)以及在領域語料中的統(tǒng)計數(shù)據(jù)之前,對中文分詞后得到的候選詞進行預處理,過濾掉不屬于領域詞的候選詞,得到領域候選詞,從而減少后續(xù)待統(tǒng)計的候選詞的數(shù)量,降低統(tǒng)計成本,節(jié)約構建領域詞典的時空開銷以及提高領域詞典的構建效率。同時,在根據(jù)領域候選詞的統(tǒng)計數(shù)據(jù)計算領域候選詞的卡方統(tǒng)計量之前,直接過濾掉出現(xiàn)次數(shù)過少的領域候選詞,從而提高了從領域候選詞中篩選出領域詞的準確率。在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述??梢岳斫獾氖牵鲜龇椒把b置中的相關特征可以相互參考。另外,上述實施例中的“第一”、“第二”等是用于區(qū)分各實施例,而并不代表各實施例的優(yōu)劣。所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中, 并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發(fā)明的單獨實施例。本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的發(fā)明名稱(如確定網(wǎng)站內(nèi)鏈接等級的裝置)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和 計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。當前第1頁1 2 3