專利名稱:一種面向有意義串挖掘的重復(fù)串提取方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計算機技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情管理方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)在傳達社情民意方面的優(yōu)勢逐步顯現(xiàn)出來。繼傳統(tǒng)的報紙、廣播、電視之后,互聯(lián)網(wǎng)已經(jīng)確立了自己第四媒體的主導(dǎo)地位,并在表達民眾心聲、反映社會輿論方面發(fā)揮極其重要的作用。網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實生活中某些問題所持的有較強影響力、傾向性的觀點和言論,是網(wǎng)民關(guān)注的熱點,是民眾討論的焦點,集中反映一個時期網(wǎng)絡(luò)輿論的中心?;ヂ?lián)網(wǎng)已經(jīng)成為中國社會各階層利益表達、情感宣泄、思想碰撞的重要輿論渠道。在這樣的背景下,如何從互聯(lián)網(wǎng)網(wǎng)頁文本中挖掘出有用信息就顯得非常重要。有意義串是具有獨立語義,緊密耦合,具有廣泛流通性的完整的語言單元。有意義串實際上就是以短語為特征,以有意義串作為特征表示在文本聚類和分類上取得了良好的效果。提取有意義串首先需要提取重復(fù)串,在重復(fù)串的基礎(chǔ)上對重復(fù)串進行深度分析便可以得到有意義串。 目前國內(nèi)在重復(fù)串的預(yù)處理研究方面取得了一些研究成果.文獻[1] [2] [3]在語料預(yù)處理中去除了停用詞以及數(shù)字標點等非單詞符號,目的是減少無用特征項對提取重復(fù)串的干擾。文獻[1] [2]在文檔之間用特定的邊界符號分隔,該邊界符號不會出現(xiàn)在任何原始文檔中,這樣可以避免出現(xiàn)重復(fù)串跨文檔的情況,因為跨越文檔邊界的字符串是沒有意義的。文獻[1] [3]將每個單詞被轉(zhuǎn)換成一個ID,這樣每個英語單詞或中文漢字都可以被作為一個單元處理,可以避免提取的重復(fù)串中會出現(xiàn)半個漢字的情況并可以縮短重復(fù)串提取的時間。文獻[1]處理的數(shù)據(jù)為許多文檔的集合,在語料預(yù)處理中將每個字符編號,然后記錄每個下標對應(yīng)字符所屬的文檔編號,在提取重復(fù)串時很容易判斷出每個重復(fù)串究竟出現(xiàn)在哪幾篇文檔中。 本發(fā)明申請涉及到的相關(guān)的公開文件包括 [1]黃玉蘭,龔才春,許洪波,程學(xué)旗.基于局部性原理的有意義串提取方法.第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議.2008-11-01 ; [2]龔才春.短文本語言計算的關(guān)鍵技術(shù)研究.中國科學(xué)院研究生院(計算技術(shù)研究所)博士論文 2008-04-01 ; [3]龔才春,賀敏,張華平,許洪波,程學(xué)旗.大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法 通信學(xué)報 2007-12-25 ; [4]胡吉祥,許洪波,劉悅,程學(xué)旗.重復(fù)串特征提取算法及其在文本聚類中的應(yīng)用 計算機工程.2007-01-20 ; [5]胡吉祥,許洪波,劉悅,王斌,程學(xué)旗.基于重復(fù)串的短文本聚類研究.全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005). 2005-08-01 ; [6]黃旭,朱艷琴,羅喜召.重復(fù)串特征提取算法在不良信息檢測中的應(yīng)用.第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議.2007-11-01 ;
4
[7]張華平,賀敏. 一 種面向互聯(lián)網(wǎng)的有意義串的挖掘方法和系 統(tǒng) 200710120755. 5. 2008-03-26 ; [8]鄒綱,劉群. 一 種中文新詞語的檢測方法及其檢測系 統(tǒng) 200410000651. 7. 2005-07-20。 通過對上述文獻的總結(jié)和分析,發(fā)現(xiàn)目前的重復(fù)串提取方法中在預(yù)處理階段存在 以下缺點1)停用詞處理不當在語料預(yù)處理階段中去除停用詞會破壞語料的整體結(jié)構(gòu), 導(dǎo)致提取的重復(fù)串不準確以及提取重復(fù)串上下文時也不準確;2)對重復(fù)串的長度沒有限 制如果提取的重復(fù)串長度過長,會導(dǎo)致提取的特征過于冗余和稠密,語義過于分散;3)重 復(fù)串的邊界界定不清某些提取的重復(fù)串可能會跨越完整的語義單元,跨越標點符號以及 句子,造成提取的重復(fù)串是由不同語義單元的內(nèi)容拼湊而成,該種重復(fù)串的組成具有偶然 性,無確切語義,沒有實際價值。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠從海量語料中準確高效的提取重復(fù)串,為進一步 進行有意義串深度挖掘提供技術(shù)支持的一種面向有意義串挖掘的重復(fù)串提取方法。本發(fā)明 的目的還在于提供一種面向有意義串挖掘的重復(fù)串提取裝置。
本發(fā)明的目的是這樣實現(xiàn)的 本發(fā)明的面向有意義串挖掘的重復(fù)串提取方法包括下列步驟 步驟A:語料預(yù)處理; 步驟B:重復(fù)串提??; 步驟C:重復(fù)串修剪; 所述步驟A包括些下列步驟 步驟A1,將網(wǎng)頁中的數(shù)據(jù)去除標簽后格式化成文本形式,將文本中的特殊符號用 分隔符號代替,采用空格作為分隔符,然后將文本中出現(xiàn)的所有符號都轉(zhuǎn)化成對應(yīng)的ID表 示; 所述步驟B包括些下列步驟 步驟Bl,從文本中提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾
值和長度小于閾值的重復(fù)串; 所述步驟C包括些下列步驟 步驟C1,對于長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別將該串
分割成若干子串;對于含有空格的重復(fù)串,以空格為分隔符號把該串分割成若干子串;同
時對重復(fù)串進行去停用詞處理等其他修剪工作。 所述步驟A 1包括些下列步驟 步驟A11,去除網(wǎng)頁標簽,提取網(wǎng)頁中的正文; 步驟A12,將網(wǎng)頁編碼轉(zhuǎn)化成GB2312格式編碼; 步驟A13,根據(jù)GB2312的編碼格式保留文本中出現(xiàn)的漢字、英文、數(shù)字符號,將其 他符號用空格符代替。 步驟A14,去掉文本中首尾出現(xiàn)的空格;若文本中連續(xù)出現(xiàn)空格,則只保留一個空 格;
步驟A15,將文本中的漢字、英文、數(shù)字、空格符號分別轉(zhuǎn)化成對應(yīng)的ID值,ID值為
其ASCII碼的整數(shù)值。 所述步驟Bl包括些下列步驟 步驟Bll,提取該文本的重復(fù)串,記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù),刪除 頻次低于閾值和長度小于閾值的重復(fù)串; 步驟B12,將重復(fù)串的ID組合形式轉(zhuǎn)換成相對應(yīng)的字符組合形式。
所述步驟Cl包括下列步驟 步驟C11,刪除重復(fù)串中含有的停用詞,如果刪除后重復(fù)串的長度過短,則刪除該 重復(fù)串; 步驟C12,去掉重復(fù)串首尾空格,并過濾掉長度小于閾值的重復(fù)串;
步驟C13,去除粘性字符; 步驟C14,以空格為分隔符號,把含有空格的重復(fù)串分割成若干子串,如果子串已 經(jīng)在重復(fù)串集合中出現(xiàn)過,則刪除該子串;否則統(tǒng)計該子串出現(xiàn)的頻次,并將該子串加入到 重復(fù)串集合中; 步驟C15,如果重復(fù)串的長度小于閾值,則轉(zhuǎn)入步驟C18 ;否則轉(zhuǎn)入步驟16 ;
步驟C16,對長度大于閾值的重復(fù)串進行分詞,并對分詞后的詞性結(jié)果進行掃描, 如果前一個詞的詞性是名詞詞性,后一個詞的詞性是非名詞詞性,則把此重復(fù)串拆分成兩 個子串,其中把該名詞、包括該名詞本身之前的串當做一個子串,把該名詞、不包括該名詞 之后的串當做另一個子串; 步驟C17,以分詞后詞性結(jié)果中的特殊詞性為分隔符號對步驟C15分割出的子串 再次進行分割; 步驟C18,刪除不包含漢字的重復(fù)串,并對重復(fù)串進行去重工作。 本發(fā)明還提供了一種面向有意義串挖掘的重復(fù)串提取裝置包括 語料預(yù)處理模塊、重復(fù)串發(fā)現(xiàn)模塊和重復(fù)串修剪模塊連接組成, 語料預(yù)處理模塊,將網(wǎng)頁中的數(shù)據(jù)格式化成文本,把文本中的特殊符號用空格代
替,然后將文本中出現(xiàn)的所有符號都轉(zhuǎn)化成對應(yīng)的ID表示; 重復(fù)串發(fā)現(xiàn)模塊,從文本流中提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉 頻次低于閾值和長度小于閾值的重復(fù)串; 重復(fù)串修剪模塊,對長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別 將該串分割成若干子串。對于含有空格的重復(fù)串,以空格為分隔符號把其分割成若干子串; 同時對重復(fù)串進行去停用詞等其他修剪工作,進一步對重復(fù)串進行篩選和修剪;在進行長 串分析和空格分析后,刪除不包含漢字的重復(fù)串對重復(fù)串去停用詞以及對重復(fù)串去重等相 關(guān)工作。 所述重復(fù)串發(fā)現(xiàn)算法可以使N元遞增分步算法,以及后綴索引算法(包括后綴樹 算法,后綴數(shù)組算法)等。本發(fā)明采用后綴數(shù)組算法來發(fā)現(xiàn)重復(fù)串。 本發(fā)明的有益效果是本發(fā)明的面向有意義串挖掘的重復(fù)串提取方法和系統(tǒng),從 互聯(lián)網(wǎng)中下載網(wǎng)頁,然后經(jīng)過語料預(yù)處理,重復(fù)串發(fā)現(xiàn),重復(fù)串修剪三個階段達到挖掘出互 聯(lián)網(wǎng)中的重復(fù)串的目的,在重復(fù)串發(fā)現(xiàn)的基礎(chǔ)上能夠繼續(xù)挖掘出有意義串并為輿情監(jiān)管系 統(tǒng)服務(wù)。本發(fā)明沒有在語料預(yù)處理階段去除停用詞而在重復(fù)串修剪階段去除停用詞的目的
6是因為去掉停用詞后提取的重復(fù)串可能會不準確,而且在對重復(fù)串進行深度挖掘出有意義
串的過程中需要保存該重復(fù)串的上下文,去掉停用詞可能會破壞重復(fù)串的上下文。語料預(yù)
處理和重復(fù)串修剪階段中的空格分析可以很好的限制所提取的串的有效范圍,能夠使重復(fù)
串不跨越完整的語義單元,不跨越標點,句子,段落,提高了重復(fù)串的準確性。重復(fù)串修剪階
段的長串分析能夠有效地減少重復(fù)串的長度,避免了長串在語義上過于冗余拖沓。 本發(fā)明提取的重復(fù)串可經(jīng)過進一步深度分析以得到有意義串,可以廣泛應(yīng)用于網(wǎng)
絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
圖1本發(fā)明面向有意義串挖掘的重復(fù)串提取方法過程示意圖;
圖2本發(fā)明面向有意義串挖掘的重復(fù)串提取過程流程圖;
圖3本發(fā)表面向有意義串挖掘的重復(fù)串提取裝置示意圖。
具體實施例方式
為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,下面結(jié)合附圖及實施例,對
本發(fā)明的一種面向有意義串挖掘的重復(fù)串的提取方法和系統(tǒng)進行詳細說明。 本發(fā)明將從互聯(lián)網(wǎng)中存在的大量網(wǎng)頁語料中挖掘出重復(fù)串。重復(fù)串是文本中重復(fù)
出現(xiàn)的語言單元。重復(fù)串的粒度比分詞分出的詞的粒度要大,重復(fù)串會可能會是某個詞,也
可能是某些詞的組合。 本發(fā)明提出的重復(fù)串挖掘方法過程分為語料預(yù)處理,重復(fù)串發(fā)現(xiàn),重復(fù)串修剪等 三個階段,整個過程如圖1所示,包括以下步驟 步驟S1,將網(wǎng)頁中的數(shù)據(jù)格式化成文本,并把文本中的特殊符號用分隔符號代替, 將文本中出現(xiàn)的全部符號轉(zhuǎn)化成該符號對應(yīng)的ID表示。 步驟S2,對步驟S1形成的文本集合提取重復(fù)串,記錄重復(fù)串內(nèi)容及其出現(xiàn)的頻 次,刪除頻次低于閾值和長度小于閾值的重復(fù)串。 步驟S3,對長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別將其分割 成若干子串。對于含有空格的重復(fù)串,以空格為分隔符號將其分割成若干子串。同時進行 重復(fù)串去停用詞等處理,進一步實現(xiàn)對重復(fù)串的篩選和修剪。 本發(fā)明主要使用了兩個標準來衡量。首先,本發(fā)明在語料預(yù)處理階段中在文本語 料中加入分隔符號(即空格),在提取完重復(fù)串之后如果發(fā)現(xiàn)提取的重復(fù)串中包含空格的 話,則以空格為分隔符把該重復(fù)串拆分成若干子串。 其次,本發(fā)明還要判斷一個串是否是長串,如果是長串的話,對該長串進行分詞處 理。然后根據(jù)分詞結(jié)果中名詞詞性出現(xiàn)的位置對該長串進行一次分割,將該長串拆分成若 干子串。最后根據(jù)分詞結(jié)果中特殊詞性出現(xiàn)位置對上次分割后的結(jié)果進行二次分割,繼續(xù) 拆分子串。 下面詳細說明步驟S1中,將網(wǎng)頁中的數(shù)據(jù)格式化成文本,并把文本中的特殊符號 用分隔符號代替,將文本中出現(xiàn)的全部符號轉(zhuǎn)化成符號對應(yīng)的ID表示的過程。
將從互聯(lián)網(wǎng)中下載的網(wǎng)頁去除網(wǎng)頁標簽,并提取網(wǎng)頁中的正文。將所有網(wǎng)頁文檔 合并成一個偽文檔,網(wǎng)頁文檔之間用一個空格分隔。偽文檔不是一篇具體網(wǎng)頁內(nèi)容形成的
7文檔,而是所有網(wǎng)頁內(nèi)容合并在一起形成的文檔。將合并后的偽文檔中的編碼格式轉(zhuǎn)化成 GB2312格式,逐字掃描該偽文檔,只保留漢字,空格,英文和數(shù)字等符號,把其余符號(包括 標點符號,美元符號等)都用空格代替。最后再將偽文檔中所有符號轉(zhuǎn)化成對應(yīng)的ID表示, 即相應(yīng)的ASCII碼值的整數(shù)值。 把除漢字、英文、數(shù)字之外的符號用空格代替,目的是在重復(fù)串的修剪階段會以空
格為分隔符號對該重復(fù)串進行拆分,以保證提取的重復(fù)串不會跨越完整語義單元以及跨越
標點符號、句子、文本,提高了重復(fù)串的語義完整性,減少了無關(guān)的重復(fù)串的輸出。 把文本中的漢字、數(shù)字、空格、字母轉(zhuǎn)化成對應(yīng)的ID,目的是利用ID表示能夠大大
縮短重復(fù)串提取的時間,并且能夠有效避免提取的重復(fù)串中會出現(xiàn)半個漢字的情況。 通過實驗驗證,選擇在語料預(yù)處理方面保留數(shù)字和英文,這樣能保證包含英文和
數(shù)字的重復(fù)串的信息能夠提取完整。例如文檔中含有"AC米蘭"這個重復(fù)串,如果去掉英文
字母的話,則只能提取出"米蘭"這個重復(fù)串,此時無法判斷出"米蘭"這個重復(fù)串究竟說的
是一個城市還是在說一個足球倶樂部。 通過實驗驗證,在預(yù)處理階段去停用詞,會破壞文本中的結(jié)構(gòu),導(dǎo)致提取某些重復(fù) 串提取錯誤。重復(fù)串可以進一步深度分析得到有意義串,計算有意義串時需要計算重復(fù)串 的上下文,在預(yù)處理階段去停用詞還可能造成提取重復(fù)串上下文數(shù)據(jù)不準確,所以需要將 停用詞處理放在串的修剪階段。這里說的停用詞主要是漢字停用詞,不包括標點符號,字 母,數(shù)字等其他符號。例如某個文檔中有兩個句子"張三果然來自中國東北"和"張三可能 來自中國東北",其中"果然"和"可能"是停用詞。在去掉停用詞后提取的重復(fù)串為"張三 來自中國東北",實際上"張三"和"來自中國東北"這兩個串并沒有直接連在一起。計算重 復(fù)串上下文時也可能計算不準確,例如"來自中國東北"的上文本應(yīng)該是"果然"和"可能", 但是去停用詞后提取的上文卻是"張三"。 下面詳細描述步驟S2中,對文本流提取重復(fù)串,記錄重復(fù)串及其出現(xiàn)的頻次,刪 除頻次低于閾值和長度小于閾值的重復(fù)串。 目前比較成熟的計算重復(fù)串的方法有基于產(chǎn)生式文法的Sequitur算法,N元遞增 分步算法,以及后綴索引算法(包括后綴樹和后綴數(shù)組)等等。利用后綴數(shù)組計算語料中 所有子串的集合頻度和文檔頻度的算法的時間復(fù)雜度為O(NlogN),空間復(fù)雜度為O(N), N 為文本的長度。本發(fā)明實例采用的是后綴數(shù)組算法。 此時提取的重復(fù)串實際上不是字符的組合,而是ID的組合。為了在直觀上便于觀 察重復(fù)串,我們要將重復(fù)串的ID表示形式還原為重復(fù)串的字符表示形式。
下面詳細說明步驟S3中,對于長度大于閾值的重復(fù)串,利用對該串進行分詞后的 詞性類別將該串分割成若干子串;對于含有空格的重復(fù)串,以空格為分隔符號把其分割成 若干子串;同時會對重復(fù)串進行去停用詞等其他修剪工作的過程。 為了保證重復(fù)串內(nèi)部各成分之間緊密耦合,使得重復(fù)串不會出現(xiàn)跨越完整語義單 元,跨標點、跨句子、跨段落,跨文檔等情況,本發(fā)明在文本中加入分隔符號,并對分隔符號 進行處理。通過空格分析,如圖2所示,可以提高重復(fù)串的準確率,增強重復(fù)串的內(nèi)部凝固 度,減少重復(fù)串的語義冗余。 例如對于提取的重復(fù)串"日本作為戰(zhàn)敗國是不能擁有軍隊的只能有所謂的自衛(wèi) 隊",將該重復(fù)串以空格為分隔符號,把該重復(fù)串分割成四個重復(fù)串"日本作為戰(zhàn)敗國""是不能擁有軍隊的""只能有所謂的""自衛(wèi)隊"。如果分割后新生成的子串沒有出現(xiàn)在已有的 重復(fù)串集合中,則把該串加到重復(fù)串集合中。 為了避免重復(fù)串的長度過長導(dǎo)致重復(fù)串的語義分散,本發(fā)明對長度較長的重復(fù)串 先進行分詞處理,再根據(jù)分詞后的詞性類別對長度較長的重復(fù)串進行分割。這里使用的分 詞程序為中科院的分詞程序ICTCLAS。長串分析主要有兩步。 步驟L1 :首先對該長串進行分詞,然后對分詞后的詞性進行掃描,如果前一個詞 的詞性是名詞詞性(名詞詞性包括n名詞,Ng名詞性語素,nr人名,ns地名,nt機構(gòu)團體 名詞,nz專有名詞等),后一個詞的詞性是非名詞詞性,則把該長串拆分成兩個子串,其中 把該名詞(包括該名詞本身)之前的串當做一個子串,把該名詞(不包括該名詞)之后的 串當做另一個子串。步驟L1可以使名詞詞組作為一個整體被提取出來,而不會被分開。
例如對于提取的重復(fù)串為"兩國人民的根本利益"
該串的長度大于閾值,屬于長串。首先對其進行分詞,分詞結(jié)果為
兩/m 國/n 人民/n 的/u 根本/a 利益/n 由于"人民"的詞性是名詞詞性,"的"的詞性是非名詞詞性,則將"人民"之前的部 分(包括"人民")當做一個重復(fù)串,將"人民"之后的部分當做另一個重復(fù)串。長串分析第 一步分解出兩個重復(fù)串是"兩國人民"和"的根本利益"。 步驟L2 :對第一步分割出的若干子串根據(jù)某些特殊詞性為分隔符進行第二次掃 描和串的分割。這些特殊詞性包括o擬聲詞,u助詞,x非語素字,c連詞,e嘆詞,y語氣詞, P介詞等。這些詞本身沒有實在意義,只是起到對實詞的修飾和補充作用,可以起到分隔重 復(fù)串的作用。 例如對于第一步分解出的重復(fù)串 〃 的根本利益〃 ,由于"的"的詞性屬于特殊詞 性中的一種,所以對該串"的根本利益"進行再次分割,分割后的子串結(jié)果為"根本利益"。
通過長串分析,"兩國人民的根本利益"這個重復(fù)串最終分解成"兩國人民"和"根 本利益"兩個重復(fù)串。 為了進一步修剪和篩選重復(fù)串,還要對重復(fù)串做去停用詞分析,去無漢字串分析,
去重分析。這里說的停用詞主要是雙字以上的停用詞,例如對于重復(fù)串"不管美軍",由于
"不管"這個重復(fù)串在停用詞表里,在去停用詞后,這個重復(fù)串被修剪為"美軍"。去停用詞
工作能夠有效避免由無實義特征所引起的重復(fù)串語義冗余和語義偏移問題。 停用詞表可以采用基于統(tǒng)計學(xué)和語言學(xué)的方法選取生成。由于其不是本發(fā)明的發(fā)
明點,因此在本發(fā)明中不再一一詳細描述。 較佳的還會進行去黏性字符分析,例如"的花朵"中的"的"字就屬于黏性字符,黏 性字符本身沒有實際的語言意義,黏性字符并不對重復(fù)串的語義造成影響,應(yīng)該考慮去掉 黏性字符。 經(jīng)過這一系列步驟,還沒有被過濾掉的重復(fù)串確定為最終的重復(fù)串。將這些重復(fù) 串和重復(fù)串的頻次輸出,過程結(jié)束。 為了驗證本發(fā)明的有效性,我們搭建了典型應(yīng)用環(huán)境。實驗采用AMD0PTER0N 2G 的曙光服務(wù)器,操作系統(tǒng)為2. 6. 16. 19內(nèi)核的Li皿x企業(yè)版。利用輿情系統(tǒng)收集到的來自 新浪,中華網(wǎng),網(wǎng)易,騰訊等六大論壇和各個新聞網(wǎng)頁收集到的1萬多網(wǎng)頁,作為測試數(shù)據(jù) 的原始網(wǎng)頁的一部分。經(jīng)過格式化文本最終的大小為12. 3MB。經(jīng)觀察,用本發(fā)明方法提取的重復(fù)串特征數(shù)量與直接進行重復(fù)串提取相比較而言兩者數(shù)量相差在1%左右。本發(fā)明提 取的重復(fù)串既能保證提取的重復(fù)串在維持原有語義的基礎(chǔ)上長度不會過長,又能保證提取 的重復(fù)串嚴格控制在句子以及完整的語義單元內(nèi)部。 與所述面向有意義串挖掘的重復(fù)串提取方法相對應(yīng),本發(fā)明還提供一種面向有意 義串挖掘的重復(fù)串提取系統(tǒng),如圖3所示,其包括 語料預(yù)處理模塊,將網(wǎng)頁中的數(shù)據(jù)格式化成文本,并把文本中的特殊符號用分隔 符號代替,將文本中出現(xiàn)的全部符號轉(zhuǎn)化成對應(yīng)的ID表示。 重復(fù)串發(fā)現(xiàn)模塊,對文本流提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻 次低于閾值和長度小于閾值的重復(fù)串。 重復(fù)串修剪模塊,對長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別
將該串分割成若干子串。對于含有空格的重復(fù)串,以空格為分隔符號把其分割成若干子串。
同時對重復(fù)串進行去停用詞等其他工作,進一步對重復(fù)串進行篩選和修剪。 本發(fā)明的面向有意義串挖掘的重復(fù)串提取系統(tǒng),采用與面向有意義串挖掘的重復(fù)
串提取方法相同的過程工作,因此,在本發(fā)明實施例中,不再對該系統(tǒng)進行重復(fù)描述。 以上對本發(fā)明的具體實施例進行了描述和說明,這些實施例應(yīng)被認為其只是實例
性的,并不用于對本發(fā)明進行限制,本發(fā)明應(yīng)根據(jù)所附的權(quán)利要求進行解釋。
10
權(quán)利要求
一種面向有意義串挖掘的重復(fù)串提取方法,包括下列步驟步驟A語料預(yù)處理;步驟B重復(fù)串提??;步驟C重復(fù)串修剪;其特征是所述步驟A包括些下列步驟步驟A1,將網(wǎng)頁中的數(shù)據(jù)去除標簽后格式化成文本形式,將文本中的特殊符號用分隔符號代替,采用空格作為分隔符,然后將文本中出現(xiàn)的所有符號都轉(zhuǎn)化成對應(yīng)的ID表示;所述步驟B包括些下列步驟步驟B1,從文本中提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值和長度小于閾值的重復(fù)串;所述步驟C包括些下列步驟步驟C1,對于長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別將該串分割成若干子串;對于含有空格的重復(fù)串,以空格為分隔符號把該串分割成若干子串;同時對重復(fù)串進行去停用詞處理等其他修剪工作。
2. 根據(jù)權(quán)利要求1所述的一種面向有意義串挖掘的重復(fù)串提取方法,其特征是所述步驟Al包括些下列步驟步驟A11,去除網(wǎng)頁標簽,提取網(wǎng)頁中的正文;步驟A12,將網(wǎng)頁編碼轉(zhuǎn)化成GB2312格式編碼;步驟A13,根據(jù)GB2312的編碼格式保留文本中出現(xiàn)的漢字、英文、數(shù)字符號,將其他符號用空格符代替;步驟A14,去掉文本中首尾出現(xiàn)的空格;若文本中連續(xù)出現(xiàn)空格,則只保留一個空格;步驟A15,將文本中的漢字、英文、數(shù)字、空格符號分別轉(zhuǎn)化成對應(yīng)的ID值,ID值為其ASCII碼的整數(shù)值。
3. 根據(jù)權(quán)利要求1或2所述的一種面向有意義串挖掘的重復(fù)串提取方法,其特征是所述步驟B1包括些下列步驟步驟B11,提取該文本的重復(fù)串,記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次數(shù),刪除頻次低于閾值和長度小于閾值的重復(fù)串;步驟B12,將重復(fù)串的ID組合形式轉(zhuǎn)換成相對應(yīng)的字符組合形式。
4. 根據(jù)權(quán)利要求1或2所述的一種面向有意義串挖掘的重復(fù)串提取方法,其特征是所述步驟Cl包括下列步驟步驟C11,刪除重復(fù)串中含有的停用詞,如果刪除后重復(fù)串的長度過短,則刪除該重復(fù)串;步驟C12,去掉重復(fù)串首尾空格,并過濾掉長度小于閾值的重復(fù)串;步驟C13,去除粘性字符;步驟C14,以空格為分隔符號,把含有空格的重復(fù)串分割成若干子串,如果子串已經(jīng)在重復(fù)串集合中出現(xiàn)過,則刪除該子串;否則統(tǒng)計該子串出現(xiàn)的頻次,并將該子串加入到重復(fù)串集合中;步驟C15,如果重復(fù)串的長度小于閾值,則轉(zhuǎn)入步驟C18 ;否則轉(zhuǎn)入步驟16 ;步驟C16,對長度大于閾值的重復(fù)串進行分詞,并對分詞后的詞性結(jié)果進行掃描,如果前一個詞的詞性是名詞詞性,后一個詞的詞性是非名詞詞性,則把此重復(fù)串拆分成兩個子串,其中把該名詞、包括該名詞本身之前的串當做一個子串,把該名詞、不包括該名詞之后的串當做另一個子串;步驟C17,以分詞后詞性結(jié)果中的特殊詞性為分隔符號對步驟C15分割出的子串再次進行分割;步驟C18,刪除不包含漢字的重復(fù)串,并對重復(fù)串進行去重工作。
5. 根據(jù)權(quán)利要求3所述的一種面向有意義串挖掘的重復(fù)串提取方法,其特征是所述步驟C1包括下列步驟步驟C11,刪除重復(fù)串中含有的停用詞,如果刪除后重復(fù)串的長度過短,則刪除該重復(fù)串;步驟C12,去掉重復(fù)串首尾空格,并過濾掉長度小于閾值的重復(fù)串;步驟C13,去除粘性字符;步驟C14,以空格為分隔符號,把含有空格的重復(fù)串分割成若干子串,如果子串已經(jīng)在重復(fù)串集合中出現(xiàn)過,則刪除該子串;否則統(tǒng)計該子串出現(xiàn)的頻次,并將該子串加入到重復(fù)串集合中;步驟C15,如果重復(fù)串的長度小于閾值,則轉(zhuǎn)入步驟C18 ;否則轉(zhuǎn)入步驟16 ;步驟C16,對長度大于閾值的重復(fù)串進行分詞,并對分詞后的詞性結(jié)果進行掃描,如果前一個詞的詞性是名詞詞性,后一個詞的詞性是非名詞詞性,則把此重復(fù)串拆分成兩個子串,其中把該名詞、包括該名詞本身之前的串當做一個子串,把該名詞、不包括該名詞之后的串當做另一個子串;步驟C17,以分詞后詞性結(jié)果中的特殊詞性為分隔符號對步驟C15分割出的子串再次進行分割;步驟C18,刪除不包含漢字的重復(fù)串,并對重復(fù)串進行去重工作。
6. —種面向有意義串挖掘的重復(fù)串提取裝置,由語料預(yù)處理模塊、重復(fù)串發(fā)現(xiàn)模塊和重復(fù)串修剪模塊連接組成,其特征是語料預(yù)處理模塊,將網(wǎng)頁中的數(shù)據(jù)格式化成文本,把文本中的特殊符號用空格代替,然后將文本中出現(xiàn)的所有符號都轉(zhuǎn)化成對應(yīng)的ID表示;重復(fù)串發(fā)現(xiàn)模塊,從文本流中提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過濾掉頻次低于閾值和長度小于閾值的重復(fù)串;重復(fù)串修剪模塊,對長度大于閾值的重復(fù)串,利用對該串進行分詞后的詞性類別將該串分割成若干子串。對于含有空格的重復(fù)串,以空格為分隔符號把其分割成若干子串;同時對重復(fù)串進行去停用詞等其他修剪工作,進一步對重復(fù)串進行篩選和修剪;在進行長串分析和空格分析后,刪除不包含漢字的重復(fù)串對重復(fù)串去停用詞以及對重復(fù)串去重等相關(guān)工作。
全文摘要
本發(fā)明提供的是一種面向有意義串挖掘的重復(fù)串提取方法及裝置。方法包括下列步驟步驟A語料預(yù)處理;步驟B重復(fù)串提??;步驟C重復(fù)串修剪。裝置由語料預(yù)處理模塊、重復(fù)串發(fā)現(xiàn)模塊和重復(fù)串修剪模塊連接組成。本發(fā)明提取的重復(fù)串可經(jīng)過進一步深度分析以得到有意義串,可以廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
文檔編號G06F17/30GK101794308SQ20101011730
公開日2010年8月4日 申請日期2010年3月4日 優(yōu)先權(quán)日2010年3月4日
發(fā)明者楊武, 王巍, 苘大鵬, 董紅臣 申請人:哈爾濱工程大學(xué)