一種變異關(guān)鍵詞的提取方法

文檔序號(hào)：6459850閱讀：264來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種變異關(guān)鍵詞的提取方法
一種變異關(guān)鍵詞的提取方法技術(shù)領(lǐng)域. 本發(fā)明涉及中文網(wǎng)絡(luò)信息處理領(lǐng)域，具體來(lái)講，涉及短信等文本信息中變異關(guān)鍵詞的提取方法。
背景技術(shù)：
當(dāng)前的中文網(wǎng)絡(luò)信息中，非法信息傳遞者為了逃過(guò)信息過(guò)濾系統(tǒng)的監(jiān)管，對(duì)敏感詞等關(guān)鍵詞進(jìn)行了變異，對(duì)電子郵件、短信息等進(jìn)行分析，關(guān)鍵詞變異主要集中在以下幾方面1) 、在關(guān)鍵詞中鍵入些無(wú)意義的與內(nèi)容無(wú)關(guān)的非漢字噪音字符，例如 "哈+爾*濱"中的"+ "禾卩"*"號(hào)；2) 、對(duì)關(guān)鍵詞進(jìn)行諧音字替換，例如"哈爾濱"的"濱"字被寫成了 "賓";3) 、對(duì)關(guān)鍵詞進(jìn)行拼音替換，例如"哈爾濱"的"濱"字被寫成了 "bin";4) 、對(duì)關(guān)鍵詞進(jìn)行形近字替換，例如"哈爾濱"的"哈"字被寫成了 "洽";5) 、利用上述手段進(jìn)行組合變換，例如"哈爾濱"被寫成了 "洽爾*賓"或者"洽爾&濱"等。對(duì)于一般的文本信息，我們可以對(duì)其進(jìn)行分詞處理，得到分詞后文本，然后用常規(guī)關(guān)鍵詞庫(kù)匹配提取。但是如果對(duì)這些關(guān)鍵詞進(jìn)行了變異，則分詞之后的文本用傳統(tǒng)的幾個(gè)連續(xù)的單字構(gòu)成的關(guān)鍵詞庫(kù)來(lái)提取是不能夠正確提取的。' 發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足，提供一種能夠提取變異關(guān)鍵詞的方法。為實(shí)現(xiàn)上述目的，本發(fā)明的變異關(guān)鍵詞的提取方法包括以下歩驟 (1)、如果分詞后文本中有非漢字噪音符號(hào)，則將分詞后文本巾的01-09區(qū)內(nèi)的特殊字符去掉，從而去除分詞后文本中的非漢字噪音符號(hào)，然后進(jìn)行下一歩，否則，直接進(jìn)行下一歩；(2) 、建立關(guān)鍵詞庫(kù)，將分詞后文本送到關(guān)鍵詞庫(kù)中進(jìn)行匹配，如果匹配成功，則提取，否則，進(jìn)行下一步；(3) 、建立一個(gè)拼音文件，將分詞后文本中拼音相同的漢字和拼音轉(zhuǎn)換成對(duì)應(yīng)的整數(shù)，從而將其從字符串轉(zhuǎn)換為文本整數(shù)串；將步驟(1)中的關(guān)鍵詞庫(kù) 中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串；比較文本整數(shù)串和關(guān)鍵詞整數(shù)串，如果相同，則提取，否則，進(jìn)行下一步；(4) 、對(duì)漢字進(jìn)行形近字分組，建立一個(gè)形近字庫(kù)；將分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹配，如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同一組，則提取，否則，不是關(guān)鍵詞。本發(fā)明通過(guò)字符區(qū)位將噪音字符去除，提取出噪音字符的變異關(guān)鍵詞；通過(guò) 拼音文件將分詞后文本和關(guān)鍵詞轉(zhuǎn)換為文本整數(shù)串，然后提取拼音替換、諧音替換的變異關(guān)鍵詞；通過(guò)建立形近字庫(kù)，比較分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字是否為同一組形近字，提取形近字替換的變異關(guān) 鍵詞，這樣實(shí)行了變異關(guān)鍵詞的正常提取。

圖1是本發(fā)明變異關(guān)鍵詞的提取方法的流程圖；圖2是本發(fā)明形近字庫(kù)建立的一種具體實(shí)施方式
流程圖。
具體實(shí)施方式
下面對(duì)木發(fā)明的具體實(shí)施方式
進(jìn)行描述，需要特別提醒注意的是，在以下的描述中，當(dāng)采用已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí)，這些描述在這兒將被忽略。' 圖1是本發(fā)明變異關(guān)鍵詞的提取方法的流程圖。圖中，本發(fā)明的變異關(guān)鍵策的提取方法包括(1)、對(duì)分詞后文本，首先對(duì)其進(jìn)行噪音字符去除處理，可以通過(guò)在區(qū)位碼中漢字與特殊字符，即噪音字符所占位置的不同來(lái)處理，01-09區(qū)為682個(gè)特殊字符，16 87區(qū)為漢字區(qū)，包含6763個(gè)漢字，通過(guò)判斷它們的區(qū)位碼很容易將01-09區(qū)內(nèi)特殊字符去除掉，從而去除分詞后文本中的非漢字噪音符號(hào)，然后進(jìn)行下一步；如果沒(méi)有噪音字符，則直接進(jìn)行下一步；(2) 、對(duì)于常規(guī)關(guān)鍵詞，即沒(méi)有變異處理過(guò)的關(guān)鍵詞或去除噪音字符的噪音字符的變異關(guān)鍵詞，則建立關(guān)鍵詞庫(kù)，將分詞后文本直接或去除噪音字符后送到關(guān)鍵詞庫(kù)屮進(jìn)行匹配，如果匹配成功，則提取，否則，進(jìn)行下一步，看是否是拼音替換、諧音替換的變異關(guān)鍵詞；(3) 、拼音替換、諧音替換的變異關(guān)鍵詞，則建立一個(gè)拼音文件，將分詞后文本中拼音相同的漢字和拼音轉(zhuǎn)換成對(duì)應(yīng)的整數(shù)，從而將其從字符串轉(zhuǎn)換為文木整數(shù)串；將步驟(1)中的關(guān)鍵詞庫(kù)中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串；比較文本整數(shù)串和關(guān)鍵詞整數(shù)串，如果相同，則提取，否則，進(jìn) 行下一步；比如對(duì)于關(guān)鍵詞"一勞永逸"，經(jīng)過(guò)這樣的拼音的變換后，字符串被轉(zhuǎn)換成了一個(gè)整數(shù)串"81 182 56 81"。在本步驟中，完成了字符串級(jí)別的模糊匹配到類串級(jí)別的精確匹配的變換，這樣就可以借助經(jīng)典的WM算法進(jìn)行多模式的精確匹配；(4) 、對(duì)漢字進(jìn)行形近字分組，建立一個(gè)形近字庫(kù)；將分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的毎一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹配，如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同 "組，則提取，否則，不是關(guān)鍵詞。圖2是本發(fā)明形近字庫(kù)建立的一種具體實(shí)施方式
流程圖。在本實(shí)施例屮，對(duì)于兩個(gè)漢字，即漢字A和漢字B，首先分別計(jì)算兩個(gè)漢字A和B的筆段總數(shù)TotalA、 Tota舊，如果兩個(gè)漢字的筆段總數(shù)相差大于某一數(shù)量，則認(rèn)為兩個(gè)漢字不是形近字，在本實(shí)施例中，數(shù)量為取3，效果最好，即不會(huì)將不太形近的字判斷為形近字，也不會(huì)將形近字判斷為非形近字，造成形近字替換的變異關(guān)鍵詞不能提取出來(lái)。如果，如果兩個(gè)漢字的筆段總數(shù)相差小于或等于上述某一數(shù)量，例如上述最佳數(shù)量3，則進(jìn)行如下處理，取筆段總數(shù)較少的漢字，在本實(shí)施例中設(shè)為漢字 A作為基準(zhǔn)，其筆段總數(shù)為MinTotal，對(duì)此漢字的所有筆段進(jìn)行如下處理如果使用點(diǎn)陣圖像表示每一個(gè)漢字，且相鄰像素點(diǎn)的距離為單位像素距；對(duì)于每一個(gè)筆段，計(jì)算它與漢字B中同種類型筆段的最小距離，把計(jì)算得到的最小距離累加得到累加距離TotalDistance，如果TotalDistance/MinTotal大于某一值，則認(rèn)為不是形近字，否則為形近字。在24X24的字符點(diǎn)陣圖像中，累加距離 TotalDistance/MinTotal大于0.5像素距，則認(rèn)為不是形近字，否則，為形近字。在本實(shí)施例中，對(duì)于一級(jí)和二級(jí)漢字共6768個(gè)，依次用上述歩驟進(jìn)行歸類，如果還沒(méi)有和當(dāng)前字形近的組，則重新建立一個(gè)新組。共構(gòu)建了 3900多個(gè)組，但是很多組只有一個(gè)漢字，這樣的組沒(méi)有實(shí)際的意義，只保留了含有二個(gè)漢字 (含二個(gè))以上的組，共600多組。構(gòu)建形近字庫(kù)后，在以后判斷二個(gè)字是否為形近字，只需簡(jiǎn)單的査詢這二個(gè)漢字在形近字庫(kù)中是否在同一個(gè)組即可。為得到漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字同種類型筆段最小距離，我們需要得到漢字每一筆段像素點(diǎn)的集合。在本實(shí)施例中，我們采用以下方法首先讀取標(biāo)準(zhǔn)字庫(kù)文件，得到一個(gè)NXN的字符點(diǎn)陣圖像，二值圖像表示，設(shè)P(i， j)表示圖像中第i行第j列上的像素，則P (i， j)可表不為根據(jù)上述定義，分別提取漢字橫、豎、撇、捺筆段像素點(diǎn)的集合，具體歩驟如下1、橫筆段的提取(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x， y) =1的像素點(diǎn)組成的字符集合，如果字符集合S不為空，則在字符集合S中按從左到右，從上到下的順序找到-個(gè)像素點(diǎn)，然后從該點(diǎn)出發(fā)沿(^角方向在NXN字符點(diǎn)陣中掃描，被掃描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉；(c) 、計(jì)算掃描集合T的點(diǎn)數(shù)，如果大于一個(gè)最小值，則為橫筆段，該掃描集合為橫筆段像素點(diǎn)集合，存儲(chǔ)該橫筆段像素點(diǎn)集合；(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下歩；(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2，如果一個(gè)掃描集合中的像素點(diǎn)與另一個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl， T2) 小于等于1個(gè)像素點(diǎn)，則合并這兩個(gè)集合Tl， T2，把合并后的掃描集合T=Combine (Tl， T2)作為新的橫筆段像素點(diǎn)的集合，這樣，最后得到的像素點(diǎn)的掃描集合便是漢字所有橫筆段像素點(diǎn)的集合。2、豎筆段的提取豎筆段的提取與橫筆段的提取方法是一致的，只是掃描方向變?yōu)?0°，為了便于理解，詳細(xì)步驟描述如下(a)、設(shè)集合S為NXN字符點(diǎn)陣所有P (x， y) =1的像素點(diǎn)組成的字符集合，如果字符集合S不為空，則在字符集合S中按從上到下，從左到右的順序找到個(gè)像素點(diǎn)，然后從該點(diǎn)出發(fā)沿90。角方向在NXN字符點(diǎn)陣中掃描，被掃描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉；(c) 、計(jì)算集合T的點(diǎn)數(shù)，如果大于一個(gè)最小值，則為豎筆段，該掃描集合為豎筆段像素點(diǎn)集合，存儲(chǔ)該豎筆段像素點(diǎn)集合；(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一步；(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2，如果一個(gè)掃描集合中的像素點(diǎn)與另一個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl， T2) 小于等于1個(gè)像素點(diǎn)，則合并這兩個(gè)集合Tl， T2，把合并后的掃描集合 T=C0mbine (Tl， T2)作為新的豎筆段像素點(diǎn)的集合，這樣，最后得到的像素點(diǎn)的掃描集合便是漢字所有豎筆段像素點(diǎn)的集合。3、撇筆段的提取(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x， y) =1的像素點(diǎn)組成的字符集合，且集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)"，所有屬于豎筆段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合S不為空，則在字符集合S中按從上到下，從左到右的順序找到一個(gè)像素點(diǎn)，從該點(diǎn)出發(fā)按90。、 180°、 135。度的方向在NX N字符點(diǎn)陣中掃描；如果該點(diǎn)被標(biāo)記為"橫點(diǎn)"，則掃描方向?yàn)?0"、 135°、 180°; 如果該點(diǎn)被標(biāo)記為"豎點(diǎn)"，則掃描方向?yàn)?80°、 135°、被掃描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉；(c) 、如果掃描集合T中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于寸最小值，則為撇筆段，該掃描集合為撇筆段像素點(diǎn)集合，存儲(chǔ)該撇筆段像素點(diǎn)集(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一步；(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)集合Tl、 T2，如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離Distance (Tl， T2)小于等于1個(gè) 像素點(diǎn)或者任意一點(diǎn)屬于集合Tl，且屬于T2的鄰域，或者任意一點(diǎn)屬于集合 T2，且屬于T1的鄰域，則合并T1、 T2，把合并后的掃描集合T:Combine (Tl， T2)作為新撇筆段的集合，這樣，最后得到的像素點(diǎn)的掃描集合便是漢字所有撇筆段像素點(diǎn)的集合。4、捺筆段的提取捺筆段的提取與撇筆段的提取方法是一致的，只是掃描方向有90"變化，為了便于理解，詳細(xì)步驟描述如下(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x， y) =1的像素點(diǎn)組成的字符集合，且集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)"，所有屬于豎筆段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合S不為空，則在字符集合S中按從上到下，從左到右的順序找到一個(gè)像素點(diǎn)，從該點(diǎn)出發(fā)按卯。、0°、 45°度的方向在點(diǎn)陣中掃描；如果該點(diǎn)被標(biāo)記為"橫點(diǎn)"，則掃描方向?yàn)槊?。?5°、 0°;如果該點(diǎn)被標(biāo)記為 "豎點(diǎn)"，則掃描方向?yàn)镺。、 45°、卯°;被掃描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉；(c) 、如果掃描集合T中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一個(gè)最小值，則為捺筆段，存儲(chǔ)該集合T;(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一歩；(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2，如果一個(gè)掃描集合中的像素點(diǎn)與另個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl， T2) 小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于掃描集合Tl，且屬于掃描機(jī)和T2的鄰域，或者任意一點(diǎn)屬于掃描集合T2，且屬于掃描機(jī)和Tl的鄰域，則合并掃描集合T1、 T2，把合并后的掃描集合T二Combine (Tl， T2)作為新捺筆段的集合，這樣，最后得到的像素點(diǎn)的掃描集合便是漢字所有捺筆段像素點(diǎn)的集合。至此，漢字的整個(gè)筆段提取結(jié)束，得到一個(gè)漢字的橫、豎、撇、捺筆段的所有筆段的像素點(diǎn)集合。根據(jù)這些筆段像素點(diǎn)集合，可以漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字同種類型筆段最小距離，從而判斷出兩個(gè)漢字是否是形近字，由此建立漢字的形近字庫(kù)。盡管上面對(duì)本發(fā)明說(shuō)明性的具體實(shí)施方式
進(jìn)行了描述，以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明，但應(yīng)該清楚，本發(fā)明不限于具體實(shí)施方式
的范圍，對(duì)本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講，只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi)，這些變化時(shí)顯而易見(jiàn)的，一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
權(quán)利要求
1、一種變異關(guān)鍵詞的提取方法，其特征在于，包括以下步驟(1)、如果分詞后文本中有非漢字噪音符號(hào)，則將分詞后文本中的01-09區(qū)內(nèi)的特殊字符去掉，從而去除分詞后文本中的非漢字噪音符號(hào)，然后進(jìn)行下一步，否則，直接進(jìn)行下一步；(2)、建立關(guān)鍵詞庫(kù)，將分詞后文本送到關(guān)鍵詞庫(kù)中進(jìn)行匹配，如果匹配成功，則提取，否則，進(jìn)行下一步；(3)、建立一個(gè)拼音文件，將分詞后文本中拼音相同的漢字和拼音轉(zhuǎn)換成對(duì)應(yīng)的整數(shù)，從而將其從字符串轉(zhuǎn)換為文本整數(shù)串；將步驟(1)中的關(guān)鍵詞庫(kù)中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串；比較文本整數(shù)串和關(guān)鍵詞整數(shù)串，如果相同，則提取，否則，進(jìn)行下一步；(4)、對(duì)漢字進(jìn)行形近字分組，建立一個(gè)形近字庫(kù)；將分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹配，如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同一組，則提取，否則，不是關(guān)鍵詞。
2、根據(jù)權(quán)利要求1所述的變異關(guān)鍵詞的提取方法，其特征在于，步驟(4) 所述的建立一個(gè)形近字庫(kù)，其步驟為首先分別計(jì)算兩個(gè)漢字和的筆段總數(shù)，如果兩個(gè)漢字的筆段總數(shù)相差大于某一數(shù)量，則認(rèn)為兩個(gè)漢字不是形近字；如果，如果兩個(gè)漢字的筆段總數(shù)相差小于或等于上述某一數(shù)量，則進(jìn)行如下處理，取筆段總數(shù)較少的漢字的每一個(gè)筆段，計(jì)算它與另一漢字中同種類型筆段的最小距離，把計(jì)算得到的最小距離累加，如果累加距離除以筆段總數(shù)較少漢字的筆段數(shù)大于某一值，則認(rèn)為不是形近字，否則為形近字；將所有漢字按上述步驟進(jìn)行比較歸類分組，得到形近字庫(kù)。
3、根據(jù)權(quán)利要求2所述的變異關(guān)鍵詞的提取方法，其特征在于所述的某一數(shù)量是3。
4、根據(jù)權(quán)利要求2所述的變異關(guān)鍵詞的提取方法，其特征在于所述的筆段為橫、豎、撇、捺，漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字同種類型筆段最小距離通過(guò)它們的像素點(diǎn)集合得到。
5、根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法，其特征在于所述的橫筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a) 、如果漢字的字符集合不為空，則在字符集合中按從左到右，從上到下的順序找到一個(gè)像素點(diǎn)，然后從該點(diǎn)出發(fā)沿0°角方向在字符點(diǎn)陣中掃描，被掃描的點(diǎn)構(gòu)成掃描集合；(b) 、將掃描集合從字符集合中去掉；(C)、計(jì)算掃描集合的點(diǎn)數(shù)，如果大于一個(gè)最小值，則為橫筆段，該掃描集合為橫筆段像素點(diǎn)集合，存儲(chǔ)該橫筆段像素點(diǎn)集合；(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一步；(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合，如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)，則合并該兩個(gè)掃描集合，把合并后的掃描集合作為新的橫筆段像素點(diǎn)的集合，這樣，最后得到的像素點(diǎn)的集合便是漢字所有橫筆段像素點(diǎn)的集合。
6、根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法，其特征在于所述的豎筆段像素點(diǎn)集合通過(guò)以下歩驟獲得(a) 、如果漢字的字符集合不為空，則在字符集合中按從上到下，從左到右的順序找到一個(gè)像素點(diǎn)，然后從該點(diǎn)出發(fā)沿90。角方向在字符點(diǎn)陣中掃描，被掃描的點(diǎn)構(gòu)成掃描集合；(b) 、將掃描集合從字符集合中去掉；(c) 、計(jì)算掃描集合的點(diǎn)數(shù)，如果大于一個(gè)最小值，則為豎筆段，該掃描集合為豎筆段像素點(diǎn)集合，存儲(chǔ)該豎筆段像素點(diǎn)集合；(d) 、如果字符集合S不為空轉(zhuǎn)向歩驟(a)，否則，進(jìn)行下一歩；(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合，如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)，則合并該兩個(gè)掃描集合，把合并后的掃描集合作為新的豎筆段像素點(diǎn)的集合，這樣，最后得到的像素點(diǎn)的集合便是漢字所有豎筆段像素點(diǎn)的集合。
7、根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法，其特征在于所述的撇筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a)、在字符集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)"，所有屬于豎筆段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合不為空，則在字符集合中按從上到下，從左到右的順序找到一個(gè)像素點(diǎn)，從該點(diǎn)出發(fā)按卯°、 180°、 135。度的方向在字符點(diǎn)陣中掃描；如果該點(diǎn)被標(biāo)記為"橫點(diǎn)"，則掃描方向?yàn)?0°、 135°、 180°;如果該點(diǎn)被標(biāo)記為"豎點(diǎn)"，則掃描方向?yàn)?80°、 135°、 90°;被掃描的點(diǎn)構(gòu)成掃描隹厶.朱□;(b)、將掃描集合從字符集合中去掉；(c)、如果掃描集合中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一個(gè)最小值，則為撇筆段，該掃描集合為撇筆段像素點(diǎn)集合，存儲(chǔ)該撇筆段像素點(diǎn)集合；(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一步；(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)集合，如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于一個(gè) 集合，且屬于另一個(gè)集合的鄰域，則合并該兩個(gè)掃描集合，把合并后的掃描集合作為新撇筆段的集合，這樣，最后得到的像素點(diǎn)的集合便是漢字所有撇筆段像素點(diǎn)的集合。
8、根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法，其特征在于所述的捺筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a) 、在字符集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)"，所有屬于豎筆段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合不為空，則在字符集合中按從上到下，從左到右的順序找到一個(gè)像素點(diǎn)，從該點(diǎn)出發(fā)按90°、 180°、 135°度的方向在字符點(diǎn)陣中掃描；如果該點(diǎn)被標(biāo)記為"橫點(diǎn)"，則掃描方向?yàn)?0°、 135°、 180°;如果該點(diǎn)被標(biāo)記為"豎點(diǎn)"，則掃描方向?yàn)?80°、 135°、 90°;被掃描的點(diǎn)構(gòu)成掃描隹a.(b) 、將掃描集合從字符集合中去掉；(c)、如果掃描集合巾除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一個(gè)最小值，則為捺筆段，該掃描集合為捺筆段像素點(diǎn)集合，存儲(chǔ)該捺筆段像素點(diǎn)集合；(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a)，否則，進(jìn)行下一步；(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)集合，如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于一個(gè) 集合，且屬于另一個(gè)集合的鄰域，則合并該兩個(gè)掃描集合，把合并后的掃描集合作為新捺筆段的集合，這樣，最后得到的像素點(diǎn)的集合便是漢字所有捺筆段像素點(diǎn)的集合。
全文摘要
本發(fā)明公開(kāi)了一種變異關(guān)鍵詞的提取方法，通過(guò)字符區(qū)位將噪音字符去除，提取出噪音字符的變異關(guān)鍵詞；通過(guò)拼音文件將分詞后文本和關(guān)鍵詞轉(zhuǎn)換為文本整數(shù)串，然后提取拼音替換、諧音替換的變異關(guān)鍵詞；通過(guò)建立形近字庫(kù)，比較分詞后文本的每個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每個(gè)漢字是否為同一組形近字，提取形近字替換的變異關(guān)鍵詞，這樣實(shí)行了變異關(guān)鍵詞的正常提取。
文檔編號(hào)G06F17/27GK101324883SQ20081004571
公開(kāi)日2008年12月17日申請(qǐng)日期2008年7月31日優(yōu)先權(quán)日2008年7月31日
發(fā)明者彥傅, 娜關(guān), 偉史, 周俊臨, 尚明生, 王全禮, 陳安龍申請(qǐng)人:電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：傅彥;陳安龍;周俊臨;尚明生;史偉;王全禮;關(guān)娜
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

提取關(guān)鍵詞的方法相關(guān)技術(shù)

關(guān)鍵詞提取方法相關(guān)技術(shù)

關(guān)鍵詞提取相關(guān)技術(shù)

光年關(guān)鍵詞提取工具相關(guān)技術(shù)

關(guān)鍵詞提取算法相關(guān)技術(shù)

關(guān)鍵詞提取工具相關(guān)技術(shù)

文章關(guān)鍵詞提取相關(guān)技術(shù)

文章關(guān)鍵詞提取工具相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種變異關(guān)鍵詞的提取方法