專利名稱:一種變異關(guān)鍵詞的提取方法
一種變異關(guān)鍵詞的提取方法技術(shù)領(lǐng)域. 本發(fā)明涉及中文網(wǎng)絡(luò)信息處理領(lǐng)域,具體來(lái)講,涉及短信等文本信息中變異 關(guān)鍵詞的提取方法。
背景技術(shù):
當(dāng)前的中文網(wǎng)絡(luò)信息中,非法信息傳遞者為了逃過(guò)信息過(guò)濾系統(tǒng)的監(jiān)管, 對(duì)敏感詞等關(guān)鍵詞進(jìn)行了變異,對(duì)電子郵件、短信息等進(jìn)行分析,關(guān)鍵詞變異 主要集中在以下幾方面1) 、在關(guān)鍵詞中鍵入些無(wú)意義的與內(nèi)容無(wú)關(guān)的非漢字噪音字符,例如 "哈+爾*濱"中的"+ "禾卩"*"號(hào);2) 、對(duì)關(guān)鍵詞進(jìn)行諧音字替換,例如"哈爾濱"的"濱"字被寫成了 "賓";3) 、對(duì)關(guān)鍵詞進(jìn)行拼音替換,例如"哈爾濱"的"濱"字被寫成了 "bin";4) 、對(duì)關(guān)鍵詞進(jìn)行形近字替換,例如"哈爾濱"的"哈"字被寫成了 "洽";5) 、利用上述手段進(jìn)行組合變換,例如"哈爾濱"被寫成了 "洽爾*賓"或者"洽爾&濱"等。對(duì)于一般的文本信息,我們可以對(duì)其進(jìn)行分詞處理,得到分詞后文本,然 后用常規(guī)關(guān)鍵詞庫(kù)匹配提取。但是如果對(duì)這些關(guān)鍵詞進(jìn)行了變異,則分詞之后 的文本用傳統(tǒng)的幾個(gè)連續(xù)的單字構(gòu)成的關(guān)鍵詞庫(kù)來(lái)提取是不能夠正確提取的。' 發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種能夠提取變異關(guān)鍵詞的方法。為實(shí)現(xiàn)上述目的,本發(fā)明的變異關(guān)鍵詞的提取方法包括以下歩驟 (1)、如果分詞后文本中有非漢字噪音符號(hào),則將分詞后文本巾的01-09區(qū)內(nèi)的特殊字符去掉,從而去除分詞后文本中的非漢字噪音符號(hào),然后進(jìn)行下一歩,否則,直接進(jìn)行下一歩;(2) 、建立關(guān)鍵詞庫(kù),將分詞后文本送到關(guān)鍵詞庫(kù)中進(jìn)行匹配,如果匹配 成功,則提取,否則,進(jìn)行下一步;(3) 、建立一個(gè)拼音文件,將分詞后文本中拼音相同的漢字和拼音轉(zhuǎn)換成 對(duì)應(yīng)的整數(shù),從而將其從字符串轉(zhuǎn)換為文本整數(shù)串;將步驟(1)中的關(guān)鍵詞庫(kù) 中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串;比較文本整數(shù)串和關(guān)鍵詞 整數(shù)串,如果相同,則提取,否則,進(jìn)行下一步;(4) 、對(duì)漢字進(jìn)行形近字分組,建立一個(gè)形近字庫(kù);將分詞后文本的每一 個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹 配,如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同 一組,則提取,否則,不是關(guān)鍵詞。本發(fā)明通過(guò)字符區(qū)位將噪音字符去除,提取出噪音字符的變異關(guān)鍵詞;通過(guò) 拼音文件將分詞后文本和關(guān)鍵詞轉(zhuǎn)換為文本整數(shù)串,然后提取拼音替換、諧音 替換的變異關(guān)鍵詞;通過(guò)建立形近字庫(kù),比較分詞后文本的每一個(gè)漢字與關(guān)鍵 詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字是否為同一組形近字,提取形近字替換的變異關(guān) 鍵詞,這樣實(shí)行了變異關(guān)鍵詞的正常提取。
圖1是本發(fā)明變異關(guān)鍵詞的提取方法的流程圖;圖2是本發(fā)明形近字庫(kù)建立的一種具體實(shí)施方式
流程圖。
具體實(shí)施方式
下面對(duì)木發(fā)明的具體實(shí)施方式
進(jìn)行描述,需要特別提醒注意的是,在以下的 描述中,當(dāng)采用已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí), 這些描述在這兒將被忽略。' 圖1是本發(fā)明變異關(guān)鍵詞的提取方法的流程圖。圖中,本發(fā)明的變異關(guān)鍵 策的提取方法包括(1)、對(duì)分詞后文本,首先對(duì)其進(jìn)行噪音字符去除處理,可以通過(guò)在區(qū)位 碼中漢字與特殊字符,即噪音字符所占位置的不同來(lái)處理,01-09區(qū)為682個(gè)特 殊字符,16 87區(qū)為漢字區(qū),包含6763個(gè)漢字,通過(guò)判斷它們的區(qū)位碼很容易將01-09區(qū)內(nèi)特殊字符去除掉,從而去除分詞后文本中的非漢字噪音符號(hào),然后 進(jìn)行下一步;如果沒(méi)有噪音字符,則直接進(jìn)行下一步;(2) 、對(duì)于常規(guī)關(guān)鍵詞,即沒(méi)有變異處理過(guò)的關(guān)鍵詞或去除噪音字符的噪 音字符的變異關(guān)鍵詞,則建立關(guān)鍵詞庫(kù),將分詞后文本直接或去除噪音字符后 送到關(guān)鍵詞庫(kù)屮進(jìn)行匹配,如果匹配成功,則提取,否則,進(jìn)行下一步,看是 否是拼音替換、諧音替換的變異關(guān)鍵詞;(3) 、拼音替換、諧音替換的變異關(guān)鍵詞,則建立一個(gè)拼音文件,將分詞 后文本中拼音相同的漢字和拼音轉(zhuǎn)換成對(duì)應(yīng)的整數(shù),從而將其從字符串轉(zhuǎn)換為 文木整數(shù)串;將步驟(1)中的關(guān)鍵詞庫(kù)中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串;比較文本整數(shù)串和關(guān)鍵詞整數(shù)串,如果相同,則提取,否則,進(jìn) 行下一步;比如對(duì)于關(guān)鍵詞"一勞永逸",經(jīng)過(guò)這樣的拼音的變換后,字符串被 轉(zhuǎn)換成了一個(gè)整數(shù)串"81 182 56 81"。在本步驟中,完成了字符串級(jí)別的模糊匹 配到類串級(jí)別的精確匹配的變換,這樣就可以借助經(jīng)典的WM算法進(jìn)行多模式 的精確匹配;(4) 、對(duì)漢字進(jìn)行形近字分組,建立一個(gè)形近字庫(kù);將分詞后文本的每一 個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的毎一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹 配,如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同 "組,則提取,否則,不是關(guān)鍵詞。圖2是本發(fā)明形近字庫(kù)建立的一種具體實(shí)施方式
流程圖。 在本實(shí)施例屮,對(duì)于兩個(gè)漢字,即漢字A和漢字B,首先分別計(jì)算兩個(gè)漢 字A和B的筆段總數(shù)TotalA、 Tota舊,如果兩個(gè)漢字的筆段總數(shù)相差大于某一 數(shù)量,則認(rèn)為兩個(gè)漢字不是形近字,在本實(shí)施例中,數(shù)量為取3,效果最好,即 不會(huì)將不太形近的字判斷為形近字,也不會(huì)將形近字判斷為非形近字,造成形 近字替換的變異關(guān)鍵詞不能提取出來(lái)。如果,如果兩個(gè)漢字的筆段總數(shù)相差小于或等于上述某一數(shù)量,例如上述 最佳數(shù)量3,則進(jìn)行如下處理,取筆段總數(shù)較少的漢字,在本實(shí)施例中設(shè)為漢字 A作為基準(zhǔn),其筆段總數(shù)為MinTotal,對(duì)此漢字的所有筆段進(jìn)行如下處理如 果使用點(diǎn)陣圖像表示每一個(gè)漢字,且相鄰像素點(diǎn)的距離為單位像素距;對(duì)于每 一個(gè)筆段,計(jì)算它與漢字B中同種類型筆段的最小距離,把計(jì)算得到的最小距離累加得到累加距離TotalDistance,如果TotalDistance/MinTotal大于某一值,則 認(rèn)為不是形近字,否則為形近字。在24X24的字符點(diǎn)陣圖像中,累加距離 TotalDistance/MinTotal大于0.5像素距,則認(rèn)為不是形近字,否則,為形近字。 在本實(shí)施例中,對(duì)于一級(jí)和二級(jí)漢字共6768個(gè),依次用上述歩驟進(jìn)行歸類, 如果還沒(méi)有和當(dāng)前字形近的組,則重新建立一個(gè)新組。共構(gòu)建了 3900多個(gè)組, 但是很多組只有一個(gè)漢字,這樣的組沒(méi)有實(shí)際的意義,只保留了含有二個(gè)漢字 (含二個(gè))以上的組,共600多組。構(gòu)建形近字庫(kù)后,在以后判斷二個(gè)字是否 為形近字,只需簡(jiǎn)單的査詢這二個(gè)漢字在形近字庫(kù)中是否在同一個(gè)組即可。為得到漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字同種類型筆 段最小距離,我們需要得到漢字每一筆段像素點(diǎn)的集合。在本實(shí)施例中,我們 采用以下方法首先讀取標(biāo)準(zhǔn)字庫(kù)文件,得到一個(gè)NXN的字符點(diǎn)陣圖像,二值圖像表示, 設(shè)P(i, j)表示圖像中第i行第j列上的像素,則P (i, j)可表不為根據(jù)上述定義,分別提取漢字橫、豎、撇、捺筆段像素點(diǎn)的集合,具體歩驟如下1、橫筆段的提取(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x, y) =1的像素點(diǎn)組成的字符集 合,如果字符集合S不為空,則在字符集合S中按從左到右,從上到下的順序 找到-個(gè)像素點(diǎn),然后從該點(diǎn)出發(fā)沿(^角方向在NXN字符點(diǎn)陣中掃描,被掃 描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉;(c) 、計(jì)算掃描集合T的點(diǎn)數(shù),如果大于一個(gè)最小值,則為橫筆段,該掃描 集合為橫筆段像素點(diǎn)集合,存儲(chǔ)該橫筆段像素點(diǎn)集合;(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下歩;(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2,如果一個(gè)掃描 集合中的像素點(diǎn)與另一個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl, T2) 小于等于1個(gè)像素點(diǎn),則合并這兩個(gè)集合Tl, T2,把合并后的掃描集合T=Combine (Tl, T2)作為新的橫筆段像素點(diǎn)的集合,這樣,最后得到的像素 點(diǎn)的掃描集合便是漢字所有橫筆段像素點(diǎn)的集合。2、 豎筆段的提取豎筆段的提取與橫筆段的提取方法是一致的,只是掃描方向變?yōu)?0°,為了 便于理解,詳細(xì)步驟描述如下(a)、設(shè)集合S為NXN字符點(diǎn)陣所有P (x, y) =1的像素點(diǎn)組成的字符集 合,如果字符集合S不為空,則在字符集合S中按從上到下,從左到右的順序 找到個(gè)像素點(diǎn),然后從該點(diǎn)出發(fā)沿90。角方向在NXN字符點(diǎn)陣中掃描,被掃 描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉;(c) 、計(jì)算集合T的點(diǎn)數(shù),如果大于一個(gè)最小值,則為豎筆段,該掃描集合 為豎筆段像素點(diǎn)集合,存儲(chǔ)該豎筆段像素點(diǎn)集合;(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一步;(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2,如果一個(gè)掃描 集合中的像素點(diǎn)與另一個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl, T2) 小于等于1個(gè)像素點(diǎn),則合并這兩個(gè)集合Tl, T2,把合并后的掃描集合 T=C0mbine (Tl, T2)作為新的豎筆段像素點(diǎn)的集合,這樣,最后得到的像素 點(diǎn)的掃描集合便是漢字所有豎筆段像素點(diǎn)的集合。3、 撇筆段的提取(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x, y) =1的像素點(diǎn)組成的字符集 合,且集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)",所有屬于豎筆段的像素 點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合S不為空,則在字符集合S中按從上到下,從 左到右的順序找到一個(gè)像素點(diǎn),從該點(diǎn)出發(fā)按90。、 180°、 135。度的方向在NX N字符點(diǎn)陣中掃描;如果該點(diǎn)被標(biāo)記為"橫點(diǎn)",則掃描方向?yàn)?0"、 135°、 180°; 如果該點(diǎn)被標(biāo)記為"豎點(diǎn)",則掃描方向?yàn)?80°、 135°、 被掃描的點(diǎn)構(gòu)成掃 描集合T;(b) 、將掃描集合T從字符集合S中去掉;(c) 、如果掃描集合T中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于寸最 小值,則為撇筆段,該掃描集合為撇筆段像素點(diǎn)集合,存儲(chǔ)該撇筆段像素點(diǎn)集(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一步;(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)集合Tl、 T2,如果一個(gè)集合中的 像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離Distance (Tl, T2)小于等于1個(gè) 像素點(diǎn)或者任意一點(diǎn)屬于集合Tl,且屬于T2的鄰域,或者任意一點(diǎn)屬于集合 T2,且屬于T1的鄰域,則合并T1、 T2,把合并后的掃描集合T:Combine (Tl, T2)作為新撇筆段的集合,這樣,最后得到的像素點(diǎn)的掃描集合便是漢字所有 撇筆段像素點(diǎn)的集合。4、捺筆段的提取捺筆段的提取與撇筆段的提取方法是一致的,只是掃描方向有90"變化,為 了便于理解,詳細(xì)步驟描述如下(a) 、設(shè)集合S為NXN字符點(diǎn)陣所有P (x, y) =1的像素點(diǎn)組成的字符集 合,且集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)",所有屬于豎筆段的像素 點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合S不為空,則在字符集合S中按從上到下,從 左到右的順序找到一個(gè)像素點(diǎn),從該點(diǎn)出發(fā)按卯。、0°、 45°度的方向在點(diǎn)陣中掃 描;如果該點(diǎn)被標(biāo)記為"橫點(diǎn)",則掃描方向?yàn)槊?。?5°、 0°;如果該點(diǎn)被標(biāo)記為 "豎點(diǎn)",則掃描方向?yàn)镺。、 45°、卯°;被掃描的點(diǎn)構(gòu)成掃描集合T;(b) 、將掃描集合T從字符集合S中去掉;(c) 、如果掃描集合T中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一個(gè)最小值,則為捺筆段,存儲(chǔ)該集合T;(d) 、如果字符集合S不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一歩;(e) 、對(duì)歩驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合Tl、 T2,如果一個(gè)掃描 集合中的像素點(diǎn)與另個(gè)掃描集合中的像素點(diǎn)的最小距離Distance (Tl, T2) 小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于掃描集合Tl,且屬于掃描機(jī)和T2的鄰 域,或者任意一點(diǎn)屬于掃描集合T2,且屬于掃描機(jī)和Tl的鄰域,則合并掃描 集合T1、 T2,把合并后的掃描集合T二Combine (Tl, T2)作為新捺筆段的集合, 這樣,最后得到的像素點(diǎn)的掃描集合便是漢字所有捺筆段像素點(diǎn)的集合。至此,漢字的整個(gè)筆段提取結(jié)束,得到一個(gè)漢字的橫、豎、撇、捺筆段的 所有筆段的像素點(diǎn)集合。根據(jù)這些筆段像素點(diǎn)集合,可以漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字同種類型筆段最小距離,從而判斷出兩個(gè)漢 字是否是形近字,由此建立漢字的形近字庫(kù)。盡管上面對(duì)本發(fā)明說(shuō)明性的具體實(shí)施方式
進(jìn)行了描述,以便于本技術(shù)領(lǐng)的 技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式
的范圍,對(duì)本 技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的 本發(fā)明的精神和范圍內(nèi),這些變化時(shí)顯而易見(jiàn)的, 一切利用本發(fā)明構(gòu)思的發(fā)明 創(chuàng)造均在保護(hù)之列。
權(quán)利要求
1、一種變異關(guān)鍵詞的提取方法,其特征在于,包括以下步驟(1)、如果分詞后文本中有非漢字噪音符號(hào),則將分詞后文本中的01-09區(qū)內(nèi)的特殊字符去掉,從而去除分詞后文本中的非漢字噪音符號(hào),然后進(jìn)行下一步,否則,直接進(jìn)行下一步;(2)、建立關(guān)鍵詞庫(kù),將分詞后文本送到關(guān)鍵詞庫(kù)中進(jìn)行匹配,如果匹配成功,則提取,否則,進(jìn)行下一步;(3)、建立一個(gè)拼音文件,將分詞后文本中拼音相同的漢字和拼音轉(zhuǎn)換成對(duì)應(yīng)的整數(shù),從而將其從字符串轉(zhuǎn)換為文本整數(shù)串;將步驟(1)中的關(guān)鍵詞庫(kù)中的所有關(guān)鍵詞通過(guò)拼音文件也轉(zhuǎn)換關(guān)鍵詞整數(shù)串;比較文本整數(shù)串和關(guān)鍵詞整數(shù)串,如果相同,則提取,否則,進(jìn)行下一步;(4)、對(duì)漢字進(jìn)行形近字分組,建立一個(gè)形近字庫(kù);將分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字根據(jù)該形近詞庫(kù)的漢字分組進(jìn)行匹配,如果分詞后文本的每一個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每一個(gè)漢字屬于同一組,則提取,否則,不是關(guān)鍵詞。
2、 根據(jù)權(quán)利要求1所述的變異關(guān)鍵詞的提取方法,其特征在于,步驟(4) 所述的建立一個(gè)形近字庫(kù),其步驟為首先分別計(jì)算兩個(gè)漢字和的筆段總數(shù),如果兩個(gè)漢字的筆段總數(shù)相差大于 某一數(shù)量,則認(rèn)為兩個(gè)漢字不是形近字;如果,如果兩個(gè)漢字的筆段總數(shù)相差小于或等于上述某一數(shù)量,則進(jìn)行如 下處理,取筆段總數(shù)較少的漢字的每一個(gè)筆段,計(jì)算它與另一漢字中同種類型 筆段的最小距離,把計(jì)算得到的最小距離累加,如果累加距離除以筆段總數(shù)較 少漢字的筆段數(shù)大于某一值,則認(rèn)為不是形近字,否則為形近字;將所有漢字按上述步驟進(jìn)行比較歸類分組,得到形近字庫(kù)。
3、 根據(jù)權(quán)利要求2所述的變異關(guān)鍵詞的提取方法,其特征在于所述的某 一數(shù)量是3。
4、 根據(jù)權(quán)利要求2所述的變異關(guān)鍵詞的提取方法,其特征在于所述的筆 段為橫、豎、撇、捺,漢字的筆段總數(shù)以及一個(gè)漢字每一個(gè)筆段與另一個(gè)漢字 同種類型筆段最小距離通過(guò)它們的像素點(diǎn)集合得到。
5、 根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法,其特征在于所述的橫筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a) 、如果漢字的字符集合不為空,則在字符集合中按從左到右,從上到下 的順序找到一個(gè)像素點(diǎn),然后從該點(diǎn)出發(fā)沿0°角方向在字符點(diǎn)陣中掃描,被掃 描的點(diǎn)構(gòu)成掃描集合;(b) 、將掃描集合從字符集合中去掉;(C)、計(jì)算掃描集合的點(diǎn)數(shù),如果大于一個(gè)最小值,則為橫筆段,該掃描集 合為橫筆段像素點(diǎn)集合,存儲(chǔ)該橫筆段像素點(diǎn)集合;(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一步;(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合,如果一個(gè)集合中的像素 點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn),則合并該兩個(gè)掃 描集合,把合并后的掃描集合作為新的橫筆段像素點(diǎn)的集合,這樣,最后得到 的像素點(diǎn)的集合便是漢字所有橫筆段像素點(diǎn)的集合。
6、 根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法,其特征在于所述的豎 筆段像素點(diǎn)集合通過(guò)以下歩驟獲得(a) 、如果漢字的字符集合不為空,則在字符集合中按從上到下,從左到右 的順序找到一個(gè)像素點(diǎn),然后從該點(diǎn)出發(fā)沿90。角方向在字符點(diǎn)陣中掃描,被掃 描的點(diǎn)構(gòu)成掃描集合;(b) 、將掃描集合從字符集合中去掉;(c) 、計(jì)算掃描集合的點(diǎn)數(shù),如果大于一個(gè)最小值,則為豎筆段,該掃描集 合為豎筆段像素點(diǎn)集合,存儲(chǔ)該豎筆段像素點(diǎn)集合;(d) 、如果字符集合S不為空轉(zhuǎn)向歩驟(a),否則,進(jìn)行下一歩;(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)掃描集合,如果一個(gè)集合中的像素 點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn),則合并該兩個(gè)掃 描集合,把合并后的掃描集合作為新的豎筆段像素點(diǎn)的集合,這樣,最后得到 的像素點(diǎn)的集合便是漢字所有豎筆段像素點(diǎn)的集合。
7、 根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法,其特征在于所述的撇筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a)、在字符集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)",所有屬于豎筆 段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合不為空,則在字符集合中按從上到下, 從左到右的順序找到一個(gè)像素點(diǎn),從該點(diǎn)出發(fā)按卯°、 180°、 135。度的方向在字符點(diǎn)陣中掃描;如果該點(diǎn)被標(biāo)記為"橫點(diǎn)",則掃描方向?yàn)?0°、 135°、 180°;如果該點(diǎn)被標(biāo)記為"豎點(diǎn)",則掃描方向?yàn)?80°、 135°、 90°;被掃描的點(diǎn)構(gòu)成掃描隹厶.朱□;(b)、將掃描集合從字符集合中去掉;(c)、如果掃描集合中除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一 個(gè)最小值, 則為撇筆段,該掃描集合為撇筆段像素點(diǎn)集合,存儲(chǔ)該撇筆段像素點(diǎn)集合;(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一步;(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)集合,如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于一個(gè) 集合,且屬于另一個(gè)集合的鄰域,則合并該兩個(gè)掃描集合,把合并后的掃描集 合作為新撇筆段的集合,這樣,最后得到的像素點(diǎn)的集合便是漢字所有撇筆段 像素點(diǎn)的集合。
8、根據(jù)權(quán)利要求4所述的變異關(guān)鍵詞的提取方法,其特征在于所述的捺 筆段像素點(diǎn)集合通過(guò)以下步驟獲得(a) 、在字符集合中所有屬于橫筆段的像素點(diǎn)標(biāo)記為"橫點(diǎn)",所有屬于豎筆段的像素點(diǎn)標(biāo)記為"豎點(diǎn)"。如果字符集合不為空,則在字符集合中按從上到下,從左到右的順序找到一個(gè)像素點(diǎn),從該點(diǎn)出發(fā)按90°、 180°、 135°度的方向在字 符點(diǎn)陣中掃描;如果該點(diǎn)被標(biāo)記為"橫點(diǎn)",則掃描方向?yàn)?0°、 135°、 180°;如果該點(diǎn)被標(biāo)記為"豎點(diǎn)",則掃描方向?yàn)?80°、 135°、 90°;被掃描的點(diǎn)構(gòu)成掃描隹a.(b) 、將掃描集合從字符集合中去掉;(c)、如果掃描集合巾除去"橫點(diǎn)"、"豎點(diǎn)"后包含元素的個(gè)數(shù)大于一個(gè)最小值, 則為捺筆段,該掃描集合為捺筆段像素點(diǎn)集合,存儲(chǔ)該捺筆段像素點(diǎn)集合;(d) 、如果字符集合不為空轉(zhuǎn)向步驟(a),否則,進(jìn)行下一步;(e) 、對(duì)步驟(a)、 (b)、 (c)得到的任意兩個(gè)集合,如果一個(gè)集合中的像素點(diǎn)與另一個(gè)集合中的像素點(diǎn)的最小距離小于等于1個(gè)像素點(diǎn)或者任意一點(diǎn)屬于一個(gè) 集合,且屬于另一個(gè)集合的鄰域,則合并該兩個(gè)掃描集合,把合并后的掃描集 合作為新捺筆段的集合,這樣,最后得到的像素點(diǎn)的集合便是漢字所有捺筆段 像素點(diǎn)的集合。
全文摘要
本發(fā)明公開(kāi)了一種變異關(guān)鍵詞的提取方法,通過(guò)字符區(qū)位將噪音字符去除,提取出噪音字符的變異關(guān)鍵詞;通過(guò)拼音文件將分詞后文本和關(guān)鍵詞轉(zhuǎn)換為文本整數(shù)串,然后提取拼音替換、諧音替換的變異關(guān)鍵詞;通過(guò)建立形近字庫(kù),比較分詞后文本的每個(gè)漢字與關(guān)鍵詞庫(kù)中的關(guān)鍵詞的每個(gè)漢字是否為同一組形近字,提取形近字替換的變異關(guān)鍵詞,這樣實(shí)行了變異關(guān)鍵詞的正常提取。
文檔編號(hào)G06F17/27GK101324883SQ20081004571
公開(kāi)日2008年12月17日 申請(qǐng)日期2008年7月31日 優(yōu)先權(quán)日2008年7月31日
發(fā)明者彥 傅, 娜 關(guān), 偉 史, 周俊臨, 尚明生, 王全禮, 陳安龍 申請(qǐng)人:電子科技大學(xué)