欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

電話號碼識別方法及裝置與流程

文檔序號:11583649閱讀:1385來源:國知局
電話號碼識別方法及裝置與流程

本申請涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及電話號碼識別方法及裝置。



背景技術(shù):

各大互聯(lián)網(wǎng)公司均有關(guān)鍵詞過濾系統(tǒng),其中部分公司有在文本內(nèi)檢測手機號碼的需求,號碼檢測通常與其他關(guān)鍵詞組合使用,以是否能夠促成完整的交易進行風(fēng)險評估。例如,在目前的很多社交論壇,個人網(wǎng)站上,經(jīng)常會出現(xiàn)售賣違法違禁品和提供色情服務(wù)的信息,并留下各種正常與變式的手機號碼(如18810450382,①⑧8①=o⑷⑸0=3⒏⒋),這種情況下需要在網(wǎng)頁中檢測這些手機號碼并提取。

目前對于網(wǎng)頁中手機號碼的提取主要是基于正則表達式,將手機號碼的特定抽取規(guī)則轉(zhuǎn)換成正則表達式,然而,該方法存在如下不足:

1、占用內(nèi)存大,運行效率低

從本質(zhì)上講,正則表達式引擎可籠統(tǒng)分為兩類:確定性有限狀態(tài)自動機(deterministicfiniteautomaton,dfa)引擎和非確定性有限狀態(tài)自動機(nfa)引擎。針對大量手機號碼構(gòu)造確定性有限狀態(tài)自動機需要占用較多的內(nèi)存,匹配速度較快;而非確定性有限狀態(tài)自動機是回溯引擎,可以處理更復(fù)雜的正則表達式,但是匹配速度較確定性有限狀態(tài)自動機慢。

2、匹配精準度差、不容易應(yīng)付大量的變形手機號碼的情況

正則表達式很難寫的非常精確。僅手機號段匹配一項,目前已存在的超過100個,數(shù)字的規(guī)則性不夠強,很難在正則表達式中精確的匹配這些號段名,只能處理一些相對規(guī)則簡單的手機號碼,容錯性不夠,對于大量非法網(wǎng)頁中的變形手機號碼(如:188=1o45=384)并不能正確識別出。

3、具有安全漏洞

如果正則表達式對外泄露或者被外界探測出,外界即可以構(gòu)造出一個可以規(guī)避當(dāng)前表達式的手機號碼。



技術(shù)實現(xiàn)要素:

本申請實施例提供一種電話號碼識別方法,用以高速、精確地檢測電話號碼及各種變式的電話號碼,該方法包括:

獲取電話號段及電話號段變式;

根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機;

根據(jù)所述確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段;

對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

本申請實施例還提供一種電話號碼識別裝置,用以高速、精確地檢測電話號碼及各種變式的電話號碼,該裝置包括:

號段獲取模塊,用于獲取電話號段及電話號段變式;

自動機構(gòu)造模塊,用于根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機;

號段查找模塊,用于根據(jù)所述確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段;

號碼識別模塊,用于對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

本申請實施例提供一種電話號碼識別方法,用以高速、精確地檢測電話號碼及各種變式的電話號碼,該方法包括:

根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,所述確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;

對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

本申請實施例還提供一種電話號碼識別裝置,用以高速、精確地檢測電話號碼及各種變式的電話號碼,該裝置包括:

號段查找模塊,用于根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,所述確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;

號碼識別模塊,用于對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

一個實施例中,所述電話號段變式根據(jù)電話號段生成;所述預(yù)設(shè)電話號段及電話號段變式存儲于數(shù)據(jù)庫中。

一個實施例中,在有新的電話號段時,所述數(shù)據(jù)庫添加入新的電話號段和根據(jù)新的電話號段生成的新的電話號段變式。

一個實施例中,所述確定性有限狀態(tài)自動機包括二數(shù)組前綴樹,所述二數(shù)組前綴樹包括狀態(tài)數(shù)組及前驅(qū)狀態(tài)數(shù)組;

所述號段查找模塊具體用于:在所述二數(shù)組前綴樹中輸入待檢測目標數(shù)據(jù),查找待檢測目標數(shù)據(jù)中的電話號段。

一個實施例中,該裝置還包括:

預(yù)處理模塊,用于對待檢測目標數(shù)據(jù)進行預(yù)處理,所述預(yù)處理包括標簽去除、字符轉(zhuǎn)換和字符過濾其中之一或任意組合;

所述號段查找模塊具體用于:根據(jù)確定性有限狀態(tài)自動機查找預(yù)處理后的待檢測目標數(shù)據(jù)中的電話號段。

一個實施例中,該裝置還包括:

規(guī)則檢查模塊,用于對識別出的電話號碼進行規(guī)則檢查,所述規(guī)則檢查包括數(shù)字群組檢查、數(shù)字頻率檢查和號碼寬度檢查其中之一或任意組合。

本申請實施例中,根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼;其中對于電話號段匹配部分采用了構(gòu)造確定性有限狀態(tài)自動機,該部分僅需匹配已知號段和字符替代的變形號段,所占用的內(nèi)存很小,匹配速度快;對于電話號碼匹配部分采用了電話號碼范式匹配,該部分進行數(shù)組內(nèi)的字符匹配,具有較高的效率;實施過程中不但能夠匹配出電話號碼,也容易應(yīng)付大量的變形電話號碼的情況,匹配精準度高;且由于采取的是非表達式檢測法完成整套檢測,不容易被泄露且無法被探測,安全性大大提高。

附圖說明

為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:

圖1為本申請實施例中電話號碼識別方法的流程示意圖;

圖2為本申請實施例中電話號碼識別方法的具體實例過程示意圖;

圖3為本申請實施例中數(shù)據(jù)庫處理和確定性有限狀態(tài)自動機構(gòu)建的示例圖;

圖4為本申請實施例中采用java實現(xiàn)網(wǎng)頁手機號碼識別方法的示例圖;

圖5為本申請實施例中另一電話號碼識別方法的流程示意圖;

圖6為本申請實施例中電話號碼識別裝置的結(jié)構(gòu)示意圖;

圖7為本申請實施例中圖6所示電話號碼識別裝置的一具體實例的結(jié)構(gòu)示意圖;

圖8為本申請實施例中圖6所示電話號碼識別裝置的另一具體實例的結(jié)構(gòu)示意圖;

圖9為本申請實施例中圖6所示電話號碼識別裝置的又一具體實例的結(jié)構(gòu)示意圖;

圖10為本申請實施例中另一電話號碼識別裝置的結(jié)構(gòu)示意圖;

圖11為本申請實施例中圖10所示電話號碼識別裝置的一具體實例的結(jié)構(gòu)示意圖;

圖12為本申請實施例中圖10所示電話號碼識別裝置的另一具體實例的結(jié)構(gòu)示意圖。

具體實施方式

為使本申請實施例的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合附圖對本申請實施例做進一步詳細說明。在此,本申請的示意性實施例及其說明用于解釋本申請,但并不作為對本申請的限定。

為了在待檢測目標數(shù)據(jù)(例如網(wǎng)頁、文本等)中高速、精確的檢測是否含有電話號碼(例如手機號碼、座機號碼),以及對各種變式的電話號碼均具有很好的適應(yīng)性,本申請實施例提供一種電話號碼識別方法。

本申請實施例中提及的確定性有限狀態(tài)自動機是一個能實現(xiàn)狀態(tài)轉(zhuǎn)移的自動機。對于一個給定的屬于該自動機的狀態(tài)和一個屬于該自動機字母表∑的字符,它都能根據(jù)事先給定的轉(zhuǎn)移函數(shù)轉(zhuǎn)移到下一個狀態(tài)(這個狀態(tài)可以是先前那個狀態(tài))。本申請實施例中根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機。

根據(jù)本申請一個實施例,在構(gòu)造確定性有限狀態(tài)自動機時,例如可以根據(jù)預(yù)設(shè)的電話號段及電話號段變式構(gòu)造二數(shù)組前綴樹。其中預(yù)設(shè)的電話號段及電話號段變式可以是全部電話號段及電話號段變式,也可以是預(yù)設(shè)的部分電話號段及電話號段變式。trie(前綴樹或稱字典樹)是一種有序樹,用以保存關(guān)聯(lián)數(shù)組。二數(shù)組trie(double-arraytrie)包括狀態(tài)數(shù)組(base數(shù)組)及前驅(qū)狀態(tài)數(shù)組(check數(shù)組)。其中base數(shù)組的每個元素表示一個trie節(jié)點,即一個狀態(tài);check數(shù)組表示某個狀態(tài)的前驅(qū)狀態(tài)。

下面舉一例說明根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機的過程。本例中采用的是構(gòu)造一個二數(shù)組trie,具體步驟可以包括:

1、初始化代表狀態(tài)的數(shù)組base[]和用以檢查前驅(qū)狀態(tài)的數(shù)組check[],數(shù)組類型均有int[]型。初始值例如可設(shè)為:base[0]=1;check[0]=0。

2、對于每一群兄弟節(jié)點,如[a1,a2,a3…an],尋找一個begin值,使得check[begin+a1…an]=0,也就是找到了n個空閑空間用以存放這些值。

3、將這群兄弟節(jié)點的check值設(shè)置為check[begin+an]=begin。

4、如果這個兄弟節(jié)點沒有孩子,設(shè)置其base值為負值;否則,在該節(jié)點下插入孩子(begin=當(dāng)前節(jié)點base值,重復(fù)步驟2)。

5、所有的號段均插入完成,則該確定性有限狀態(tài)自動機構(gòu)造完畢。

在構(gòu)造完確定性有限狀態(tài)自動機后,根據(jù)該確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段。實施例中,可以在上述構(gòu)造的二數(shù)組前綴樹中輸入待檢測目標數(shù)據(jù),查找待檢測目標數(shù)據(jù)中的電話號段。例如,在構(gòu)造完成的二數(shù)組trie中查找待檢測目標數(shù)據(jù)中是否包含電話號段的過程可以包括:

1、定義當(dāng)前狀態(tài)p為base[0]=1,依次查詢需要查找的字符串char的每一個字符;

2、設(shè)當(dāng)前需要查找的字符串下標為n,則新輸入的字符為char[n],跳轉(zhuǎn)到的新狀態(tài)為base[char[n-1]]+char[n],檢查check數(shù)組,若check[base[char[n-1]+char[n]]]=base[char[n-1]],代表匹配成功,下一次匹配從當(dāng)前狀態(tài)開始。否則,匹配失敗,匹配過程結(jié)束。

如圖1所示,本申請實施例中電話號碼識別方法可以包括:

步驟101、獲取電話號段及電話號段變式;在某些實施例中可以獲取全部電話號段及電話號段變式,或者可以獲取預(yù)設(shè)的部分電話號段及電話號段變式;

步驟102、根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機;

步驟103、根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段;

步驟104、對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

由圖1所示流程可以得知,與現(xiàn)有技術(shù)中針對大量手機號碼構(gòu)造確定性有限狀態(tài)自動機或非確定性有限狀態(tài)自動機的技術(shù)方案相比,本申請實施例中對于電話號段匹配部分采用了構(gòu)造確定性有限狀態(tài)自動機,該部分僅需匹配已知號段(以手機號段為例,僅有200多個已知號段)和字符替代的變形號段,所占用的內(nèi)存很小,匹配速度快;對于電話號碼匹配部分采用了電話號碼范式匹配,該部分進行數(shù)組內(nèi)的字符匹配,具有較高的效率。并且,本申請實施例的匹配精準度高,也容易應(yīng)付大量的變形電話號碼的情況;由于采取的是非表達式檢測法完成整套檢測,不容易被泄露且無法被探測。

具體實施時,利用電話號段作為電話號碼匹配的切入點,通過電話號段及電話號段變式構(gòu)造一個確定性有限狀態(tài)自動機,提高匹配效率。實施時先獲取電話號段及電話號段變式,為后續(xù)構(gòu)造確定性有限狀態(tài)自動機提供詞庫。在實施例中,電話號段及電話號段變式可以存儲于一數(shù)據(jù)庫中,從數(shù)據(jù)庫中獲取電話號段及電話號段變式。在從數(shù)據(jù)庫中獲取電話號段及電話號段變式之前,需要先獲取電話號段,根據(jù)電話號段生成電話號段變式,增強對變式電話號碼的識別,將電話號段及電話號段變式存入數(shù)據(jù)庫。為了應(yīng)對實際應(yīng)用中遇到的各種變式電話號碼,在自動根據(jù)電話號段生成電話號段變式時,主要進行字符的替換,例如130的手機號段,需要生成i30,13o,i3o的號段各一個,然后自動存入數(shù)據(jù)庫。

現(xiàn)有技術(shù)中利用正則表達式匹配靈活性較差,當(dāng)需要對一些新特征進行匹配時,往往需要修改整個正則表達式。而在本申請實施例中,可以動態(tài)將當(dāng)前的已知的電話號段添加到數(shù)據(jù)庫并自動構(gòu)造確定性有限狀態(tài)自動機。具體實施時,在有新的電話號段時,可以根據(jù)新的電話號段生成新的電話號段變式,將新的電話號段和新的電話號段變式添加到數(shù)據(jù)庫。電話號段的更新通常很慢,開始的時候可以一次性的把已知的號段加到數(shù)據(jù)庫,運營商更新出新的號段時候再及時添加到數(shù)據(jù)庫。

在數(shù)據(jù)庫中存儲了電話號段及電話號段變式后,就可以根據(jù)數(shù)據(jù)庫里面的詞庫構(gòu)建出確定性有限狀態(tài)自動機。在構(gòu)造完確定性有限狀態(tài)自動機后,根據(jù)該確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段。

實施例中,為了進一步提高電話號碼檢測的精確性,還可以在根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段之前,對待檢測目標數(shù)據(jù)進行預(yù)處理,后續(xù)對預(yù)處理后的待檢測目標數(shù)據(jù),根據(jù)確定性有限狀態(tài)自動機查找電話號段。其中預(yù)處理例如可以包括標簽去除、字符轉(zhuǎn)換和字符過濾等處理其中之一或任意組合。例如,網(wǎng)頁文本可能包含有大量的html標簽,針對html標簽,可以使用htmlparser的開源項目進行標簽去除,獲得純文本。又如,非法網(wǎng)頁的手機號碼往往是變式的,中間夾帶各種特色字符,如1=881o=450=38④,對于獲取到的純文本,可以進行字符轉(zhuǎn)換和字符過濾,如大小寫轉(zhuǎn)換、數(shù)字轉(zhuǎn)換和特殊字符過濾等,具體實施時可以自定義一些轉(zhuǎn)換和過濾的字符文件庫以供比對應(yīng)用。例如上面的號碼通過進行轉(zhuǎn)換變成了18810450384。實施例中,轉(zhuǎn)換文本與原文本的映射關(guān)系可以存在一個數(shù)組里面,后續(xù)可以通過查詢該數(shù)組從轉(zhuǎn)換文本位置還原到原文本的位置里面。

在查找出待檢測目標數(shù)據(jù)中的電話號段后,需要進一步對查找到的這些電話號段,通過電話號碼范式匹配識別出電話號碼。范式是指公認的具有某一格式的數(shù)據(jù)結(jié)構(gòu),一種公認的規(guī)范好的數(shù)據(jù)形式。比如中國手機號碼,號碼范式可以是11位數(shù)字,運營商號段(3位)+地區(qū)號段(4位)+用戶號碼(4位)。電話號碼的定義并沒有嚴格的規(guī)定,以手機號碼為例,匹配時例如可以將只有11位長度和前面的3位特殊號段作為識別條件。例如,可以考慮到中國的區(qū)號86,號碼的范式是以3位特殊號段開頭的連續(xù)11位數(shù)字,或者前面包含中國區(qū)號86字樣,后面滿足上述條件的連續(xù)13位數(shù)字。通過這樣的規(guī)則確定是否為手機號碼。實施例中,考慮到非法網(wǎng)頁中的大量變式號碼,可以對特殊字符例如字符o,i做數(shù)字容錯處理,即遇到也當(dāng)成數(shù)字處理。

實施例中,上述電話號段和范式的匹配方法過強,可能會造成部分過匹配的現(xiàn)象,針對實際過程中遇到的一些過匹配問題,實施例中可以設(shè)置一系列特殊規(guī)則進行再檢查判別。此外,現(xiàn)有技術(shù)中利用正則表達式匹配,靈活性較差,當(dāng)需要對一些新特征進行匹配時,往往需要修改整個正則表達式。而在本申請實施例中,對于電話號碼范式以外的特征匹配,如特殊規(guī)則檢查,可以采用多規(guī)則匹配方法,當(dāng)需要對新特征進行匹配時,僅需要增加或修改其中的某條規(guī)則,因此具有較強的靈活性和適應(yīng)性。具體實施時,對前述通過電話號碼范式識別出的電話號碼再進行規(guī)則檢查,這些規(guī)則檢查例如可以包括數(shù)字群組檢查、數(shù)字頻率檢查和號碼寬度檢查等其中之一或任意組合,這些規(guī)則具有很強實用性和便捷性。

其中的數(shù)字群組檢查例如可以是在如下場景實施:對于某些數(shù)據(jù)網(wǎng)頁,會出現(xiàn)大量類似電話號碼的數(shù)字串,針對該情況,可以設(shè)置數(shù)字群組規(guī)則,檢查號段兩端是否是數(shù)字或者是“-”等數(shù)組連接符,檢查該號碼是否在數(shù)字群組里,對于連續(xù)的三號碼、多號碼情況,可以增加markpoint標志,記錄下上一個號碼的位置,緊跟其后的數(shù)字群組號碼可以放行。

數(shù)字頻率檢查例如可以是在如下場景實施:網(wǎng)頁中大量不規(guī)則的html標簽,導(dǎo)致htmlparser并不能很好的去除所有的標簽,往往留下大段的css字符串,特殊的數(shù)字串很容易造成干擾。根據(jù)實際的業(yè)余場景,中文網(wǎng)頁為主,而css以英文字符為主,統(tǒng)計識別出的號碼一定距離內(nèi)的英文字符和數(shù)字的頻率,設(shè)置閾值,大于閾值的可以認為是css干擾。

號碼寬度檢查例如可以是在如下場景實施:跨標簽的數(shù)字組合成電話號碼也是干擾源之一,跨標簽的特征是數(shù)字距離很大,導(dǎo)致還原到網(wǎng)頁原文本里,整個號碼的寬度異常大,設(shè)置合理的寬度閾值可以有效防止這一干擾。

圖2為本申請實施例中電話號碼識別方法的具體實例過程示意圖,如圖2所示,本例中先獲取預(yù)設(shè)電話號段,生成變式號段,存入數(shù)據(jù)庫,其中預(yù)設(shè)的電話號段可以是全部電話號段,也可以是預(yù)設(shè)的部分電話號段;再根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機;將待檢測目標數(shù)據(jù)例如網(wǎng)頁文本進行預(yù)處理后,根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,其中預(yù)處理包括特殊字符轉(zhuǎn)換和特殊字符過濾等;匹配出電話號段后,進行電話號碼范式匹配;最后對識別出的電話號碼再進行特殊規(guī)則檢查,如數(shù)字群組檢查、數(shù)字頻率檢查和號碼寬度檢查等。圖3為本申請實施例中數(shù)據(jù)庫處理和確定性有限狀態(tài)自動機構(gòu)建的示例圖,如圖3所示,將電話號段添加入數(shù)據(jù)庫,生成電話號段變式后也將電話號段變式存入數(shù)據(jù)庫;根據(jù)數(shù)據(jù)庫中的電話號段和電話號段變式構(gòu)建出確定性有限狀態(tài)自動機。

本申請實施例的電話號碼識別方法采用主流編程語言java或c++等均可實現(xiàn)。圖4為本申請實施例中采用java實現(xiàn)網(wǎng)頁手機號碼識別方法的示例圖。如圖4所示,在java核心系統(tǒng)中,先進行手機號段插入,自動生成手機號段變式,將手機號段及手機號段變式存入mysql數(shù)據(jù)庫;再根據(jù)mysql數(shù)據(jù)庫中手機號段及手機號段變式構(gòu)建出二數(shù)組前綴樹的確定性有限狀態(tài)自動機;在輸入待匹配網(wǎng)頁后,先進行網(wǎng)頁文本預(yù)處理,再根據(jù)確定性有限狀態(tài)自動機匹配手機號段,手機號段匹配成功后進行手機號碼范式匹配,最后進行特殊規(guī)則檢查,輸出匹配結(jié)果。

在另一實施例中,上述構(gòu)造確定性有限狀態(tài)自動機的過程可以由一個能夠?qū)崿F(xiàn)其功能的設(shè)備實施,該設(shè)備與后續(xù)進行電話號碼識別的設(shè)備可以是不同設(shè)備。如圖5所示,本例提供另一電話號碼識別方法,包括:

步驟501、根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,其中確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;

步驟502、對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。

圖5所示電話號碼識別方法由一進行電話號碼識別的設(shè)備完成,該設(shè)備不同于構(gòu)造確定性有限狀態(tài)自動機的設(shè)備。

在一個實施例中,電話號段變式根據(jù)電話號段生成;預(yù)設(shè)電話號段及電話號段變式存儲于數(shù)據(jù)庫中。在有新的電話號段時,所述數(shù)據(jù)庫添加入新的電話號段和根據(jù)新的電話號段生成的新的電話號段變式。

在一個實施例中,當(dāng)確定性有限狀態(tài)自動機包括二數(shù)組前綴樹,所述二數(shù)組前綴樹包括狀態(tài)數(shù)組及前驅(qū)狀態(tài)數(shù)組,可以在所述二數(shù)組前綴樹中輸入待檢測目標數(shù)據(jù),查找待檢測目標數(shù)據(jù)中的電話號段。

實施例中同樣可以對待檢測目標數(shù)據(jù)執(zhí)行前述預(yù)處理過程,也可以對識別出的電話號碼執(zhí)行前述規(guī)則檢查過程。

基于同一發(fā)明構(gòu)思,本申請實施例中還提供了一種電話號碼識別裝置,如下面的實施例所述。由于該裝置解決問題的原理與電話號碼識別方法相似,因此該裝置的實施可以參見電話號碼識別方法的實施,重復(fù)之處不再贅述。

圖6為本申請實施例中電話號碼識別裝置的結(jié)構(gòu)示意圖。如圖6所示,本申請實施例中電話號碼識別裝置可以包括:

號段獲取模塊601,用于獲取電話號段及電話號段變式;號段獲取模塊601是圖6所示電話號碼識別裝置中負責(zé)完成獲取電話號段及電話號段變式功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件;

自動機構(gòu)造模塊602,用于根據(jù)電話號段及電話號段變式構(gòu)造確定性有限狀態(tài)自動機;自動機構(gòu)造模塊602是圖6所示電話號碼識別裝置中負責(zé)完成構(gòu)造確定性有限狀態(tài)自動機功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件;

號段查找模塊603,用于根據(jù)所述確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段;號段查找模塊603是圖6所示電話號碼識別裝置中負責(zé)完成查找電話號段功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件;

號碼識別模塊604,用于對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。號碼識別模塊604是圖6所示電話號碼識別裝置中負責(zé)完成電話號碼范式匹配功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

在一個實施例中,所述號段獲取模塊601具體可以用于:從數(shù)據(jù)庫中獲取電話號段及電話號段變式;如圖7所示,本例中圖6所示電話號碼識別裝置還可以包括:

數(shù)據(jù)庫處理模塊701,用于在所述號段獲取模塊從數(shù)據(jù)庫中獲取電話號段及電話號段變式之前,獲取電話號段,根據(jù)電話號段生成電話號段變式;將電話號段及電話號段變式存入數(shù)據(jù)庫。數(shù)據(jù)庫處理模塊701是圖7所示電話號碼識別裝置中負責(zé)完成數(shù)據(jù)庫處理功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

具體實施時,所述數(shù)據(jù)庫處理模塊701還可以用于:

在有新的電話號段時,根據(jù)新的電話號段生成新的電話號段變式,將新的電話號段和新的電話號段變式添加到數(shù)據(jù)庫。

具體實施時,所述自動機構(gòu)造模塊602具體可以用于:根據(jù)電話號段及電話號段變式構(gòu)造二數(shù)組前綴樹,所述二數(shù)組前綴樹包括狀態(tài)數(shù)組及前驅(qū)狀態(tài)數(shù)組;

所述號段查找模塊603具體可以用于:在所述二數(shù)組前綴樹中輸入待檢測目標數(shù)據(jù),查找待檢測目標數(shù)據(jù)中的電話號段。

圖8為本申請實施例中圖6所示電話號碼識別裝置的具體實例圖。如圖8所示,圖6所示電話號碼識別裝置還可以包括:

預(yù)處理模塊801,用于對待檢測目標數(shù)據(jù)進行預(yù)處理,所述預(yù)處理包括標簽去除、字符轉(zhuǎn)換和字符過濾其中之一或任意組合;預(yù)處理模塊801是圖8所示電話號碼識別裝置中負責(zé)完成待檢測目標數(shù)據(jù)預(yù)處理功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

所述號段查找模塊603具體可以用于:根據(jù)所述確定性有限狀態(tài)自動機查找預(yù)處理后的待檢測目標數(shù)據(jù)中的電話號段。實施例中預(yù)處理模塊801也可以包含于圖7所示的電話號碼識別裝置中。

圖9為本申請實施例中圖6所示電話號碼識別裝置的具體實例圖。如圖9所示,圖6所示電話號碼識別裝置還可以包括:

規(guī)則檢查模塊901,用于對識別出的電話號碼進行規(guī)則檢查,所述規(guī)則檢查包括數(shù)字群組檢查、數(shù)字頻率檢查和號碼寬度檢查其中之一或任意組合。實施例中規(guī)則檢查模塊901也可以包含于圖7或圖8所示的電話號碼識別裝置中。規(guī)則檢查模塊901是圖9所示電話號碼識別裝置中負責(zé)完成電話號碼規(guī)則檢查功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

圖10為本申請實施例中另一電話號碼識別裝置的結(jié)構(gòu)示意圖。如圖10所示,本申請實施例中電話號碼識別裝置可以包括:

號段查找模塊1001,用于根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;號段查找模塊1001是圖10所示電話號碼識別裝置中負責(zé)完成查找電話號段功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件;

號碼識別模塊1002,用于對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼。號碼識別模塊1002是圖10所示電話號碼識別裝置中負責(zé)完成電話號碼范式匹配功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

在一個實施例中,電話號段變式根據(jù)電話號段生成;預(yù)設(shè)電話號段及電話號段變式存儲于數(shù)據(jù)庫中。

具體實施時,在有新的電話號段時,數(shù)據(jù)庫添加入新的電話號段和根據(jù)新的電話號段生成的新的電話號段變式。

具體實施時,確定性有限狀態(tài)自動機包括二數(shù)組前綴樹,所述二數(shù)組前綴樹包括狀態(tài)數(shù)組及前驅(qū)狀態(tài)數(shù)組;

所述號段查找模塊1001具體可以用于:在所述二數(shù)組前綴樹中輸入待檢測目標數(shù)據(jù),查找待檢測目標數(shù)據(jù)中的電話號段。

圖11為本申請實施例中圖10所示電話號碼識別裝置的具體實例圖。如圖11所示,圖10所示電話號碼識別裝置還可以包括:

預(yù)處理模塊1101,用于對待檢測目標數(shù)據(jù)進行預(yù)處理,所述預(yù)處理包括標簽去除、字符轉(zhuǎn)換和字符過濾其中之一或任意組合;預(yù)處理模塊1101是圖11所示電話號碼識別裝置中負責(zé)完成待檢測目標數(shù)據(jù)預(yù)處理功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

所述號段查找模塊1001具體可以用于:根據(jù)所述確定性有限狀態(tài)自動機查找預(yù)處理后的待檢測目標數(shù)據(jù)中的電話號段。

圖12為本申請實施例中圖10所示電話號碼識別裝置的具體實例圖。如圖12所示,圖10所示電話號碼識別裝置還可以包括:

規(guī)則檢查模塊1201,用于對識別出的電話號碼進行規(guī)則檢查,所述規(guī)則檢查包括數(shù)字群組檢查、數(shù)字頻率檢查和號碼寬度檢查其中之一或任意組合。實施例中規(guī)則檢查模塊1201也可以包含于圖11所示的電話號碼識別裝置中。規(guī)則檢查模塊1201是圖12所示電話號碼識別裝置中負責(zé)完成電話號碼規(guī)則檢查功能的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成該提供功能的處理芯片等元器件。

綜上所述,本申請實施例中,根據(jù)確定性有限狀態(tài)自動機查找待檢測目標數(shù)據(jù)中的電話號段,確定性有限狀態(tài)自動機根據(jù)預(yù)設(shè)電話號段及電話號段變式構(gòu)造;對查找到的電話號段,通過電話號碼范式匹配識別出電話號碼;其中對于電話號段匹配部分采用了構(gòu)造確定性有限狀態(tài)自動機,該部分僅需匹配已知號段和字符替代的變形號段,所占用的內(nèi)存很小,匹配速度快;對于電話號碼匹配部分采用了電話號碼范式匹配,該部分進行數(shù)組內(nèi)的字符匹配,具有較高的效率;實施過程中不但能夠匹配出電話號碼,也容易應(yīng)付大量的變形電話號碼的情況,匹配精準度高;且由于采取的是非表達式檢測法,由一整套完整的電話號碼識別方法或裝置完成整套檢測,不容易被泄露且無法被探測,安全性大大提高。另外對于字符的轉(zhuǎn)換和規(guī)則判別部分,也采用的是數(shù)組內(nèi)字符匹配,具有較高的效率。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

以上所述的具體實施例,對本申請的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本申請的具體實施例而已,并不用于限定本申請的保護范圍,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本申請的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
翼城县| 阿坝县| 定兴县| 丰都县| 永康市| 南澳县| 丁青县| 郓城县| 南陵县| 新平| 象山县| 屏山县| 成安县| 赤壁市| 扎兰屯市| 株洲县| 荥经县| 潼南县| 泗水县| 新巴尔虎右旗| 安福县| 东阳市| 临湘市| 塘沽区| 通城县| 资兴市| 华容县| 东明县| 丰顺县| 河北省| 林州市| 余干县| 衡阳市| 靖宇县| 星子县| 双鸭山市| 左权县| 邛崃市| 都江堰市| 锦屏县| 澳门|