欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種地名匹配方法及裝置的制作方法

文檔序號(hào):6398801閱讀:212來(lái)源:國(guó)知局
專利名稱:一種地名匹配方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明測(cè)繪科學(xué)與技術(shù)領(lǐng)域,尤其涉及一種地名匹配方法和裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展及人們對(duì)基于位置信息的服務(wù)的需求的快速增長(zhǎng),地名已經(jīng)成為普通民眾獲取信息的重要地理參考。如何從海量的地理信息資源中快速檢索出所需的信息,成為地名研究中的重要課題。當(dāng)前的地名匹配方法,將地名作為普通字符串,與地名庫(kù)中的已有地名進(jìn)行匹配,只將地名作為普通的字符串,而忽略了地名的符號(hào)和語(yǔ)義特征,因此不能提供較高的準(zhǔn)確性。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種地名匹配方法及裝置,目的在于解決現(xiàn)有的地名匹配方法存在的準(zhǔn)確性不高的問(wèn)題。一種地名匹配方法,應(yīng)用于中文地名,包括:將第一地名及第二地名分別分解為專名和通名;計(jì)算所述第一地名的專名與所述第二地名的專名的專名相似度;計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度;依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。 優(yōu)選地,所述將第一地名及第二地名分別分解為專名和通名包括:去除第一地名中的非法字符后,將所述第一地名與預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第一地名中的通名;從所述第一地名去除所述第一地名中的通名,得到所述第一地名中的專名;去除第二地名中的非法字符后,將所述第二地名與所述預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)t匕,確定所述第二地名中的通名;從所述第二地名去除所述第二地名中的通名,得到所述第二地名中的專名。優(yōu)選地,所述計(jì)算所述第一地名的專名與所述第二地名的專名的專名相似度包括:確定所述第一地名的專名與所述第二地名的專名間的中文編輯距離;依據(jù)所述中文編輯距離及所述第一地名的專名的中文長(zhǎng)度和所述第二地名的專名的中文長(zhǎng)度中的較大者,計(jì)算所述第一地名的專名與所述第二地名的專名的相似度。優(yōu)選地,所述計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度包括:確定所述第一地名的通名與所述第二地名的通名間的語(yǔ)義距離、概念深度、概念密度及關(guān)系類型;
依據(jù)所述語(yǔ)義距離、概念深度、概念密度及關(guān)系類型計(jì)算所述通名的語(yǔ)義相似度。優(yōu)選地,所述依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度包括:依據(jù)預(yù)設(shè)的權(quán)重計(jì)算規(guī)則,確定所述專名相似度的第一權(quán)重,及所述通名相似度的第二權(quán)重;依據(jù)所述第一權(quán)重、第二權(quán)重、所述第一地名的專名、所述第一地名的通名、所述第二地名的專名、所述第二地名的通名,計(jì)算所述第一地名與所述第二地名的相似度。一種地名匹配裝置,應(yīng)用于中文地名,包括:地名分解模塊,用于將第一地名及第二地名分別分解為專名和通名;專名相似度計(jì)算模塊,用于計(jì)算所述第一地名的專名與第二地名的專名的專名相似度;通名相似度計(jì)算模塊,用于計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度;地名相似度確定模塊,用于依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。優(yōu)選地,所述地名分解模塊包括:過(guò)濾模塊,用于在將第一地名及第二地名分別分解為專名和通名之前,去除所述第一地名及第二地名中的非法字符;通名確定單元,用于將所述第一地名及第二地名與預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第一地名及第二地名各自的通名;專名確定單元,用于從所述第一地名中去除所述第一地名中的通名,得到所述第一地名中的專名,及從所述第二地名中去除所述第二地名中的通名,得到所述第二地名中的專名。優(yōu)選地,所述專名相似度計(jì)算模塊包括:編輯距離確定單元,用于確定所述第一地名的專名與所述第二地名的專名間的中文編輯距離;專名的相似度計(jì)算單元,用于依據(jù)所述中文編輯距離及所述第一地名的專名的長(zhǎng)度和所述第二地名的專名的長(zhǎng)度中的較大者,計(jì)算所述第一地名的專名與所述第二地名的專名的相似度。優(yōu)選地,所述通名相似度計(jì)算模塊包括:參數(shù)確定單元,用于確定所述第一地名的通名與所述第二地名的通名間的語(yǔ)義距離、概念深度、概念密度及關(guān)系類型;通名語(yǔ)義相似度計(jì)算單元,用于依據(jù)所述語(yǔ)義距離、概念深度、概念密度及關(guān)系類型計(jì)算所述通名的語(yǔ)義相似度。優(yōu)選地,所述地名相似度確定模塊包括:權(quán)重確定單元,用于依據(jù)預(yù)設(shè)的權(quán)重計(jì)算規(guī)則,確定所述專名相似度的第一權(quán)重,及所述通名相似度的第二權(quán)重;地名相似度計(jì)算單元,用于依據(jù)所述第一權(quán)重、第二權(quán)重、所述專名相似度及所述通名相似度,計(jì)算所述第一地名與所述第二地名的相似度。
本發(fā)明實(shí)施例公開(kāi)的一種地名匹配方法及裝置,將第一地名及第二地名分別分解為專名和通名,并分別計(jì)算第一地名的專名與第二地名的專名的相似度及第一地名的通名與第二地名的通名的相似度,再由專名相似度及通名相似度確定第一地名與第二地名的相似度,因?yàn)榉謩e考慮到了地名中包括專名和通名的構(gòu)詞方式及通名的語(yǔ)義特征,因此,相比于將地名作為一個(gè)字符串的匹配,具有較高的準(zhǔn)確性。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例公開(kāi)的一種地名匹配方法的流程圖;圖2為本發(fā)明實(shí)施例公開(kāi)的又一種地名匹配方法的流程圖;圖3為本發(fā)明實(shí)施例公開(kāi)的又一種地名匹配方法的流程圖;圖4為本發(fā)明實(shí)施例公開(kāi)的建立的地名通名語(yǔ)義知識(shí)庫(kù)片段示意圖;圖5為本發(fā)明實(shí)施例公開(kāi)的又一種地名匹配方法的流程圖;圖6為本發(fā)明實(shí)施例公開(kāi)的一種地名匹配裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例公開(kāi)了一種地名匹配方法及裝置,其核心發(fā)明點(diǎn)在于,依據(jù)地名中包含專名和通名的構(gòu)詞特性,分別計(jì)算待匹配地名的專名間的相似度及通名間的相似度,再依據(jù)專名相似度和通名相似度,確定待匹配地名間的相似度,可見(jiàn),所述方法及裝置以地名的構(gòu)詞特性為依據(jù)及約束條件,因此,相對(duì)于其它地名匹配方法,能夠更細(xì)致地反映不同地名間的區(qū)別及相似程度,因而具有更高的準(zhǔn)確性。下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例公開(kāi)了一種地名匹配方法,應(yīng)用于中文地名,如圖1所示,包括:SlOl:將第一地名及第二地名分別分解為專名和通名;通常,地名作為專有名稱,其構(gòu)詞隨語(yǔ)言的不同又各有特點(diǎn),在幾千年的演變過(guò)程中,中文地名逐漸形成了獨(dú)特的構(gòu)詞方式,即“專名”加“通名”的形式。其中,專名表示某一個(gè)地理實(shí)體或現(xiàn)象,通名則表示地名所指地理實(shí)體或現(xiàn)象的類型。如“河南省”中“河南”是專名,表示河南這個(gè)地方;“省”是通名,表示“河南”是一級(jí)行政區(qū)域。S102:計(jì)算所述第一地名的專名與所述第二地名的專名的專名相似度;S103:計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度;S104:依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。本實(shí)施例所述的地名匹配方法,依據(jù)中文地名的構(gòu)詞特性,分別計(jì)算待匹配地名的專名間的相似度和通名間的相似度,因此所述方法更適用于地名間的匹配,具有較高的匹配準(zhǔn)確性。本發(fā)明實(shí)施例公開(kāi)的又一種地名匹配方法,應(yīng)用于中文地名,如圖2所示,包括:S201:去除所述第一地名及第二地名中的非法字符;步驟S201可以看作地名匹配中的預(yù)處理過(guò)程,本實(shí)施例中第一地名中的非法字符包括漢字及空格外的其它字符。對(duì)第一地名進(jìn)行預(yù)處理,能夠除去匹配過(guò)程中的干擾因素,提高匹配的準(zhǔn)確性。S202:將所述第一地名與預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第一地名中的通名;所述通名詞庫(kù)中可以包括預(yù)設(shè)的通名,例如通名“省”、“市”等。S203:從所述第一地名中去除所述第一地名中的通名,得到所述第一地名中的專名;S204:將所述第二地名與所述預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第二地名中的通名;S205:從所述第二地名去除所述第二地名中的通名,得到所述第二地名中的專名;S206:計(jì)算所述第一地名的專名與第二地名的專名的專名相似度;S207:計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度;S208:依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。本實(shí)施例所述的地名匹配方法,在匹配之前進(jìn)行預(yù)處理,以提高匹配的準(zhǔn)確性,并依據(jù)預(yù)設(shè)的通名詞庫(kù),將第一地名分解為專名及通名,所述實(shí)施例方法簡(jiǎn)便易行。本發(fā)明實(shí)施例提供的又一種地名匹配方法,應(yīng)用于中文地名,如圖3所示,包括:S301:將所述第一地名及第二地名分別分解為專名和通名;S302:確定所述第一地名的專名與所述第二地名的專名間的中文編輯距離;編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指英文兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。它的思路是從兩個(gè)字符串的一端開(kāi)始比較,記錄已經(jīng)比較過(guò)的子串編輯操作,然后進(jìn)一步得到下一個(gè)字符串位置時(shí)的編輯操作。對(duì)于兩個(gè)字符串X = XiX2X3-..χη,Υ = YiY2Y3-..ym,編輯距離計(jì)算中,編輯操作代價(jià)是
之間的非負(fù)數(shù),可以根據(jù)需要預(yù)先設(shè)置不同的值。為了簡(jiǎn)單起見(jiàn),本文中取O和I兩個(gè)值,并且規(guī)定:當(dāng)Xi=Yj Q = I,..., n; j=l,..., η)時(shí),一致替換的代價(jià)為O ;否則所有編輯操作代價(jià)都是
1例如將英文字符串“kitten”轉(zhuǎn)成“sitting”的操作最少的操作過(guò)程為:sitten (k—s)sittin (e— i)sitting (― g)因此,kitten與sitting之間的編輯距離為3。由于漢字與英文字符存儲(chǔ)方式不同,所述中文編輯距離指將一個(gè)漢語(yǔ)字符串轉(zhuǎn)換成另外一個(gè)所需最少的漢字編輯次數(shù),將一個(gè)漢字(兩個(gè)字節(jié))作為一個(gè)基本長(zhǎng)度。如字符串“河南理工大學(xué)”轉(zhuǎn)換成字符串“河南大學(xué)”的最少步驟為: 河南工大學(xué)(刪除“理”,一個(gè)漢字,對(duì)應(yīng)兩個(gè)字節(jié),故中文編輯距離減少I)河南大學(xué)(刪除“工”,一個(gè)漢字,對(duì)應(yīng)兩個(gè)字節(jié),故中文編輯距離又減少I)因此可知“河南理工大學(xué)”和“河南大學(xué)”的中文編輯距離為2。S303:依據(jù)所述編輯距離及所述第一地名的專名的長(zhǎng)度和所述第二地名的專名的長(zhǎng)度中的較大者,計(jì)算所述第一地名的專名與所述第二地名的專名的相似度。具體地,設(shè)Ed (Bpb1)為專名a1; bi的編輯距離,則構(gòu)造地名專名相似度算法如下式:
權(quán)利要求
1.一種地名匹配方法,應(yīng)用于中文地名,其特征在于,包括: 將第一地名及第二地名分別分解為專名和通名; 計(jì)算所述第一地名的專名與所述第二地名的專名的專名相似度; 計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度; 依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將第一地名及第二地名分別分解為專名和通名包括: 去除第一地名中的非法字符后,將所述第一地名與預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第一地名中的通名; 從所述第一地名去除所述第一地名中的通名,得到所述第一地名中的專名; 去除第二地名中的非法字符后,將所述第二地名與所述預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第二地名中的通名; 從所述第二地名去除所述第二地名中的通名,得到所述第二地名中的專名。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述第一地名的專名與所述第二地名的專名的專名相似度包括: 確定所述第一地名的專名與所述第二地名的專名間的中文編輯距離;` 依據(jù)所述中文編輯距離及所述第一地名的專名的中文長(zhǎng)度和所述第二地名的專名的中文長(zhǎng)度中的較大者,計(jì)算所述第一地名的專名與所述第二地名的專名的相似度。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度包括: 確定所述第一地名的通名與所述第二地名的通名間的語(yǔ)義距離、概念深度、概念密度及關(guān)系類型; 依據(jù)所述語(yǔ)義距離、概念深度、概念密度及關(guān)系類型計(jì)算所述通名的語(yǔ)義相似度。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度包括: 依據(jù)預(yù)設(shè)的權(quán)重計(jì)算規(guī)則,確定所述專名相似性的第一權(quán)重,及所述通名相似性的第二權(quán)重; 依據(jù)所述第一權(quán)重、第二權(quán)重、所述第一地名的專名、所述第一地名的通名、所述第二地名的專名、所述第二地名的通名,計(jì)算所述第一地名與所述第二地名的相似度。
6.一種地名匹配裝置,應(yīng)用于中文地名,其特征在于,包括: 地名分解模塊,用于將第一地名及第二地名分別分解為專名和通名; 專名相似度計(jì)算模塊,用于計(jì)算所述第一地名的專名與第二地名的專名的專名相似度; 通名相似度計(jì)算模塊,用于計(jì)算所述第一地名的通名與所述第二地名的通名的通名相似度; 地名相似度確定模塊,用于依據(jù)所述專名相似度和所述通名相似度,確定所述第一地名與所述第二地名的相似度。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述地名分解模塊包括:過(guò)濾模塊,用于在將第一地名及第二地名分別分解為專名和通名之前,去除所述第一地名及第二地名中的非法字符; 通名確定單元,用于將所述第一地名及第二地名與預(yù)設(shè)的通名詞庫(kù)進(jìn)行對(duì)比,確定所述第一地名及第二地名各自的通名; 專名確定單元,用于從所述第一地名中去除所述第一地名中的通名,得到所述第一地名中的專名,及從所述第二地名中去除所述第二地名中的通名,得到所述第二地名中的專名。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述專名相似度計(jì)算模塊包括: 編輯距離確定單元,用于確定所述第一地名的專名與所述第二地名的專名間的中文編輯距離; 專名的相似度計(jì)算單元,用于依據(jù)所述中文編輯距離及所述第一地名的專名的長(zhǎng)度和所述第二地名的專名的長(zhǎng)度中的較大者,計(jì)算所述第一地名的專名與所述第二地名的專名的相似度。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述通名相似度計(jì)算模塊包括: 參數(shù)確定單元,用于確定所述第一地名的通名與所述第二地名的通名間的語(yǔ)義距離、概念深度、概念密度及關(guān)系類型; 通名語(yǔ)義相似度計(jì)算單元,用于依據(jù)所述語(yǔ)義距離、概念深度、概念密度及關(guān)系類型計(jì)算所述通名的語(yǔ)義相似度。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述地名相似度確定模塊包括: 權(quán)重確定單元,用于依據(jù)預(yù)設(shè)的權(quán)重計(jì)算規(guī)則,確定所述專名相似度的第一權(quán)重,及所述通名相似度的第二權(quán)重; 地名相似度計(jì)算單元,用于依據(jù)所述第一權(quán)重、第二權(quán)重、所述專名相似度及所述通名相似度,計(jì)算所述第一地名與所述第二地名的相似度。
全文摘要
本發(fā)明實(shí)施例提供了一種地名匹配方法及裝置,將第一地名及第二地名分別分解為專名和通名,并分別計(jì)算第一地名的專名與第二地名的專名的相似度及第一地名的通名與第二地名的通名的相似度,再由專名相似度及通名相似度確定第一地名與第二地名的相似度,因?yàn)榉謩e考慮到了地名中包括專名和通名的構(gòu)詞方式及通名的語(yǔ)義特征,因此,相比于將地名作為一個(gè)字符串的匹配,具有較高的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK103106264SQ20131003459
公開(kāi)日2013年5月15日 申請(qǐng)日期2013年1月29日 優(yōu)先權(quán)日2013年1月29日
發(fā)明者程鋼, 盧小平, 于海洋, 文運(yùn)平, 楊杰 申請(qǐng)人:河南理工大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黄梅县| 闻喜县| 马边| 高清| 保康县| 宁阳县| 泊头市| 固阳县| 邻水| 陆良县| 罗甸县| 通海县| 武安市| 崇文区| 鹿泉市| 中西区| 抚顺市| 滦平县| 壤塘县| 天台县| 营山县| 高雄县| 图们市| 临城县| 新民市| 启东市| 呈贡县| 湘潭县| 黔江区| 稻城县| 吉隆县| 科尔| 呈贡县| 上虞市| 三河市| 公安县| 加查县| 城市| 鞍山市| 右玉县| 怀宁县|