關(guān)聯(lián)的目標(biāo)P0I 數(shù)據(jù),如果不存在,則判斷是否存在關(guān)聯(lián)精度等級為較高精度關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù),如果存 在,則將關(guān)聯(lián)精度等級為較高精度關(guān)聯(lián)的各目標(biāo)P0I數(shù)據(jù)中,排在第一位的目標(biāo)P0I數(shù)據(jù)確 定為所述待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù),如果不存在,則判斷是否存在關(guān)聯(lián)精度等級 為中等精度關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù),如果存在,則返回關(guān)聯(lián)精度等級為中等精度關(guān)聯(lián)的各目 標(biāo)P0I數(shù)據(jù),如果不存在,則結(jié)束流程。
【附圖說明】
[0042] 圖1為現(xiàn)有技術(shù)中,P0I數(shù)據(jù)關(guān)聯(lián)方法流程示意圖;
[0043] 圖2為本發(fā)明實施例一中,P0I數(shù)據(jù)關(guān)聯(lián)方法流程示意圖;
[0044] 圖3為本發(fā)明實施例二中,從獲取到的目標(biāo)P0I數(shù)據(jù)中,確定與待關(guān)聯(lián)P0I數(shù)據(jù)關(guān) 聯(lián)的目標(biāo)P0I數(shù)據(jù)的流程示意圖;
[0045] 圖4為本發(fā)明實施例二中,確定待關(guān)聯(lián)P0I數(shù)據(jù)與各獲取到的目標(biāo)P0I數(shù)據(jù)的P0I 相似度的流程示意圖;
[0046] 圖5為本發(fā)明實施例四中,P0I數(shù)據(jù)關(guān)聯(lián)裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0047] 下面結(jié)合各個附圖對本發(fā)明實施例技術(shù)方案的主要實現(xiàn)原理、【具體實施方式】及其 對應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)地闡述。
[0048] 實施例一
[0049] 如圖2所示,為本發(fā)明實施例一提出的P0I數(shù)據(jù)關(guān)聯(lián)方法流程圖,其具體處理過程 如下:
[0050] 步驟21,將待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,得到組成所述名稱的分詞。
[0051] P0I數(shù)據(jù)庫中保存的P0I數(shù)據(jù)包含多個屬性信息,分別為:名稱、類型、地址、地理 坐標(biāo)、行政區(qū)劃碼等,其中,名稱和地址為文本信息,地理坐標(biāo)為經(jīng)緯度信息,類型和行政區(qū) 劃碼為編碼信息。
[0052]若需要將待關(guān)聯(lián)P0I數(shù)據(jù)庫與目標(biāo)P0I數(shù)據(jù)庫進(jìn)行數(shù)據(jù)融合,則預(yù)先將待關(guān)聯(lián)P0I數(shù)據(jù)庫中的各待關(guān)聯(lián)P0I數(shù)據(jù)進(jìn)行預(yù)處理,然后針對各待關(guān)聯(lián)P0I數(shù)據(jù),分別在目標(biāo)P0I數(shù) 據(jù)庫中查找關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù)。其中,對待關(guān)聯(lián)P0I數(shù)據(jù)進(jìn)行預(yù)處理的過程具體包括:針 對各待關(guān)聯(lián)P0I數(shù)據(jù)的名稱和地址進(jìn)行規(guī)范化處理,例如去除括號、去除空格、去除標(biāo)點符 號、大小寫字母的轉(zhuǎn)換、全角半角的轉(zhuǎn)換、簡體繁體的轉(zhuǎn)換、數(shù)字格式的轉(zhuǎn)換等,將各待關(guān)聯(lián) P0I數(shù)據(jù)的地理坐標(biāo)進(jìn)行糾偏處理,若待關(guān)聯(lián)P0I數(shù)據(jù)的類型為文本信息,則將該文本信息 轉(zhuǎn)換為編碼信息。
[0053] 在目標(biāo)P0I數(shù)據(jù)庫中查找與待關(guān)聯(lián)P0I數(shù)據(jù)關(guān)聯(lián)的目標(biāo)P0I數(shù)據(jù)時,首先需要將 待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,本發(fā)明實施例一提出,可以使用通用詞庫,將待關(guān)聯(lián) P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,但是這樣可能出現(xiàn)分詞不合理的情況,例如,待關(guān)聯(lián)P0I數(shù) 據(jù)的名稱為"青島福泰汽車銷售有限公司",使用通用詞庫進(jìn)行分詞處理后得到下述6個分 詞:"青島"、"福"、"泰"、"汽車"、"銷售"、"有限公司",而"福泰"為待關(guān)聯(lián)P0I數(shù)據(jù)的名稱中 的主名稱,應(yīng)劃分為一個分詞,因此可見,使用通用詞庫進(jìn)行分詞處理極易導(dǎo)致分詞不合理 的情況。
[0054]對此,本發(fā)明實施例一提出,預(yù)先根據(jù)目標(biāo)P0I數(shù)據(jù)庫中各目標(biāo)P0I數(shù)據(jù)的名稱, 建立P0I名稱核心分詞詞庫,那么后續(xù)就可以使用該P0I名稱核心分詞詞庫,將待關(guān)聯(lián)P0I 數(shù)據(jù)的名稱進(jìn)行分詞處理。
[0055]在建立P0I名稱核心分詞詞庫時,可以先從目標(biāo)P0I數(shù)據(jù)庫中提取出n條P0I數(shù) 據(jù),由工作人員對提取出的n條目標(biāo)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,建立分詞處理模型,對 人工分詞處理得到的各分詞進(jìn)行學(xué)習(xí),然后通過分詞處理模型,將目標(biāo)P0I數(shù)據(jù)庫中的其 他目標(biāo)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理,最終得到P0I名稱核心分詞詞庫。此外,在得到P0I 名稱核心分詞詞庫后,工作人員也可以對照各目標(biāo)P0I數(shù)據(jù)的名稱,對通過分詞處理模型 進(jìn)行分詞處理得到的各分詞進(jìn)行校正。
[0056] 由于建立的P0I名稱核心分詞詞庫中的各分詞是從目標(biāo)P0I數(shù)據(jù)庫中各目標(biāo)P0I 數(shù)據(jù)的名稱中提取出的,因此使用P0I名稱核心分詞詞庫將待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分 詞處理,就能夠避免現(xiàn)有技術(shù)中出現(xiàn)的分詞不合理的情況。例如,待關(guān)聯(lián)P0I數(shù)據(jù)的名稱為 "青島福泰汽車銷售有限公司",在P0I名稱核心分詞詞庫中,"福泰"為一個分詞,因此使用 P0I名稱核心分詞詞庫進(jìn)行分詞處理后得到下述5個分詞:"青島"、"福泰"、"汽車"、"銷售"、 "有限公司"。
[0057] 步驟22,對各分詞進(jìn)行角色標(biāo)注,得到各分詞的角色類型。
[0058]將P0I數(shù)據(jù)的名稱進(jìn)行分詞處理后,可以得到若干個分詞,每個分詞在P0I數(shù)據(jù)的 名稱中分別對應(yīng)一個角色類型,角色類型包含行政區(qū)劃、主名稱、修飾詞、行業(yè)詞、后綴詞、 特定品牌名稱。例如,P0I數(shù)據(jù)的名稱為"青島福泰汽車銷售有限公司",進(jìn)行分詞處理后得 到下述5個分詞:"青島"、"福泰"、"汽車"、"銷售"、"有限公司",其中,"青島"的角色類型為 行政區(qū)劃,"福泰"的角色類型為主名稱,"汽車"的角色類型為行業(yè)詞,"銷售"的角色類型 為修飾詞,"有限公司"的角色類型為后綴詞。
[0059] 本發(fā)明實施例一提出,在建立P0I名稱核心分詞詞庫后,可以確定該詞庫中各分 詞的角色類型,然后針對各角色類型,分別建立對應(yīng)的分詞庫,也就是說,可以得到6個分 詞庫,分別為:行政區(qū)劃對應(yīng)的分詞庫、主名稱對應(yīng)的分詞庫、修飾詞對應(yīng)的分詞庫、行業(yè)詞 對應(yīng)的分詞庫、后綴詞對應(yīng)的分詞庫、特定品牌名稱對應(yīng)的分詞庫。
[0060] 預(yù)先針對各角色類型對應(yīng)的分詞庫,設(shè)置分詞庫查找順序,在對各分詞進(jìn)行角色 標(biāo)注時,可以針對各分詞,分別按照預(yù)設(shè)的分詞庫查找順序,依次在預(yù)先建立的各角色類型 分別對應(yīng)的分詞庫中查找該分詞,直到在一個分詞庫中查找到該分詞,則將該分詞庫對應(yīng) 的角色類型確認(rèn)為該分詞在待關(guān)聯(lián)P0I數(shù)據(jù)的名稱中對應(yīng)的角色類型,流程結(jié)束。
[0061] 步驟23,按照預(yù)設(shè)的角色類型優(yōu)先級順序,從各分詞中選擇角色類型與預(yù)設(shè)的角 色類型相同且優(yōu)先級最高的分詞作為搜索關(guān)鍵詞。
[0062]本發(fā)明實施例一提出,預(yù)先設(shè)置角色類型優(yōu)先級順序,由于主名稱最能反映待關(guān) 聯(lián)P0I數(shù)據(jù)的名稱的個性化特點,因此主名稱的優(yōu)先級最高,其次是行政區(qū)劃,在選取搜索 關(guān)鍵詞時,首先判斷是否存在角色類型為主名稱的分詞,若存在,則從各分詞中,選擇角色 類型為主名稱的分詞作為搜索關(guān)鍵詞,結(jié)束選取搜索關(guān)鍵詞的流程。
[0063] 若不存在角色類型為主名稱的分詞,則判斷是否存在角色類型為行政區(qū)劃的分 詞,若不存在,則按照特定品牌名稱、修飾詞、行業(yè)詞、后綴詞的優(yōu)先級由高到低的順序,從 各分詞中選擇角色類型與特定品牌名稱、修飾詞、行業(yè)詞或后綴詞相同且優(yōu)先級最高的分 詞作為搜索關(guān)鍵詞,例如,特定品牌名稱、修飾詞、行業(yè)詞、后綴詞的優(yōu)先級由高到低的順序 為特定品牌名稱一修飾詞一行業(yè)詞一后綴詞,對待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理后得 到的各分詞中不存在角色類型為行政區(qū)劃的分詞,則將角色類型為特定品牌名稱的分詞作 為搜索關(guān)鍵詞,若不存在角色類型為特定品牌名稱的分詞,則將角色類型為修飾詞的分詞 作為搜索關(guān)鍵詞,依次類推;
[0064] 若存在角色類型為行政區(qū)劃的分詞,則按照特定品牌名稱、修飾詞、行業(yè)詞、后綴 詞優(yōu)先級由高到低的順序,從各分詞中選擇角色類型與特定品牌名稱、修飾詞、行業(yè)詞或 后綴詞相同且優(yōu)先級最高的分詞和角色類型為行政區(qū)劃的分詞的組合作為搜索關(guān)鍵詞,例 如,特定品牌名稱、修飾詞、行業(yè)詞、后綴詞的優(yōu)先級由高到低的順序為特定品牌名稱一修 飾詞一行業(yè)詞一后綴詞,對待關(guān)聯(lián)P0I數(shù)據(jù)的名稱進(jìn)行分詞處理后得到的各分詞中存在角 色類型為行政區(qū)劃的分詞,則將角色類型為行政區(qū)劃的分詞和角色類型為特定品牌名稱的 分詞作為搜索關(guān)鍵詞,若不存在角色類型為特定品牌名稱的分詞,則將角色類型為行政區(qū) 劃的分詞和角色類型為修飾詞的分詞作為搜索關(guān)鍵詞,依次類推。
[0065] 此外,本發(fā)明實施例一提出,由于可能存在多個分詞的角色類型相同的情況,因此 選取出作為搜索關(guān)鍵詞的分詞可能為一個,也可能為多個。
[0066]步驟24,從目標(biāo)P0I數(shù)據(jù)庫中,獲取名稱中包含所述搜索關(guān)鍵詞的目標(biāo)P0I數(shù)據(jù)。[0067]使用搜索關(guān)鍵詞進(jìn)行初步篩選時,可以通過下述兩種方式進(jìn)行篩選:
[0068]第一種篩選方式,目標(biāo)P0I數(shù)據(jù)庫中的目標(biāo)P0I數(shù)據(jù)的名稱是以分詞的形式存儲 的,例如,某目標(biāo)P0I數(shù)據(jù)的名稱是"方恒國際中心",該名稱存儲的方式可能是:"國際"、 "方恒"、"中心",各分詞的存儲順序與分詞在名稱中出現(xiàn)的先后順序無關(guān)。在使用搜索關(guān) 鍵詞進(jìn)行初步篩選時,是在目標(biāo)POI數(shù)據(jù)庫中獲取出名稱的分詞中包含搜索關(guān)鍵詞的目標(biāo)P0I數(shù)據(jù)。
[0069] 第二種篩選方式,可以使用倒排索引技術(shù)搜索目標(biāo)P0I數(shù)據(jù),從而能夠大大提高 搜索效率,尤其在大數(shù)據(jù)環(huán)境下優(yōu)勢更為明顯。具體的,針對P0I名稱核心分詞詞庫中的各 分詞,預(yù)先建立各分詞與各目標(biāo)P0I數(shù)據(jù)在目標(biāo)P0I數(shù)據(jù)庫中的存儲標(biāo)識之間的倒排索引 表,其具體結(jié)構(gòu)如表1所示:
[0070]表1
[0071]
【主權(quán)項】
1. 一種興趣點數(shù)據(jù)關(guān)聯(lián)方法,其特征在于,包括: 將待關(guān)聯(lián)興趣點POI數(shù)據(jù)的名稱進(jìn)行分詞處理,得到組成所述名稱的分詞; 對各分詞進(jìn)行角色標(biāo)注,得到各分詞的角色類型; 按照預(yù)設(shè)的角色類型優(yōu)先級順序,從各分詞中選擇角色類型與預(yù)設(shè)的角色類型相同且 優(yōu)先級最高的分詞作為搜索關(guān)鍵詞; 從目標(biāo)POI數(shù)據(jù)庫中,獲取名稱中包含所述搜索關(guān)鍵詞的目標(biāo)POI數(shù)據(jù); 從獲取到的目標(biāo)POI數(shù)據(jù)中,確定與所述待關(guān)聯(lián)POI數(shù)據(jù)關(guān)聯(lián)的目標(biāo)POI數(shù)據(jù)。
2. 如權(quán)利要求1所述的方法,其特征在于,從獲取到的目標(biāo)POI數(shù)據(jù)中,確定與所述待 關(guān)聯(lián)POI數(shù)據(jù)關(guān)聯(lián)的目標(biāo)POI數(shù)據(jù)之前,所述方法進(jìn)一步包括: 從獲取到的名稱中包含所述搜索關(guān)鍵詞的目標(biāo)POI數(shù)據(jù)中,獲取行政區(qū)劃碼與待關(guān)聯(lián) POI數(shù)據(jù)的行政區(qū)劃碼相同的目標(biāo)POI數(shù)據(jù); 所述從獲取到的目標(biāo)POI數(shù)據(jù)中,確定與所述待關(guān)聯(lián)POI數(shù)據(jù)關(guān)聯(lián)的目標(biāo)POI數(shù)據(jù)具 體為: 從獲取到的行政區(qū)劃碼與待關(guān)聯(lián)POI數(shù)據(jù)的行政區(qū)劃碼相同的目標(biāo)POI數(shù)據(jù)中,確定 與所述待關(guān)聯(lián)POI數(shù)據(jù)關(guān)聯(lián)的目標(biāo)POI數(shù)據(jù)。
3. 如權(quán)利要求1所述的方法,其