確定官網(wǎng)首頁(yè)中的地址信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及確定官網(wǎng)首頁(yè)中的地址信息的方法及裝置。
【背景技術(shù)】
[0002]在地理信息系統(tǒng)中,一個(gè)POI (Point Of Interest,興趣點(diǎn))可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。POI數(shù)據(jù)包括地址信息和POI名稱。
[0003]傳統(tǒng)的POI數(shù)據(jù)采集方法,需要技術(shù)人員采用精密的測(cè)繪儀器去獲取每個(gè)POI的經(jīng)瑋度信息,然后再標(biāo)記下來(lái),這種方法比較費(fèi)時(shí)費(fèi)力,導(dǎo)致通過(guò)采集得到的POI數(shù)據(jù)的數(shù)量很少,地理信息系統(tǒng)很難根據(jù)數(shù)量很少的POI數(shù)據(jù)來(lái)提供高水平的服務(wù)。
[0004]互聯(lián)網(wǎng)上的官網(wǎng)可提供具有權(quán)威性的地址信息和名稱信息,利用官網(wǎng)提供的具有權(quán)威性和正確性的包括地址信息和名稱信息的名稱地址對(duì),來(lái)檢測(cè)從POI數(shù)據(jù)提供網(wǎng)站中提取出的POI數(shù)據(jù)的準(zhǔn)確性可大大提高檢測(cè)POI數(shù)據(jù)的準(zhǔn)確性。因此,如何從官網(wǎng)首頁(yè)中確定得到地址信息是首先需要解決的重要問(wèn)題之一。
【發(fā)明內(nèi)容】
[0005]為克服上述技術(shù)問(wèn)題或者至少部分地解決上述技術(shù)問(wèn)題,特提出以下技術(shù)方案:
[0006]本發(fā)明根據(jù)一個(gè)方面,提供了一種確定官網(wǎng)首頁(yè)中的地址信息的方法,包括:
[0007]獲取一個(gè)或多個(gè)的官網(wǎng)首頁(yè);
[0008]對(duì)所述官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容進(jìn)行文本分析以提取所述頁(yè)面內(nèi)容中的一個(gè)或多個(gè)地址相關(guān)文本片段;
[0009]對(duì)所述地址相關(guān)文本片段進(jìn)行處理以抽出多個(gè)地址相關(guān)切分詞;
[0010]將所述多個(gè)地址相關(guān)切分詞分別在地址數(shù)據(jù)庫(kù)中進(jìn)行查詢匹配,若各個(gè)地址相關(guān)切分詞匹配成功,確定所述地址相關(guān)文本片段為地址信息。
[0011]其中,獲取一個(gè)或多個(gè)的官網(wǎng)首頁(yè)的步驟,具體包括:
[0012]查找多個(gè)首頁(yè)URL;
[0013]對(duì)各個(gè)首頁(yè)URL所在主域下包括的首頁(yè)URL進(jìn)行聚類,確定該主域下包含的多個(gè)首頁(yè)URL的數(shù)量;
[0014]若該主域下包含的多個(gè)首頁(yè)URL的數(shù)量小于預(yù)定數(shù)量閾值,獲取所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)的用戶關(guān)注度;
[0015]基于用戶關(guān)注度對(duì)所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行排序,確定用戶關(guān)注度最高的網(wǎng)頁(yè)為官網(wǎng)首頁(yè)。
[0016]其中,獲取所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)的用戶關(guān)注度的步驟,包括:
[0017]根據(jù)所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)在預(yù)定時(shí)長(zhǎng)內(nèi)的用戶點(diǎn)擊次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取相應(yīng)的用戶關(guān)注度。
[0018]其中,對(duì)所述官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容進(jìn)行文本分析以提取所述頁(yè)面內(nèi)容中的一個(gè)或多個(gè)地址相關(guān)文本片段的步驟,具體包括:
[0019]基于地址關(guān)鍵詞規(guī)則在所述官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容中進(jìn)行文本匹配;
[0020]當(dāng)匹配成功時(shí),根據(jù)提取規(guī)則提取所述頁(yè)面內(nèi)容中的一個(gè)或多個(gè)地址相關(guān)文本片段。
[0021]其中,對(duì)所述地址相關(guān)文本片段進(jìn)行處理以抽出多個(gè)地址相關(guān)切分詞的步驟,具體包括:
[0022]獲取對(duì)所述地址相關(guān)文本片段切詞后得到的多個(gè)原始切分詞;
[0023]對(duì)所述多個(gè)原始切分詞進(jìn)行過(guò)濾處理以抽出多個(gè)地址相關(guān)切分詞。
[0024]本發(fā)明根據(jù)另一個(gè)方面,還提供了一種確定官網(wǎng)首頁(yè)中的地址信息的裝置,包括:
[0025]首頁(yè)獲取模塊,用于獲取一個(gè)或多個(gè)的官網(wǎng)首頁(yè);
[0026]提取模塊,用于對(duì)所述官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容進(jìn)行文本分析以提取所述頁(yè)面內(nèi)容中的一個(gè)或多個(gè)地址相關(guān)文本片段;
[0027]抽取模塊,用于對(duì)所述地址相關(guān)文本片段進(jìn)行處理以抽出多個(gè)地址相關(guān)切分詞;
[0028]確定模塊,用于將所述多個(gè)地址相關(guān)切分詞分別在地址數(shù)據(jù)庫(kù)中進(jìn)行查詢匹配,若各個(gè)地址相關(guān)切分詞匹配成功,確定所述地址相關(guān)文本片段為地址信息。
[0029]其中,所述首頁(yè)獲取模塊具體包括:
[0030]查找單元,用于查找多個(gè)首頁(yè)URL ;
[0031 ] 聚類單元,用于對(duì)各個(gè)首頁(yè)URL所在主域下包括的首頁(yè)URL進(jìn)行聚類,確定該主域下包含的多個(gè)首頁(yè)URL的數(shù)量;
[0032]關(guān)注度獲取單元,用于若該主域下包含的多個(gè)首頁(yè)URL的數(shù)量小于預(yù)定數(shù)量閾值,獲取所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)的用戶關(guān)注度;
[0033]排序單元,用于基于用戶關(guān)注度對(duì)所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行排序,確定用戶關(guān)注度最高的網(wǎng)頁(yè)為官網(wǎng)首頁(yè)。
[0034]其中,所述關(guān)注度獲取單元用于根據(jù)所述多個(gè)首頁(yè)URL各自對(duì)應(yīng)的網(wǎng)頁(yè)在預(yù)定時(shí)長(zhǎng)內(nèi)的用戶點(diǎn)擊次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取相應(yīng)的用戶關(guān)注度。
[0035]其中,所述提取模塊具體包括:
[0036]匹配單元,用于基于地址關(guān)鍵詞規(guī)則在所述官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容中進(jìn)行文本匹配;
[0037]片段提取單元,用于當(dāng)匹配成功時(shí),根據(jù)提取規(guī)則提取所述頁(yè)面內(nèi)容中的一個(gè)或多個(gè)地址相關(guān)文本片段。
[0038]其中,所述抽取模塊具體包括:
[0039]切分單元,用于獲取對(duì)所述地址相關(guān)文本片段切詞后得到的多個(gè)原始切分詞;
[0040]過(guò)濾單元,用于對(duì)所述多個(gè)原始切分詞進(jìn)行過(guò)濾處理以抽出多個(gè)地址相關(guān)切分
Τ.κ| ο
[0041]本發(fā)明中,由于官網(wǎng)可提供具有較高權(quán)威性及正確性的包括地址信息和名稱信息,基于此來(lái)檢測(cè)從POI數(shù)據(jù)提供網(wǎng)站中提取出的POI數(shù)據(jù)的準(zhǔn)確性會(huì)大大提高,而從官網(wǎng)中提取地址信息是實(shí)現(xiàn)上述檢測(cè)方式的基礎(chǔ);因此,本發(fā)明的實(shí)施例中,從大量首頁(yè)中確定官網(wǎng)首頁(yè),并基于官網(wǎng)首頁(yè)的頁(yè)面內(nèi)容來(lái)確定地址信息,可快速獲取官網(wǎng)下具有較高權(quán)威性及正確性的地址信息,為基于官網(wǎng)下的地址信息來(lái)檢測(cè)POI數(shù)據(jù)的方式提供有力保證。
[0042]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0043]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0044]圖1為本發(fā)明一個(gè)實(shí)施例中確定官網(wǎng)首頁(yè)中的地址信息的方法的流程示意圖;
[0045]圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例中確定官網(wǎng)首頁(yè)中的地址信息的方法的流程示意圖;
[0046]圖3為本發(fā)明另一實(shí)施例中確定官網(wǎng)首頁(yè)中的地址信息的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖;
[0047]圖4為本發(fā)明另一優(yōu)選實(shí)施例中確定官網(wǎng)首頁(yè)中的地址信息的裝置的內(nèi)部結(jié)構(gòu)的框架示意圖。
【具體實(shí)施方式】
[0048]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0049]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說(shuō)明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件