地理位置信息識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及自然語言處理領(lǐng)域,尤其涉及一種地理位置信息識別方法及裝置。
【背景技術(shù)】
[0002]自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,研究人與計算機之間用自然語言進行有效通信的各種理論和方法,其中,命名實體識別(Named EntityRecognit1n,簡稱為:NER)作為自然語言處理領(lǐng)域的基礎(chǔ)和熱點問題,對自然語言處理具有重要意義。NER是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等,具體可分為三大類和七小類,其中三大類是指實體類、時間類和數(shù)字類,七小類是指人名、機構(gòu)名、地名、時間、日期、貨幣和百分比。NER在自然語言處理技術(shù)走向?qū)嵱没倪^程中占有重要地位,例如,通過對文本中的地理位置信息進行識別,可以實現(xiàn)定位、導(dǎo)航等任務(wù)。
[0003]目前命名實體識別的主要方法是采用條件隨機場(Condit1nal Random Fields,簡稱為:CRFs)等機器學(xué)習(xí)模型對文本進行序列標(biāo)注,然后使用句法規(guī)則進行驗證以及其他的后續(xù)處理以提尚識別的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0004]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種地理位置信息識別方法及裝置。
[0005]根據(jù)本公開實施例的第一方面,提供一種地理位置信息識別方法,包括:
[0006]收集包含地理位置信息的多個短文本;
[0007]根據(jù)地理位置信息詞典,對該多個短文本進行分詞處理,得到每個短文本的分詞結(jié)果;
[0008]根據(jù)該每個短文本的分詞結(jié)果,確定位置去向信息的表達方式集合;
[0009]根據(jù)該多個短文本的表達方式,統(tǒng)計該表達方式集合中每種表達方式的出現(xiàn)概率;
[0010]根據(jù)該每種表達方式的出現(xiàn)概率,確定目標(biāo)表達方式;
[0011 ] 根據(jù)該目標(biāo)表達方式,從待檢測信息中,識別出發(fā)地和目的地的地理位置信息。
[0012]在本公開的第一方面的第一種可能實現(xiàn)方式中,該根據(jù)地理位置信息詞典,對該多個短文本進行分詞處理包括:
[0013]根據(jù)地理位置信息詞典,對該多個短文本進行初始分詞處理;
[0014]當(dāng)短文本為指定短文本時,根據(jù)地理位置信息的優(yōu)先級順序,對指定短文本的初始分詞結(jié)果中的連續(xù)地理位置信息進行合并,得到該指定短文本的分詞結(jié)果,該指定短文本中包含多個連續(xù)的地理位置信息;
[0015]當(dāng)短文本不是該指定短文本時,將初始分詞結(jié)果作為該短文本的分詞結(jié)果。
[0016]在本公開的第一方面的第二種可能實現(xiàn)方式中,該根據(jù)地理位置信息的優(yōu)先級順序,對指定短文本的初始分詞結(jié)果中的連續(xù)地理位置信息進行合并包括:
[0017]如果該指定短文本中的連續(xù)地理位置信息中前一個地理位置信息的優(yōu)先級高于后一個地理位置信息的優(yōu)先級,將該前一個地理位置信息和該后一個地理位置信息合并。
[0018]在本公開的第一方面的第三種可能實現(xiàn)方式中,該根據(jù)該每個短文本的分詞結(jié)果,確定位置去向信息的表達方式集合包括:
[0019]對于該多個短文本中的一個短文本,當(dāng)根據(jù)該短文本的分詞結(jié)果,確定該短文本中包括至少兩條位置去向信息時,對該短文本的分詞結(jié)果進行分割,得到至少兩條位置去向信息。
[0020]在本公開的第一方面的第四種可能實現(xiàn)方式中,該根據(jù)該每種表達方式的出現(xiàn)概率,確定目標(biāo)表達方式包括:
[0021]當(dāng)每種表達方式中至少一表達方式的出現(xiàn)概率大于預(yù)設(shè)概率閾值時,確定該至少一表達方式為目標(biāo)表達方式。
[0022]在本公開的第一方面的第五種可能實現(xiàn)方式中,該根據(jù)該目標(biāo)表達方式,從待檢測信息中,識別出發(fā)地和目的地的地理位置信息之后,該方法還包括:
[0023]在該地理位置信息詞典中檢索該出發(fā)地和目的地中至少一項的地理位置信息;
[0024]根據(jù)該地理位置信息的優(yōu)先級順序,填補該出發(fā)地和目的地中至少一項的地理位置信息的上級地理位置信息,直至補全指定行政區(qū)域級別。
[0025]根據(jù)本公開實施例的第二方面,提供一種地理位置信息識別裝置,包括:
[0026]收集模塊,用于收集包含地名的多個短文本;
[0027]分詞處理模塊,用于根據(jù)地理位置信息詞典,對該多個短文本進行分詞處理,得到每個短文本的分詞結(jié)果;
[0028]第一確定模塊,用于根據(jù)該每個短文本的分詞結(jié)果,確定位置去向信息的表達方式集合;
[0029]統(tǒng)計模塊,用于根據(jù)該多個短文本的表達方式,統(tǒng)計該表達方式集合中每種表達方式的出現(xiàn)概率;
[0030]第二確定模塊,用于根據(jù)該每種表達方式的出現(xiàn)概率,確定目標(biāo)表達方式;
[0031 ] 識別模塊,用于根據(jù)該目標(biāo)表達方式,從待檢測信息中,識別出發(fā)地和目的地的地理位置信息。
[0032]在本公開的第二方面的第一種可能實現(xiàn)方式中,該分詞處理模塊還用于當(dāng)短文本為指定短文本時,根據(jù)地理位置信息的優(yōu)先級順序,對指定短文本的初始分詞結(jié)果中的連續(xù)地理位置信息進行合并,得到該指定短文本的分詞結(jié)果,該指定短文本中包含多個連續(xù)的地理位置信息;當(dāng)短文本不是該指定短文本時,將初始分詞結(jié)果作為該短文本的分詞結(jié)果O
[0033]在本公開的第二方面的第二種可能實現(xiàn)方式中,該分詞處理模塊用于如果該指定短文本中的連續(xù)地理位置信息中前一個地理位置信息的優(yōu)先級高于后一個地理位置信息的優(yōu)先級,將該前一個地理位置信息和該后一個地理位置信息合并。
[0034]在本公開的第二方面的第三種可能實現(xiàn)方式中,該裝置還包括:
[0035]分割模塊,用于對于該多個短文本中的一個短文本,當(dāng)根據(jù)該短文本的分詞結(jié)果,確定該短文本中包括至少兩條位置去向信息時,對該短文本的分詞結(jié)果進行分割,得到至少兩條位置去向信息。
[0036]在本公開的第二方面的第四種可能實現(xiàn)方式中,該第二確定模塊用于當(dāng)每種表達方式中至少一表達方式的出現(xiàn)概率大于預(yù)設(shè)概率閾值時,確定該至少一表達方式為目標(biāo)表達方式。
[0037]在本公開的第二方面的第五種可能實現(xiàn)方式中,該裝置還包括:
[0038]檢索模塊,用于在該地理位置信息詞典中檢索該出發(fā)地和目的地中至少一項的地理位置信息;
[0039]填補模塊,用于根據(jù)該地理位置信息的優(yōu)先級順序,填補該出發(fā)地和目的地中至少一項的地理位置信息的上級地理位置信息,直至補全指定行政區(qū)域級別。
[0040]第三方面,還提供了一種地理位置信息識別裝置,包括:
[0041]處理器;
[0042]用于存儲處理器可執(zhí)行的指令的存儲器;
[0043]其中,該處理器被配置為:
[0044]收集包含地理位置信息的多個短文本;
[0045]根據(jù)地理位置信息詞典,對該多個短文本進行分詞處理,得到每個短文本的分詞結(jié)果;
[0046]根據(jù)該每個短文本的分詞結(jié)果,確定位置去向信息的表達方式集合;
[0047]根據(jù)該多個短文本的表達方式,統(tǒng)計該表達方式集合中每種表達方式的出現(xiàn)概率;
[0048]根據(jù)該每種表達方式的出現(xiàn)概率,確定目標(biāo)表達方式;
[0049]根據(jù)該目標(biāo)表達方式,從待檢測信息中,識別出發(fā)地和目的地的地理位置信息。
[0050]本公開實施例提供的技術(shù)方案帶來的有益效果是:
[0051]本公開通過從大量包含地理位置信息的短文本中獲取目標(biāo)表達方式的方法,識別待檢測信息中的出發(fā)地和目的地的地理位置信息,該方法對上下文的依賴性較低,能夠提高識別短文本中地理位置信息的準(zhǔn)確度,且方法簡單,實用性較強。
[0052]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0053]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
[0054]圖1是根據(jù)一示例性實施例示出的一種地理位置信息識別方法的流程圖。
[0055]圖2是根據(jù)一示例性實施例示出的一種地理位置信息識別方法的流程圖。
[0056]圖3是根據(jù)一示例性實施例示出的一種地理位置信息識別裝置框圖。
[0057]圖4是根據(jù)一示例性實施例示出的一種地理位置信息識別裝置400的框圖。
[0058]圖5是根據(jù)一示例性實施例示出的一種地理位置信息識別裝置500的框圖。
【具體實施