微博數(shù)據(jù)的地理位置信息提取方法
【技術領域】
[0001] 本發(fā)明屬于信息檢索技術領域,具體涉及一種微博數(shù)據(jù)的地理位置信息提取方 法。
【背景技術】
[0002] 隨著社交網(wǎng)絡的發(fā)展,社交用戶產(chǎn)生的數(shù)據(jù)也在以驚人的速度增多。例如, Twitter有1億4千萬的活躍用戶,他們每天可以產(chǎn)生大約4億的微博。Foursquare有兩 千五百萬的用戶和30億的check-in。大量的應用都可以從這些用戶產(chǎn)生的數(shù)據(jù)中受益。 特別地,根據(jù)社交用戶的微博去鑒定用戶的地理位置信息,可以使得更高效地進行廣告的 投放和推薦。比如,某一個用戶的微博中出現(xiàn)了"Olympia Theater,Broadway Manhattan", 廣告商就可以在用戶發(fā)出這條微博后快速地向他發(fā)送相關的廣告。更加重要的是,如果我 們基于用戶發(fā)送的所有微博推測出他所有感興趣的地點,比如"Manhattan",我們就可以提 供位置相關的推薦,比如新聞、產(chǎn)品、餐館等。
【發(fā)明內容】
[0003] 本發(fā)明旨在至少解決上述技術問題之一。
[0004] 為此,本發(fā)明的一個目的在于提出一種微博數(shù)據(jù)的地理位置信息提取方法。
[0005] 為了實現(xiàn)上述目的,本發(fā)明的實施例公開了一種微博數(shù)據(jù)的地理位置信息提取方 法,包括以下步驟:Sl :獲取地理位置信息集合和微博數(shù)據(jù)文本集合,其中,所述地理位置 信息集合中的地理位置按照行政區(qū)域逐級劃分形成地理位置信息樹,將每條微博與博主 一一對應的存儲在所述微博數(shù)據(jù)文本集合上;S2 :從所述微博數(shù)據(jù)文本集合中的每條微博 中抽取位置信息與所述地理位置信息樹中的節(jié)點進行比較,如果抽取的位置信息與所述地 理位置信息樹中的某個節(jié)點的位置信息相同,將抽取的信息作為精確匹配節(jié)點,將所述精 確匹配點和所述位置信息對應的加入到候選集合中,如果收取的位置信息與所述地理位置 信息樹中的某個節(jié)點的位置信息不同,則進行相似性匹配,從所述地理位置信息樹找到匹 配程度最高的節(jié)點作為模糊匹配節(jié)點,將所述模糊匹配節(jié)點和所述位置信息對應的加入到 所述候選集合中;S3 :將所述候選集合進行聚合,推測在所述地理位置信息樹同一層級第 一預設值數(shù)量的地理位置,推測在所述地理位置信息樹不同層級第一預設值數(shù)量的地理位 置;S4 :對聚合后的所述候選集合進行信息提純,得到精確的所述第一預設值數(shù)量的地理 位置。
[0006] 根據(jù)本發(fā)明實施例的微博數(shù)據(jù)的地理位置信息提取方法,在博主的微博信息抽取 地理位置信息,將地理位置信息與分層次的行政區(qū)劃信息進行對比,根據(jù)對比結果,針對性 的為博主提供廣告服務。
[0007] 另外,根據(jù)本發(fā)明上述實施例的微博數(shù)據(jù)的地理位置信息提取方法,還可以具有 如下附加的技術特征:
[0008] 進一步地,還包括步驟:S5 :當所述博主的微博內容更新或所述地理位置信息樹 的節(jié)點更新時,將更新的內容相應的加入到所述微博數(shù)據(jù)文本集合或所述地理位置信息 樹,并根據(jù)更新后的所述微博數(shù)據(jù)文本集合和更新后所述地理位置信息樹重新計算所述第 一預設值數(shù)量的地理位置。
[0009] 進一步地,所述步驟Sl進一步包括:Sll :對所述地理位置信息樹從上往下給每一 個節(jié)點賦了一個Dewey碼,其中根節(jié)點的Dewey碼是1,對于每一個節(jié)點,不斷地把父親節(jié) 點的Dewey碼附加在自己的Dewey碼后面得到最后一串Dewey碼,比較兩個節(jié)點n;,Ii j的 Dewey碼,如果叫的Dewey碼是n 的Dewey碼的子串,那么n ;就是n 的祖先,其中i和j均 為自然數(shù);S12 :建立倒排索引,對于地理位置,由于同名的情況,可以對應到所述地理位置 信息樹上的多個Dewey碼,建立倒排索引;S13 :每一條數(shù)據(jù)包含微博的文本和發(fā)送微博的 博主對應存儲,每個博主對應多條微博文本。
[0010] 進一步地,所述步驟S2進一步包括:S211 :定義精確匹配和所述精確匹配節(jié)點:從 所述微博數(shù)據(jù)文本集合選取一條微博和所述地理位置信息樹進行比較,如果所述地位位置 信息樹的某個節(jié)點和所述微博的所述子串精確匹配,定義所述地理位置為精確匹配實體, 定義所述節(jié)點為所述精確匹配節(jié)點;S212 :定義相似性:從所述微博數(shù)據(jù)文本集合選取一 條微博m,用E(m)表示所述精確匹配實體的集合,給定一個候選的位置節(jié)點n,用E(n)來 表示從根節(jié)點到所述節(jié)點n之間的所有位置節(jié)點,在E(m)和E(n)之間利用第一相似性
其中|E(m) n E(n) I是兩個集合的交集,|E(m) U E(n) I是兩個集合E(m)的并集;S213 : 找到精確匹配節(jié)點:對于每一個地位位置e,利用所述倒排列表枚舉所述微博的子串,對 于每一個所述子串,檢測是否出現(xiàn)在所述倒排索引里,如果出現(xiàn)在所述倒排列表中,取出 所述倒排索引對應的節(jié)點,所述節(jié)點為候選的所述精確匹配節(jié)點,根據(jù)所述第一相似性 函數(shù)計算出第一相似值,將所述第一相似值和所述精確匹配節(jié)點對應存儲在所述候選集 合中;S221 :定義模糊匹配和所述模糊匹配節(jié)點:從所述微博數(shù)據(jù)文本集合選取一條微 博,給定第二相似性函數(shù)和閾值,如果所述地理位置信息樹中的某個節(jié)點和所述微博的 一個子串之間根據(jù)所述第二相似函數(shù)計算出的相似值不大于所述閾值,把所述地理位置 定義為模糊匹配實體,在所述地理位置信息樹中,把所有標記為模糊匹配實體對應的節(jié) 點定義為所述模糊匹配節(jié)點;S222 :定義相似性:首先定義標準化之后的編輯距離,表示
地理位置相似,給定一個地理位置,所述地理位置也可能有多個相似的子串,保留最相似 的一個,用E' (m)來表示所有<s,e>的集合,其中s是一個子串,e是一個位置實體,并 且滿足不存在以下情況:有一對〈8,6'>,使得£03(8,6')>£03(8, 6),有一對〈8', e>,使得EDS (s',e) > EDS (s,e),得到所述E' (m)后,用所述第二相似性函數(shù)衡量所
在位置實體上的投影;S223 :找到模糊匹配的節(jié)點:把相似性進行轉換可以得到,兩個地理 位置是相似的等價于它們的編輯距離不大于所述閾值T,把每個地理位置分成了 T +1個 片段,基于鴿巢原理,如果所述微博中的一個子串和一個所述位置實體相似,所述子串包含 所述分割后的片段之中的一個,根據(jù)所述倒排索引,對于給定一個微博,枚舉所述微博的子 串,檢查所述微博的子串是否出現(xiàn)在所述倒排索引中,如果有一個子串出現(xiàn)在所述倒排索 引之中,檢查所述倒排索引中每個地理位置是否和所述子串相似得到第二相似值,如果相 似,把所述地理位置對應的模糊匹配節(jié)點和相似值加入到所述候選集合。
[0011] 進一步地,所述步驟S3進一步包括:S31 :把用戶發(fā)的微博集合,記為M = {nv m2, ...,m|M|},每一條微博叫有一個候選位置的集合,其中包括了所述精確匹配和所述模 糊匹配的位置節(jié)點,把這個集合記為N(Hl1),所述N(Hl1)中的每一個候選的位置都和Hl 1有所 述第一相似值和所述第二相似值;S32 :推測用戶在同一層級的所述第一預設值數(shù)量的地 理位置:s321 :定義覆蓋值:一個節(jié)點的覆蓋值指的是所有它覆蓋的微博的相似值的總和, 定義如下:C(n) = E |M|C(n,IHi),其中C(n,IHi)是指所述節(jié)點n對微博IH i的覆蓋,表
節(jié)點的集合;S323 :找到所述Ntest集合:利用貪心的算法,具體按照如下規(guī)則迭代地選擇節(jié) 點:找到覆蓋值最大的節(jié)點n ;從剩下的微博里面找到覆蓋值最大的下一個節(jié)點;使用了區(qū) 間最值查詢算法RMQ來計算C (n,Hi1);進行迭代,得到所述第一預設值數(shù)數(shù)量的節(jié)點;S33 : 推測不同層次的top-k位置:S331 :定義概率Pq.,給定一個節(jié)點n和它的子節(jié)點集合,記
述界?大,選擇所述節(jié)點n選擇所述第一預設值數(shù)量的地理位置,如果所述節(jié)點n的 信息熵比所述界S小,檢查所述節(jié)點n的孩子節(jié)點選擇所述第一預設值數(shù)量的地理位 置;S334 :定義第二Ntest集合:在所述信息熵H(n)的限制下,從不同層次的地點中選出 所述第一預設值數(shù)量的地理位置,使得覆蓋值達到最大,所述第二N test如下定義:第二
H(n) >B ;S335 :找到第二Nbest集合,利用了一種優(yōu)先最佳的貪心算法,具體如下:S3351 :檢 查根節(jié)點,計算所述根節(jié)點的覆蓋值和信息熵,并把所述根節(jié)點加入到一個優(yōu)先隊列0中; 53352 :彈出優(yōu)先隊列g中覆蓋值最大的節(jié)點:如果所述優(yōu)先隊列g的節(jié)點的信息熵的值大 于所述界值:B,把所述節(jié)點加入到結果集合R u中,如果結果所述集合R u中已經(jīng)有了第一預 設值數(shù)量的地理位置,結束算法,如果所述節(jié)點的信息熵不大于所述界值?,考查所述節(jié)點 的孩子節(jié)點,計算所述孩子節(jié)點的覆蓋值并把所述孩子節(jié)點插入到所述優(yōu)先隊列g中去; 53353 :重復步驟S3352,直到我們找到了所述第一預設值數(shù)量的節(jié)點,作為不同層次的所 述第一預設值數(shù)量的地理位置。
當前第1頁
1 
2 
3 
4 
5