微博數(shù)據(jù)的地理位置信息提取方法

文檔序號：9350003閱讀：5041來源：國知局

微博數(shù)據(jù)的地理位置信息提取方法
【技術領域】
[0001] 本發(fā)明屬于信息檢索技術領域，具體涉及一種微博數(shù)據(jù)的地理位置信息提取方法。
【背景技術】
[0002] 隨著社交網(wǎng)絡的發(fā)展，社交用戶產(chǎn)生的數(shù)據(jù)也在以驚人的速度增多。例如， Twitter有1億4千萬的活躍用戶，他們每天可以產(chǎn)生大約4億的微博。Foursquare有兩千五百萬的用戶和30億的check-in。大量的應用都可以從這些用戶產(chǎn)生的數(shù)據(jù)中受益。特別地，根據(jù)社交用戶的微博去鑒定用戶的地理位置信息，可以使得更高效地進行廣告的投放和推薦。比如，某一個用戶的微博中出現(xiàn)了"Olympia Theater，Broadway Manhattan"，廣告商就可以在用戶發(fā)出這條微博后快速地向他發(fā)送相關的廣告。更加重要的是，如果我們基于用戶發(fā)送的所有微博推測出他所有感興趣的地點，比如"Manhattan"，我們就可以提供位置相關的推薦，比如新聞、產(chǎn)品、餐館等。

【發(fā)明內容】

[0003] 本發(fā)明旨在至少解決上述技術問題之一。
[0004] 為此，本發(fā)明的一個目的在于提出一種微博數(shù)據(jù)的地理位置信息提取方法。
[0005] 為了實現(xiàn)上述目的，本發(fā)明的實施例公開了一種微博數(shù)據(jù)的地理位置信息提取方法，包括以下步驟：Sl :獲取地理位置信息集合和微博數(shù)據(jù)文本集合，其中，所述地理位置信息集合中的地理位置按照行政區(qū)域逐級劃分形成地理位置信息樹，將每條微博與博主一一對應的存儲在所述微博數(shù)據(jù)文本集合上；S2 :從所述微博數(shù)據(jù)文本集合中的每條微博中抽取位置信息與所述地理位置信息樹中的節(jié)點進行比較，如果抽取的位置信息與所述地理位置信息樹中的某個節(jié)點的位置信息相同，將抽取的信息作為精確匹配節(jié)點，將所述精確匹配點和所述位置信息對應的加入到候選集合中，如果收取的位置信息與所述地理位置信息樹中的某個節(jié)點的位置信息不同，則進行相似性匹配，從所述地理位置信息樹找到匹配程度最高的節(jié)點作為模糊匹配節(jié)點，將所述模糊匹配節(jié)點和所述位置信息對應的加入到所述候選集合中；S3 :將所述候選集合進行聚合，推測在所述地理位置信息樹同一層級第一預設值數(shù)量的地理位置，推測在所述地理位置信息樹不同層級第一預設值數(shù)量的地理位置；S4 :對聚合后的所述候選集合進行信息提純，得到精確的所述第一預設值數(shù)量的地理位置。
[0006] 根據(jù)本發(fā)明實施例的微博數(shù)據(jù)的地理位置信息提取方法，在博主的微博信息抽取地理位置信息，將地理位置信息與分層次的行政區(qū)劃信息進行對比，根據(jù)對比結果，針對性的為博主提供廣告服務。
[0007] 另外，根據(jù)本發(fā)明上述實施例的微博數(shù)據(jù)的地理位置信息提取方法，還可以具有如下附加的技術特征：
[0008] 進一步地，還包括步驟：S5 :當所述博主的微博內容更新或所述地理位置信息樹的節(jié)點更新時，將更新的內容相應的加入到所述微博數(shù)據(jù)文本集合或所述地理位置信息樹，并根據(jù)更新后的所述微博數(shù)據(jù)文本集合和更新后所述地理位置信息樹重新計算所述第一預設值數(shù)量的地理位置。
[0009] 進一步地，所述步驟Sl進一步包括：Sll :對所述地理位置信息樹從上往下給每一個節(jié)點賦了一個Dewey碼，其中根節(jié)點的Dewey碼是1，對于每一個節(jié)點，不斷地把父親節(jié) 點的Dewey碼附加在自己的Dewey碼后面得到最后一串Dewey碼，比較兩個節(jié)點n;，Ii j的 Dewey碼，如果叫的Dewey碼是n 的Dewey碼的子串，那么n ;就是n 的祖先，其中i和j均為自然數(shù)；S12 :建立倒排索引，對于地理位置，由于同名的情況，可以對應到所述地理位置信息樹上的多個Dewey碼，建立倒排索引；S13 :每一條數(shù)據(jù)包含微博的文本和發(fā)送微博的博主對應存儲，每個博主對應多條微博文本。
[0010] 進一步地，所述步驟S2進一步包括：S211 :定義精確匹配和所述精確匹配節(jié)點：從所述微博數(shù)據(jù)文本集合選取一條微博和所述地理位置信息樹進行比較，如果所述地位位置信息樹的某個節(jié)點和所述微博的所述子串精確匹配，定義所述地理位置為精確匹配實體，定義所述節(jié)點為所述精確匹配節(jié)點；S212 :定義相似性：從所述微博數(shù)據(jù)文本集合選取一條微博m，用E(m)表示所述精確匹配實體的集合，給定一個候選的位置節(jié)點n，用E(n)來表示從根節(jié)點到所述節(jié)點n之間的所有位置節(jié)點，在E(m)和E(n)之間利用第一相似性
其中|E(m) n E(n) I是兩個集合的交集，|E(m) U E(n) I是兩個集合E(m)的并集；S213 : 找到精確匹配節(jié)點：對于每一個地位位置e，利用所述倒排列表枚舉所述微博的子串，對于每一個所述子串，檢測是否出現(xiàn)在所述倒排索引里，如果出現(xiàn)在所述倒排列表中，取出所述倒排索引對應的節(jié)點，所述節(jié)點為候選的所述精確匹配節(jié)點，根據(jù)所述第一相似性函數(shù)計算出第一相似值，將所述第一相似值和所述精確匹配節(jié)點對應存儲在所述候選集合中；S221 :定義模糊匹配和所述模糊匹配節(jié)點：從所述微博數(shù)據(jù)文本集合選取一條微博，給定第二相似性函數(shù)和閾值，如果所述地理位置信息樹中的某個節(jié)點和所述微博的一個子串之間根據(jù)所述第二相似函數(shù)計算出的相似值不大于所述閾值，把所述地理位置定義為模糊匹配實體，在所述地理位置信息樹中，把所有標記為模糊匹配實體對應的節(jié) 點定義為所述模糊匹配節(jié)點；S222 :定義相似性：首先定義標準化之后的編輯距離，表示
地理位置相似，給定一個地理位置，所述地理位置也可能有多個相似的子串，保留最相似的一個，用E' (m)來表示所有<s，e>的集合，其中s是一個子串，e是一個位置實體，并且滿足不存在以下情況：有一對〈8,6'>，使得￡03(8,6')>￡03(8, 6)，有一對〈8'， e>，使得EDS (s'，e) > EDS (s，e)，得到所述E' (m)后，用所述第二相似性函數(shù)衡量所
在位置實體上的投影；S223 :找到模糊匹配的節(jié)點：把相似性進行轉換可以得到，兩個地理位置是相似的等價于它們的編輯距離不大于所述閾值T，把每個地理位置分成了 T +1個片段，基于鴿巢原理，如果所述微博中的一個子串和一個所述位置實體相似，所述子串包含所述分割后的片段之中的一個，根據(jù)所述倒排索引，對于給定一個微博，枚舉所述微博的子串，檢查所述微博的子串是否出現(xiàn)在所述倒排索引中，如果有一個子串出現(xiàn)在所述倒排索引之中，檢查所述倒排索引中每個地理位置是否和所述子串相似得到第二相似值，如果相似，把所述地理位置對應的模糊匹配節(jié)點和相似值加入到所述候選集合。
[0011] 進一步地，所述步驟S3進一步包括：S31 :把用戶發(fā)的微博集合，記為M = {nv m2, ...，m|M|}，每一條微博叫有一個候選位置的集合，其中包括了所述精確匹配和所述模糊匹配的位置節(jié)點，把這個集合記為N(Hl1)，所述N(Hl1)中的每一個候選的位置都和Hl 1有所述第一相似值和所述第二相似值；S32 :推測用戶在同一層級的所述第一預設值數(shù)量的地理位置：s321 :定義覆蓋值：一個節(jié)點的覆蓋值指的是所有它覆蓋的微博的相似值的總和，定義如下：C(n) = E |M|C(n，IHi)，其中C(n，IHi)是指所述節(jié)點n對微博IH i的覆蓋，表
節(jié)點的集合；S323 :找到所述Ntest集合：利用貪心的算法，具體按照如下規(guī)則迭代地選擇節(jié) 點：找到覆蓋值最大的節(jié)點n ;從剩下的微博里面找到覆蓋值最大的下一個節(jié)點；使用了區(qū) 間最值查詢算法RMQ來計算C (n，Hi1);進行迭代，得到所述第一預設值數(shù)數(shù)量的節(jié)點；S33 : 推測不同層次的top-k位置：S331 :定義概率Pq.，給定一個節(jié)點n和它的子節(jié)點集合，記
述界?大，選擇所述節(jié)點n選擇所述第一預設值數(shù)量的地理位置，如果所述節(jié)點n的信息熵比所述界S小，檢查所述節(jié)點n的孩子節(jié)點選擇所述第一預設值數(shù)量的地理位置；S334 :定義第二Ntest集合：在所述信息熵H(n)的限制下，從不同層次的地點中選出所述第一預設值數(shù)量的地理位置，使得覆蓋值達到最大，所述第二N test如下定義：第二
H(n) >B ;S335 :找到第二Nbest集合，利用了一種優(yōu)先最佳的貪心算法，具體如下：S3351 :檢查根節(jié)點，計算所述根節(jié)點的覆蓋值和信息熵，并把所述根節(jié)點加入到一個優(yōu)先隊列0中； 53352 :彈出優(yōu)先隊列g中覆蓋值最大的節(jié)點：如果所述優(yōu)先隊列g的節(jié)點的信息熵的值大于所述界值:B，把所述節(jié)點加入到結果集合R u中，如果結果所述集合R u中已經(jīng)有了第一預設值數(shù)量的地理位置，結束算法，如果所述節(jié)點的信息熵不大于所述界值?，考查所述節(jié)點的孩子節(jié)點，計算所述孩子節(jié)點的覆蓋值并把所述孩子節(jié)點插入到所述優(yōu)先隊列g中去； 53353 :重復步驟S3352,直到我們找到了所述第一預設值數(shù)量的節(jié)點，作為不同層次的所述第一預設值數(shù)量的地理位置。

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李國良;馮建華;胡駿;
技術所有人：清華大學;
我是此專利的發(fā)明人

上一篇：基于情感分析的混合用戶評分信息推薦方法及其推薦裝置的制造方法
上一篇：一種客戶網(wǎng)上咨詢的管理系統(tǒng)及其方法

該領域下的技術專家

如您需求助技術專家，請點此查看客服電話進行咨詢。

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)

4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術

5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用

如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

 一種客戶網(wǎng)上咨詢的管理系統(tǒng)及...
一種多個統(tǒng)計報表快捷關聯(lián)方法
一種基于分布式內存中計算的大...
一種改進的Canopy并行算...
基于大數(shù)據(jù)平臺的節(jié)能減排監(jiān)控...
一種文件監(jiān)控方法及系統(tǒng)的制作...
詞匯的獲取方法及裝置、推送方...
圖片搜索方法及裝置的制造方法
一種視頻信息的處理方法及裝置...
歷史瀏覽記錄中網(wǎng)頁的加載方法...

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

表示地理位置的方法相關技術
提供地理位置信息的方法及裝置的制造方法
地理位置監(jiān)測方法及設備的制造方法
終端設備地理位置的可信驗證方法
地理位置監(jiān)測方法及地理位置監(jiān)測設備的制造方法
地理位置信息識別方法及裝置的制造方法
地理位置監(jiān)測方法及設備的制造方法
地理位置監(jiān)測方法及設備的制造方法
一種路由器地理位置的判斷方法
一種確定移動終端地理位置的方法及裝置的制造方法
微博數(shù)據(jù)的地理位置信息提取方法
描述地理位置的方法相關技術
地理位置監(jiān)測方法及設備的制造方法
終端設備地理位置的可信驗證方法
地理位置監(jiān)測方法及地理位置監(jiān)測設備的制造方法
地理位置信息識別方法及裝置的制造方法
地理位置監(jiān)測方法及設備的制造方法
地理位置監(jiān)測方法及設備的制造方法
一種路由器地理位置的判斷方法
一種確定移動終端地理位置的方法及裝置的制造方法
微博數(shù)據(jù)的地理位置信息提取方法
地理位置展示方法及裝置的制造方法
地理位置評價方法相關技術
地理位置信息識別方法及裝置的制造方法
微博數(shù)據(jù)的地理位置信息提取方法
利用地理位置信息進行汽車間通信的方法
地理位置的確定方法及裝置制造方法
一種基于地理位置信息的移動傳感器網(wǎng)絡分簇方法
記錄地理位置的方法和裝置制造方法
提示聯(lián)系人地理位置的方法及移動終端的制作方法
一種地理位置的分時占用方法
地理位置名稱的快速輸入方法和裝置的制作方法
地理位置信息估算方法、修復方法和顯示方法
地理位置相關技術
一種給通用數(shù)據(jù)模型綁定地理位置信息的方法與流程
推薦方法及裝置與流程
一種基于深度表達的圖片素材推薦方法與流程
一種鋰電池數(shù)據(jù)采集裝置及系統(tǒng)的制造方法
一種風電場集電線路單相接地故障測距方法與流程
一種基于非編碼平行多線的穩(wěn)定實時激光測量方法與流程
一種便攜式小型水庫生態(tài)取水裝置的制造方法
一種礦山法深埋水下交通隧道廢水分段收集分級提升構造的制造方法與工藝
微生物及其用途的制造方法與工藝
一種懸掛式列車在車輛段內位置的自動追蹤系統(tǒng)及方法與流程

使用協(xié)議| 關于我們| 聯(lián)系X技術

? 2008-2025 【X技術】版權所有，并保留所有權利。津ICP備16005673號-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：
欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类

金溪县| 保康县| 日土县| 咸阳市| 读书| 丘北县| 桂平市| 牟定县| 乌兰察布市| 新密市| 南投市| 珲春市| 平江县| 新野县| 兴城市| 比如县| 南昌县| 尚义县| 得荣县| 高平市| 铜川市| 台湾省| 西乌珠穆沁旗| 都江堰市| 佛山市| 甘谷县| 西城区| 交口县| 靖宇县| 绿春县| 杭锦后旗| 阿巴嘎旗| 双桥区| 营山县| 沂水县| 绵阳市| 深水埗区| 长子县| 环江| 峨边| 武汉市|

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

微博數(shù)據(jù)的地理位置信息提取方法