一種社交網(wǎng)絡用戶虛實映射方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種社交網(wǎng)絡用戶虛實映射方法和系統(tǒng),所述方法包括:根據(jù)社交網(wǎng)絡用戶的唯一標識獲取該社交網(wǎng)絡用戶的地理位置信息,并且獲取該地理位置信息對應的地理位置的周邊單位名稱列表;以及將所述周邊單位名稱列表中的每個單位名稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,根據(jù)匹配程度選擇一個或多個單位名稱。本發(fā)明可根據(jù)社交網(wǎng)絡用戶的唯一標識將該用戶映射到一個或多個工作單位,提高了社交網(wǎng)絡用戶虛實映射的精確度。
【專利說明】一種社交網(wǎng)絡用戶虛實映射方法和系統(tǒng)
【技術(shù)領域】
[0001]本發(fā)明涉及計算機數(shù)據(jù)挖掘分析領域,尤其涉及一種社交網(wǎng)絡用戶虛實映射方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡在人們生活中扮演著重要的角色,微博、微信、人人網(wǎng)等已經(jīng)成為人們獲取信息、展示自我和營銷推廣的重要手段。通過社交網(wǎng)絡,人們可以方便地以虛擬身份自由發(fā)表觀點和意見,每個人都是信息的生產(chǎn)者和消費者,形成“自媒體”。匿名的社交網(wǎng)絡在一定程度上保護了用戶的隱私,但同樣也帶來了很多問題。比如,不易追蹤網(wǎng)絡虛假消息的發(fā)布者、不易定位危害國家治安言論的發(fā)布者、不易在網(wǎng)絡中追查違法犯罪行為等。盡管我國推出了網(wǎng)絡實名制注冊政策,但面對無邊界的網(wǎng)絡社會,實名制需要全國統(tǒng)一,甚至需要與世界接軌,因此在實施過程中困難重重。此外,即使是采用了實名制注冊也是后臺實名,而前臺顯示仍使用昵稱的匿名形式。因此,在網(wǎng)絡的虛擬性、匿名性等特征下,根據(jù)用戶在社交網(wǎng)絡中的虛擬身份來識別用戶的真實身份,即實現(xiàn)用戶的虛實映射,具有積極的社會意義。
[0003]目前,針對社交網(wǎng)絡中用戶虛實映射的研究主要包括以下兩個方面:一類是基于網(wǎng)絡IP地址定位網(wǎng)絡設備,如通過分析移動設備IP地址,網(wǎng)絡設備IP地址及臺式電腦IP地址等來獲取設備所在的省市信息;另一類是通過人物特征屬性對某個用戶群體進行識別,用戶的特征屬性可以包括性別、年齡段、居住地、畢業(yè)院校、性格、星座、愛好、職業(yè)等,通過挖掘網(wǎng)絡數(shù)據(jù)來識別用戶特征屬性,可以將擁有相同或相似特征屬性的用戶群挖掘出來,以便為網(wǎng)絡營銷、電商廣告提供服務。
[0004]然而,由于實踐中難以獲得社交網(wǎng)絡用戶的IP信息,因此前一類方法的適用范圍受到一定限制,不能滿足IP缺失的社交網(wǎng)絡用戶的虛實映射需求;而第二類方法面向擁有相似特征的用戶群,并不是面向個人用戶,其偏向于挖掘用戶的特征屬性分類,并不能識別用戶的真實身份。
【發(fā)明內(nèi)容】
[0005]為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種社交網(wǎng)絡用戶虛實映射方法,所述方法包括:
[0006]步驟I)、根據(jù)社交網(wǎng)絡用戶的唯一標識獲取該社交網(wǎng)絡用戶的地理位置信息,并且獲取該地理位置信息對應的地理位置的周邊單位名稱列表;
[0007]步驟2)、將所述周邊單位名稱列表中的每個單位名稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,根據(jù)匹配程度選擇一個或多個單位名稱。
[0008]在一個實施例中,步驟I)還包括:對所述周邊單位名稱列表中的每個單位名稱進行分詞,得到該單位名稱的分詞結(jié)果。
[0009]在一個實施例中,在步驟2)中,將周邊單位名稱列表中的每個單位名稱與社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配包括:
[0010]步驟21)、將每個單位名稱的全稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,如果匹配成功則使用下式計算該單位名稱的近似度權(quán)重:
[0011]weight (str) = word, size (str) *factormatchtlme(sstr)
[0012]其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word,size (str)表示單位名稱的長度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);
[0013]步驟22)、如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個分詞與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,將每個分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
[0014]在一個實施例中,步驟2 )還包括:
[0015]步驟23)、合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞。
[0016]在進一步的實施例中,步驟23)包括:
[0017]步驟231)、對于一種近似度權(quán)重,新建一棵Trie樹;
[0018]步驟232)、將具有該近似度權(quán)重的單位名稱插入所述Trie樹,得到具有共同的最大前綴的單位名稱;
[0019]步驟233)、如果該共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度,則合并具有該共同的最大前綴且具有該近似度權(quán)重的單位名稱;其中,合并后的單位名稱為該共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞;
[0020]步驟234)、銷毀所述Trie樹;
[0021]步驟235)、對于未處理的近似度權(quán)重,返回步驟231)進行處理。
[0022]在一個實施例中,步驟2 )還包括:
[0023]步驟24)、合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個,其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
[0024]在一個實施例中,在步驟2)中,根據(jù)匹配程度選擇一個或多個單位名稱包括:將單位名稱按照近似度權(quán)重進行降序排列,選擇前N個單位名稱并推送;其中N為正整數(shù)。
[0025]在一個實施例中,對周邊單位名稱列表中的每個單位名稱進行分詞包括:對所述周邊單位名稱列表中的每個單位名稱進行中文分詞,刪除長度為一個字的分詞;以及對所述周邊單位名稱列表中的每個單位名稱進行二元組分詞。
[0026]在一個實施例中,對周邊單位名稱列表中的每個單位名稱進行分詞還包括:如果對單位名稱進行分詞后得到的分詞具有別名,則將該別名加入該單位名稱的分詞結(jié)果。
[0027]在一個實施例中,步驟I)包括:
[0028]步驟11)、根據(jù)社交網(wǎng)絡用戶的唯一標識從社交網(wǎng)絡服務器獲取關于該社交網(wǎng)絡用戶的返回信息,從中得到該社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容和地理位置信息;[0029]步驟12)、根據(jù)所述社交網(wǎng)絡用戶的地理位置信息從社交網(wǎng)絡服務器獲取該地理位置信息對應的地理位置的周邊單位名稱列表。其中社交網(wǎng)絡用戶的地理位置信息包括該社交網(wǎng)絡用戶發(fā)布消息的地理位置信息和該社交網(wǎng)絡用戶簽到的地理位置信息。
[0030]在進一步的實施例中,步驟11)還包括:統(tǒng)一所述社交網(wǎng)絡用戶的地理位置信息的精確度;以及按照出現(xiàn)次數(shù)降序排序所述社交網(wǎng)絡用戶的地理位置信息,選擇前M個地理位置信息;其中M為正整數(shù)。
[0031]在進一步的實施例中,步驟12)包括:根據(jù)所選擇的M個地理位置信息,從社交網(wǎng)絡服務器獲取對應的地理位置的周邊單位名稱列表。
[0032]根據(jù)本發(fā)明的一個實施例,還提供一種社交網(wǎng)絡用戶虛實映射系統(tǒng),包括:
[0033]社交網(wǎng)絡用戶地理特征獲取設備,用于根據(jù)社交網(wǎng)絡用戶的唯一標識獲取該社交網(wǎng)絡用戶的地理位置信息,并且獲取該地理位置信息對應的地理位置的周邊單位名稱列表;以及
[0034]社交網(wǎng)絡用戶單位名稱計算推送設備,用于將所述周邊單位名稱列表中的每個單位名稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,根據(jù)匹配程度選擇一個或多個單位名稱。
[0035]在一個實施例中,所述系統(tǒng)還包括:
[0036]社交網(wǎng)絡用戶地理信息處理設備,用于對所述周邊單位名稱列表中的每個單位名稱進行分詞,得到該單位名稱的分詞結(jié)果。
[0037]在一個實施例中,所述社交網(wǎng)絡用戶單位名稱計算推送設備用于將每個單位名稱的全稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,如果匹配成功則使用下式計算該單位名稱的近似度權(quán)重:
[0038]weight (str) = word, size (str) *factormatchtlme(sstr)
[0039]其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word,size (str)表示單位名稱的長度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個分詞與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,將每個分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
[0040]在一個實施例中,所述社交網(wǎng)絡用戶單位名稱計算推送設備還用于合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞。[0041 ] 在一個實施例中,所述社交網(wǎng)絡用戶單位名稱計算推送設備還用于合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個,其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
[0042]采用本發(fā)明可以達到如下的有益效果:
[0043]本發(fā)明可根據(jù)社交網(wǎng)絡用戶的唯一標識將該社交網(wǎng)絡用戶映射到一個或多個工作單位,實現(xiàn)了社交網(wǎng)絡用戶到其工作單位的虛實映射。根據(jù)從社交網(wǎng)絡用戶地理位置信息得到的單位名稱與該用戶發(fā)布的消息內(nèi)容的匹配程度來計算每個單位名稱的可能性,提高了識別社交網(wǎng)絡用戶工作單位的準確性。對具有共同的最大前綴以及相同或互為別名的工作單位名稱進行聚合,極大程度地減少了冗余重復,進一步提高了社交網(wǎng)絡用戶虛實映射的準確性。此外,地理位置信息除了考慮用戶發(fā)布消息的位置,還考慮了用戶的簽到位置,同樣提高了用戶虛實映射的準確性。
【專利附圖】
【附圖說明】
[0044]圖1是根據(jù)本發(fā)明一個實施例的社交網(wǎng)絡用戶虛實映射方法的流程圖;
[0045]圖2是根據(jù)本發(fā)明一個實施例的單位名稱聚合方法的流程圖;
[0046]圖3是根據(jù)本發(fā)明一個實施例的構(gòu)建前綴樹的方法示意圖;以及
[0047]圖4是根據(jù)本發(fā)明一個實施例的社交網(wǎng)絡用戶虛實映射系統(tǒng)的框圖。
【具體實施方式】
[0048]下面結(jié)合附圖和【具體實施方式】對本發(fā)明進行說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0049]根據(jù)本發(fā)明的一個實施例,提供一種社交網(wǎng)絡用戶虛實映射方法。概括而言,該方法首先根據(jù)社交網(wǎng)絡用戶的唯一標識在社交網(wǎng)絡服務器上獲取該用戶的地理位置信息,并且利用獲取的地理位置信息在社交網(wǎng)絡服務器上獲取周邊的單位名稱列表;其次,根據(jù)所獲取的每個單位名稱與該用戶發(fā)布的消息內(nèi)容(例如,用戶的發(fā)言內(nèi)容、發(fā)表的博文內(nèi)容等)的匹配程度得到每個單位名稱的近似度權(quán)重;接著,對周邊單位名稱列表中的單位名稱進行聚合,以基于聚合后的近似度權(quán)重來推送一個或多個工作單位名稱。參考圖1并以微博用戶為例,該方法可使用以下步驟進行描述:
[0050]步驟SlOl:輸入微博用戶的唯一標識
[0051]步驟S102:獲取該微博用戶發(fā)布的消息內(nèi)容(即發(fā)表的博文內(nèi)容)和地理位置信息
[0052]在一個實施例中,可根據(jù)輸入的微博用戶唯一標識向社交網(wǎng)絡服務器(在本實施例中為微博服務器)發(fā)出請求,獲得批準后,在該微博服務器上抓取微博用戶發(fā)表的博文內(nèi)容和地理位置信息。如果沒有抓取到關于該微博用戶的博文內(nèi)容或地理位置的信息,則虛實映射過程結(jié)束;如果抓取成功,則由微博服務器返回包括用戶的博文內(nèi)容、發(fā)表博文的地理位置以及用戶簽到的地理位置等返回信息,其中后面兩種信息構(gòu)成微博用戶的地理位置信息。在進一步的實施例中,可以僅抓取特定時間區(qū)間內(nèi)的信息,例如抓取工作時間段內(nèi)的信息。
[0053]在一個實施例中,在抓取成功并獲得返回信息后,可首先統(tǒng)一地理位置信息的精確度。例如,由于地理位置信息通常表示為經(jīng)緯度,則可以統(tǒng)一經(jīng)緯度數(shù)據(jù)的小數(shù)點后的位數(shù)。繼而統(tǒng)計微博用戶的每個地理位置信息出現(xiàn)的次數(shù),將該出現(xiàn)次數(shù)作為指標對地理位置信息進行降序排序,選取前N個作為頻繁地理位置信息。
[0054]步驟S103:獲取周邊單位名稱列表
[0055]將上一步中獲取的地理位置信息,逐條發(fā)送給微博服務器,定位該地理位置信息對應的地理位置并且獲取該地理位置的周邊單位名稱列表。在另一個實施例中,可以將頻繁地理位置信息逐條發(fā)送給微博服務器,并且獲取對應的周邊單位名稱列表。
[0056]步驟S104:對獲取到的周邊單位名稱列表進行分詞
[0057]在一個實施例中,可采用本領域技術(shù)人員公知的分詞方法對周邊單位名稱列表中的單位名稱進行分詞,得到每個單位名稱對應的分詞結(jié)果(包括一個或多個分詞,其中分詞可包括單位名稱的全稱)。舉例來說,如果單位名稱為Entity B,則其分詞結(jié)果可包括:Entity B、Entity 以及 B。
[0058]在一個優(yōu)選的實施例中,可首先對周邊單位名稱列表中的單位名稱進行中文分詞,在中文分詞結(jié)束后再繼續(xù)對這些單位名稱進行二元組分詞。其中,中文分詞過程結(jié)束后,可移除長度為單個字的那些分詞。
[0059]在一個實施例中,在中文分詞過程中還可以參考用戶詞典,參考用戶詞典可使分詞結(jié)果更符合客戶需要。其中,用戶詞典是指用戶維護的一個詞典,參考該詞典是指用戶在分詞過程中將特定的詞分成一個分詞,而不是按照默認的方法進行分詞。
[0060]在另一個實施例中,如果在分詞過程中發(fā)現(xiàn)得到的某個分詞在別名詞庫中擁有別名(例如單位名稱縮略詞),則將該分詞的所有別名也加入該單位名稱對應的分詞結(jié)果中。其中,別名詞庫是由用戶維護的一個詞庫,用于保存多個單位名稱的別名,其幫助識別分詞和信息處理過程中擁有別名的實體和互為別名的實體,以達到提高匹配效率的目的。
[0061]步驟S105:計算每個單位名稱的近似度權(quán)重
[0062]在周邊單位名稱列表的分詞過程結(jié)束后,可計算該周邊單位名稱列表中的每個單位名稱的近似度權(quán)重,即計算單位名稱與微博用戶發(fā)表的博文內(nèi)容的匹配程度。
[0063]在一個實施例中,可首先將單位名稱對應的分詞結(jié)果與博文內(nèi)容進行匹配,能夠完全匹配的單位名稱的近似度權(quán)重高,而基本匹配的單位名稱的近似度權(quán)重低。其中,完全匹配表示單位名稱的全稱在博 文內(nèi)容中得到匹配(如Entity B成功匹配);而基本匹配表示單位名稱的分詞結(jié)果中的分詞(不包括單位名稱的全稱)在博文內(nèi)容中得到匹配(如Entity或B成功匹配)。
[0064]在一個實施例中,可根據(jù)下式來計算完全匹配的單位名稱的近似度權(quán)重:
[0065]weight (str) = word, size (str) *factormatchtlme(sstr) (I)
[0066]其中,str代表輸入字符串,例如單位名稱;weight (str)代表輸入字符串的近似度權(quán)重,word, size (str)代表輸入字符串的長度,factor代表乘數(shù)因子,matchtimes (str)代表輸入字符串與博文內(nèi)容的匹配次數(shù)。假定輸入字符串為Entity B,則word, size等于8,設置乘數(shù)因子為1.1,如果完全匹配次數(shù)為10次,那么計算得到的近似度權(quán)重約為20。
[0067]在另一個實施例中,計算基本匹配的單位名稱的近似度權(quán)重包括:計算該單位名稱對應的分詞結(jié)果中每個分詞(不包括整個單位名稱全稱)與博文內(nèi)容的匹配次數(shù)之和。
[0068]舉例來說,假定輸入的某微博用戶的唯一標識為A,由A獲取的周邊單位名稱列表中包括 Entity B、Entity C、Entity D 等,并且其中,
[0069]Entity B 的分詞結(jié)果是 Entity B, Entity, B ;
[0070]Entity C 的分詞結(jié)果是 Entity C, Entity, C ;
[0071]Entity D 的分詞結(jié)果是 Entity D, Entity, D......[0072]則可采用如下算法來計算單位名稱的近似度權(quán)重:
[0073]
算法: entityWeight
[0074]
【權(quán)利要求】
1.一種社交網(wǎng)絡用戶虛實映射方法,包括: 步驟I)、根據(jù)社交網(wǎng)絡用戶的唯一標識獲取該社交網(wǎng)絡用戶的地理位置信息,并且獲取該地理位置信息對應的地理位置的周邊單位名稱列表; 步驟2)、將所述周邊單位名稱列表中的每個單位名稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,根據(jù)匹配程度選擇一個或多個單位名稱。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)還包括: 對所述周邊單位名稱列表中的每個單位名稱進行分詞,得到該單位名稱的分詞結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,在步驟2)中,將周邊單位名稱列表中的每個單位名稱與社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配包括: 步驟21)、將每個單位名稱的全稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,如果匹配成功則使用下式計算該單位名稱的近似度權(quán)重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word, size (str)表示單位名稱的長度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù); 步驟22)、如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個分詞與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,將每個分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
4.根據(jù)權(quán)利要求3所述的方法,其中,步驟2)還包括:` 步驟23)、合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞。
5.根據(jù)權(quán)利要求4所述的方法,其中,步驟23)包括: 步驟231)、對于一種近似度權(quán)重,新建一棵Trie樹; 步驟232)、將具有該近似度權(quán)重的單位名稱插入所述Trie樹,得到具有共同的最大前綴的單位名稱; 步驟233)、如果該共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度,則合并具有該共同的最大前綴且具有該近似度權(quán)重的單位名稱;其中,合并后的單位名稱為該共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞; 步驟234)、銷毀所述Trie樹; 步驟235)、對于未處理的近似度權(quán)重,返回步驟231)進行處理。
6.根據(jù)權(quán)利要求4所述的方法,其中,步驟2)還包括: 步驟24)、合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個,其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
7.根據(jù)權(quán)利要求3-6中任何一個所述的方法,在步驟2)中,根據(jù)匹配程度選擇一個或多個單位名稱包括:將單位名稱按照近似度權(quán)重進行降序排列,選擇前N個單位名稱并推送;其中N為正整數(shù)。
8.根據(jù)權(quán)利要求2-6中任何一個所述的方法,在步驟I)中,對周邊單位名稱列表中的每個單位名稱進行分詞包括: 對所述周邊單位名稱列表中的每個單位名稱進行中文分詞,刪除長度為一個字的分詞;以及 對所述周邊單位名稱列表中的每個單位名稱進行二元組分詞。
9.根據(jù)權(quán)利要求2-6中任何一個所述的方法,其中,步驟I)還包括: 如果對單位名稱進行分詞后得到的分詞具有別名,則將該別名加入該單位名稱的分詞結(jié)果。
10.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)包括: 步驟11)、根據(jù)社交網(wǎng)絡用戶的唯一標識從社交網(wǎng)絡服務器獲取關于該社交網(wǎng)絡用戶的返回信息,從中得到該社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容和地理位置信息; 步驟12)、根據(jù)所述社交網(wǎng)絡用戶的地理位置信息從社交網(wǎng)絡服務器獲取該地理位置信息對應的地理位置的周邊單位名稱列表。
11.根據(jù)權(quán)利要求10所述的方法,其中社交網(wǎng)絡用戶的地理位置信息包括該社交網(wǎng)絡用戶發(fā)布消息的地理位置信息和該社交網(wǎng)絡用戶簽到的地理位置信息。
12.根據(jù)權(quán)利要求10或11所述的方法,其中,步驟11)還包括: 統(tǒng)一所述社交網(wǎng)絡用戶的地理位置信息的精確度;以及 按照出現(xiàn)次數(shù)降序排序所述社交網(wǎng)絡用戶的地理位置信息,選擇前M個地理位置信息;其中M為正整數(shù)。
13.根據(jù)權(quán)利要求12所述的方法,其中,步驟12)包括: 根據(jù)所選擇的M個地理位置信息,從社交網(wǎng)絡服務器獲取對應的地理位置的周邊單位名稱列表。
14.一種社交網(wǎng)絡用戶虛實映射系統(tǒng)(1),包括: 社交網(wǎng)絡用戶地理特征獲取設備(11),用于根據(jù)社交網(wǎng)絡用戶的唯一標識獲取該社交網(wǎng)絡用戶的地理位置信息,并且獲取該地理位置信息對應的地理位置的周邊單位名稱列表;以及 社交網(wǎng)絡用戶單位名稱計算推送設備(13),用于將所述周邊單位名稱列表中的每個單位名稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,根據(jù)匹配程度選擇一個或多個單位名稱。
15.根據(jù)權(quán)利要求14所述的系統(tǒng)(I),其中,所述系統(tǒng)還包括: 社交網(wǎng)絡用戶地理信息處理設備(12),用于對所述周邊單位名稱列表中的每個單位名稱進行分詞,得到該單位名稱的分詞結(jié)果。
16.根據(jù)權(quán)利要求15所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡用戶單位名稱計算推送設備(13)用于將每個單位名稱的全稱與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,如果匹配成功則使用下式計算該單位名稱的近似度權(quán)重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word, size (str)表示單位名稱的長度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個分詞與所述社交網(wǎng)絡用戶發(fā)布的消息內(nèi)容進行匹配,將每個分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
17.根據(jù)權(quán)利要求16所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡用戶單位名稱計算推送設備(13)還用于合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫中或者其長度達到預定長度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫用于存放指示地理位置的前綴詞。
18.根據(jù)權(quán)利要求16所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡用戶單位名稱計算推送設備(13)還用于合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個,其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之 和。
【文檔編號】G06F17/30GK103745014SQ201410042782
【公開日】2014年4月23日 申請日期:2014年1月29日 優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】梁英, 胡開先, 許洪波, 程學旗, 張國清 申請人:中國科學院計算技術(shù)研究所