欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向事件的微博搜索方法

文檔序號:10655289閱讀:404來源:國知局
一種面向事件的微博搜索方法
【專利摘要】本發(fā)明公開了一種面向事件的微博搜索方法,包括微博的索引策略和對最后搜索結果的排名。微博索引策略是指對滿足什么條件的微博進行搜因和怎樣對這些微博進行索引,索引策略直接影響索引和查詢的效率。本發(fā)明采用部分索引策略,只對和事件相關的微博進行索引,僅僅對包含主題標簽或者命名實體的微博進行索引;索引結構則是采用的是簡單的單倒排索引。對搜索結果的排名是指對搜索結果按照一定的策略進行排名,從而將最符合用戶需求的結果呈現(xiàn)給用戶。本發(fā)明的排名機制將用戶的重要性和微博本身的特性進行線性組合:用戶的重要性是考慮到微博中用戶的關注的數(shù)量和被關注的數(shù)量,微博本身的特性則涉及到某條微博的被轉發(fā)次數(shù)和評論次數(shù)。
【專利說明】
-種面向事件的微博搜索方法
技術領域
[0001] 本發(fā)明屬于社交網(wǎng)絡領域,更具體地,設及一種面向事件的微博捜索方法的微博 的索引策略和排名技術。
【背景技術】
[0002] 微博捜索是對微博信息進行即時、快速捜索,實時地將用戶產生的微博信息作為 查詢結果返回給其他用戶。微博捜索的問世使得人們在現(xiàn)實中獲取外界信息變得更加實時 化、簡單化和便捷化。相比傳統(tǒng)捜索引擎,微博實時捜索需要具備高插入率、低查詢延時、實 時數(shù)據(jù)可用性W及高并發(fā)讀寫的特性。一項調查研究顯示,截至2012年3月,Twitter每天會 產生約3.4億條推文,處理約16億的網(wǎng)絡捜索請求;而新浪微博平均每天產生超過1億條微 博,高峰期每秒能夠達到13000條,如此快速的微博產生速度給微博實時捜索平臺提出了研 究更高效索引方法的要求,用W支持微博的快速索引和實時查詢。
[0003] 在微博捜索方面,為提高捜索質量和效率,研究者也提出了一些索引策略,主要包 括全局索引策略和部分索引策略。全局索引是指將所有的微博都會插入到索引中去,部分 索引則會按照一定的機制去掉一些無效的微博,將有效的微博插入到索引中去。雖然現(xiàn)有 的方法能處理運一問題,運些方法均有它們的局限性。Twitter每天會產生約3.4億條推文, 運么大的數(shù)據(jù)量,對于全局索引的要求是非常高的,需要復雜的索引結構的設計來處理運 些微博。運些復雜的索引結構就需要更高的維護開銷和查詢開銷。部分索引對于無效微博 的確定也是仁者見仁智者見智的,并沒有一個有效的方法,因此會帶來結果的不精確性。另 外現(xiàn)有的捜索系統(tǒng),針對最后結果的排序,基本上都是依靠微博的發(fā)表時間進行排序的,運 不能很好的滿足用戶的需求。
[0004] 為了減少索引的時間,索引維護和查詢的開銷,滿足用戶的需求。我們設計了一種 面向事件的微博捜索方法,包括一個部分索引即只索引和事件相關的微博和一個微博排名 函數(shù)。研究表明幾乎所有的和實際事件相關的微博都會關聯(lián)到一個主題標簽或者命名實 體,運樣索引和事件相關的微博便可W轉換成索引包含主題比前或者命名實體的微博。

【發(fā)明內容】

[0005] 針對現(xiàn)有技術的缺陷,本發(fā)明的目的在于提供一種面向事件的微博捜索方法,旨 在解決上述方法索引速度慢,維護索引結構開銷大和查詢開銷打的問題,同時能夠更好的 滿足用戶的需求。
[0006] 為了實現(xiàn)上述目的,本發(fā)明提供一種面向事件的微博捜索方法,包括W下步驟:
[0007] (1)對原始的微博數(shù)據(jù)集進行W下的預處理:首先除去微博中的一些噪音,然后利 用詞袋模型將微博中的單詞轉化存儲,W方便索引。
[000引(2)去掉微博中的一些噪音之后,便可W對微博按照部分索引策略進行單倒排索 引了,并將不相關的微博寫入到日志文件
[0009] (3)用戶U輸入關鍵字K,捜索和關鍵字K相關的微博,并等待捜索方法返回結果。
[0010] (4)系統(tǒng)接受關鍵字并在索引結構中查找和關鍵字相關的微博,并保存查詢到的 微博。
[0011] (5)首先對查詢到的微博按照排名函數(shù)進行打分,然后將每條微博按照打分的降 序進行排名,最后將捜索結果返回給用戶U。
[0012] 優(yōu)選地,步驟(1)包括W下步驟:
[0013] (1-1)為了去掉數(shù)據(jù)集中的噪音,對數(shù)據(jù)集進行了一系列的處理。首先除去數(shù)據(jù)集 中的停用詞和無用詞,然后我們利用一個開源的化va庫,將數(shù)據(jù)集中的單詞轉化為詞根的 形式即將英文單詞轉化為其原形的形式。最后我們除去在整個數(shù)據(jù)集中出現(xiàn)頻率小于5的 主題標簽和出現(xiàn)頻率小于50的單詞和單詞數(shù)小于3的微博。
[0014] (1-2)為了便于單詞的查找,需要將單詞轉化存儲,將單詞添加到詞典W及完成單 詞與單詞i d之間的映射過程,具體的用到JAVA中的化ShMap類。
[0015] 優(yōu)選地,步驟(2)包括W下步驟:
[0016] (2-1)對于已經去掉噪音的微博,判斷該條微博中是否包含主題標簽或者命名實 體。
[0017] (2-2)如果該條微博中包含主題標簽或者命名實體,則表明該條微博和事件是相 關的,將其加入到單倒排索引中去,否則將其加入到日志文件中去。
[0018] (2-3)周期性檢測微博加入到索引中的時間,如果某條微博加入到索引的時間超 過15天,則將該條微博從索引結構中去掉,然后將其加入到日志文件中去。
[0019] 優(yōu)選地,步驟(4)具體為,對于用戶U給定的關鍵詞K,利用相似度公式計算其和索 引中的微博的相似性,得到和關鍵詞K相似的微博。
[0020] 優(yōu)選地,步驟(5)包括W下步驟:
[0021] (5-1)計算每個用戶的重要性,具體為考慮到每個用戶的關注的數(shù)量和被關注的 數(shù)量。給定某個用戶U,他關注的人的個數(shù)為fo,關注他的人數(shù)
[0022] 的個數(shù)為fe。用R(U)表示用戶U的重要性,則用戶U的計算公式為:
[0023]
[0024] A的取值范圍是0到1,因為考慮到關注某個用戶的人數(shù)fe,會比他關注的人數(shù)fo更 重要。
[0025] (5-2)除了用戶的重要性會影響微博的排名之外,微博本身自帶的一些屬性也會 影響排名。運一步計算微博自身屬性的重要性。微博本身的屬性主要包括微博的評論數(shù)和 微博的被轉發(fā)數(shù)。給定一條微博t,讓r表示微博的被轉發(fā)的次數(shù),C表示用戶的評論數(shù),微博 本身的屬性A(t)的計算公式如下所示。
[0026]
[0027] (5-3) 1^線性組合將每個用戶的重要性和每條的微博的重要性聯(lián)合在一起,給定 用戶一個U和一條微博t,最后的排名分數(shù)的計算公式為:
[002引
[0029] 公式中T是線性組合的參數(shù),取值在0到I之間。公式中timei表示微博t的發(fā)表時 間,而times則表示查詢時間。
[0030] (5-4)計算步驟(4)的得到的微博,計算每條微博的RankScore值,按照RankScore 的值的降序將運些微博排序,然后將結果返回給用戶U。
[0031] 通過本發(fā)明所構思的W上
【發(fā)明內容】
,與現(xiàn)有方法相比,本發(fā)明具有W下的有益效 果:
[0032] 1、索引的效率高,并不需要額外的開銷用來維護復雜的索引結構:在步驟(3)中, 本發(fā)明采用部分索引策略,只是針對包含主題標簽或者命名實體的微博進行索引,運樣便 會使索引的微博量少,從而不需要復雜的索引結構處理大量的微博流。
[0033] 2、提高用戶的用戶體驗:越來越多的用戶在捜索微博時只想得到一些和熱點事件 相關的微博而且只會查看結果的前幾條,步驟(3)只索引和事件相關的微博運樣去除了事 件無關微博,步驟(5)的排名函數(shù)提高了捜索結果的質量。
【附圖說明】
[0034] 圖1是本發(fā)明面向事件的微博捜索方法的原理圖。
【具體實施方式】
[0035] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,W下結合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。
[0036] 如圖1所示,本發(fā)明提供了一種面向事件的微博捜索方法:
[0037] (1)對原始的微博數(shù)據(jù)集進行W下的預處理:首先除去微博中的一些噪音,然后利 用詞袋模型將微博中的單詞轉化存儲,W方便索引,集體包含W下步驟:
[0038] (1-1)為了去掉數(shù)據(jù)集中的噪音,對數(shù)據(jù)集進行了一系列的處理。首先除去數(shù)據(jù)集 中的停用詞和無用詞,然后我們利用一個開源的化va庫,將數(shù)據(jù)集中的單詞轉化為詞根的 形式即將英文單詞轉化為其原形的形式。最后我們除去在整個數(shù)據(jù)集中出現(xiàn)頻率小于5的 主題標簽和出現(xiàn)頻率小于50的單詞和單詞數(shù)小于3的微博。
[0039] (1-2)為了便于單詞的查找,需要將單詞轉化存儲,將單詞添加到詞典W及完成單 詞與單詞i d之間的映射過程,具體的用到JAVA中的化ShMap類。
[0040] (2)對去掉微博中的一些噪音之后,便可W對微博按照部分索引策略進行單倒排 索引了,并將不相關的微博寫入到日志文件。
[0041] (2-1)對于已經去掉噪音的微博,判斷該條微博中是否包含主題標簽或者命名實 體。
[0042] (2-2)如果該條微博中包含主題標簽或者命名實體則表明該條微博是和事件相關 的,將其加入到單倒排索引中去,否則將其加入到日志文件中去。
[0043] (2-3)周期性檢測微博加入到索引中的時間,如果某條微博加入到索引的時間超 過15天,則將該條微博從索引結構中去掉,然后將其加入到日志文件中去。
[0044] (3)用戶U輸入關鍵字K,捜索和關鍵字K相關的微博,并等待捜索方法返回結果。
[0045] (4)系統(tǒng)接受關鍵字并在索引結構中查找和關鍵字相關的微博,具體為對于用戶U 給定的關鍵詞K,利用相似度公式計算其和索引中的微博的相似性,得到和關鍵詞K相似的 微博,并保存在一個數(shù)據(jù)接頭中。
[0046] (5)首先對查詢到的微博按照排名函數(shù)進行打分,然后將每條微博按照打分的降 序進行排名,最后將捜索結果返回給用戶U,包括W下步驟:
[0047] (5-1)計算每個用戶的重要性,具體為考慮到每個用戶的關注的數(shù)量和被關注的 數(shù)量。給定某個用戶U,他關注的人的個數(shù)為fo,關注他的人數(shù)
[0048] 的個數(shù)為fe。用R(U)表示用戶U的重要性,則用戶U的計算公式為:
[0049]
[0050] A的取值范圍是0到1,因為考慮到關注某個用戶的人數(shù)fe,會比他關注的人數(shù)fo更 重要。
[0051] (5-2)除了用戶的重要性會影響微博的排名之外,微博本身自帶的一些屬性也會 影響排名。運一步計算微博自身屬性的重要性。微博本身的屬性主要包括微博的評論數(shù)和 微博的被轉發(fā)數(shù)。給定一條微博t,讓r表示微博的被轉發(fā)的次數(shù),C表示用戶的評論數(shù),微博 本身的屬性A(t)的計算公式如下所示。
[0化2]
[0053] (5-3) W線性組合將每個用戶的重要性和每條的微博的重要性聯(lián)合在一起,給定 用戶一個U和一條微博t,最后的排名分數(shù)的計算公式為:
[0化4]
[0055]公式中T是線性組合的參數(shù),取值在0到1之間。公式中timei表示微博t的發(fā)表時 間,而times則表示查詢時間。
[0化6] (5-4)計算步驟(4)的得到的微博,計算每條微博的RankScore值,按照RankScore 的值的降序將運些微博排序,然后將結果返回給用戶U。
[0057]本領域的技術人員容易理解,W上所述僅為本發(fā)明的較佳實施例而已,并不用W 限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含 在本發(fā)明的保護范圍之內。
【主權項】
1. 一種面向事件的微博搜索方法,其特征在于,包括以下步驟: (1) 對原始的微博數(shù)據(jù)集進行預處理:除去微博中的噪音,利用詞袋模型將微博中的單 詞轉化存儲,以方便索引; (2) 對微博按照部分索引的策略進行單倒排索引,并將不相關的微博寫入到日志文件; (3) 用戶輸入關鍵字,搜索和關鍵字相關的微博,并等待搜索方法返回結果; (4) 系統(tǒng)接受關鍵字并在索引結構中查找和關鍵字相關的微博,并保存查詢到的微博; (5) 對查詢到的微博按照排名函數(shù)進行打分,將每條微博按照打分的降序進行排名,將 搜索結果返回給用戶。2. 根據(jù)權利要求1所述的面向事件的微博搜索方法,其特征在于,所述步驟(1)包括以 下子步驟: (1-1)首先除去數(shù)據(jù)集中的停用詞和無用詞;然后利用一個開源的Java庫,將數(shù)據(jù)集中 的單詞轉化為詞根的形式即將英文單詞轉化為其原形的形式;最后除去在整個數(shù)據(jù)集中出 現(xiàn)頻率小于5的主題標簽和出現(xiàn)頻率小于50的單詞和單詞數(shù)小于3的微博; (1-2)將單詞轉化存儲,將單詞添加到詞典以及完成單詞與單詞id之間的映射。3. 根據(jù)權利要求1或2所述的面向事件的微博搜索方法,其特征在于,所述步驟(2)包括 以下子步驟: (2-1)判斷該條微博中是否包含主題標簽或者命名實體; (2-2)如果該條微博中包含主題標簽或者命名實體則表明該微博與事件相關,將其加 入到單倒排索引中去,否則將其加入到日志文件中去; (2-3)周期性檢測微博加入到索引中的時間,如果某條微博加入到索引的時間超過15 天,則將該條微博從索引結構中去掉,然后將其加入到日志文件中去。4. 根據(jù)權利要求1或2所述的面向事件的微博搜索方法,其特征在于,所述步驟(4)的具 體為,對于用戶U給定的關鍵詞K,利用相似度公式計算其和索引中的微博的相似性,得到和 關鍵詞K相似的微博。5. 根據(jù)權利要求1或2所述的面向事件的微博搜索方法,其特征在于,所述步驟(5)的具 體為: (5-1)計算每個用戶的重要性,用戶U的重要性R(U)計算公式為:其中f〇為用戶U關注的人的個數(shù),fe為關注用戶U的人的個數(shù),用R(U)表示用戶U的重要 性,λ的取值范圍是0到1; (5-2)計算微博自身屬性的重要性,微博t本身的屬性A(t)的計算公式如下所示:其中r表示微博的被轉發(fā)的次數(shù),c表示用戶的評論數(shù); (5-3)以線性組合將每個用戶的重要性和每條的微博的重要性聯(lián)合在一起,對于用戶 一個u和一條微博t,最后的排名分數(shù)的計算公式為:其中τ是線性組合的參數(shù),取值在O到1之間,〖加的表示微博t的發(fā)表時間,而time2則表 示查詢時間; (5-4)計算步驟(4)的得到的微博的RankScor e值,按照RankScore的值的降序將這些微 博排序,然后將結果返回給用戶U。
【文檔編號】G06F17/30GK106021450SQ201610325193
【公開日】2016年10月12日
【申請日】2016年5月17日
【發(fā)明人】趙峰, 朱亞軍, 王沛, 金海
【申請人】華中科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
区。| 施甸县| 泰和县| 宜黄县| 泰顺县| 锡林郭勒盟| 陆丰市| 屏南县| 邵阳县| 海林市| 东兰县| 奇台县| 攀枝花市| 泰安市| 洛阳市| 井冈山市| 和顺县| 岗巴县| 肃宁县| 博野县| 营口市| 伊吾县| 庆城县| 那曲县| 屏东市| 柳江县| 青河县| 牡丹江市| 武宣县| 密云县| 栾川县| 栾川县| 理塘县| 越西县| 太保市| 平顶山市| 邳州市| 蒙自县| 庄浪县| 天镇县| 宜章县|