專利名稱:一種社會化的搜索引擎方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域中的搜索引擎技術(shù),具體為一種社會化的搜索引擎方法和系統(tǒng)。
背景技術(shù):
搜索引擎作為互聯(lián)網(wǎng)信息檢索的重要工具,極大地節(jié)省了用戶獲取信息的時間和精力。然而,隨著網(wǎng)絡(luò)的普及,存在于網(wǎng)絡(luò)資源池中的數(shù)據(jù)呈指數(shù)型增長,搜索引擎已經(jīng)越來越難以滿足用戶的搜索需求。特別是Web2. O的出現(xiàn)與發(fā)展,更多地考慮了人的因素,充分發(fā)揮了人的互動性,更促使互聯(lián)網(wǎng)成為了一個人們可以將自己隱性知識轉(zhuǎn)化流通、可共享顯性知識的互動平臺。因而,互聯(lián)網(wǎng)中的信息資源也不再僅僅依靠網(wǎng)站管理人員建立和維護(hù),普通用戶成為信息的締造者和使用者,改變了以往用戶信息獲取的推送模式,呈現(xiàn)出去中心化的含義。目前,隨著社交網(wǎng)站、個人主頁、博客、微博、視頻和圖片分享等網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,極大地體現(xiàn)了人們對互動性的渴求。特別是微博的興起,以一條簡短的狀態(tài)信息來反映用戶自身最新的狀況,改變了長久以來始終以網(wǎng)頁作為信息獲取基本單元的模式,用戶希望通過參與、交流,獲取個性化、可信任的信息。然而這種對互動性的訴求是目前搜索引擎通過在搜索框中鍵入關(guān)鍵字進(jìn)行匹配所難以滿足的。同時,在互聯(lián)網(wǎng)海量信息面前,以Google、百度為代表的機(jī)器搜索依然強(qiáng)調(diào)算法,試圖用不斷提高的機(jī)器性能和不斷改進(jìn)的算法技術(shù)來提升用戶的搜索體驗(yàn),已漸漸顯得力不從心,無論是精準(zhǔn)度還是效率都不能滿足人的需要。近年來,百度貼吧、搜狗愛問等問答系統(tǒng)的出現(xiàn)雖然在一定程度上滿足了人們對互動性的要求,但是由于其答題者常常未經(jīng)篩選,也未能發(fā)揮提問者的主觀判斷性,往往導(dǎo)致大量垃圾信息的出現(xiàn)。
發(fā)明內(nèi)容
針對以上問題,本發(fā)明基于微博平臺,提供了一種社會化的搜索引擎方法,來幫助用戶獲取準(zhǔn)確、可信任的信息,從而提高搜索引擎的查全率和查準(zhǔn)率。為了達(dá)到上述目的,本發(fā)明采用了以下技術(shù)方案一種社會化的搜索引擎方法,包括以下步驟( I)基于微博,建立專家信息庫;(2)獲取用戶查詢請求,根據(jù)查詢請求在專家信息庫中找到與之相關(guān)的專家;(3)將用戶的查詢請求發(fā)送給一個或多個專家;(4)用戶請求轉(zhuǎn)發(fā)后,對此請求進(jìn)行實(shí)時追蹤,及時抓取專家返回的結(jié)果;(5)對步驟(4)中返回的結(jié)果進(jìn)行處理,并返回給用戶。所述的搜索引擎方法,其特征是,所述步驟(I)包括以下步驟(I. I)爬取微博網(wǎng)站上的網(wǎng)頁,抽取其中微博用戶的基本信息;(I. 2)提取微博用戶的微博關(guān)鍵詞;
(1.3)計(jì)算微博用戶的綜合影響力。所述的搜索引擎方法,其特征是,步驟(I. I)所述微博用戶的基本信息包括微博用戶名、微博賬號、所在地、聯(lián)系郵箱、用戶標(biāo)簽、用戶簡介、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)。所述的搜索引擎方法,其特征是,步驟(I. 2)中,若用戶標(biāo)簽不為空,則將其作為該用戶的微博關(guān)鍵詞;否則,將從該用戶最新發(fā)表的M篇微博狀態(tài)中提取關(guān)鍵詞作為該用戶的微博關(guān)鍵詞,其中M為自定義值。所述的搜索引擎方法,其特征是,步驟(I. 3),即利用公式(I)計(jì)算微博用戶的綜合影響力Wu ^dlNfans+S2CPiNmm+^2Nsutai)(I)
權(quán)利要求
1.一種社會化的搜索引擎方法,包括以下步驟 (1)基于微博,建立專家信息庫; (2)獲取用戶查詢請求,根據(jù)查詢請求在專家信息庫中找到與之相關(guān)的專家; (3)將用戶的查詢請求發(fā)送給一個或多個專家; (4)用戶請求轉(zhuǎn)發(fā)后,對此請求進(jìn)行實(shí)時追蹤,及時抓取專家返回的結(jié)果; (5)對步驟(4)中返回的結(jié)果進(jìn)行處理,并返回給用戶。
2.如權(quán)利要求I所述的搜索引擎方法,其特征是,所述步驟(I)包括以下步驟 (I. I)爬取微博網(wǎng)站上的網(wǎng)頁,抽取其中微博用戶的基本信息; (I. 2)提取微博用戶的微博關(guān)鍵詞; (I. 3)計(jì)算微博用戶的綜合影響力。
3.如權(quán)利要求2所述的搜索引擎方法,其特征是,步驟(I.I)所述微博用戶的基本信息包括微博用戶名、微博賬號、所在地、聯(lián)系郵箱、用戶標(biāo)簽、用戶簡介、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)。
4.如權(quán)利要求3所述的搜索引擎方法,其特征是,步驟(I.2)中,若用戶標(biāo)簽不為空,則將其作為該用戶的微博關(guān)鍵詞;否則,將從該用戶最新發(fā)表的M篇微博狀態(tài)中提取關(guān)鍵詞作為該用戶的微博關(guān)鍵詞,其中M為自定義值。
5.如權(quán)利要求2所述的搜索引擎方法,其特征是,步驟(I.3),即利用公式(I)計(jì)算微博用戶的綜合影響力 K+S2Cp1^tten+P2^statlls)(I) —W戶粉絲數(shù)α) 1 —專家?guī)熘杏脩舴劢z數(shù)最大值Ν =用戶關(guān)注數(shù)(ffl) —專家?guī)熘杏脩絷P(guān)注數(shù)最大值A(chǔ)r —用戶微博數(shù),、α —專家?guī)熘杏脩粑⒉?shù)最大值' 其中Wu表示微博用戶u的綜合影響力,Nfans、Nattra^P Nstatus分別表示微博用戶u的粉絲數(shù)占有率、關(guān)注數(shù)占有率和微博數(shù)占有率,4、β i為權(quán)重因子。
6.如權(quán)利要求I至5之一所述的搜索引擎方法,其特征是,步驟(2)包括以下步驟 (2. I)獲取用戶查詢請求; (2. 2)對獲取的用戶查詢請求進(jìn)行分詞、關(guān)鍵詞提取,從而得到用戶查詢關(guān)鍵詞; (2. 3)將用戶查詢關(guān)鍵詞與專家信息庫中微博用戶的微博關(guān)鍵詞進(jìn)行匹配; (2. 4)將匹配成功的微博用戶按其綜合影響力進(jìn)行排序后返回給用戶。
7.如權(quán)利要求I所述的搜索引擎方法,其特征是,步驟(3)包括以下步驟 (3. I)用戶自主選擇由步驟(2)得到的與查詢相關(guān)的專家列表,若用戶未自主選擇,則自動為用戶選擇排名前η位的專家,η為自定義值; (3. 2)轉(zhuǎn)發(fā),以電子郵件或評論的形式向步驟(3. I)中所選專家轉(zhuǎn)發(fā)用戶查詢請求。
8.如權(quán)利要求I所述的搜索引擎方法,其特征是,步驟(4)包括以下步驟(4. I)用戶請求轉(zhuǎn)發(fā)后,對此請求進(jìn)行實(shí)時追蹤; (4. 2)及時抓取專家返回的結(jié)果。
9.如權(quán)利要求I所述的搜索引擎方法,其特征是,步驟(5)包括以下步驟 (5. I)計(jì)算結(jié)果得分,利用公式(V)計(jì)算步驟(4)返回的各條結(jié)果
10.一種社會化的搜索引擎系統(tǒng),包括信息爬取模塊、信息抽取模塊、專家數(shù)據(jù)庫、查詢請求處理模塊,其特征是, 所述信息爬取模塊,用于爬取微博網(wǎng)站上的微博用戶信息; 所述信息抽取模塊,用于把爬取道德微博用戶信息進(jìn)行抽取、組織,然后把組織好的微博用戶信息保存到專家數(shù)據(jù)庫中; 所述查詢請求處理模塊,用于接收用戶查詢請求;把該查詢請求和專家數(shù)據(jù)庫中的專家進(jìn)行匹配;把匹配到的專家返回給用戶,缺省選定η個專家,用戶可以自行更改選中的專家;把用戶請求發(fā)送給選中的專家;跟蹤專家反饋,把反饋信息展現(xiàn)給用戶。
全文摘要
一種社會化的搜索引擎方法,首先基于微博,抽取微博用戶的基本信息,建立專家信息庫,然后獲取用戶查詢請求,根據(jù)查詢請求在專家信息庫中找到與之相關(guān)的專家,接著依據(jù)用戶自主選擇,將用戶的查詢請求轉(zhuǎn)發(fā)給一個或多個被選專家,進(jìn)而,在用戶請求轉(zhuǎn)發(fā)后,對此請求進(jìn)行實(shí)時追蹤,及時抓取專家返回的結(jié)果,最后對查詢結(jié)果進(jìn)行處理,并返回給用戶。此方法更多的考慮了人的因素,通過幫助用戶找到與查詢最為相關(guān)的專家,在充分發(fā)揮用戶主觀判斷能力下,實(shí)現(xiàn)人到人的信息獲取模式,從而提高搜索引擎的查全率和查準(zhǔn)率。
文檔編號G06F17/30GK102930029SQ20121044118
公開日2013年2月13日 申請日期2012年11月7日 優(yōu)先權(quán)日2012年11月7日
發(fā)明者王愷, 莫倩, 張樹, 張傳文, 李陽 申請人:北京網(wǎng)智天元科技有限公司, 北京工商大學(xué)