欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

微博消息檢索系統(tǒng)與方法

文檔序號:6366302閱讀:228來源:國知局
專利名稱:微博消息檢索系統(tǒng)與方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索,尤其涉及對微博消息的檢索。
背景技術(shù)
自2006年第一個(gè)微博Twitter誕生以來,微博服務(wù)一直保持可觀的增長態(tài)勢,其增長主要表現(xiàn)在如下兩個(gè)方面I)用戶的增長=Twitter用戶自2008年開始井噴,到2011年底達(dá)到全球約三億人的規(guī)模。境內(nèi)微博用戶數(shù)也顯著增長新浪微博推出兩年間,用戶數(shù)量實(shí)現(xiàn)從零到超過兩億的奇跡。騰訊微博借助其龐大的QQ用戶群體,其微博用戶在數(shù)量上甚至超過了新浪微博。2)影響力的增長由于用戶量激增,微博對世界的影響力之巨大,已經(jīng)超越同時(shí) 期任何一個(gè)互聯(lián)網(wǎng)服務(wù)。其開放的媒體特性,使得微博改變了世界的話語權(quán)分配體系;其強(qiáng)大的時(shí)效性,引來從政府、公司到民間所有人的重視,2011年政府各個(gè)部門、大公司紛紛開設(shè)官方微博就是例證。微博的一個(gè)重要服務(wù)是消息的實(shí)時(shí)檢索。由于前述微博用戶規(guī)模和影響力的擴(kuò)大,微博消息的產(chǎn)生頻率急劇提升,至2011年底,新浪微博每日消息量達(dá)到兩億條的規(guī)模,Twitter的每日消息量也為億級別。海量數(shù)據(jù)對實(shí)時(shí)檢索的反應(yīng)效率和準(zhǔn)確率提出了挑戰(zhàn)。主流微博采取的應(yīng)對方法為利用哈希標(biāo)簽提示檢索系統(tǒng)將一條消息歸入某個(gè)話題。例如,Twitter使用“#中國”、新浪微博中使用“#中國#”來表示當(dāng)前消息屬于題為“中國”的話題。然而,該種方法具有多種局限性首先,該哈希標(biāo)簽需要消息發(fā)布者主動按照規(guī)定規(guī)則自行書寫,且各個(gè)微博服務(wù)的格式并不統(tǒng)一,因此符合某話題,但用戶并不知道如何打哈希標(biāo)簽、或者不知道某個(gè)哈希標(biāo)簽表示某個(gè)話題而打上了錯(cuò)誤或影響較小的標(biāo)簽,可能導(dǎo)致該條消息無法被檢索系統(tǒng)實(shí)時(shí)檢索并提供。其次,哈希標(biāo)簽方式將話題局限為一個(gè)詞,無法保證搜索用戶全方位取得某個(gè)話題或事件相關(guān)的所有消息。例如,以“首都機(jī)場”標(biāo)簽搜索,無法完全獲得當(dāng)日北京大霧相關(guān)的所有信息,而這些信息很可能是搜索者所希望得到的。最后,除了微博消息(其是一種短文本信息)外,微博中還有用戶主體信息,如用戶的類型、屬性、偏好等。哈希標(biāo)簽方式無法將微博用戶屬性信息應(yīng)用到數(shù)據(jù)檢索服務(wù)中。

發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種微博消息檢索系統(tǒng),兼顧多個(gè)詞之間的關(guān)聯(lián)關(guān)系以及用戶屬性,改善了檢索效果和用戶體驗(yàn)。本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的—方面,本發(fā)明提供了一種微博消息檢索系統(tǒng),該系統(tǒng)包括微博存儲模塊,用于保存最新發(fā)布的微博消息以及微博用戶信息;詞關(guān)聯(lián)關(guān)系模塊,用于定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系;檢索管理模塊,用于根據(jù)詞語間的關(guān)聯(lián)關(guān)系,將與檢索用戶輸入的查詢詞關(guān)聯(lián)的多個(gè)詞作為推薦詞列表返回給檢索用戶,以及用于根據(jù)檢索用戶構(gòu)建的話題來對微博存儲模塊進(jìn)行檢索;所述話題是由檢索用戶通過建立推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建的。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以定期地從微博存儲模塊提取最新發(fā)布的微博消息,計(jì)算每條消息的摘要,提取并保存該摘要中的詞語間的關(guān)聯(lián)關(guān)系。上述技術(shù)方案中,所述檢索管理模塊可以將與所述查詢詞之間的連邊權(quán)值最高的前n個(gè)詞作為推薦詞列表提供給檢索用戶,所述兩個(gè)詞間的連邊權(quán)值是這兩個(gè)詞間的關(guān)聯(lián)關(guān)系出現(xiàn)的次數(shù)。上述技術(shù)方案中,所述邏輯關(guān)系可以包括“邏輯與”和/或“邏輯或”和/或“邏輯非”。檢索用戶可以從所述推薦詞列表中選擇0個(gè)或多個(gè)詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,以形成一個(gè)話題。檢索用戶可以從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成一個(gè)話題。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將微博消息作為短文本,根據(jù)對短文本長期積累形成一個(gè)專用于短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將微博消息作為短文本,將一批發(fā)布時(shí)間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要。上述技術(shù)方案中,詞關(guān)聯(lián)關(guān)系模塊可以將對每條微博消息所計(jì)算的摘要作為該消息的屬性保存到微博存儲模塊。上述技術(shù)方案中,該系統(tǒng)還可以包括微博用戶屬性計(jì)算模塊,用于獲取微博用戶最近發(fā)布的m條微博消息的摘要,選擇在這些摘要中出現(xiàn)頻率最高的前k個(gè)詞作為該微博用戶的個(gè)人屬性標(biāo)簽。上述技術(shù)方案中,微博用戶屬性計(jì)算模塊還可以用于定期更新微博用戶的個(gè)人屬性標(biāo)簽。上述技術(shù)方案中,檢索管理模塊還可以用于將所構(gòu)建的話題作為檢索條件,對微博用戶的個(gè)人屬性標(biāo)簽進(jìn)行檢索,給檢索用戶推薦符合檢索條件的微博用戶和/或其發(fā)布的消息。又一個(gè)方面,本發(fā)明提供了一種微博消息檢索方法,該方法包括步驟I)由檢索管理模塊接收檢索用戶輸入的查詢詞;步驟2)由檢索管理模塊將與該查詢詞之間的連邊權(quán)值最高的前n個(gè)詞作為推薦詞列表返回給檢索用戶;步驟3)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題;步驟4)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博存儲模塊進(jìn)行檢索,將符合該檢索條件的微博消息返回給檢索用戶。上述技術(shù)方案中,在步驟3)可以由檢索用戶從所述推薦詞列表中選擇0個(gè)或多個(gè)詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,從而形成一個(gè)話題。上述技術(shù)方案中,在步驟3)可以由檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成一個(gè)話題。上述技術(shù)方案中,還可以包括步驟5)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博用戶的個(gè)人屬性標(biāo)簽進(jìn)行檢索,將符合該檢索條件的微博用戶和/或其所發(fā)布的消息返回給檢索用戶。上述技術(shù)方案中,在步驟2)之前,還可以包括由檢索管理模塊將包含該查詢詞的微博消息返回給檢索用戶的步驟。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于
將現(xiàn)有微博中基于一個(gè)關(guān)鍵詞的檢索擴(kuò)展為基于由多個(gè)詞構(gòu)成的話題的檢索,能夠改善檢索效果,提高用戶體驗(yàn)。而且,通過利用微博用戶的愛好與屬性,提供一種基于人的信息查詢手段,能夠在最大程度上向檢索用戶提供其所關(guān)心的話題消息數(shù)據(jù)。


以下參照附圖對本發(fā)明實(shí)施例作進(jìn)一步說明,其中圖I為根據(jù)本發(fā)明實(shí)施例的微博消息檢索系統(tǒng)的結(jié)構(gòu)示意圖;圖2為根據(jù)本發(fā)明實(shí)施例的微博消息檢索方法的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過具體實(shí)施例對本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖I所示的是根據(jù)本發(fā)明一個(gè)實(shí)施例的微博消息實(shí)施檢索系統(tǒng)的結(jié)構(gòu)示意圖。該系統(tǒng)包括檢索管理模塊100、詞關(guān)聯(lián)關(guān)系模塊200、微博用戶屬性模塊300和微博存儲模塊400。其中,檢索管理模塊100用于提供與檢索用戶交互的接口以及給檢索用戶提供檢索服務(wù)。詞關(guān)聯(lián)關(guān)系模塊200用于詞關(guān)聯(lián)關(guān)系模塊定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系(詞語間的關(guān)聯(lián)關(guān)系也可以稱為詞語關(guān)聯(lián)關(guān)系或詞關(guān)系)。微博用戶屬性模塊300用于提取微博用戶的消息,根據(jù)其消息的摘要,確定該微博用戶的個(gè)人屬性標(biāo)簽,并將該標(biāo)簽保存到微博存儲模塊中。微博存儲模塊400用于保存近期發(fā)布的微博消息,以及近期活躍的微博用戶信息。在本申請中,所述檢索用戶指使用本申請?zhí)峁┑奈⒉┫z索系統(tǒng)的用戶;而所述微博用戶指為微博服務(wù)的用戶,例如使用Twitter或新浪微博的用戶。更具體地,參考圖1,微博存儲模塊400包括微博消息存儲模塊401和微博用戶存儲模塊402。其中,微博消息存儲模塊401用于緩存最新發(fā)布的微博消息信息。微博用戶存儲模塊402用于緩存活躍或重要用戶的個(gè)人信息。在一個(gè)實(shí)施例中,可以使用Redis作為緩存數(shù)據(jù)存儲工具。Redis是一個(gè)可以基于內(nèi)存的Key-Value日志型數(shù)據(jù)庫,其讀寫和查詢效率比基于永久存儲的數(shù)據(jù)庫類型為高。在Redis數(shù)據(jù)庫中建立一個(gè)存儲集合(collection),用于存儲微博中的最近發(fā)布的消息(例如,5天內(nèi)發(fā)布的消息);在該存儲集合中每條記錄的value的形式不需要向關(guān)系數(shù)據(jù)庫中那樣嚴(yán)格一致。例如keyl對應(yīng)的value可能是一張圖片,而在同一個(gè)存儲集合中key2對應(yīng)的value可能是一段文字。另外,在Redis數(shù)據(jù)庫中建立另一個(gè)存儲集合,用于存儲符合一定條件的微博用戶的個(gè)人信息,例如可以存儲符合下列條件的微博用戶的個(gè)人信息歷史消息超過1,OOO條的微博用戶、日均發(fā)布消息超過5條的微博用戶、最近5天發(fā)布過消息的微博用戶。在其他實(shí)施例中,也可以采用本領(lǐng)域人員所知的其他存儲裝置,例如,從成本角度考慮,可以使用基于比內(nèi)存緩存更便宜的永久性存儲器的存儲工具,如MongoDB等。再例如,從方便數(shù)據(jù)處理的角度講,可以使用對SQL支持更好的關(guān)系型數(shù)據(jù)庫如Oracle、MySQL等。詞關(guān)聯(lián)關(guān)系模塊200包括最新消息提取管理模塊201、摘要計(jì)算模塊202、詞關(guān)系存儲模塊203。其中,最新消息提取管理模塊201用于定期地從微博存儲模塊400讀取最新發(fā)布的微博消息,并將其傳遞到摘要計(jì)算模塊202。
摘要計(jì)算模塊202用于根據(jù)微博消息內(nèi)容計(jì)算該條消息的摘要??梢詫⑽⒉┫⒖醋魇嵌涛谋?,根據(jù)現(xiàn)有的文本摘要方法來抽取微博消息中的核心詞語,計(jì)算該微博消息的摘要,例如,在一個(gè)實(shí)施例中,摘要的計(jì)算方法為根據(jù)對短文本長期積累形成一個(gè)專門針對短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。在又一個(gè)實(shí)施例中,摘要的計(jì)算方法為將一批發(fā)布時(shí)間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要??梢?,所述摘要其實(shí)是一個(gè)詞的集合,其包含該條短文本的重要詞,且移除語氣詞等無意義的虛詞。因此,可以將摘要作為該消息的特征。在完成摘要計(jì)算后,摘要計(jì)算模塊202并將該摘要作為該條消息的屬性保存到微博存儲模塊400中,例如可以保存到在微博消息存儲模塊401中的該微博消息的特定字段中。詞關(guān)系存儲模塊203用于保存摘要中詞語間的關(guān)聯(lián)關(guān)系(簡稱為詞關(guān)系)。所述詞語間的關(guān)聯(lián)關(guān)系是指同時(shí)出現(xiàn)在同一微博消息或者同一個(gè)摘要中的兩個(gè)詞之間存在的關(guān)聯(lián)關(guān)系。例如,一條微博消息{我被困在首都機(jī)場了,北京大霧,估計(jì)今天晚上走不了了。},經(jīng)摘要計(jì)算,其摘要為{北京機(jī)場大霧},則形成三個(gè)詞語間的關(guān)聯(lián)關(guān)系{北京-機(jī)場}、{北京-大霧}、{機(jī)場-大霧}??梢允褂脭?shù)據(jù)庫來保存詞關(guān)系,該數(shù)據(jù)庫可以被稱為詞關(guān)系數(shù)據(jù)庫,在詞關(guān)系數(shù)據(jù)庫中還記錄兩個(gè)詞間的連邊權(quán)值,所述兩個(gè)詞間的連邊權(quán)值是這兩個(gè)詞間的關(guān)聯(lián)關(guān)系在詞關(guān)系數(shù)據(jù)庫中出現(xiàn)的次數(shù)。例如,若在詞關(guān)系數(shù)據(jù)庫中已存在詞關(guān)系{北京-機(jī)場},且其權(quán)值(即兩個(gè)詞之間的連邊權(quán)值)為230 (也就是這個(gè)詞關(guān)系在數(shù)據(jù)庫中已經(jīng)出現(xiàn)過230次),則加入本條記錄后該權(quán)值增加I。相比于現(xiàn)有基于哈希標(biāo)簽的搜索,使用所述詞語間的關(guān)聯(lián)關(guān)系,能夠擴(kuò)大搜索范圍,使檢索用戶能得到檢索詞以外的相關(guān)信息。例如,最新消息提取管理模塊201計(jì)算當(dāng)前系統(tǒng)時(shí)間戳t2,并從微博存儲模塊400中取得已經(jīng)計(jì)算過摘要的消息的最大入庫時(shí)間戳tl ;然后,按任意規(guī)則分批提取入庫時(shí)間為(tl,t2)開區(qū)間內(nèi)的所有消息(即取得最近一段時(shí)間內(nèi)的緩存的未計(jì)算過摘要的新消息),并通過摘要計(jì)算模塊202計(jì)算每條消息的摘要并將計(jì)算結(jié)果寫入微博存儲模塊400。同時(shí)詞關(guān)系存儲模塊更新詞關(guān)系數(shù)據(jù)庫中與當(dāng)前摘要相關(guān)的記錄,任意出現(xiàn)在同一個(gè)摘要中的兩個(gè)詞的連邊權(quán)值加I。在一個(gè)實(shí)施例中,詞關(guān)系存儲模塊203可以采用關(guān)系型數(shù)據(jù)庫MySQL來保存詞關(guān)系。在其他實(shí)施例中,也可以使用其他的關(guān)系型數(shù)據(jù)庫(例如,Oracle,SQLServer等)來保存詞關(guān)系。
微博用戶屬性模塊300包括用戶消息提取管理模塊301和用戶屬性計(jì)算模塊302。其中用戶消息提取管理模塊301定期地從微博存儲模塊400中提取微博用戶所發(fā)消息及其摘要。用戶屬性計(jì)算模塊302根據(jù)該用戶所發(fā)消息的摘要集合,計(jì)算該用戶的個(gè)人屬性標(biāo)簽(可以簡稱為屬性標(biāo)簽或用戶標(biāo)簽)。所述個(gè)人屬性標(biāo)簽是指用以描述一個(gè)微博用戶的愛好、關(guān)注點(diǎn)等的一組詞。如通過分析一個(gè)用戶所發(fā)消息的摘要,從該用戶所發(fā)消息的摘要中選出現(xiàn)頻率最高的幾個(gè)詞來作為該用戶的標(biāo)簽,例如可以將{演員做飯電影愛情}作為某個(gè)微博用戶的個(gè)人屬性標(biāo)簽。又例如,用戶消息提取管理模塊301從微博存儲模塊400中,取出上次刷新時(shí)刻最早,且該時(shí)刻早于當(dāng)前系統(tǒng)時(shí)刻5天的用戶的最近200條消息。統(tǒng)計(jì)所述200條消息的摘要中詞頻最高的20個(gè)詞,作為該用戶的個(gè)人屬性信息(S卩,該用戶的屬性標(biāo)簽)。用戶的個(gè)人屬性信息不應(yīng)包括語氣詞等虛詞信息,而應(yīng)以人物、地點(diǎn)、時(shí)間、行為等實(shí)詞為主。檢索管理模塊100包括檢索用戶接口模塊101和檢索會話管理模塊102。其中,檢 索用戶接口模塊101用于接收檢索用戶的輸入、返回查詢結(jié)果,以及給檢索用戶提供基于推薦詞列表構(gòu)建話題的接口。檢索會話管理模塊102,用于基于檢索用戶輸入的查詢詞對詞關(guān)系存儲模塊203進(jìn)行檢索以獲得推薦詞列表,基于由檢索用戶構(gòu)建的話題對微博存儲模塊400進(jìn)行檢索、以及將檢索結(jié)果提供給檢索用戶接口模塊101以返回檢索結(jié)果。其中,推薦詞列表是由檢索會話管理模塊102查詢詞關(guān)系存儲模塊203獲得的多個(gè)與該查詢詞相關(guān)的推薦詞(例如,20個(gè)),以推薦給所述檢索用戶。在一個(gè)實(shí)施例中,可以取與檢索用戶輸入的詞最相關(guān)的20個(gè)詞作為推薦詞列表返回,也就是在詞關(guān)系數(shù)據(jù)中與查詢詞連邊權(quán)值最高的20個(gè)詞作為推薦詞列表。又一個(gè)實(shí)施例中也可以取與該查詢詞最相關(guān)的15個(gè)詞作為推薦詞列表返回;同時(shí),從包含該查詢詞的返回的微博消息中選取最近50條消息,從這些消息的摘要中選擇出現(xiàn)頻率最高的5個(gè)詞作為前述推薦詞列表的補(bǔ)充。檢索用戶通過檢索用戶接口模塊101提供的接口選擇0個(gè)或多個(gè)推薦詞,通過設(shè)置所選擇的詞之間的邏輯關(guān)系(例如邏輯與、邏輯或、邏輯非)來構(gòu)建話題。在一個(gè)實(shí)施例中,可以從所述推薦詞列表中選擇0個(gè)或多個(gè)詞,該組詞與原查詢詞之間均為邏輯或(or)或者邏輯與(and)的關(guān)系,形成一個(gè)由多個(gè)詞組成的話題。又一個(gè)實(shí)施例為從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或的關(guān)系,而組與組之間為邏輯與的關(guān)系,從而形成一個(gè)由多個(gè)詞組成的話題。在又一個(gè)實(shí)施例中,從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或(or)的關(guān)系,而組與組之間可以為邏輯與(and)的關(guān)系組和/或邏輯非(not)的關(guān)系,從而形成由多個(gè)詞組成的話題,例如,(kj or k2 or k3) and(k4 ork5)not(k6 or k7),匕為推薦詞,從而組成包含邏輯與或非關(guān)系的話題。應(yīng)指出與或非關(guān)系是可以隨機(jī)改變的,可以由用戶通過檢索用戶接口模塊進(jìn)行自定義。例如,檢索用戶輸入“機(jī)場”,檢索會話管理模塊102向詞關(guān)系存儲模塊203檢索“機(jī)場”相對應(yīng)的詞關(guān)系,將檢索結(jié)果作為對檢索用戶的推薦詞列表而返回給檢索用戶,例如{首都、北京、南苑、虹橋、浦東、新白云、大霧、能見度、暴雨、雷暴、延誤、取消、正點(diǎn)率}。然后,由檢索用戶通過檢索用戶接口模塊101從推薦詞列表中選擇部分詞來構(gòu)建例如Kk1or k2 or k3) and (k4 or k5) not (k6 or k7), Ici為推薦詞}這樣的以詞為中心的話題,如{(北京or首都o(jì)r南苑)and(大霧or能見度)and(延誤or取消)not (暴雨or雷暴)}。檢索會話管理模塊102將該檢索用戶構(gòu)建的話題作為檢索條件對微博存儲模塊進(jìn)行檢索,返回滿足以上檢索條件的所有消息。可見,在本發(fā)明的實(shí)施例中,采用的是由檢索用戶來構(gòu)建話題,并基于所構(gòu)建的話題來檢索的機(jī)制。全自動的基于話題的檢索只見于如新聞、博客等長文本的檢索系統(tǒng)中,由于單個(gè)語料較長,用常用文檔摘要方法或高維度特征向量,可以較精確地描述兩個(gè)文檔之間的相似程度。而如微博客或手機(jī)短信等短文本,經(jīng)發(fā)明人在實(shí)際系統(tǒng)中的檢驗(yàn),發(fā)現(xiàn)以上方法并不適用,因此發(fā)明人采用了以詞為中心的,由用戶干預(yù)的話題機(jī)制,經(jīng)實(shí)踐檢驗(yàn)其消息準(zhǔn)確程度是可以保證的。而且利用由檢索用戶干預(yù)的話題機(jī)制進(jìn)行檢索,其好處在于第一,使用所述詞語間的關(guān)聯(lián)關(guān)系,相比于現(xiàn)有基于哈希標(biāo)簽的搜索,能夠擴(kuò)大搜索范圍,使檢索用戶能得到檢索詞以外的相關(guān)信息;第二,能夠克服微博消息因?yàn)槲谋径绦?,全自動的話題推薦方法經(jīng)常離題萬里,不能滿足檢索用戶的需要的不足,為檢索用戶提供可以人工干預(yù)形成話題的較好方法。在又一個(gè)實(shí)施例中,檢索會話管理模塊102還可以將所構(gòu)建的話題作為檢索條件對微博用戶的個(gè)人屬性標(biāo)簽進(jìn)行檢索,返回滿足以上檢索條件的微博用戶所發(fā)布的消息。 從而也考慮了微博用戶的屬性,例如,上述的首都機(jī)場的例子,可以通過檢索微博用戶的屬性標(biāo)簽,把與首都機(jī)場密切相關(guān)的微博用戶(例如,經(jīng)常發(fā)布與首都機(jī)場相關(guān)微博的用戶)和/或其發(fā)布的消息推薦給檢索用戶。這些用戶所發(fā)的消息也許不匹配前述話題規(guī)則,但可以作為該次檢索的有益外圍信息補(bǔ)充,從而在最大程度上向檢索用戶提供與其所關(guān)心的話題相關(guān)的消息。此外,提供了一種基于用戶信息的檢索手段,可以向檢索用戶提供與其所關(guān)心的話題密切相關(guān)的微博用戶,以使得檢索用戶可以關(guān)注這些微博用戶。例如,使用所構(gòu)建的話題去檢索微博用戶的屬性標(biāo)簽,推薦完全符合該話題的微博用戶?;蛘咄扑]其屬性標(biāo)簽中的詞中有超過m個(gè)詞語與所構(gòu)建的話題中的詞相同(不包括非關(guān)系的詞)的微博用戶。在本發(fā)明的又一個(gè)實(shí)施例中,還提供了一種基于上述系統(tǒng)的檢索方法。該方法包括以下步驟步驟I),接收由檢索用戶通過檢索用戶接口模塊101輸入的查詢詞。步驟2),由檢索會話管理模塊102從詞關(guān)系數(shù)據(jù)選擇多個(gè)與該查詢詞相關(guān)的推薦詞(例如,20個(gè)),并推薦給所述檢索用戶。在一個(gè)實(shí)施例中,可以取與檢索用戶輸入的詞最相關(guān)的20個(gè)詞作為推薦詞列表返回,也就是在詞關(guān)系數(shù)據(jù)中與查詢詞連邊權(quán)值最高的20個(gè)詞作為推薦詞列表。又一個(gè)實(shí)施例中也可以取與該查詢詞最相關(guān)的15個(gè)詞作為推薦詞列表返回;同時(shí),從包含該查詢詞的返回的微博消息中選取最近50條消息,從這些消息的摘要中選擇出現(xiàn)頻率最高的5個(gè)詞作為前述推薦詞列表的補(bǔ)充。步驟3),由檢索用戶選擇0個(gè)或多個(gè)推薦詞,通過設(shè)置所選擇的詞之間的邏輯關(guān)系(例如邏輯與、邏輯或、邏輯非)來構(gòu)建話題。在一個(gè)實(shí)施例中,可以從所述推薦詞列表中選擇0個(gè)或多個(gè)詞,該組詞與原查詢詞之間均為邏輯或(or)和/或邏輯與(and)的關(guān)系,形成一個(gè)由多個(gè)詞組成的話題。又一個(gè)實(shí)施例為從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或的關(guān)系,而組與組之間為邏輯與的關(guān)系,從而形成一個(gè)由多個(gè)詞組成的話題。在又一個(gè)實(shí)施例中,從所述推薦詞列表中選擇部分詞并分組,同組詞之間為邏輯或(or)的關(guān)系,而組與組之間可以為邏輯與(and)的關(guān)系組和/或邏輯非(not)的關(guān)系,從而形成由多個(gè)詞組成的話題,例如,(h or k2 or k3)and(k4 or k5)not (k6 or k7), Ici為推薦詞,從而組成包含邏輯與或非關(guān)系的話題。應(yīng)指出與或非關(guān)系是可以隨機(jī)改變的,可以由用戶通過檢索用戶接口模塊進(jìn)行自定義。步驟4),由檢索會話管理模塊102根據(jù)檢索用戶在步驟3)構(gòu)建的話題作為檢索條件,返回符合該檢索條件的微博消息給檢索用戶。在又一個(gè)實(shí)施例中,該方法還可以包括步驟5),由檢索會話管理模塊102根據(jù)所構(gòu)建的話題,結(jié)合微博用戶存儲模塊402中用戶的個(gè)人屬性標(biāo)簽,推薦與該話題最相關(guān)的多個(gè)(例如,30個(gè))微博用戶給檢索用戶,和/或提供所述微博用戶發(fā)布的消息給檢索用戶。例如,使用所構(gòu)建的話題規(guī)則去檢索微博用戶的個(gè)人屬性標(biāo)簽,推薦完全符合規(guī)則的微博用戶和/或其發(fā)布的消息。又例如,將其屬性標(biāo)簽中的詞中有超過m個(gè)詞語與所構(gòu)建的話題中的詞相同(不包括非關(guān)系的詞)的微博用戶和/或其發(fā)布的消息推薦給檢索用戶。圖2給出了根據(jù)本發(fā)明又一個(gè)實(shí)施例的微博檢索方法的流程圖。該方法與上述方法的不同之處在于接收檢索用戶輸入的查詢詞后,檢索管理模塊可以利用現(xiàn)有的檢索方法將包含該查詢詞的微博消息與推薦詞列表一起返回給檢索用戶。檢索用戶在這些微博消息的基礎(chǔ)上,如果還想進(jìn)一步地查詢,則可以通過構(gòu)建話題來進(jìn)行進(jìn)一步的檢索,這樣可以給檢索用戶很大的靈活性,也可以改善用戶體驗(yàn)。更具體地,該方法包括步驟S101)由檢索管理模塊接收檢索用戶輸入的查詢詞;步驟S102)由檢索管理模塊檢索并返回包含該查詢詞的微博消息;步驟S103)由檢索管理模塊選擇與該查詢詞存在關(guān)聯(lián)關(guān)系的多個(gè)詞作為推薦詞列表返回給檢索用戶;步驟S104)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題;步驟S105)由檢索管理模塊獲取滿足該話題的微博消息,增量返回給檢索用戶;步驟S106)由檢索管理模塊根據(jù)所構(gòu)建的話題和微博用戶的個(gè)人屬性標(biāo)簽,給檢索用戶推薦滿足該話題的微博用戶和/或其發(fā)布的消息。其中在步驟S103)還可以從所返回的包含該查詢詞的微博消息的摘要中,選擇出現(xiàn)次數(shù)最高的前r個(gè)詞作為所述推薦詞列表的補(bǔ)充。雖然本發(fā)明已經(jīng)通過優(yōu)選實(shí)施例進(jìn)行了描述,然而本發(fā)明并非局限于這里所描述的實(shí)施例,在不脫離本發(fā)明范圍的情況下還包括所作出的各種改變以及變化。權(quán)利要求
1.一種微博消息檢索系統(tǒng),該系統(tǒng)包括 微博存儲模塊,用于保存最新發(fā)布的微博消息以及微博用戶信息; 詞關(guān)聯(lián)關(guān)系模塊,用于定期地從微博存儲模塊獲取最新發(fā)布的微博消息,提取并保存每條消息中詞語間的關(guān)聯(lián)關(guān)系; 檢索管理模塊,用于根據(jù)詞語間的關(guān)聯(lián)關(guān)系,將與檢索用戶輸入的查詢詞關(guān)聯(lián)的多個(gè)詞作為推薦詞列表返回給檢索用戶,以及用于根據(jù)檢索用戶構(gòu)建的話題來對微博存儲模塊進(jìn)行檢索;所述話題是由檢索用戶通過建立推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建的。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,詞關(guān)聯(lián)關(guān)系模塊定期地從微博存儲模塊提取最新發(fā)布的微博消息,計(jì)算每條消息的摘要,提取并保存該摘要中的詞語間的關(guān)聯(lián)關(guān)系。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),所述檢索管理模塊將與所述查詢詞之間的連邊權(quán)值最高的前η個(gè)詞作為推薦詞列表提供給檢索用戶,所述兩個(gè)詞間的連邊權(quán)值是這兩個(gè)詞間的關(guān)聯(lián)關(guān)系出現(xiàn)的次數(shù)。
4.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其中所述邏輯關(guān)系包括“邏輯與”和/或“邏輯或”和/或“邏輯非”。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,檢索用戶從所述推薦詞列表中選擇O個(gè)或多個(gè)詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,以形成ー個(gè)話題。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其中檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成ー個(gè)話題。
7.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將微博消息作為短文本,根據(jù)對短文本長期積累形成ー個(gè)專用于短文本的分詞詞典,經(jīng)分詞詞典過濾形成該短文本的摘要。
8.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將微博消息作為短文本,將ー批發(fā)布時(shí)間相近、地理位置相近的短文本,利用文本聚類的方法將其分組,為每組消息打上相同的摘要。
9.根據(jù)權(quán)利要求2所述的系統(tǒng),詞關(guān)聯(lián)關(guān)系模塊將對每條微博消息所計(jì)算的摘要作為該消息的屬性保存到微博存儲模塊。
10.根據(jù)權(quán)利要求2、7、8或9所述的系統(tǒng),還包括微博用戶屬性計(jì)算模塊,用于獲取微博用戶最近發(fā)布的m條微博消息的摘要,選擇在這些摘要中出現(xiàn)頻率最高的前k個(gè)詞作為該微博用戶的個(gè)人屬性標(biāo)簽。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),微博用戶屬性計(jì)算模塊還用于定期更新微博用戶的個(gè)人屬性標(biāo)簽。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),檢索管理模塊還用于將所構(gòu)建的話題作為檢索條件,對微博用戶的個(gè)人屬性標(biāo)簽進(jìn)行檢索,給檢索用戶推薦符合檢索條件的微博用戶和/或其發(fā)布的消息。
13.—種基于上述任ー權(quán)利要求所述的系統(tǒng)的微博檢索方法,該方法包括 步驟I)由檢索管理模塊接收檢索用戶輸入的查詢詞; 步驟2)由檢索管理模塊將與該查詢詞之間的連邊權(quán)值最高的前η個(gè)詞作為推薦詞列表返回給檢索用戶; 步驟3)由檢索用戶基于推薦詞列表,通過建立推薦詞和查詢詞之間的邏輯關(guān)系來構(gòu)建話題; 步驟4)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博存儲模塊進(jìn)行檢索,將符合該檢索條件的微博消息返回給檢索用戶。
14.根據(jù)權(quán)利要求13所述的方法,其中步驟3)由檢索用戶從所述推薦詞列表中選擇O個(gè)或多個(gè)詞,在該組詞與所述查詢詞之間建立“邏輯或”或者“邏輯與”的關(guān)系,從而形成一個(gè)話題。
15.根據(jù)權(quán)利要求13所述的方法,其中步驟3)由檢索用戶從所述推薦詞列表中選擇部分詞并分組,同組詞之間為“邏輯或”的關(guān)系,組與組之間是“邏輯與”和/或“邏輯非”的關(guān)系,從而形成ー個(gè)話題。
16.根據(jù)權(quán)利要求13所述的方法,其中還包括步驟5)由檢索管理模塊將所構(gòu)建的話題作為檢索條件,來對微博用戶的個(gè)人屬性標(biāo)簽進(jìn)行檢索,將符合該檢索條件的微博用戶和/或其所發(fā)布的消息返回給檢索用戶。
17.根據(jù)權(quán)利要求13所述的方法,其中在步驟2)之前,還包括由檢索管理模塊將包含該查詢詞的微博消息返回給檢索用戶的步驟。
全文摘要
本發(fā)明提供一種微博檢索方法,該系統(tǒng)定期獲取最新發(fā)布的微博消息,計(jì)算每條消息的摘要,并且提取該摘要中的詞語間的關(guān)聯(lián)關(guān)系,將其保存到詞關(guān)系數(shù)據(jù)庫中。在收到檢索用戶的查詢詞后,將與該查詢詞存在關(guān)聯(lián)關(guān)系的多個(gè)詞作為推薦詞列表返回給檢索用戶,檢索用戶通過在推薦詞和查詢詞之間建立邏輯關(guān)系來構(gòu)建話題,以及將所構(gòu)建的話題作為檢索條件,將符合該檢索條件的微博消息返回給檢索用戶。該系統(tǒng)基于由多個(gè)詞構(gòu)成的話題來進(jìn)行檢索,能夠改善檢索效果,提高用戶體驗(yàn)。而且,通過利用微博用戶的愛好與屬性,提供一種基于人的信息查詢手段,能夠在最大程度上向檢索用戶提供其所關(guān)心的話題消息數(shù)據(jù)。
文檔編號G06F17/30GK102662986SQ20121006580
公開日2012年9月12日 申請日期2012年1月13日 優(yōu)先權(quán)日2012年1月13日
發(fā)明者房偉偉, 方濱興, 李一為, 李靜遠(yuǎn), 王元卓, 程學(xué)旗 申請人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
肥东县| 合水县| 哈巴河县| 溆浦县| 健康| 宣城市| 城步| 兴文县| 博客| 宜兰县| 平罗县| 玉田县| 同江市| 金阳县| 莱芜市| 富蕴县| 法库县| 钦州市| 泰和县| 宜宾市| 荆门市| 盐津县| 金昌市| 鸡东县| 鱼台县| 从化市| 池州市| 镇沅| 桂阳县| 旌德县| 太康县| 林口县| 曲阜市| 南木林县| 曲靖市| 彭阳县| 陆丰市| 饶河县| 东港市| 工布江达县| 阿瓦提县|