本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,具體涉及一種信息的檢索方法及系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷興起,社交媒體開始取代紙媒逐漸成為用戶獲取信息的綜合性平臺。其中的代表微博客(簡稱微博)是基于用戶關(guān)系的輕量級社交信息傳播平臺,用戶可以廣播并分享關(guān)于他的活動(dòng)及狀態(tài)信息。每天,數(shù)以億條的信息在微博上被發(fā)布和分享,爆炸性的信息數(shù)據(jù)量帶來了微博平臺的信息檢索需求,用戶也逐漸習(xí)慣在微博上進(jìn)行各種內(nèi)容的搜索。
當(dāng)用戶在微博上進(jìn)行檢索時(shí),其檢索需求往往并不明確,例如,用戶想了解歌星周杰倫近期相關(guān)的事件,由于不確定具體的檢索需求,所以用戶首次輸入“周杰倫”作為查詢的關(guān)鍵詞,微博檢索系統(tǒng)返回與周杰倫話題相關(guān)的微博信息。用戶通過閱讀了解到周杰倫近期發(fā)生兩大重要事件,其一是新專輯發(fā)布,其二是和昆凌結(jié)婚。針對不同的興趣,用戶可能輸入相應(yīng)的新查詢詞“周杰倫新專輯”或“周杰倫昆凌”來進(jìn)一步了解具體事件細(xì)節(jié)。由上面的例子可以看出,用戶在微博中進(jìn)行檢索時(shí),查詢詞往往不是一步到位,他需要不斷分析檢索系統(tǒng)返回的結(jié)果,根據(jù)自己的興趣進(jìn)行查詢修改。顯而易見,這種分析反饋的過程會浪費(fèi)用戶大量的寶貴時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種信息的檢索方法及系 統(tǒng),該方法通過對用戶初次的查詢結(jié)果進(jìn)行優(yōu)化查詢,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。
第一方面,本發(fā)明提供一種信息的檢索方法,包括:
接收用戶的輸入指令,根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息;
識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶,以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息;
根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;
根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。
可選的,所述識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,包括:
通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。
可選的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。
可選的,所述根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)的語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,包括:
根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;
獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;
根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;
在排序后的所述N條文本信息中按照所述第一文本相似度從大 到小的順序選取預(yù)設(shè)數(shù)量的文本信息;
通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;
其中,N為大于等于1的正整數(shù)。
可選的,所述通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,包括:
獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;
根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。
第二方面,本發(fā)明還提供了一種信息的檢索系統(tǒng),包括:
接收模塊,用于接收用戶的輸入指令;
獲取模塊,用于識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別;
第一展示模塊,用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶;
生成模塊,用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;
第二展示模塊,用于根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。
可選的,所述獲取模塊,具體用于:
通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。
可選的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。
可選的,所述第二展示模塊,具體用于:
根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;
獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;
根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;
在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;
通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;
其中,N為大于等于1的正整數(shù)。
可選的,所述第二展示模塊,還用于:
獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;
根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。。
由上述技術(shù)方案可知,本發(fā)明提供的一種信息的檢索方法及系統(tǒng),該方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息,然后對多條文本信息劃分信息類別,再向用戶展示這些信息類別,最后根據(jù)用戶選擇的信息類別對應(yīng)的關(guān)鍵詞以及初始的查詢指令重新生成檢索關(guān)鍵詞信息,并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展,并對檢索結(jié)果進(jìn)行優(yōu)化,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。
附圖說明
圖1為本發(fā)明一實(shí)施例提供的信息的檢索方法的流程示意圖;
圖2為本發(fā)明一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖;
圖3為本發(fā)明另一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖;
圖4為本發(fā)明一實(shí)施例提供的多來源實(shí)體識別模塊的結(jié)構(gòu)示意 圖;
圖5為本發(fā)明一實(shí)施例提供的實(shí)時(shí)微博檢索模塊的結(jié)構(gòu)示意圖;
圖6為本發(fā)明一實(shí)施例提供的微博檢索結(jié)果過濾模塊的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖,對發(fā)明的具體實(shí)施方式作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。
圖1示出了本發(fā)明實(shí)施例提供的信息的檢索方法的流程示意圖,如圖1所示,該方法包括如下步驟:
101、接收用戶的輸入指令,根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息;
舉例來說,上述預(yù)設(shè)網(wǎng)絡(luò)資源可以為包括新聞規(guī)范和簡潔的谷歌新聞;流行的社交平臺,例如Twitter;數(shù)據(jù)庫,例如Freebase;或者是一些預(yù)先在谷歌新聞等網(wǎng)站上訓(xùn)練好的詞向量等。
102、識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶,以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息;
上述關(guān)鍵詞類別包括人物、地點(diǎn)、組織機(jī)構(gòu)等類別,對應(yīng)的文本框展示給用戶時(shí)也包括上述類別。
舉例來說,用戶輸入的是周杰倫,而通過上述網(wǎng)絡(luò)資源查詢到的文本信息包括:“周杰倫昆凌”“周杰倫鳥巢”“周杰倫演唱會”“周杰倫新專輯”,則根據(jù)上述文本信息可以將上述信息的類別比如人物“周杰倫昆凌”,地點(diǎn)“周杰倫鳥巢”,組織機(jī)構(gòu)“周杰倫 演唱會”“周杰倫新專輯”,當(dāng)用戶感興趣的是人物的信息時(shí),用戶會在相對應(yīng)的文本框中選擇“周杰倫昆凌”。
103、根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;
根據(jù)步驟102中舉例的內(nèi)容,當(dāng)用戶選擇人物的關(guān)鍵詞類別時(shí),則第二檢索關(guān)鍵詞信息會包括“周杰倫昆凌”。
104、根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。
具體的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。
上述方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,再向用戶展示這些關(guān)鍵詞類別,最后根據(jù)用戶選擇的關(guān)鍵詞類別對應(yīng)的關(guān)鍵詞信息以及初始的查詢指令重新生成檢索關(guān)鍵詞信息,并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展,并對檢索結(jié)果進(jìn)行優(yōu)化,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。
在具體應(yīng)用中,上述步驟102具體包括:
通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。
上述步驟104具體包括圖1中未示出的如下子步驟:
1041、根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;
1042、獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;
1043、根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;
1044、在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;
1045、通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;
其中,N為大于等于1的正整數(shù)。
具體的,上述步驟1045,具體包括以下步驟:
獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;
根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。
上述步驟1045主要是對預(yù)設(shè)數(shù)量的文本信息中防止出現(xiàn)重復(fù)的信息展示給用戶,或者相似度比較高的信息展示給用戶,因此將上述信息中類別相似度比較高的劃分成一類,因此,上述預(yù)設(shè)數(shù)量的文本信息可以劃分成多類,然后再在每一類中選取文本相似度最高的一條文本信息展示用戶,實(shí)現(xiàn)了對預(yù)設(shè)數(shù)量的文本信息中的噪音信息和冗余信息的優(yōu)化操作。
可理解的是,上述第一文本相似度代表查詢-文檔相似度,也即為查詢的第二檢索關(guān)鍵詞信息與N條文本信息的相似度,第二文本相似度代表文檔-文檔相似度,也即為獲取的預(yù)設(shè)數(shù)量的文本信息中,任意兩個(gè)文本信息的相似度。
下面通過具體的例子對上述方法作進(jìn)一步地描述:
假設(shè)用戶的原始查詢?yōu)椤爸芙軅悺?。以谷歌新聞舉例,首先系統(tǒng)返回和“周杰倫”相關(guān)的M條實(shí)時(shí)新聞,例如第一條新聞是“周杰倫和昆凌在英國完婚”,第二條新聞是“周杰倫發(fā)布新專輯《鞋子特大號》”。
獲取到相關(guān)實(shí)體新聞后,使用命名實(shí)體識別技術(shù)進(jìn)行實(shí)體識別,例如“周杰倫和昆凌在英國完婚”中的實(shí)體有“周杰倫”、“昆凌”和“英國”,“周杰倫發(fā)布新專輯《鞋子特大號》”中的實(shí)體有“周杰倫”、“新專輯”和“《鞋子特大號》”。
以圖的形式向用戶展示這些實(shí)體,同時(shí)還有各實(shí)體對應(yīng)的新聞。假設(shè)用戶對周杰倫新婚這個(gè)新聞比較感興趣,他就可以選擇“昆凌”這個(gè)實(shí)體進(jìn)行更深入的探索。
新的查詢結(jié)合了原始查詢和用戶選擇的實(shí)體,即“周杰倫昆凌”。
在上述結(jié)合了原始查詢和用戶選擇的實(shí)體之后,進(jìn)行檢索相關(guān)人物和相關(guān)微博。結(jié)合一個(gè)例子,相關(guān)人物和相關(guān)微博檢索的步驟如下:
(1)關(guān)于相關(guān)人物檢索,系統(tǒng)會將新查詢拆分成一個(gè)個(gè)實(shí)體,即“周杰倫昆凌”會被拆分成“周杰倫”和“昆凌”,再去微博用戶群體中查找對應(yīng)的人名,返回對應(yīng)的微博賬號。
(2)關(guān)于相關(guān)微博檢索,系統(tǒng)會對微博文檔集合建立索引,之后遍歷每一個(gè)微博文檔,根據(jù)新查詢和微博文檔之間的文本相似度,即KL距離,對微博文檔進(jìn)行打分,最后按照打分高低對微博文檔進(jìn)行排序,返回得分較高的前N條微博。
(3)假設(shè)返回4條微博,如下:
a)“恭喜周杰倫和昆凌在英國結(jié)婚,開心!”
b)“開心,周杰倫和昆凌終于在英國結(jié)婚啦!”
c)“年幼時(shí)候的偶像周杰倫和昆凌結(jié)婚了,好傷心…”
d)“周杰倫和昆凌結(jié)婚了,對象不是我,傷心…”
然后對上述返回的4條微博中的冗余微博和噪音微博。結(jié)合一個(gè)例子,過濾的步驟如下:
1)首先計(jì)算返回的前N條微博兩兩之間的相似度。
2)其次根據(jù)相似度分?jǐn)?shù)進(jìn)行星聚類,根據(jù)聚類算法,a)和b)聚成一類,c)和d)聚成一類。
3)選出每類中檢索得分較高的一條微博,其中第一類選出a),第二類選出c)。
4)將a)和c)作為最終的相關(guān)微博并展示給用戶。
圖2示出了本發(fā)明實(shí)施例提供的一種信息的檢索系統(tǒng)的結(jié)構(gòu)示意 圖,如圖2所示,該系統(tǒng)包括:
接收模塊21,用于接收用戶的輸入指令;
獲取模塊22,用于識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別;
第一展示模塊23,用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶;
生成模塊24,用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;
第二展示模塊25,用于根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。所述預(yù)設(shè)語料庫為建立索引后的語料庫。
所述獲取模塊22,具體用于:
通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。
所述第二展示模塊25,具體用于:
根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;
獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;
根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;
在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;
通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;
其中,N為大于等于1的正整數(shù)。
所述第二展示模塊25,還用于:
獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相 似度;
根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。
在另一個(gè)可實(shí)現(xiàn)的方式中,如圖3所示,上述系統(tǒng)還可以分為以下三個(gè)模塊:多來源實(shí)體識別模塊31、實(shí)時(shí)微博檢索模塊32、微博檢索結(jié)果過濾模塊33。
多來源實(shí)體識別模塊31,用于從網(wǎng)絡(luò)多來源收集和用戶原始查詢相關(guān)描述性文本信息,并利用實(shí)體識別技術(shù)提取其中的實(shí)體。
實(shí)時(shí)微博檢索模塊32,用于通過結(jié)合用戶原始查詢和用戶選取的實(shí)體信息在微博文檔集中進(jìn)行檢索,返回與之相關(guān)的微博集合作為檢索結(jié)果。
微博檢索結(jié)果過濾模塊33,用于去除檢索結(jié)果中的噪音微博和冗余微博,主要用到文本聚類去噪技術(shù)。通過以上技術(shù),可以建立一個(gè)魯棒性較強(qiáng)、檢索效果較好且具有用戶個(gè)性化的微博檢索系統(tǒng)。
為達(dá)上述目的,本發(fā)明采取的技術(shù)方案是:
如圖4所示,在多來源實(shí)體識別模塊31中,提供一個(gè)獲取相關(guān)實(shí)體的裝置,該裝置主要包括:
描述性文本獲取模塊311:本發(fā)明選取了4個(gè)網(wǎng)絡(luò)資源作為的多來源實(shí)體庫,分別描述如下:
谷歌新聞是我們的第一個(gè)選擇,因?yàn)橄鄬τ诤唵蔚奈淖?,新聞更加?guī)范和簡潔。我們使用谷歌新聞的搜索接口來獲取與原始查詢最相近的相關(guān)新聞作為描述性文本。
Twitter是一個(gè)流行的社交平臺,用戶可以輕松分享和討論相關(guān)的信息。和處理谷歌新聞?lì)愃?,我們使用Twitter的搜索接口獲取與原始查詢最相近的相關(guān)微博作為描述性文本。
Freebase是一個(gè)用于組織人類知識的實(shí)用元組型知識數(shù)據(jù)庫。我們使用了Freebase中實(shí)體的簡要摘要屬性來獲取和原始查詢相關(guān)的簡介信息作為描述性文本。
最近,分布式詞向量表示引起了文本理解相關(guān)學(xué)術(shù)圈很大的關(guān)注。詞向量可以把各類語義關(guān)系和語言規(guī)律模式嵌入新的向量空間。為此,可以預(yù)先下載在谷歌新聞數(shù)據(jù)集上訓(xùn)練好的詞向量表示。該谷歌新聞?dòng)?xùn)練集包括約10億個(gè)詞。接著計(jì)算了原始查詢和其他詞在詞向量空間中的余弦相似度,選取了距離最相近的詞作為原始查詢的描述性文本。
實(shí)體抽取模塊312:利用實(shí)體識別技術(shù)從相關(guān)描述性文本中提取出對應(yīng)的實(shí)體信息;
新查詢生成模塊313:系統(tǒng)以圖的形式向用戶展現(xiàn)相關(guān)的實(shí)體,同時(shí)提供各自對應(yīng)的新聞內(nèi)容,用戶根據(jù)個(gè)人喜好,選擇一個(gè)實(shí)體進(jìn)行更深入的探索,被選擇的實(shí)體詞語會和用戶原始查詢進(jìn)行合并,生成新的查詢詞。
如圖5所示,在實(shí)時(shí)微博檢索模塊32中,提供一個(gè)微博文本實(shí)時(shí)檢索裝置321和一個(gè)微博人物實(shí)時(shí)檢索裝置322。
微博文本實(shí)時(shí)檢索裝置321包括:
微博文檔建立索引模塊:獲取近期微博文檔信息,進(jìn)行文本預(yù)處理,并建立倒排索引;
微博文檔打分模塊:對于新查詢生成模塊中生成的新查詢,該打分模塊需遍歷索引并找出與查詢相關(guān)的文檔,利用經(jīng)典的語言模型,計(jì)算新查詢和微博文檔的文本相似度,并以文本相似度對其進(jìn)行打分;
微博文檔檢索模塊:將這些文檔按照文檔得分進(jìn)行排序,返回檢索結(jié)果中的前預(yù)設(shè)數(shù)量條微博文檔;
微博人物實(shí)時(shí)檢索裝置322包括:
微博人物建立索引模塊:獲取微博人物名稱信息,進(jìn)行文本預(yù)處理,并建立倒排索引;
微博人物檢索模塊:對于新查詢生成模塊中生成的新查詢,將其拆分為原始查詢和擴(kuò)展實(shí)體。分別對原始查詢和擴(kuò)展實(shí)體進(jìn)行人物檢索,返回前預(yù)設(shè)數(shù)量條人物信息;
如圖6所示,在微博檢索結(jié)果過濾模塊33中,提供一個(gè)微博檢索結(jié)果過濾裝置,該裝置主要包括:
微博文本相似度打分模塊331:為實(shí)時(shí)微博檢索模塊中返回的預(yù)設(shè)數(shù)量條相關(guān)微博兩兩進(jìn)行比較,計(jì)算它們之間的文本相似度得分;
微博文本聚類模塊332:根據(jù)微博文本之間的文本相似度得分,采用星聚類技術(shù)將其劃分為不同類。
微博文本過濾模塊333:對于聚類結(jié)果中的每一類,將得分最高的微博作為代表微博,過濾掉類中的其他微博,即噪音微博和冗余微博。
最后系統(tǒng)返回這些代表微博和相關(guān)人物展示給用戶。
本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載 的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。