欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種信息的檢索方法及系統(tǒng)與流程

文檔序號:12363784閱讀:237來源:國知局
一種信息的檢索方法及系統(tǒng)與流程

本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,具體涉及一種信息的檢索方法及系統(tǒng)。



背景技術(shù):

隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷興起,社交媒體開始取代紙媒逐漸成為用戶獲取信息的綜合性平臺。其中的代表微博客(簡稱微博)是基于用戶關(guān)系的輕量級社交信息傳播平臺,用戶可以廣播并分享關(guān)于他的活動(dòng)及狀態(tài)信息。每天,數(shù)以億條的信息在微博上被發(fā)布和分享,爆炸性的信息數(shù)據(jù)量帶來了微博平臺的信息檢索需求,用戶也逐漸習(xí)慣在微博上進(jìn)行各種內(nèi)容的搜索。

當(dāng)用戶在微博上進(jìn)行檢索時(shí),其檢索需求往往并不明確,例如,用戶想了解歌星周杰倫近期相關(guān)的事件,由于不確定具體的檢索需求,所以用戶首次輸入“周杰倫”作為查詢的關(guān)鍵詞,微博檢索系統(tǒng)返回與周杰倫話題相關(guān)的微博信息。用戶通過閱讀了解到周杰倫近期發(fā)生兩大重要事件,其一是新專輯發(fā)布,其二是和昆凌結(jié)婚。針對不同的興趣,用戶可能輸入相應(yīng)的新查詢詞“周杰倫新專輯”或“周杰倫昆凌”來進(jìn)一步了解具體事件細(xì)節(jié)。由上面的例子可以看出,用戶在微博中進(jìn)行檢索時(shí),查詢詞往往不是一步到位,他需要不斷分析檢索系統(tǒng)返回的結(jié)果,根據(jù)自己的興趣進(jìn)行查詢修改。顯而易見,這種分析反饋的過程會浪費(fèi)用戶大量的寶貴時(shí)間。



技術(shù)實(shí)現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種信息的檢索方法及系 統(tǒng),該方法通過對用戶初次的查詢結(jié)果進(jìn)行優(yōu)化查詢,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。

第一方面,本發(fā)明提供一種信息的檢索方法,包括:

接收用戶的輸入指令,根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息;

識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶,以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息;

根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;

根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

可選的,所述識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,包括:

通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。

可選的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。

可選的,所述根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)的語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,包括:

根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;

在排序后的所述N條文本信息中按照所述第一文本相似度從大 到小的順序選取預(yù)設(shè)數(shù)量的文本信息;

通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;

其中,N為大于等于1的正整數(shù)。

可選的,所述通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,包括:

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;

根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

第二方面,本發(fā)明還提供了一種信息的檢索系統(tǒng),包括:

接收模塊,用于接收用戶的輸入指令;

獲取模塊,用于識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別;

第一展示模塊,用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶;

生成模塊,用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;

第二展示模塊,用于根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

可選的,所述獲取模塊,具體用于:

通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。

可選的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。

可選的,所述第二展示模塊,具體用于:

根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;

在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;

通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;

其中,N為大于等于1的正整數(shù)。

可選的,所述第二展示模塊,還用于:

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;

根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。。

由上述技術(shù)方案可知,本發(fā)明提供的一種信息的檢索方法及系統(tǒng),該方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息,然后對多條文本信息劃分信息類別,再向用戶展示這些信息類別,最后根據(jù)用戶選擇的信息類別對應(yīng)的關(guān)鍵詞以及初始的查詢指令重新生成檢索關(guān)鍵詞信息,并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展,并對檢索結(jié)果進(jìn)行優(yōu)化,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。

附圖說明

圖1為本發(fā)明一實(shí)施例提供的信息的檢索方法的流程示意圖;

圖2為本發(fā)明一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖;

圖3為本發(fā)明另一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖;

圖4為本發(fā)明一實(shí)施例提供的多來源實(shí)體識別模塊的結(jié)構(gòu)示意 圖;

圖5為本發(fā)明一實(shí)施例提供的實(shí)時(shí)微博檢索模塊的結(jié)構(gòu)示意圖;

圖6為本發(fā)明一實(shí)施例提供的微博檢索結(jié)果過濾模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖,對發(fā)明的具體實(shí)施方式作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。

圖1示出了本發(fā)明實(shí)施例提供的信息的檢索方法的流程示意圖,如圖1所示,該方法包括如下步驟:

101、接收用戶的輸入指令,根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息;

舉例來說,上述預(yù)設(shè)網(wǎng)絡(luò)資源可以為包括新聞規(guī)范和簡潔的谷歌新聞;流行的社交平臺,例如Twitter;數(shù)據(jù)庫,例如Freebase;或者是一些預(yù)先在谷歌新聞等網(wǎng)站上訓(xùn)練好的詞向量等。

102、識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶,以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息;

上述關(guān)鍵詞類別包括人物、地點(diǎn)、組織機(jī)構(gòu)等類別,對應(yīng)的文本框展示給用戶時(shí)也包括上述類別。

舉例來說,用戶輸入的是周杰倫,而通過上述網(wǎng)絡(luò)資源查詢到的文本信息包括:“周杰倫昆凌”“周杰倫鳥巢”“周杰倫演唱會”“周杰倫新專輯”,則根據(jù)上述文本信息可以將上述信息的類別比如人物“周杰倫昆凌”,地點(diǎn)“周杰倫鳥巢”,組織機(jī)構(gòu)“周杰倫 演唱會”“周杰倫新專輯”,當(dāng)用戶感興趣的是人物的信息時(shí),用戶會在相對應(yīng)的文本框中選擇“周杰倫昆凌”。

103、根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;

根據(jù)步驟102中舉例的內(nèi)容,當(dāng)用戶選擇人物的關(guān)鍵詞類別時(shí),則第二檢索關(guān)鍵詞信息會包括“周杰倫昆凌”。

104、根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

具體的,所述預(yù)設(shè)語料庫為建立索引后的語料庫。

上述方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別,再向用戶展示這些關(guān)鍵詞類別,最后根據(jù)用戶選擇的關(guān)鍵詞類別對應(yīng)的關(guān)鍵詞信息以及初始的查詢指令重新生成檢索關(guān)鍵詞信息,并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶,該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展,并對檢索結(jié)果進(jìn)行優(yōu)化,提高了信息檢索的準(zhǔn)確度,同時(shí)也提高了檢索效率。

在具體應(yīng)用中,上述步驟102具體包括:

通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。

上述步驟104具體包括圖1中未示出的如下子步驟:

1041、根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;

1042、獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;

1043、根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;

1044、在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;

1045、通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;

其中,N為大于等于1的正整數(shù)。

具體的,上述步驟1045,具體包括以下步驟:

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度;

根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

上述步驟1045主要是對預(yù)設(shè)數(shù)量的文本信息中防止出現(xiàn)重復(fù)的信息展示給用戶,或者相似度比較高的信息展示給用戶,因此將上述信息中類別相似度比較高的劃分成一類,因此,上述預(yù)設(shè)數(shù)量的文本信息可以劃分成多類,然后再在每一類中選取文本相似度最高的一條文本信息展示用戶,實(shí)現(xiàn)了對預(yù)設(shè)數(shù)量的文本信息中的噪音信息和冗余信息的優(yōu)化操作。

可理解的是,上述第一文本相似度代表查詢-文檔相似度,也即為查詢的第二檢索關(guān)鍵詞信息與N條文本信息的相似度,第二文本相似度代表文檔-文檔相似度,也即為獲取的預(yù)設(shè)數(shù)量的文本信息中,任意兩個(gè)文本信息的相似度。

下面通過具體的例子對上述方法作進(jìn)一步地描述:

假設(shè)用戶的原始查詢?yōu)椤爸芙軅悺?。以谷歌新聞舉例,首先系統(tǒng)返回和“周杰倫”相關(guān)的M條實(shí)時(shí)新聞,例如第一條新聞是“周杰倫和昆凌在英國完婚”,第二條新聞是“周杰倫發(fā)布新專輯《鞋子特大號》”。

獲取到相關(guān)實(shí)體新聞后,使用命名實(shí)體識別技術(shù)進(jìn)行實(shí)體識別,例如“周杰倫和昆凌在英國完婚”中的實(shí)體有“周杰倫”、“昆凌”和“英國”,“周杰倫發(fā)布新專輯《鞋子特大號》”中的實(shí)體有“周杰倫”、“新專輯”和“《鞋子特大號》”。

以圖的形式向用戶展示這些實(shí)體,同時(shí)還有各實(shí)體對應(yīng)的新聞。假設(shè)用戶對周杰倫新婚這個(gè)新聞比較感興趣,他就可以選擇“昆凌”這個(gè)實(shí)體進(jìn)行更深入的探索。

新的查詢結(jié)合了原始查詢和用戶選擇的實(shí)體,即“周杰倫昆凌”。

在上述結(jié)合了原始查詢和用戶選擇的實(shí)體之后,進(jìn)行檢索相關(guān)人物和相關(guān)微博。結(jié)合一個(gè)例子,相關(guān)人物和相關(guān)微博檢索的步驟如下:

(1)關(guān)于相關(guān)人物檢索,系統(tǒng)會將新查詢拆分成一個(gè)個(gè)實(shí)體,即“周杰倫昆凌”會被拆分成“周杰倫”和“昆凌”,再去微博用戶群體中查找對應(yīng)的人名,返回對應(yīng)的微博賬號。

(2)關(guān)于相關(guān)微博檢索,系統(tǒng)會對微博文檔集合建立索引,之后遍歷每一個(gè)微博文檔,根據(jù)新查詢和微博文檔之間的文本相似度,即KL距離,對微博文檔進(jìn)行打分,最后按照打分高低對微博文檔進(jìn)行排序,返回得分較高的前N條微博。

(3)假設(shè)返回4條微博,如下:

a)“恭喜周杰倫和昆凌在英國結(jié)婚,開心!”

b)“開心,周杰倫和昆凌終于在英國結(jié)婚啦!”

c)“年幼時(shí)候的偶像周杰倫和昆凌結(jié)婚了,好傷心…”

d)“周杰倫和昆凌結(jié)婚了,對象不是我,傷心…”

然后對上述返回的4條微博中的冗余微博和噪音微博。結(jié)合一個(gè)例子,過濾的步驟如下:

1)首先計(jì)算返回的前N條微博兩兩之間的相似度。

2)其次根據(jù)相似度分?jǐn)?shù)進(jìn)行星聚類,根據(jù)聚類算法,a)和b)聚成一類,c)和d)聚成一類。

3)選出每類中檢索得分較高的一條微博,其中第一類選出a),第二類選出c)。

4)將a)和c)作為最終的相關(guān)微博并展示給用戶。

圖2示出了本發(fā)明實(shí)施例提供的一種信息的檢索系統(tǒng)的結(jié)構(gòu)示意 圖,如圖2所示,該系統(tǒng)包括:

接收模塊21,用于接收用戶的輸入指令;

獲取模塊22,用于識別所述多條文本信息中的關(guān)鍵詞信息,獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別;

第一展示模塊23,用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶;

生成模塊24,用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息;

第二展示模塊25,用于根據(jù)所述第二檢索關(guān)鍵詞信息,在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。所述預(yù)設(shè)語料庫為建立索引后的語料庫。

所述獲取模塊22,具體用于:

通過實(shí)體識別方法,識別所述多條文本信息中的關(guān)鍵詞信息,根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。

所述第二展示模塊25,具體用于:

根據(jù)所述第二檢索關(guān)鍵詞信息,遍歷所述預(yù)設(shè)語料庫,獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息;

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度;

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序;

在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息;

通過星型聚類算法,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類,并將每一類中第一文本相似度最大的文本信息展示給用戶;

其中,N為大于等于1的正整數(shù)。

所述第二展示模塊25,還用于:

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相 似度;

根據(jù)所述第二文本相似度,對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

在另一個(gè)可實(shí)現(xiàn)的方式中,如圖3所示,上述系統(tǒng)還可以分為以下三個(gè)模塊:多來源實(shí)體識別模塊31、實(shí)時(shí)微博檢索模塊32、微博檢索結(jié)果過濾模塊33。

多來源實(shí)體識別模塊31,用于從網(wǎng)絡(luò)多來源收集和用戶原始查詢相關(guān)描述性文本信息,并利用實(shí)體識別技術(shù)提取其中的實(shí)體。

實(shí)時(shí)微博檢索模塊32,用于通過結(jié)合用戶原始查詢和用戶選取的實(shí)體信息在微博文檔集中進(jìn)行檢索,返回與之相關(guān)的微博集合作為檢索結(jié)果。

微博檢索結(jié)果過濾模塊33,用于去除檢索結(jié)果中的噪音微博和冗余微博,主要用到文本聚類去噪技術(shù)。通過以上技術(shù),可以建立一個(gè)魯棒性較強(qiáng)、檢索效果較好且具有用戶個(gè)性化的微博檢索系統(tǒng)。

為達(dá)上述目的,本發(fā)明采取的技術(shù)方案是:

如圖4所示,在多來源實(shí)體識別模塊31中,提供一個(gè)獲取相關(guān)實(shí)體的裝置,該裝置主要包括:

描述性文本獲取模塊311:本發(fā)明選取了4個(gè)網(wǎng)絡(luò)資源作為的多來源實(shí)體庫,分別描述如下:

谷歌新聞是我們的第一個(gè)選擇,因?yàn)橄鄬τ诤唵蔚奈淖?,新聞更加?guī)范和簡潔。我們使用谷歌新聞的搜索接口來獲取與原始查詢最相近的相關(guān)新聞作為描述性文本。

Twitter是一個(gè)流行的社交平臺,用戶可以輕松分享和討論相關(guān)的信息。和處理谷歌新聞?lì)愃?,我們使用Twitter的搜索接口獲取與原始查詢最相近的相關(guān)微博作為描述性文本。

Freebase是一個(gè)用于組織人類知識的實(shí)用元組型知識數(shù)據(jù)庫。我們使用了Freebase中實(shí)體的簡要摘要屬性來獲取和原始查詢相關(guān)的簡介信息作為描述性文本。

最近,分布式詞向量表示引起了文本理解相關(guān)學(xué)術(shù)圈很大的關(guān)注。詞向量可以把各類語義關(guān)系和語言規(guī)律模式嵌入新的向量空間。為此,可以預(yù)先下載在谷歌新聞數(shù)據(jù)集上訓(xùn)練好的詞向量表示。該谷歌新聞?dòng)?xùn)練集包括約10億個(gè)詞。接著計(jì)算了原始查詢和其他詞在詞向量空間中的余弦相似度,選取了距離最相近的詞作為原始查詢的描述性文本。

實(shí)體抽取模塊312:利用實(shí)體識別技術(shù)從相關(guān)描述性文本中提取出對應(yīng)的實(shí)體信息;

新查詢生成模塊313:系統(tǒng)以圖的形式向用戶展現(xiàn)相關(guān)的實(shí)體,同時(shí)提供各自對應(yīng)的新聞內(nèi)容,用戶根據(jù)個(gè)人喜好,選擇一個(gè)實(shí)體進(jìn)行更深入的探索,被選擇的實(shí)體詞語會和用戶原始查詢進(jìn)行合并,生成新的查詢詞。

如圖5所示,在實(shí)時(shí)微博檢索模塊32中,提供一個(gè)微博文本實(shí)時(shí)檢索裝置321和一個(gè)微博人物實(shí)時(shí)檢索裝置322。

微博文本實(shí)時(shí)檢索裝置321包括:

微博文檔建立索引模塊:獲取近期微博文檔信息,進(jìn)行文本預(yù)處理,并建立倒排索引;

微博文檔打分模塊:對于新查詢生成模塊中生成的新查詢,該打分模塊需遍歷索引并找出與查詢相關(guān)的文檔,利用經(jīng)典的語言模型,計(jì)算新查詢和微博文檔的文本相似度,并以文本相似度對其進(jìn)行打分;

微博文檔檢索模塊:將這些文檔按照文檔得分進(jìn)行排序,返回檢索結(jié)果中的前預(yù)設(shè)數(shù)量條微博文檔;

微博人物實(shí)時(shí)檢索裝置322包括:

微博人物建立索引模塊:獲取微博人物名稱信息,進(jìn)行文本預(yù)處理,并建立倒排索引;

微博人物檢索模塊:對于新查詢生成模塊中生成的新查詢,將其拆分為原始查詢和擴(kuò)展實(shí)體。分別對原始查詢和擴(kuò)展實(shí)體進(jìn)行人物檢索,返回前預(yù)設(shè)數(shù)量條人物信息;

如圖6所示,在微博檢索結(jié)果過濾模塊33中,提供一個(gè)微博檢索結(jié)果過濾裝置,該裝置主要包括:

微博文本相似度打分模塊331:為實(shí)時(shí)微博檢索模塊中返回的預(yù)設(shè)數(shù)量條相關(guān)微博兩兩進(jìn)行比較,計(jì)算它們之間的文本相似度得分;

微博文本聚類模塊332:根據(jù)微博文本之間的文本相似度得分,采用星聚類技術(shù)將其劃分為不同類。

微博文本過濾模塊333:對于聚類結(jié)果中的每一類,將得分最高的微博作為代表微博,過濾掉類中的其他微博,即噪音微博和冗余微博。

最后系統(tǒng)返回這些代表微博和相關(guān)人物展示給用戶。

本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。

最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載 的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
安达市| 五华县| 昭通市| 合水县| 辛集市| 惠来县| 西城区| 普安县| 诏安县| 津南区| 长治县| 揭阳市| 珠海市| 莲花县| 甘洛县| 武宣县| 奉节县| 苏州市| 鄂温| 睢宁县| 依安县| 蓬溪县| 白银市| 木兰县| 丽江市| 邳州市| 永和县| 荆门市| 明光市| 高平市| 永安市| 阜南县| 弥勒县| 衡东县| 晋城| 开封县| 乌苏市| 临潭县| 思南县| 土默特右旗| 汤阴县|