一種信息的檢索方法及系統(tǒng)與流程

文檔序號：12363784閱讀：237來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息檢索技術(shù)領(lǐng)域，具體涉及一種信息的檢索方法及系統(tǒng)。

背景技術(shù)：

隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷興起，社交媒體開始取代紙媒逐漸成為用戶獲取信息的綜合性平臺。其中的代表微博客(簡稱微博)是基于用戶關(guān)系的輕量級社交信息傳播平臺，用戶可以廣播并分享關(guān)于他的活動(dòng)及狀態(tài)信息。每天，數(shù)以億條的信息在微博上被發(fā)布和分享，爆炸性的信息數(shù)據(jù)量帶來了微博平臺的信息檢索需求，用戶也逐漸習(xí)慣在微博上進(jìn)行各種內(nèi)容的搜索。

當(dāng)用戶在微博上進(jìn)行檢索時(shí)，其檢索需求往往并不明確，例如，用戶想了解歌星周杰倫近期相關(guān)的事件，由于不確定具體的檢索需求，所以用戶首次輸入“周杰倫”作為查詢的關(guān)鍵詞，微博檢索系統(tǒng)返回與周杰倫話題相關(guān)的微博信息。用戶通過閱讀了解到周杰倫近期發(fā)生兩大重要事件，其一是新專輯發(fā)布，其二是和昆凌結(jié)婚。針對不同的興趣，用戶可能輸入相應(yīng)的新查詢詞“周杰倫新專輯”或“周杰倫昆凌”來進(jìn)一步了解具體事件細(xì)節(jié)。由上面的例子可以看出，用戶在微博中進(jìn)行檢索時(shí)，查詢詞往往不是一步到位，他需要不斷分析檢索系統(tǒng)返回的結(jié)果，根據(jù)自己的興趣進(jìn)行查詢修改。顯而易見，這種分析反饋的過程會浪費(fèi)用戶大量的寶貴時(shí)間。

技術(shù)實(shí)現(xiàn)要素：

針對現(xiàn)有技術(shù)中的缺陷，本發(fā)明提供一種信息的檢索方法及系統(tǒng)，該方法通過對用戶初次的查詢結(jié)果進(jìn)行優(yōu)化查詢，提高了信息檢索的準(zhǔn)確度，同時(shí)也提高了檢索效率。

第一方面，本發(fā)明提供一種信息的檢索方法，包括：

接收用戶的輸入指令，根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息；

識別所述多條文本信息中的關(guān)鍵詞信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別，并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶，以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息；

根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息；

根據(jù)所述第二檢索關(guān)鍵詞信息，在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

可選的，所述識別所述多條文本信息中的關(guān)鍵詞信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別，包括：

通過實(shí)體識別方法，識別所述多條文本信息中的關(guān)鍵詞信息，根據(jù)所述關(guān)鍵詞信息獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別。

可選的，所述預(yù)設(shè)語料庫為建立索引后的語料庫。

可選的，所述根據(jù)所述第二檢索關(guān)鍵詞信息，在預(yù)設(shè)的語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶，包括：

根據(jù)所述第二檢索關(guān)鍵詞信息，遍歷所述預(yù)設(shè)語料庫，獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息；

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度；

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序；

在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息；

通過星型聚類算法，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類，并將每一類中第一文本相似度最大的文本信息展示給用戶；

其中，N為大于等于1的正整數(shù)。

可選的，所述通過星型聚類算法，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類，包括：

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度；

根據(jù)所述第二文本相似度，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

第二方面，本發(fā)明還提供了一種信息的檢索系統(tǒng)，包括：

接收模塊，用于接收用戶的輸入指令；

獲取模塊，用于識別所述多條文本信息中的關(guān)鍵詞信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別；

第一展示模塊，用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶；

生成模塊，用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息；

第二展示模塊，用于根據(jù)所述第二檢索關(guān)鍵詞信息，在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

可選的，所述獲取模塊，具體用于：

可選的，所述預(yù)設(shè)語料庫為建立索引后的語料庫。

可選的，所述第二展示模塊，具體用于：

根據(jù)所述第二檢索關(guān)鍵詞信息，遍歷所述預(yù)設(shè)語料庫，獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息；

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度；

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序；

在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息；

通過星型聚類算法，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類，并將每一類中第一文本相似度最大的文本信息展示給用戶；

其中，N為大于等于1的正整數(shù)。

可選的，所述第二展示模塊，還用于：

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度；

根據(jù)所述第二文本相似度，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。。

由上述技術(shù)方案可知，本發(fā)明提供的一種信息的檢索方法及系統(tǒng)，該方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息，然后對多條文本信息劃分信息類別，再向用戶展示這些信息類別，最后根據(jù)用戶選擇的信息類別對應(yīng)的關(guān)鍵詞以及初始的查詢指令重新生成檢索關(guān)鍵詞信息，并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶，該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展，并對檢索結(jié)果進(jìn)行優(yōu)化，提高了信息檢索的準(zhǔn)確度，同時(shí)也提高了檢索效率。

附圖說明

圖1為本發(fā)明一實(shí)施例提供的信息的檢索方法的流程示意圖；

圖2為本發(fā)明一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖；

圖3為本發(fā)明另一實(shí)施例提供的信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖；

圖4為本發(fā)明一實(shí)施例提供的多來源實(shí)體識別模塊的結(jié)構(gòu)示意圖；

圖5為本發(fā)明一實(shí)施例提供的實(shí)時(shí)微博檢索模塊的結(jié)構(gòu)示意圖；

圖6為本發(fā)明一實(shí)施例提供的微博檢索結(jié)果過濾模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖，對發(fā)明的具體實(shí)施方式作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案，而不能以此來限制本發(fā)明的保護(hù)范圍。

圖1示出了本發(fā)明實(shí)施例提供的信息的檢索方法的流程示意圖，如圖1所示，該方法包括如下步驟：

101、接收用戶的輸入指令，根據(jù)所述指令中的第一檢索關(guān)鍵詞信息在預(yù)設(shè)網(wǎng)絡(luò)資源中獲取與所述第一檢索關(guān)鍵詞信息對應(yīng)的多條文本信息；

舉例來說，上述預(yù)設(shè)網(wǎng)絡(luò)資源可以為包括新聞規(guī)范和簡潔的谷歌新聞；流行的社交平臺，例如Twitter；數(shù)據(jù)庫，例如Freebase；或者是一些預(yù)先在谷歌新聞等網(wǎng)站上訓(xùn)練好的詞向量等。

102、識別所述多條文本信息中的關(guān)鍵詞信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別，并將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶，以使用戶根據(jù)所述多個(gè)文本框選擇與所述輸入指令相對應(yīng)的關(guān)鍵詞信息；

上述關(guān)鍵詞類別包括人物、地點(diǎn)、組織機(jī)構(gòu)等類別，對應(yīng)的文本框展示給用戶時(shí)也包括上述類別。

舉例來說，用戶輸入的是周杰倫，而通過上述網(wǎng)絡(luò)資源查詢到的文本信息包括：“周杰倫昆凌”“周杰倫鳥巢”“周杰倫演唱會”“周杰倫新專輯”，則根據(jù)上述文本信息可以將上述信息的類別比如人物“周杰倫昆凌”，地點(diǎn)“周杰倫鳥巢”，組織機(jī)構(gòu)“周杰倫演唱會”“周杰倫新專輯”，當(dāng)用戶感興趣的是人物的信息時(shí)，用戶會在相對應(yīng)的文本框中選擇“周杰倫昆凌”。

103、根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息；

根據(jù)步驟102中舉例的內(nèi)容，當(dāng)用戶選擇人物的關(guān)鍵詞類別時(shí)，則第二檢索關(guān)鍵詞信息會包括“周杰倫昆凌”。

104、根據(jù)所述第二檢索關(guān)鍵詞信息，在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。

具體的，所述預(yù)設(shè)語料庫為建立索引后的語料庫。

上述方法通過查詢與用戶輸入的指令相關(guān)的多條文本信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別，再向用戶展示這些關(guān)鍵詞類別，最后根據(jù)用戶選擇的關(guān)鍵詞類別對應(yīng)的關(guān)鍵詞信息以及初始的查詢指令重新生成檢索關(guān)鍵詞信息，并通過重新生成的關(guān)鍵詞在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶，該方法通過多用戶的原始查詢指令進(jìn)行擴(kuò)展，并對檢索結(jié)果進(jìn)行優(yōu)化，提高了信息檢索的準(zhǔn)確度，同時(shí)也提高了檢索效率。

在具體應(yīng)用中，上述步驟102具體包括：

上述步驟104具體包括圖1中未示出的如下子步驟：

1041、根據(jù)所述第二檢索關(guān)鍵詞信息，遍歷所述預(yù)設(shè)語料庫，獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息；

1042、獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度；

1043、根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序；

1044、在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息；

1045、通過星型聚類算法，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類，并將每一類中第一文本相似度最大的文本信息展示給用戶；

其中，N為大于等于1的正整數(shù)。

具體的，上述步驟1045，具體包括以下步驟：

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度；

根據(jù)所述第二文本相似度，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

上述步驟1045主要是對預(yù)設(shè)數(shù)量的文本信息中防止出現(xiàn)重復(fù)的信息展示給用戶，或者相似度比較高的信息展示給用戶，因此將上述信息中類別相似度比較高的劃分成一類，因此，上述預(yù)設(shè)數(shù)量的文本信息可以劃分成多類，然后再在每一類中選取文本相似度最高的一條文本信息展示用戶，實(shí)現(xiàn)了對預(yù)設(shè)數(shù)量的文本信息中的噪音信息和冗余信息的優(yōu)化操作。

可理解的是，上述第一文本相似度代表查詢-文檔相似度，也即為查詢的第二檢索關(guān)鍵詞信息與N條文本信息的相似度，第二文本相似度代表文檔-文檔相似度，也即為獲取的預(yù)設(shè)數(shù)量的文本信息中，任意兩個(gè)文本信息的相似度。

下面通過具體的例子對上述方法作進(jìn)一步地描述：

假設(shè)用戶的原始查詢?yōu)椤爸芙軅悺?。以谷歌新聞舉例，首先系統(tǒng)返回和“周杰倫”相關(guān)的M條實(shí)時(shí)新聞，例如第一條新聞是“周杰倫和昆凌在英國完婚”，第二條新聞是“周杰倫發(fā)布新專輯《鞋子特大號》”。

獲取到相關(guān)實(shí)體新聞后，使用命名實(shí)體識別技術(shù)進(jìn)行實(shí)體識別，例如“周杰倫和昆凌在英國完婚”中的實(shí)體有“周杰倫”、“昆凌”和“英國”，“周杰倫發(fā)布新專輯《鞋子特大號》”中的實(shí)體有“周杰倫”、“新專輯”和“《鞋子特大號》”。

以圖的形式向用戶展示這些實(shí)體，同時(shí)還有各實(shí)體對應(yīng)的新聞。假設(shè)用戶對周杰倫新婚這個(gè)新聞比較感興趣，他就可以選擇“昆凌”這個(gè)實(shí)體進(jìn)行更深入的探索。

新的查詢結(jié)合了原始查詢和用戶選擇的實(shí)體，即“周杰倫昆凌”。

在上述結(jié)合了原始查詢和用戶選擇的實(shí)體之后，進(jìn)行檢索相關(guān)人物和相關(guān)微博。結(jié)合一個(gè)例子，相關(guān)人物和相關(guān)微博檢索的步驟如下：

(1)關(guān)于相關(guān)人物檢索，系統(tǒng)會將新查詢拆分成一個(gè)個(gè)實(shí)體，即“周杰倫昆凌”會被拆分成“周杰倫”和“昆凌”，再去微博用戶群體中查找對應(yīng)的人名，返回對應(yīng)的微博賬號。

(2)關(guān)于相關(guān)微博檢索，系統(tǒng)會對微博文檔集合建立索引，之后遍歷每一個(gè)微博文檔，根據(jù)新查詢和微博文檔之間的文本相似度，即KL距離，對微博文檔進(jìn)行打分，最后按照打分高低對微博文檔進(jìn)行排序，返回得分較高的前N條微博。

(3)假設(shè)返回4條微博，如下：

a)“恭喜周杰倫和昆凌在英國結(jié)婚，開心！”

b)“開心，周杰倫和昆凌終于在英國結(jié)婚啦！”

c)“年幼時(shí)候的偶像周杰倫和昆凌結(jié)婚了，好傷心…”

d)“周杰倫和昆凌結(jié)婚了，對象不是我，傷心…”

然后對上述返回的4條微博中的冗余微博和噪音微博。結(jié)合一個(gè)例子，過濾的步驟如下：

1)首先計(jì)算返回的前N條微博兩兩之間的相似度。

2)其次根據(jù)相似度分?jǐn)?shù)進(jìn)行星聚類，根據(jù)聚類算法，a)和b)聚成一類，c)和d)聚成一類。

3)選出每類中檢索得分較高的一條微博，其中第一類選出a)，第二類選出c)。

4)將a)和c)作為最終的相關(guān)微博并展示給用戶。

圖2示出了本發(fā)明實(shí)施例提供的一種信息的檢索系統(tǒng)的結(jié)構(gòu)示意圖，如圖2所示，該系統(tǒng)包括：

接收模塊21，用于接收用戶的輸入指令；

獲取模塊22，用于識別所述多條文本信息中的關(guān)鍵詞信息，獲取與所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別；

第一展示模塊23，用于將所述關(guān)鍵詞信息對應(yīng)的關(guān)鍵詞類別以多個(gè)文本框的形式展示給用戶；

生成模塊24，用于根據(jù)所述用戶選擇的關(guān)鍵詞信息和所述第一檢索關(guān)鍵詞信息生成第二檢索關(guān)鍵詞信息；

第二展示模塊25，用于根據(jù)所述第二檢索關(guān)鍵詞信息，在預(yù)設(shè)語料庫中選取符合預(yù)設(shè)條件的文本信息展示給用戶。所述預(yù)設(shè)語料庫為建立索引后的語料庫。

所述獲取模塊22，具體用于：

所述第二展示模塊25，具體用于：

根據(jù)所述第二檢索關(guān)鍵詞信息，遍歷所述預(yù)設(shè)語料庫，獲取與所述第二檢索關(guān)鍵詞信息相對應(yīng)的N條文本信息；

獲取所述第二檢索關(guān)鍵詞信息與所述N條文本信息的第一文本相似度；

根據(jù)所述第一文本相似度對所述N條文本信息進(jìn)行排序；

在排序后的所述N條文本信息中按照所述第一文本相似度從大到小的順序選取預(yù)設(shè)數(shù)量的文本信息；

通過星型聚類算法，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類，并將每一類中第一文本相似度最大的文本信息展示給用戶；

其中，N為大于等于1的正整數(shù)。

所述第二展示模塊25，還用于：

獲取預(yù)設(shè)數(shù)量的文本信息中的任意兩條文本信息的第二文本相似度；

根據(jù)所述第二文本相似度，對所述預(yù)設(shè)數(shù)量的文本信息劃分聚類。

在另一個(gè)可實(shí)現(xiàn)的方式中，如圖3所示，上述系統(tǒng)還可以分為以下三個(gè)模塊：多來源實(shí)體識別模塊31、實(shí)時(shí)微博檢索模塊32、微博檢索結(jié)果過濾模塊33。

多來源實(shí)體識別模塊31，用于從網(wǎng)絡(luò)多來源收集和用戶原始查詢相關(guān)描述性文本信息，并利用實(shí)體識別技術(shù)提取其中的實(shí)體。

實(shí)時(shí)微博檢索模塊32，用于通過結(jié)合用戶原始查詢和用戶選取的實(shí)體信息在微博文檔集中進(jìn)行檢索，返回與之相關(guān)的微博集合作為檢索結(jié)果。

微博檢索結(jié)果過濾模塊33，用于去除檢索結(jié)果中的噪音微博和冗余微博，主要用到文本聚類去噪技術(shù)。通過以上技術(shù)，可以建立一個(gè)魯棒性較強(qiáng)、檢索效果較好且具有用戶個(gè)性化的微博檢索系統(tǒng)。

為達(dá)上述目的，本發(fā)明采取的技術(shù)方案是：

如圖4所示，在多來源實(shí)體識別模塊31中，提供一個(gè)獲取相關(guān)實(shí)體的裝置，該裝置主要包括：

描述性文本獲取模塊311：本發(fā)明選取了4個(gè)網(wǎng)絡(luò)資源作為的多來源實(shí)體庫，分別描述如下：

谷歌新聞是我們的第一個(gè)選擇，因?yàn)橄鄬τ诤唵蔚奈淖?，新聞更加?guī)范和簡潔。我們使用谷歌新聞的搜索接口來獲取與原始查詢最相近的相關(guān)新聞作為描述性文本。

Twitter是一個(gè)流行的社交平臺，用戶可以輕松分享和討論相關(guān)的信息。和處理谷歌新聞?lì)愃?，我們使用Twitter的搜索接口獲取與原始查詢最相近的相關(guān)微博作為描述性文本。

Freebase是一個(gè)用于組織人類知識的實(shí)用元組型知識數(shù)據(jù)庫。我們使用了Freebase中實(shí)體的簡要摘要屬性來獲取和原始查詢相關(guān)的簡介信息作為描述性文本。

最近，分布式詞向量表示引起了文本理解相關(guān)學(xué)術(shù)圈很大的關(guān)注。詞向量可以把各類語義關(guān)系和語言規(guī)律模式嵌入新的向量空間。為此，可以預(yù)先下載在谷歌新聞數(shù)據(jù)集上訓(xùn)練好的詞向量表示。該谷歌新聞?dòng)?xùn)練集包括約10億個(gè)詞。接著計(jì)算了原始查詢和其他詞在詞向量空間中的余弦相似度，選取了距離最相近的詞作為原始查詢的描述性文本。

實(shí)體抽取模塊312：利用實(shí)體識別技術(shù)從相關(guān)描述性文本中提取出對應(yīng)的實(shí)體信息；

新查詢生成模塊313：系統(tǒng)以圖的形式向用戶展現(xiàn)相關(guān)的實(shí)體，同時(shí)提供各自對應(yīng)的新聞內(nèi)容，用戶根據(jù)個(gè)人喜好，選擇一個(gè)實(shí)體進(jìn)行更深入的探索，被選擇的實(shí)體詞語會和用戶原始查詢進(jìn)行合并，生成新的查詢詞。

如圖5所示，在實(shí)時(shí)微博檢索模塊32中，提供一個(gè)微博文本實(shí)時(shí)檢索裝置321和一個(gè)微博人物實(shí)時(shí)檢索裝置322。

微博文本實(shí)時(shí)檢索裝置321包括：

微博文檔建立索引模塊：獲取近期微博文檔信息，進(jìn)行文本預(yù)處理，并建立倒排索引；

微博文檔打分模塊：對于新查詢生成模塊中生成的新查詢，該打分模塊需遍歷索引并找出與查詢相關(guān)的文檔，利用經(jīng)典的語言模型，計(jì)算新查詢和微博文檔的文本相似度，并以文本相似度對其進(jìn)行打分；

微博文檔檢索模塊：將這些文檔按照文檔得分進(jìn)行排序，返回檢索結(jié)果中的前預(yù)設(shè)數(shù)量條微博文檔；

微博人物實(shí)時(shí)檢索裝置322包括：

微博人物建立索引模塊：獲取微博人物名稱信息，進(jìn)行文本預(yù)處理，并建立倒排索引；

微博人物檢索模塊：對于新查詢生成模塊中生成的新查詢，將其拆分為原始查詢和擴(kuò)展實(shí)體。分別對原始查詢和擴(kuò)展實(shí)體進(jìn)行人物檢索，返回前預(yù)設(shè)數(shù)量條人物信息；

如圖6所示，在微博檢索結(jié)果過濾模塊33中，提供一個(gè)微博檢索結(jié)果過濾裝置，該裝置主要包括：

微博文本相似度打分模塊331：為實(shí)時(shí)微博檢索模塊中返回的預(yù)設(shè)數(shù)量條相關(guān)微博兩兩進(jìn)行比較，計(jì)算它們之間的文本相似度得分；

微博文本聚類模塊332：根據(jù)微博文本之間的文本相似度得分，采用星聚類技術(shù)將其劃分為不同類。

微博文本過濾模塊333：對于聚類結(jié)果中的每一類，將得分最高的微博作為代表微博，過濾掉類中的其他微博，即噪音微博和冗余微博。

最后系統(tǒng)返回這些代表微博和相關(guān)人物展示給用戶。

本發(fā)明的說明書中，說明了大量具體細(xì)節(jié)。然而，能夠理解，本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中，并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù)，以便不模糊對本說明書的理解。

本領(lǐng)域的技術(shù)人員能夠理解，盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征，但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如，在下面的權(quán)利要求書中，所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。

最后應(yīng)說明的是：以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案，而非對其限制；盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解：其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂超;強(qiáng)閏偉;姚麗麗;楊建武;
技術(shù)所有人：北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司;
我是此專利的發(fā)明人

上一篇：文件處理方法、文件處理裝置及電子設(shè)備與流程
上一篇：自動(dòng)點(diǎn)焊機(jī)的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

信息檢索系統(tǒng)相關(guān)技術(shù)

萬維網(wǎng)的信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)的功能為相關(guān)技術(shù)

專利信息檢索系統(tǒng)相關(guān)技術(shù)

計(jì)算機(jī)信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)評價(jià)相關(guān)技術(shù)

信息檢索系統(tǒng)的評價(jià)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種信息的檢索方法及系統(tǒng)與流程