一種信息檢索的方法及裝置與流程

文檔序號：12465332閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種信息檢索的方法及裝置與流程

技術(shù)特征：

1.一種信息檢索的方法，其特征在于，所述方法包括：

將大數(shù)據(jù)平臺軟件遷移到一個預(yù)設(shè)軟硬件平臺，所述遷移包括開發(fā)環(huán)境的遷移和運行環(huán)境的遷移，以及應(yīng)用軟件的移植和適配；

在所述遷移之后，在索引建立過程和信息檢索過程中，通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān)，對信息的采集、存儲及查詢進行性能優(yōu)化。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述索引建立過程，包括：

將采集到的各文檔放到各服務(wù)器的本地文件系統(tǒng)的預(yù)設(shè)目錄中，通過分詞組件Tokenizer獲取詞元Token，所述分詞組件用于將文檔分成單獨的單詞、去除標點符號和去除停詞；

由語言處理組件Linguistic Processor對所述詞元Token通過語言處理組件得到詞Term，所述語言處理組件用于變?yōu)樾慙owercase、將單詞縮減為詞根形式和將單詞轉(zhuǎn)變?yōu)樵~根形式；

由索引組件Indexer對所述詞Term進行索引處理組件得到索引-文檔倒排鏈表Posting List，所述索引處理組件用于為所述詞Term創(chuàng)建字典、對所述字典按字母順序進行排序并合并相同的詞Term成為文檔倒排Posting List的鏈表；

通過索引存儲Storage將所述索引-文檔倒排鏈表Posting List寫入磁盤文件系統(tǒng)。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述信息檢索過程，包括：

將輸入的查詢語句SQL，經(jīng)過詞法分析得到單詞關(guān)鍵字；

通過語法分析組件對所述單詞關(guān)鍵字進行語法分析；

通過所述語言處理組件處理并輸出詞Term；

搜索索引并根據(jù)上一環(huán)節(jié)的詞Term從磁盤中的索引文件中進行搜索；

經(jīng)過搜索索引組件檢索得到符合條件的文檔，再由結(jié)果排序組件進行排序后返回查詢結(jié)果。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述經(jīng)過搜索索引組件檢索得到符合條件的文檔，包括：

在反向索引表中，分別找出包含第一關(guān)鍵詞、第二關(guān)鍵詞和第三關(guān)鍵詞的文檔鏈表；

對包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的鏈表進行合并操作，得到同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表；

再將同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表與所述第三關(guān)鍵詞的文檔鏈表進行差操作，去除包含第三關(guān)鍵詞的文檔，得到包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表，所述包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表為符合條件的文檔。

5.根據(jù)權(quán)利要求1至4任意一項所述的方法，其特征在于，所述通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān)，對信息的采集、存儲及查詢進行性能優(yōu)化，包括：

在并行處理的數(shù)據(jù)采集與傳輸、索引建立與更新、信息讀取與檢索的數(shù)據(jù)處理中，針對不同來源、不同類型的數(shù)據(jù)，按照一定的時間周期進行建表，存儲和檢索，并實現(xiàn)對數(shù)據(jù)的并發(fā)處理；數(shù)據(jù)采集與傳輸將采集到的數(shù)據(jù)分門別類地放到相應(yīng)的信息鏈表，通過不同的處理線程進行分詞、語言處理、索引及存儲處理，再將索引數(shù)據(jù)對應(yīng)的collection寫入到不同節(jié)點的不同硬盤及分區(qū)的不同索引文件中；信息檢索時，接收輸入查詢語句后，經(jīng)過詞法、語法、語言處理組件后，并發(fā)調(diào)用索引搜索線程并發(fā)搜索不同節(jié)點上的不同硬盤及分區(qū)上的不同索引文件，將檢索結(jié)果分別進行相似度計算和排序，再統(tǒng)一進行結(jié)果排序，并將查詢結(jié)果進行頁面展示；

在數(shù)據(jù)緩存的信息檢索時，采用預(yù)先申請內(nèi)存、緩存常用數(shù)據(jù)和過程結(jié)果方式；文本數(shù)據(jù)從采集到傳輸，到索引建立與更新，到信息讀取與檢索的數(shù)據(jù)處理過程中，通過內(nèi)存對數(shù)據(jù)進行緩存，最后僅需一次寫盤操作；

在分片處理的信息檢索時，對大數(shù)據(jù)量的信息檢索采取分片和分包處理；采用分片響應(yīng)策略處理大數(shù)據(jù)量的信息查詢時，在訪問、查詢機處理大數(shù)據(jù)量信息時，對用于程序的訪問查詢采用分片響應(yīng)方式，分批次返回查詢結(jié)果；客戶端對接收到的數(shù)據(jù)進行處理的過程是攜帶返回數(shù)據(jù)的過程；

在讀寫分離的信息檢索中，將距離當(dāng)前越近的近期數(shù)據(jù)獨立于歷史數(shù)據(jù)分開存儲，并且用第一存儲介質(zhì)來存儲所述近期數(shù)據(jù)，用第二存儲介質(zhì)來存儲所述歷史數(shù)據(jù)；

在負載分擔(dān)的信息檢索時，采用負載分擔(dān)的方式，將用戶的查詢請求均勻分發(fā)到不同Solr節(jié)點上，各個節(jié)點接收到查詢請求后，對本機的索引數(shù)據(jù)庫進行檢索。

6.一種信息檢索的裝置，其特征在于，所述裝置包括：

遷移模塊，用于將大數(shù)據(jù)平臺軟件遷移到一個預(yù)設(shè)軟硬件平臺，所述遷移包括開發(fā)環(huán)境的遷移和運行環(huán)境的遷移，以及應(yīng)用軟件的移植和適配；

優(yōu)化模塊，用于在所述遷移之后，在索引建立過程和信息檢索過程中，通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān)，對信息的采集、存儲及查詢進行性能優(yōu)化。

7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述優(yōu)化模塊，具體用于：

通過索引存儲Storage將所述索引-文檔倒排鏈表Posting List寫入磁盤文件系統(tǒng)。

8.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述優(yōu)化模塊，還具體用于：

將輸入的查詢語句SQL，經(jīng)過詞法分析得到單詞關(guān)鍵字；

通過語法分析組件對所述單詞關(guān)鍵字進行語法分析；

通過所述語言處理組件處理并輸出詞Term；

搜索索引并根據(jù)上一環(huán)節(jié)的詞Term從磁盤中的索引文件中進行搜索；