欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種信息檢索的方法及裝置與流程

文檔序號:12465332閱讀:來源:國知局

技術(shù)特征:

1.一種信息檢索的方法,其特征在于,所述方法包括:

將大數(shù)據(jù)平臺軟件遷移到一個預(yù)設(shè)軟硬件平臺,所述遷移包括開發(fā)環(huán)境的遷移和運行環(huán)境的遷移,以及應(yīng)用軟件的移植和適配;

在所述遷移之后,在索引建立過程和信息檢索過程中,通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān),對信息的采集、存儲及查詢進行性能優(yōu)化。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述索引建立過程,包括:

將采集到的各文檔放到各服務(wù)器的本地文件系統(tǒng)的預(yù)設(shè)目錄中,通過分詞組件Tokenizer獲取詞元Token,所述分詞組件用于將文檔分成單獨的單詞、去除標點符號和去除停詞;

由語言處理組件Linguistic Processor對所述詞元Token通過語言處理組件得到詞Term,所述語言處理組件用于變?yōu)樾慙owercase、將單詞縮減為詞根形式和將單詞轉(zhuǎn)變?yōu)樵~根形式;

由索引組件Indexer對所述詞Term進行索引處理組件得到索引-文檔倒排鏈表Posting List,所述索引處理組件用于為所述詞Term創(chuàng)建字典、對所述字典按字母順序進行排序并合并相同的詞Term成為文檔倒排Posting List的鏈表;

通過索引存儲Storage將所述索引-文檔倒排鏈表Posting List寫入磁盤文件系統(tǒng)。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述信息檢索過程,包括:

將輸入的查詢語句SQL,經(jīng)過詞法分析得到單詞關(guān)鍵字;

通過語法分析組件對所述單詞關(guān)鍵字進行語法分析;

通過所述語言處理組件處理并輸出詞Term;

搜索索引并根據(jù)上一環(huán)節(jié)的詞Term從磁盤中的索引文件中進行搜索;

經(jīng)過搜索索引組件檢索得到符合條件的文檔,再由結(jié)果排序組件進行排序后返回查詢結(jié)果。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述經(jīng)過搜索索引組件檢索得到符合條件的文檔,包括:

在反向索引表中,分別找出包含第一關(guān)鍵詞、第二關(guān)鍵詞和第三關(guān)鍵詞的文檔鏈表;

對包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的鏈表進行合并操作,得到同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表;

再將同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表與所述第三關(guān)鍵詞的文檔鏈表進行差操作,去除包含第三關(guān)鍵詞的文檔,得到包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表,所述包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表為符合條件的文檔。

5.根據(jù)權(quán)利要求1至4任意一項所述的方法,其特征在于,所述通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān),對信息的采集、存儲及查詢進行性能優(yōu)化,包括:

在并行處理的數(shù)據(jù)采集與傳輸、索引建立與更新、信息讀取與檢索的數(shù)據(jù)處理中,針對不同來源、不同類型的數(shù)據(jù),按照一定的時間周期進行建表,存儲和檢索,并實現(xiàn)對數(shù)據(jù)的并發(fā)處理;數(shù)據(jù)采集與傳輸將采集到的數(shù)據(jù)分門別類地放到相應(yīng)的信息鏈表,通過不同的處理線程進行分詞、語言處理、索引及存儲處理,再將索引數(shù)據(jù)對應(yīng)的collection寫入到不同節(jié)點的不同硬盤及分區(qū)的不同索引文件中;信息檢索時,接收輸入查詢語句后,經(jīng)過詞法、語法、語言處理組件后,并發(fā)調(diào)用索引搜索線程并發(fā)搜索不同節(jié)點上的不同硬盤及分區(qū)上的不同索引文件,將檢索結(jié)果分別進行相似度計算和排序,再統(tǒng)一進行結(jié)果排序,并將查詢結(jié)果進行頁面展示;

在數(shù)據(jù)緩存的信息檢索時,采用預(yù)先申請內(nèi)存、緩存常用數(shù)據(jù)和過程結(jié)果方式;文本數(shù)據(jù)從采集到傳輸,到索引建立與更新,到信息讀取與檢索的數(shù)據(jù)處理過程中,通過內(nèi)存對數(shù)據(jù)進行緩存,最后僅需一次寫盤操作;

在分片處理的信息檢索時,對大數(shù)據(jù)量的信息檢索采取分片和分包處理;采用分片響應(yīng)策略處理大數(shù)據(jù)量的信息查詢時,在訪問、查詢機處理大數(shù)據(jù)量信息時,對用于程序的訪問查詢采用分片響應(yīng)方式,分批次返回查詢結(jié)果;客戶端對接收到的數(shù)據(jù)進行處理的過程是攜帶返回數(shù)據(jù)的過程;

在讀寫分離的信息檢索中,將距離當(dāng)前越近的近期數(shù)據(jù)獨立于歷史數(shù)據(jù)分開存儲,并且用第一存儲介質(zhì)來存儲所述近期數(shù)據(jù),用第二存儲介質(zhì)來存儲所述歷史數(shù)據(jù);

在負載分擔(dān)的信息檢索時,采用負載分擔(dān)的方式,將用戶的查詢請求均勻分發(fā)到不同Solr節(jié)點上,各個節(jié)點接收到查詢請求后,對本機的索引數(shù)據(jù)庫進行檢索。

6.一種信息檢索的裝置,其特征在于,所述裝置包括:

遷移模塊,用于將大數(shù)據(jù)平臺軟件遷移到一個預(yù)設(shè)軟硬件平臺,所述遷移包括開發(fā)環(huán)境的遷移和運行環(huán)境的遷移,以及應(yīng)用軟件的移植和適配;

優(yōu)化模塊,用于在所述遷移之后,在索引建立過程和信息檢索過程中,通過并行處理、數(shù)據(jù)緩存、分片處理、讀寫分離和負載分擔(dān),對信息的采集、存儲及查詢進行性能優(yōu)化。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述優(yōu)化模塊,具體用于:

將采集到的各文檔放到各服務(wù)器的本地文件系統(tǒng)的預(yù)設(shè)目錄中,通過分詞組件Tokenizer獲取詞元Token,所述分詞組件用于將文檔分成單獨的單詞、去除標點符號和去除停詞;

由語言處理組件Linguistic Processor對所述詞元Token通過語言處理組件得到詞Term,所述語言處理組件用于變?yōu)樾慙owercase、將單詞縮減為詞根形式和將單詞轉(zhuǎn)變?yōu)樵~根形式;

由索引組件Indexer對所述詞Term進行索引處理組件得到索引-文檔倒排鏈表Posting List,所述索引處理組件用于為所述詞Term創(chuàng)建字典、對所述字典按字母順序進行排序并合并相同的詞Term成為文檔倒排Posting List的鏈表;

通過索引存儲Storage將所述索引-文檔倒排鏈表Posting List寫入磁盤文件系統(tǒng)。

8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述優(yōu)化模塊,還具體用于:

將輸入的查詢語句SQL,經(jīng)過詞法分析得到單詞關(guān)鍵字;

通過語法分析組件對所述單詞關(guān)鍵字進行語法分析;

通過所述語言處理組件處理并輸出詞Term;

搜索索引并根據(jù)上一環(huán)節(jié)的詞Term從磁盤中的索引文件中進行搜索;

經(jīng)過搜索索引組件檢索得到符合條件的文檔,再由結(jié)果排序組件進行排序后返回查詢結(jié)果。

9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述優(yōu)化模塊,還具體用于:

在反向索引表中,分別找出包含第一關(guān)鍵詞、第二關(guān)鍵詞和第三關(guān)鍵詞的文檔鏈表;

對包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的鏈表進行合并操作,得到同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表;

再將同時包含所述第一關(guān)鍵詞和所述第二關(guān)鍵詞的文檔鏈表與所述第三關(guān)鍵詞的文檔鏈表進行差操作,去除包含第三關(guān)鍵詞的文檔,得到包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表,所述包含第一關(guān)鍵詞且包含第二關(guān)鍵詞且不包含第三關(guān)鍵詞的文檔鏈表為符合條件的文檔。

10.根據(jù)權(quán)利要求6至9任意一項所述的裝置,其特征在于,所述優(yōu)化模塊,還具體用于:

在并行處理的數(shù)據(jù)采集與傳輸、索引建立與更新、信息讀取與檢索的數(shù)據(jù)處理中,針對不同來源、不同類型的數(shù)據(jù),按照一定的時間周期進行建表,存儲和檢索,并實現(xiàn)對數(shù)據(jù)的并發(fā)處理;數(shù)據(jù)采集與傳輸將采集到的數(shù)據(jù)分門別類地放到相應(yīng)的信息鏈表,通過不同的處理線程進行分詞、語言處理、索引及存儲處理,再將索引數(shù)據(jù)對應(yīng)的collection寫入到不同節(jié)點的不同硬盤及分區(qū)的不同索引文件中;信息檢索時,接收輸入查詢語句后,經(jīng)過詞法、語法、語言處理組件后,并發(fā)調(diào)用索引搜索線程并發(fā)搜索不同節(jié)點上的不同硬盤及分區(qū)上的不同索引文件,將檢索結(jié)果分別進行相似度計算和排序,再統(tǒng)一進行結(jié)果排序,并將查詢結(jié)果進行頁面展示;

在數(shù)據(jù)緩存的信息檢索時,采用預(yù)先申請內(nèi)存、緩存常用數(shù)據(jù)和過程結(jié)果方式;文本數(shù)據(jù)從采集到傳輸,到索引建立與更新,到信息讀取與檢索的數(shù)據(jù)處理過程中,通過內(nèi)存對數(shù)據(jù)進行緩存,最后僅需一次寫盤操作;

在分片處理的信息檢索時,對大數(shù)據(jù)量的信息檢索采取分片和分包處理;采用分片響應(yīng)策略處理大數(shù)據(jù)量的信息查詢時,在訪問、查詢機處理大數(shù)據(jù)量信息時,對用于程序的訪問查詢采用分片響應(yīng)方式,分批次返回查詢結(jié)果;客戶端對接收到的數(shù)據(jù)進行處理的過程是攜帶返回數(shù)據(jù)的過程;

在讀寫分離的信息檢索中,將距離當(dāng)前越近的近期數(shù)據(jù)獨立于歷史數(shù)據(jù)分開存儲,并且用第一存儲介質(zhì)來存儲所述近期數(shù)據(jù),用第二存儲介質(zhì)來存儲所述歷史數(shù)據(jù);

在負載分擔(dān)的信息檢索時,采用負載分擔(dān)的方式,將用戶的查詢請求均勻分發(fā)到不同Solr節(jié)點上,各個節(jié)點接收到查詢請求后,對本機的索引數(shù)據(jù)庫進行檢索。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
淮南市| 边坝县| 伊通| 通州区| 汾阳市| 南开区| 丁青县| 休宁县| 拜城县| 兴和县| 台州市| 高要市| 崇左市| 邵武市| 井陉县| 金堂县| 吉安市| 武清区| 余干县| 许昌县| 易门县| 焉耆| 社旗县| 万盛区| 镇远县| 岚皋县| 花莲县| 卫辉市| 洛阳市| 正蓝旗| 惠水县| 定南县| 时尚| 青神县| 株洲县| 永仁县| 青铜峡市| 阿拉善左旗| 张掖市| 新竹县| 铜川市|