欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種確定檢索詞在文檔中的位置信息的方法以及裝置的制作方法

文檔序號(hào):6353954閱讀:416來(lái)源:國(guó)知局
專利名稱:一種確定檢索詞在文檔中的位置信息的方法以及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種確定檢索詞在文檔中的位置信息的方法以及裝置。
背景技術(shù)
全文檢索系統(tǒng)是目前應(yīng)用非常普及的一種檢索系統(tǒng),該檢索系統(tǒng)主要根據(jù)預(yù)先建立的倒排索引文件確定出與用戶終端提交的檢索詞匹配的文檔,該文檔一般為包括用戶終端提交的各檢索詞的文檔。目前,全文檢索系統(tǒng)建立倒排索引文件的過(guò)程包括:通過(guò)索引程序掃描文檔中的每一個(gè)詞項(xiàng),并分別對(duì)每一個(gè)詞項(xiàng)建立一個(gè)索引項(xiàng),該索引項(xiàng)用于標(biāo)識(shí)所對(duì)應(yīng)詞項(xiàng)在該文檔中出現(xiàn)的位置信息,并根據(jù)為文檔中的每一個(gè)詞項(xiàng)分別建立的索引項(xiàng)創(chuàng)建倒排索引文件。在建立倒排索引文件后,全文檢索系統(tǒng)在進(jìn)行檢索時(shí),首先通過(guò)讀取該倒排索引文件確定出包含用戶提交的詞項(xiàng)的文檔集合(該集合中包括的文檔可以以文檔列表的形式存在),以及該詞項(xiàng)在每個(gè)文檔中分別出現(xiàn)的位置信息(該位置信息可以以列表的形式存在),然后返回檢索命中結(jié)果。一般情況下,用戶終端提交的檢索詞可以為詞組,也可以為短句,因此,在應(yīng)用全文檢索系統(tǒng)進(jìn)行檢索時(shí),一般將檢索請(qǐng)求中的檢索詞對(duì)應(yīng)的詞組或短句劃分為多個(gè)詞項(xiàng)在索引文件中進(jìn)行查找,并將同時(shí)包含所有劃分得到的詞項(xiàng)的文檔確定為初步命中的文檔,然后讀取檢索詞在初步命中的每個(gè)文檔中分別出現(xiàn)的位置信息,并將確定出的位置信息滿足設(shè)定位置關(guān)系的文檔確定為最終的命中的文檔返回給該用戶終端。具體地,確定位置信息滿足設(shè)定位置關(guān)系的文檔,即在確定出檢索詞在文檔中出現(xiàn)的位置信息后,根據(jù)檢索詞在文檔中的上述位置信息進(jìn)行位置關(guān)系計(jì)算。在進(jìn)行位置關(guān)系計(jì)算時(shí)需要讀取檢索詞包括的各詞項(xiàng)分別在初步命中的文檔中分別出現(xiàn)的位置信息,下面將以讀取下表I中初步命中的文檔包括的檢索詞在文檔中的位置信息為示例進(jìn)行說(shuō)明:表1:
權(quán)利要求
1.一種確定檢索詞在文檔中的位置信息的方法,其特征在于,包括: 針對(duì)檢索詞被劃分得到的每個(gè)詞項(xiàng),分別執(zhí)行: 確定該詞項(xiàng)在每個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個(gè)詞項(xiàng)。
2.如權(quán)利要求1所述的方法,其特征在于,確定該詞項(xiàng)在每個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的位置信息,包括: 根據(jù)預(yù)先確定的初步命中文檔的順序,確定該詞項(xiàng)在第一個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述第一個(gè)初步命中文檔中的位置信息;選擇下一個(gè)初步命中文檔,并讀取該詞項(xiàng)在該初步命中文檔中的位置信息,直到讀取該詞項(xiàng)在所有初步命中文檔中的位置信息;或 確定該詞項(xiàng)在所有初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出各存儲(chǔ)位置,依次讀取該詞項(xiàng)在各初步命中文檔中的位置信息。
3.如權(quán)利要求1所述的方法,其特征在于,確定該詞項(xiàng)在初步命中文檔中的位置信息的存儲(chǔ)位置,包括: 確定該詞項(xiàng)在初步命中文檔中的各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置; 根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的位置信息,包括: 根據(jù)確定出的所述各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的各位置信息。
4.如權(quán)利要求3所述的方法,其特征在于,確定該詞項(xiàng)在初步命中文檔中的各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置,包括: 確定保存的與該詞項(xiàng)對(duì)應(yīng)的第二起始存儲(chǔ)位置,所述第二起始存儲(chǔ)位置為該詞項(xiàng)在包括該詞項(xiàng)的各文檔中的各位置信息被保存時(shí)的起始存儲(chǔ)位置;并 確定所述第二起始存儲(chǔ)位置分別與該詞項(xiàng)在初步命中文檔中的第一個(gè)位置信息被保存時(shí)的起始存儲(chǔ)位置之間的差值; 根據(jù)確定出的所述第二起始存儲(chǔ)位置以及所述差值,分別確定該詞項(xiàng)在初步命中文檔中的各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置。
5.如權(quán)利要求4所述的方法,其特征在于,確定所述第二起始存儲(chǔ)位置分別與該詞項(xiàng)在初步命中文檔中的第一位置信息被保存時(shí)的各起始存儲(chǔ)位置之間的差值,包括: 確定保存的與該詞項(xiàng)對(duì)應(yīng)的第三起始存儲(chǔ)位置,所述第三起始存儲(chǔ)位置為用于保存與包括該詞項(xiàng)的各文檔中分別對(duì)應(yīng)的所述差值的存儲(chǔ)位置的起始存儲(chǔ)位置;并 根據(jù)該初步命中文檔在包括該詞項(xiàng)的各文檔中對(duì)應(yīng)的順序以及用于保存每個(gè)文檔對(duì)應(yīng)的所述差值的存儲(chǔ)空間,確定用于保存在該初步命中文檔之前的文檔對(duì)應(yīng)的所述差值的總存儲(chǔ)空間; 將確定出的所述第三起始存 儲(chǔ)位置與所述總存儲(chǔ)空間之和,確定為差值的起始存儲(chǔ)位置,并根據(jù)確定出的所述起始存儲(chǔ)位置讀取所述差值。
6.一種確定檢索詞在文檔中位置信息的裝置,其特征在于,包括:檢索詞劃分單元,用于將檢索詞劃分為多個(gè)詞項(xiàng); 位置信息讀取單元,用于針對(duì)所述檢索詞劃分單元對(duì)檢索詞進(jìn)行劃分得到的每個(gè)詞項(xiàng),分別執(zhí)行:確定該詞項(xiàng)在每個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個(gè)詞項(xiàng)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 根據(jù)預(yù)先確定的初步命中文檔的順序,確定該詞項(xiàng)在第一個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述第一個(gè)初步命中文檔中的位置信息;選擇下一個(gè)初步命中文檔,并讀取該詞項(xiàng)在該初步命中文檔中的位置信息,直到讀取該詞項(xiàng)在所有初步命中文檔中的位置信息;或, 確定該詞項(xiàng)在所有初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出各存儲(chǔ)位置,依次讀取該詞項(xiàng)在各初步命中文檔中的位置信息。
8.如權(quán)利要求6所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定該詞項(xiàng)在初步命中文檔中的各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置; 根據(jù)確定出的所述各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的各位置信息。
9.如權(quán)利要求8所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定保存的與該詞項(xiàng)對(duì)應(yīng) 的第二起始存儲(chǔ)位置,所述第二起始存儲(chǔ)位置為該詞項(xiàng)在包括該詞項(xiàng)的各文檔中的各位置信息被保存時(shí)的起始存儲(chǔ)位置;并 確定所述第二起始存儲(chǔ)位置分別與該詞項(xiàng)在初步命中文檔中的第一個(gè)位置信息被保存時(shí)的起始存儲(chǔ)位置之間的差值; 根據(jù)確定出的所述第二起始存儲(chǔ)位置以及所述差值,分別確定該詞項(xiàng)在初步命中文檔中的各位置信息被保存時(shí)分別對(duì)應(yīng)的第一起始存儲(chǔ)位置。
10.如權(quán)利要求9所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定保存的與該詞項(xiàng)對(duì)應(yīng)的第三起始存儲(chǔ)位置,所述第三起始存儲(chǔ)位置為用于保存與包括該詞項(xiàng)的各文檔中分別對(duì)應(yīng)的所述差值的存儲(chǔ)位置的起始存儲(chǔ)位置;并 根據(jù)該初步命中文檔在包括該詞項(xiàng)的各文檔中對(duì)應(yīng)的順序以及用于保存每個(gè)文檔對(duì)應(yīng)的所述差值的存儲(chǔ)空間,確定用于保存在該初步命中文檔之前的文檔對(duì)應(yīng)的所述差值的總存儲(chǔ)空間; 將確定出的所述第三起始存儲(chǔ)位置與所述總存儲(chǔ)空間之和,確定為差值的起始存儲(chǔ)位置,并根據(jù)確定出的所述起始存儲(chǔ)位置讀取所述差值。
全文摘要
本發(fā)明公開(kāi)了一種確定檢索詞在文檔中的位置信息的方法以及裝置,包括針對(duì)檢索詞被劃分得到的每個(gè)詞項(xiàng),分別執(zhí)行確定該詞項(xiàng)在每個(gè)初步命中文檔中的位置信息的存儲(chǔ)位置,并根據(jù)確定出的所述存儲(chǔ)位置,讀取該詞項(xiàng)在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個(gè)詞項(xiàng)。根據(jù)本技術(shù)方案,減少了對(duì)詞項(xiàng)在非初步命中文檔中的位置信息的讀取過(guò)程,從而減少了信息的讀取量,提高了確定檢索詞在文檔中的位置信息的效率,進(jìn)而提高了檢索效率。
文檔編號(hào)G06F17/30GK103176978SQ20111043065
公開(kāi)日2013年6月26日 申請(qǐng)日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
發(fā)明者童征宇, 徐劍波, 閆進(jìn)兵 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
静海县| 金平| 福建省| 虹口区| 安义县| 湖南省| 板桥市| 绥阳县| 合川市| 大渡口区| 东乡县| 枣庄市| 依安县| 大庆市| 东兴市| 大渡口区| 萍乡市| 吉木乃县| 瓮安县| 淄博市| 富蕴县| 新乡市| 乌恰县| 嘉兴市| 宁远县| 吉木乃县| 万荣县| 英超| 渭南市| 陈巴尔虎旗| 巩义市| 南安市| 三门县| 清徐县| 河曲县| 巴林左旗| 洞口县| 博爱县| 芒康县| 楚雄市| 邯郸县|