欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種搜索結(jié)果的生成方法及裝置的制造方法

文檔序號:8361471閱讀:200來源:國知局
一種搜索結(jié)果的生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于搜索技術(shù)領(lǐng)域,尤其涉及一種搜索結(jié)果的生成方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量每天都呈現(xiàn)著爆炸式的增長,而搜索引擎通過構(gòu)建有效的數(shù)據(jù)索引,能夠幫助用戶快捷地在海量數(shù)據(jù)中查詢到需要的信息。在搜索引擎技術(shù)中,倒排索引(Inverted Index)作為最常使用到的一種數(shù)據(jù)結(jié)構(gòu),被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射,通過倒排索弓丨,可以根據(jù)關(guān)鍵詞快速地獲取到包含這個關(guān)鍵詞的文檔列表,以生成搜索結(jié)果反饋給用戶。
[0003]現(xiàn)有的搜索引擎中,進(jìn)行倒排索引的詞以及這些詞對應(yīng)的文檔列表均是通過單機存儲的,由于單機的硬件資源有限,在該存儲條件下,進(jìn)行倒排索引的詞數(shù)量越多,則由此產(chǎn)生的倒排數(shù)據(jù)所占用的存儲空間也會越大,與此同時,在檢索過程中對磁盤的讀寫次數(shù)也會越頻繁。例如,以2億篇文檔為例,其中進(jìn)行倒排索引的詞的數(shù)量多于14億,而這些詞對應(yīng)的倒排數(shù)據(jù)總量則達(dá)到了 560GB之多,從而導(dǎo)致在搜索過程中,中央處理器(CentralProcessing Unit, CPU)和磁盤的壓力增大,無法高效地進(jìn)行運算,影響倒排索引數(shù)據(jù)的存取速度,導(dǎo)致搜索結(jié)果的生成效率低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實施例的目的在于提供一種搜索結(jié)果的生成方法,解決目前搜索引擎中倒排索引數(shù)據(jù)的存取速度慢,導(dǎo)致搜索結(jié)果的生成效率低的問題。
[0005]本發(fā)明實施例是這樣實現(xiàn)的,一種搜索結(jié)果的生成方法,包括:
[0006]對抓取的文檔進(jìn)行分詞處理,統(tǒng)計每個分詞的詞頻,所述分詞的詞頻用于表示包括該分詞的所述抓取的文檔的數(shù)量;
[0007]分別生成高頻詞倒排索引和低頻詞倒排索引,所述高頻詞倒排索引中的所述分詞的詞頻大于預(yù)設(shè)閾值,所述低頻詞倒排索引中的所述分詞的詞頻不大于所述預(yù)設(shè)閾值;
[0008]將所述高頻詞倒排索引和所述低頻詞倒排索引分別加載至不同的檢索模塊,所述不同的檢索模塊之間分別具備相互獨立的存儲裝置;
[0009]將搜索關(guān)鍵詞輸入至少一個所述檢索模塊,在輸入的所述檢索模塊對應(yīng)的倒排索引中檢索所述搜索關(guān)鍵詞的文檔列表,生成搜索結(jié)果。
[0010]本發(fā)明實施例的另一目的在于提供一種搜索結(jié)果的生成裝置,包括:
[0011]分詞處理單元,用于對抓取的文檔進(jìn)行分詞處理,統(tǒng)計每個分詞的詞頻,所述分詞的詞頻用于表示包括該分詞的所述抓取的文檔的數(shù)量;
[0012]倒排索引生成單元,用于分別生成高頻詞倒排索引和低頻詞倒排索引,所述高頻詞倒排索引中的所述分詞的詞頻大于預(yù)設(shè)閾值,所述低頻詞倒排索引中的所述分詞的詞頻不大于所述預(yù)設(shè)閾值;
[0013]倒排索引加載單元,用于將所述高頻詞倒排索引和所述低頻詞倒排索引分別加載至不同的檢索模塊,所述不同的檢索模塊之間分別具備相互獨立的存儲裝置;
[0014]搜索結(jié)果生成單元,用于將搜索關(guān)鍵詞輸入至少一個所述檢索模塊,在輸入的所述檢索模塊對應(yīng)的倒排索引中檢索所述搜索關(guān)鍵詞的文檔列表,生成搜索結(jié)果。
[0015]本發(fā)明實施例分別考慮了高頻詞的倒排索引與低頻詞的倒排索引在數(shù)據(jù)存取時的不同特點,將高、低頻詞分離,這兩類詞對應(yīng)的倒排索引分機存儲,相比于將高、低頻的倒排索引混合在一起單機存儲的方案,本方案在讀取倒排索引數(shù)據(jù)時,降低了內(nèi)存占用、減少了磁盤讀寫,從而大大提高了搜索結(jié)果的生成效率。
【附圖說明】
[0016]圖1是本發(fā)明實施例提供的搜索結(jié)果的生成方法的實現(xiàn)流程圖;
[0017]圖2是本發(fā)明實施例提供的搜索結(jié)果的生成方法倒排索引存儲結(jié)構(gòu)的示意圖;
[0018]圖3是本發(fā)明實施例提供的搜索結(jié)果的生成方法S104的具體實現(xiàn)流程圖;
[0019]圖4是本發(fā)明實施例提供的搜索結(jié)果的生成方法S103的具體的實現(xiàn)流程圖;
[0020]圖5本發(fā)明實施例另一提供的搜索結(jié)果的生成方法S104的具體實現(xiàn)流程圖;
[0021]圖6本發(fā)明另一實施例提供的搜索結(jié)果的生成方法S104的具體實現(xiàn)流程圖;
[0022]圖7是本發(fā)明實施例提供的搜索結(jié)果的生成裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0023]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0024]本發(fā)明實施例分別考慮了高頻詞的倒排索引與低頻詞的倒排索引在數(shù)據(jù)存取時的不同特點,將高、低頻詞分離,這兩類詞對應(yīng)的倒排索引分機存儲,相比于將高、低頻的倒排索引混合在一起單機存儲的方案,本方案在讀取倒排索引數(shù)據(jù)時,降低了內(nèi)存占用、減少了磁盤讀寫,從而大大提高了搜索結(jié)果的生成效率。
[0025]需要說明的是,接下來均以網(wǎng)頁搜索為例,對本發(fā)明實施例提供的搜索結(jié)果的生成方法及裝置進(jìn)行詳細(xì)闡述,容易想到的是,基于相同的實現(xiàn)原理,本發(fā)明實施例也可運用于其他能夠支持本發(fā)明實施例提供的搜索結(jié)果的生成方法及裝置實現(xiàn)的搜索類產(chǎn)品中,例如,文獻(xiàn)數(shù)據(jù)庫的檢索工具、圖書館檢索系統(tǒng),等等,在此不一一舉例。
[0026]圖1示出了本發(fā)明實施例提供的搜索結(jié)果的生成方法的實現(xiàn)流程,詳述如下:
[0027]在SlOl中,對抓取的文檔進(jìn)行分詞處理,統(tǒng)計每個分詞的詞頻,所述分詞的詞頻用于表示包括該分詞的所述抓取的文檔的數(shù)量。
[0028]所述抓取的文檔,對于網(wǎng)頁搜索來說,是由搜索引擎遵從特定規(guī)律,跟蹤互聯(lián)網(wǎng)上的網(wǎng)頁鏈接,從一個網(wǎng)頁爬到另一個網(wǎng)頁,并將爬行過程中獲取到的網(wǎng)頁數(shù)據(jù)抓取下來而得到的。對應(yīng)于搜索引擎所提供的搜索服務(wù)的不同,抓取的文檔也不同,例如對于垂直搜索來說,其抓取的文檔僅僅包括了該垂直搜索所專注的特定搜索領(lǐng)域或者特殊搜索需求的網(wǎng)頁數(shù)據(jù);而對于門戶網(wǎng)站的站內(nèi)搜索來說,其抓取的文檔僅僅包括了該門戶網(wǎng)站內(nèi)的網(wǎng)頁數(shù)據(jù)。
[0029]在將抓取得到的文檔存入原始頁面數(shù)據(jù)庫之后,就需要對抓取的文檔進(jìn)行分詞處理,經(jīng)過提取文字、中英文分詞、去停止詞、消除噪音等步驟之后,首先得到了抓取的文檔中的分詞的順排索引,順排索引的數(shù)據(jù)格式為〈docid,termid〉,其中,docid用于標(biāo)識一篇文檔,而termid用于表示該文檔中的一個分詞,其是通過對分詞進(jìn)行消息摘要算法第五版(Message Digest Algorithm 5, MD5)計算等操作所得到的64位無符號整數(shù),且每個分詞的termid在全局均是唯一的。
[0030]在得到了抓取的文檔中的分詞的順排索引之后,可以通過MapReduce等編程模型,對得到的每個分詞進(jìn)行詞頻統(tǒng)計,以在這些分詞中劃分出高頻詞和低頻詞。在本實施例中,分詞的詞頻用于表示抓取得到的文檔中包括該分詞的文檔的數(shù)量,例如,在抓取得到的10000篇文檔中,包含分詞“招聘”的文檔有1000篇,則分詞“招聘”的詞頻為1000。對于統(tǒng)計出的詞頻大于預(yù)設(shè)閾值的分詞,將其劃分為高頻詞,而對于統(tǒng)計出的詞頻小于或者等于該預(yù)設(shè)閾值的分詞,將其劃分為低頻詞。在本實施例中,預(yù)設(shè)閾值可以根據(jù)抓取的文檔的總量來進(jìn)行設(shè)定,例如,若當(dāng)抓取的文檔的總量為10000時,預(yù)設(shè)閾值設(shè)定在100,則當(dāng)抓取的文檔的總量翻倍時,預(yù)設(shè)閾值的設(shè)定應(yīng)該高于100才較為合理,具體的設(shè)定方式可以根據(jù)實際的文檔抓取情況進(jìn)行確定,在此不用于限定本發(fā)明。
[0031]在S102中,分別生成高頻詞倒排索引和低頻詞倒排索引,所述高頻詞倒排索引中的所述分詞的詞頻大于預(yù)設(shè)閾值,所述低頻詞倒排索引中的所述分詞的詞頻不大于所述預(yù)設(shè)閾值。
[0032]根據(jù)分詞的詞頻的不同,分詞的倒排索引在數(shù)據(jù)讀取上也具備各自的特點:
[0033]對于高頻詞來說,其在所有分詞中占的總
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
渑池县| 邯郸县| 巫溪县| 周口市| 洛隆县| 边坝县| 徐闻县| 绵阳市| 外汇| 如东县| 涿鹿县| 铁力市| 四平市| 天镇县| 武乡县| 海门市| 洪湖市| 霍邱县| 广南县| 涞源县| 土默特右旗| 滦南县| 垦利县| 龙岩市| 晋江市| 建宁县| 富民县| 平凉市| 龙门县| 葫芦岛市| 舒城县| 察隅县| 溆浦县| 开封市| 保山市| 临漳县| 迁安市| 通山县| 四子王旗| 大邑县| 马山县|