基于搜索引擎的摘要信息提取方法、裝置以及搜索引擎的制作方法【專利摘要】本發(fā)明公開(kāi)了一種基于搜索引擎的摘要信息提取方法、裝置以及搜索引擎,其中所述方法包括:基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;輸出所述摘要信息。本發(fā)明實(shí)施例可以減少用戶頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率?!緦@f(shuō)明】基于搜索引擎的摘要信息提取方法、裝置以及搜索引擎【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及信息檢索的【
技術(shù)領(lǐng)域:
】,具體涉及一種基于搜索引擎的摘要信息提取方法、一種基于搜索引擎的摘要信息提取方法的裝置以及一種搜索引擎?!?br>背景技術(shù):
】[0002]在網(wǎng)絡(luò)信息極大豐富的當(dāng)今時(shí)代,搜索引擎已經(jīng)成為用戶對(duì)海量資源檢索的必備工具。[0003]為了增強(qiáng)搜索結(jié)果展示的效果,搜索引擎提供的搜索結(jié)果中,除了網(wǎng)頁(yè)標(biāo)題和URL夕卜,還可以包括提供一段來(lái)自網(wǎng)頁(yè)的摘要。目前,搜索引擎生成摘要的方式,可以歸結(jié)為如下兩種:[0004]一是靜態(tài)方式,即獨(dú)立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁(yè)內(nèi)容提取出一些文字,例如截取網(wǎng)頁(yè)正文的開(kāi)頭512個(gè)字節(jié)(對(duì)應(yīng)256個(gè)漢字),或者將每一個(gè)段落的第一個(gè)句子拼起來(lái),等等。這樣形成的摘要存放在查詢子系統(tǒng)中,一旦相關(guān)文檔被選中與查詢項(xiàng)匹配,就讀出返回給用戶。顯然,這種方式對(duì)查詢子系統(tǒng)來(lái)說(shuō)是最輕松的,不需要做另外的處理工作。但這種方式的一個(gè)最大的缺點(diǎn)是摘要和查詢無(wú)關(guān)。[0005]用戶希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。因此,動(dòng)態(tài)摘要方式應(yīng)運(yùn)而生,動(dòng)態(tài)摘要即在響應(yīng)查詢的時(shí)候,根據(jù)查詢?cè)~在文檔中的位置,提取出周?chē)奈淖謥?lái),在顯示時(shí)將查詢?cè)~標(biāo)亮。這是目前大多數(shù)搜索引擎采用的方式。[0006]雖然動(dòng)態(tài)摘要的內(nèi)容包含用戶的查詢?cè)~,但是這些句子并不能表達(dá)出整個(gè)Web文檔的中心意思。也就是說(shuō),用戶通過(guò)閱讀搜索引擎返回的摘要并不能確定自己查找的信息是否包含在這個(gè)頁(yè)面中。此時(shí),用戶需要點(diǎn)擊搜索結(jié)果,從搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)查看是否包含自己想要的信息,多次的交互過(guò)程耗費(fèi)帶寬資源,搜索效率低下?!?br/>發(fā)明內(nèi)容】[0007]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種基于搜索引擎的摘要信息提取方法和相應(yīng)的一種基于搜索引擎的摘要信息提取方法以及一種搜索引擎。[0008]依據(jù)本發(fā)明的一個(gè)方面,提供了一種基于搜索引擎的摘要信息提取方法,包括:[0009]基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0010]識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0011]針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0012]輸出所述摘要信息。[0013]可選地,所述識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型的步驟包括:[0014]抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0015]若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0016]將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0017]可選地,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:[0018]針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。[0019]可選地,所述單一頁(yè)面包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。[0020]可選地,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括列表頁(yè)面,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:[0021]針對(duì)所述列表頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取所述網(wǎng)頁(yè)資源統(tǒng)計(jì)出的點(diǎn)擊率排序在前的一個(gè)或多個(gè)元素信息,作為摘要信息。[0022]可選地,所述列表頁(yè)面包括音視頻列表頁(yè)面。[0023]可選地,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:[0024]針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;[0025]接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;[0026]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0027]可選地,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:[0028]針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);[0029]接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;[0030]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0031]可選地,所述方法還包括:[0032]對(duì)所述摘要信息添加特定標(biāo)記TAG。[0033]可選地,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟為:[0034]針對(duì)所述頁(yè)面類(lèi)型,從預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息,所述摘要數(shù)據(jù)庫(kù)存儲(chǔ)有網(wǎng)頁(yè)資源與對(duì)應(yīng)的摘要信息。[0035]可選地,所述摘要信息至少包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0036]根據(jù)本發(fā)明的另一方面,提供了一種基于搜索引擎的摘要信息提取裝置,包括:[0037]網(wǎng)頁(yè)資源獲取模塊,適于基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0038]頁(yè)面類(lèi)型識(shí)別模塊,適于識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0039]摘要信息提取模塊,適于針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0040]信息輸出模塊,適于輸出所述摘要信息。[0041]可選地,所述頁(yè)面類(lèi)型識(shí)別模塊還適于:[0042]抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0043]若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0044]將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0045]可選地,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述摘要信息提取模塊還適于:[0046]針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。[0047]可選地,所述單一頁(yè)面包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。[0048]可選地,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括列表頁(yè)面,所述摘要信息提取模塊還適于:[0049]針對(duì)所述列表頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取所述網(wǎng)頁(yè)資源統(tǒng)計(jì)出的點(diǎn)擊率排序在前的一個(gè)或多個(gè)元素信息,作為摘要信息。[0050]可選地,所述列表頁(yè)面包括音視頻列表頁(yè)面。[0051]可選地,所述摘要信息提取模塊還適于:[0052]針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;[0053]接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;[0054]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0055]可選地,所述摘要信息提取模塊還適于:[0056]針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);[0057]接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;[0058]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0059]可選地,所述裝置還包括:[0060]標(biāo)記添加模塊,適于對(duì)所述摘要信息添加特定標(biāo)記TAG。[0061]可選地,所述摘要信息提取模塊還適于:[0062]針對(duì)所述頁(yè)面類(lèi)型,從預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息,所述摘要數(shù)據(jù)庫(kù)存儲(chǔ)有網(wǎng)頁(yè)資源與對(duì)應(yīng)的摘要信息。[0063]可選地,所述摘要信息至少包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0064]根據(jù)本發(fā)明的另一方面,提供了一種搜索引擎,包括:[0065]網(wǎng)頁(yè)資源獲取模塊,適于基于接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0066]頁(yè)面類(lèi)型識(shí)別模塊,適于識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0067]摘要信息提取模塊,適于針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0068]信息輸出模塊,適于輸出所述摘要信息。[0069]在本發(fā)明實(shí)施例中,搜索引擎接收到用戶輸入的搜索字符串后,查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源,在搜索結(jié)果中輸出的摘要信息為通過(guò)識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型后,對(duì)不同頁(yè)面類(lèi)型的網(wǎng)頁(yè)資源提取得到的。從而使得顯示在搜索結(jié)果中的摘要信息表達(dá)整個(gè)頁(yè)面文檔的中心意思的準(zhǔn)確性更高,提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0070]另外,在本發(fā)明實(shí)施例中,獲得匹配的網(wǎng)頁(yè)資源后,依據(jù)網(wǎng)頁(yè)資源獲得對(duì)應(yīng)的cookies信息,并依據(jù)cookies信息獲得用戶的歷史訪問(wèn)記錄,從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。從而使得顯示在搜索結(jié)果中的摘要信息為針對(duì)不同用戶的個(gè)性化摘要信息,提升用戶體驗(yàn)的同時(shí),使得摘要信息中提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0071]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。【專利附圖】【附圖說(shuō)明】[0072]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:[0073]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例一的步驟流程圖;[0074]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例二的步驟流程圖;[0075]圖2_a示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例二的下載正文頁(yè)面示意圖;[0076]圖2_b示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例二的第一輸出結(jié)果示意圖;[0077]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例三的步驟流程圖;[0078]圖3_a示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例二的視頻網(wǎng)站首頁(yè)不意圖;[0079]圖3_b示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例三的第二輸出結(jié)果示意圖;[0080]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例四的步驟流程圖;[0081]圖4_a示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例四的視頻網(wǎng)站首頁(yè)示意圖;[0082]圖4_b示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例四的第三輸出結(jié)果示意圖;[0083]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例五的步驟流程圖;[0084]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取裝置實(shí)施例的結(jié)構(gòu)框圖;[0085]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索引擎實(shí)施例的結(jié)構(gòu)框圖?!揪唧w實(shí)施方式】[0086]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。[0087]參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例一的步驟流程圖,本發(fā)明實(shí)施例可以包括如下步驟:[0088]步驟101,基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0089]步驟102,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0090]步驟103,針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0091]步驟104,輸出所述摘要信息。[0092]在本發(fā)明實(shí)施例中,搜索引擎接收到用戶輸入的搜索字符串后,查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源,在搜索結(jié)果中輸出的摘要信息為通過(guò)識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型后,對(duì)不同頁(yè)面類(lèi)型的網(wǎng)頁(yè)資源提取得到的。從而使得顯示在搜索結(jié)果中的摘要信息表達(dá)整個(gè)頁(yè)面文檔的中心意思的準(zhǔn)確性更高,提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0093]參照?qǐng)D2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例二的步驟流程圖,本發(fā)明實(shí)施例可以包括如下步驟:[0094]步驟201,基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼;[0095]搜索字符串query是用戶在搜索引擎界面中輸入的搜索信息,用以表達(dá)用戶意圖,請(qǐng)求搜索與之相關(guān)的網(wǎng)頁(yè)資源。[0096]搜索引擎接收到用戶輸入的搜索字符串后,對(duì)搜索字符串進(jìn)行分詞、去停止詞、錯(cuò)別字判斷等處理后,從預(yù)先建立的索引數(shù)據(jù)庫(kù)中查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源。其中,網(wǎng)頁(yè)資源可以包括網(wǎng)頁(yè)正文、網(wǎng)頁(yè)的URL地址、構(gòu)成網(wǎng)頁(yè)的網(wǎng)頁(yè)源代碼以及進(jìn)出網(wǎng)頁(yè)的鏈接等信息。[0097]步驟202,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型,所述頁(yè)面類(lèi)型包括單一頁(yè)面;[0098]獲取網(wǎng)頁(yè)資源后,可以進(jìn)一步根據(jù)該網(wǎng)頁(yè)資源識(shí)別對(duì)應(yīng)的頁(yè)面類(lèi)型,在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟202可以包括如下子步驟:[0099]子步驟S11,抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0100]在具體實(shí)現(xiàn)中,抽取網(wǎng)頁(yè)資源的頁(yè)面框架的方式可以為:根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取網(wǎng)頁(yè)的頁(yè)面框架,抽取時(shí)只保留html語(yǔ)言標(biāo)簽中的框架類(lèi)標(biāo)記,如framestable等,同時(shí)保留id、name、class屬性,去掉其余屬性。還可以按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到網(wǎng)頁(yè)的頁(yè)面框架。[0101]抽取頁(yè)面框架后,可以將頁(yè)面內(nèi)的屬性根據(jù)哈希算法計(jì)算頁(yè)面框架的hash值,gp為頁(yè)面框架ID,例如,將框架類(lèi)標(biāo)記如frame、table及其id、name、class屬性按哈希算法進(jìn)行計(jì)算,所得結(jié)果即為頁(yè)面框架ID。由于采用相同的哈希函數(shù),相同的頁(yè)面框架計(jì)算出的頁(yè)面框架ID也是相同的。[0102]子步驟S12,若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0103]在實(shí)際中,計(jì)算頁(yè)面框架模式時(shí)分標(biāo)題、時(shí)間、網(wǎng)頁(yè)正文等分別計(jì)算,計(jì)算方法可以采用機(jī)器自動(dòng)學(xué)習(xí)機(jī)制,如采用支持向量機(jī)SVM(SupportVectorMachine)計(jì)算頁(yè)面框架模式。學(xué)習(xí)時(shí)將上述抽取的頁(yè)面框架輸入SVM進(jìn)行學(xué)習(xí),即對(duì)頁(yè)面框架進(jìn)行html語(yǔ)言標(biāo)簽關(guān)鍵標(biāo)記的匹配,若干相同ID的頁(yè)面框架中的html語(yǔ)言標(biāo)簽關(guān)鍵標(biāo)記能夠完全匹配,因此,對(duì)于相同ID的頁(yè)面框架學(xué)習(xí)到上述預(yù)設(shè)閾值的的數(shù)量后,SVM便輸出相應(yīng)頁(yè)面框架的頁(yè)面框架模式。[0104]子步驟S13,將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0105]其中,預(yù)先生成的數(shù)據(jù)庫(kù)中存儲(chǔ)有已知類(lèi)型頁(yè)面框架模式以及該模式下各網(wǎng)頁(yè)特征的權(quán)重,對(duì)匹配上的特征按照不同的類(lèi)別為頁(yè)面框架增加相應(yīng)權(quán)重,若對(duì)應(yīng)頁(yè)面的權(quán)重最高,則該頁(yè)面為對(duì)應(yīng)的頁(yè)面類(lèi)型。[0106]本發(fā)明實(shí)施例中的頁(yè)面類(lèi)型可以包括單一頁(yè)面,和/或列表頁(yè)面。其中,所述單一頁(yè)面為頁(yè)面元素比較單一的頁(yè)面,可以包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。所述頁(yè)表頁(yè)面可以包括音視頻列表頁(yè)面。[0107]步驟203,針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息;[0108]其中,摘要信息至少可以包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0109]在具體實(shí)現(xiàn)中,如果與搜索字符串匹配的網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型為單一頁(yè)面,可以根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽中的內(nèi)容來(lái)提取一個(gè)或多個(gè)關(guān)鍵的元素信息,而html語(yǔ)言標(biāo)簽可以包括<a>標(biāo)簽(定義超鏈接,其屬性href屬性指示鏈接的目標(biāo))、<meta>標(biāo)簽(可提供有關(guān)頁(yè)面的元信息(meta-1nformation),比如針對(duì)搜索引擎和更新頻度的描述和關(guān)鍵詞)、〈span>標(biāo)簽(組合行內(nèi)元素)、〈div>標(biāo)簽、標(biāo)簽、〈script〉標(biāo)簽、〈classs〉標(biāo)簽等等。例如,對(duì)于一個(gè)下載正文頁(yè)面,可以從下述代碼中獲得對(duì)應(yīng)的元素信息作為摘要信息:[0110]<divclass="toolBottom"〉[0111]<divclass="txtLogo">〈/div>[0112]<pclass=〃toolInfo〃>56.6MI更新日期2014/01/03〈/p>[0113]<pclass=〃roundIcon〃>〈ahref=〃intr0.shtml〃target=〃_blank〃class=〃link〃title=〃功能動(dòng)畫(huà)展示〃>功能動(dòng)畫(huà)展示</a>〈/p>[0114]<ajDlanfhref=^http://v.youku.com/v_show/id_XNzIxNzcONTUy.html〃data-from=〃1_1〃>犀利XXDVD版</a>[0135]</div>[0136]則摘要信息中顯示排在第一位的元素信息是犀利XXDVD版。在實(shí)際中,每個(gè)元素信息至少可以包括如下屬性中的一種或多種:元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。因此,針對(duì)上例,在摘要信息中可以給出犀利XXDVD版的播放URL、名稱、圖片等信息。[0137]步驟304,輸出所述摘要信息。[0138]需要說(shuō)明的是,在輸出摘要信息時(shí),所述一個(gè)或多個(gè)元素信息可以以以輪播的形式展示在搜索結(jié)果中。[0139]例如,如圖3-a所示的視頻網(wǎng)站首頁(yè)示意圖,在視頻網(wǎng)站首頁(yè)300中,可以包括視頻類(lèi)目列表310、各個(gè)視頻類(lèi)目的視頻以及對(duì)應(yīng)的排行榜(如類(lèi)目I排行榜320)等信息,其中,視頻類(lèi)目列表可以包括電視劇、電影、綜藝、音樂(lè)、動(dòng)漫、旅游等等,如類(lèi)目1330為電視劇,則視頻A至視頻F為各電視劇節(jié)目,類(lèi)目I排行榜可以為順次為視頻A、視頻B、視頻D、視頻F等等。則可以通過(guò)步驟303把該視頻網(wǎng)站300中各類(lèi)目節(jié)目在排行榜前η個(gè)(如前2個(gè),具體個(gè)數(shù)可以按需設(shè)定,本發(fā)明實(shí)施例對(duì)此無(wú)需加以限制)視頻展現(xiàn)在摘要中,如圖3-b的第二輸出結(jié)果示意圖所示,其中展示在摘要信息中的視頻A、視頻B等可以包括對(duì)應(yīng)視頻的名稱、播放URL、圖片、和/或,文字描述等。[0140]在本發(fā)明實(shí)施例中,搜索引擎接收到用戶輸入的搜索字符串后,查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型后,針對(duì)列表頁(yè)面的網(wǎng)頁(yè)資源,從源代碼中提取對(duì)應(yīng)的摘要信息。從而使得顯示在搜索結(jié)果中的摘要信息表達(dá)整個(gè)頁(yè)面文檔的中心意思的準(zhǔn)確性更高,提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0141]參照?qǐng)D4,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例四的步驟流程圖,本發(fā)明實(shí)施例可以包括如下步驟:[0142]步驟401,基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0143]步驟402,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0144]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟402可以包括如下子步驟:[0145]子步驟S31,抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0146]子步驟S32,若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0147]子步驟S33,將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0148]步驟403,針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0149]本發(fā)明實(shí)施例可以根據(jù)用戶對(duì)匹配的網(wǎng)頁(yè)資源的歷史訪問(wèn)記錄,在摘要信息中展現(xiàn)與歷史訪問(wèn)記錄相關(guān)的元素信息,具體可以為:[0150]在本發(fā)明的一種優(yōu)選實(shí)施例中,步驟403可以包括如下子步驟:[0151]子步驟S41,針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;[0152]子步驟S42,接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;[0153]子步驟S43,從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0154]具體的,若與搜索字符串query匹配的網(wǎng)頁(yè)資源屬于某個(gè)網(wǎng)站對(duì)象,則搜索引擎可以向該網(wǎng)站對(duì)象發(fā)出第一查詢請(qǐng)求,所述第一查詢請(qǐng)求為告知該網(wǎng)站對(duì)象有用戶查詢的請(qǐng)求。網(wǎng)站對(duì)象接收到第一查詢請(qǐng)求后,從當(dāng)前終端中獲得對(duì)應(yīng)的cookies信息,并依據(jù)該cookies信息獲得當(dāng)前用戶的歷史訪問(wèn)記錄,反饋給搜索引擎,搜索弓I擎依據(jù)接收到的歷史訪問(wèn)記錄,獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息作為摘要信息,從而為用戶提供個(gè)性化的摘要信息。其中,第一閾值可以為I或其他整數(shù)值,本發(fā)明實(shí)施例對(duì)此無(wú)需加以限制。[0155]在本發(fā)明的另一種優(yōu)選實(shí)施例中,步驟403可以包括如下子步驟:[0156]子步驟S51,針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);[0157]子步驟S52,接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;[0158]子步驟S53,從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0159]具體的,若與搜索字符串query匹配的網(wǎng)頁(yè)資源屬于某個(gè)網(wǎng)站對(duì)象,則搜索引擎可以向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,以請(qǐng)求當(dāng)前終端的瀏覽器調(diào)取用戶訪問(wèn)該網(wǎng)站對(duì)象的cookies信息。當(dāng)前終端的瀏覽器接收到第二查詢請(qǐng)求后,從當(dāng)前終端中獲得與網(wǎng)站對(duì)象的標(biāo)識(shí)對(duì)應(yīng)的cookies信息,并依據(jù)該cookies信息獲得當(dāng)前用戶的歷史訪問(wèn)記錄,反饋給搜索引擎,搜索引擎依據(jù)接收到的歷史訪問(wèn)記錄,獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息作為摘要信息,從而為用戶提供個(gè)性化的摘要信息。[0160]步驟404,對(duì)所述摘要信息添加特定標(biāo)記TAG;[0161]在本發(fā)明實(shí)施例中,根據(jù)用戶的歷史訪問(wèn)記錄提取個(gè)性化的摘要信息后,還可以對(duì)該個(gè)性化的摘要信息添加特定標(biāo)記TAG,如為該個(gè)性化的摘要信息打上推薦標(biāo)記。[0162]步驟405,輸出所述添加了特定標(biāo)記TAG的摘要信息。[0163]在具體實(shí)現(xiàn)中,摘要信息至少包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0164]例如,如圖4-a所示的視頻網(wǎng)站首頁(yè)示意圖,在視頻網(wǎng)站首頁(yè)400中,可以包括視頻類(lèi)目列表410、各個(gè)視頻類(lèi)目的視頻以及對(duì)應(yīng)的排行榜(如類(lèi)目I排行榜420)等信息,其中,視頻類(lèi)目列表可以包括電視劇、電影、綜藝、音樂(lè)、動(dòng)漫、旅游等等,如類(lèi)目1430為電視劇,則視頻A至視頻F為各電視劇節(jié)目,類(lèi)目I排行榜可以為順次為視頻A、視頻B、視頻D、視頻F等等。通過(guò)步驟403可以獲得用戶對(duì)該視頻網(wǎng)站400的歷史訪問(wèn)記錄,如獲得用戶查看過(guò)該視頻網(wǎng)站的視頻有視頻E、視頻F,則把用戶查看過(guò)的視頻打上“優(yōu)”等標(biāo)記(具體的標(biāo)記內(nèi)容可以按需設(shè)定,本發(fā)明實(shí)施例對(duì)此無(wú)需加以限制),展現(xiàn)在摘要中,如圖4-b的第三輸出結(jié)果示意圖所示。其中展示在摘要信息中的視頻A、視頻B等可以包括對(duì)應(yīng)視頻的名稱、播放URL、圖片、和/或,文字描述等。[0165]在本發(fā)明實(shí)施例中,搜索引擎接收到用戶輸入的搜索字符串后,查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型后,針對(duì)不同的頁(yè)面類(lèi)型,依據(jù)網(wǎng)頁(yè)資源獲得對(duì)應(yīng)的cookies信息,并依據(jù)cookies信息獲得用戶的歷史訪問(wèn)記錄,從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。從而使得顯示在搜索結(jié)果中的摘要信息為針對(duì)不同用戶的個(gè)性化摘要信息,提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而提高了檢索速度,降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0166]參照?qǐng)D5,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取方法實(shí)施例五的步驟流程圖,本發(fā)明實(shí)施例可以包括如下步驟:[0167]步驟501,基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0168]步驟502,識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0169]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟502可以包括如下子步驟:[0170]子步驟S61,抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0171]子步驟S62,若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0172]子步驟S63,將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0173]步驟503,針對(duì)所述頁(yè)面類(lèi)型,從預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息,所述摘要數(shù)據(jù)庫(kù)存儲(chǔ)有網(wǎng)頁(yè)資源與對(duì)應(yīng)的摘要信息;[0174]具體而言,除了如上述實(shí)施例一至四所述的實(shí)時(shí)獲取每個(gè)命中的網(wǎng)頁(yè)資源的摘要信息外,本發(fā)明實(shí)施例還可以在蜘蛛抓取網(wǎng)頁(yè)時(shí)預(yù)先提取每個(gè)網(wǎng)頁(yè)資源的摘要信息,存儲(chǔ)在摘要數(shù)據(jù)庫(kù)中,并每隔預(yù)設(shè)時(shí)間段更新摘要數(shù)據(jù)庫(kù)中的摘要信息,當(dāng)命中某個(gè)網(wǎng)頁(yè)資源時(shí),從摘要數(shù)據(jù)庫(kù)中獲取與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息。[0175]步驟504,輸出所述摘要信息。[0176]其中,所述摘要信息至少包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0177]在本發(fā)明實(shí)施例中,搜索引擎接收到用戶輸入的搜索字符串后,查找所有包含搜索字符串的網(wǎng)頁(yè)資源作為匹配的網(wǎng)頁(yè)資源,并通過(guò)預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息輸出在搜索結(jié)果中,提高搜索速度,并且使得顯示在搜索結(jié)果中的摘要信息表達(dá)整個(gè)頁(yè)面文檔的中心意思的準(zhǔn)確性更高,提供給用戶的信息更有價(jià)值,用戶從摘要信息中就能獲得想要的信息,減少了用戶因頻繁點(diǎn)擊搜索結(jié)果對(duì)應(yīng)的頁(yè)面來(lái)查找所需信息的情況發(fā)生,進(jìn)而降低了搜索引擎的交互次數(shù),提高數(shù)據(jù)處理速率。[0178]對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。[0179]參照?qǐng)D6,示出了本發(fā)明一個(gè)實(shí)施例的一種基于搜索引擎的摘要信息提取裝置實(shí)施例的結(jié)構(gòu)框圖,所述裝置可以包括如下模塊[0180]網(wǎng)頁(yè)資源獲取模塊601,適于基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0181]頁(yè)面類(lèi)型識(shí)別模塊602,適于識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0182]摘要信息提取模塊603,適于針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0183]信息輸出模塊604,適于輸出所述摘要信息。[0184]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述頁(yè)面類(lèi)型識(shí)別模塊602還適于:[0185]抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0186]若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0187]將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0188]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述摘要信息提取模塊603還適于:[0189]針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。[0190]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述單一頁(yè)面可以包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。[0191]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括列表頁(yè)面,所述摘要信息提取模塊603還適于:[0192]針對(duì)所述列表頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取所述網(wǎng)頁(yè)資源統(tǒng)計(jì)出的點(diǎn)擊率排序在前的一個(gè)或多個(gè)元素信息,作為摘要信息。[0193]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述列表頁(yè)面可以包括音視頻列表頁(yè)面。[0194]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊603還適于:[0195]針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;[0196]接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;[0197]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0198]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊603還適于:[0199]針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);[0200]接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;[0201]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0202]在本發(fā)明的一種優(yōu)選實(shí)施例中,本發(fā)明實(shí)施例還可以包括:[0203]標(biāo)記添加模塊,適于對(duì)所述摘要信息添加特定標(biāo)記TAG。[0204]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊603還適于:[0205]針對(duì)所述頁(yè)面類(lèi)型,從預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息,所述摘要數(shù)據(jù)庫(kù)存儲(chǔ)有網(wǎng)頁(yè)資源與對(duì)應(yīng)的摘要信息。[0206]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述摘要信息至少可以包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0207]參照?qǐng)D7,示出了本發(fā)明一個(gè)實(shí)施例的一種搜索引擎實(shí)施例的結(jié)構(gòu)框圖,所述搜索引擎可以包括如下模塊[0208]網(wǎng)頁(yè)資源獲取模塊701,適于基于接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;[0209]頁(yè)面類(lèi)型識(shí)別模塊702,適于識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;[0210]摘要信息提取模塊703,適于針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;[0211]信息輸出模塊704,適于輸出所述摘要信息。[0212]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述頁(yè)面類(lèi)型識(shí)別模塊702還適于:[0213]抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;[0214]若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;[0215]將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。[0216]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述摘要信息提取模塊703還適于:[0217]針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。[0218]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述單一頁(yè)面可以包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。[0219]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括列表頁(yè)面,所述摘要信息提取模塊703還適于:[0220]針對(duì)所述列表頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取所述網(wǎng)頁(yè)資源統(tǒng)計(jì)出的點(diǎn)擊率排序在前的一個(gè)或多個(gè)元素信息,作為摘要信息。[0221]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述列表頁(yè)面可以包括音視頻列表頁(yè)面。[0222]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊703還適于:[0223]針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;[0224]接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;[0225]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0226]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊703還適于:[0227]針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);[0228]接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;[0229]從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。[0230]在本發(fā)明的一種優(yōu)選實(shí)施例中,本發(fā)明實(shí)施例還可以包括:[0231]標(biāo)記添加模塊,適于對(duì)所述摘要信息添加特定標(biāo)記TAG。[0232]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述摘要信息提取模塊703還適于:[0233]針對(duì)所述頁(yè)面類(lèi)型,從預(yù)先生成的摘要數(shù)據(jù)庫(kù)中查找與所述網(wǎng)頁(yè)資源對(duì)應(yīng)的摘要信息,所述摘要數(shù)據(jù)庫(kù)存儲(chǔ)有網(wǎng)頁(yè)資源與對(duì)應(yīng)的摘要信息。[0234]作為本發(fā)明實(shí)施例的一種優(yōu)選示例,所述摘要信息至少可以包括如下一種或幾種的組合:一個(gè)或多個(gè)元素信息的元素URL,元素標(biāo)識(shí),元素圖片,元素文字描述信息。[0235]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于裝置或搜索引擎實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。[0236]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。[0237]在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。[0238]類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書(shū)由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。[0239]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。[0240]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。[0241]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的基于搜索引擎的摘要信息提取的處理設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。[0242]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱?!緳?quán)利要求】1.一種基于搜索引擎的摘要信息提取方法,包括:基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;輸出所述摘要信息。2.如權(quán)利要求1所述的方法,其特征在于,所述識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型的步驟包括:抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。3.如權(quán)利要求1或2所述的方法,其特征在于,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。4.如權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述單一頁(yè)面包括以下一種或幾種的組合:下載正文頁(yè)面、音視頻播放頁(yè)面、小說(shuō)閱讀頁(yè)面、問(wèn)答頁(yè)面、新聞組圖頁(yè)面、專題頁(yè)面。5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括列表頁(yè)面,所述針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息的步驟包括:針對(duì)所述列表頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取所述網(wǎng)頁(yè)資源統(tǒng)計(jì)出的點(diǎn)擊率排序在前的一個(gè)或多個(gè)元素信息,作為摘要信息。6.一種基于搜索引擎的摘要信息提取裝置,包括:網(wǎng)頁(yè)資源獲取模塊,適于基于在搜索引擎中接收的搜索字符串,獲取匹配的網(wǎng)頁(yè)資源;頁(yè)面類(lèi)型識(shí)別模塊,適于識(shí)別所述網(wǎng)頁(yè)資源的頁(yè)面類(lèi)型;摘要信息提取模塊,適于針對(duì)所述頁(yè)面類(lèi)型,從所述網(wǎng)頁(yè)資源中提取對(duì)應(yīng)的摘要信息;信息輸出模塊,適于輸出所述摘要信息。7.如權(quán)利要求6所述的裝置,其特征在于,所述頁(yè)面類(lèi)型識(shí)別模塊還適于:抽取所述網(wǎng)頁(yè)資源的頁(yè)面框架,計(jì)算頁(yè)面框架ID;若相同頁(yè)面框架ID的頁(yè)面框架的數(shù)量大于預(yù)設(shè)閾值,計(jì)算頁(yè)面框架模式;將所述頁(yè)面框架模式與預(yù)先生成的數(shù)據(jù)庫(kù)中的頁(yè)面框架模式進(jìn)行匹配,識(shí)別出頁(yè)面類(lèi)型。8.如權(quán)利要求6或7所述的裝置,其特征在于,所述網(wǎng)頁(yè)資源包括網(wǎng)頁(yè)源代碼,所述頁(yè)面類(lèi)型包括單一頁(yè)面,所述摘要信息提取模塊還適于:針對(duì)所述單一頁(yè)面,從所述網(wǎng)頁(yè)源代碼中提取一個(gè)或多個(gè)關(guān)鍵的元素信息,作為摘要信息。9.如權(quán)利要求6-8任一項(xiàng)所述的裝置,其特征在于,所述摘要信息提取模塊還適于:針對(duì)所述頁(yè)面類(lèi)型,向所述網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)站對(duì)象發(fā)送第一查詢請(qǐng)求;接收所述網(wǎng)站對(duì)象發(fā)送的與所述第一查詢請(qǐng)求對(duì)應(yīng)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為所述網(wǎng)站對(duì)象從當(dāng)前終端中獲得cookies信息后,依據(jù)所述cookies信息獲得的記錄;從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息。10.如權(quán)利要求6-9任一項(xiàng)所述的裝置,其特征在于,所述摘要信息提取模塊還適于:針對(duì)所述頁(yè)面類(lèi)型,向當(dāng)前終端的瀏覽器發(fā)出第二查詢請(qǐng)求,所述第二查詢請(qǐng)求包括所述網(wǎng)頁(yè)資源的網(wǎng)站對(duì)象標(biāo)識(shí);接收所述瀏覽器返回的當(dāng)前終端中與所述網(wǎng)站對(duì)象標(biāo)識(shí)相關(guān)的歷史訪問(wèn)記錄,所述歷史訪問(wèn)記錄為當(dāng)前終端的瀏覽器獲取與所述網(wǎng)站對(duì)象相關(guān)的cookies信息后獲得;從所述歷史訪問(wèn)記錄中獲取所述網(wǎng)頁(yè)資源中訪問(wèn)次數(shù)大于第一閾值的元素信息,作為摘要信息?!疚臋n編號(hào)】G06F17/30GK104077388SQ201410302674【公開(kāi)日】2014年10月1日申請(qǐng)日期:2014年6月27日優(yōu)先權(quán)日:2014年6月27日【發(fā)明者】董毅,張前川,陳營(yíng)營(yíng),張川申請(qǐng)人:北京奇虎科技有限公司,奇智軟件(北京)有限公司