一種范文網頁數據庫的優(yōu)化方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種范文網頁數據庫的優(yōu)化方法,包括:獲取用戶的檢索請求;根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求;如果是,檢測用戶在檢索結果頁中對結果網頁的交互反饋,根據所述交互反饋提取對應的結果網頁中的范文數據;將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。根據本發(fā)明所述方法,提供了一種及時補充范文網頁數據庫的機制,不斷擴充數據庫內容以滿足更多用戶的需求,提升召回率。另外,本發(fā)明還提供了一種相應的優(yōu)化裝置。
【專利說明】一種范文網頁數據庫的優(yōu)化方法和裝置
【技術領域】
[0001]本發(fā)明涉及互聯網搜索領域,特別是涉及一種用于范文搜索的范文網頁數據庫的優(yōu)化方法和裝置。
【背景技術】
[0002]范文搜索是網頁搜索中一種很重要的需求,被搜索的范文類型眾多,包括但不限于各類公文、文秘書信、工作計劃、總結報告、心得體會、演講致辭、作文作業(yè)、各種論文等等。在例如學生非放假期間、年底工作總結期間的高峰期,每天可以占到總網頁搜索量的1%左右。實際中,大多數范文需求對于字數都有固定要求,因而很多用戶都會在進行范文搜索時輸入字數,如“讀后感400字”、“獎學金申請書800字”等。即使在搜索時沒有明確將字數輸入,也會存在有對于該范文字數的潛在要求;例如,論文類的范文一般不低于8000字;入黨申請書類的范文一般要求有3000?5000字,等等。
[0003]對于范文搜索,目前存在的問題主要有兩個:一是當前檢索機制只能通過標題、網頁內容匹配來命中字數的需求,對于沒有相關字數的網頁排序不公平;由于找不到相應的字數的字段,也使得召回率不足;二是在目前檢索結果的標題摘要下,用戶只能通過相應字段飄紅來判定是否是自己想要的信息,對于很多有欺騙性質的頁面、字數是否滿足要求等都是沒有預期的。
[0004]圖1示出了當前范文搜索的搜索結果頁示意圖,用戶輸入的范文搜索請求是“以家為題的作文350字”;在搜索結果頁中,除了第一條結果的標題摘要直接命中350字外,其它結果都不知道有多少字數,只能將“350字”這個關鍵詞丟棄來進行排序,對于一些潛在與350字非常接近的結果來說就顯得非常不公平;用戶也不知道什么結果是好結果,只能逐個點擊查看,效率比較低下。
【發(fā)明內容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的用于范文搜索的范文網頁數據庫的優(yōu)化方法和相應的裝置。
[0006]依據本發(fā)明的一個方面,提供了一種范文網頁數據庫的優(yōu)化方法,包括:
[0007]獲取用戶的檢索請求;
[0008]根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求;
[0009]如果是,檢測用戶在檢索結果頁中對結果網頁的交互反饋,根據所述交互反饋提取對應的結果網頁中的范文數據;
[0010]將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。
[0011]可選地,添加步驟包括:判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中;如果是,則不添加所述新增數據項;如果否,則添加所述新增數據項。
[0012]可選地,新增數據項中的關鍵詞對應于范文網頁數據項的范文類型;其中添加步驟包括:在范文網頁數據庫中,確定與新增數據項具有相同范文類型的現有范文網頁數據項的項數;如所述項數小于預定數量,則添加所述新增數據項;如所述項數大于或等于預定數量,則不添加所述新增數據項。
[0013]可選地,被提取的結果網頁是問答社區(qū)網頁,包括提出問題的主樓塊和回答問題的次樓塊;其中提取范文數據的步驟包括:將所述關鍵詞與網頁主樓塊的文字內容進行匹配;如匹配,判斷次樓塊的文字內容的字數是否大于預定閾值;如果是,確定字數大于預定閾值的次樓塊為待提取次樓塊;且提取該結果網頁的范文數據;其中所述范文數據包括:待提取次樓塊的文字內容的標題,待提取次樓塊的文字內容的正文,待提取次樓塊的文字內容的字數。
[0014]可選地,確定待提取次樓塊的步驟還包括:根據所述關鍵詞確定元關鍵詞;將所述元關鍵詞與字數大于預定閾值的次樓塊的文字內容進行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0015]可選地,所述網頁中待提取次樓塊為多個,則所述網頁對應的范文網頁數據項包括與待提取次樓塊數量相應的多個范文數據。
[0016]可選地,被提取的結果網頁是文字網站網頁,其網頁包括正文標題和正文內容;其中提取范文數據的步驟包括:將所述關鍵詞與正文標題進行匹配;如匹配,提取該結果網頁的范文數據;其中所述范文數據包括:正文標題,正文內容,和正文內容的字數。
[0017]可選地,被提取的結果網頁是文庫資源網站網頁,其網頁包括范文文檔的URL資源鏈接和描述對應范文文檔的文字內容;其中提取范文數據的步驟包括:將所述關鍵詞與描述對應范文文檔的文字內容進行匹配;如匹配,經由所述URL資源鏈接下載所述范文文檔;提取該網頁的范文數據;其中所述范文數據包括:描述范文文檔的文字內容,和所述范文文檔。
[0018]根據本發(fā)明的另一方面,提供了一種范文網頁數據庫的優(yōu)化裝置,包括:
[0019]請求獲取單元,適于獲取用戶的檢索請求;
[0020]請求判斷單元,適于根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求;
[0021]范文數據單元,適于檢測用戶在檢索結果頁中對結果網頁的交互反饋,并根據所述交互反饋提取對應的結果網頁中的范文數據;
[0022]數據添加單元,適于將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。
[0023]可選地,數據添加單元還適于:判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中;如果是,則不添加所述新增數據項;如果否,則添加所述新增數據項。
[0024]可選地,新增數據項中的關鍵詞對應于范文網頁數據項的范文類型;其中數據添加單元還適于:在范文網頁數據庫中,確定與新增數據項具有相同范文類型的現有范文網頁數據項的項數;如所述項數小于預定數量,則添加所述新增數據項;如所述項數大于或等于預定數量,則不添加所述新增數據項。
[0025]可選地,被提取的結果網頁是問答社區(qū)網頁,包括提出問題的主樓塊和回答問題的次樓塊;其中范文數據單元還包括:匹配單元,適于將所述關鍵詞與網頁主樓塊的文字內容進行匹配;次樓塊確定單元,適于如匹配,判斷次樓塊的文字內容的字數是否大于預定閾值;如果是,確定字數大于預定閾值的次樓塊為待提取次樓塊;以及提取單元,適于提取該結果網頁的范文數據;其中所述范文數據包括:待提取次樓塊的文字內容的標題,待提取次樓塊的文字內容的正文,待提取次樓塊的文字內容的字數。
[0026]可選地,次樓塊確定單元還適于:根據所述關鍵詞確定元關鍵詞;將所述元關鍵詞與字數大于預定閾值的次樓塊的文字內容進行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0027]可選地,所述網頁中待提取次樓塊為多個,則所述網頁對應的范文網頁數據項包括與待提取次樓塊數量相應的多個范文數據。
[0028]可選地,被提取的結果網頁是文字網站網頁,其網頁包括正文標題和正文內容;其中范文數據單元還包括:匹配單元,適于將所述關鍵詞與正文標題進行匹配;提取單元,適于如匹配,提取該結果網頁的范文數據;其中所述范文數據包括:正文標題,正文內容,和正文內容的字數。
[0029]可選地,被提取的結果網頁是文庫資源網站網頁,其網頁包括范文文檔的URL資源鏈接和描述對應范文文檔的文字內容;其中范文數據單元還包括:匹配單元,適于將所述關鍵詞與描述對應范文文檔的文字內容進行匹配;下載單元,適于如匹配,經由所述URL資源鏈接下載所述范文文檔;提取單元,適于提取該網頁的范文數據;其中所述范文數據包括:描述范文文檔的文字內容,和所述范文文檔。
[0030]本發(fā)明所述范文網頁數據庫建立在搜索引擎服務器側,包括一定數量的范文網頁數據項,所述范文網頁數據項包括了范文類型、范文網頁的范文數據和范文網頁對應的URL,所述范文數據典型地包括范文的標題、正文和字數。用戶發(fā)出范文搜索請求時,在網頁爬蟲抓取的基礎網頁庫進行常規(guī)搜索的同時,還在范文網頁數據庫中進行搜索。由于范文網頁數據庫中包含了各種范文網頁的范文標題、正文以及字數,使得真正與用戶所要求的范文字數相同、相近的范文網頁出現在搜索結果頁中,并且能在搜索結果排序時能排在前面,進一步還能在搜索結果頁中將范文字數顯示給用戶,由此提升搜索質量和用戶體驗。
[0031]根據本發(fā)明的范文網頁數據庫的優(yōu)化方法和裝置,對于在范文網頁數據庫中未檢索到的、且能滿足用戶范文需求的網頁,通過用戶的點擊不斷反饋補充到范文網頁庫中,不斷擴充范文網頁數據庫中范文網頁數據項的數量以提升召回率,滿足更多用戶的需求。并且,由于新增數據項是根據用戶對結果網頁的點擊反饋進行的,所以新增數據項與用戶需求相關度非常高,從而能夠提高下一步經由范文網頁數據庫檢索的質量。
[0032]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0033]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0034]圖1是現有技術的范文搜索的搜索結果頁示意圖;[0035]圖2是本發(fā)明所述范文網頁數據庫的數據結構示意圖;
[0036]圖3是根據本發(fā)明一個實施例的范文網頁數據庫的優(yōu)化方法的流程圖;
[0037]圖4是本發(fā)明所述范文網頁數據庫的一范文網頁數據項的示意圖;
[0038]圖5是根據本發(fā)明另一實施例的范文網頁數據庫的優(yōu)化裝置的框圖。
【具體實施方式】
[0039]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0040]本發(fā)明所述范文網頁數據庫,包括多個范文網頁數據項,每一范文網頁數據項對應一范文網頁,具體包括該范文網頁的范文類型、范文網頁的范文數據和范文網頁對應的URL。典型地,范文網頁的范文數據包括范文標題、范文正文和范文字數。圖2示意性地示出了本發(fā)明所述范文網頁數據庫的數據結構示意圖。
[0041]范文網頁數據庫建立在搜索引擎的服務器端。首先,通過網絡爬蟲對互聯網上范文資源網站的范文網頁進行抓取;網絡爬蟲是一個技術成熟的、能自動提取互聯網上網頁的程序,它根據既定的規(guī)則為搜索引擎從互聯網上下載網頁,是搜索引擎的重要組成。所有被網絡爬蟲抓取的網頁將會被存貯在服務器側;同時可進行一定的分析、過濾,建立索引,生成供用戶檢索使用的基礎檢索庫(或索引數據庫);網絡爬蟲可以在全網絡范圍內進行范文網頁的抓取,也可以在指定的多個范文資源網站的范圍內進行網頁抓取,所述指定的范文資源網站可以由搜索服務提供商和/或用戶不斷進行添加和更新。然后,針對存儲在服務器側的、已被抓取到的范文網頁,根據與所要提取的范文類型相對應的關鍵詞,提取該類型范文網頁的范文數據。具體地,首先需要將關鍵詞與范文網頁的內容進行匹配;如匹配,則從范文網頁的內容中提取范文數據。最后,基于已提取的范文網頁的范文數據,建立范文網頁數據庫。
[0042]當用戶在瀏覽器客戶端發(fā)起檢索請求時,搜索引擎的服務器獲取用戶的檢索請求,例如“入黨申請書3000字”,此請求表示用戶希望搜索到字數在3000字左右的入黨申請書范文。服務器接收到檢索請求后,會對檢索請求的內容進行分析,獲取其中的檢索項,對于上述檢索請求,其檢索項為“入黨申請書”和“3000字”;根據檢索項“入黨申請書”,判斷其為范文檢索請求。
[0043]當判斷用戶的檢索請求是范文檢索請求時,進一步根據檢索請求攜帶的關鍵詞,在范文數據庫中進行檢索。檢索請求攜帶的關鍵詞,對應于前述檢索項,包括主題關鍵詞和字數關鍵詞。例如,檢索請求“入黨申請書3000字”,其主題關鍵詞為“入黨申請書”,字數關鍵詞為“3000”。在范文數據庫的檢索過程中,可先將主題關鍵詞與范文類型進行匹配,然后根據二者匹配情況,進一步將主題關鍵詞在相應的范文標題和/或范文正文中進行匹配。示例性地,對于檢索請求“入黨申請書3000字”,在范文類型和/或范文標題和/或范文正文中對主題關鍵詞“入黨申請書”進行匹配,若匹配成功,即判斷主題關鍵詞檢索命中。在主題關鍵詞檢索命中之后,在命中的范文網頁數據項中,進一步將字數關鍵詞與范文網頁數據項的范文字數進行匹配,并建立二者的匹配度。示例性地,對于檢索請求“入黨申請書3000字”,若一范文網頁數據項的范文字數為3000字,則匹配度為100% ;另一數據項的范文字數為5000字,則匹配度為60%。優(yōu)選地,若字數匹配度低于某一閾值,例如匹配度低于50%,可在檢索結果中舍棄此范文網頁數據項對應的范文網頁。
[0044]在檢索步驟之后,提取檢索到的與所述關鍵詞匹配的范文網頁數據項的關鍵項信息,并在檢索結果頁中顯示所述關鍵項信息。其中,被提取的關鍵項信息包括范文標題和范文字數,范文標題可以讓用戶初步了解范文的具體主題,范文字數則能夠讓用戶直觀了解該范文字數是否滿足自己的需求。優(yōu)選地,被提取的關鍵項信息還可包括部分范文正文,以使得用戶能夠在不點擊打開范文網頁的情況下就知曉范文的部分內容。在搜索結果頁中,根據范文字數與字數關鍵詞的匹配度由高到低對在范文網頁數據庫中檢索到的范文網頁進行排序。
[0045]另一方面,在范文網頁數據庫中進行檢索的同時,還根據請求內容的關鍵詞,在基礎網頁庫進行檢索。如上所述,基礎網頁庫,即搜索引擎的索引數據庫,包括由網絡爬蟲下載存儲到服務器側的網頁;在基礎網頁庫的檢索是互聯網搜索領域的一項成熟技術,在此不再贅述。最后,在檢索結果頁中合并在范文網頁數據庫檢索到的范文網頁和在基礎網頁庫檢索到的范文網頁。具體地,在檢索結果頁中,在范文網頁數據庫檢索到的范文網頁排在基礎網頁庫檢索到的范文網頁的前面。
[0046]綜上所述,由于范文網頁數據庫中包含了各種范文網頁的范文標題、正文以及字數,使得真正與用戶所要求的范文字數相同、相近的范文網頁出現在搜索結果頁中,并且能在搜索結果排序時能排在前面,進一步還能在搜索結果頁中將范文字數顯示給用戶,由此提升搜索質量和用戶體驗。但是,如果范文網頁數據庫中某種范文類型的范文網頁數據項的數量不足,就很有可能不能滿足用戶的范文檢索需求,導致范文網頁數據庫的上述優(yōu)點不能發(fā)揮,最后在檢索結果頁中呈現給用戶的還是從基礎網頁庫中得出的檢索結果。
[0047]在本實施例中,提供了一種范文網頁數據的優(yōu)化方法,在搜索引擎的服務器側執(zhí)行。圖3示出了所述優(yōu)化方法的流程圖,包括步驟S302-S308,其中:
[0048]步驟S302:獲取用戶的檢索請求;
[0049]步驟S304:根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求;
[0050]步驟S306:如果是,檢測用戶在檢索結果頁中對結果網頁的交互反饋,根據所述交互反饋提取對應的結果網頁中的范文數據;
[0051]步驟S308:將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。
[0052]本實施例方法從步驟S302開始,搜索引擎的服務器獲取用戶的檢索請求,例如“入黨申請書3000字”,此請求表示用戶希望搜索到字數在3000字左右的入黨申請書范文
坐坐寸寸ο
[0053]服務器接收到檢索請求后,會對檢索請求的內容進行分析,獲取其中的檢索項,即此時進入步驟S304。對于檢索請求“入黨申請書3000字”,其檢索項為“入黨申請書”和“3000字”。根據檢索項“入黨申請書”,步驟S304判斷其為范文檢索請求。關于對檢索請求進行分析獲取檢索項,有多種成熟的技術能夠實現,在此不再贅述。
[0054]當判斷用戶的檢索請求是范文檢索請求時,進一步根據檢索請求攜帶的關鍵詞(對應于前述檢索項,例如主題關鍵詞“入黨申請書”和字數關鍵詞“ 3000 ”),同時在范文數據庫和基礎網頁庫中進行檢索,并在檢索結果頁中合并在范文網頁數據庫檢索到的范文網頁和在基礎網頁庫檢索到的范文網頁,此時進入到步驟S306,檢測用戶在檢索結果頁中對結果網頁的交互反饋,根據所述交互反饋提取對應的結果網頁中的范文數據。具體地,在步驟S306中,服務器檢測用戶在瀏覽器側對搜索結果頁中提供的結果網頁(包括在范文網頁數據庫檢索到的范文網頁,和在基礎網頁庫檢索到的范文網頁)的選擇,即檢測來自瀏覽器側的用戶對某結果網頁的URL鏈接的點擊動作的反饋,服務器判斷該結果網頁是與用戶范文需求較為相關的一范文網頁,并根據此反饋對該結果網頁進行解析、提取其中的范文數據。
[0055]可選地,所述結果網頁是問答社區(qū)網站的范文網頁;問答社區(qū)網站以一個主樓塊提出問題,多個次樓塊回答問題的形式,直接、快速地滿足了用戶搜索答案的需求,幾乎能解決日常生活中的所有問題,由此也形成了一個巨大的內容資源。目前,國內已有很多較有影響的問答社區(qū)網站,例如百度知道,360問答,搜搜問問,天涯問答等等。下面以檢索請求“入黨申請書3000字”為例詳細描述步驟S306如何提取問答社區(qū)網站的范文網頁的范文數據。
[0056]首先,判斷主樓塊的文字內容與主題關鍵詞“入黨申請書”是否匹配;其中,問答社區(qū)網頁的主樓塊和各個次樓塊的文字內容,已經由網絡爬蟲提取出來。當主樓塊的文字內容與主題關鍵詞“入黨申請書”匹配時,判斷次樓塊的文字內容的字數是否大于預定閾值。根據一篇入黨申請書通常所要求的最低字數,設定該預定閾值,例如2000字,低于預定閾值2000字的次樓塊將被舍棄。因為在問答社區(qū)網頁中,很多次樓塊的內容極有可能不是對主樓塊所提問題的答案,例如次樓塊內容為“不知道”、“我也很想知道”等等;而字數大于2000字的次樓塊,就極有可能是一篇真正的入黨申請書的范文。
[0057]當然,對于不同的范文類型,應該對范文字數設置不同的預定閾值。例如,對于類型為“請假條”的范文,其預定閾值可以設置得相對較低,例如10字。
[0058]優(yōu)選地,如次樓塊的文字內容大于了預定閾值2000字,可基于關鍵詞進一步對次樓塊進行篩選,判斷字數大于預定閾值的次樓塊的內容與元關鍵詞是否匹配。這里的元關鍵詞,或者為關鍵詞本身,或者從關鍵詞中提取得來。對于本示例中的關鍵詞“入黨申請書”,確定其元關鍵詞為“申請”和“入黨”。在問答社區(qū)網頁中,次樓塊通??捎扇魏尉W絡用戶進行添加,因此字數大于預定閾值的次樓塊的內容也有可能與主樓塊所提問題無關,例如次樓塊為網絡用戶惡意粘貼的廣告等。通過將次樓塊內容與元關鍵詞進行匹配,可以進一步確定次樓塊的內容與入黨申請書的相關性。另一方面,次樓塊中一篇關于入黨申請書的范文也有可能未出現“入黨申請書”的完整字段,而元關鍵詞“申請”和“入黨”保證了不會將其遺漏。若次樓塊與元關鍵詞匹配,確定該次樓塊為待提取次樓塊,即確定該次樓塊的內容包含主題為“入黨申請書”的范文。
[0059]最后,從所述待提取次樓塊的“入黨申請書”范文中提取范文數據,包括范文標題,范文正文,以及范文字數。從次樓塊的文字內容中提取上述范文數據的具體實現,并非本發(fā)明的發(fā)明點所在,其實現細節(jié)在此不再贅述。
[0060]發(fā)明人注意到,對于問答社區(qū)網站的一個范文網頁,其多個次樓塊都有可能被確定為待提取次樓塊,即多個次樓塊都能滿足字數要求和元關鍵詞匹配,故該范文網頁對應的范文網頁數據項將包括多條范文數據,如圖4所示,其中每條范文數據與每個待提取次樓塊的內容對應。
[0061]通過本實施例,準確提取了問答社區(qū)網站中所包含的范文數據,最大限度地去除了無效內容或惡意廣告內容。
[0062]可選地,所述結果網頁是文字網站的范文網頁;文字網站的網頁以文字為主,在網頁的主要區(qū)域內以諸如文稿的形式介紹該網頁的主要內容,例如新聞網站、博客網站等等。典型地,文字網站的網頁都包括正文標題和正文內容,通過網絡爬蟲能夠獲取這些信息。下面仍將以主題關鍵詞“入黨申請書”為例來介紹針對文字網站的范文網頁的范文數據提取方法。
[0063]根據本實施例的范文數據提取方法,對于文字網站,首先將關鍵詞“入黨申請書”與正文標題進行匹配;如匹配,確定該網頁為類型為“入黨申請書”的范文網頁,則進一步在正文內容中提取正文標題,正文內容,和正文內容的字數,將其作為該網頁的范文數據。
[0064]可選地,所述結果網頁是文庫資源網站的范文網頁,文庫資源網站能夠為用戶提供各種文章、論文的下載服務,例如萬方數據網等等。典型地,文庫資源網站的網頁包括范文文檔的URL資源鏈接和描述該范文文檔的文字內容。
[0065]根據本實施例的范文數據提取方法,對于文庫資源網站,首先將關鍵詞“入黨申請書”與文庫資源網頁中描述范文文檔的文字內容進行匹配;如匹配,確定該文庫資源網頁為類型為“入黨申請書”的范文網頁,則經由所述URL資源鏈接下載所述范文文檔;進一步地,提取描述范文文檔的文字內容和所下載的范文文檔作為該網頁的范文數據。
[0066]在步驟S306提取好范文數據后,進入步驟S308,將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增的范文網頁數據項添加到范文網頁數據庫中。其中,所述關鍵詞對應于范文網頁數據項的范文類型。
[0067]可選地,在向范文網頁數據庫添加新增數據項之前,判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中;如果否,則添加所述新增數據項;如果是,則不添加所述新增數據項。由此,避免了在范文網頁數據庫中重復添加相同范文網頁的數據項。
[0068]可選地,在向范文網頁數據庫添加新增數據項之前,先在范文網頁數據庫中確定與新增數據項具有相同范文類型的現有范文網頁數據項的項數;如所述項數小于預定數量,則添加所述新增數據項;如所述項數大于或等于預定數量,則不添加所述新增數據項。例如,對于范文類型“入黨申請書”,所述預定數量設置為10萬;若范文網頁數據庫中范文類型為“入黨申請書”的已有范文網頁數據項為8萬條,說明該類型的范文網頁數量不足,則繼續(xù)添加所述新增數據項。
[0069]本發(fā)明另一實施例提供了一種范文網頁數據庫的優(yōu)化裝置,設置在搜索引擎的服務器側;圖5示出了根據本實施例的范文網頁數據庫的優(yōu)化裝置的框圖,包括單元502-508。
[0070]當用戶向搜索引擎發(fā)出檢索請求時,請求獲取單元502獲取用戶的檢索請求;然后請求判斷單元504根據請求內容的關鍵詞,判斷所述檢索請求是否是范文檢索請求。
[0071]當判斷用戶的檢索請求是范文檢索請求時,進一步根據檢索請求攜帶的關鍵詞,同時在范文數據庫和基礎網頁庫中進行檢索,并在檢索結果頁中合并在范文網頁數據庫檢索到的范文網頁和在基礎網頁庫檢索到的范文網頁。此時,范文數據單元506檢測用戶在檢索結果頁中對結果網頁的交互反饋,并根據所述交互反饋提取對應的結果網頁中的范文數據。具體地,服務器檢測用戶在瀏覽器側對搜索結果頁中提供的結果網頁的選擇,即檢測來自瀏覽器側的用戶對某結果網頁的URL鏈接的點擊動作的反饋,服務器判斷該結果網頁是與用戶范文需求較為相關的一范文網頁,并根據此反饋對該結果網頁進行解析、提取其中的范文數據。
[0072]可選地,范文數據單元506包括:匹配單元,適于將關鍵詞與問答社區(qū)網頁主樓塊的文字內容進行匹配;次樓塊確定單元,適于在關鍵詞與主樓塊匹配時,判斷次樓塊的文字內容的字數是否大于預定閾值,并且如果次樓塊文字大于預定閾值,則確定字數大于預定閾值的次樓塊為待提取次樓塊;以及提取單元,適于提取該網頁的范文數據;其中所述范文數據包括待提取次樓塊的文字內容的標題,待提取次樓塊的文字內容的正文,待提取次樓塊的文字內容的字數。優(yōu)選地,在確定次樓塊的內容字數大于預定閾值后,次樓塊確定單元進一步將字數大于預定閾值的次樓塊的內容與元關鍵詞(關鍵詞本身,或根據所述關鍵詞確定)進行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0073]可選地,范文數據單元506包括匹配單元,適于將所述關鍵詞與文字網頁的正文標題進行匹配;以及提取單元,適于在關鍵詞與正文標題匹配時,提取該網頁的范文數據;其中所述范文數據包括:正文標題,正文內容,和正文內容的字數。
[0074]可選地,范文數據單元506包括匹配單元,適于將所述關鍵詞與文庫資源網頁中描述對應范文文檔的文字內容進行匹配;下載單元,適于在關鍵詞與描述文字匹配時,經由所述URL資源鏈接下載范文文檔;和提取單元,適于提取該網頁的范文數據;其中所述范文數據包括:描述范文文檔的文字內容,和所述范文文檔。
[0075]在范文數據提取完成之后,數據添加單元508將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增范文網頁數據項添加到范文網頁數據庫中,其中所述關鍵詞對應于范文網頁數據項的范文類型。
[0076]可選地,數據添加單元在向范文網頁數據庫添加新增數據項之前,判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中;如果是,則不添加所述新增數據項;如果否,則添加所述新增數據項。
[0077]可選地,數據添加單元在向范文網頁數據庫添加新增數據項之前,先在范文網頁數據庫中確定與新增數據項具有相同范文類型的現有范文網頁數據項的項數;如所述項數小于預定數量,則添加所述新增數據項;如所述項數大于或等于預定數量,則不添加所述新增數據項。
[0078]根據本實施例所述的范文數據庫優(yōu)化方法和裝置,提供了一種及時補充范文網頁數據庫的機制,尤其是在范文網頁數據庫中無結果網頁或結果網頁很少的情況下,通過用戶對基礎檢索庫中得到的結果網頁的互動反饋,及時將該結果網頁的范文數據補充到范文數據庫中,從而不斷擴充數據庫內容以滿足更多用戶的需求,提升召回率。
[0079]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本發(fā)明的內容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0080]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0081]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0082]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0083]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0084]本發(fā)明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP )來實現根據本發(fā)明實施例的范文網頁數據優(yōu)化裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0085]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權利要求】
1.一種范文網頁數據庫的優(yōu)化方法,包括: 獲取用戶的檢索請求; 根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求;如果是,檢測用戶在檢索結果頁中對結果網頁的交互反饋,根據所述交互反饋提取對應的結果網頁中的范文數據; 將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。
2.根據權利要求1所述的優(yōu)化方法,其中,添加步驟包括 判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中; 如果是,則不添加所述新增數據項; 如果否,則添加所述新增數據項。
3.根據權利要求1或2所述的優(yōu)化方法,其中新增數據項中的關鍵詞對應于范文網頁數據項的范文類型;其中 添加步驟包括 在范文網頁數據庫中,確定與新增數據項具有相同范文類型的現有范文網頁數據項的項數; 如所述項數小于預定數量,則添加所述新增數據項; 如所述項數大于或等于預定數量,則不添加所述新增數據項。
4.根據權利要求1-3任一項所述的優(yōu)化方法,其中被提取的結果網頁是問答社區(qū)網頁,包括提出問題的主樓塊和回答問題的次樓塊;其中提取范文數據的步驟包括 將所述關鍵詞與網頁主樓塊的文字內容進行匹配; 如匹配,判斷次樓塊的文字內容的字數是否大于預定閾值; 如果是,確定字數大于預定閾值的次樓塊為待提取次樓塊;且提取該結果網頁的范文數據;其中所述范文數據包括:待提取次樓塊的文字內容的標題,待提取次樓塊的文字內容的正文,待提取次樓塊的文字內容的字數。
5.根據權利要求1-4任一項所述的優(yōu)化方法,確定待提取次樓塊的步驟還包括: 根據所述關鍵詞確定元關鍵詞; 將所述元關鍵詞與字數大于預定閾值的次樓塊的文字內容進行匹配; 如匹配,確定匹配的次樓塊為待提取次樓塊。
6.根據權利要求1-5任一項所述的優(yōu)化方法,所述網頁中待提取次樓塊為多個,則所述網頁對應的范文網頁數據項包括與待提取次樓塊數量相應的多個范文數據。
7.根據權利要求1-6任一項所述的優(yōu)化方法,其中被提取的結果網頁是文字網站網頁,其網頁包括正文標題和正文內容;其中提取范文數據的步驟包括: 將所述關鍵詞與正文標題進行匹配; 如匹配,提取該結果網頁的范文數據;其中所述范文數據包括:正文標題,正文內容,和正文內容的字數。
8.根據權利要求1-7任一項所述的優(yōu)化方法,其中被提取的結果網頁是文庫資源網站網頁,其網頁包括范文文檔的URL資源鏈接和描述對應范文文檔的文字內容;其中提取范文數據的步驟包括: 將所述關鍵詞與描述對應范文文檔的文字內容進行匹配;如匹配,經由所述URL資源鏈接下載所述范文文檔; 提取該網頁的范文數據;其中所述范文數據包括:描述范文文檔的文字內容,和所述范文文檔。
9.一種范文網頁數據庫的優(yōu)化裝置,包括: 請求獲取單元,適于獲取用戶的檢索請求; 請求判斷單元,適于根據所述檢索請求中攜帶的關鍵詞,判斷所述檢索請求是否屬于范文檢索請求; 范文數據單元,適于檢測用戶在檢索結果頁中對結果網頁的交互反饋,并根據所述交互反饋提取對應的結果網頁中的范文數據; 數據添加單元,適于將所述關鍵詞、所述結果網頁中的范文數據及結果網頁URL作為新增數據項添加到范文網頁數據庫中。
10.根據權利要求9所述的優(yōu)化裝置,其中,數據添加單元還適于 判斷結果網頁URL是否包含在范文網頁數據庫的現有范文網頁數據項中; 如果是,則不添加所述新增數據項; 如果否,則添加所述新增數`據項。
【文檔編號】G06F17/30GK103678597SQ201310684066
【公開日】2014年3月26日 申請日期:2013年12月13日 優(yōu)先權日:2013年12月13日
【發(fā)明者】侯小虎 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司