一種文檔索引的建立方法和裝置制造方法
【專利摘要】本發(fā)明實施例提供了一種文檔索引的建立方法和裝置,所述方法包括:提取網頁中的文本信息;判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;采用所述通訊特征信息和所述網頁建立文檔索引。本發(fā)明實施例將具有與該電話號碼匹配的通訊特征信息的網頁優(yōu)先展示,提高了搜索的準確率,進而減少在搜索結果中翻頁查找、重新輸入搜索關鍵詞等方式進行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
【專利說明】一種文檔索引的建立方法和裝置
【技術領域】
[0001]本發(fā)明涉及搜索【技術領域】,特別是涉及一種文檔索引的建立方法和一種文檔索引的建立裝置。
【背景技術】
[0002]隨著網絡的迅速發(fā)展,網絡上的信息急劇增加。用戶為了在海量的信息中尋找所需的信息,通常使用搜索引擎進行搜索。
[0003]搜索引擎指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統(tǒng)。信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時查閱。
[0004]但是,如圖1所示,用戶在搜索常用電話號碼(如2223256)時,搜索引擎仍按通用算法給出結果。由于標題和鏈接的權重較高,排在前面的結果往往在標題或鏈接中出現(xiàn)查詢詞,而這些結果有時并非用戶所需,準確率低。用戶在未搜索到所需的信息時,通常在搜索結果中翻頁查找、重新輸入搜索關鍵詞等方式進行搜索,操作麻煩,搜索引擎和本地系統(tǒng)的資源消耗大,帶寬消耗大,搜索效率低。
【發(fā)明內容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種文檔索引的建立方法和相應的一種文檔索引的建立裝置。
[0006]依據本發(fā)明的一個方面,提供了一種文檔索引的建立方法,包括:
[0007]提取網頁中的文本信息;
[0008]判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;
[0009]采用所述通訊特征信息和所述網頁建立文檔索引。
[0010]可選地,所述網頁包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域;
[0011]所述提取網頁中的文本信息的步驟包括:
[0012]提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0013]可選地,所述通訊特征信息包括指定位數(shù)的電話號碼;
[0014]所述判斷所述文本信息中是否具有通訊特征信息的步驟包括:
[0015]對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0016]當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0017]若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0018]可選地,所述通訊特征信息還包括電話區(qū)號;
[0019]所述判斷所述文本信息中是否具有通訊特征信息的步驟還包括:
[0020]判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
[0021]可選地,所述判斷所述目標文本分詞對應的文本分詞為區(qū)號信息的步驟包括:
[0022]判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0023]或者,
[0024]判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0025]可選地,所述指定位數(shù)為7位或8位。
[0026]可選地,所述采用所述通訊特征信息和所述網頁建立文檔索引的步驟包括:
[0027]記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0028]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0029]根據本發(fā)明的另一方面,提供了一種文檔索引的建立裝置,包括:
[0030]第一提取模塊,適于提取網頁中的文本信息;
[0031]判斷模塊,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調用第二提取豐吳塊;
[0032]第二提取模塊,適于提取所述通訊特征信息;
[0033]建立模塊,適于采用所述通訊特征信息和所述網頁建立文檔索引。
[0034]可選地,所述網頁包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域;
[0035]所述第一提取模塊還適于:
[0036]提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0037]可選地,所述通訊特征信息包括指定位數(shù)的電話號碼;所述判斷模塊還適于:
[0038]對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0039]當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0040]若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0041]可選地,所述通訊特征信息還包括電話區(qū)號;所述判斷模塊還適于:
[0042]判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
[0043]可選地,所述判斷模塊還適于:
[0044]判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0045]或者,
[0046]判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0047]13、如權利要求10或11或12所述的裝置,其特征在于,所述指定位數(shù)為7位或8位。
[0048]可選地,所述建立模塊還適于:
[0049]記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0050]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0051 ] 本發(fā)明實施例在網頁中的文本信息中具有通訊特征信息時,采用通訊特征信息和網頁建立文檔索引,通過標記通訊特征信息,以支持后續(xù)其他用戶在搜索電話號碼時,將具有與該電話號碼匹配的通訊特征信息的網頁優(yōu)先展示,提高了搜索的準確率,進而減少在搜索結果中翻頁查找、重新輸入搜索關鍵詞等方式進行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0052]本發(fā)明實施例中將通訊特征信息及出現(xiàn)的位置記錄在文檔索引中,可以在搜索結果項中的網頁摘要信息獲取到電話號碼及其歸屬的信息,減少用戶點擊搜索結果的頻次,減少網頁服務器、當前電子設備的資源以及帶寬的消耗。
[0053]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0054]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0055]圖1示出了一種搜索結果示例圖;
[0056]圖2示出了根據本發(fā)明一個實施例的一種文檔索引的建立方法實施例的步驟流程圖;
[0057]圖3示出了根據本發(fā)明一個實施例的一種搜索結果示例圖;
[0058]圖4示出了根據本發(fā)明一個實施例的一種搜索的方法實施例1的步驟流程圖;
[0059]圖5示出了根據本發(fā)明一個實施例的一種搜索的方法實施例2方法實施例的步驟流程圖;
[0060]圖6不出了根據本發(fā)明一個實施例的一種搜索結果不例圖;
[0061]圖7示出了根據本發(fā)明一個實施例的一種文檔索引的建立裝置實施例的結構框圖;以及
[0062]圖8示出了根據本發(fā)明一個實施例的一種搜索的裝置實施例的結構框圖。
【具體實施方式】
[0063]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0064]參照圖2,示出了根據本發(fā)明一個實施例的一種文檔索引的建立方法實施例的步驟流程圖,具體可以包括如下步驟:
[0065]步驟201,提取網頁中的文本信息;
[0066]搜索引擎的處理流程一般可以分為二個部分,第一部分是前端用戶請求,第二部分是后端制作數(shù)據。
[0067]一、前端用戶請求處理過程可以包括:
[0068]1.用戶輸入關鍵字;
[0069]2.查詢詞分析,搜索引擎對關鍵字分詞;
[0070]3.檢索,根據分詞結果,從事先制作的文檔索引中,找出相關的網頁集合;
[0071]4.排序,對候選的網頁集合,根據內容相關性、時效性等維度進行排序;
[0072]5.展現(xiàn):將排序后的網頁進行展現(xiàn)。
[0073]二、后端制作數(shù)據過程可以包括:
[0074]1.網頁抓取,爬蟲通過網頁間的鏈接關系,抓取互聯(lián)網的網頁并保存;
[0075]2.索引制作,對已抓取保存的網頁進行分析,對網頁標題和頁面文本分詞,根據分詞結果制作文檔索引,供前端檢索使用。
[0076]爬蟲抓取的網頁可以保存在網頁數(shù)據庫中形成大量的搜索資源,而網頁內容中可以包括大量的文本信息。則在本發(fā)明實施例中,可以從網頁數(shù)據庫中提取網頁中的文本信息。
[0077]在本發(fā)明實施例的一種可選示例中,所述網頁包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域;則在本發(fā)明實施例中,步驟201可以包括如下子步驟:
[0078]子步驟S11,提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0079]不同性質和類別的網站,網頁的內容安排一般是不同的。但是一般的網頁的基本內容包括標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)廣告欄等。這些元素在網頁的位置安排,就是網頁的整體布局。
[0080]每個網頁的最頂端都有一條信息,這條信息往往出現(xiàn)在瀏覽器的標題欄,而非網頁中,但是這條信息也是網頁布局中的一部分。這條信息是對這個網頁中主要內容的提示,即標題。
[0081]LOGO是網站所有者對外宣傳自身形象的工具。
[0082]網頁的上端即是這個頁面的頁眉。頁眉并不是在所有的網頁中都有,其往往在一個頁面中相當重要的位置,容易引起瀏覽者的注意,所以很多網站都會在頁眉中設置宣傳本網站的內容,如網站宗旨、網站LOGO等。
[0083]主體內容是網頁中的最重要的元素。主體內容并不完整,往往由下一級內容的標題、內容提要、內容摘編的超鏈接構成。主體內容借助超鏈接,可以利用一個頁面,高度概括幾個頁面所表達的內容,而首頁的主體內容甚至能在一個頁面中高度概括整個網站的內容。
[0084]網頁的最底端部分被稱為頁腳,頁腳部分通常被用來介紹網站所有者的具體信息和聯(lián)絡方式,如名稱、地址、聯(lián)系方式、版權信息等。其中一些內容被做成標題式的超鏈接,引導瀏覽者進一步了解詳細的內容。
[0085]功能區(qū)是網站主要功能的集中表現(xiàn)。一般位于網頁的右上方或右側邊欄。功能區(qū)包括:電子郵件、信息發(fā)布、用戶名注冊、登陸網站等內容。有些網站使用了 IP定位功能,定位瀏覽者所在地,然后可在功能區(qū)顯示當?shù)氐奶鞖?、新聞等個性化信息。
[0086]導航區(qū)可以通過一定的技術手段,為網站的訪問者提供一定的途徑,時期可以方便地訪問所需的內容,導航區(qū)一般分為4種位置,分別是左側、右側、頂部和底部。一般網站使用的導航區(qū)都是單一的,也可以多導航,如采用了左側導航與底部導航相結合的方式。但是無論采用幾個導航區(qū),網站中的每個頁面的導航區(qū)位置均是固定的。
[0087]廣告區(qū)是網站實現(xiàn)贏利或自我展示的區(qū)域。一般位于網頁的頁眉、右側和底部。廣告區(qū)內容以文字、圖像、Flash動畫為主。通過吸引瀏覽者點擊鏈接的方式達成廣告效果。廣告區(qū)設置要達到明顯、合理、引人注目,這對整個網站的布局很重要。
[0088]需要說明的是,頁腳在一般的文檔索引中不會被收錄,但是,由于頁腳部分通常被用來介紹網站所有者的具體信息和聯(lián)絡方式,在用戶搜索電話號碼的情景中的地位較為重要,因此,本發(fā)明實施例中可以收錄頁腳部分。
[0089]步驟202,判斷所述文本信息中是否具有通訊特征信息;若是,則執(zhí)行步驟203 ;
[0090]通訊特征信息,可以為表征用于通信的信息。
[0091]在本發(fā)明的一種可選實施例中,所述通訊特征信息可以包括指定位數(shù)的電話號碼;
[0092]電話號碼是一連串數(shù)字的組合,一組號碼對應一個電話線,如要撥打至另一方,可以撥對方的對應號碼組合。在電話號碼剛開始使用時,號碼較短,大約只有兩三個數(shù)字,也只能撥打給附近的電話用戶,逐漸地,電話系統(tǒng)越趨發(fā)達,涵蓋范圍達全球,電話號碼也相對增長。電話號碼除了連接電話,也可連接電腦及傳真機。電話管理部門為電話機設定的號碼。一般7或8位數(shù)組成的(手機號碼為11位),早期有過5或6位的情況。
[0093]則在本發(fā)明實施例中,步驟202可以包括如下子步驟:
[0094]子步驟S21,對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0095]下面介紹一些常用的分詞方法:
[0096]1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞
[0097]2、基于特征掃描或標志切分的分詞方法:是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而提高切分的準確率。
[0098]3、基于理解的分詞方法:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。
[0099]4、基于統(tǒng)計的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息,以及計算兩個漢字Χ、γ的相鄰共現(xiàn)概率。互現(xiàn)信息可以體現(xiàn)漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法對語料中的字組頻度進行統(tǒng)計,不需要切分詞典。
[0100]子步驟S22,當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;若是,則執(zhí)行子步驟S23 ;
[0101]通訊標識,可以為標識電話號碼的信息,例如,“請聯(lián)系”、“電話”、“手機”、“Tel”、“Mobile” 等等。
[0102]其中,所述第一目標文本分詞可以為與所述通訊標識匹配的文本分詞之后的文本分詞,例如,若文本分詞“電話”與通訊標識匹配,則文本分詞“電話”后的文本分詞可以為第一目標文本分詞。
[0103]子步驟S23,判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0104]在本發(fā)明實施例中,在第一目標文本分詞為指定位數(shù)的數(shù)字時,可以判斷該指定位數(shù)的數(shù)字為指定位數(shù)的電話號碼。
[0105]例如,若文本分詞“電話”后的第一目標文本分詞為“ 2223256 ”,由于“ 2223256 ”為7位的數(shù)字序列,則可以判斷“2223256”為7位的電話號碼。
[0106]在本發(fā)明的一種可選實施例中,所述通訊特征信息還可以包括電話區(qū)號;電話區(qū)號是指各行政區(qū)域常用電話區(qū)劃號碼,這些號碼主要用于國內、國際長途電話接入。比如,中國大陸國際區(qū)號86,成都區(qū)號28。而在使用國內長途電話時,區(qū)號前要加撥O。
[0107]則在本發(fā)明實施例中,步驟202可以包括如下子步驟:
[0108]子步驟S24,判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則執(zhí)行子步驟S25 ;
[0109]區(qū)號標識,可以為標識電話區(qū)號的信息,例如,“(010)2223256”中的“O”為區(qū)號標識、“ 010-2223256 ”中的“”為區(qū)號標識等等。
[0110]其中,所述第二目標文本分詞可以為與所述通訊標識匹配的文本分詞之后的文本分詞,例如,若文本分詞“電話”與通訊標識匹配,則文本分詞“電話”后的文本分詞可以為第二目標文本分詞。
[0111]子步驟S25,判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;
[0112]在本發(fā)明實施例中,在目標文本分詞與通訊標識匹配時,可以判斷該目標文本分詞對應的為文本分詞的電話號碼。
[0113]在本發(fā)明實施例的一種可選示例中,子步驟S25可以包括如下子步驟:
[0114]子步驟S251,判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0115]例如,“(010) 2223256”中的“ O ”為區(qū)號標識,則文本分詞“010”可以為電話區(qū)號。
[0116]或者,
[0117]子步驟S252,判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0118]例如,“ 010-2223256 ”中的“”為區(qū)號標識,,則文本分詞“ 010 ”可以為電話區(qū)號。
[0119]步驟204,提取所述通訊特征信息;
[0120]在本發(fā)明實施例中,若判斷網頁中的文本信息中具有通訊特征信息,則可以提取該通訊特征信息,例如指定位數(shù)的電話號碼、電話區(qū)號等等,以建立文檔索引。
[0121]步驟205,采用所述通訊特征信息和所述網頁建立文檔索引。
[0122]在具體實現(xiàn)中,文檔索引可以包括倒排索引、正排索引等等,而文檔索引可以由索引表和主文件兩部分構成。
[0123]索引表可以是一張指示邏輯記錄和物理記錄之間對應關系的表。索引表中的每項稱作索引項。索引項是按鍵(或邏輯記錄號)順序排列。
[0124]在本發(fā)明的一種可選實施例中,步驟205可以包括如下子步驟:
[0125]子步驟S31,記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0126]子步驟S32,將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0127]本發(fā)明實施例中,可以將出現(xiàn)的位置記錄寫入倒排索引中,以在搜索結果項中作為網頁摘要信息進行展示。
[0128]在很多情景中,用戶搜索電話號碼,需要獲取的信息大多是確定這個是電話號碼以及這個電話號碼的歸屬,如公司、店鋪等等。若用戶在搜索結果項中的摘要信息獲取到電話號碼及其歸屬的信息,往往無需點擊該搜索結果項進行詳細的查詢。
[0129]本發(fā)明實施例中將通訊特征信息及出現(xiàn)的位置記錄在文檔索引中,可以在搜索結果項中的網頁摘要信息獲取到電話號碼及其歸屬的信息,減少用戶點擊搜索結果的頻次,減少網頁服務器、當前電子設備的資源以及帶寬的消耗。
[0130]倒排索引源于實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的文件稱為倒排索引文件,簡稱倒排文件(inverted file)。
[0131]倒排文件(倒排索引),索引對象是文檔或者文檔集合(例如網頁)中的單詞等,用來存儲這些單詞在一個文檔或者一組文檔中的存儲位置,是對文檔或者文檔集合的一種常用的索引機制。
[0132]在具體實現(xiàn)中,通訊特征信息的出現(xiàn)位置可以包括出現(xiàn)的網頁、出現(xiàn)的網頁及其在該網頁中的位置。
[0133]以英文為例,以下為要被索引的網頁中的文本信息:
[0134]Tl = "it is what it is";
[0135]T2 = "what is it";
[0136]? = 〃it is a banana";
[0137]以下為倒排索引:
[0138]"a": {(2,2)}
[0139]"banana": {(2, 3)}
[0140]〃is": {(0,I), (0, 4), (I, I), (2,I)}
[0141]〃it": {(0,0),(0, 3), (1,2), (2,0)}
[0142]"what": {(0,2),(1,0)}
[0143]其中,〃banana〃: {(2,3)}為〃banana〃在第三個網頁(T3)的文本信息里,而且在第三個網頁的位置是第四個單詞(地址為3)。
[0144]一般的頁面分析不對特別的點(如電話號碼、電話區(qū)號)做標識,有可能主要針對標題或站長給出的關鍵字等重點部分做文檔索引,在文檔索引中可能會被忽略很多東西,用戶有查詢電話號碼的需求時,返回不了用戶所需的結果。
[0145]此外,銀行、網上商城等各大商業(yè)機構,一般會設置5位的電話號碼、400開頭的電話號碼,而這些電話號碼,通常會被該商業(yè)機構通過競價的方式優(yōu)先提升到搜索結果的首頁進行展示。
[0146]而7位或8位的電話號碼為一般為小公司、小店鋪等小型機構的電話號碼,通常無力支付競價所需的費用,一般設置低于標題、網址等的重要性,在搜索結果中通常被埋藏在很深的位置,甚至無法搜索到。
[0147]本發(fā)明實施例在網頁中的文本信息中具有通訊特征信息時,采用通訊特征信息和網頁建立文檔索引,通過標記通訊特征信息,形象地可稱為建立大范圍內(如全國)的電話簿,以支持后續(xù)其他用戶在搜索電話號碼時,將具有與該電話號碼匹配的通訊特征信息的網頁優(yōu)先展示,提高了搜索的準確率,進而減少在搜索結果中翻頁查找、重新輸入搜索關鍵詞等方式進行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0148]參照圖3,示出了根據本發(fā)明一個實施例的一種搜索方法實施例1的步驟流程圖,具體可以包括如下步驟:
[0149]步驟301,接收用戶的搜索關鍵詞;
[0150]在具體實現(xiàn)中,用戶可以從任何一種電子設備訪問搜索引擎,例如手機、PDA (Personal Digital Assistant,個人數(shù)字助理)、膝上型計算機、掌上電腦等等,本發(fā)明實施例對此不加以限制。
[0151]這些電子設備可以支持包括Android (安卓)、1S、WindowsPhone或者windows等的操作系統(tǒng),通常可以運行通過互聯(lián)網訪問網頁的瀏覽器或內置微型瀏覽器的應用程序。
[0152]在本發(fā)明實施例的一種可選示例中,用戶可以在瀏覽器或內置微型瀏覽器的應用程序中打開搜索引擎所在的網頁,在該網頁中通常會包括搜索框,用戶可以在該搜索框中輸入搜索關鍵詞。
[0153]在本發(fā)明實施例的另一種可選示例中,瀏覽器或內置微型瀏覽器的應用程序中可以安裝有搜索插件(plug-1ns,可以通過與搜索引擎進行交互,在瀏覽器或內置微型瀏覽器的應用程序中增加搜索功能),該搜索插件可以提供搜索框,用戶可以在該搜索框中輸入搜索關鍵詞。
[0154]瀏覽器或內置微型瀏覽器的應用程序在用戶輸入的搜索關鍵詞時,可以將其組裝成搜索請求,向搜索引擎發(fā)送搜索請求,以請求搜索引擎搜索與該搜索關鍵詞相關的信息。
[0155]在實際應用中,該搜索請求可以為HTTP (Hypertext transfer protocol,超文本傳輸協(xié)議)請求。其中,搜索請求的內容可以包括用戶請求加載的網頁的標識和/或網頁的特征。網頁標識可以是能夠代表一個唯一確定的網頁的信息,例如統(tǒng)一資源標識符(Uniform Resource Identifier, URI),統(tǒng)一資源標識符又具體可以包括統(tǒng)一資源定位符(Uniform Resource Locator,URL),或者統(tǒng)一資源名稱(Uniform Resource Name, URN)等等。
[0156]瀏覽器或內置微型瀏覽器的應用程序可以通過DNS (Domain Name System,域名解析系統(tǒng))解析查找該網頁URL中的域名(Domain Name)所映射的IP(Internet Protocol,網絡之間互連的協(xié)議)地址。在獲取IP地址成功之后,瀏覽器或內置微型瀏覽器的應用程序可以向該IP地址所在的搜索引擎請求連接。在成功連接該IP地址所在的搜索引擎之后,瀏覽器或內置微型瀏覽器的應用程序可以將請求頭信息通過HTTP協(xié)議向此IP地址所在的搜索引擎發(fā)起搜索請求。
[0157]搜索引擎接收到搜索請求,則可以從該搜索請求中提取搜索關鍵詞,則可以根據該搜索關鍵詞在文檔索引中快速檢出搜索結果,在該搜索結果中可以包括一個或多個搜索結果項。
[0158]步驟302,識別所述搜索關鍵詞中的一個或多個搜索信息;
[0159]在本發(fā)明實施例中,可以通過分詞處理等手段識別所述搜索關鍵詞中的一個或多個搜索信息。
[0160]例如,若搜索關鍵詞為“ 2223256 ”,則該搜索關鍵詞包括一個搜索信息“ 2223256 ” ;若搜索關鍵詞為“電話2223256”,則該搜索關鍵詞包括搜索信息“電話”、“2223256”。
[0161]步驟303,當所述搜索信息包括指定位數(shù)的數(shù)字序列時,提高搜索結果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結果項的權重。
[0162]在實際應用中,用戶搜索指定位數(shù)(如7位或8位)的數(shù)字序列,則其查詢目的可能為查詢電話號碼。
[0163]在搜索結果項中的通訊特征信息(如電話號碼)與該指定位數(shù)(如7位或8位)的數(shù)字序列匹配時,可以提高該搜索結果項的權重,以提高該搜索結果項在搜索結果中的展示順序。
[0164]例如,如圖4所示,若用戶搜索“2223256”,可以將包含電話“2223256”的搜索結果項的展示位置提升至搜索結果的前幾項,方便用戶快捷查詢。
[0165]本發(fā)明實施例對于接收到的搜索關鍵詞,識別其中的一個或多個搜索信息,在搜索信息包括指定位數(shù)的數(shù)字序列時,提高搜索結果中具有與指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結果項的權重,將具有與電話號碼匹配的通訊特征信息的網頁優(yōu)先展示,提高了搜索的準確率,進而減少在搜索結果中翻頁查找、重新輸入搜索關鍵詞等方式進行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0166]參照圖5,示出了根據本發(fā)明一個實施例的一種搜索方法實施例2的步驟流程圖,具體可以包括如下步驟:
[0167]步驟501,建立文檔索引;
[0168]在本發(fā)明的一種可選實施例中,步驟501可以包括如下子步驟:
[0169]子步驟S41,提取網頁中的文本信息;
[0170]在本發(fā)明實施例的一種可選示例中,所述網頁可以包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域,則在本示例中,子步驟S41可以包括如下子步驟:
[0171]子步驟S411,提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0172]子步驟S42,判斷所述文本信息中是否具有通訊特征信息;若是,則執(zhí)行子步驟S43 ;
[0173]在本發(fā)明的一種可選實施例中,所述通訊特征信息可以包括指定位數(shù)的電話號碼,所述指定位數(shù)可以為7位或8位。則在本發(fā)明實施例中,子步驟S42可以包括如下子步驟:
[0174]子步驟S421,對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0175]子步驟S422,當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;若是,則執(zhí)行子步驟S423 ;
[0176]所述第一目標文本分詞可以為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0177]子步驟S423,判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0178]在本發(fā)明的一種可選實施例中,所述通訊特征信息還可以包括電話區(qū)號;則在本發(fā)明實施例中,子步驟S42還可以包括如下子步驟:
[0179]子步驟S424,判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則執(zhí)行子步驟S425 ;
[0180]所述第二目標文本分詞可以為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0181]子步驟S425,判斷所述目標文本分詞對應的文本分詞為電話區(qū)號。
[0182]在本發(fā)明實施例的一種可選示例中,子步驟S425可以包括如下子步驟:
[0183]子步驟S4251,判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0184]或者,
[0185]子步驟S4252,判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0186]子步驟S43,提取所述通訊特征信息;
[0187]子步驟S44,采用所述通訊特征信息和所述網頁建立文檔索引。
[0188]在本發(fā)明的一種可選實施例中,子步驟S44可以包括如下子步驟:
[0189]子步驟S441,記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0190]子步驟S442,將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0191]在本發(fā)明實施例中,由于步驟501與方法實施例1的應用基本相似,所以描述的比較簡單,相關之處參見方法實施例1的部分說明即可,本發(fā)明實施例在此不加以詳述。
[0192]步驟502,接收用戶的搜索關鍵詞;
[0193]步驟503,識別所述搜索關鍵詞中的一個或多個搜索信息;
[0194]步驟504,當所述搜索信息包括指定位數(shù)的數(shù)字序列時,提高搜索結果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結果項的權重。
[0195]步驟505,當所述搜索信息包括通訊標識時,提高具有與所述通訊標識匹配的通訊特征信息的搜索結果項的權重;
[0196]在具體實現(xiàn)中,用戶搜索與通訊特征詞匹配的通訊標識,則其查詢目的可能為查詢電話號碼,則可以提高包含該通訊特征詞的搜索結果項的權重,以進一步提高該搜索結果項在搜索結果中的展示順序。
[0197]本發(fā)明實施例當搜索信息包括通訊標識時,提高具有與通訊標識匹配的通訊特征信息的搜索結果項的權重,進一步提高了搜索的準確率。
[0198]步驟506,獲取當前所在位置的電話區(qū)號;
[0199]在本發(fā)明實施例中,可以獲取用戶當前所在的位置,再查詢該位置對應的電話區(qū)號。
[0200]若用戶通過手機等移動設備提交搜索關鍵詞時,可以定位當前的經瑋度,通過逆地理編碼等方式識別該經瑋度所在的位置。
[0201]若用戶通過電腦等固定設備提交搜索關鍵詞時,可以查詢當前的IP地址(Internet Protocol Address,又譯為網際協(xié)議地址),再識別該IP地址所在的位置。
[0202]步驟507,當所述電話區(qū)號與所述通訊特征信息匹配時,提高具有所述通訊特征信息的搜索結果的權重。
[0203]在具體實現(xiàn)中,用戶當前所在位置的區(qū)號與通訊特征詞(如電話區(qū)號)匹配,則可以提高包含該通訊特征詞(如電話區(qū)號)的搜索結果項的權重,以進一步提高該搜索結果項在搜索結果中的展示順序。
[0204]本發(fā)明實施例在當前位置的電話區(qū)號與通訊特征信息匹配時,提高具有該通訊特征信息的搜索結果的權重,進一步提高了搜索的準確率。
[0205]在實際應用中,所述搜索結果項可以包括網頁摘要信息,所述網頁摘要信息可以包括所述通訊特征信息(如電話號碼、電話區(qū)號)在網頁中出現(xiàn)的位置對應的網頁信息。
[0206]例如,如圖6所示,若用戶搜索“電話2223256”,可以將包含電話“電話”(通訊標識)、“2223256” (指定位數(shù)的數(shù)字序列)的搜索結果項的展示位置提升至搜索結果的前幾項,方便用戶快捷查詢。
[0207]本發(fā)明實施例中將通訊特征信息及出現(xiàn)的位置制作網頁摘要信息,可以在搜索結果項中的摘要信息獲取到電話號碼及其歸屬的信息,減少用戶點擊搜索結果的頻次,減少網頁服務器、當前電子設備的資源以及帶寬的消耗。
[0208]步驟508,按照所述權重對所述一個或多個搜索結果項進行順序排序;
[0209]本發(fā)明實施例中,可以按照權重對一個或多個搜索結果項進行順序排序,權重越高的搜索結果項,排序越在前,權重越低的搜索結果項,排序越在后。
[0210]步驟509,將順序排序后的搜索結果返回客戶端進行展示。
[0211]在HTTP協(xié)議下,瀏覽器或內置微型瀏覽器的應用程序可以從搜索引擎所在的服務器接收到HTML (Hypertext Markup Language,超文本標記語言)類型的文檔。
[0212]瀏覽器或內置微型瀏覽器的應用程序可以解析HTML文檔,生成樹狀結構的對象,即DOM(Document Object Model,文件對象模型),每個對象是DOM上的一個結點,而這些對象可以代表文字、圖片等網頁資源。瀏覽器或內置微型瀏覽器的應用程序可以開始顯示此HTML文檔,并獲取其中內嵌的網頁資源的地址,然后瀏覽器再向服務器發(fā)起請求來獲取這些網頁資源,并在瀏覽器或內置微型瀏覽器的應用程序的HTML文檔中顯示搜索結果。
[0213]對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。
[0214]參照圖7,示出了根據本發(fā)明一個實施例的一種文檔索引的建立裝置實施例的結構框圖,具體可以包括如下模塊:
[0215]第一提取模塊701,適于提取網頁中的文本信息;
[0216]判斷模塊702,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調用第二提取模塊703 ;
[0217]第二提取模塊703,適于提取所述通訊特征信息;
[0218]建立模塊704,適于采用所述通訊特征信息和所述網頁建立文檔索引。
[0219]在本發(fā)明實施例的一種可選示例中,所述網頁可以包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域;
[0220]所述第一提取模塊701還可以適于:
[0221]提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0222]在本發(fā)明的一種可選實施例中,所述通訊特征信息可以包括指定位數(shù)的電話號碼;所述判斷模塊702還可以適于:
[0223]對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0224]當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0225]若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0226]在本發(fā)明的一種可選實施例中,所述通訊特征信息還可以包括電話區(qū)號;所述判斷模塊702還可以適于:
[0227]判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
[0228]在本發(fā)明實施例的一種可選示例中,所述判斷模塊702還可以適于:
[0229]判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0230]或者,
[0231]判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0232]在本發(fā)明實施例的一種可選示例中,所述指定位數(shù)可以為7位或8位。
[0233]在本發(fā)明的一種可選實施例中,所述建立模塊704還可以適于:
[0234]記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0235]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0236]參照圖8,示出了根據本發(fā)明一個實施例的一種搜索的裝置實施例的結構框圖,具體可以包括如下模塊:
[0237]接收模塊801,適于接收用戶的搜索關鍵詞;
[0238]識別模塊802,適于識別所述搜索關鍵詞中的一個或多個搜索信息;
[0239]第一提高模塊803,適于在所述搜索信息包括指定位數(shù)的數(shù)字序列時,提高搜索結果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結果項的權重。
[0240]在本發(fā)明的一種可選實施例中,所述裝置還可以包括如下模塊:
[0241]第二提高模塊,適于在所述搜索信息包括通訊標識時,提高具有與所述通訊標識匹配的通訊特征信息的搜索結果項的權重。
[0242]在本發(fā)明的一種可選實施例中,所述裝置還可以包括如下模塊:
[0243]獲取模塊,適于獲取當前所在位置的電話區(qū)號;
[0244]第三提高模塊,適于在所述電話區(qū)號與所述通訊特征信息匹配時,提高具有所述通訊特征信息的搜索結果的權重。
[0245]在本發(fā)明的一種可選實施例中,所述裝置還可以包括如下模塊:
[0246]排序模塊,適于按照所述權重對所述一個或多個搜索結果項進行順序排序;
[0247]返回模塊,適于將順序排序后的搜索結果返回客戶端進行展示。
[0248]在本發(fā)明的一種可選實施例中,所述搜索結果項可以包括網頁摘要信息,所述網頁摘要信息可以包括所述通訊特征信息在網頁中出現(xiàn)的位置對應的網頁信息。
[0249]在本發(fā)明的一種可選實施例中,所述裝置還可以包括如下模塊:
[0250]文檔索引建立模塊,適于建立文檔索引。
[0251]在本發(fā)明的一種可選實施例中,所述文檔索引建立模塊還可以適于:
[0252]提取網頁中的文本信息;
[0253]判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;
[0254]采用所述通訊特征信息和所述網頁建立文檔索引。
[0255]在本發(fā)明實施例的一種可選示例中,所述網頁可以包括頁面標題、網頁標識、頁眉、頁腳、導航、主體內容中的至少一個區(qū)域;
[0256]所述文檔索引建立模塊還可以適于:
[0257]提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
[0258]在本發(fā)明的一種可選實施例中,所述通訊特征信息可以包括指定位數(shù)的電話號碼;所述文檔索引建立模塊還可以適于:
[0259]對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
[0260]當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
[0261]若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
[0262]在本發(fā)明的一種可選實施例中,所述通訊特征信息還可以包括電話區(qū)號;所述文檔索引建立模塊還可以適于:
[0263]判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
[0264]在本發(fā)明實施例的一種可選示例中,所述文檔索引建立模塊還可以適于:
[0265]判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
[0266]或者,
[0267]判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
[0268]在本發(fā)明實施例的一種可選示例中,所述指定位數(shù)可以為7位或8位。
[0269]在本發(fā)明的一種可選實施例中,所述文檔索引建立模塊還可以適于:
[0270]記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置;
[0271]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0272]對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0273]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0274]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0275]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0276]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0277]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0278]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據本發(fā)明實施例的文檔索引的建立設備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0279]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權利要求】
1.一種文檔索引的建立方法,包括: 提取網頁中的文本信息; 判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息; 采用所述通訊特征信息和所述網頁建立文檔索引。
2.如權利要求1所述的方法,其特征在于,所述網頁包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域; 所述提取網頁中的文本信息的步驟包括: 提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
3.如權利要求1-2任一項所述的方法,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號碼; 所述判斷所述文本信息中是否具有通訊特征信息的步驟包括: 對所述文本信息進行分詞處理,獲得一個或多個文本分詞; 當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
4.如權利要求1-3任一項所述的方法,其特征在于,所述通訊特征信息還包括電話區(qū)號; 所述判斷所述文本信息中是否具有通訊特征信息的步驟還包括: 判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
5.如權利要去1-4任一項所述的方法,其特征在于,所述判斷所述目標文本分詞對應的文本分詞為區(qū)號信息的步驟包括: 判斷所述目標文本分詞包含的文本分詞為電話區(qū)號; 或者, 判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
6.如權利要求1-5任一項所述的方法,其特征在于,所述指定位數(shù)為7位或8位。
7.如權利要求1-6任一項所述的方法,其特征在于,所述采用所述通訊特征信息和所述網頁建立文檔索引的步驟包括: 記錄出現(xiàn)的所述通訊特征信息在所述網頁中出現(xiàn)的位置; 將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
8.一種文檔索引的建立裝置,包括: 第一提取模塊,適于提取網頁中的文本信息; 判斷模塊,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調用第二提取模塊; 第二提取模塊,適于提取所述通訊特征信息; 建立模塊,適于采用所述通訊特征信息和所述網頁建立文檔索引。
9.如權利要求8所述的裝置,其特征在于,所述網頁包括頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域; 所述第一提取模塊還適于: 提取網頁中頁面標題、頁眉、頁腳、主體內容、功能區(qū)、導航區(qū)中的至少一個區(qū)域的文本信息。
10.如權利要求8-9任一項所述的裝置,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號碼;所述判斷模塊還適于: 對所述文本信息進行分詞處理,獲得一個或多個文本分詞; 當所述文本分詞與預設的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
【文檔編號】G06F17/30GK104504069SQ201410806931
【公開日】2015年4月8日 申請日期:2014年12月22日 優(yōu)先權日:2014年12月22日
【發(fā)明者】王翀, 陳進平 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司