從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和設(shè)備的制作方法

文檔序號(hào)：6440188閱讀：409來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。
背景技術(shù)：
隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展，對(duì)從網(wǎng)絡(luò)資源中查找有用信息的需求也越來越大。產(chǎn)品的評(píng)論、排序以及描述類的頁面在因特網(wǎng)上大量存在。在很多情況下(產(chǎn)品調(diào)查、市場(chǎng)分析以及策略制定)，希望為某種特定主題找到精確的相關(guān)產(chǎn)品名稱，如自動(dòng)在線找到一個(gè)分類的所有結(jié)果。這樣的名稱在網(wǎng)上大規(guī)模存在且動(dòng)態(tài)變化。從人的角度出發(fā)，從網(wǎng)頁中識(shí)別并分類這些名稱不是一個(gè)大的問題，但是非常費(fèi)時(shí)間。此外，搜索名稱的用戶通常希望了解產(chǎn)品排序信息，如哪種產(chǎn)品最為流行。如果產(chǎn)品名稱能夠自動(dòng)被找到并排序，對(duì)用戶來說是非常有用的。另一方面，這些名稱對(duì)后續(xù)處理也非常有用，所述后續(xù)處理例如包括特征抽取以及整合等。然而問題在于:網(wǎng)頁是一種半結(jié)構(gòu)化的數(shù)據(jù)，包括了許多無關(guān)信息，以致于非常難以被機(jī)器讀懂及分析。在與根據(jù)主題詞搜索名稱相關(guān)的技術(shù)領(lǐng)域，已經(jīng)取得一定進(jìn)展。專利文件I (Patent US7065483 B2, Computer method and apparatus forextracting data from web pages, Zoom inf0.)公開了從網(wǎng)頁中抽取數(shù)據(jù)的計(jì)算方法和裝置。該專利文件I提供了一種從網(wǎng)頁中抽取數(shù)據(jù)的方法，該方法包括:i)使用自然語言處理方法從給定網(wǎng)頁找到可能的正式名稱；ii)使用模式匹配來搜索給定網(wǎng)頁中沒有被步驟i所發(fā)現(xiàn)的正式名稱；iii)合并及精練上述名稱集，以從給定網(wǎng)頁中產(chǎn)生人名和組織名。專利文件I使用語法詞法分析更適用于語法結(jié)構(gòu)比較好的純文本，而不合適網(wǎng)頁中的產(chǎn)品名稱等短詞結(jié)構(gòu)；同時(shí)，使用模式匹配的方法也將面臨網(wǎng)頁語言結(jié)構(gòu)的問題。專利文件2 (Patent US2007/0078850 Al, Commercial web data extractionsystem, Microsoft.)公開了一種商業(yè)網(wǎng)絡(luò)數(shù)據(jù)抽取系統(tǒng)。該系統(tǒng)基于實(shí)體抽取器來自動(dòng)抽取產(chǎn)品信息元素。一些相關(guān)的信息元素能夠被特定的分類中的公用名稱標(biāo)識(shí)，如某些知名的商標(biāo)名。另一些信息元素可以通過訓(xùn)練實(shí)體抽取器來標(biāo)識(shí)。首先，一個(gè)訓(xùn)練文檔集會(huì)被人為查閱，并識(shí)別不同各類的產(chǎn)品數(shù)據(jù)。這些訓(xùn)練文檔被用來優(yōu)化實(shí)體抽取器的參數(shù)，以使之正確抽取不同的信息元素，如商標(biāo)、價(jià)格、圖像以及投票等。專利文件2使用特定分類中的通用關(guān)鍵詞，如名商標(biāo)等，對(duì)未登錄產(chǎn)品不能夠很好的支持，同時(shí)，對(duì)不同的產(chǎn)品數(shù)據(jù)類型進(jìn)行標(biāo)注需要耗費(fèi)大量的時(shí)間。非專利文件I (在網(wǎng)絡(luò)數(shù)據(jù)抽取中的同步記錄識(shí)別及屬性標(biāo)注(Jun Zhu,ZaiqingNie, J1-Rong Wen, Simultaneous Record Detection and Attribute Labelling in WebData Extraction, Proceedings of the 12th ACM SIGKDD，494-503，2006.))提出名稱為多層條件隨機(jī)域的模型，其能夠通過學(xué)習(xí)重要性來有效的集成所有有用的信息，并且可以結(jié)合層次的互相作用，來進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)抽取。該論文描述的是一種機(jī)器學(xué)習(xí)的方法，上述特征被用來訓(xùn)練以人為標(biāo)注，和其它的特征起一樣的作用，并需要手動(dòng)識(shí)別。
非專利文件2 (WebSeer:—種基于因特網(wǎng)的圖像搜索系統(tǒng)(Charles F., MichaelJ.S., and Vassilis A., WebSeer:An Image Search Engine for the World Wide Web,Technical Report 96-14 in the Univ.0f Chicago, August 1，1996.))描述了如何從網(wǎng)絡(luò)中找到圖像，在文本和HTML源碼中有相關(guān)的線索。了解網(wǎng)頁的結(jié)構(gòu)有助于獲取有價(jià)值的有關(guān)于圖像的信息。存在于多個(gè)地方的圖像相關(guān)信息有可能在該文檔內(nèi):圖像文本名，標(biāo)題，alt文本，HTML標(biāo)題以及超鏈接。該非專利文件2的目的在于，描述一種如何構(gòu)建基于文本的圖像搜索系統(tǒng)，并使用相關(guān)特征來找到圖像。

發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題而做出本發(fā)明。本發(fā)明總體上涉及與信息處理和信息抽取相關(guān)技術(shù)，提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。本發(fā)明的目的是提供一種對(duì)針對(duì)特定主題，從網(wǎng)頁中找到并排序名稱的方法和設(shè)備。通常，名稱由幾個(gè)字組成，用來標(biāo)識(shí)一個(gè)對(duì)象，如產(chǎn)品名“Ricoh CX3”;而主題詞通?？梢詫?duì)應(yīng)一個(gè)對(duì)象分類，例如“數(shù)碼相機(jī)”或“digital camera”。因此，本發(fā)明實(shí)施例的目的可以說是:針對(duì)特定分類，找到相關(guān)名稱。針對(duì)異構(gòu)的網(wǎng)頁，本發(fā)明實(shí)施例能夠達(dá)成以下目標(biāo):針對(duì)特定主題找到包括產(chǎn)品名的網(wǎng)頁；從這些找到的網(wǎng)頁中抽取名稱；針對(duì)給定的主題來對(duì)名稱進(jìn)行排序。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面，提出了一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法，包括:網(wǎng)頁查找步驟，在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取步驟，根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取步驟，將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定步驟，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾步驟，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序步驟，計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面，提出了一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備，包括:網(wǎng)頁查找裝置，在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取裝置，根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取裝置，將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定裝置，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾裝置，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序裝置，計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。通過實(shí)施本發(fā)明實(shí)施例，能夠找到從網(wǎng)上為特定主題查找與特定主題相關(guān)的名稱并進(jìn)行排序，可以作為構(gòu)建對(duì)象庫的準(zhǔn)備工作。由于往往精度比召回率更重要，因此本發(fā)明實(shí)施例側(cè)重于找到合適的名稱，而不是所有的名稱。而且，本發(fā)明實(shí)施例的技術(shù)手段是全自動(dòng)的而且不需要用戶具有相關(guān)技術(shù)領(lǐng)域的知識(shí)。通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述，將更好地理解本發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點(diǎn)和技術(shù)及工業(yè)重要性。

圖1示出了實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的示例應(yīng)用。圖2示意性地示出實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的應(yīng)用。圖3示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法的總體流程圖。圖4示意性地示出按照本發(fā)明實(shí)施例的網(wǎng)頁查找步驟SlOO的流程圖。圖5示意性地示出按照本發(fā)明實(shí)施例的候選名稱第一提取步驟S200的流程圖。圖6包括圖6A至圖6C，示出圖像節(jié)點(diǎn)的一個(gè)例子，其中，圖6A示出圖像節(jié)點(diǎn)的網(wǎng)頁部分，包括可見的可視化的布局；圖68示出該部分網(wǎng)頁的HTML代碼；圖6(:示意地示出一種結(jié)構(gòu)化的圖像節(jié)點(diǎn)。圖7包括圖7A至圖7C，分別示出了網(wǎng)頁的圖像節(jié)點(diǎn)的屬性值包含圖像名稱的示例，其中，圖7A中所示的矩形框示出從“alt”屬性值中提取初步的圖像名稱；圖7B中所示的矩形框示出從“src”屬性值中提取初步的圖像名稱；圖7C中所示的矩形框示出從“href”屬性值中提取初步的圖像名稱。圖8示意性地示出圖像節(jié)點(diǎn)與附近節(jié)點(diǎn)的關(guān)系。圖9包括圖9A至圖9C，示意性地示出圖像名稱查找步驟S230及圖像名稱驗(yàn)證步驟S240實(shí)施過程，其中，圖9A中的矩形框示出在網(wǎng)頁的HTML源代碼中從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱；圖9B表示把以圖像節(jié)點(diǎn)為中心、一定窗口范圍內(nèi)的節(jié)點(diǎn)相關(guān)的樹狀的源代碼轉(zhuǎn)換成的序列；圖9C示出在圖像節(jié)點(diǎn)中找到的圖像名稱及在周邊節(jié)點(diǎn)的文本中找到的匹配的文本。圖10包括圖1OA至圖10C，分別示出對(duì)比信息的網(wǎng)頁展示實(shí)例。圖11示意性地示出對(duì)節(jié)點(diǎn)編碼的一種方式。圖12包括圖12A至圖12C，示出了對(duì)節(jié)點(diǎn)編碼的一個(gè)示例，其中，圖12A示出某個(gè)網(wǎng)頁的HTML源代碼；圖12B中示出按標(biāo)簽分類得到的各個(gè)節(jié)點(diǎn)的類型數(shù)字及各個(gè)節(jié)點(diǎn)相應(yīng)的深度代碼；圖12C中示出各個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的類型數(shù)字和深度代碼及所得的網(wǎng)頁的DOM樹的代碼序列。圖13包括圖13A和圖13B，示出了在代碼序列中查找重復(fù)子序列的一個(gè)示例，其中，圖13A示出了某個(gè)網(wǎng)頁的DOM樹的代碼序列；圖13B示出從該代碼序列中提取出的重復(fù)子序列。
圖14示意性地表示了按照本發(fā)明實(shí)施例的單頁候選名稱確定步驟S400的流程圖。圖15包括圖15A和圖15B，示出通過候選名稱之間相似度去除候選名稱的示例，其中，圖15A示出多個(gè)候選名稱的示例列表；圖15B示出經(jīng)過相似度過濾而保留的候選名稱。圖16示出通過主題過濾去除候選名稱的示例。圖17示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備的總體框圖。圖18是示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)的總體框圖。
具體實(shí)施例方式下面結(jié)合附圖描述本發(fā)明實(shí)施例。圖1示出了實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的示例應(yīng)用。如圖1所示，如果在矩形框Ql所示的區(qū)域輸入要查詢的主題詞“digitalcamera”，則通過實(shí)施本發(fā)明實(shí)施例，能夠查找到相關(guān)的產(chǎn)品名稱，在排序后，在諸如矩形框Q2所示的區(qū)域輸出。圖2示意性地示出實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的應(yīng)用。輸入為主題，也就是分類名，本發(fā)明實(shí)施例實(shí)施查找相關(guān)名稱的處理，從例如因特網(wǎng)獲取網(wǎng)頁，并找到相關(guān)名稱，輸出排序后的名稱I至名稱η。圖3示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法的總體流程圖。如圖3所示，從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法可以包括:網(wǎng)頁查找步驟S100，可以在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取步驟S200，根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取步驟S300，將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定步驟S400，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾步驟S500，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序步驟S600，計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。圖4示意性地示出按照本發(fā)明實(shí)施例的網(wǎng)頁查找步驟SlOO的流程圖。如圖4所示，網(wǎng)頁查找步驟SlOO可以包括:主題詞擴(kuò)展步驟S110，可以根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~；網(wǎng)頁搜索步驟S120，可以利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁；網(wǎng)頁過濾步驟S130，可以根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁；解析步驟S140，可以將通過所述網(wǎng)頁過濾步驟的過濾的網(wǎng)頁解析為DOM樹；節(jié)點(diǎn)過濾步驟S150，可以根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。在網(wǎng)頁查找步驟S100，獲取特定主題的網(wǎng)頁并為后續(xù)步驟生成輸入樹。在后續(xù)處理中，可以將分類作為主題的一種實(shí)現(xiàn)方式。在主題詞擴(kuò)展步驟S110，可以把輸入的分類通過以下兩種方式擴(kuò)展。
主題詞擴(kuò)展方式1:針對(duì)給定的一個(gè)主題，推薦相關(guān)的概念的子概念，表達(dá)所給主題的不同方面。如，給定一個(gè)主題詞“相機(jī)”，則可以推薦“數(shù)碼相機(jī)”、“單反機(jī)”、“白平衡”、“圖像處理”等。這些推薦值可以來自經(jīng)驗(yàn)?zāi)０濉⒆值?、維基百科、以及已有搜索引擎等等。主題詞擴(kuò)展方式2:針對(duì)給定的一個(gè)主題，以某些特定的模板來擴(kuò)展。如，給定一個(gè)主題詞“相機(jī)”，則推薦“最好的相機(jī)”、“相機(jī)比較”、“相機(jī)排序”、“相機(jī)評(píng)論”等。這些模板可以事先給定。經(jīng)過對(duì)輸入主題的擴(kuò)展后，在網(wǎng)頁搜索步驟S120，可以通過兩種方式找到相關(guān)的網(wǎng)頁，或者說網(wǎng)頁的URL(統(tǒng)一資源定位符，Uniform/Universal Resource Locator)。方式1:通過已有的搜索引擎得到相關(guān)URL，如BingAPI，G00gleAPI等；以方式I操作，除URL外，還能得到標(biāo)題、簡(jiǎn)短描述等。方式2:列出一些種子網(wǎng)站，然后通過爬蟲(crawler)來找到相關(guān)網(wǎng)頁，然后對(duì)網(wǎng)頁進(jìn)行索引，并與輸入主題來匹配以找到相關(guān)URL。在得到與主題詞相關(guān)的URL之后，在網(wǎng)頁過濾步驟S130，對(duì)這些URL來進(jìn)行過濾的規(guī)則例如:根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞，如果主題詞經(jīng)擴(kuò)展后的所有查詢字在該網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述中都沒有出現(xiàn)，則排除之，未被排除的可以作為候選URL。當(dāng)候選URL都獲取后，在解析步驟S140，網(wǎng)頁的內(nèi)容即被下載并由一些工具解析成DOM樹。在此可以采用的工具包括:org.apache.commons, httpclient ；org.cybernek0.html.parsers.DOMParser 等等。在此，介紹“節(jié)點(diǎn)”概念。節(jié)點(diǎn)是一棵DOM樹中的一個(gè)結(jié)構(gòu)單元，由一些成員構(gòu)成。基本上，原始的節(jié)點(diǎn)內(nèi)容來自于HTML DOM樹，有些內(nèi)容可能會(huì)被刪除，有時(shí)則可能被一些計(jì)算過的結(jié)果所補(bǔ)充。名稱可以是DOM樹中的某些文本節(jié)點(diǎn)。在節(jié)點(diǎn)過濾步驟S150，從復(fù)雜的HTML中獲取簡(jiǎn)化的樹，其中保留了必要的結(jié)果。對(duì)候選網(wǎng)頁的HTML的DOM樹的節(jié)點(diǎn)進(jìn)行過濾的規(guī)則例如可以定義如下。過濾DOM樹的節(jié)點(diǎn)的實(shí)例可以由以下規(guī)則構(gòu)成。1.去除規(guī)則:標(biāo)簽集中的特定節(jié)點(diǎn)，如SCRIPT, #comment等,這個(gè)集合可以來自根據(jù)經(jīng)驗(yàn)指定的配置文件；沒有值的文本節(jié)點(diǎn)；有值的文本節(jié)點(diǎn)，但是值的長(zhǎng)度過長(zhǎng)；與時(shí)間相關(guān)的節(jié)點(diǎn)。滿足去除規(guī)則的節(jié)點(diǎn)將被過濾掉。經(jīng)過上述規(guī)則過濾后，剩余節(jié)點(diǎn)的以下內(nèi)容子項(xiàng)將被保留，其它的子項(xiàng)則去除:2.保留項(xiàng):節(jié)點(diǎn)名稱(標(biāo)簽名)；每個(gè)節(jié)點(diǎn)的“id”屬性，如果有的話；文本節(jié)點(diǎn)的值；圖像節(jié)點(diǎn)，包括它的值和圖像url ;鏈接節(jié)點(diǎn)的完整鏈接地址。
符合上述保留項(xiàng)的節(jié)點(diǎn)將被保留。經(jīng)過此節(jié)點(diǎn)過濾步驟S150后，每個(gè)網(wǎng)頁變成了相應(yīng)的一棵DOM樹，并可以視為后續(xù)步驟的輸入。圖5示意性地示出按照本發(fā)明實(shí)施例的候選名稱第一提取步驟S200的流程圖。如圖5所示，候選名稱第一提取步驟S200可以包括:圖像節(jié)點(diǎn)查找步驟S210，可以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn)；圖像節(jié)點(diǎn)過濾步驟S220，可以在所述圖像節(jié)點(diǎn)中，根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn)；圖像名稱查找步驟S230，可以針對(duì)通過所述圖像節(jié)點(diǎn)過濾步驟的過濾的圖像節(jié)點(diǎn)，在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱；圖像名稱驗(yàn)證步驟S240，可以在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中，查找與該圖像名稱匹配的文本，過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱，通過過濾的圖像名稱構(gòu)成候選名稱第一集合。通常，相對(duì)于文本，在網(wǎng)頁上的圖像展示了更豐富和相對(duì)重要的信息。并且，圖像更擅長(zhǎng)表示有物理形狀的對(duì)象或具體事件。如果目標(biāo)是找到例如產(chǎn)品對(duì)象的名稱，根據(jù)經(jīng)驗(yàn)，在網(wǎng)絡(luò)上這類目標(biāo)更容易且更廣泛的通過圖像描述。因此，可以將圖像節(jié)點(diǎn)作為名稱發(fā)現(xiàn)的重要線索。“圖像線索”對(duì)名稱發(fā)現(xiàn)來說，意味著一種暗示或者入口。如前文描述，一個(gè)網(wǎng)頁可以有非常多的節(jié)點(diǎn)，如果將所有節(jié)點(diǎn)一視同仁來處理，對(duì)名稱發(fā)現(xiàn)來說，會(huì)非常困難且費(fèi)時(shí)。而且，目的是找到合適正確的名稱而并非所有名稱。一些圖像展示了物理對(duì)象而且以文本的方式描述了它的名稱。如果將這些圖像及其相關(guān)的信息作為名稱發(fā)現(xiàn)的入口，則對(duì)后續(xù)處理將會(huì)非常有效。網(wǎng)頁上的圖像節(jié)點(diǎn)的結(jié)構(gòu)包括:可視圖像、節(jié)點(diǎn)名稱以及它的相關(guān)屬性。圖6包括圖6A至圖6C，示出圖像節(jié)點(diǎn)的一個(gè)例子。圖6A示出圖像節(jié)點(diǎn)的網(wǎng)頁部分，其中包括可見的可視化的布局。圖6B示出該部分網(wǎng)頁的HTML代碼。圖6C示意性地示出一種結(jié)構(gòu)化的圖像節(jié)點(diǎn)，其中的“圖像名稱”是圖像線索，在圖6C所示的結(jié)構(gòu)中，“IMG”節(jié)點(diǎn)”和相關(guān)的“屬性”可以通過HTML語法標(biāo)簽得到。首先，在圖像節(jié)點(diǎn)查找步驟S210，所有的圖像節(jié)點(diǎn)可以通過“ MG ”標(biāo)簽名稱找到。例如，在圖6B所示的該節(jié)點(diǎn)的HTML代碼中，包括包含“MG”字符串的標(biāo)簽，因此，可以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn)。在圖像節(jié)點(diǎn)查找步驟S210查找到的圖像節(jié)點(diǎn)包括很多噪聲節(jié)點(diǎn)，因此，在圖像節(jié)點(diǎn)過濾步驟S220，可以用包括以下3種方式的手段來過濾掉這些不可能與主題詞有關(guān)的圖像節(jié)點(diǎn)。方式1:通過頁面布局視覺信息。如果某圖像節(jié)點(diǎn)位于頁面的頂、底、靠左、靠右，則可以過濾掉。方式2:通過序列化節(jié)點(diǎn)的位置。在DOM樹中的所有節(jié)點(diǎn)可以轉(zhuǎn)換成有順序的節(jié)點(diǎn)，如果該圖像節(jié)點(diǎn)在此序列中的位置太靠前或靠后(超過根據(jù)經(jīng)驗(yàn)設(shè)置的閾值)，則可以過濾掉。方式3:通過特殊的節(jié)點(diǎn)集合。如果某圖像節(jié)點(diǎn)在DOM樹中所屬的祖先節(jié)點(diǎn)屬于某個(gè)預(yù)先定義集合中的節(jié)點(diǎn)標(biāo)簽，則可以過濾掉。這個(gè)預(yù)定標(biāo)簽集合可以通過經(jīng)驗(yàn)預(yù)先設(shè)定，上述節(jié)點(diǎn)標(biāo)簽例如可以包括:“ads”, “bar”, “nav”, “header”，“footer”, “copyright”坐坐寸寸O通過圖像節(jié)點(diǎn)過濾步驟S220的過濾，在圖像名稱查找步驟S230，在通過過濾的圖像節(jié)點(diǎn)中發(fā)現(xiàn)圖像名稱。圖7包括圖7A至圖7C，分別示出了網(wǎng)頁的圖像節(jié)點(diǎn)的屬性值包含圖像名稱的不例。基本上，可以從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱，這些特定屬性值例如可以是:“alt”、“title，，、“Src” 及 “href，，。如果發(fā)現(xiàn)這些屬性值存在，將通過以下規(guī)則逐一驗(yàn)證圖像名稱是否存在其中，并初步獲得圖像名稱?？梢圆捎玫囊?guī)則例如是:按照“&1儼、1^16”、“81^”、“1^^”的順序，依次在屬性值中查找，如果在在先的屬性值中找到，則退出查找而不在其后的屬性值中查找；如果屬性是href，則得到用“\”分隔的最后一段文本；使用根據(jù)經(jīng)驗(yàn)的一個(gè)長(zhǎng)度區(qū)域來過濾，過長(zhǎng)或過短的將被過濾掉；去除一些特殊符號(hào)，如“_，，，“::”等等;如果該屬性值沒有任何字母或文字，或全部為數(shù)字或符號(hào)，則過濾掉；采用預(yù)先定義的常用詞字典(S卩，僅針對(duì)大眾的普通語言，而不包括專有名詞)來進(jìn)行檢驗(yàn)，如果所有字或詞都能從這個(gè)常用字典找到，則意味著沒有未知或?qū)Ｓ忻Q，不符合名稱的特點(diǎn)，可以過濾掉。圖7A中所示的矩形框示出從“alt”屬性值中提取初步的圖像名稱；圖7B中所示的矩形框示出從“src”屬性值中提取初步的圖像名稱；圖7C中所示的矩形框示出從“href”屬性值中提取初步的圖像名稱。在圖像名稱驗(yàn)證步驟S240，將所提取的初步的圖像名稱與周邊文本匹配，所謂周邊文本即該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中的文本，圖像節(jié)點(diǎn)的所謂“周邊”指的是該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)。在圖像名稱查找步驟S230查找到多個(gè)合適的圖像名稱，這些圖像名稱中也可能存在某些噪聲詞，因此在圖像名稱驗(yàn)證步驟S240用這些圖像名稱進(jìn)行與周圍文本元素的匹配，來進(jìn)一步驗(yàn)證圖像名稱。圖8示意性地示出圖像節(jié)點(diǎn)與附近節(jié)點(diǎn)的關(guān)系。如圖8所示，包含待處理的圖像名稱的圖像節(jié)點(diǎn)視為中心節(jié)點(diǎn)，如圖8中的節(jié)點(diǎn)i，以此為中心一定范圍的窗口內(nèi)的節(jié)點(diǎn)會(huì)被選中，如圖8所示，窗口包含從第(1-n)節(jié)點(diǎn)到第(i+n)節(jié)點(diǎn)。然后，將該圖像名稱與這些窗口內(nèi)節(jié)點(diǎn)的文本進(jìn)行匹配，以得到最相似的文本。如果能夠找到最相似的文本，則該圖像節(jié)點(diǎn)保留而構(gòu)成候選名稱第一集合；否則，如果沒找至IJ，則去除掉該圖像名稱。圖像節(jié)點(diǎn)的圖像名稱與周邊節(jié)點(diǎn)的文本的相似度可以通過以下公式(I)計(jì)算sim(eimg, etxt) = | {wk| wk e WiSmk e wj | /(log(| eimg|) +log(| etxt )) (I)其中，變量eimg代表圖像節(jié)點(diǎn)的圖像名稱，變量etxt代表周邊節(jié)點(diǎn)的文本，sim(eimg，etxt)是圖像名稱與文本的相似程度，作為相似度的分值；I {wk|wk e wi&wk e WtI表示既屬于圖像名稱Wi又屬于周邊節(jié)點(diǎn)文本W(wǎng)t的詞Wk的個(gè)數(shù)，Wi表示圖像名稱的字符集合，Wt表示周邊節(jié)點(diǎn)文本的字符集合，log(IeimgI)圖像名稱長(zhǎng)度，log(Ietxt I)表示文本長(zhǎng)度，其和表示圖像名稱和文本的總長(zhǎng)度。所求出的相似度的分值如果大于某個(gè)預(yù)設(shè)值，則表示該圖像名稱可以保留，否則則去除掉。圖9包括圖9A至圖9C，示意性地示出圖像名稱查找步驟S230及圖像名稱驗(yàn)證步驟S240實(shí)施過程。圖9A中的矩形框示出，通過圖像名稱查找步驟S230，在網(wǎng)頁的HTML源代碼中，從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱。圖9B表示，在圖像名稱驗(yàn)證步驟S240中，把以圖像節(jié)點(diǎn)為中心、一定窗口范圍內(nèi)的節(jié)點(diǎn)相關(guān)的樹狀的源代碼轉(zhuǎn)換成的序列。圖9C中所示的矩形框Q3指示圖像名稱查找步驟S230在圖像節(jié)點(diǎn)中找到的圖像名稱，矩形框Q4指示圖像名稱驗(yàn)證步驟S240在周邊節(jié)點(diǎn)的文本中找到的匹配的文本。此圖像名稱可以通過過濾而保留構(gòu)成候選名稱第一集合。通常，含有對(duì)比信息的名稱相對(duì)孤立存在的名稱而言，更為權(quán)威一些。圖10包括圖1OA至圖10C，分別示出對(duì)比信息的網(wǎng)頁展示實(shí)例。在候選名稱第二提取步驟S300，以對(duì)比信息的特點(diǎn)來在該網(wǎng)頁的候選名稱第一集合中進(jìn)行進(jìn)一步的篩選，以找到對(duì)比信息為目的，提取出候選名稱第二集合。在候選名稱第二提取步驟S300中，可以根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度，來對(duì)節(jié)點(diǎn)編碼，該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。圖11示意性地示出對(duì)節(jié)點(diǎn)編碼的一種方式。如圖11所示，在網(wǎng)頁的HTML的DOM樹中，各個(gè)節(jié)點(diǎn)根據(jù)其HTML標(biāo)簽名稱而被賦予一個(gè)類型數(shù)字，如標(biāo)簽“TABLE”的節(jié)點(diǎn)賦值為0，標(biāo)簽“TR”的節(jié)點(diǎn)賦值為1，標(biāo)簽“TD”的節(jié)點(diǎn)賦值為2等等。另外，每個(gè)節(jié)點(diǎn)有一個(gè)相應(yīng)的到根節(jié)點(diǎn)的深度。以先序遍歷的方式，依次記錄樹中各個(gè)節(jié)點(diǎn)的類型數(shù)字和深度，則可以構(gòu)成一個(gè)序列。圖12包括圖12A至圖12C，示出了對(duì)節(jié)點(diǎn)編碼的一個(gè)示例。圖12A示出某個(gè)網(wǎng)頁的HTML源代碼。在圖12B中，矩形框A表示按TAG(標(biāo)簽)分類得到的各個(gè)節(jié)點(diǎn)的類型數(shù)字，矩形框B表示各個(gè)節(jié)點(diǎn)相應(yīng)的深度代碼。在圖12C中，矩形框C中的兩列分別表示來自矩形框A和矩形框B的各個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的類型數(shù)字和深度代碼，矩形框D表示將兩列合并成單一序列后的代碼序列，即所得的網(wǎng)頁的DOM樹的代碼序列。在候選名稱第二提取步驟S300中，然后，可以利用后綴數(shù)組算法，根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。在DOM樹轉(zhuǎn)換得到的代碼序列中，可以發(fā)現(xiàn)含有對(duì)比名稱的區(qū)塊有一些格式上的規(guī)律，即，這些對(duì)比名稱存在于重復(fù)子序列中。使用后綴數(shù)組算法可以查找重復(fù)子序列，最常用的構(gòu)建后綴數(shù)組的方法是使用高效率的比較排序算法，基于該比較排序算法，如果網(wǎng)頁中存在對(duì)比信息，則在DOM樹的序列中可以得到多個(gè)重復(fù)的子序列，并且還可以同時(shí)得到其重復(fù)長(zhǎng)度和頻率。圖13包括圖13A和圖13B，示出了在代碼序列中查找重復(fù)子序列的一個(gè)示例。圖13A示出了某個(gè)網(wǎng)頁的DOM樹的代碼序列；圖13B的矩形框E和矩形框F示出了從該代碼序列中提取出的重復(fù)子序列。在候選名稱第二提取步驟S300中，還可以根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值，確定分值最大的重復(fù)子序列，判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān)，相關(guān)的候選名稱構(gòu)成候選名稱第二集合。對(duì)于每個(gè)重復(fù)子序列，可以設(shè)定一個(gè)經(jīng)驗(yàn)權(quán)重(如0.4和0.6)來例如通過以下公式(2)計(jì)算該重復(fù)子序列的分值:
V = ω LLength+ ω FFreq(2)其中，V為重復(fù)子序列的分值，Length是重復(fù)子序列的長(zhǎng)度，是重復(fù)子序列長(zhǎng)度的權(quán)重，F(xiàn)req是其出現(xiàn)的頻率，即該重復(fù)子序列出現(xiàn)的次數(shù)，ωF是重復(fù)子序列頻率的權(quán)重，且 = 1.0。從所有發(fā)現(xiàn)的重復(fù)子序列中，利用上述處理可以發(fā)現(xiàn)分值排在首位的最大重復(fù)子序列。如果之前操作得到的候選名稱第一集合中的候選名稱出現(xiàn)在分值最高的該最大重復(fù)子序列中，則被保留而構(gòu)成候選名稱第二集合。經(jīng)過候選名稱第一提取步驟S200和候選名稱第二提取步驟S300之后，候選名稱在文字上仍然可能包含名稱之外的一些噪聲，因此，在隨后的單頁候選名稱確定步驟S400，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該單個(gè)網(wǎng)頁的正式的候選名稱。圖14示意性地表示了按照本發(fā)明實(shí)施例的單頁候選名稱確定步驟S400的流程圖。如圖14所示，單頁候選名稱確定步驟S400可以包括:名稱去除步驟S410，可以去除屬于預(yù)定集合的候選名稱；模板過濾步驟S420，可以把通過名稱去除步驟的候選名稱代入預(yù)定模板，去除與任何預(yù)定模板不相匹配的候選名稱；長(zhǎng)度過濾步驟S430，可以針對(duì)通過模板過濾的候選名稱，去除其長(zhǎng)度在預(yù)定閾值以外的部分，經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。作為準(zhǔn)備，找到作為“候選名稱”而輸入的字符串(輸入?yún)^(qū)塊)中實(shí)質(zhì)內(nèi)容(確實(shí)可能是“名稱”的內(nèi)容)的起始位置。具體地，首先明確為字母或漢字的第一個(gè)字符。例如，如果待處理的候選名稱為“I) =Ricoh CX3…”，則該起始位置確定為3(從O開始計(jì)數(shù))，字符為“R”。在名稱去除步驟S410，可以根據(jù)作為預(yù)定集合的經(jīng)驗(yàn)集合或字典去除一些符號(hào)或字詞，如，“(”，“in”，“of” 等。然后，通過名稱去除步驟S410的過濾的候選名稱進(jìn)入模板過濾步驟S420，對(duì)這些候選名稱使用一些預(yù)定的規(guī)則模板，保留符合至少一個(gè)預(yù)定模板的候選名稱，過濾掉不與任何一個(gè)預(yù)定模板相匹配的候選名稱。所述預(yù)定模板例如包括但不限于以下正則表達(dá)式:(" (
+ [A-Z]+)+
*")；(" ([A-z]+
+)+ [A-Z]*")；(" (
+ [_] {0，1} [A-z] + [_] {0，1}) +
*〃)；(" ([A-z] + [_] {0，1}
+ [_] {0，1}) + [Α-ζ]*〃)。然后，通過模板過濾步驟S420的過濾的候選名稱進(jìn)入長(zhǎng)度過濾步驟S430。在長(zhǎng)度過濾步驟S430，利用根據(jù)經(jīng)驗(yàn)設(shè)定的閾值去除過長(zhǎng)的字詞部分。例如，候選名稱長(zhǎng)度為
10(由10個(gè)單字組成)，而閾值例如為4，則長(zhǎng)度從5到10的在預(yù)定閾值以外的單字部分將被過濾掉。經(jīng)過長(zhǎng)度過濾步驟S430的候選名稱作為該網(wǎng)頁的候選名稱。經(jīng)過單頁候選名稱確定步驟S400，單個(gè)網(wǎng)頁的與主題詞有關(guān)的候選名稱被提取出。網(wǎng)絡(luò)中的多個(gè)網(wǎng)頁分別經(jīng)過以上的處理，則從多個(gè)網(wǎng)頁分別得到單個(gè)網(wǎng)頁的與主題詞有關(guān)的候選名稱，一起代入隨后的多頁候選名稱過濾步驟S500。對(duì)一個(gè)主題來說，可能有很多名稱會(huì)被找到，但實(shí)際上部分名稱仍然不屬于輸入的主題，因此可以根據(jù)從多個(gè)網(wǎng)頁分別得到搜索結(jié)果，進(jìn)一步將不適合的名稱去除，也可以說多頁候選名稱過濾步驟S500對(duì)單頁候選名稱確定步驟S400的結(jié)果進(jìn)行進(jìn)一步的“精煉”。在多頁候選名稱過濾步驟S500，可以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，計(jì)算各個(gè)候選名稱與其它候選名稱的相似度，去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱，以未被去除的候選名稱作為查詢?cè)~搜索主題詞，去除搜索不到主題詞的候選名稱，其余候選名稱作為與該主題詞相關(guān)的名稱?？梢酝ㄟ^以下方式進(jìn)行上述候選名稱的“精煉”:1.通過相似度過濾；2.通過主題過濾。圖15包括圖15A和圖15B，示出通過候選名稱之間相似度去除候選名稱的示例。圖15A示出多個(gè)候選名稱的示例列表，計(jì)算每個(gè)名稱與其它名稱的相似程度，如果某個(gè)候選名稱中的部分或全部組成字詞不能從其它候選名稱中找到(相似度為0)，或者在其它候選名稱中找到其組成字詞的數(shù)目低于某個(gè)根據(jù)經(jīng)驗(yàn)設(shè)定的預(yù)定閾值，則可以認(rèn)為相似度過低，以致要過濾掉該候選名稱。圖15B示出經(jīng)過相似度過濾而保留的候選名稱，可見，圖15A中序號(hào)為[I]、[2]、[7]、[8]的候選名稱因?yàn)榕c其它候選名稱相似度過低而被去除?？梢詫?duì)通過相似度過濾的候選名稱進(jìn)一步進(jìn)行主題過濾。圖16示出通過主題過濾去除候選名稱的示例。在主題過濾過程中，將候選名稱作為主題詞，通過搜索引擎來進(jìn)行搜索，如果在結(jié)果的標(biāo)題和描述中找不到與真正主題詞相關(guān)的任何信息(如字詞)，則被去除。例如，如圖16所示，以圖15B所列序號(hào)為[4]的候選名稱“best HDTV”作為“主題詞”進(jìn)行反向搜索，在圖16中所示的搜索結(jié)果中未能查找到實(shí)際的主題詞，例如“digital camera”，則該候選名稱“best HDTV”未能通過主題過濾，而被去除。而通過主題過濾的候選名稱則作為與該主題詞相關(guān)的名稱。至此，已經(jīng)獲得了與該主題詞相關(guān)的名稱，最后，在名稱排序步驟S600，根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值，根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。針對(duì)每個(gè)名稱的排序分值計(jì)算至少可以基于以下因子。查詢權(quán)重:根據(jù)經(jīng)驗(yàn)對(duì)擴(kuò)展得到的每個(gè)查詢?cè)~設(shè)定一個(gè)權(quán)重，且此權(quán)重可以視為名稱排序的因子之一，更高的權(quán)重意味著更重要的查詢擴(kuò)展模式。網(wǎng)頁權(quán)重:在通過搜索引擎查詢的過程中，所有網(wǎng)頁有一個(gè)排序位置，這個(gè)位置也可以作為一個(gè)權(quán)重因子。頁內(nèi)位置權(quán)重:對(duì)頁面內(nèi)的對(duì)比名稱而言，其位置作為一個(gè)權(quán)重，越靠前，越重要，權(quán)重越高。內(nèi)容權(quán)重:在名稱查找過程的置信度因子，例如，一個(gè)網(wǎng)頁內(nèi)的對(duì)比名稱的權(quán)重要大于只有一次或個(gè)別零星重復(fù)的名稱。頻率權(quán)重:對(duì)來自所有網(wǎng)頁的名稱計(jì)算其頻率，并作為權(quán)重之一。上述所有的因子會(huì)被合并，進(jìn)行加權(quán)計(jì)算，例如通過以下公式(3)得到某個(gè)名稱的最終分值。ff = kq ω q+kp ω p+k0 ω o+kc ω c+kf ω f (3)其中，W為該名稱的用于排序的分值；kq表示查詢系數(shù)，表示查詢權(quán)重；kp表示網(wǎng)頁系數(shù)，ωρ表示網(wǎng)頁權(quán)重；k。表示頁內(nèi)位置系數(shù)，ω。表示頁內(nèi)位置權(quán)重；k。表示內(nèi)容系數(shù)，ω。表示內(nèi)容權(quán)重；kf表示頻率系數(shù)，和Of表示頻率權(quán)重。各個(gè)系數(shù)保持kq+kp+kJk^kf = 1.0的關(guān)系，各個(gè)系數(shù)可以根據(jù)不同的任務(wù)和領(lǐng)域依經(jīng)驗(yàn)而定。而關(guān)于各個(gè)權(quán)重，其中及ω。由經(jīng)驗(yàn)值設(shè)定，而其它3個(gè)權(quán)重可以由以下公式⑷確定。ωρ = ω。= ω f = log (size/(i+1)+e_l)(4)其中，e為自然常數(shù)，size表示總和，分別地，在網(wǎng)頁權(quán)重ωρ的情況下size表示查詢所得過濾后能夠利用的總共網(wǎng)頁頁數(shù)，i表示獲取該名稱所在網(wǎng)頁在此網(wǎng)頁查詢結(jié)果中的排序位置；在頁內(nèi)位置權(quán)重ω。的情況下size表示在單網(wǎng)頁內(nèi)對(duì)比對(duì)象中的參與對(duì)比的對(duì)象數(shù)目，i表示該名稱在對(duì)比對(duì)象中的排序位置；在頻率權(quán)重的情況下size表示所有名稱的總出現(xiàn)次數(shù)，i表示該名稱出現(xiàn)的總次數(shù)。經(jīng)過上述計(jì)算后，每個(gè)名稱都有一個(gè)分值，根據(jù)這些分值按照由大到小的順序進(jìn)行排序，即可得到一個(gè)主題的相關(guān)名稱的排序結(jié)果，此后可以以任意現(xiàn)有技術(shù)手段輸出。本發(fā)明還可以實(shí)施為一種從網(wǎng) 絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備，可以用來執(zhí)行前述的本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法。圖17示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備的總體框圖。如圖17所示，一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備可以包括:網(wǎng)頁查找裝置100，可以用來執(zhí)行前述網(wǎng)頁查找步驟S100，用以在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取裝置200，可以用來執(zhí)行前述候選名稱第一提取步驟S200，用以根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取裝置300，可以用來執(zhí)行前述候選名稱第二提取步驟S300，用以將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定裝置400，可以用來執(zhí)行前述單頁候選名稱確定步驟S400，用以根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾裝置500，可以用來執(zhí)行前述多頁候選名稱過濾步驟S500，用以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序裝置600，可以用來執(zhí)行前述名稱排序步驟S600，用以計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。所述網(wǎng)頁查找裝置100可以包括:主題詞擴(kuò)展裝置，可以用來執(zhí)行前述主題詞擴(kuò)展步驟S110，用以根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~；網(wǎng)頁搜索裝置，可以用來執(zhí)行前述網(wǎng)頁搜索步驟S120，用以利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁；網(wǎng)頁過濾裝置，可以用來執(zhí)行前述網(wǎng)頁過濾步驟S130，用以根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁；解析裝置，可以用來執(zhí)行前述解析步驟S140，用以將通過所述網(wǎng)頁過濾裝置的過濾的網(wǎng)頁解析為DOM樹；節(jié)點(diǎn)過濾裝置，可以用來執(zhí)行前述節(jié)點(diǎn)過濾步驟S150，用以根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。所述候選名稱第一提取裝置200可以包括:圖像節(jié)點(diǎn)查找裝置，可以用來執(zhí)行前述圖像節(jié)點(diǎn)查找步驟S210，用以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn)；圖像節(jié)點(diǎn)過濾裝置，可以用來執(zhí)行前述圖像節(jié)點(diǎn)過濾步驟S220，用以在所述圖像節(jié)點(diǎn)中，根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn)；圖像名稱查找裝置，可以用來執(zhí)行前述圖像名稱查找步驟S230，用以針對(duì)通過所述圖像節(jié)點(diǎn)過濾裝置的過濾的圖像節(jié)點(diǎn)，在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱；圖像名稱驗(yàn)證裝置，可以用來執(zhí)行前述圖像名稱驗(yàn)證步驟S240，用以在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中，查找與該圖像名稱匹配的文本，過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱，通過過濾的圖像名稱構(gòu)成候選名稱第一集合。所述候選名稱第二提取裝置300可以根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度，來對(duì)節(jié)點(diǎn)編碼，該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。所述候選名稱第二提取裝置300可以利用后綴數(shù)組算法，根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。所述候選名稱第二提取裝置300可以根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值，確定分值最大的重復(fù)子序列，判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān)，相關(guān)的候選名稱構(gòu)成候選名稱第二集合。所述單頁候選名稱確定裝置400可以包括:名稱去除裝置，可以用來執(zhí)行前述名稱去除步驟S410，用以去除屬于預(yù)定集合的候選名稱；模板過濾裝置，可以用來執(zhí)行前述模板過濾步驟S420，用以把通過預(yù)定名稱去除裝置的候選名稱代入預(yù)定模板，去除與任何預(yù)定模板不相匹配的候選名稱；長(zhǎng)度過濾裝置，可以用來執(zhí)行前述長(zhǎng)度過濾步驟S430，用以針對(duì)通過模板過濾的候選名稱，去除其長(zhǎng)度在預(yù)定閾值以外的部分，經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。所述多頁候選名稱過濾裝置500可以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，計(jì)算各個(gè)候選名稱與其它候選名稱的相似度，去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱，以未被去除的候選名稱作為查詢?cè)~搜索主題詞，去除搜索不到主題詞的候選名稱，其余候選名稱作為與該主題詞相關(guān)的名稱。所述名稱排序裝置600可以根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值，根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。本發(fā)明還可以通過一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)來實(shí)施。圖18是示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)1000的總體框圖。如圖18所示，從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)1000可以包括:輸入設(shè)備1100，用于從外部輸入將要處理的關(guān)鍵字，例如可以包括鍵盤、鼠標(biāo)器、以及通信網(wǎng)絡(luò)及其所連接的遠(yuǎn)程輸入設(shè)備等等；處理設(shè)備1200，用于實(shí)施上述的按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法，或者實(shí)施為上述的按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備，例如可以包括計(jì)算機(jī)的中央處理器或其它的具有處理能力的芯片等等，可以連接到諸如因特網(wǎng)的網(wǎng)絡(luò)(未示出)，根據(jù)處理過程的需要而從網(wǎng)絡(luò)獲取數(shù)據(jù)等等；輸出設(shè)備1300，用于向外部輸出實(shí)施上述從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的過程所得的結(jié)果，例如可以包括顯示器、打印機(jī)、以及通信網(wǎng)絡(luò)及其所連接的遠(yuǎn)程輸出設(shè)備等等；以及存儲(chǔ)設(shè)備1400，用于以易失或非易失的方式存儲(chǔ)上述從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的過程所涉及的圖像、所得的結(jié)果、命令、中間數(shù)據(jù)等等，例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、硬盤、或半導(dǎo)體存儲(chǔ)器等等的各種易失或非易失性存儲(chǔ)器。按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法、從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備及從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)，提供了一種從網(wǎng)頁中發(fā)現(xiàn)特定主題的有序?qū)ο竺Q的全自動(dòng)處理技術(shù)，能夠?qū)崿F(xiàn)高效率并且能夠得到可接受的精度。所獲得的名稱可以應(yīng)用于對(duì)象抽取，也可以應(yīng)用于對(duì)象庫的構(gòu)建。本發(fā)明的實(shí)施例易于實(shí)現(xiàn)、快速高效且與領(lǐng)域無關(guān)，例如，可以用于電子產(chǎn)品，汽車，人物等不同的對(duì)象領(lǐng)域。在說明書中說明的一系列操作能夠通過硬件、軟件、或者硬件與軟件的組合來執(zhí)行。當(dāng)由軟件執(zhí)行該一系列操作時(shí)，可以把其中的計(jì)算機(jī)程序安裝到內(nèi)置于專用硬件的計(jì)算機(jī)中的存儲(chǔ)器中，使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序?；蛘?，可以把計(jì)算機(jī)程序安裝到能夠執(zhí)行各種類型的處理的通用計(jì)算機(jī)中，使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序。例如，可以把計(jì)算機(jī)程序預(yù)先存儲(chǔ)到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲(chǔ)器)中?；蛘撸梢耘R時(shí)或者永久地存儲(chǔ)(記錄)計(jì)算機(jī)程序到可移動(dòng)記錄介質(zhì)中，諸如軟盤、⑶-ROM(光盤只讀存儲(chǔ)器)、M0 (磁光)盤、DVD (數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲(chǔ)器?？梢园堰@樣的可移動(dòng)記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實(shí)施例進(jìn)行了詳細(xì)說明。然而，很明顯，在不背離本發(fā)明的精神的情況下，本領(lǐng)域技術(shù)人員能夠?qū)?shí)施例執(zhí)行更改和替換。換句話說，本發(fā)明用說明的形式公開，而不是被限制地解釋。要判斷本發(fā)明的要旨，應(yīng)該考慮所附的權(quán)利要求。
權(quán)利要求
1.一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法，包括: 網(wǎng)頁查找步驟，在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取步驟，根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取步驟，將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定步驟，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾步驟，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序步驟，計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。
2.按照權(quán)利要求1所述的方法，其中，所述網(wǎng)頁查找步驟包括: 主題詞擴(kuò)展步驟，根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~；網(wǎng)頁搜索步驟，利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁；網(wǎng)頁過濾步驟，根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁；解析步驟，將通過所述網(wǎng)頁過濾步驟的過濾的網(wǎng)頁解析為DOM樹；節(jié)點(diǎn)過濾步驟，根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。
3.按照權(quán)利要求1所述的方法，其中，所述候選名稱第一提取步驟包括: 圖像節(jié)點(diǎn)查找步驟，根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)占.圖像節(jié)點(diǎn)過濾步驟，在所述圖像節(jié)點(diǎn)中，根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn)；圖像名稱查找步驟，針對(duì)通過所述圖像節(jié)點(diǎn)過濾步驟的過濾的圖像節(jié)點(diǎn)，在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱；圖像名稱驗(yàn)證步驟，在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中，查找與該圖像名稱匹配的文本，過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱，通過過濾的圖像名稱構(gòu)成候選名稱第一集口 ο
4.按照權(quán)利要求1所述的方法，其中，在所述候選名稱第二提取步驟中，根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度，來對(duì)節(jié)點(diǎn)編碼，該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。
5.按照權(quán)利要求1所述的方法，其中，在所述候選名稱第二提取步驟中，利用后綴數(shù)組算法，根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。
6.按照權(quán)利要求1所述的方法，其中，在所述候選名稱第二提取步驟中，根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值，確定分值最大的重復(fù)子序列，判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān)，相關(guān)的候選名稱構(gòu)成候選名稱第二集合。
7.按照權(quán)利要求1所述的方法，其中，所述單頁候選名稱確定步驟包括: 名稱去除步驟，去除屬于預(yù)定集合的候選名稱；模板過濾步驟，把通過名稱去除步驟的候選名稱代入預(yù)定模板，去除與任何預(yù)定模板不相匹配的候選名稱；長(zhǎng)度過濾步驟，針對(duì)通過模板過濾的候選名稱，去除其長(zhǎng)度在預(yù)定閾值以外的部分，經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。
8.按照權(quán)利要求1所述的方法，其中，在所述多頁候選名稱過濾步驟中，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，計(jì)算各個(gè)候選名稱與其它候選名稱的相似度，去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱，以未被去除的候選名稱作為查詢?cè)~搜索主題詞，去除搜索不到主題詞的候選名稱，其余候選名稱作為與該主題詞相關(guān)的名稱。
9.按照權(quán)利要求1所述的方法，其中，在所述名稱排序步驟中，根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值，根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。
10.一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備，包括: 網(wǎng)頁查找裝置，在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，并對(duì)網(wǎng)頁進(jìn)行過濾和解析；候選名稱第一提取裝置，根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；候選名稱第二提取裝置，將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在代碼序列中確定重復(fù)子序列，在該網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；單頁候選名稱確定裝置，根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定該網(wǎng)頁的候選名稱；多頁候選名稱過濾裝置，針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾，得到與該主題詞相關(guān)的名稱；名稱排序裝置，計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。
全文摘要
提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法，包括在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁，對(duì)網(wǎng)頁進(jìn)行過濾和解析；根據(jù)單網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn)，提取圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合；將網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列，在其中確定重復(fù)子序列，在網(wǎng)頁的候選名稱第一集合中，提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱，構(gòu)成候選名稱第二集合；根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾，確定網(wǎng)頁的候選名稱；針對(duì)來自多個(gè)網(wǎng)頁的候選名稱，根據(jù)候選名稱之間或其與主題詞的關(guān)系進(jìn)行過濾，得到與主題詞相關(guān)的名稱；計(jì)算各個(gè)名稱的分值，根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。還相應(yīng)地提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。
文檔編號(hào)G06F17/30GK103150307SQ20111040170
公開日2013年6月12日申請(qǐng)日期2011年12月6日優(yōu)先權(quán)日2011年12月6日
發(fā)明者謝宣松, 姜珊珊, 孫軍, 鄭繼川申請(qǐng)人:株式會(huì)社理光

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝宣松;姜珊珊;孫軍;鄭繼川
技術(shù)所有人：株式會(huì)社理光
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

主題詞相關(guān)技術(shù)

漢語主題詞表相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和設(shè)備的制作方法