欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和設(shè)備的制作方法

文檔序號(hào):6440188閱讀:409來源:國(guó)知局
專利名稱:從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。
背景技術(shù)
隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,對(duì)從網(wǎng)絡(luò)資源中查找有用信息的需求也越來越大。產(chǎn)品的評(píng)論、排序以及描述類的頁面在因特網(wǎng)上大量存在。在很多情況下(產(chǎn)品調(diào)查、市場(chǎng)分析以及策略制定),希望為某種特定主題找到精確的相關(guān)產(chǎn)品名稱,如自動(dòng)在線找到一個(gè)分類的所有結(jié)果。這樣的名稱在網(wǎng)上大規(guī)模存在且動(dòng)態(tài)變化。從人的角度出發(fā),從網(wǎng)頁中識(shí)別并分類這些名稱不是一個(gè)大的問題,但是非常費(fèi)時(shí)間。此外,搜索名稱的用戶通常希望了解產(chǎn)品排序信息,如哪種產(chǎn)品最為流行。如果產(chǎn)品名稱能夠自動(dòng)被找到并排序,對(duì)用戶來說是非常有用的。另一方面,這些名稱對(duì)后續(xù)處理也非常有用,所述后續(xù)處理例如包括特征抽取以及整合等。然而問題在于:網(wǎng)頁是一種半結(jié)構(gòu)化的數(shù)據(jù),包括了許多無關(guān)信息,以致于非常難以被機(jī)器讀懂及分析。在與根據(jù)主題詞搜索名稱相關(guān)的技術(shù)領(lǐng)域,已經(jīng)取得一定進(jìn)展。專利文件I (Patent US7065483 B2, Computer method and apparatus forextracting data from web pages, Zoom inf0.)公開了從網(wǎng)頁中抽取數(shù)據(jù)的計(jì)算方法和裝置。該專利文件I提供了一種從網(wǎng)頁中抽取數(shù)據(jù)的方法,該方法包括:i)使用自然語言處理方法從給定網(wǎng)頁找到可能的正式名稱;ii)使用模式匹配來搜索給定網(wǎng)頁中沒有被步驟i所發(fā)現(xiàn)的正式名稱;iii)合并及精練上述名稱集,以從給定網(wǎng)頁中產(chǎn)生人名和組織名。專利文件I使用語法詞法分析更適用于語法結(jié)構(gòu)比較好的純文本,而不合適網(wǎng)頁中的產(chǎn)品名稱等短詞結(jié)構(gòu);同時(shí),使用模式匹配的方法也將面臨網(wǎng)頁語言結(jié)構(gòu)的問題。專利文件2 (Patent US2007/0078850 Al, Commercial web data extractionsystem, Microsoft.)公開了一種商業(yè)網(wǎng)絡(luò)數(shù)據(jù)抽取系統(tǒng)。該系統(tǒng)基于實(shí)體抽取器來自動(dòng)抽取產(chǎn)品信息元素。一些相關(guān)的信息元素能夠被特定的分類中的公用名稱標(biāo)識(shí),如某些知名的商標(biāo)名。另一些信息元素可以通過訓(xùn)練實(shí)體抽取器來標(biāo)識(shí)。首先,一個(gè)訓(xùn)練文檔集會(huì)被人為查閱,并識(shí)別不同各類的產(chǎn)品數(shù)據(jù)。這些訓(xùn)練文檔被用來優(yōu)化實(shí)體抽取器的參數(shù),以使之正確抽取不同的信息元素,如商標(biāo)、價(jià)格、圖像以及投票等。專利文件2使用特定分類中的通用關(guān)鍵詞,如名商標(biāo)等,對(duì)未登錄產(chǎn)品不能夠很好的支持,同時(shí),對(duì)不同的產(chǎn)品數(shù)據(jù)類型進(jìn)行標(biāo)注需要耗費(fèi)大量的時(shí)間。非專利文件I (在網(wǎng)絡(luò)數(shù)據(jù)抽取中的同步記錄識(shí)別及屬性標(biāo)注(Jun Zhu,ZaiqingNie, J1-Rong Wen, Simultaneous Record Detection and Attribute Labelling in WebData Extraction, Proceedings of the 12th ACM SIGKDD,494-503,2006.))提出名稱為多層條件隨機(jī)域的模型,其能夠通過學(xué)習(xí)重要性來有效的集成所有有用的信息,并且可以結(jié)合層次的互相作用,來進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)抽取。該論文描述的是一種機(jī)器學(xué)習(xí)的方法,上述特征被用來訓(xùn)練以人為標(biāo)注,和其它的特征起一樣的作用,并需要手動(dòng)識(shí)別。
非專利文件2 (WebSeer:—種基于因特網(wǎng)的圖像搜索系統(tǒng)(Charles F., MichaelJ.S., and Vassilis A., WebSeer:An Image Search Engine for the World Wide Web,Technical Report 96-14 in the Univ.0f Chicago, August 1,1996.))描述了如何從網(wǎng)絡(luò)中找到圖像,在文本和HTML源碼中有相關(guān)的線索。了解網(wǎng)頁的結(jié)構(gòu)有助于獲取有價(jià)值的有關(guān)于圖像的信息。存在于多個(gè)地方的圖像相關(guān)信息有可能在該文檔內(nèi):圖像文本名,標(biāo)題,alt文本,HTML標(biāo)題以及超鏈接。該非專利文件2的目的在于,描述一種如何構(gòu)建基于文本的圖像搜索系統(tǒng),并使用相關(guān)特征來找到圖像。

發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題而做出本發(fā)明。本發(fā)明總體上涉及與信息處理和信息抽取相關(guān)技術(shù),提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法和從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。本發(fā)明的目的是提供一種對(duì)針對(duì)特定主題,從網(wǎng)頁中找到并排序名稱的方法和設(shè)備。通常,名稱由幾個(gè)字組成,用來標(biāo)識(shí)一個(gè)對(duì)象,如產(chǎn)品名“Ricoh CX3”;而主題詞通??梢詫?duì)應(yīng)一個(gè)對(duì)象分類,例如“數(shù)碼相機(jī)”或“digital camera”。因此,本發(fā)明實(shí)施例的目的可以說是:針對(duì)特定分類,找到相關(guān)名稱。針對(duì)異構(gòu)的網(wǎng)頁,本發(fā)明實(shí)施例能夠達(dá)成以下目標(biāo):針對(duì)特定主題找到包括產(chǎn)品名的網(wǎng)頁;從這些找到的網(wǎng)頁中抽取名稱;針對(duì)給定的主題來對(duì)名稱進(jìn)行排序。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提出了一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法,包括:網(wǎng)頁查找步驟,在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析;候選名稱第一提取步驟,根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合;候選名稱第二提取步驟,將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合;單頁候選名稱確定步驟,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱;多頁候選名稱過濾步驟,針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱;名稱排序步驟,計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提出了一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備,包括:網(wǎng)頁查找裝置,在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析;候選名稱第一提取裝置,根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合;候選名稱第二提取裝置,將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合;單頁候選名稱確定裝置,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱;多頁候選名稱過濾裝置,針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱;名稱排序裝置,計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。通過實(shí)施本發(fā)明實(shí)施例,能夠找到從網(wǎng)上為特定主題查找與特定主題相關(guān)的名稱并進(jìn)行排序,可以作為構(gòu)建對(duì)象庫的準(zhǔn)備工作。由于往往精度比召回率更重要,因此本發(fā)明實(shí)施例側(cè)重于找到合適的名稱,而不是所有的名稱。而且,本發(fā)明實(shí)施例的技術(shù)手段是全自動(dòng)的而且不需要用戶具有相關(guān)技術(shù)領(lǐng)域的知識(shí)。通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點(diǎn)和技術(shù)及工業(yè)重要性。


圖1示出了實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的示例應(yīng)用。圖2示意性地示出實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的應(yīng)用。圖3示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法的總體流程圖。圖4示意性地示出按照本發(fā)明實(shí)施例的網(wǎng)頁查找步驟SlOO的流程圖。圖5示意性地示出按照本發(fā)明實(shí)施例的候選名稱第一提取步驟S200的流程圖。圖6包括圖6A至圖6C,示出圖像節(jié)點(diǎn)的一個(gè)例子,其中,圖6A示出圖像節(jié)點(diǎn)的網(wǎng)頁部分,包括可見的可視化的布局;圖68示出該部分網(wǎng)頁的HTML代碼;圖6(:示意地示出一種結(jié)構(gòu)化的圖像節(jié)點(diǎn)。圖7包括圖7A至圖7C,分別示出了網(wǎng)頁的圖像節(jié)點(diǎn)的屬性值包含圖像名稱的示例,其中,圖7A中所示的矩形框示出從“alt”屬性值中提取初步的圖像名稱;圖7B中所示的矩形框示出從“src”屬性值中提取初步的圖像名稱;圖7C中所示的矩形框示出從“href”屬性值中提取初步的圖像名稱。圖8示意性地示出圖像節(jié)點(diǎn)與附近節(jié)點(diǎn)的關(guān)系。圖9包括圖9A至圖9C,示意性地示出圖像名稱查找步驟S230及圖像名稱驗(yàn)證步驟S240實(shí)施過程,其中,圖9A中的矩形框示出在網(wǎng)頁的HTML源代碼中從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱;圖9B表示把以圖像節(jié)點(diǎn)為中心、一定窗口范圍內(nèi)的節(jié)點(diǎn)相關(guān)的樹狀的源代碼轉(zhuǎn)換成的序列;圖9C示出在圖像節(jié)點(diǎn)中找到的圖像名稱及在周邊節(jié)點(diǎn)的文本中找到的匹配的文本。圖10包括圖1OA至圖10C,分別示出對(duì)比信息的網(wǎng)頁展示實(shí)例。圖11示意性地示出對(duì)節(jié)點(diǎn)編碼的一種方式。圖12包括圖12A至圖12C,示出了對(duì)節(jié)點(diǎn)編碼的一個(gè)示例,其中,圖12A示出某個(gè)網(wǎng)頁的HTML源代碼;圖12B中示出按標(biāo)簽分類得到的各個(gè)節(jié)點(diǎn)的類型數(shù)字及各個(gè)節(jié)點(diǎn)相應(yīng)的深度代碼;圖12C中示出各個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的類型數(shù)字和深度代碼及所得的網(wǎng)頁的DOM樹的代碼序列。圖13包括圖13A和圖13B,示出了在代碼序列中查找重復(fù)子序列的一個(gè)示例,其中,圖13A示出了某個(gè)網(wǎng)頁的DOM樹的代碼序列;圖13B示出從該代碼序列中提取出的重復(fù)子序列。
圖14示意性地表示了按照本發(fā)明實(shí)施例的單頁候選名稱確定步驟S400的流程圖。圖15包括圖15A和圖15B,示出通過候選名稱之間相似度去除候選名稱的示例,其中,圖15A示出多個(gè)候選名稱的示例列表;圖15B示出經(jīng)過相似度過濾而保留的候選名稱。圖16示出通過主題過濾去除候選名稱的示例。圖17示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備的總體框圖。圖18是示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)的總體框圖。
具體實(shí)施例方式下面結(jié)合附圖描述本發(fā)明實(shí)施例。圖1示出了實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的示例應(yīng)用。如圖1所示,如果在矩形框Ql所示的區(qū)域輸入要查詢的主題詞“digitalcamera”,則通過實(shí)施本發(fā)明實(shí)施例,能夠查找到相關(guān)的產(chǎn)品名稱,在排序后,在諸如矩形框Q2所示的區(qū)域輸出。圖2示意性地示出實(shí)施本發(fā)明實(shí)施例以從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱并排序輸出的應(yīng)用。輸入為主題,也就是分類名,本發(fā)明實(shí)施例實(shí)施查找相關(guān)名稱的處理,從例如因特網(wǎng)獲取網(wǎng)頁,并找到相關(guān)名稱,輸出排序后的名稱I至名稱η。圖3示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法的總體流程圖。如圖3所示,從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法可以包括:網(wǎng)頁查找步驟S100,可以在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析;候選名稱第一提取步驟S200,根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合;候選名稱第二提取步驟S300,將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合;單頁候選名稱確定步驟S400,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱;多頁候選名稱過濾步驟S500,針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱;名稱排序步驟S600,計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。圖4示意性地示出按照本發(fā)明實(shí)施例的網(wǎng)頁查找步驟SlOO的流程圖。如圖4所示,網(wǎng)頁查找步驟SlOO可以包括:主題詞擴(kuò)展步驟S110,可以根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~;網(wǎng)頁搜索步驟S120,可以利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁;網(wǎng)頁過濾步驟S130,可以根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁;解析步驟S140,可以將通過所述網(wǎng)頁過濾步驟的過濾的網(wǎng)頁解析為DOM樹;節(jié)點(diǎn)過濾步驟S150,可以根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。在網(wǎng)頁查找步驟S100,獲取特定主題的網(wǎng)頁并為后續(xù)步驟生成輸入樹。在后續(xù)處理中,可以將分類作為主題的一種實(shí)現(xiàn)方式。在主題詞擴(kuò)展步驟S110,可以把輸入的分類通過以下兩種方式擴(kuò)展。
主題詞擴(kuò)展方式1:針對(duì)給定的一個(gè)主題,推薦相關(guān)的概念的子概念,表達(dá)所給主題的不同方面。如,給定一個(gè)主題詞“相機(jī)”,則可以推薦“數(shù)碼相機(jī)”、“單反機(jī)”、“白平衡”、“圖像處理”等。這些推薦值可以來自經(jīng)驗(yàn)?zāi)0濉⒆值?、維基百科、以及已有搜索引擎等等。主題詞擴(kuò)展方式2:針對(duì)給定的一個(gè)主題,以某些特定的模板來擴(kuò)展。如,給定一個(gè)主題詞“相機(jī)”,則推薦“最好的相機(jī)”、“相機(jī)比較”、“相機(jī)排序”、“相機(jī)評(píng)論”等。這些模板可以事先給定。經(jīng)過對(duì)輸入主題的擴(kuò)展后,在網(wǎng)頁搜索步驟S120,可以通過兩種方式找到相關(guān)的網(wǎng)頁,或者說網(wǎng)頁的URL(統(tǒng)一資源定位符,Uniform/Universal Resource Locator)。方式1:通過已有的搜索引擎得到相關(guān)URL,如BingAPI,G00gleAPI等;以方式I操作,除URL外,還能得到標(biāo)題、簡(jiǎn)短描述等。方式2:列出一些種子網(wǎng)站,然后通過爬蟲(crawler)來找到相關(guān)網(wǎng)頁,然后對(duì)網(wǎng)頁進(jìn)行索引,并與輸入主題來匹配以找到相關(guān)URL。在得到與主題詞相關(guān)的URL之后,在網(wǎng)頁過濾步驟S130,對(duì)這些URL來進(jìn)行過濾的規(guī)則例如:根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞,如果主題詞經(jīng)擴(kuò)展后的所有查詢字在該網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述中都沒有出現(xiàn),則排除之,未被排除的可以作為候選URL。當(dāng)候選URL都獲取后,在解析步驟S140,網(wǎng)頁的內(nèi)容即被下載并由一些工具解析成DOM樹。在此可以采用的工具包括:org.apache.commons, httpclient ;org.cybernek0.html.parsers.DOMParser 等等。在此,介紹“節(jié)點(diǎn)”概念。節(jié)點(diǎn)是一棵DOM樹中的一個(gè)結(jié)構(gòu)單元,由一些成員構(gòu)成。基本上,原始的節(jié)點(diǎn)內(nèi)容來自于HTML DOM樹,有些內(nèi)容可能會(huì)被刪除,有時(shí)則可能被一些計(jì)算過的結(jié)果所補(bǔ)充。名稱可以是DOM樹中的某些文本節(jié)點(diǎn)。在節(jié)點(diǎn)過濾步驟S150,從復(fù)雜的HTML中獲取簡(jiǎn)化的樹,其中保留了必要的結(jié)果。對(duì)候選網(wǎng)頁的HTML的DOM樹的節(jié)點(diǎn)進(jìn)行過濾的規(guī)則例如可以定義如下。過濾DOM樹的節(jié)點(diǎn)的實(shí)例可以由以下規(guī)則構(gòu)成。1.去除規(guī)則:標(biāo)簽集中的特定節(jié)點(diǎn),如SCRIPT, #comment等,這個(gè)集合可以來自根據(jù)經(jīng)驗(yàn)指定的配置文件;沒有值的文本節(jié)點(diǎn);有值的文本節(jié)點(diǎn),但是值的長(zhǎng)度過長(zhǎng);與時(shí)間相關(guān)的節(jié)點(diǎn)。滿足去除規(guī)則的節(jié)點(diǎn)將被過濾掉。經(jīng)過上述規(guī)則過濾后,剩余節(jié)點(diǎn)的以下內(nèi)容子項(xiàng)將被保留,其它的子項(xiàng)則去除:2.保留項(xiàng):節(jié)點(diǎn)名稱(標(biāo)簽名);每個(gè)節(jié)點(diǎn)的“id”屬性,如果有的話;文本節(jié)點(diǎn)的值;圖像節(jié)點(diǎn),包括它的值和圖像url ;鏈接節(jié)點(diǎn)的完整鏈接地址。
符合上述保留項(xiàng)的節(jié)點(diǎn)將被保留。經(jīng)過此節(jié)點(diǎn)過濾步驟S150后,每個(gè)網(wǎng)頁變成了相應(yīng)的一棵DOM樹,并可以視為后續(xù)步驟的輸入。圖5示意性地示出按照本發(fā)明實(shí)施例的候選名稱第一提取步驟S200的流程圖。如圖5所示,候選名稱第一提取步驟S200可以包括:圖像節(jié)點(diǎn)查找步驟S210,可以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn);圖像節(jié)點(diǎn)過濾步驟S220,可以在所述圖像節(jié)點(diǎn)中,根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn);圖像名稱查找步驟S230,可以針對(duì)通過所述圖像節(jié)點(diǎn)過濾步驟的過濾的圖像節(jié)點(diǎn),在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱;圖像名稱驗(yàn)證步驟S240,可以在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中,查找與該圖像名稱匹配的文本,過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱,通過過濾的圖像名稱構(gòu)成候選名稱第一集合。通常,相對(duì)于文本,在網(wǎng)頁上的圖像展示了更豐富和相對(duì)重要的信息。并且,圖像更擅長(zhǎng)表示有物理形狀的對(duì)象或具體事件。如果目標(biāo)是找到例如產(chǎn)品對(duì)象的名稱,根據(jù)經(jīng)驗(yàn),在網(wǎng)絡(luò)上這類目標(biāo)更容易且更廣泛的通過圖像描述。因此,可以將圖像節(jié)點(diǎn)作為名稱發(fā)現(xiàn)的重要線索。“圖像線索”對(duì)名稱發(fā)現(xiàn)來說,意味著一種暗示或者入口。如前文描述,一個(gè)網(wǎng)頁可以有非常多的節(jié)點(diǎn),如果將所有節(jié)點(diǎn)一視同仁來處理,對(duì)名稱發(fā)現(xiàn)來說,會(huì)非常困難且費(fèi)時(shí)。而且,目的是找到合適正確的名稱而并非所有名稱。一些圖像展示了物理對(duì)象而且以文本的方式描述了它的名稱。如果將這些圖像及其相關(guān)的信息作為名稱發(fā)現(xiàn)的入口,則對(duì)后續(xù)處理將會(huì)非常有效。網(wǎng)頁上的圖像節(jié)點(diǎn)的結(jié)構(gòu)包括:可視圖像、節(jié)點(diǎn)名稱以及它的相關(guān)屬性。圖6包括圖6A至圖6C,示出圖像節(jié)點(diǎn)的一個(gè)例子。圖6A示出圖像節(jié)點(diǎn)的網(wǎng)頁部分,其中包括可見的可視化的布局。圖6B示出該部分網(wǎng)頁的HTML代碼。圖6C示意性地示出一種結(jié)構(gòu)化的圖像節(jié)點(diǎn),其中的“圖像名稱”是圖像線索,在圖6C所示的結(jié)構(gòu)中,“IMG”節(jié)點(diǎn)”和相關(guān)的“屬性”可以通過HTML語法標(biāo)簽得到。首先,在圖像節(jié)點(diǎn)查找步驟S210,所有的圖像節(jié)點(diǎn)可以通過“ MG ”標(biāo)簽名稱找到。例如,在圖6B所示的該節(jié)點(diǎn)的HTML代碼中,包括包含“MG”字符串的標(biāo)簽,因此,可以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn)。在圖像節(jié)點(diǎn)查找步驟S210查找到的圖像節(jié)點(diǎn)包括很多噪聲節(jié)點(diǎn),因此,在圖像節(jié)點(diǎn)過濾步驟S220,可以用包括以下3種方式的手段來過濾掉這些不可能與主題詞有關(guān)的圖像節(jié)點(diǎn)。方式1:通過頁面布局視覺信息。如果某圖像節(jié)點(diǎn)位于頁面的頂、底、靠左、靠右,則可以過濾掉。方式2:通過序列化節(jié)點(diǎn)的位置。在DOM樹中的所有節(jié)點(diǎn)可以轉(zhuǎn)換成有順序的節(jié)點(diǎn),如果該圖像節(jié)點(diǎn)在此序列中的位置太靠前或靠后(超過根據(jù)經(jīng)驗(yàn)設(shè)置的閾值),則可以過濾掉。方式3:通過特殊的節(jié)點(diǎn)集合。如果某圖像節(jié)點(diǎn)在DOM樹中所屬的祖先節(jié)點(diǎn)屬于某個(gè)預(yù)先定義集合中的節(jié)點(diǎn)標(biāo)簽,則可以過濾掉。這個(gè)預(yù)定標(biāo)簽集合可以通過經(jīng)驗(yàn)預(yù)先設(shè)定,上述節(jié)點(diǎn)標(biāo)簽例如可以包括:“ads”, “bar”, “nav”, “header”,“footer”, “copyright”坐坐寸寸O通過圖像節(jié)點(diǎn)過濾步驟S220的過濾,在圖像名稱查找步驟S230,在通過過濾的圖像節(jié)點(diǎn)中發(fā)現(xiàn)圖像名稱。圖7包括圖7A至圖7C,分別示出了網(wǎng)頁的圖像節(jié)點(diǎn)的屬性值包含圖像名稱的不例。基本上,可以從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱,這些特定屬性值例如可以是:“alt”、“title,,、“Src” 及 “href,,。如果發(fā)現(xiàn)這些屬性值存在,將通過以下規(guī)則逐一驗(yàn)證圖像名稱是否存在其中,并初步獲得圖像名稱??梢圆捎玫囊?guī)則例如是:按照“&1儼、1^16”、“81^”、“1^^”的順序,依次在屬性值中查找,如果在在先的屬性值中找到,則退出查找而不在其后的屬性值中查找;如果屬性是href,則得到用“\”分隔的最后一段文本;使用根據(jù)經(jīng)驗(yàn)的一個(gè)長(zhǎng)度區(qū)域來過濾,過長(zhǎng)或過短的將被過濾掉;去除一些特殊符號(hào),如“_,,,“::”等等;如果該屬性值沒有任何字母或文字,或全部為數(shù)字或符號(hào),則過濾掉;采用預(yù)先定義的常用詞字典(S卩,僅針對(duì)大眾的普通語言,而不包括專有名詞)來進(jìn)行檢驗(yàn),如果所有字或詞都能從這個(gè)常用字典找到,則意味著沒有未知或?qū)S忻Q,不符合名稱的特點(diǎn),可以過濾掉 。圖7A中所示的矩形框示出從“alt”屬性值中提取初步的圖像名稱;圖7B中所示的矩形框示出從“src”屬性值中提取初步的圖像名稱;圖7C中所示的矩形框示出從“href”屬性值中提取初步的圖像名稱。在圖像名稱驗(yàn)證步驟S240,將所提取的初步的圖像名稱與周邊文本匹配,所謂周邊文本即該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中的文本,圖像節(jié)點(diǎn)的所謂“周邊”指的是該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)。在圖像名稱查找步驟S230查找到多個(gè)合適的圖像名稱,這些圖像名稱中也可能存在某些噪聲詞,因此在圖像名稱驗(yàn)證步驟S240用這些圖像名稱進(jìn)行與周圍文本元素的匹配,來進(jìn)一步驗(yàn)證圖像名稱。圖8示意性地示出圖像節(jié)點(diǎn)與附近節(jié)點(diǎn)的關(guān)系。如圖8所示,包含待處理的圖像名稱的圖像節(jié)點(diǎn)視為中心節(jié)點(diǎn),如圖8中的節(jié)點(diǎn)i,以此為中心一定范圍的窗口內(nèi)的節(jié)點(diǎn)會(huì)被選中,如圖8所示,窗口包含從第(1-n)節(jié)點(diǎn)到第(i+n)節(jié)點(diǎn)。然后,將該圖像名稱與這些窗口內(nèi)節(jié)點(diǎn)的文本進(jìn)行匹配,以得到最相似的文本。如果能夠找到最相似的文本,則該圖像節(jié)點(diǎn)保留而構(gòu)成候選名稱第一集合;否則,如果沒找至IJ,則去除掉該圖像名稱。圖像節(jié)點(diǎn)的圖像名稱與周邊節(jié)點(diǎn)的文本的相似度可以通過以下公式(I)計(jì)算sim(eimg, etxt) = | {wk| wk e WiSmk e wj | /(log(| eimg|) +log(| etxt )) (I)其中,變量eimg代表圖像節(jié)點(diǎn)的圖像名稱,變量etxt代表周邊節(jié)點(diǎn)的文本,sim(eimg,etxt)是圖像名稱與文本的相似程度,作為相似度的分值;I {wk|wk e wi&wk e WtI表示既屬于圖像名稱Wi又屬于周邊節(jié)點(diǎn)文本W(wǎng)t的詞Wk的個(gè)數(shù),Wi表示圖像名稱的字符集合,Wt表示周邊節(jié)點(diǎn)文本的字符集合,log(IeimgI)圖像名稱長(zhǎng)度,log(Ietxt I)表示文本長(zhǎng)度,其和表示圖像名稱和文本的總長(zhǎng)度。所求出的相似度的分值如果大于某個(gè)預(yù)設(shè)值,則表示該圖像名稱可以保留,否則則去除掉。圖9包括圖9A至圖9C,示意性地示出圖像名稱查找步驟S230及圖像名稱驗(yàn)證步驟S240實(shí)施過程。圖9A中的矩形框示出,通過圖像名稱查找步驟S230,在網(wǎng)頁的HTML源代碼中,從圖像節(jié)點(diǎn)的特定屬性值中得到初步的圖像名稱。圖9B表示,在圖像名稱驗(yàn)證步驟S240中,把以圖像節(jié)點(diǎn)為中心、一定窗口范圍內(nèi)的節(jié)點(diǎn)相關(guān)的樹狀的源代碼轉(zhuǎn)換成的序列。圖9C中所示的矩形框Q3指示圖像名稱查找步驟S230在圖像節(jié)點(diǎn)中找到的圖像名稱,矩形框Q4指示圖像名稱驗(yàn)證步驟S240在周邊節(jié)點(diǎn)的文本中找到的匹配的文本。此圖像名稱可以通過過濾而保留構(gòu)成候選名稱第一集合。通常,含有對(duì)比信息的名稱相對(duì)孤立存在的名稱而言,更為權(quán)威一些。圖10包括圖1OA至圖10C,分別示出對(duì)比信息的網(wǎng)頁展示實(shí)例。在候選名稱第二提取步驟S300,以對(duì)比信息的特點(diǎn)來在該網(wǎng)頁的候選名稱第一集合中進(jìn)行進(jìn)一步的篩選,以找到對(duì)比信息為目的,提取出候選名稱第二集合。在候選名稱第二提取步驟S300中,可以根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度,來對(duì)節(jié)點(diǎn)編碼,該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。圖11示意性地示出對(duì)節(jié)點(diǎn)編碼的一種方式。如圖11所示,在網(wǎng)頁的HTML的DOM樹中,各個(gè)節(jié)點(diǎn)根據(jù)其HTML標(biāo)簽名稱而被賦予一個(gè)類型數(shù)字,如標(biāo)簽“TABLE”的節(jié)點(diǎn)賦值為0,標(biāo)簽“TR”的節(jié)點(diǎn)賦值為1,標(biāo)簽“TD”的節(jié)點(diǎn)賦值為2等等。另外,每個(gè)節(jié)點(diǎn)有一個(gè)相應(yīng)的到根節(jié)點(diǎn)的深度。以先序遍歷的方式,依次記錄樹中各個(gè)節(jié)點(diǎn)的類型數(shù)字和深度,則可以構(gòu)成一個(gè)序列。圖12包括圖12A至圖12C,示出了對(duì)節(jié)點(diǎn)編碼的一個(gè)示例。圖12A示出某個(gè)網(wǎng)頁的HTML源代碼。在圖12B中,矩形框A表示按TAG(標(biāo)簽)分類得到的各個(gè)節(jié)點(diǎn)的類型數(shù)字,矩形框B表示各個(gè)節(jié)點(diǎn)相應(yīng)的深度代碼。在圖12C中,矩形框C中的兩列分別表示來自矩形框A和矩形框B的各個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的類型數(shù)字和深度代碼,矩形框D表示將兩列合并成單一序列后的代碼序列,即所得的網(wǎng)頁的DOM樹的代碼序列。在候選名稱第二提取步驟S300中,然后,可以利用后綴數(shù)組算法,根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。在DOM樹轉(zhuǎn)換得到的代碼序列中,可以發(fā)現(xiàn)含有對(duì)比名稱的區(qū)塊有一些格式上的規(guī)律,即,這些對(duì)比名稱存在于重復(fù)子序列中。使用后綴數(shù)組算法可以查找重復(fù)子序列,最常用的構(gòu)建后綴數(shù)組的方法是使用高效率的比較排序算法,基于該比較排序算法,如果網(wǎng)頁中存在對(duì)比信息,則在DOM樹的序列中可以得到多個(gè)重復(fù)的子序列,并且還可以同時(shí)得到其重復(fù)長(zhǎng)度和頻率。圖13包括圖13A和圖13B,示出了在代碼序列中查找重復(fù)子序列的一個(gè)示例。圖13A示出了某個(gè)網(wǎng)頁的DOM樹的代碼序列;圖13B的矩形框E和矩形框F示出了從該代碼序列中提取出的重復(fù)子序列。在候選名稱第二提取步驟S300中,還可以根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值,確定分值最大的重復(fù)子序列,判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān),相關(guān)的候選名稱構(gòu)成候選名稱第二集合。對(duì)于每個(gè)重復(fù)子序列,可以設(shè)定一個(gè)經(jīng)驗(yàn)權(quán)重(如0.4和0.6)來例如通過以下公式(2)計(jì)算該重復(fù)子序列的分值:
V = ω LLength+ ω FFreq(2)其中,V為重復(fù)子序列的分值,Length是重復(fù)子序列的長(zhǎng)度,是重復(fù)子序列長(zhǎng)度的權(quán)重,F(xiàn)req是其出現(xiàn)的頻率,即該重復(fù)子序列出現(xiàn)的次數(shù),ωF是重復(fù)子序列頻率的權(quán)重,且 = 1.0。從所有發(fā)現(xiàn)的重復(fù)子序列中,利用上述處理可以發(fā)現(xiàn)分值排在首位的最大重復(fù)子序列。如果之前操作得到的候選名稱第一集合中的候選名稱出現(xiàn)在分值最高的該最大重復(fù)子序列中,則被保留而構(gòu)成候選名稱第二集合。經(jīng)過候選名稱第一提取步驟S200和候選名稱第二提取步驟S300之后,候選名稱在文字上仍然可能包含名稱之外的一些噪聲,因此,在隨后的單頁候選名稱確定步驟S400,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該單個(gè)網(wǎng)頁的正式的候選名稱。圖14示意性地表示了按照本發(fā)明實(shí)施例的單頁候選名稱確定步驟S400的流程圖。如圖14所示,單頁候選名稱確定步驟S400可以包括:名稱去除步驟S410,可以去除屬于預(yù)定集合的候選名稱;模板過濾步驟S420,可以把通過名稱去除步驟的候選名稱代入預(yù)定模板,去除與任何預(yù)定模板不相匹配的候選名稱;長(zhǎng)度過濾步驟S430,可以針對(duì)通過模板過濾的候選名稱,去除其長(zhǎng)度在預(yù)定閾值以外的部分,經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。作為準(zhǔn)備,找到作為“候選名稱”而輸入的字符串(輸入?yún)^(qū)塊)中實(shí)質(zhì)內(nèi)容(確實(shí)可能是“名稱”的內(nèi)容)的起始位置。具體地,首先明確為字母或漢字的第一個(gè)字符。例如,如果待處理的候選名稱為“I) =Ricoh CX3…”,則該起始位置確定為3(從O開始計(jì)數(shù)),字符為“R”。在名稱去除步驟S410,可以根據(jù)作為預(yù)定集合的經(jīng)驗(yàn)集合或字典去除一些符號(hào)或字詞,如,“(”,“in”,“of” 等。然后,通過名稱去除步驟S410的過濾的候選名稱進(jìn)入模板過濾步驟S420,對(duì)這些候選名稱使用一些預(yù)定的規(guī)則模板,保留符合至少一個(gè)預(yù)定模板的候選名稱,過濾掉不與任何一個(gè)預(yù)定模板相匹配的候選名稱。所述預(yù)定模板例如包括但不限于以下正則表達(dá)式:(" (
+ [A-Z]+)+
*");(" ([A-z]+
+)+ [A-Z]*");(" (
+ [_] {0,1} [A-z] + [_] {0,1}) +
*〃);(" ([A-z] + [_] {0,1}
+ [_] {0,1}) + [Α-ζ]*〃)。然后,通過模板過濾步驟S420的過濾的候選名稱進(jìn)入長(zhǎng)度過濾步驟S430。在長(zhǎng)度過濾步驟S430,利用根據(jù)經(jīng)驗(yàn)設(shè)定的閾值去除過長(zhǎng)的字詞部分。例如,候選名稱長(zhǎng)度為
10(由10個(gè)單字組成),而閾值例如為4,則長(zhǎng)度從5到10的在預(yù)定閾值以外的單字部分將被過濾掉。經(jīng)過長(zhǎng)度過濾步驟S430的候選名稱作為該網(wǎng)頁的候選名稱。經(jīng)過單頁候選名稱 確定步驟S400,單個(gè)網(wǎng)頁的與主題詞有關(guān)的候選名稱被提取出。網(wǎng)絡(luò)中的多個(gè)網(wǎng)頁分別經(jīng)過以上的處理,則從多個(gè)網(wǎng)頁分別得到單個(gè)網(wǎng)頁的與主題詞有關(guān)的候選名稱,一起代入隨后的多頁候選名稱過濾步驟S500。對(duì)一個(gè)主題來說,可能有很多名稱會(huì)被找到,但實(shí)際上部分名稱仍然不屬于輸入的主題,因此可以根據(jù)從多個(gè)網(wǎng)頁分別得到搜索結(jié)果,進(jìn)一步將不適合的名稱去除,也可以說多頁候選名稱過濾步驟S500對(duì)單頁候選名稱確定步驟S400的結(jié)果進(jìn)行進(jìn)一步的“精煉”。在多頁候選名稱過濾步驟S500,可以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,計(jì)算各個(gè)候選名稱與其它候選名稱的相似度,去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱,以未被去除的候選名稱作為查詢?cè)~搜索主題詞,去除搜索不到主題詞的候選名稱,其余候選名稱作為與該主題詞相關(guān)的名稱??梢酝ㄟ^以下方式進(jìn)行上述候選名稱的“精煉”:1.通過相似度過濾;2.通過主題過濾。圖15包括圖15A和圖15B,示出通過候選名稱之間相似度去除候選名稱的示例。圖15A示出多個(gè)候選名稱的示例列表,計(jì)算每個(gè)名稱與其它名稱的相似程度,如果某個(gè)候選名稱中的部分或全部組成字詞不能從其它候選名稱中找到(相似度為0),或者在其它候選名稱中找到其組成字詞的數(shù)目低于某個(gè)根據(jù)經(jīng)驗(yàn)設(shè)定的預(yù)定閾值,則可以認(rèn)為相似度過低,以致要過濾掉該候選名稱。圖15B示出經(jīng)過相似度過濾而保留的候選名稱,可見,圖15A中序號(hào)為[I]、[2]、[7]、[8]的候選名稱因?yàn)榕c其它候選名稱相似度過低而被去除??梢詫?duì)通過相似度過濾的候選名稱進(jìn)一步進(jìn)行主題過濾。圖16示出通過主題過濾去除候選名稱的示例。在主題過濾過程中,將候選名稱作為主題詞,通過搜索引擎來進(jìn)行搜索,如果在結(jié)果的標(biāo)題和描述中找不到與真正主題詞相關(guān)的任何信息(如字詞),則被去除。例如,如圖16所示,以圖15B所列序號(hào)為[4]的候選名稱“best HDTV”作為“主題詞”進(jìn)行反向搜索,在圖16中所示的搜索結(jié)果中未能查找到實(shí)際的主題詞,例如“digital camera”,則該候選名稱“best HDTV”未能通過主題過濾,而被去除。而通過主題過濾的候選名稱則作為與該主題詞相關(guān)的名稱。至此,已經(jīng)獲得了與該主題詞相關(guān)的名稱,最后,在名稱排序步驟S600,根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值,根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。針對(duì)每個(gè)名稱的排序分值計(jì)算至少可以基于以下因子。查詢權(quán)重:根據(jù)經(jīng)驗(yàn)對(duì)擴(kuò)展得到的每個(gè)查詢?cè)~設(shè)定一個(gè)權(quán)重,且此權(quán)重可以視為名稱排序的因子之一,更高的權(quán)重意味著更重要的查詢擴(kuò)展模式。網(wǎng)頁權(quán)重:在通過搜索引擎查詢的過程中,所有網(wǎng)頁有一個(gè)排序位置,這個(gè)位置也可以作為一個(gè)權(quán)重因子。頁內(nèi)位置權(quán)重:對(duì)頁面內(nèi)的對(duì)比名稱而言,其位置作為一個(gè)權(quán)重,越靠前,越重要,權(quán)重越高。內(nèi)容權(quán)重:在名稱查找過程的置信度因子,例如,一個(gè)網(wǎng)頁內(nèi)的對(duì)比名稱的權(quán)重要大于只有一次或個(gè)別零星重復(fù)的名稱。頻率權(quán)重:對(duì)來自所有網(wǎng)頁的名稱計(jì)算其頻率,并作為權(quán)重之一。上述所有的因子會(huì)被合并,進(jìn)行加權(quán)計(jì)算,例如通過以下公式(3)得到某個(gè)名稱的最終分值。ff = kq ω q+kp ω p+k0 ω o+kc ω c+kf ω f (3)其中,W為該名稱的用于排序的分值;kq表示查詢系數(shù),表示查詢權(quán)重;kp表示網(wǎng)頁系數(shù),ωρ表示網(wǎng)頁權(quán)重;k。表示頁內(nèi)位置系數(shù),ω。表示頁內(nèi)位置權(quán)重;k。表示內(nèi)容系數(shù),ω。表示內(nèi)容權(quán)重;kf表示頻率系數(shù),和Of表示頻率權(quán)重。各個(gè)系數(shù)保持kq+kp+kJk^kf = 1.0的關(guān)系,各個(gè)系數(shù)可以根據(jù)不同的任務(wù)和領(lǐng)域依經(jīng)驗(yàn)而定。而關(guān)于各個(gè)權(quán)重,其中及ω。由經(jīng)驗(yàn)值設(shè)定,而其它3個(gè)權(quán)重可以由以下公式⑷確定。ωρ = ω。= ω f = log (size/(i+1)+e_l)(4)其中,e為自然常數(shù),size表示總和,分別地,在網(wǎng)頁權(quán)重ωρ的情況下size表示查詢所得過濾后能夠利用的總共網(wǎng)頁頁數(shù),i表示獲取該名稱所在網(wǎng)頁在此網(wǎng)頁查詢結(jié)果中的排序位置;在頁內(nèi)位置權(quán)重ω。的情況下size表示在單網(wǎng)頁內(nèi)對(duì)比對(duì)象中的參與對(duì)比的對(duì)象數(shù)目,i表示該名稱在對(duì)比對(duì)象中的排序位置;在頻率權(quán)重的情況下size表示所有名稱的總出現(xiàn)次數(shù),i表示該名稱出現(xiàn)的總次數(shù)。經(jīng)過上述計(jì)算后,每個(gè)名稱都有一個(gè)分值,根據(jù)這些分值按照由大到小的順序進(jìn)行排序,即可得到一個(gè)主題的相關(guān)名稱的排序結(jié)果,此后可以以任意現(xiàn)有技術(shù)手段輸出。本發(fā)明還可以實(shí)施為一種從網(wǎng) 絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備,可以用來執(zhí)行前述的本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法。圖17示意性地示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備的總體框圖。如圖17所示,一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備可以包括:網(wǎng)頁查找裝置100,可以用來執(zhí)行前述網(wǎng)頁查找步驟S100,用以在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析;候選名稱第一提取裝置200,可以用來執(zhí)行前述候選名稱第一提取步驟S200,用以根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合;候選名稱第二提取裝置300,可以用來執(zhí)行前述候選名稱第二提取步驟S300,用以將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合;單頁候選名稱確定裝置400,可以用來執(zhí)行前述單頁候選名稱確定步驟S400,用以根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱;多頁候選名稱過濾裝置500,可以用來執(zhí)行前述多頁候選名稱過濾步驟S500,用以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱;名稱排序裝置600,可以用來執(zhí)行前述名稱排序步驟S600,用以計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。所述網(wǎng)頁查找裝置100可以包括:主題詞擴(kuò)展裝置,可以用來執(zhí)行前述主題詞擴(kuò)展步驟S110,用以根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~;網(wǎng)頁搜索裝置,可以用來執(zhí)行前述網(wǎng)頁搜索步驟S120,用以利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁;網(wǎng)頁過濾裝置,可以用來執(zhí)行前述網(wǎng)頁過濾步驟S130,用以根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁;解析裝置,可以用來執(zhí)行前述解析步驟S140,用以將通過所述網(wǎng)頁過濾裝置的過濾的網(wǎng)頁解析為DOM樹;節(jié)點(diǎn)過濾裝置,可以用來執(zhí)行前述節(jié)點(diǎn)過濾步驟S150,用以根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。所述候選名稱第一提取裝置200可以包括:圖像節(jié)點(diǎn)查找裝置,可以用來執(zhí)行前述圖像節(jié)點(diǎn)查找步驟S210,用以根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)點(diǎn);圖像節(jié)點(diǎn)過濾裝置,可以用來執(zhí)行前述圖像節(jié)點(diǎn)過濾步驟S220,用以在所述圖像節(jié)點(diǎn)中,根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn);圖像名稱查找裝置,可以用來執(zhí)行前述圖像名稱查找步驟S230,用以針對(duì)通過所述圖像節(jié)點(diǎn)過濾裝置的過濾的圖像節(jié)點(diǎn),在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱;圖像名稱驗(yàn)證裝置,可以用來執(zhí)行前述圖像名稱驗(yàn)證步驟S240,用以在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中,查找與該圖像名稱匹配的文本,過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱,通過過濾的圖像名稱構(gòu)成候選名稱第一集合。所述候選名稱第二提取裝置300可以根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度,來對(duì)節(jié)點(diǎn)編碼,該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。所述候選名稱第二提取裝置300可以利用后綴數(shù)組算法,根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。所述候選名稱第二提取裝置300可以根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值,確定分值最大的重復(fù)子序列,判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān),相關(guān)的候選名稱構(gòu)成候選名稱第二集合。所述單頁候選名稱確定裝置400可以包括:名稱去除裝置,可以用來執(zhí)行前述名稱去除步驟S410,用以去除屬于預(yù)定集合的候選名稱;模板過濾裝置,可以用來執(zhí)行前述模板過濾步驟S420,用以把通過預(yù)定名稱去除裝置的候選名稱代入預(yù)定模板,去除與任何預(yù)定模板不相匹配的候選名稱;長(zhǎng)度過濾裝置,可以用來執(zhí)行前述長(zhǎng)度過濾步驟S430,用以針對(duì)通過模板過濾的候選名稱,去除其長(zhǎng)度在預(yù)定閾值以外的部分,經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。所述多頁候選名稱過濾裝置500可以針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,計(jì)算各個(gè)候選名稱與其它候選名稱的相似度,去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱,以未被去除的候選名稱作為查詢?cè)~搜索主題詞,去除搜索不到主題詞的候選名稱,其余候選名稱作為與該主題詞相關(guān)的名稱。所述名稱排序裝置600可以根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值,根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。本發(fā)明還可以通過一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)來實(shí)施。圖18是示出按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)1000的總體框圖。如圖18所示,從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng)1000可以包括:輸入設(shè)備1100,用于從外部輸入將要處理的關(guān)鍵字,例如可以包括鍵盤、鼠標(biāo)器、以及通信網(wǎng)絡(luò)及其所連接的遠(yuǎn)程輸入設(shè)備等等;處理設(shè)備1200,用于實(shí)施上述的按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法,或者實(shí)施為上述的按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備,例如可以包括計(jì)算機(jī)的中央處理器或其它的具有處理能力的芯片等等,可以連接到諸如因特網(wǎng)的網(wǎng)絡(luò)(未示出),根據(jù)處理過程的需要而從網(wǎng)絡(luò)獲取數(shù)據(jù)等等;輸出設(shè)備1300,用于向外部輸出實(shí)施上述從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的過程所得的結(jié)果,例如可以包括顯示器、打印機(jī)、以及通信網(wǎng)絡(luò)及其所連接的遠(yuǎn)程輸出設(shè)備等等;以及存儲(chǔ)設(shè)備1400,用于以易失或非易失的方式存儲(chǔ)上述從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的過程所涉及的圖像、所得的結(jié)果、命令、中間數(shù)據(jù)等等,例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、硬盤、或半導(dǎo)體存儲(chǔ)器等等的各種易失或非易失性存儲(chǔ)器。按照本發(fā)明實(shí)施例的從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法、從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備及從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的系統(tǒng),提供了一種從網(wǎng)頁中發(fā)現(xiàn)特定主題的有序?qū)ο竺Q的全自動(dòng)處理技術(shù),能夠?qū)崿F(xiàn)高效率并且能夠得到可接受的精度。所獲得的名稱可以應(yīng)用于對(duì)象抽取,也可以應(yīng)用于對(duì)象庫的構(gòu)建。本發(fā)明的實(shí)施例易于實(shí)現(xiàn)、快速高效且與領(lǐng)域無關(guān),例如,可以用于電子產(chǎn)品,汽車,人物等不同的對(duì)象領(lǐng)域。在說明書中說明的一系列操作能夠通過硬件、軟件、或者硬件與軟件的組合來執(zhí)行。當(dāng)由軟件執(zhí)行該一系列操作時(shí),可以把其中的計(jì)算機(jī)程序安裝到內(nèi)置于專用硬件的計(jì)算機(jī)中的存儲(chǔ)器中,使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序?;蛘?,可以把計(jì)算機(jī)程序安裝到能夠執(zhí)行各種類型的處理的通用計(jì)算機(jī)中,使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序。例如,可以把計(jì)算機(jī)程序預(yù)先存儲(chǔ)到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲(chǔ)器)中?;蛘撸梢耘R時(shí)或者永久地存儲(chǔ)(記錄)計(jì)算機(jī)程序到可移動(dòng)記錄介質(zhì)中,諸如軟盤、⑶-ROM(光盤只讀存儲(chǔ)器)、M0 (磁光)盤、DVD (數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲(chǔ)器??梢园堰@樣的可移動(dòng)記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實(shí)施例進(jìn)行了詳細(xì)說明。然而,很明顯,在不背離本發(fā)明的精神的情況下,本領(lǐng)域技術(shù)人員能夠?qū)?shí)施例執(zhí)行更改和替換。換句話說,本發(fā)明用說明的形式公開,而不是被限制地解釋。要判斷本發(fā)明的要旨,應(yīng)該考慮所附的權(quán)利要求。
權(quán)利要求
1.一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法,包括: 網(wǎng)頁查找步驟,在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析; 候選名稱第一提取步驟,根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合; 候選名稱第二提取步驟,將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合; 單頁候選名稱確定步驟,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱; 多頁候選名稱過濾步驟,針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱; 名稱排序步驟,計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。
2.按照權(quán)利要求1所述的方法,其中,所述網(wǎng)頁查找步驟包括: 主題詞擴(kuò)展步驟,根據(jù)預(yù)定義的模式將主題詞擴(kuò)展得到多個(gè)查詢?cè)~; 網(wǎng)頁搜索步驟,利用所述多個(gè)查詢?cè)~在網(wǎng)絡(luò)中查找網(wǎng)頁; 網(wǎng)頁過濾步驟,根據(jù)網(wǎng)頁的URL地址、標(biāo)題、網(wǎng)頁描述和主題詞來過濾網(wǎng)頁; 解析步驟,將通過所述網(wǎng)頁過濾步驟的過濾的網(wǎng)頁解析為DOM樹; 節(jié)點(diǎn)過濾步驟,根據(jù)預(yù)定的去除規(guī)則及保留規(guī)則對(duì)節(jié)點(diǎn)進(jìn)行過濾。
3.按照權(quán)利要求1所述的方法,其中,所述候選名稱第一提取步驟包括: 圖像節(jié)點(diǎn)查找步驟,根據(jù)節(jié)點(diǎn)的標(biāo)簽名稱來在該單個(gè)網(wǎng)頁的DOM樹中查找到圖像節(jié)占.圖像節(jié)點(diǎn)過濾步驟,在所述圖像節(jié)點(diǎn)中,根據(jù)預(yù)定規(guī)則過濾掉不可能包含與主題詞相關(guān)的名稱的圖像節(jié)點(diǎn); 圖像名稱查找步驟,針對(duì)通過所述圖像節(jié)點(diǎn)過濾步驟的過濾的圖像節(jié)點(diǎn),在圖像節(jié)點(diǎn)的屬性值中查找圖像名稱; 圖像名稱驗(yàn)證步驟,在該圖像節(jié)點(diǎn)的附近節(jié)點(diǎn)中,查找與該圖像名稱匹配的文本,過濾掉與附近節(jié)點(diǎn)的文本匹配程度低的圖像名稱,通過過濾的圖像名稱構(gòu)成候選名稱第一集口 ο
4.按照權(quán)利要求1所述的方法,其中,在所述候選名稱第二提取步驟中,根據(jù)該單個(gè)網(wǎng)頁的DOM樹中節(jié)點(diǎn)的標(biāo)簽種類、及該節(jié)點(diǎn)相對(duì)于根節(jié)點(diǎn)的深度,來對(duì)節(jié)點(diǎn)編碼,該DOM樹中節(jié)點(diǎn)的代碼構(gòu)成該DOM樹的代碼序列。
5.按照權(quán)利要求1所述的方法,其中,在所述候選名稱第二提取步驟中,利用后綴數(shù)組算法,根據(jù)子序列相似度來在DOM樹的代碼序列中查找重復(fù)子序列。
6.按照權(quán)利要求1所述的方法,其中,在所述候選名稱第二提取步驟中, 根據(jù)各個(gè)重復(fù)子序列的長(zhǎng)度和頻率確定其分值,確定分值最大的重復(fù)子序列,判斷該網(wǎng)頁的候選名稱第一集合中的候選名稱是否與該最大的重復(fù)子序列相關(guān),相關(guān)的候選名稱構(gòu)成候選名稱第二集合。
7.按照權(quán)利要求1所述的方法,其中,所述單頁候選名稱確定步驟包括: 名稱去除步驟,去除屬于預(yù)定 集合的候選名稱;模板過濾步驟,把通過名稱去除步驟的候選名稱代入預(yù)定模板,去除與任何預(yù)定模板不相匹配的候選名稱; 長(zhǎng)度過濾步驟,針對(duì)通過模板過濾的候選名稱,去除其長(zhǎng)度在預(yù)定閾值以外的部分,經(jīng)過長(zhǎng)度過濾的候選名稱作為該網(wǎng)頁的候選名稱。
8.按照權(quán)利要求1所述的方法,其中,在所述多頁候選名稱過濾步驟中, 針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,計(jì)算各個(gè)候選名稱與其它候選名稱的相似度,去除與其它候選名稱的相似度低于預(yù)定閾值的候選名稱,以未被去除的候選名稱作為查詢?cè)~搜索主題詞,去除搜索不到主題詞的候選名稱,其余候選名稱作為與該主題詞相關(guān)的名稱。
9.按照權(quán)利要求1所述的方法,其中,在所述名稱排序步驟中, 根據(jù)各個(gè)名稱的查詢權(quán)重、網(wǎng)頁權(quán)重、頁內(nèi)位置權(quán)重、內(nèi)容權(quán)重、頻率權(quán)重中的一個(gè)或多個(gè)來確定該名稱的分值,根據(jù)該分值對(duì)各個(gè)名稱進(jìn)行排序并輸出。
10.一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備,包括: 網(wǎng)頁查找裝置,在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,并對(duì)網(wǎng)頁進(jìn)行過濾和解析; 候選名稱第一提取裝置,根據(jù)單個(gè)網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取其中的圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合; 候選名稱第二提取裝置,將該網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在代碼序列中確定重復(fù)子序列,在該網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合; 單頁候選名稱確定裝置,根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定該網(wǎng)頁的候選名稱; 多頁候選名稱過濾裝置,針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或候選名稱與主題詞的關(guān)系進(jìn)行過濾,得到與該主題詞相關(guān)的名稱; 名稱排序裝置,計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。
全文摘要
提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的方法,包括在網(wǎng)絡(luò)中查找與主題詞相關(guān)的網(wǎng)頁,對(duì)網(wǎng)頁進(jìn)行過濾和解析;根據(jù)單網(wǎng)頁的DOM樹中的圖像節(jié)點(diǎn),提取圖像名稱并與周邊文本匹配后構(gòu)成候選名稱第一集合;將網(wǎng)頁的DOM樹轉(zhuǎn)換成代碼序列,在其中確定重復(fù)子序列,在網(wǎng)頁的候選名稱第一集合中,提取與重復(fù)子序列相對(duì)應(yīng)的候選名稱,構(gòu)成候選名稱第二集合;根據(jù)預(yù)定規(guī)則及預(yù)定模板來對(duì)候選名稱第二集合進(jìn)行過濾,確定網(wǎng)頁的候選名稱;針對(duì)來自多個(gè)網(wǎng)頁的候選名稱,根據(jù)候選名稱之間或其與主題詞的關(guān)系進(jìn)行過濾,得到與主題詞相關(guān)的名稱;計(jì)算各個(gè)名稱的分值,根據(jù)分值對(duì)各個(gè)名稱進(jìn)行排序。還相應(yīng)地提供一種從網(wǎng)絡(luò)中查找與主題詞相關(guān)的名稱的設(shè)備。
文檔編號(hào)G06F17/30GK103150307SQ20111040170
公開日2013年6月12日 申請(qǐng)日期2011年12月6日 優(yōu)先權(quán)日2011年12月6日
發(fā)明者謝宣松, 姜珊珊, 孫軍, 鄭繼川 申請(qǐng)人:株式會(huì)社理光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
仁化县| 启东市| 衢州市| 广安市| 定南县| 龙海市| 淮滨县| 台湾省| 遂昌县| 青海省| 比如县| 大悟县| 镇雄县| 邢台市| 宜良县| 石景山区| 调兵山市| 汕头市| 虹口区| 肥西县| 柳河县| 香港| 宿松县| 临海市| 清流县| 岗巴县| 海安县| 章丘市| 大新县| 治多县| 稷山县| 大化| 比如县| 濮阳市| 庆阳市| 芜湖市| 鄯善县| 广水市| 定陶县| 满洲里市| 全椒县|