專利名稱:一種網(wǎng)頁信息抽取的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及ー種網(wǎng)頁信息抽取的方法和系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為最重要的信息發(fā)布平臺(tái)。然而,面對(duì)互聯(lián)網(wǎng)信息爆炸式的增長(zhǎng),如何快速、有效的獲取用戶需要的信息,成為ー個(gè)亟待解決的問題。傳統(tǒng)的搜索引擎可以幫助人們通過捜索關(guān)鍵字來獲取網(wǎng)頁頁面,但是它只給出了相關(guān)頁面的鏈接,用戶仍需要人工瀏覽網(wǎng)頁去尋找感興趣的信息。另ー方面,由于無法定制精確的查詢,大量的搜索結(jié)果都不是用戶想要的,無法提供精確、專業(yè)化的捜索結(jié)果。ー種理想的做法是互聯(lián)網(wǎng)作為ー個(gè)信息源能夠像數(shù)據(jù)庫一祥被查詢。于是,網(wǎng)頁信息抽取應(yīng)運(yùn)而生。網(wǎng)頁信息抽取可以從不同的信息源中獲取感興趣的網(wǎng)頁信息,并將用戶感興趣的信息抽取出來存放到數(shù)據(jù)庫中,使得用戶可以利用數(shù)據(jù)庫的信息進(jìn)行信息查詢、捜索、數(shù)據(jù)挖掘或者數(shù) 據(jù)分析。網(wǎng)頁信息抽取的目標(biāo)是將網(wǎng)頁文本化呈現(xiàn)的信息抽取出來,并將其表示為結(jié)構(gòu)化的數(shù)據(jù)。這樣做的目的是將難以處理的文本信息轉(zhuǎn)換為容易處理、分析的結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)頁是由文檔對(duì)象模型規(guī)范(DOM, Document Object Model)和超文本標(biāo)記語言(HTML, Hyper Text Mark-up Language)定義的一類文檔,是ー種半結(jié)構(gòu)化的文檔,有價(jià)值的信息通常存儲(chǔ)在后臺(tái)的數(shù)據(jù)庫中,通過固定的頁面模板呈現(xiàn)給用戶。網(wǎng)頁實(shí)際是ー個(gè)文件,展現(xiàn)在用戶面前的通常是通過瀏覽器解釋后的網(wǎng)頁內(nèi)容。如果我們通過選擇菜單中的“查看源文件”,就可以通過記事本看到網(wǎng)頁的實(shí)際內(nèi)容??梢钥吹?,網(wǎng)頁實(shí)際上是一個(gè)文本文件,它通過各式各樣的標(biāo)記對(duì)頁面上的文字、圖片、表格、聲音等元素進(jìn)行描述(例如標(biāo)題、字體、顔色、大小等)。這些標(biāo)記將網(wǎng)頁要顯示的文本內(nèi)容分隔開來。標(biāo)記為文檔引入了結(jié)構(gòu)信息,根據(jù)標(biāo)記可以將ー個(gè)文檔表示為ー棵樹的結(jié)構(gòu),稱為DOM結(jié)構(gòu)。通過定位待抽取內(nèi)容在DOM結(jié)構(gòu)的位置,即可實(shí)現(xiàn)對(duì)網(wǎng)頁信息的抽取。網(wǎng)頁信息抽取的一般流程是從樣本頁面上獲取待抽取內(nèi)容的位置信息,之后利用位置信息,針對(duì)采用相同頁面模板的網(wǎng)頁數(shù)據(jù)集合,實(shí)現(xiàn)內(nèi)容抽取。定位信息的準(zhǔn)確與否,直接決定了網(wǎng)頁信息抽取的質(zhì)量。由于網(wǎng)頁更新頻率快,DOM結(jié)構(gòu)復(fù)雜多變,很容易引起位置信息的變化,導(dǎo)致定位失敗,或者導(dǎo)致抽取出錯(cuò)誤的信息。網(wǎng)頁信息抽取系統(tǒng)一直致カ于尋找準(zhǔn)確、魯棒(魯棒是Robust的音譯,有健壯、強(qiáng)壯、堅(jiān)定等意思)的頁面內(nèi)容定位解決方案?,F(xiàn)有技術(shù)中,存在一種自動(dòng)生成XPATH(XPATH是ー門在XML文檔中查找信息的語言,XPath使用路徑表達(dá)式來選取XML文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集)方法進(jìn)行網(wǎng)頁信息抽取。自動(dòng)生成XPATH方法為用戶在頁面中選取抽取的內(nèi)容,程序記錄抽取內(nèi)容在DOM結(jié)構(gòu)中的位置,后臺(tái)自動(dòng)生成一條從DOM的根節(jié)點(diǎn)層層向下直至目標(biāo)節(jié)點(diǎn)的、只包含標(biāo)簽名稱信息與偏移信息的XPATH路徑,此后應(yīng)用該XPATH獲取待抽取頁面集合中的信息。自動(dòng)生成的XPATH通常僅僅記錄標(biāo)簽名稱與偏移的信息,定位信息過于簡(jiǎn)單,無法應(yīng)對(duì)網(wǎng)頁結(jié)構(gòu)的不停變換。而網(wǎng)頁內(nèi)容更新,XPATH路徑上的元素發(fā)生變化之后,就會(huì)引發(fā)定位不到內(nèi)容或者定位到非抽取內(nèi)容的問題。同吋,由于XPATH記錄的信息過于簡(jiǎn)單,不能利用XPATH來解決重復(fù)結(jié)構(gòu)識(shí)別的問題,需要添加額外的算法來實(shí)現(xiàn)重復(fù)結(jié)構(gòu)的識(shí)別與抽取。在實(shí)現(xiàn)本申請(qǐng)的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題網(wǎng)頁信息抽取通常使用半自動(dòng)化的信息抽取方法,通過分析頁面結(jié)構(gòu)定位抽取的信息,由于網(wǎng)頁信息是一類動(dòng)態(tài)變化、實(shí)時(shí)更新的數(shù)據(jù),在頁面內(nèi)容更新、網(wǎng)頁結(jié)構(gòu)變化后,容易出現(xiàn)定位信息失效導(dǎo)致的抽取失敗或者抽取結(jié)果不準(zhǔn)確的問題。另一方面,現(xiàn)有技術(shù)不能很好地解決重復(fù)結(jié)構(gòu)識(shí)別的問題。自動(dòng)生成XPATH方法不能利用XPATH來解決重復(fù)結(jié)構(gòu)識(shí)別的問題,需要添加額外的算法來實(shí)現(xiàn)重復(fù)結(jié)構(gòu)的識(shí)別與抽取。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本申請(qǐng)實(shí)施例提供一種網(wǎng)頁信息抽取的方法和系統(tǒng),在頁面內(nèi)容更新、網(wǎng)頁結(jié)構(gòu)變化后仍能夠準(zhǔn)確的定位信息,獲得準(zhǔn)確的抽取結(jié)果,魯棒性好。技術(shù)方案如下 本申請(qǐng)實(shí)施例提供一種網(wǎng)頁信息抽取的方法,該方法包括分析樣本頁面的DOM結(jié)構(gòu),獲取待抽取信息在所述DOM結(jié)構(gòu)中的位置;將與所述待抽取信息在所述DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合;分析待抽取頁面的DOM結(jié)構(gòu),利用所述路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置,獲取與所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合;從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用所述抽取節(jié)點(diǎn)獲取抽取信息。優(yōu)選的,上述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn);遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)最鄰近的的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn);如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表;如果否,將Bi作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),并將此路徑添加到路徑列表;將路徑列表中的路徑作為路徑集合。優(yōu)選的,從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)為依照可靠性判斷規(guī)則,計(jì)算候選抽取節(jié)點(diǎn)集合中候選抽取節(jié)點(diǎn)對(duì)應(yīng)的路徑的得分,選出得分最高的路徑對(duì)應(yīng)的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)。優(yōu)選的,所述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn);遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)的最鄰近的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn);如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表;如果經(jīng)過判斷,Bi不是根節(jié)點(diǎn),則根據(jù)可靠性判斷規(guī)則計(jì)算并判斷扣分情況,如果扣分沒有超過設(shè)定閾值,則將Bi節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至下一個(gè)節(jié)點(diǎn)是根節(jié)點(diǎn),并將此路徑添加至路徑列表;如果扣分超過閾值,則停止對(duì)當(dāng)前路徑的尋找;把路徑列表中的扣分最少的前N條路徑保存作為路徑集合。
優(yōu)選的,所述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn);遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)的最鄰近的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn);如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表;如果否,將Bi作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),并將此路徑添加到路徑列表;依據(jù)可靠性判斷規(guī)則對(duì)路徑列表中找到的所有路徑進(jìn)行扣分,判斷路徑總扣分是否超過閾值,如果未超過閾值,保存此路徑結(jié)果;把扣分最少的前N條路徑保存作為路徑集合。優(yōu)選的,所述將扣分最少的前N條路徑保存作為路徑集合,N為預(yù)先設(shè)定的整數(shù)。優(yōu)選的,從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的節(jié)點(diǎn)為從所述候選抽取節(jié)點(diǎn)集合中,選出得分最高路徑對(duì)應(yīng)的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)。優(yōu)選的,所述可靠性判斷規(guī)則為相對(duì)位置信息規(guī)則和/或節(jié)點(diǎn)總數(shù)規(guī)則和/或偏移位置信息規(guī)則。優(yōu)選的,所述預(yù)先獲取節(jié)點(diǎn)相對(duì)位置信息為遍歷DOM結(jié)構(gòu),獲取節(jié)點(diǎn)的文字、樣式信息;利用所述文字、樣式信息獲取各個(gè)節(jié)點(diǎn)的最鄰近的相對(duì)位置信息。優(yōu)選的,獲取從目標(biāo)節(jié)點(diǎn)至根節(jié)點(diǎn)的路徑作為路徑集合后,所述方法進(jìn)一步包括利用獲取的所述路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑。優(yōu)選的,所述利用獲取的路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑具體包括利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度;利用路徑相似度,獲取所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn),記錄具有重復(fù)結(jié)構(gòu)兄弟節(jié)點(diǎn)的偏移息;篩選出所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)擁有的等價(jià)路徑,作為抽取時(shí)使用的路徑集
ム
ロ O優(yōu)選的,利用所述路徑集合獲取待抽取頁面的抽取節(jié)點(diǎn)集合具體包括利用路徑集合獲取待抽取頁面的候選抽取節(jié)點(diǎn)集合,如果路徑指向重復(fù)結(jié)構(gòu),則利用所述具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)的偏移信息,對(duì)具有重復(fù)結(jié)構(gòu)的多條路徑進(jìn)行抽取,獲取待抽取頁面信息對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合優(yōu)選的,所述利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度具體為
SimCAB)=な….£成 .;
公U」£其中,sim(A,B)代表節(jié)點(diǎn)A,B的相似程度;path (Α Π B)表示A、B節(jié)點(diǎn)等價(jià)路徑的集合;path (A U B)表示A、B節(jié)點(diǎn)所有路徑的集合;score (X)表示取路徑X的扣分。優(yōu)選的,所述方法進(jìn)ー步包括將最終抽取節(jié)點(diǎn)對(duì)應(yīng)路徑占路徑集合的權(quán)重與設(shè)定閾值進(jìn)行比較,判斷抽取是否成功,如果得到的結(jié)果大于設(shè)定閾值,則判斷抽取失?。蝗绻玫降慕Y(jié)果小于或等于設(shè)定閾值,則判斷抽取成功。本申請(qǐng)實(shí)施例還公開了一種網(wǎng)頁信息抽取系統(tǒng),所述系統(tǒng)包括樣本頁面待抽取信息位置獲取單元,用于分析樣本頁面的DOM結(jié)構(gòu),獲取待抽取信息在所述DOM結(jié)構(gòu)中的位置;路徑集合獲取單元,用于將與所述待抽取信息在樣本頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取ー個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下ー個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合;候選抽取節(jié)點(diǎn)集合獲取單元,用于分析待抽取頁面的DOM結(jié)構(gòu),利用所述路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置,獲取與所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合;抽取信息獲取單元,用于從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用所述抽取節(jié)點(diǎn)獲取抽取信息。優(yōu)選的,上述系統(tǒng)還包括節(jié)點(diǎn)位置信息獲取子単元,用于遍歷DOM結(jié)構(gòu),獲取節(jié)點(diǎn)的文字、樣式信息,利用所述文字、樣式信息獲取各個(gè)節(jié)點(diǎn)的最鄰近的相對(duì)位置信息;優(yōu)選的,上述系統(tǒng)進(jìn)一歩包括重復(fù)結(jié)構(gòu)識(shí)別單元,用于利用獲取的所述路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑。優(yōu)選的,上述重復(fù)結(jié)構(gòu)識(shí)別單元具體包括路徑相似度計(jì)算子単元,用于利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度;重復(fù)兄弟節(jié)點(diǎn)獲取子單元,利用路徑相似度,獲取所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)占.偏移信息記錄子單元,用于記錄具有重復(fù)結(jié)構(gòu)兄弟節(jié)點(diǎn)的偏移信息;等價(jià)路徑獲取子單元,用于篩選出所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)擁有的等價(jià)路徑,作為抽取時(shí)使用的路徑集合。優(yōu)選的,上述系統(tǒng)進(jìn)一步包括抽取結(jié)果判斷單元將最終抽取節(jié)點(diǎn)對(duì)應(yīng)路徑占路徑集合的權(quán)重與設(shè)定閾值進(jìn)行比較,判斷抽取是否成功。本申請(qǐng)采用多路徑定位技術(shù),利用對(duì)DOM結(jié)構(gòu)和文本內(nèi)容的分析,自動(dòng)發(fā)現(xiàn)規(guī)律, 生成大量帶權(quán)重的、沒有嚴(yán)格順序的路徑,并通過多條路徑定位抽取內(nèi)容,并根據(jù)路徑的權(quán)重,選舉獲得最后的抽取結(jié)果。由于大量的路徑包含豐富的頁面信息,在保證數(shù)據(jù)準(zhǔn)確性以及不增加交互成本的前提下,解決了頁面內(nèi)容更新、網(wǎng)頁結(jié)構(gòu)變化后定位信息失效導(dǎo)致的抽取失敗或者抽取結(jié)果不準(zhǔn)確的問題。另一方面,依據(jù)多條路徑的豐富信息,通過計(jì)算路徑集合的總體相似程度,就能完成對(duì)重復(fù)結(jié)構(gòu)的判斷,很好的解決了重復(fù)結(jié)構(gòu)識(shí)別與抽取的問題。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本申請(qǐng)實(shí)施例方法流程圖;圖2為本申請(qǐng)實(shí)施例一方法流程示意圖;圖3為本申請(qǐng)實(shí)施例一個(gè)DOM結(jié)構(gòu)的示意圖;圖4為本申請(qǐng)實(shí)施例一路徑選取圖;圖5為本申請(qǐng)實(shí)施例獲得候選抽取節(jié)點(diǎn)集合的示意圖;圖6為本申請(qǐng)實(shí)施例二的方法示意圖;圖7為本申請(qǐng)實(shí)施例二路徑選取圖;圖8是本申請(qǐng)實(shí)施例二方法流程意圖;圖9為本申請(qǐng)實(shí)施例三路徑選取圖;圖10為本申請(qǐng)實(shí)施例的系統(tǒng)示意圖。
具體實(shí)施例方式本申請(qǐng)公開了一種網(wǎng)頁信息抽取方法。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
網(wǎng)頁是ー種半結(jié)構(gòu)化的文檔,有價(jià)值的信息通常存儲(chǔ)在后臺(tái)的數(shù)據(jù)庫中,通過固定的頁面模板呈現(xiàn)給用戶。網(wǎng)頁信息抽取的一般流程是從樣本頁面上獲取待抽取內(nèi)容的位置信息,之后利用位置信息,針對(duì)采用相同頁面模板的網(wǎng)頁數(shù)據(jù)集合,實(shí)現(xiàn)內(nèi)容抽取。定位信息的準(zhǔn)確與否,直接決定了網(wǎng)頁信息抽取的質(zhì)量?,F(xiàn)有技術(shù)中,存在一種自動(dòng)生成XPATH方法進(jìn)行網(wǎng)頁信息抽取。自動(dòng)生成XPATH方法為用戶在頁面中選取抽取的內(nèi)容,程序記錄抽取內(nèi)容在DOM結(jié)構(gòu)中的位置,后臺(tái)自動(dòng)生成一條從DOM的根節(jié)點(diǎn)層層向下直至目標(biāo)節(jié)點(diǎn)的、只包含標(biāo)簽名稱信息與偏移信息的XPATH路徑,此后應(yīng)用該XPATH獲取待抽取頁面集合中的信息。自動(dòng)生成的XPATH通常僅僅記錄標(biāo)簽名稱與偏移的信息,定位信息過于簡(jiǎn)單,無法應(yīng)對(duì)網(wǎng)頁結(jié)構(gòu)的不停變換。而網(wǎng)頁內(nèi)容更新,XPATH路徑上的元素發(fā)生變化之后,就會(huì)引發(fā)定位不到內(nèi)容或者定位到非抽取內(nèi)容的問題。同吋,由于XPATH記錄的信息過于簡(jiǎn)單,不能利用XPATH來解決重復(fù)結(jié)構(gòu)識(shí)別的問題,需要添加額外的算法來實(shí)現(xiàn)重復(fù)結(jié)構(gòu)的識(shí)別與抽取?;诖?,本申請(qǐng)?zhí)峁┝艘环N網(wǎng)頁信息抽取方法,在本申請(qǐng)?zhí)峁┑募夹g(shù)方案中,在獲取樣本頁面的路徑集合時(shí),采用逆向定位法獲取了從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的多條路徑。再利用多條路徑定位法,根據(jù)獲取的多條路徑組成的路徑集合去定位待抽取頁面的信息。這樣,·由于獲取了多條路徑去定位待抽取頁面的信息,在頁面不大幅度重構(gòu)的前提下,即使網(wǎng)頁信息發(fā)生變化,結(jié)構(gòu)發(fā)生改變,也能夠較準(zhǔn)確的定位到待抽取內(nèi)容,魯棒性好。圖I為本申請(qǐng)實(shí)施例方法流程圖,下面結(jié)合附圖對(duì)本申請(qǐng)ー種網(wǎng)頁信息抽取方法進(jìn)行說明。一種網(wǎng)頁信息抽取方法,包括以下步驟S101,分析樣本頁面的DOM結(jié)構(gòu),獲取待抽取信息在所述DOM結(jié)構(gòu)中的位置;S102,將與所述待抽取信息在所述DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取ー個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下ー個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合;S103,分析待抽取頁面的DOM結(jié)構(gòu),利用所述路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置,獲取與所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合;S104,從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用所述抽取節(jié)點(diǎn)獲取抽取信息。實(shí)施例一在本申請(qǐng)?zhí)峁┑募夹g(shù)方案中,首先我們需要獲得待抽取信息在樣本頁面中的位置信息,即目標(biāo)節(jié)點(diǎn)的位置信息,從而利用目標(biāo)節(jié)點(diǎn)的位置信息獲取從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的多條路徑,這里采用的是逆向定位法。樣本頁面一般由用戶提供,是與待抽取頁面使用相同頁面模板的網(wǎng)頁。ー種可能的實(shí)現(xiàn)方式是,用戶根據(jù)需要抽取的信息,輸入網(wǎng)頁地址,下載網(wǎng)頁頁面作為樣本頁面。樣本頁面可能是從不同站點(diǎn)下載得到的,這時(shí),相應(yīng)地,待抽取頁面是與樣本頁面對(duì)應(yīng)的具有相同頁面模板的網(wǎng)頁集合。當(dāng)然,也可以通過其他方式獲取樣本頁面,本申請(qǐng)對(duì)此不做限制?,F(xiàn)有技術(shù)中,用戶在樣本頁面中選取抽取的信息,程序記錄抽取信息在DOM結(jié)構(gòu)中的位置,后臺(tái)自動(dòng)生成一條從根節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的層層向下的路徑。一旦其中的一個(gè)節(jié)點(diǎn)發(fā)生變化,則會(huì)引發(fā)定位不到內(nèi)容的問題。而在本申請(qǐng)?zhí)峁┑募夹g(shù)方案中,是利用最鄰近的相對(duì)位置信息,獲取了多條路徑,并利用多條路徑去從待抽取頁面的根節(jié)點(diǎn)出發(fā)尋找目標(biāo)節(jié)點(diǎn),即待抽取內(nèi)容。參見圖2,圖2為本申請(qǐng)實(shí)施例一方法流程示意圖,下面結(jié)合附圖進(jìn)行說明。S201,從樣本頁面中選取待抽取信息。待抽取信息為用戶感興趣的信息,對(duì)應(yīng)網(wǎng)頁信息抽取,是用戶希望通過網(wǎng)頁信息抽取獲得的那一類信息。待抽取信息一般由用戶來定義或提供。在本申請(qǐng)?zhí)峁┑膶?shí)施例中,可以由用戶通過交互界面在樣本頁面中選取待抽取信息。這時(shí),用戶可以通過劃選或框選的方式在樣本頁面中標(biāo)注出待抽取信息。假設(shè)用戶在樣本頁面中標(biāo)注的待抽取信息為“歷 史和起源”,用戶可以使用劃選或框選的方式把待抽取信息選取出來。S202,分析樣本頁面的DOM結(jié)構(gòu),構(gòu)造DOM樹,獲取待抽取信息在DOM結(jié)構(gòu)中的位置,得到目標(biāo)節(jié)點(diǎn)的位置信息。DOM(Document Object Model),中文名稱為文檔對(duì)象模型,DOM的設(shè)計(jì)是以對(duì)象管理組織(OMG)的規(guī)約為基礎(chǔ)的,以面向?qū)ο蠓绞矫枋鑫臋n模型。DOM定義了表示和修改文檔所需的對(duì)象、這些對(duì)象的行為和屬性以及這些對(duì)象之間的關(guān)系。DOM將整個(gè)網(wǎng)頁頁面映射為一個(gè)由層次節(jié)點(diǎn)組成的文件。所有的DOM結(jié)構(gòu)都有且只有一個(gè)根節(jié)點(diǎn),是一個(gè)樹狀的結(jié)構(gòu),每個(gè)HTML標(biāo)簽代表樹中的一個(gè)節(jié)點(diǎn)。表I是DOM結(jié)構(gòu)的簡(jiǎn)單示例。表I
權(quán)利要求
1.一種網(wǎng)頁信息抽取方法,其特征在于,所述方法包括 分析樣本頁面的DOM結(jié)構(gòu),獲取待抽取信息在所述DOM結(jié)構(gòu)中的位置; 將與所述待抽取信息在所述DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合; 分析待抽取頁面的DOM結(jié)構(gòu),利用所述路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置,獲取與所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合; 從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用所述抽取節(jié)點(diǎn)獲取抽取信息。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括 從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn); 遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)的最鄰近的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn); 如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表;如果否,將Bi作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),并將此路徑添加到路徑列表; 將路徑列表中的路徑作為路徑集合。
3.根據(jù)權(quán)利2所述的方法,其特征在于,從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)為 依照可靠性判斷規(guī)則,計(jì)算候選抽取節(jié)點(diǎn)集合中候選抽取節(jié)點(diǎn)對(duì)應(yīng)的路徑的得分,選出得分最高的路徑對(duì)應(yīng)的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括 從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn); 遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)的最鄰近的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn); 如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表; 如果經(jīng)過判斷,Bi不是根節(jié)點(diǎn),則根據(jù)可靠性判斷規(guī)則計(jì)算并判斷扣分情況,如果扣分沒有超過設(shè)定閾值,則將Bi節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至下一個(gè)節(jié)點(diǎn)是根節(jié)點(diǎn),并將此路徑添加至路徑列表;如果扣分超過閾值,則停止對(duì)當(dāng)前路徑的尋找;把路徑列表中的扣分最少的如N條路徑保存作為路徑集合。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述從所述目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合具體包括 從目標(biāo)節(jié)點(diǎn)出發(fā),將目標(biāo)節(jié)點(diǎn)設(shè)置為當(dāng)前節(jié)點(diǎn); 遍歷預(yù)先獲取的當(dāng)前節(jié)點(diǎn)最鄰近的相對(duì)位置信息,從中選取一個(gè)相對(duì)位置i對(duì)應(yīng)的節(jié)點(diǎn)Bi,判斷Bi是否為根節(jié)點(diǎn); 如果經(jīng)過判斷,Bi為根節(jié)點(diǎn),則將此路徑添加至路徑列表;如果否,將Bi作為當(dāng)前節(jié)點(diǎn),繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),并將此路徑添加到路徑列表; 依據(jù)可靠性判斷規(guī)則對(duì)路徑列表中找到的所有路徑進(jìn)行扣分,判斷路徑總扣分是否超過閾值,如果未超過閾值,保存此路徑結(jié)果; 把扣分最少的如N條路徑保存作為路徑集合。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述將扣分最少的前N條路徑保存作為路徑集合,N為預(yù)先設(shè)定的整數(shù)。
7.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)為 從所述候選抽取節(jié)點(diǎn)集合中,選出得分最高路徑對(duì)應(yīng)的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn)。
8.根據(jù)權(quán)利要求3至5任意一項(xiàng)所述的方法,其特征在于 所述可靠性判斷規(guī)則為相對(duì)位置信息規(guī)則和/或節(jié)點(diǎn)總數(shù)規(guī)則和/或偏移位置信息規(guī)則。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述預(yù)先獲取節(jié)點(diǎn)相對(duì)位置信息為 遍歷DOM結(jié)構(gòu),獲取節(jié)點(diǎn)的文字、樣式信息; 利用所述文字、樣式信息獲取各個(gè)節(jié)點(diǎn)的最鄰近的相對(duì)位置信息。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲取從目標(biāo)節(jié)點(diǎn)至根節(jié)點(diǎn)的路徑作為路徑集合后,所述方法進(jìn)一步包括 利用獲取的所述路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述利用獲取的路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑具體包括 利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度; 利用路徑相似度,獲取所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn),記錄具有重復(fù)結(jié)構(gòu)兄弟節(jié)點(diǎn)的偏移息; 篩選出所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)擁有的等價(jià)路徑,作為抽取時(shí)使用的路徑集合。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,利用所述路徑集合獲取待抽取頁面的抽取節(jié)點(diǎn)集合具體包括 利用路徑集合獲取待抽取頁面的候選抽取節(jié)點(diǎn)集合,如果路徑指向重復(fù)結(jié)構(gòu),則利用所述具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)的偏移信息,對(duì)具有重復(fù)結(jié)構(gòu)的多條路徑進(jìn)行抽取,獲取待抽取頁面信息對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合
13.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度具體為
14.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法進(jìn)一步包括 將最終抽取節(jié)點(diǎn)對(duì)應(yīng)路徑占路徑集合的權(quán)重與設(shè)定閾值進(jìn)行比較,判斷抽取是否成功,如果得到的結(jié)果大于設(shè)定閾值,則判斷抽取失敗;如果得到的結(jié)果小于或等于設(shè)定閾值,則判斷抽取成功。
15.一種網(wǎng)頁信息抽取系統(tǒng),其特征在于,所述系統(tǒng)包括 樣本頁面待抽取信息位置獲取單元,用于分析樣本頁面的DOM結(jié)構(gòu),獲取待抽取信息在所述DOM結(jié)構(gòu)中的位置; 路徑集合獲取單元,用于將與所述待抽取信息在樣本頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,獲取一個(gè)節(jié)點(diǎn)并判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn),直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的候選路徑作為路徑集合; 候選抽取節(jié)點(diǎn)集合獲取單元,用于分析待抽取頁面的DOM結(jié)構(gòu),利用所述路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置,獲取與所述待抽取信息在所述待抽取頁面的DOM結(jié)構(gòu)中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合; 抽取信息獲取單元,用于從所述候選抽取節(jié)點(diǎn)集合中,選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用所述抽取節(jié)點(diǎn)獲取抽取信息。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 節(jié)點(diǎn)位置信息獲取子單元,用于遍歷DOM結(jié)構(gòu),獲取節(jié)點(diǎn)的文字、樣式信息,利用所述文字、樣式信息獲取各個(gè)節(jié)點(diǎn)的最鄰近的相對(duì)位置信息。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括 重復(fù)結(jié)構(gòu)識(shí)別單元,用于利用獲取的所述路徑集合中的節(jié)點(diǎn)路徑信息計(jì)算節(jié)點(diǎn)間的路徑相似度,識(shí)別具有重復(fù)結(jié)構(gòu)的路徑。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述重復(fù)結(jié)構(gòu)識(shí)別單元具體包括 路徑相似度計(jì)算子單元,用于利用節(jié)點(diǎn)的路徑信息計(jì)算兄弟節(jié)點(diǎn)間的路徑相似度; 重復(fù)兄弟節(jié)點(diǎn)獲取子單元,利用路徑相似度,獲取所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn); 偏移信息記錄子單元,用于記錄具有重復(fù)結(jié)構(gòu)兄弟節(jié)點(diǎn)的偏移信息; 等價(jià)路徑獲取子單元,用于篩選出所有具有重復(fù)結(jié)構(gòu)的兄弟節(jié)點(diǎn)擁有的等價(jià)路徑,作為抽取時(shí)使用的路徑集合。
19.根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括抽取結(jié)果判斷單元將最終抽取節(jié)點(diǎn)對(duì)應(yīng)路徑占路徑集合的權(quán)重與設(shè)定閾值進(jìn)行比較,判斷抽取是否成功。
全文摘要
本申請(qǐng)公開了一種網(wǎng)頁信息抽取方法,包括分析樣本頁面的DOM結(jié)構(gòu),獲取抽取信息在所述DOM結(jié)構(gòu)中的位置;將抽取信息在樣本頁面中的位置對(duì)應(yīng)的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),從目標(biāo)節(jié)點(diǎn)出發(fā),遍歷預(yù)先獲取的相對(duì)位置信息,判斷其是否為根節(jié)點(diǎn),如果否,繼續(xù)遞歸尋找下一個(gè)節(jié)點(diǎn)直至找到根節(jié)點(diǎn),形成候選路徑,將由此獲取的從目標(biāo)節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑作為路徑集合;分析待抽取頁面的DOM結(jié)構(gòu),利用路徑集合中的路徑從根節(jié)點(diǎn)出發(fā),定位待抽取頁面的信息,獲取待抽取頁面信息對(duì)應(yīng)的節(jié)點(diǎn)作為候選抽取節(jié)點(diǎn)集合;從候選抽取節(jié)點(diǎn)集合中選出魯棒性最高的節(jié)點(diǎn)作為最終的抽取節(jié)點(diǎn),利用抽取節(jié)點(diǎn)獲取抽取信息。本申請(qǐng)采用多路徑定位技術(shù),魯棒性好、準(zhǔn)確度高。
文檔編號(hào)G06F17/30GK102831121SQ20111016111
公開日2012年12月19日 申請(qǐng)日期2011年6月15日 優(yōu)先權(quán)日2011年6月15日
發(fā)明者蔡波洋, 強(qiáng)琦 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司