專利名稱::基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。
背景技術(shù):
:Web信息的爆炸性增長(zhǎng),給我們帶來了獲取更多信息的機(jī)會(huì),同時(shí),也增加了在紛繁復(fù)雜的Web信息庫(kù)中準(zhǔn)確地獲取信息的困難。目前人們主要通過利用搜索引擎來獲得信息。例如,一個(gè)潛在的旅游客戶可能會(huì)利用一個(gè)旅游搜索引擎去獲得各種旅游景點(diǎn)的一些精確信息如景點(diǎn)名,景點(diǎn)所在地,門票價(jià)格,旅游路線等等。目前的主流通用搜索引擎可以提供的搜索結(jié)果是整篇關(guān)于旅游景點(diǎn)的網(wǎng)頁(yè)。但返回網(wǎng)頁(yè)中還存在太多無關(guān)景點(diǎn)的信息,用戶還需努力從返回網(wǎng)頁(yè)中去提取更為精確的信息。垂直搜索可以代替用戶來解決這類問題。所謂垂直搜索,是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求而提供的有價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是專、精、深,且具有鮮明的行業(yè)色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務(wù),致力于某一特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入。這個(gè)領(lǐng)域外的閑雜信息不被收錄??偠灾?,它需要對(duì)采集的信息進(jìn)行抽取,也就是我們通常所說的信息抽取(IE)。網(wǎng)頁(yè)與一般的文本或結(jié)構(gòu)化文本不同,它是一種半結(jié)構(gòu)化的文本文檔,其中混合了顯示文本,標(biāo)記符,弱文法文本。從半結(jié)構(gòu)文本中提取數(shù)據(jù),一個(gè)通用的技術(shù)就是建立一個(gè)包(Wapper),它通常由一系列提取規(guī)則來標(biāo)識(shí)出網(wǎng)頁(yè)中的文本片段。目前主要的信息抽取方法是先通過人工構(gòu)造一些標(biāo)記好的訓(xùn)練集網(wǎng)頁(yè),然后包根據(jù)訓(xùn)練集自動(dòng)或人工產(chǎn)生的提取規(guī)則對(duì)相同網(wǎng)站進(jìn)行數(shù)據(jù)提取。目前這種方法擁有不錯(cuò)的性能,而且對(duì)這種方法也有很多不同的技術(shù)提出來。但他們都存在一個(gè)共同的缺陷需要人工參與,成本高,耗時(shí)長(zhǎng),單調(diào)而且容易出錯(cuò)。更加重要的是對(duì)于新的網(wǎng)站,需要人工參與再開發(fā)新的包(Wapper)來,擴(kuò)展性太差。針對(duì)這種情況,提出了一種自動(dòng)信息抽取方法,它能夠根據(jù)用戶選取的本行業(yè)的不同網(wǎng)站的幾個(gè)標(biāo)記好的網(wǎng)頁(yè)對(duì)一個(gè)新的同領(lǐng)域網(wǎng)站自動(dòng)產(chǎn)生一個(gè)能精確提取該網(wǎng)站數(shù)據(jù)的信息抽取包而且完全不用人工參與。"槽"就是用戶感興趣的內(nèi)容項(xiàng)類別,將未知文本判別出它的類別稱之為裝槽。本文描述的自動(dòng)信息抽取方法側(cè)重對(duì)預(yù)定義槽之間的相互關(guān)系進(jìn)行分析,針對(duì)網(wǎng)站設(shè)計(jì)的風(fēng)格排除大量的無用文本。并通過獲取網(wǎng)頁(yè)的視覺和結(jié)構(gòu)信息對(duì)待判斷文本內(nèi)容進(jìn)行進(jìn)一步地壓縮。在該方法中建立了一套準(zhǔn)確的權(quán)值賦予公式,通過對(duì)文本內(nèi)容各種分析對(duì)文本內(nèi)容做低成本而高效的確定。參考文獻(xiàn)CALIFF,M.E.ANDMOONEY,R.J.2003.基于自底向上的方法學(xué)習(xí)模式匹配規(guī)貝U.(Bottom-uprelationallearningofpatternmatchingrulesforinformationextraction.)J.Mach.Learn,Res.4,177—210.DOWNEY,D.,ETZIONI,O.,ANDSODERLAND,S.2005.信息抽取中冗余度的概率模型.(Aprobabilisticmodelofredundancyininformationextraction.)InProceedingsoftheEleventhInternationalJointConferenceonArtificialIntelligence(IJCAI),103H041.MUSLEA,I"MINTON,S.,ANDKNOBLOCK,C.2001.在半結(jié)構(gòu)化的信息源中使用層次化的封裝歸納法.(Hierarchicalwrapperinductionforsemistructuredinformationsources.)J.AutonomousAgentsandMulti-AgentSystems4(1-2),93—114.WolfgangGatterbauer,PaulBohunsky,MarcusHerzog,BernhardKruplandBernhardPollak.2007.與域無關(guān)的表格信息抽取.(TowardsDomain-IndependentInformationExtractionfromWebTables.)Inthesessionofidentifyingstructureinwebpages.KUSHMERICK,N.ANDTHOMAS,B.2002.自適應(yīng)的信息抽取方法信,昆寸戈理的關(guān)鍵技術(shù).(Adaptiveinformationextraction:Coretechnologiesforinformationagents.)InIntelligentsInformationAgentsR&DInEurope:AnAgentLinkPerspective,79~103.BLEI,D.,BAGNELL,J.,ANDMCCALLUM,A.2002.領(lǐng)域?qū)W習(xí)算法,及其在信息抽取與分類中的應(yīng)用.(Learningwithscope,withapplicationtoinformationextractionandclassification.)InProceedingsoftheEighteenthConferenceonUncertaintyinArtificialIntelligence(UAI),53~60.COHEN,W.W.,HURST,M.,ANDJENSEN,L.2002.HTML文檔中針對(duì)封裝表格和列表的靈活的學(xué)習(xí)系統(tǒng).(AflexiblelearningsystemforwrappingtablesandlistsinHTMLdocuments.)InProceedingsoftheEleventhInternationalWorldWideWebHOGUE,A.ANDKARGER5D.2005.語(yǔ)意提取器自動(dòng)提取萬維網(wǎng)中的語(yǔ)意信息.(Thresher:AutomatingtheunwrappingofsemanticcontentfromtheWorldWideweb.)InProceedingsoftheFourteenthInternationalWorldWideWebConference(WWW),86~95.Conference(WWW),232-241.
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè),并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹,選取第l個(gè)網(wǎng)頁(yè)為主頁(yè),通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較,如果文檔對(duì)象模型樹之間相同路徑下文本存在不同,在主頁(yè)中把不同文本標(biāo)記為有用文本;2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí),將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別,計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重,反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本,建立多個(gè)符合預(yù)定義槽記錄的文本候選集合;3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性,同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息,確定文本的分布;4)從第一個(gè)記錄的文本候選集合開始,分別計(jì)算任意兩文本之間的連貫系數(shù),表達(dá)兩文本之間的相互結(jié)構(gòu)特征,顯示特征,距離特征以及兩文本之間的上下文環(huán)境特征,并記錄下兩文本分別對(duì)應(yīng)的槽的位置;5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量,多個(gè)記錄形成一個(gè)向量集合,向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算,記錄相似度最高的向量,并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址,收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè),將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽,對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì),得到每個(gè)槽的文本長(zhǎng)度,經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn),組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷,滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值,權(quán)值不大于h然后再對(duì)剩下的規(guī)則進(jìn)行嘗試,滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值,再迭加到前面的權(quán)重中。所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì),分別計(jì)算兩兩之間的連貫系數(shù),作為向量的一維,并記錄下對(duì)應(yīng)的槽間位置。所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后,按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定,組成一個(gè)侯選向量集(D1,D2,D3,…,Dn},預(yù)先學(xué)習(xí)得到的槽向量為T=UU2,A...,^},其中義為槽間的連貫系數(shù),相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量,T為標(biāo)準(zhǔn)向量,m為向量的維數(shù),;U'為向量Di的第k維,/U為向量T的第k維。所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段,同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù);對(duì)于坐標(biāo)Xl,yl和x2,y2和坐標(biāo)為xr,yl,和x2,,y2,兩個(gè)模塊而言,其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo),它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù)A由下面的公式得來-其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值,F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值,C為比較兩模塊中的文字背景顏色的函數(shù)的返回值,坐標(biāo)x,,y,和x,y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo),義為兩文本之間的連貫系數(shù)。a,S2,S3連貫系分別為調(diào)節(jié)系數(shù),分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度,在實(shí)驗(yàn)時(shí)分別為0.8,0.7和0.9。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)通過對(duì)文檔對(duì)象結(jié)構(gòu)進(jìn)行重復(fù)標(biāo)簽標(biāo)記,確定唯一路徑,大大減少進(jìn)行有用文本片段提取的時(shí)間,提高了效率;2)基于槽間相對(duì)關(guān)系的信息提取可以說是把握了本領(lǐng)域的網(wǎng)站共同特征,對(duì)于不同網(wǎng)站均可自動(dòng)產(chǎn)生新的信息提取包,可擴(kuò)展性好;3)充分利用了網(wǎng)頁(yè)的視覺結(jié)構(gòu)特征,極大地提高了信息數(shù)據(jù)提取的準(zhǔn)確度。4)完全采用自動(dòng)的學(xué)習(xí)方法,解決了人工參與監(jiān)督提取的重復(fù)和單調(diào)的工作,降低了成本。圖1為本基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取平臺(tái)的框架組件圖;圖2為本發(fā)明的工作流程圖。具體實(shí)施例方式基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè),并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹,選取第l個(gè)網(wǎng)頁(yè)為主頁(yè),通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較,如果文檔對(duì)象模型樹之間相同路徑下文本存在不同,在主頁(yè)中把不同文本標(biāo)記為有用文本;2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí),將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別,計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重,反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本,建立多個(gè)符合預(yù)定義槽記錄的文本候選集合;3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性,同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息,確定文本的分布;4)從第一個(gè)記錄的文本候選集合開始,分別計(jì)算任意兩文本之間的連貫系數(shù),表達(dá)兩文本之間的相互結(jié)構(gòu)特征,顯示特征,距離特征以及兩文本之間的上下文環(huán)境特征,并記錄下兩文本分別對(duì)應(yīng)的槽的位置;5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量,多個(gè)記錄形成一個(gè)向量集合,向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算,記錄相似度最高的向量,并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址,收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè),將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽,對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì),得到每個(gè)槽的文本長(zhǎng)度,經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn),組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷,滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值,權(quán)值不大于l;然后再對(duì)剩下的規(guī)則進(jìn)行嘗試,滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值,再迭加到前面的權(quán)重中。所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì),分別計(jì)算兩兩之間的連貫系數(shù),作為向量的一維,并記錄下對(duì)應(yīng)的槽間位置。所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后,按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定,組成一個(gè)侯選向量集(D1,D2,D3,,Dn},預(yù)先學(xué)習(xí)得到的槽向量為T=UU2,A3,...,h},其中義為槽間的連貫系數(shù),相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量,T為標(biāo)準(zhǔn)向量,m為向量的維數(shù),;U'為向量Di的第k維,A為向量T的第k維。所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段,同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù);對(duì)于坐標(biāo)Xl,yl和x2,y2和坐標(biāo)為xl,,yr和x2',y2,兩個(gè)模塊而言,其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo),它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù)A由下面的公式得來<formula>formulaseeoriginaldocumentpage9</formula>其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值,F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值,C為比較兩模塊中的文字背景顏色的函數(shù)的返回值,坐標(biāo)x,,y,和x,y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo),A為兩文本之間的連貫系數(shù)。a,&,"連貫系分別為調(diào)節(jié)系數(shù),分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度,在實(shí)驗(yàn)時(shí)分別為0.8,0.7和0.9。比如當(dāng)用戶想要建立旅游領(lǐng)域的垂直搜索引擎時(shí),只需要提供該領(lǐng)域中幾個(gè)不同網(wǎng)站的一個(gè)目標(biāo)網(wǎng)頁(yè),該方法首先在搜索端對(duì)提供的每個(gè)網(wǎng)站目標(biāo)網(wǎng)頁(yè)的相鄰網(wǎng)頁(yè)進(jìn)行收集,并對(duì)用戶在網(wǎng)頁(yè)中指定的數(shù)據(jù)內(nèi)容即槽包括景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲進(jìn)行統(tǒng)計(jì)分析和學(xué)習(xí),在本方法中學(xué)習(xí)的內(nèi)容分為兩個(gè)部分目標(biāo)內(nèi)容的描述規(guī)則以及內(nèi)容之間的結(jié)構(gòu)、視覺關(guān)系。l.內(nèi)容描述規(guī)則的學(xué)習(xí)對(duì)每個(gè)屬性(槽)建立長(zhǎng)度規(guī)則、內(nèi)容包含規(guī)則以及內(nèi)容形式規(guī)則。長(zhǎng)度規(guī)則主要對(duì)訓(xùn)練集中同一類內(nèi)容的長(zhǎng)度進(jìn)行計(jì)算,計(jì)算出該類內(nèi)容的最長(zhǎng)長(zhǎng)度和最短長(zhǎng)度以及出現(xiàn)次數(shù)最多的長(zhǎng)度和它在文獻(xiàn)中占據(jù)的比重;內(nèi)容包含規(guī)則利用文檔頻率(DF)來對(duì)內(nèi)容經(jīng)常包含的關(guān)鍵詞進(jìn)行收集,每個(gè)關(guān)鍵字的權(quán)重為它的DF除以總的文獻(xiàn)數(shù)。對(duì)于內(nèi)容長(zhǎng)度大于50的文本,取權(quán)重大于某個(gè)閥值e的關(guān)鍵字組成代表該內(nèi)容的向量。內(nèi)容形式規(guī)則主要對(duì)內(nèi)容的形式進(jìn)行學(xué)習(xí),在本文中僅僅只一個(gè)檢査字符串是否具由數(shù)字或非字母的特殊字符串方法(僅對(duì)文本長(zhǎng)度低于20的文本進(jìn)行學(xué)習(xí))。2相互關(guān)系的學(xué)習(xí)所謂內(nèi)容之間的相互關(guān)系其實(shí)是指它們的結(jié)構(gòu)和視覺上的相互關(guān)系,在本文中用一個(gè)值來表示它,這個(gè)值在文中被稱為連貫系數(shù);i。A是一個(gè)代表兩文本之間的距離、上下文環(huán)境、顯示背景以及自身字體的差距的一個(gè)數(shù)值。它的公式如下<formula>formulaseeoriginaldocumentpage10</formula>T代表html代碼中標(biāo)簽對(duì)文本相互關(guān)系的相互影響,初始值為1。在T的計(jì)算中,先預(yù)先設(shè)定能有限分離文本表達(dá)連貫性的標(biāo)簽的權(quán)重(都為經(jīng)驗(yàn)值),它們的權(quán)重都設(shè)定為不大于l;當(dāng)發(fā)現(xiàn)兩文本之間存在設(shè)定的標(biāo)簽時(shí),T不斷乘上它們?cè)O(shè)定的影響權(quán)重。F在兩文本的字體屬性相同時(shí)設(shè)置為1,不同時(shí)設(shè)置為0。C在兩文本背景顏色相同時(shí)設(shè)置為1,不相同時(shí)直接設(shè)置為O。a、^、£3分別為標(biāo)簽、字體以及背景顏色對(duì)連貫系數(shù)的影響因子,初步設(shè)為0.8、0.7和0.9。d為兩文本的相對(duì)距離。將不同網(wǎng)站的一個(gè)網(wǎng)頁(yè)標(biāo)記的內(nèi)容兩兩配對(duì)分別進(jìn)行連貫系數(shù)地計(jì)算,得到一個(gè)大的向量。n個(gè)網(wǎng)站將產(chǎn)生n個(gè)向量,將向量的每一維分別取其平均值將得到一個(gè)新的向量,這個(gè)向量就是代表槽間相互關(guān)系的標(biāo)準(zhǔn)每當(dāng)對(duì)新的旅游行業(yè)網(wǎng)站的網(wǎng)頁(yè)進(jìn)行信息抽取時(shí),在本方法中稱為主頁(yè),該方法首先獲取IO個(gè)與主頁(yè)相鄰的網(wǎng)頁(yè),由于目前比較正規(guī)的網(wǎng)站的設(shè)計(jì)都遵循好的可擴(kuò)展性原則,相鄰網(wǎng)頁(yè)之間存在相似的網(wǎng)頁(yè)結(jié)構(gòu),所以這些網(wǎng)頁(yè)與主頁(yè)存在結(jié)構(gòu)上的相似,它們?cè)诒痉椒ㄖ蟹Q為參照頁(yè)。對(duì)主頁(yè)和參照頁(yè)集分別建立文檔對(duì)象模型樹,對(duì)主頁(yè)文檔對(duì)象模型和參照頁(yè)對(duì)象模型進(jìn)行遍歷和對(duì)比,將相同路徑下不同文本標(biāo)記出來,同時(shí)將在主頁(yè)中將數(shù)據(jù)內(nèi)容用標(biāo)記出來,通過掃描標(biāo)記好的超文本標(biāo)記語(yǔ)言代碼,獲取完所有的有用文本之后,利用學(xué)習(xí)得到的內(nèi)容規(guī)則,對(duì)文本進(jìn)行初步分類。利用用戶標(biāo)記好的網(wǎng)頁(yè)建立好槽,即用戶想要得到的具體數(shù)據(jù)內(nèi)容屬性項(xiàng),分類的結(jié)果得到各文本相對(duì)各個(gè)槽的權(quán)重。從第一個(gè)槽即景點(diǎn)名開始,選擇超過規(guī)定閥值的文本將它初步地裝入槽中,裝入后開始進(jìn)行第二個(gè)槽的裝入工作,已經(jīng)裝入的將不再做選擇,如果文本相對(duì)槽的權(quán)重等于或接近于l,也不會(huì)對(duì)它進(jìn)行其它槽的裝入工作。當(dāng)所有的槽裝入文本后,按照順序記錄下這些裝入的文本,同時(shí)開始第二次裝槽工作,并保證每次裝槽過程不能重復(fù)。如此不斷循環(huán),直到所有大于權(quán)重閥值的文本進(jìn)入對(duì)應(yīng)的槽中。這樣得到一個(gè)文本相對(duì)景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲等槽的一個(gè)總的侯選集。在標(biāo)記好的主頁(yè)上,通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取每一條文本候選集記錄的多個(gè)文本片段的背景顏色和字體屬性,同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息,確定文本的分布;利用前面提到的連貫系數(shù)的公式,通過對(duì)侯選集中景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲兩兩之間分別進(jìn)行連貫系數(shù)的計(jì)算,得到侯選集向量,將每個(gè)侯選集向量和標(biāo)準(zhǔn)向量分別進(jìn)行相似性比較,將相似性最高的向量對(duì)應(yīng)的文本進(jìn)行裝槽。這樣屬于景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲的文本都被判別出來。記錄下判斷好的文本的上下文環(huán)境即可以完成對(duì)與主頁(yè)相似的所有網(wǎng)頁(yè)的信息抽取。權(quán)利要求1、一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其過程是包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè),并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹,選取第1個(gè)網(wǎng)頁(yè)為主頁(yè),通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較,如果文檔對(duì)象模型樹之間相同路徑下文本存在不同,在主頁(yè)中把不同文本標(biāo)記為有用文本;2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí),將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別,計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重,反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本,建立多個(gè)符合預(yù)定義槽記錄的文本候選集合;3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性,同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息,確定文本的分布;4)從第一個(gè)記錄的文本候選集合開始,分別計(jì)算任意兩文本之間的連貫系數(shù),表達(dá)兩文本之間的相互結(jié)構(gòu)特征,顯示特征,距離特征以及兩文本之間的上下文環(huán)境特征,并記錄下兩文本分別對(duì)應(yīng)的槽的位置;5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量,多個(gè)記錄形成一個(gè)向量集合,向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算,記錄相似度最高的向量,并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。2、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其特征在于所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址,收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè),將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽,對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì),得到每個(gè)槽的文本長(zhǎng)度,經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn),組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。3、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其特征在于所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷,滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值,權(quán)值不大于l;然后再對(duì)剩下的規(guī)則進(jìn)行嘗試,滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值,再迭加到前面的權(quán)重中。4、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其特征在于所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì),分別計(jì)算兩兩之間的連貫系數(shù),作為向量的一維,并記錄下對(duì)應(yīng)的槽間位置。5、根據(jù)權(quán)利要求1所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其特征在于所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后,按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定,組成一個(gè)侯選向量集(D1,D2,D3,…,Dn},預(yù)先學(xué)習(xí)得到的槽向量為T=Ul,A2,;i3,...,h},其中義為槽間的連貫系數(shù),相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量,T為標(biāo)準(zhǔn)向量,m為向量的維數(shù),A'為向量Di的第k維,^為向量T的第k維。6、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法,其特征在于所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段,同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù);對(duì)于坐標(biāo)xl,yl和x2,y2和坐標(biāo)為xr,yl,和x2,,y2,兩個(gè)模塊而言,其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo),它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù);i由下面的公式得來<formula>formulaseeoriginaldocumentpage3</formula>其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值,F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值,C為比較兩模塊中的文字背景顏色的函數(shù)的返回值,坐標(biāo)x,,y,和x,y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo),義為兩文本之間的連貫系數(shù)。a,&,"連貫系分別為調(diào)節(jié)系數(shù),分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度,在實(shí)驗(yàn)時(shí)分別為0.8,0.7和0.9。全文摘要本發(fā)明公開了一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。本方法針對(duì)目前自動(dòng)網(wǎng)頁(yè)信息抽取方法中,抽取精度偏低,信息抽取包裝器擴(kuò)展性和適應(yīng)性差等缺點(diǎn),利用正規(guī)網(wǎng)站的相鄰網(wǎng)頁(yè)集的相似特點(diǎn)以及特定行業(yè)的網(wǎng)頁(yè)組織特色,通過迭代求權(quán)的方法對(duì)行業(yè)數(shù)據(jù)進(jìn)行過濾,分類和辨別。同時(shí)通過建立向量模型來代表槽間相互關(guān)系,極大地提高了數(shù)據(jù)內(nèi)容的辨別粒度,簡(jiǎn)化了數(shù)據(jù)識(shí)別過程,而且成本低廉。同以往的人工、半人工以及自動(dòng)信息提取系統(tǒng)不同,該方法屏蔽了大量無用的文本信息,摒棄了從眾多紛雜信息中利用規(guī)則來標(biāo)識(shí)信息的盲目性。通過利用槽空間局部特點(diǎn)更加縮小待處理有用數(shù)據(jù)的范圍,為精確判斷文本內(nèi)容提供了環(huán)境基礎(chǔ)。文檔編號(hào)G06F17/30GK101350019SQ200810063618公開日2009年1月21日申請(qǐng)日期2008年6月20日優(yōu)先權(quán)日2008年6月20日發(fā)明者馮明遠(yuǎn),林懷忠,意陳申請(qǐng)人:浙江大學(xué)