基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法

文檔序號(hào)：6460537閱讀：215來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。
背景技術(shù)：
：Web信息的爆炸性增長(zhǎng)，給我們帶來了獲取更多信息的機(jī)會(huì)，同時(shí)，也增加了在紛繁復(fù)雜的Web信息庫(kù)中準(zhǔn)確地獲取信息的困難。目前人們主要通過利用搜索引擎來獲得信息。例如，一個(gè)潛在的旅游客戶可能會(huì)利用一個(gè)旅游搜索引擎去獲得各種旅游景點(diǎn)的一些精確信息如景點(diǎn)名，景點(diǎn)所在地，門票價(jià)格，旅游路線等等。目前的主流通用搜索引擎可以提供的搜索結(jié)果是整篇關(guān)于旅游景點(diǎn)的網(wǎng)頁(yè)。但返回網(wǎng)頁(yè)中還存在太多無關(guān)景點(diǎn)的信息，用戶還需努力從返回網(wǎng)頁(yè)中去提取更為精確的信息。垂直搜索可以代替用戶來解決這類問題。所謂垂直搜索，是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求而提供的有價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是專、精、深，且具有鮮明的行業(yè)色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務(wù)，致力于某一特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入。這個(gè)領(lǐng)域外的閑雜信息不被收錄?？偠灾?，它需要對(duì)采集的信息進(jìn)行抽取，也就是我們通常所說的信息抽取(IE)。網(wǎng)頁(yè)與一般的文本或結(jié)構(gòu)化文本不同，它是一種半結(jié)構(gòu)化的文本文檔，其中混合了顯示文本，標(biāo)記符，弱文法文本。從半結(jié)構(gòu)文本中提取數(shù)據(jù)，一個(gè)通用的技術(shù)就是建立一個(gè)包(Wapper)，它通常由一系列提取規(guī)則來標(biāo)識(shí)出網(wǎng)頁(yè)中的文本片段。目前主要的信息抽取方法是先通過人工構(gòu)造一些標(biāo)記好的訓(xùn)練集網(wǎng)頁(yè)，然后包根據(jù)訓(xùn)練集自動(dòng)或人工產(chǎn)生的提取規(guī)則對(duì)相同網(wǎng)站進(jìn)行數(shù)據(jù)提取。目前這種方法擁有不錯(cuò)的性能，而且對(duì)這種方法也有很多不同的技術(shù)提出來。但他們都存在一個(gè)共同的缺陷需要人工參與，成本高，耗時(shí)長(zhǎng)，單調(diào)而且容易出錯(cuò)。更加重要的是對(duì)于新的網(wǎng)站，需要人工參與再開發(fā)新的包(Wapper)來，擴(kuò)展性太差。針對(duì)這種情況，提出了一種自動(dòng)信息抽取方法，它能夠根據(jù)用戶選取的本行業(yè)的不同網(wǎng)站的幾個(gè)標(biāo)記好的網(wǎng)頁(yè)對(duì)一個(gè)新的同領(lǐng)域網(wǎng)站自動(dòng)產(chǎn)生一個(gè)能精確提取該網(wǎng)站數(shù)據(jù)的信息抽取包而且完全不用人工參與。"槽"就是用戶感興趣的內(nèi)容項(xiàng)類別，將未知文本判別出它的類別稱之為裝槽。本文描述的自動(dòng)信息抽取方法側(cè)重對(duì)預(yù)定義槽之間的相互關(guān)系進(jìn)行分析，針對(duì)網(wǎng)站設(shè)計(jì)的風(fēng)格排除大量的無用文本。并通過獲取網(wǎng)頁(yè)的視覺和結(jié)構(gòu)信息對(duì)待判斷文本內(nèi)容進(jìn)行進(jìn)一步地壓縮。在該方法中建立了一套準(zhǔn)確的權(quán)值賦予公式，通過對(duì)文本內(nèi)容各種分析對(duì)文本內(nèi)容做低成本而高效的確定。參考文獻(xiàn)CALIFF,M.E.ANDMOONEY，R.J.2003.基于自底向上的方法學(xué)習(xí)模式匹配規(guī)貝U.(Bottom-uprelationallearningofpatternmatchingrulesforinformationextraction.)J.Mach.Learn,Res.4，177—210.DOWNEY,D.，ETZIONI，O.，ANDSODERLAND，S.2005.信息抽取中冗余度的概率模型.(Aprobabilisticmodelofredundancyininformationextraction.)InProceedingsoftheEleventhInternationalJointConferenceonArtificialIntelligence(IJCAI)，103H041.MUSLEA，I"MINTON，S.，ANDKNOBLOCK，C.2001.在半結(jié)構(gòu)化的信息源中使用層次化的封裝歸納法.(Hierarchicalwrapperinductionforsemistructuredinformationsources.)J.AutonomousAgentsandMulti-AgentSystems4(1-2),93—114.WolfgangGatterbauer,PaulBohunsky,MarcusHerzog,BernhardKruplandBernhardPollak.2007.與域無關(guān)的表格信息抽取.(TowardsDomain-IndependentInformationExtractionfromWebTables.)Inthesessionofidentifyingstructureinwebpages.KUSHMERICK，N.ANDTHOMAS,B.2002.自適應(yīng)的信息抽取方法信,昆寸戈理的關(guān)鍵技術(shù).(Adaptiveinformationextraction:Coretechnologiesforinformationagents.)InIntelligentsInformationAgentsR&DInEurope:AnAgentLinkPerspective，79~103.BLEI，D.，BAGNELL，J.,ANDMCCALLUM，A.2002.領(lǐng)域?qū)W習(xí)算法，及其在信息抽取與分類中的應(yīng)用.(Learningwithscope,withapplicationtoinformationextractionandclassification.)InProceedingsoftheEighteenthConferenceonUncertaintyinArtificialIntelligence(UAI)，53~60.COHEN，W.W.，HURST，M.，ANDJENSEN,L.2002.HTML文檔中針對(duì)封裝表格和列表的靈活的學(xué)習(xí)系統(tǒng).(AflexiblelearningsystemforwrappingtablesandlistsinHTMLdocuments.)InProceedingsoftheEleventhInternationalWorldWideWebHOGUE，A.ANDKARGER5D.2005.語(yǔ)意提取器自動(dòng)提取萬維網(wǎng)中的語(yǔ)意信息.(Thresher:AutomatingtheunwrappingofsemanticcontentfromtheWorldWideweb.)InProceedingsoftheFourteenthInternationalWorldWideWebConference(WWW),86~95.Conference(WWW),232-241.
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè)，并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹，選取第l個(gè)網(wǎng)頁(yè)為主頁(yè)，通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較，如果文檔對(duì)象模型樹之間相同路徑下文本存在不同，在主頁(yè)中把不同文本標(biāo)記為有用文本；2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí)，將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別，計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重，反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本，建立多個(gè)符合預(yù)定義槽記錄的文本候選集合；3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性，同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息，確定文本的分布；4)從第一個(gè)記錄的文本候選集合開始，分別計(jì)算任意兩文本之間的連貫系數(shù)，表達(dá)兩文本之間的相互結(jié)構(gòu)特征，顯示特征，距離特征以及兩文本之間的上下文環(huán)境特征，并記錄下兩文本分別對(duì)應(yīng)的槽的位置；5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量，多個(gè)記錄形成一個(gè)向量集合，向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算，記錄相似度最高的向量，并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址，收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè)，將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽，對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì)，得到每個(gè)槽的文本長(zhǎng)度，經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn)，組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷，滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值，權(quán)值不大于h然后再對(duì)剩下的規(guī)則進(jìn)行嘗試，滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值，再迭加到前面的權(quán)重中。所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì)，分別計(jì)算兩兩之間的連貫系數(shù)，作為向量的一維，并記錄下對(duì)應(yīng)的槽間位置。所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后，按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定，組成一個(gè)侯選向量集(D1，D2，D3，…，Dn}，預(yù)先學(xué)習(xí)得到的槽向量為T=UU2,A...，^}，其中義為槽間的連貫系數(shù)，相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量，T為標(biāo)準(zhǔn)向量，m為向量的維數(shù)，；U'為向量Di的第k維，/U為向量T的第k維。所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段，同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù)；對(duì)于坐標(biāo)Xl，yl和x2，y2和坐標(biāo)為xr，yl，和x2，,y2，兩個(gè)模塊而言，其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo)，它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù)A由下面的公式得來-其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值，F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值，C為比較兩模塊中的文字背景顏色的函數(shù)的返回值，坐標(biāo)x，，y，和x，y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo)，義為兩文本之間的連貫系數(shù)。a，S2,S3連貫系分別為調(diào)節(jié)系數(shù)，分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度，在實(shí)驗(yàn)時(shí)分別為0.8，0.7和0.9。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)通過對(duì)文檔對(duì)象結(jié)構(gòu)進(jìn)行重復(fù)標(biāo)簽標(biāo)記，確定唯一路徑，大大減少進(jìn)行有用文本片段提取的時(shí)間，提高了效率；2)基于槽間相對(duì)關(guān)系的信息提取可以說是把握了本領(lǐng)域的網(wǎng)站共同特征，對(duì)于不同網(wǎng)站均可自動(dòng)產(chǎn)生新的信息提取包，可擴(kuò)展性好；3)充分利用了網(wǎng)頁(yè)的視覺結(jié)構(gòu)特征，極大地提高了信息數(shù)據(jù)提取的準(zhǔn)確度。4)完全采用自動(dòng)的學(xué)習(xí)方法，解決了人工參與監(jiān)督提取的重復(fù)和單調(diào)的工作，降低了成本。圖1為本基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取平臺(tái)的框架組件圖；圖2為本發(fā)明的工作流程圖。具體實(shí)施例方式基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè)，并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹，選取第l個(gè)網(wǎng)頁(yè)為主頁(yè)，通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較，如果文檔對(duì)象模型樹之間相同路徑下文本存在不同，在主頁(yè)中把不同文本標(biāo)記為有用文本；2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí)，將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別，計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重，反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本，建立多個(gè)符合預(yù)定義槽記錄的文本候選集合；3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性，同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息，確定文本的分布；4)從第一個(gè)記錄的文本候選集合開始，分別計(jì)算任意兩文本之間的連貫系數(shù)，表達(dá)兩文本之間的相互結(jié)構(gòu)特征，顯示特征，距離特征以及兩文本之間的上下文環(huán)境特征，并記錄下兩文本分別對(duì)應(yīng)的槽的位置；5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量，多個(gè)記錄形成一個(gè)向量集合，向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算，記錄相似度最高的向量，并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址，收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè)，將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽，對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì)，得到每個(gè)槽的文本長(zhǎng)度，經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn)，組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷，滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值，權(quán)值不大于l;然后再對(duì)剩下的規(guī)則進(jìn)行嘗試，滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值，再迭加到前面的權(quán)重中。所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì)，分別計(jì)算兩兩之間的連貫系數(shù)，作為向量的一維，并記錄下對(duì)應(yīng)的槽間位置。所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后，按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定，組成一個(gè)侯選向量集(D1，D2，D3，，Dn}，預(yù)先學(xué)習(xí)得到的槽向量為T=UU2,A3,...，h}，其中義為槽間的連貫系數(shù)，相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量，T為標(biāo)準(zhǔn)向量，m為向量的維數(shù)，；U'為向量Di的第k維，A為向量T的第k維。所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段，同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù)；對(duì)于坐標(biāo)Xl，yl和x2，y2和坐標(biāo)為xl，,yr和x2',y2，兩個(gè)模塊而言，其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo)，它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù)A由下面的公式得來<formula>formulaseeoriginaldocumentpage9</formula>其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值，F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值，C為比較兩模塊中的文字背景顏色的函數(shù)的返回值，坐標(biāo)x，，y，和x，y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo)，A為兩文本之間的連貫系數(shù)。a，&，"連貫系分別為調(diào)節(jié)系數(shù)，分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度，在實(shí)驗(yàn)時(shí)分別為0.8,0.7和0.9。比如當(dāng)用戶想要建立旅游領(lǐng)域的垂直搜索引擎時(shí)，只需要提供該領(lǐng)域中幾個(gè)不同網(wǎng)站的一個(gè)目標(biāo)網(wǎng)頁(yè)，該方法首先在搜索端對(duì)提供的每個(gè)網(wǎng)站目標(biāo)網(wǎng)頁(yè)的相鄰網(wǎng)頁(yè)進(jìn)行收集，并對(duì)用戶在網(wǎng)頁(yè)中指定的數(shù)據(jù)內(nèi)容即槽包括景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲進(jìn)行統(tǒng)計(jì)分析和學(xué)習(xí)，在本方法中學(xué)習(xí)的內(nèi)容分為兩個(gè)部分目標(biāo)內(nèi)容的描述規(guī)則以及內(nèi)容之間的結(jié)構(gòu)、視覺關(guān)系。l.內(nèi)容描述規(guī)則的學(xué)習(xí)對(duì)每個(gè)屬性(槽)建立長(zhǎng)度規(guī)則、內(nèi)容包含規(guī)則以及內(nèi)容形式規(guī)則。長(zhǎng)度規(guī)則主要對(duì)訓(xùn)練集中同一類內(nèi)容的長(zhǎng)度進(jìn)行計(jì)算，計(jì)算出該類內(nèi)容的最長(zhǎng)長(zhǎng)度和最短長(zhǎng)度以及出現(xiàn)次數(shù)最多的長(zhǎng)度和它在文獻(xiàn)中占據(jù)的比重；內(nèi)容包含規(guī)則利用文檔頻率(DF)來對(duì)內(nèi)容經(jīng)常包含的關(guān)鍵詞進(jìn)行收集，每個(gè)關(guān)鍵字的權(quán)重為它的DF除以總的文獻(xiàn)數(shù)。對(duì)于內(nèi)容長(zhǎng)度大于50的文本，取權(quán)重大于某個(gè)閥值e的關(guān)鍵字組成代表該內(nèi)容的向量。內(nèi)容形式規(guī)則主要對(duì)內(nèi)容的形式進(jìn)行學(xué)習(xí)，在本文中僅僅只一個(gè)檢査字符串是否具由數(shù)字或非字母的特殊字符串方法(僅對(duì)文本長(zhǎng)度低于20的文本進(jìn)行學(xué)習(xí))。2相互關(guān)系的學(xué)習(xí)所謂內(nèi)容之間的相互關(guān)系其實(shí)是指它們的結(jié)構(gòu)和視覺上的相互關(guān)系，在本文中用一個(gè)值來表示它，這個(gè)值在文中被稱為連貫系數(shù);i。A是一個(gè)代表兩文本之間的距離、上下文環(huán)境、顯示背景以及自身字體的差距的一個(gè)數(shù)值。它的公式如下<formula>formulaseeoriginaldocumentpage10</formula>T代表html代碼中標(biāo)簽對(duì)文本相互關(guān)系的相互影響，初始值為1。在T的計(jì)算中，先預(yù)先設(shè)定能有限分離文本表達(dá)連貫性的標(biāo)簽的權(quán)重(都為經(jīng)驗(yàn)值)，它們的權(quán)重都設(shè)定為不大于l;當(dāng)發(fā)現(xiàn)兩文本之間存在設(shè)定的標(biāo)簽時(shí)，T不斷乘上它們?cè)O(shè)定的影響權(quán)重。F在兩文本的字體屬性相同時(shí)設(shè)置為1，不同時(shí)設(shè)置為0。C在兩文本背景顏色相同時(shí)設(shè)置為1，不相同時(shí)直接設(shè)置為O。a、^、￡3分別為標(biāo)簽、字體以及背景顏色對(duì)連貫系數(shù)的影響因子，初步設(shè)為0.8、0.7和0.9。d為兩文本的相對(duì)距離。將不同網(wǎng)站的一個(gè)網(wǎng)頁(yè)標(biāo)記的內(nèi)容兩兩配對(duì)分別進(jìn)行連貫系數(shù)地計(jì)算，得到一個(gè)大的向量。n個(gè)網(wǎng)站將產(chǎn)生n個(gè)向量，將向量的每一維分別取其平均值將得到一個(gè)新的向量，這個(gè)向量就是代表槽間相互關(guān)系的標(biāo)準(zhǔn)每當(dāng)對(duì)新的旅游行業(yè)網(wǎng)站的網(wǎng)頁(yè)進(jìn)行信息抽取時(shí)，在本方法中稱為主頁(yè)，該方法首先獲取IO個(gè)與主頁(yè)相鄰的網(wǎng)頁(yè)，由于目前比較正規(guī)的網(wǎng)站的設(shè)計(jì)都遵循好的可擴(kuò)展性原則，相鄰網(wǎng)頁(yè)之間存在相似的網(wǎng)頁(yè)結(jié)構(gòu)，所以這些網(wǎng)頁(yè)與主頁(yè)存在結(jié)構(gòu)上的相似，它們?cè)诒痉椒ㄖ蟹Q為參照頁(yè)。對(duì)主頁(yè)和參照頁(yè)集分別建立文檔對(duì)象模型樹，對(duì)主頁(yè)文檔對(duì)象模型和參照頁(yè)對(duì)象模型進(jìn)行遍歷和對(duì)比，將相同路徑下不同文本標(biāo)記出來，同時(shí)將在主頁(yè)中將數(shù)據(jù)內(nèi)容用標(biāo)記出來，通過掃描標(biāo)記好的超文本標(biāo)記語(yǔ)言代碼，獲取完所有的有用文本之后，利用學(xué)習(xí)得到的內(nèi)容規(guī)則，對(duì)文本進(jìn)行初步分類。利用用戶標(biāo)記好的網(wǎng)頁(yè)建立好槽，即用戶想要得到的具體數(shù)據(jù)內(nèi)容屬性項(xiàng)，分類的結(jié)果得到各文本相對(duì)各個(gè)槽的權(quán)重。從第一個(gè)槽即景點(diǎn)名開始，選擇超過規(guī)定閥值的文本將它初步地裝入槽中，裝入后開始進(jìn)行第二個(gè)槽的裝入工作，已經(jīng)裝入的將不再做選擇，如果文本相對(duì)槽的權(quán)重等于或接近于l，也不會(huì)對(duì)它進(jìn)行其它槽的裝入工作。當(dāng)所有的槽裝入文本后，按照順序記錄下這些裝入的文本，同時(shí)開始第二次裝槽工作，并保證每次裝槽過程不能重復(fù)。如此不斷循環(huán)，直到所有大于權(quán)重閥值的文本進(jìn)入對(duì)應(yīng)的槽中。這樣得到一個(gè)文本相對(duì)景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲等槽的一個(gè)總的侯選集。在標(biāo)記好的主頁(yè)上，通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取每一條文本候選集記錄的多個(gè)文本片段的背景顏色和字體屬性，同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息，確定文本的分布；利用前面提到的連貫系數(shù)的公式，通過對(duì)侯選集中景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲兩兩之間分別進(jìn)行連貫系數(shù)的計(jì)算，得到侯選集向量，將每個(gè)侯選集向量和標(biāo)準(zhǔn)向量分別進(jìn)行相似性比較，將相似性最高的向量對(duì)應(yīng)的文本進(jìn)行裝槽。這樣屬于景點(diǎn)名、地點(diǎn)、介紹、住宿和餐飲的文本都被判別出來。記錄下判斷好的文本的上下文環(huán)境即可以完成對(duì)與主頁(yè)相似的所有網(wǎng)頁(yè)的信息抽取。權(quán)利要求1、一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其過程是包括以下步驟1)對(duì)搜索引擎搜索端抓取的每個(gè)網(wǎng)站的網(wǎng)頁(yè)集抽取8個(gè)網(wǎng)頁(yè)，并分別對(duì)網(wǎng)頁(yè)集的超文本標(biāo)記語(yǔ)言代碼建立文檔對(duì)象模型樹，選取第1個(gè)網(wǎng)頁(yè)為主頁(yè)，通過對(duì)主頁(yè)和其它網(wǎng)頁(yè)之間的文檔對(duì)象模型樹進(jìn)行比較，如果文檔對(duì)象模型樹之間相同路徑下文本存在不同，在主頁(yè)中把不同文本標(biāo)記為有用文本；2)對(duì)用戶標(biāo)記的網(wǎng)頁(yè)內(nèi)容進(jìn)行學(xué)習(xí)，將學(xué)習(xí)到的關(guān)于文本內(nèi)容和文本形式特點(diǎn)的規(guī)則對(duì)有用文本內(nèi)容進(jìn)行最初級(jí)的判別，計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重，反復(fù)對(duì)每個(gè)預(yù)定義槽選取權(quán)重大于某一閥值的文本，建立多個(gè)符合預(yù)定義槽記錄的文本候選集合；3)通過掃描超文本標(biāo)記語(yǔ)言代碼及其層疊樣式表單獲取文本候選集合中的多個(gè)文本片段的背景顏色和字體屬性，同時(shí)通過訪問開源瀏覽器mozilla中的盒子模型獲取文本侯選集中每個(gè)文本的位置信息，確定文本的分布；4)從第一個(gè)記錄的文本候選集合開始，分別計(jì)算任意兩文本之間的連貫系數(shù)，表達(dá)兩文本之間的相互結(jié)構(gòu)特征，顯示特征，距離特征以及兩文本之間的上下文環(huán)境特征，并記錄下兩文本分別對(duì)應(yīng)的槽的位置；5)將每一個(gè)記錄對(duì)應(yīng)的連貫系數(shù)組成一個(gè)向量，多個(gè)記錄形成一個(gè)向量集合，向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算，記錄相似度最高的向量，并將相似度最高的向量所對(duì)應(yīng)的文本侯選集記錄裝入槽中。2、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其特征在于所述的對(duì)用戶標(biāo)記內(nèi)容的學(xué)習(xí)的步驟根據(jù)用戶標(biāo)記好內(nèi)容的網(wǎng)頁(yè)的網(wǎng)址，收集所有跟用戶標(biāo)記好的網(wǎng)頁(yè)相鄰的網(wǎng)頁(yè)，將每個(gè)網(wǎng)頁(yè)中對(duì)應(yīng)標(biāo)記位置的文本進(jìn)行裝槽，對(duì)每個(gè)槽中文本的長(zhǎng)度、包含內(nèi)容以及文本內(nèi)容形式進(jìn)行統(tǒng)計(jì)，得到每個(gè)槽的文本長(zhǎng)度，經(jīng)常包含的文本內(nèi)容以及文本格式特點(diǎn)，組成對(duì)有用文本進(jìn)行初步判斷的規(guī)則。3、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其特征在于所述的計(jì)算出每個(gè)有用文本相對(duì)于預(yù)定義槽的相關(guān)權(quán)重步驟按照每個(gè)槽中的學(xué)習(xí)到的規(guī)則對(duì)輸入的文本片段進(jìn)行判斷，滿足規(guī)則就加上該規(guī)則對(duì)應(yīng)的權(quán)值，權(quán)值不大于l;然后再對(duì)剩下的規(guī)則進(jìn)行嘗試，滿足上一條規(guī)則就將前面規(guī)則權(quán)重與l差值的絕對(duì)值作為因子乘以新規(guī)則的權(quán)值，再迭加到前面的權(quán)重中。4、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其特征在于所述的標(biāo)準(zhǔn)向量為對(duì)用戶提交的標(biāo)記好文本進(jìn)行任意匹對(duì)，分別計(jì)算兩兩之間的連貫系數(shù)，作為向量的一維，并記錄下對(duì)應(yīng)的槽間位置。5、根據(jù)權(quán)利要求1所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其特征在于所述的向量集中每個(gè)向量與標(biāo)準(zhǔn)向量進(jìn)行相似度計(jì)算步驟當(dāng)把一個(gè)網(wǎng)頁(yè)中的有用文本片段標(biāo)記出來后，按照初始不變的提取規(guī)則進(jìn)行片段的向量維數(shù)確定，組成一個(gè)侯選向量集(D1，D2，D3，…，Dn}，預(yù)先學(xué)習(xí)得到的槽向量為T=Ul，A2,;i3,...，h}，其中義為槽間的連貫系數(shù)，相似值計(jì)算公式如下其中Di為文本候選集對(duì)應(yīng)的向量，T為標(biāo)準(zhǔn)向量，m為向量的維數(shù)，A'為向量Di的第k維，^為向量T的第k維。6、根據(jù)權(quán)利要求l所述的一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法，其特征在于所述的計(jì)算任意兩文本之間的連貫系數(shù)步驟通過對(duì)標(biāo)記文本按照標(biāo)準(zhǔn)向量的對(duì)應(yīng)原則分別選擇文本片段，同時(shí)從超文本標(biāo)記語(yǔ)言代碼中和開源瀏覽器中獲取前面提到的它們之間的各項(xiàng)特征分別計(jì)算兩兩之間的連貫系數(shù)；對(duì)于坐標(biāo)xl,yl和x2,y2和坐標(biāo)為xr，yl，和x2，，y2，兩個(gè)模塊而言，其中的兩個(gè)坐標(biāo)分別表示結(jié)點(diǎn)矩形模塊的左上坐標(biāo)和右下坐標(biāo)，它們用來表示模塊在瀏覽器中顯示的位置。其中連貫系數(shù);i由下面的公式得來<formula>formulaseeoriginaldocumentpage3</formula>其中T為受兩模塊之間標(biāo)簽影響的函數(shù)返回值，F(xiàn)為比較兩模塊中的文本字體屬性的函數(shù)的返回值，C為比較兩模塊中的文字背景顏色的函數(shù)的返回值，坐標(biāo)x，，y，和x，y分別為文本視覺塊矩形的左上點(diǎn)和右下點(diǎn)的坐標(biāo)，義為兩文本之間的連貫系數(shù)。a,&，"連貫系分別為調(diào)節(jié)系數(shù)，分別代表標(biāo)簽、字體和背景顏色在計(jì)算連貫系數(shù)時(shí)的重要程度，在實(shí)驗(yàn)時(shí)分別為0.8，0.7和0.9。全文摘要本發(fā)明公開了一種基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法。本方法針對(duì)目前自動(dòng)網(wǎng)頁(yè)信息抽取方法中，抽取精度偏低，信息抽取包裝器擴(kuò)展性和適應(yīng)性差等缺點(diǎn)，利用正規(guī)網(wǎng)站的相鄰網(wǎng)頁(yè)集的相似特點(diǎn)以及特定行業(yè)的網(wǎng)頁(yè)組織特色，通過迭代求權(quán)的方法對(duì)行業(yè)數(shù)據(jù)進(jìn)行過濾，分類和辨別。同時(shí)通過建立向量模型來代表槽間相互關(guān)系，極大地提高了數(shù)據(jù)內(nèi)容的辨別粒度，簡(jiǎn)化了數(shù)據(jù)識(shí)別過程，而且成本低廉。同以往的人工、半人工以及自動(dòng)信息提取系統(tǒng)不同，該方法屏蔽了大量無用的文本信息，摒棄了從眾多紛雜信息中利用規(guī)則來標(biāo)識(shí)信息的盲目性。通過利用槽空間局部特點(diǎn)更加縮小待處理有用數(shù)據(jù)的范圍，為精確判斷文本內(nèi)容提供了環(huán)境基礎(chǔ)。文檔編號(hào)G06F17/30GK101350019SQ200810063618公開日2009年1月21日申請(qǐng)日期2008年6月20日優(yōu)先權(quán)日2008年6月20日發(fā)明者馮明遠(yuǎn),林懷忠,意陳申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林懷忠;陳意;馮明遠(yuǎn)
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

向量自回歸模型相關(guān)技術(shù)

向量空間模型相關(guān)技術(shù)

詞向量模型相關(guān)技術(shù)

vsm向量空間模型相關(guān)技術(shù)

var向量自回歸模型相關(guān)技術(shù)

向量誤差修正模型相關(guān)技術(shù)

支持向量機(jī)模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于預(yù)定義槽間向量模型的網(wǎng)頁(yè)信息抽取方法