專利名稱:一種從網(wǎng)頁中抽取信息的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索和數(shù)據(jù)集成技術(shù)領(lǐng)域,特別涉及一種從網(wǎng)頁中抽取信息的方 法及裝置。
背景技術(shù):
Web自上世紀90年代初誕生以來便以驚人的速度發(fā)展,到目前Web已經(jīng)成為了世 界上最大的信息倉庫,覆蓋了現(xiàn)實世界的各個領(lǐng)域,成為了人類工作生活獲取信息主要途 徑。Web信息的發(fā)布主要是以網(wǎng)頁的形式實現(xiàn),據(jù)最新的估計,Web中網(wǎng)頁的數(shù)量已經(jīng)超過 7 550 個 billion,也就是 5500 億??梢姡W(wǎng)頁雖然是信息非常重要的數(shù)據(jù)來源,但由于Web中網(wǎng)站數(shù)量眾多,而且這 些信息所在的網(wǎng)頁通常會包還大量無用的噪音信息,嚴重影響對信息處理的效率和檢索的 質(zhì)量。因此,手工方式的訪問已經(jīng)無法滿足用戶信息獲取的需要,為了讓用戶更有效地訪問 和利用Web中海量的信息,目前,出現(xiàn)了各種Web信息搜索和集成相關(guān)的應(yīng)用,例如垂直搜 索引擎、輿情分析等。上述這些應(yīng)用的一個必要步驟就是將所需的信息從網(wǎng)頁中準確地抽取出來。但由 于絕大部分網(wǎng)頁都是以HTML語言編寫,文檔結(jié)構(gòu)化程度很低,而且缺乏語義的連續(xù)性,網(wǎng) 頁的非結(jié)構(gòu)化主要表現(xiàn)為1、信息的表現(xiàn)格式不一致,即表示相同類型語義的信息格式、表現(xiàn)形式多樣性化, 沒有統(tǒng)一的標準,例如在網(wǎng)頁中使用的字體以及在頁面中位置繁雜不一,日期地址表達格 式多樣化等。2、缺乏統(tǒng)一的布局標準,即沒有一種對同一類體裁的信息統(tǒng)一的布局標準。以新 聞為例,不同新聞網(wǎng)站之間新聞的各部分屬性信息在網(wǎng)頁的布局并不完全一致,比如新聞 的發(fā)布日期可能出現(xiàn)在標題的上方,也可能出現(xiàn)在標題的下方甚至是正文的下方。因此,目前從非結(jié)構(gòu)化格式的網(wǎng)頁中抽取信息的方法還有以下局限性抽取信息不完整,例如,對新聞信息的抽取目前只提出了新聞?wù)暮蜆祟}的抽取 方法,但新聞其它的相關(guān)信息在很多應(yīng)用中也起著非常重要的作用,發(fā)布時間在新聞搜索 引擎中是搜索結(jié)果排序的一個關(guān)鍵因素,但還沒有包括發(fā)布時間的抽取方法;抽取信息粒度過高,例如對新聞信息的抽取目前的方法主要是在網(wǎng)頁層次的抽 取,但由于新聞網(wǎng)頁通常包含大量無用的噪音信息,嚴重影響信息處理的質(zhì)量;抽取準確性不高且不穩(wěn)定,例如目前,新聞抽取的方法依賴于新聞網(wǎng)頁的模板, 但新聞網(wǎng)站之間的網(wǎng)頁模板存在著較大的差異,因此,抽取的準確性一般在80%左右,而且 不同網(wǎng)頁之間準確性波動較。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種從網(wǎng)頁中抽取信息的方法及裝置,用以解決現(xiàn)有技術(shù)中不 能從非結(jié)構(gòu)化格式的網(wǎng)頁中獲取準確的信息問題。
本發(fā)明實施例提供一種從網(wǎng)頁中抽取信息的方法,包括查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性候選集;根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系,查找至少兩種信 息屬性間的至少一個最大布局關(guān)系概率,并確定查找到的最大布局關(guān)系概率對應(yīng)的位置關(guān) 系;從所述至少兩種信息屬性對應(yīng)的信息屬性候選集中,抽取滿足所述位置關(guān)系的信 息屬性組合。本發(fā)明實施例提供一種從網(wǎng)頁中抽取信息的裝置,包括獲取單元,用于查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性 候選集確定單元,用于根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系, 查找至少兩種信息屬性間的至少一個最大布局關(guān)系概率,并確定查找到的最大布局關(guān)系概 率對應(yīng)的位置關(guān)系;抽取單元,用于從所述至少兩種信息屬性分別對應(yīng)的信息屬性候選集中,抽取滿 足所述位置關(guān)系的信息屬性組合。本發(fā)明實施例提供的從網(wǎng)頁中抽取信息的方法,首先查找網(wǎng)頁中的每種信息屬 性,獲取每種信息屬性對應(yīng)的信息屬性候選集,然后根據(jù)保存的信息屬性間的位置關(guān)系與 布局關(guān)系概率的對應(yīng)關(guān)系,查找至少兩種信息屬性間的至少一個最大布局關(guān)系概率,并確 定查找到的最大布局關(guān)系概率對應(yīng)的位置關(guān)系,并從所述至少兩種信息屬性對應(yīng)的信息屬 性候選集中,抽取滿足所述位置關(guān)系的信息屬性組合,這樣,根據(jù)信息屬性間的位置關(guān)系, 形成高相關(guān)性的聚類,從而可以從網(wǎng)頁中快速、準確地抽取出所需的信息。
圖1為本發(fā)明實施例從網(wǎng)頁中抽取信息的流程圖;圖2為本發(fā)明第一實施例中獲取新聞屬性候選集的流程圖;圖3為本發(fā)明第二實施例中從網(wǎng)頁中抽取信息的流程圖;圖4為本發(fā)明第二實施例中標題和作者的位置示意圖;圖5為本發(fā)明第二實施例中標題、作者和評論鏈接的位置示意圖;圖6為發(fā)明實施例從網(wǎng)頁中抽取信息的裝置結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例中,從網(wǎng)頁中查找網(wǎng)頁中包含的每種信息屬性,獲取每種信息屬性 對應(yīng)的信息屬性候選集,然后根據(jù)保存的信息屬性之間的位置關(guān)系與布局關(guān)系概率的對應(yīng) 關(guān)系,確定至少兩種信息屬性間的至少一個最大布局關(guān)系概率對應(yīng)的位置關(guān)系,從至少兩 種信息屬性對應(yīng)的屬性候選集中,抽取滿足每種信息屬性位置關(guān)系的信息屬性組合。其中, 信息屬性包括標題、發(fā)布時間、作者、評論鏈接、來源、正文、主題、相關(guān)信息或圖片等,則每 種信息屬性對應(yīng)的信息屬性候選集分別為標題候選集、發(fā)布時間候選集、作者候選集、評 論鏈接候選集、來源候選集、正文候選集、主題候選集、相關(guān)信息候選集、以及圖片候選集。 參見圖1,從網(wǎng)頁中抽取信息的具體過程包括
步驟101 查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性候選集。這里,信息屬性可以包括標題、發(fā)布時間、作者、評論鏈接、來源、正文、主題、相關(guān) 信息、圖片等中兩種,或多種。存儲單元中存儲了每種信息屬性對應(yīng)的抽取條件,當在網(wǎng)頁 中的查找到的信息屬性滿足對應(yīng)的抽取條件,就將查找到的信息屬性放入對應(yīng)的信息屬性 候選集中。步驟102 根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系,確定 至少兩種信息屬性間的至少一個最大布局關(guān)系概率對應(yīng)的位置關(guān)系。這里,首先在保存的 對應(yīng)關(guān)系中,查找至少兩種信息屬性間的至少一個最大布局關(guān)系概率,然后確定查找到的 最大布局關(guān)系概率對應(yīng)的位置關(guān)系。保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系可以表示為{(ai,aj), Rs, ρ}形式,其中(ai, aj)為信息屬性組合,用于表示兩種信息屬性ai和aj ;Rs為位置類 型,用于表示兩種信息屬性之間的位置關(guān)系類型,取值為1、2或3,1表示上下關(guān)系,2表示左 右關(guān)系,3表示相鄰關(guān)系;ρ為布局關(guān)系概率值(0-1),用于表示兩種信息屬性符合某種位置 關(guān)系的概率。根據(jù)上述保存的對應(yīng)關(guān)系,確定兩種信息屬性ai,aj之間ρ的最大值對應(yīng)的Rs。 例如保存的{(ai,aj),Rs,p}包括{(標題,發(fā)布時間),Rs = 1,P = 97. 6% },以及{(標 題,發(fā)布時間),Rs = 3,P = 100% },則P = 100%為最大值,其對應(yīng)的Rs = 3,則可以確定 信息屬性位置關(guān)系為標題和發(fā)布時間為相鄰關(guān)系。這里,網(wǎng)頁中只有兩種信息屬性時,則只需確定這兩種信息屬性的位置關(guān)系。網(wǎng)頁 中包括兩種以上信息屬性時,則需要確定至少一個最大布局關(guān)系概率對應(yīng)的兩種信息屬性 的位置關(guān)系。步驟103 從至少兩種信息屬性對應(yīng)的信息屬性候選集中,抽取滿足所述位置關(guān) 系的信息屬性組合。在本發(fā)明實施例步驟101中,每種信息屬性都可以包括一些子屬性,例如標題包 括的子屬性可以為字體、標簽、位置以及文本;作者包括的子屬性可以為字體、位置以及 文本。這樣,對于信息屬性的每種子屬性設(shè)定一定的條件,或者對信息屬性的一種或多種 子屬性設(shè)定一定的條件。例如存儲單元中存儲的標題對應(yīng)的抽取條件為信息標題的字 體必須大于15PX,顏色為黑色,則判斷待抽取的網(wǎng)頁中查找到的每個標題的字體是否大于 15PX,顏色是否為黑色,當發(fā)現(xiàn)信息標題Tl的字體大于15PX,且顏色為黑色,則可以將Tl作 為候選標題放入標題候選集中;存儲單元中存儲的發(fā)布時間對應(yīng)的抽取條件為發(fā)布時間 的位置必須在網(wǎng)頁的上半部分,且發(fā)布時間的字體顏色為黑色,則,判斷待抽取的網(wǎng)頁中查 找到的每個發(fā)布時間的位置是否在網(wǎng)頁的上半部分,以及對應(yīng)的發(fā)布時間的字體顏色是否 為黑色,當發(fā)現(xiàn)發(fā)布時間S2符合上述抽取條件,則將S2作為候選發(fā)布時間放入發(fā)布時間候 選集中。因此,這里,標題候選集可能會包括T1、T3、T5等候選標題;發(fā)布時間候選集可能 會包括S2、S3等候選發(fā)布時間;作者候選集可能會包括E3、E5等候選作者;評論鏈接候 選集可能會包括R1、R7等候選評論鏈接;來源候選集可能而沒有符合抽取條件的候選來 源、正文候選集可能會包括X1、X4、X6等候選正文;主題候選集可能會包括Y4、Y5等候選主題;相關(guān)信息候選集、以及圖片候選集都沒有符合抽取條件的候選相關(guān)信息以及候選圖 片。當然,本發(fā)明實施例中,信息屬性也可以只有標題、作者、正文這幾個,因此,也只 需要從待提取的網(wǎng)頁中,查找滿足各自設(shè)定條件的候選標題,候選作者以及候選正文,放入 對應(yīng)的標題候選集、作者候選集以及正文候選集中。當本發(fā)明實施例中網(wǎng)頁中包括兩種以上的信息屬性時,則上述步驟102可以只確 定第一信息屬性和第二信息屬性的第一最大布局關(guān)系概率對應(yīng)的第一位置關(guān)系;也可以首 先確定第一信息屬性和第二信息屬性的第一最大布局關(guān)系概率對應(yīng)的第一位置關(guān)系,再確 定第一信息屬性和第三信息屬性的第二最大布局關(guān)系概率對應(yīng)的第二位置關(guān)系;還可以確 定每兩種信息屬性之間的最大布局關(guān)系概率對應(yīng)的位置關(guān)系。例如網(wǎng)頁中包括標題,作者,發(fā)布時間,則可以確定標題與作者的屬性位置關(guān) 系為上下關(guān)系,標題與發(fā)布時間的屬性位置關(guān)系為相鄰關(guān)系,作者與發(fā)布時間的屬性位置 關(guān)系為相鄰關(guān)系這三種關(guān)系中的一種,兩種或三種。在本發(fā)明實施例步驟103中,當網(wǎng)頁中只有兩種信息屬性時,則可以從這兩種信 息屬性對應(yīng)的信息屬性候選集中,抽取滿足屬性位置關(guān)系的信息屬性組合放入當前的候選 組合集中,將當前的候選組合集中信息屬性組合作為抽取的信息輸出。在本發(fā)明實施例步驟103中,當網(wǎng)頁中包括多種信息屬性時,則可以首先從第一 信息屬性對應(yīng)的第一信息屬性候選集,以及第二信息屬性對應(yīng)的第二信息屬性候選集組成 的合集中,抽取滿足第一位置關(guān)系的信息屬性組合放入當前的候選組合集中;然后從當前 的候選組合集,以及第三信息屬性對應(yīng)的第三信息屬性候選集組成的合集中,抽取滿足第 二位置關(guān)系的信息屬性組合,并用抽取的信息屬性組合更新當前的候選組合集;最后將更 新后的當前的候選組合集中信息屬性組合作為抽取的信息輸出。以此類推,新增一種信息屬性,確定一個新增位置關(guān)系,就可以從當前的候選組合 集,以及新增息屬性對應(yīng)的信息屬性候選集組成的合集中,抽取滿足新增位置關(guān)系的信息 屬性組合,然后用抽取的信息屬性組合更新當前的候選組合集,將更新后的當前的候選組 合集中信息屬性組合作為抽取的信息輸出。例如當標題與作者的屬性位置關(guān)系為上下關(guān)系時,根據(jù)標題候選集中每個候選 標題的位置值,以及作者候選集中每個候選作者的位置值,抽取出候選標題在候選作者之 上的信息屬性組合,例如{T1、E2}、{T1、E3}、{T2、E3}符合候選標題在候選作者之上,則將 這三個信息屬性組合抽取出來放入當前的候選組合集中。當本發(fā)明實施例中,還確定了標 題與發(fā)布時間的屬性位置關(guān)系為相鄰關(guān)系時,則根據(jù)當前的候選組合集,以及發(fā)布時間候 選集組成的合集中,每個候選標題和每個候選發(fā)布時間的位置值,抽取候選標題與候選發(fā) 布時間相鄰的信息屬性組合。例如候選組合集包括{T1、E2}、{T1、E3}、{T2、E3};發(fā)布時 間候選集包括{S1、S2},則根據(jù)T1、T2、S1、S2的位置值,確定符合標題與發(fā)布時間相鄰關(guān)系 的組合為{T1、E2、S2},{T1、E3、S2},則可以用{T1、E2、S2},{T1、E3、S2}更新當前的候選 組合集,并輸出由Tl、E2、S2組成的信息,以及由Tl、E3、S2組成的信息。在本發(fā)明實施例步驟103中,當網(wǎng)頁中包括多種信息屬性時,還可以首先從第一 信息屬性對應(yīng)的第一信息屬性候選集,以及第二信息屬性對應(yīng)的第二信息屬性候選集組成 的合集中,抽取滿足第一位置關(guān)系的信息屬性組合放入當前的候選組合集中;然后從第一信息屬性對應(yīng)的第一信息屬性候選集,以及第三信息屬性對應(yīng)的第三信息屬性候選集組成 的合集中,抽取滿足第二位置關(guān)系的信息屬性組合放入當前的候選組合集中;將當前的候 選組合集中的信息屬性組合進行排列組合后,作為抽取的信息輸出。以此類推,新增一種信息屬性,確定一個新增位置關(guān)系,就可以從新增位置關(guān)系對 應(yīng)的兩種信息屬性候選集組成的合集中,抽取滿足新增位置關(guān)系的信息屬性組合放入當前 的候選組合集中;然后將當前的候選組合集中的信息屬性組合進行排列組合后,作為抽取 的信息輸出。例如當標題與作者的屬性位置關(guān)系為上下關(guān)系時,抽出的組合包括{T1、E2}、 {T1、E3}、{T2、E3};當標題與發(fā)布時間的屬性位置關(guān)系為相鄰關(guān)系,抽出的組合為{Tl、 S2},則當前的候選組合集包括{Tl、E2}、{T1、E3}、{T2、E3},{Tl、S2},則對其進行排列組 合后,可以輸出由T1、E2、S2組成的信息,以及由T1、E3、S2組成的信息。下面結(jié)合說明書附圖對本發(fā)明實施例作進一步詳細描述。實施例一,這里,信息具體可以為新聞信息,從網(wǎng)頁中獲取候選新聞屬性放入對應(yīng) 屬性候選集中,參見圖2,包括步驟201 讀取一個包含有新聞的網(wǎng)頁,并將讀取的網(wǎng)頁轉(zhuǎn)換為文檔對象模型 (DOM, Document Object Model)樹結(jié)構(gòu)。本發(fā)明實施例中可以采用微軟開發(fā)的Visual STudio2005中C#語言的 WebBRowsER組件將讀取到的網(wǎng)元轉(zhuǎn)換為DOM樹結(jié)構(gòu)。DOM樹結(jié)構(gòu)的每個節(jié)點都是新聞信息的屬性,即可能是標題、發(fā)布時間、作者、評論 鏈接、來源、正文、主題、相關(guān)新聞或圖片。每個節(jié)點對應(yīng)的屬性都包括子屬性。例如一個 節(jié)點是標題,則該節(jié)點包含了該標題的字體信息、標簽信息、位置信息、文本信息等等,具體 可以用數(shù)值來標識節(jié)點包含的每個子屬性。步驟202 將根節(jié)點作為當前節(jié)點。步驟203 判斷當前節(jié)點的信息屬性,根據(jù)保存的該信息屬性的抽取條件,確定當 前節(jié)點是否為候選信息屬性,如果是,執(zhí)行步驟204 ;否則,執(zhí)行步驟205。保存的信息屬性的抽取條件如表1所示
權(quán)利要求
一種從網(wǎng)頁中抽取信息的方法,其特征在于,包括查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性候選集;根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系,查找至少兩種信息屬性間的至少一個最大布局關(guān)系概率,并確定查找到的最大布局關(guān)系概率對應(yīng)的位置關(guān)系;從所述至少兩種信息屬性對應(yīng)的信息屬性候選集中,抽取滿足所述位置關(guān)系的信息屬性組合。
2.如權(quán)利要求1所述的方法,其特征在于,所述信息屬性包括標題、發(fā)布時間、作者、 評論鏈接、來源、正文、主題、相關(guān)信息或圖片。
3.如權(quán)利要求1所述的方法,其特征在于,所述信息屬性間的位置關(guān)系包括上下關(guān) 系,左右關(guān)系或相鄰關(guān)系。
4.如權(quán)利要求1所述的方法,其特征在于,所述查找網(wǎng)頁中包含的每種信息屬性,獲取 每種信息屬性對應(yīng)的信息屬性候選集包括將所述網(wǎng)頁轉(zhuǎn)換為文檔對象模型DOM樹結(jié)構(gòu);遍歷所述DOM樹結(jié)構(gòu)的各個節(jié)點,將滿足設(shè)定條件的節(jié)點對應(yīng)的信息屬性,放入該信 息屬性對應(yīng)的信息屬性候選集中。
5.如權(quán)利要求1所述的方法,其特征在于,所述確定查找到的最大布局關(guān)系概率對應(yīng) 的位置關(guān)系包括確定第一信息屬性和第二信息屬性的第一最大布局關(guān)系概率對應(yīng)的第一位置關(guān)系;確定所述第一信息屬性和第三信息屬性的第二最大布局關(guān)系概率對應(yīng)的第二位置關(guān)系。
6.如權(quán)利要求5所述的方法,其特征在于,所述抽取滿足所述位置關(guān)系的信息屬性組 合包括從所述第一信息屬性對應(yīng)的第一信息屬性候選集,以及所述第二信息屬性對應(yīng)的第二 信息屬性候選集組成的合集中,抽取滿足所述第一位置關(guān)系的信息屬性組合放入當前的候 選組合集中;從所述當前的候選組合集,以及所述第三信息屬性對應(yīng)的第三信息屬性候選集組成的 合集中,抽取滿足所述第二位置關(guān)系的信息屬性組合,并用抽取的信息屬性組合更新當前 的候選組合集;將更新后的當前的候選組合集中信息屬性組合作為抽取的信息輸出。
7.如權(quán)利要求5所述的方法,其特征在于,所述抽取滿足所述位置關(guān)系的信息屬性組 合包括從所述第一信息屬性對應(yīng)的第一信息屬性候選集,以及所述第二信息屬性對應(yīng)的第二 信息屬性候選集組成的合集中,抽取滿足所述第一位置關(guān)系的信息屬性組合放入當前的候 選組合集中;從所述第一信息屬性對應(yīng)的第一信息屬性候選集,以及所述第三信息屬性對應(yīng)的第三 信息屬性候選集組成的合集中,抽取滿足所述第二位置關(guān)系的信息屬性組合放入當前的候 選組合集中;將所述當前的候選組合集中的信息屬性組合進行排列組合后,作為抽取的信息輸出。
8.—種從網(wǎng)頁中抽取信息的裝置,其特征在于,包括獲取單元,用于查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性候選集確定單元,用于根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系,查找 至少兩種信息屬性間的至少一個最大布局關(guān)系概率,并確定查找到的最大布局關(guān)系概率對 應(yīng)的位置關(guān)系;抽取單元,用于從所述至少兩種信息屬性分別對應(yīng)的信息屬性候選集中,抽取滿足所 述位置關(guān)系的信息屬性組合。
9.如權(quán)利要求8所述的裝置,其特征在于,所述獲取單元包括轉(zhuǎn)換子單元,用于將所述網(wǎng)頁轉(zhuǎn)換為文檔對象模型DOM樹結(jié)構(gòu);比較子單元,用于遍歷所述DOM樹結(jié)構(gòu)的各個節(jié)點,將滿足設(shè)定條件的節(jié)點對應(yīng)的信 息屬性,放入該信息屬性對應(yīng)的信息屬性候選集中。
10.如權(quán)利要求8所述的裝置,其特征在于,所述確定單元包括第一確定子單元,用于確定第一信息屬性和第二信息屬性的第一最大布局關(guān)系概率對 應(yīng)的第一位置關(guān)系;第二確定子單元,用于確定所述第一信息屬性和第三信息屬性的第二最大布局關(guān)系概 率對應(yīng)的第二位置關(guān)系。
11.如權(quán)利要求10所述的裝置,其特征在于,所述抽取單元包括第一抽取子單元,用于從所述第一信息屬性對應(yīng)的第一信息屬性候選集,以及所述第 二信息屬性對應(yīng)的第二信息屬性候選集組成的合集中,抽取滿足所述第一位置關(guān)系的信息 屬性組合放入當前的候選組合集中;第二抽取子單元,用于從所述當前的候選組合集,以及所述第三信息屬性對應(yīng)的第三 信息屬性候選集組成的合集中,抽取滿足所述第二位置關(guān)系的信息屬性組合;更新輸出子單元,用于用所述第二抽取子單元抽取的信息屬性組合更新當前的候選組 合集,并將更新后的當前的候選組合集中信息屬性組合作為抽取的信息輸出。
12.如權(quán)利要求10所述的裝置,其特征在于,所述抽取單元包括第三抽取子單元,用于從所述第一信息屬性對應(yīng)的第一信息屬性候選集,以及所述第 三信息屬性對應(yīng)的第三信息屬性候選集組成的合集中,抽取滿足所述第二位置關(guān)系的信息 屬性組合放入當前的候選組合集中;排列輸出子單元,用于將所述當前的候選組合集中的信息屬性組合進行排列組合后, 作為抽取的信息輸出。
全文摘要
本發(fā)明公開了一種從網(wǎng)頁中抽取信息的方法及裝置,用以解決現(xiàn)有技術(shù)中不能從非結(jié)構(gòu)化格式的網(wǎng)頁中獲取準確的信息問題。該方法包括查找網(wǎng)頁中的每種信息屬性,獲取每種信息屬性對應(yīng)的信息屬性候選集,根據(jù)保存的信息屬性間的位置關(guān)系與布局關(guān)系概率的對應(yīng)關(guān)系,查找至少兩種信息屬性間的至少一個最大布局關(guān)系概率,并確定查找到的最大布局關(guān)系概率對應(yīng)的位置關(guān)系,從所述至少兩種信息屬性對應(yīng)的信息屬性候選集中,抽取滿足所述位置關(guān)系的信息屬性組合。
文檔編號G06F17/30GK101996190SQ20091009045
公開日2011年3月30日 申請日期2009年8月12日 優(yōu)先權(quán)日2009年8月12日
發(fā)明者萬小軍, 劉偉, 楊建武, 肖建國 申請人:北京大學;北大方正集團有限公司;北京方正電子政務(wù)信息科技有限公司