專利名稱:一種基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種互聯(lián)網(wǎng)信息對象定位方法。
背景技術(shù):
面向特定應(yīng)用領(lǐng)域的精準(zhǔn)搜索技術(shù),是輿情監(jiān)測、產(chǎn)品比價、廣告監(jiān)測等應(yīng)用系統(tǒng)的基礎(chǔ),而語義技術(shù)則是實現(xiàn)精準(zhǔn)搜索的前提。目前,盡管語義技術(shù)在信息檢索、搜索引擎、產(chǎn)品比價、數(shù)據(jù)挖掘等領(lǐng)域有很多的研究和成果,但多數(shù)情況下語義技術(shù)在其中的應(yīng)用是局部的、不夠系統(tǒng)化,所采用的面向業(yè)務(wù)領(lǐng)域的語義定義也不便于明確語義概念的范圍,語義結(jié)構(gòu)的完整性缺乏理論依據(jù),這些都限制了語義技術(shù)的深入研究和廣泛應(yīng)用。本發(fā)明采用的互聯(lián)網(wǎng)信息對象定位方法,通過使用領(lǐng)域語義詞典量化網(wǎng)頁結(jié)構(gòu)語義,可以在任何網(wǎng)頁中判斷指定信息對象所在的區(qū)域,進而抽取出所需數(shù)據(jù)。本發(fā)明涉及的結(jié)構(gòu)語義定義和計算算法,未在其他專利中發(fā)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種可以進一步提高互聯(lián)網(wǎng)信息對象精準(zhǔn)搜索性能的互聯(lián)網(wǎng)/[目息對象定位方法。本發(fā)明提供的互聯(lián)網(wǎng)信息對象定位方法,是基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法,本發(fā)法通過量化語義關(guān)聯(lián)目標(biāo)節(jié)點集合的信息聚集程度,在任何網(wǎng)頁中判斷指定信息對象所在的網(wǎng)頁區(qū)域,進而抽取出所需數(shù)據(jù)。本發(fā)明方法的基本原理和思路如圖I所示。為了搜索到互聯(lián)網(wǎng)信息對象所在的頁面,本發(fā)明方法首先將檢索到的相關(guān)網(wǎng)頁的HTML代碼轉(zhuǎn)換為DOM樹結(jié)構(gòu);然后根據(jù)互聯(lián)網(wǎng)信息對象語義詞典為每個文本節(jié)點進行語義匹配,分配不同的語義角色,對每一個DOM樹的內(nèi)部節(jié)點(非葉節(jié)點)計算其結(jié)構(gòu)語義熵值,以衡量其語義豐富程度。由于熵值與網(wǎng)頁的層次結(jié)構(gòu)密切相關(guān),兩者綜合可以很好地反映某個節(jié)點內(nèi)語義信息的聚集程度。假設(shè)有以節(jié)點N為根節(jié)點的DOM子樹,其結(jié)構(gòu)語義熵定義如下
權(quán)利要求
1.一種基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法,其特征在于具體步驟如下 第一步網(wǎng)頁預(yù)處理 首先,根據(jù)語義詞典中DOM元素的定義,過濾掉HTML代碼中的樣式控制的標(biāo)簽,并且將與網(wǎng)頁實際內(nèi)容無關(guān)的標(biāo)簽及其內(nèi)容去除;然后,利用開源的NekoHTML工具包對HTML代碼進行處理,掃描HTML代碼并進行標(biāo)簽補償;最后,將HTML源代碼轉(zhuǎn)換成DOM樹形式,使抽取程序可以通過標(biāo)準(zhǔn)的DOM接口訪問其信息; 第二步語義匹配 首先在DOM樹中找出包含語義信息的節(jié)點,為節(jié)點內(nèi)的文本分配語義角色,從而為定位屬性聚集區(qū)域提供語義信息支持;然后根據(jù)領(lǐng)域語義中互聯(lián)網(wǎng)信息對象的屬性特征,將DOM樹文本節(jié)點中的內(nèi)容與屬性的各個語義表達式進行匹配,最后得到的每個成功匹配結(jié)果將記錄如下信息 .1)匹配的DOM樹節(jié)點; .2)匹配的文本在所屬文本節(jié)點內(nèi)的文本位置偏移量; .3)匹配的文本被賦予的語義角色; 第三步屬性聚集區(qū)域定位并去噪 通過計算結(jié)構(gòu)語義熵,以識別出候選的信息聚集的區(qū)域,具體步驟為 首先為DOM樹的每個內(nèi)部節(jié)點計算結(jié)構(gòu)語義熵值,將結(jié)果按熵值大小降序排序,然后按如下的規(guī)則進行篩選 .1)屬性聚集區(qū)域的結(jié)構(gòu)語義熵值大于指定閾值; .2)屬性聚集區(qū)域列表中的節(jié)點之間不存在祖先/后代節(jié)點關(guān)系,當(dāng)兩個存在祖先/后代關(guān)系的節(jié)點結(jié)構(gòu)語義熵值不同時,僅保留熵值較大的節(jié)點,將熵值較小的節(jié)點排除;當(dāng)其節(jié)點結(jié)構(gòu)語義熵值相同時,僅保留后代節(jié)點以在DOM樹中找到代表屬性聚集區(qū)域的最小子樹; .3)如果多個節(jié)點包含的屬性集合相同,且這些節(jié)點在文檔中的標(biāo)簽路徑完全相同,則將這些節(jié)點看作列表節(jié)點,并作為干擾信息排除;這里的標(biāo)簽路徑是指從DOM樹根節(jié)點到達指定節(jié)點所經(jīng)過的節(jié)點標(biāo)簽組成的路徑; 最后經(jīng)過一系列排除手段得到最后的屬性聚集區(qū)域列表,根據(jù)頁面結(jié)構(gòu)語義熵值以及屬性聚集區(qū)域數(shù)量,按語義規(guī)則判斷當(dāng)前網(wǎng)頁的類型,是互聯(lián)網(wǎng)信息對象詳細信息頁、列表頁或者只是普通網(wǎng)頁,并予于記錄; 第四步屬性名值對抽取 在上一步確定的屬性聚集區(qū)域范圍內(nèi),利用語義匹配的結(jié)果,得到一部分屬性名值對的確切位置。
2.根據(jù)權(quán)利要求I所述的基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法,其特征在于所述第四步,對于第三步中僅匹配到屬性名稱的節(jié)點,采用啟發(fā)式方法進行屬性值提??;提取的原則基于如下的啟發(fā)式假設(shè) (1)屬性值緊跟著屬性名稱之后出現(xiàn); (2)某個屬性的屬性名稱與屬性值之間不會包含其他屬性; 由于用戶閱讀網(wǎng)頁區(qū)域的順序是從上到下、從左到右,這對應(yīng)于DOM樹的深度優(yōu)先遍歷訪問文本節(jié)點的順序;由假設(shè)(1),按照此順序即可為已知的屬性名稱提取相應(yīng)的屬性值;由假設(shè)(2),如果兩個屬性名稱之間沒有非空的文本節(jié)點,那么前一個屬性的屬性值是缺失的。
3.根據(jù)權(quán)利要求2所述的基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法,其特征在于在抽取包含多個屬性名值對的長文本節(jié)點內(nèi)容時,按文本內(nèi)的分隔符“”、“”以及“”,結(jié)合已經(jīng)匹配的語義角色對屬性名稱、屬性值進行分割,來獲得正確的取值結(jié)果; 另外,在領(lǐng)域語義定義中,“標(biāo)題”是互聯(lián)網(wǎng)信息對象的必要屬性,如果之前環(huán)節(jié)未能利用啟發(fā)式方法抽取到名稱信息時,則利用屬性的位置信息結(jié)合互聯(lián)網(wǎng)信息對象實例庫中的信息,在DOM樹中自動識別出適用于當(dāng)前網(wǎng)站的各個頁面的“標(biāo)題”屬性抽取規(guī)則,來補充必要的屬性值; 當(dāng)已經(jīng)識別出某個網(wǎng)頁的屬性聚集區(qū)域后,組成“標(biāo)題”屬性的“商品名稱”和“通用名稱”都無法獲取時,就中斷當(dāng)前頁面的提取過程,開始自動歸納XPath抽取規(guī)則; 同一網(wǎng)站內(nèi)的互聯(lián)網(wǎng)信息對象詳細信息頁中,根據(jù)“標(biāo)題”屬性可能的位置以及屬性聚集區(qū)域的識別結(jié)果,計算這些抽象位置在具體頁面中的節(jié)點位置,作為候選節(jié)點,對每個候選節(jié)點中的文本在“名稱”相對應(yīng)的取值詞庫中進行匹配;同時,將每個節(jié)點的XPath與匹配結(jié)果記錄下來;如此循環(huán),在對一定數(shù)量的詳細信息網(wǎng)頁進行取樣分析后,找出匹配率最高的XPath,作為用來在互聯(lián)網(wǎng)信息對象詳細信息頁面抽取“標(biāo)題”的抽取規(guī)則; 獲得XPath抽取規(guī)則后,將利用XPath抽取出的屬性名值對連同已經(jīng)成功抽取的屬性名值對集合一起,作為最終的信息抽取結(jié)果輸出,通過語義詞典和數(shù)據(jù)庫字段中的映射規(guī)貝U,存儲到數(shù)據(jù)庫中。
4.根據(jù)權(quán)利要求I所述的基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法,其特征在于對于以節(jié)點N為根節(jié)點的DOM子樹,所述結(jié)構(gòu)語義熵計算如下
全文摘要
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體為一種基于網(wǎng)頁結(jié)構(gòu)語義的互聯(lián)網(wǎng)信息對象定位方法。本發(fā)明方法首先將檢索到的相關(guān)網(wǎng)頁的HTML代碼轉(zhuǎn)換為DOM樹結(jié)構(gòu);然后根據(jù)互聯(lián)網(wǎng)信息對象語義詞典為每個文本節(jié)點進行語義匹配,分配不同的語義角色,對每一個DOM樹的內(nèi)部節(jié)點(非葉節(jié)點)計算其結(jié)構(gòu)語義熵值,以衡量其語義豐富程度;最后綜合熵值與網(wǎng)頁的層次結(jié)構(gòu)關(guān)系,反映某個節(jié)點內(nèi)語義信息的聚集程度,在大量網(wǎng)頁中判斷指定信息對象所在的網(wǎng)頁區(qū)域,進而抽取出所需數(shù)據(jù)。本發(fā)明的一種應(yīng)用實例是互聯(lián)網(wǎng)藥品信息搜索和分析。
文檔編號G06F17/30GK102662969SQ20121006143
公開日2012年9月12日 申請日期2012年3月11日 優(yōu)先權(quán)日2012年3月11日
發(fā)明者吳曉彥, 廖逸, 李銀勝, 沈元一, 顧軼靈 申請人:復(fù)旦大學(xué)