1.一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于:先對(duì)待判決的網(wǎng)頁(yè)進(jìn)行預(yù)處理;然后根據(jù)處理后提取的參數(shù)信息實(shí)現(xiàn)網(wǎng)頁(yè)分割;接著對(duì)分割后得到的網(wǎng)頁(yè)數(shù)據(jù)塊依次提取特征并進(jìn)行最后判決;具體包括以下步驟:
步驟1:網(wǎng)頁(yè)預(yù)處理,提取待檢測(cè)標(biāo)簽集合以及預(yù)定時(shí)間點(diǎn)網(wǎng)頁(yè)截圖集合;
步驟2:自適應(yīng)傳感粒度的網(wǎng)頁(yè)分割;
步驟3:分割后網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征提??;
步驟4:依據(jù)特征提取的結(jié)果,利用分類器對(duì)網(wǎng)頁(yè)數(shù)據(jù)塊進(jìn)行判決,實(shí)現(xiàn)對(duì)傳感信息塊的判斷以及信息塊類型的判斷。
2.根據(jù)權(quán)利要求1所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于;所述步驟1的網(wǎng)頁(yè)預(yù)處理過(guò)程包括:
提取網(wǎng)頁(yè)源代碼,解析出所有可視化html標(biāo)簽存入標(biāo)簽集合,提取標(biāo)簽對(duì)應(yīng)的DOM樹(shù)結(jié)構(gòu)信息和視覺(jué)信息,包括DOM樹(shù)父子節(jié)點(diǎn)對(duì)應(yīng)關(guān)系,節(jié)點(diǎn)深度信息,節(jié)點(diǎn)視覺(jué)位置及大小信息。
3.根據(jù)權(quán)利要求2所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于;所述步驟2的自適應(yīng)傳感粒度的網(wǎng)頁(yè)分割過(guò)程包括父子節(jié)點(diǎn)對(duì)的取舍判斷和取舍后留下節(jié)點(diǎn)中直系節(jié)點(diǎn)對(duì)之間的取舍判斷;
對(duì)父子節(jié)點(diǎn)對(duì)的取舍判斷過(guò)程包括:首先根據(jù)子節(jié)點(diǎn)數(shù)量進(jìn)行分類判斷,對(duì)僅含一個(gè)子節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)而言,依次取父子節(jié)點(diǎn)的重疊區(qū)域、子節(jié)點(diǎn)的傳感特征包含情況以及視覺(jué)區(qū)域大小作為判斷依據(jù);對(duì)于包含多個(gè)子節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)而言,只要有子節(jié)點(diǎn)顯現(xiàn)出傳感特征,即選擇保留子節(jié)點(diǎn),反之需對(duì)子節(jié)點(diǎn)之間的相似情況進(jìn)行判斷,如果該節(jié)點(diǎn)對(duì)中所有子節(jié)點(diǎn)所包含的信息內(nèi)容或視覺(jué)樣式表現(xiàn)一致,則選擇保留子節(jié)點(diǎn),否則舍棄子節(jié)點(diǎn);
將所有經(jīng)過(guò)父子留存判斷后保留的節(jié)點(diǎn)再次進(jìn)行結(jié)構(gòu)分析,對(duì)于留存的直系節(jié)點(diǎn)對(duì),依次對(duì)每一層后代節(jié)點(diǎn)與直系根節(jié)點(diǎn)的取舍判斷進(jìn)行判斷,判斷過(guò)程根據(jù)后代節(jié)點(diǎn)的數(shù)量分為兩類展開(kāi):當(dāng)同層后代節(jié)點(diǎn)僅余一個(gè),只需對(duì)后代節(jié)點(diǎn)的傳感特征包含情況進(jìn)行再次判斷,當(dāng)確認(rèn)后代節(jié)點(diǎn)包含傳感特征后,即決定舍棄根節(jié)點(diǎn);當(dāng)同層后代節(jié)點(diǎn)數(shù)量大于一時(shí),只考慮對(duì)同層后代節(jié)點(diǎn)間的相似性進(jìn)行分析,當(dāng)同層后代節(jié)點(diǎn)各自所包含信息的數(shù)據(jù)類型相同或視覺(jué)樣式的表現(xiàn)符合預(yù)設(shè)的相似度判斷準(zhǔn)則時(shí),保留該后代節(jié)點(diǎn)群。
4.根據(jù)權(quán)利要求3所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于;所述步驟3的分割后網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征提取,是針對(duì)截圖內(nèi)發(fā)生變化的像素點(diǎn),設(shè)置網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征,包括變化數(shù)量、變化幅度和位置分布。
5.根據(jù)權(quán)利要求4所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于;所述步驟4的傳感信息塊的判斷過(guò)程為:利用SVM分類器,將步驟3中獲取的視覺(jué)特征的特征向量輸入訓(xùn)練好的分類器,即得到判決結(jié)果;
依據(jù)判決需求,可以分別選擇二分類器和多分類器,二分類器判斷該數(shù)據(jù)庫(kù)是否為傳感信息塊,多分類器進(jìn)一步對(duì)信息塊的表達(dá)類型進(jìn)行判斷,將其分類為圖片,表格抑或曲線。
6.根據(jù)權(quán)利要求3-5中任意一項(xiàng)所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于:所述步驟2,對(duì)父子節(jié)點(diǎn)對(duì)的取舍判斷過(guò)程中,子節(jié)點(diǎn)的傳感特征包含情況有兩個(gè)判斷依據(jù):
1)標(biāo)簽名稱;
2)依據(jù)關(guān)鍵詞匹配方法,對(duì)標(biāo)簽的正文內(nèi)容進(jìn)行提取分析。
7.根據(jù)權(quán)利要求5所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法,其特征在于:以徑向基函數(shù)作為SVM分類器的核函數(shù)。