一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法與流程

文檔序號(hào)：12598556閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法與流程

技術(shù)特征：

1.一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于：先對(duì)待判決的網(wǎng)頁(yè)進(jìn)行預(yù)處理；然后根據(jù)處理后提取的參數(shù)信息實(shí)現(xiàn)網(wǎng)頁(yè)分割；接著對(duì)分割后得到的網(wǎng)頁(yè)數(shù)據(jù)塊依次提取特征并進(jìn)行最后判決；具體包括以下步驟：

步驟1：網(wǎng)頁(yè)預(yù)處理，提取待檢測(cè)標(biāo)簽集合以及預(yù)定時(shí)間點(diǎn)網(wǎng)頁(yè)截圖集合；

步驟2：自適應(yīng)傳感粒度的網(wǎng)頁(yè)分割；

步驟3：分割后網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征提??；

步驟4：依據(jù)特征提取的結(jié)果，利用分類器對(duì)網(wǎng)頁(yè)數(shù)據(jù)塊進(jìn)行判決，實(shí)現(xiàn)對(duì)傳感信息塊的判斷以及信息塊類型的判斷。

2.根據(jù)權(quán)利要求1所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于；所述步驟1的網(wǎng)頁(yè)預(yù)處理過(guò)程包括：

提取網(wǎng)頁(yè)源代碼，解析出所有可視化html標(biāo)簽存入標(biāo)簽集合，提取標(biāo)簽對(duì)應(yīng)的DOM樹(shù)結(jié)構(gòu)信息和視覺(jué)信息，包括DOM樹(shù)父子節(jié)點(diǎn)對(duì)應(yīng)關(guān)系，節(jié)點(diǎn)深度信息，節(jié)點(diǎn)視覺(jué)位置及大小信息。

3.根據(jù)權(quán)利要求2所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于；所述步驟2的自適應(yīng)傳感粒度的網(wǎng)頁(yè)分割過(guò)程包括父子節(jié)點(diǎn)對(duì)的取舍判斷和取舍后留下節(jié)點(diǎn)中直系節(jié)點(diǎn)對(duì)之間的取舍判斷；

對(duì)父子節(jié)點(diǎn)對(duì)的取舍判斷過(guò)程包括：首先根據(jù)子節(jié)點(diǎn)數(shù)量進(jìn)行分類判斷，對(duì)僅含一個(gè)子節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)而言，依次取父子節(jié)點(diǎn)的重疊區(qū)域、子節(jié)點(diǎn)的傳感特征包含情況以及視覺(jué)區(qū)域大小作為判斷依據(jù)；對(duì)于包含多個(gè)子節(jié)點(diǎn)的節(jié)點(diǎn)對(duì)而言，只要有子節(jié)點(diǎn)顯現(xiàn)出傳感特征，即選擇保留子節(jié)點(diǎn)，反之需對(duì)子節(jié)點(diǎn)之間的相似情況進(jìn)行判斷，如果該節(jié)點(diǎn)對(duì)中所有子節(jié)點(diǎn)所包含的信息內(nèi)容或視覺(jué)樣式表現(xiàn)一致，則選擇保留子節(jié)點(diǎn)，否則舍棄子節(jié)點(diǎn)；

將所有經(jīng)過(guò)父子留存判斷后保留的節(jié)點(diǎn)再次進(jìn)行結(jié)構(gòu)分析，對(duì)于留存的直系節(jié)點(diǎn)對(duì)，依次對(duì)每一層后代節(jié)點(diǎn)與直系根節(jié)點(diǎn)的取舍判斷進(jìn)行判斷，判斷過(guò)程根據(jù)后代節(jié)點(diǎn)的數(shù)量分為兩類展開(kāi)：當(dāng)同層后代節(jié)點(diǎn)僅余一個(gè)，只需對(duì)后代節(jié)點(diǎn)的傳感特征包含情況進(jìn)行再次判斷，當(dāng)確認(rèn)后代節(jié)點(diǎn)包含傳感特征后，即決定舍棄根節(jié)點(diǎn)；當(dāng)同層后代節(jié)點(diǎn)數(shù)量大于一時(shí)，只考慮對(duì)同層后代節(jié)點(diǎn)間的相似性進(jìn)行分析，當(dāng)同層后代節(jié)點(diǎn)各自所包含信息的數(shù)據(jù)類型相同或視覺(jué)樣式的表現(xiàn)符合預(yù)設(shè)的相似度判斷準(zhǔn)則時(shí)，保留該后代節(jié)點(diǎn)群。

4.根據(jù)權(quán)利要求3所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于；所述步驟3的分割后網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征提取，是針對(duì)截圖內(nèi)發(fā)生變化的像素點(diǎn)，設(shè)置網(wǎng)頁(yè)數(shù)據(jù)塊的視覺(jué)特征，包括變化數(shù)量、變化幅度和位置分布。

5.根據(jù)權(quán)利要求4所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于；所述步驟4的傳感信息塊的判斷過(guò)程為：利用SVM分類器，將步驟3中獲取的視覺(jué)特征的特征向量輸入訓(xùn)練好的分類器，即得到判決結(jié)果；

依據(jù)判決需求，可以分別選擇二分類器和多分類器，二分類器判斷該數(shù)據(jù)庫(kù)是否為傳感信息塊，多分類器進(jìn)一步對(duì)信息塊的表達(dá)類型進(jìn)行判斷，將其分類為圖片，表格抑或曲線。

6.根據(jù)權(quán)利要求3-5中任意一項(xiàng)所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于：所述步驟2，對(duì)父子節(jié)點(diǎn)對(duì)的取舍判斷過(guò)程中，子節(jié)點(diǎn)的傳感特征包含情況有兩個(gè)判斷依據(jù)：

1)標(biāo)簽名稱；

2)依據(jù)關(guān)鍵詞匹配方法，對(duì)標(biāo)簽的正文內(nèi)容進(jìn)行提取分析。

7.根據(jù)權(quán)利要求5所述的一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法，其特征在于：以徑向基函數(shù)作為SVM分類器的核函數(shù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

計(jì)算機(jī)視覺(jué)特征提取相關(guān)技術(shù)

機(jī)器視覺(jué)特征提取相關(guān)技術(shù)

視覺(jué)傳感相關(guān)技術(shù)

視覺(jué)傳感技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于視覺(jué)特征提取的網(wǎng)頁(yè)傳感信息塊判決方法與流程