當前,物聯網技術正在蓬勃發(fā)展,越來越多的傳感器開始進入人們的日常生活。面對數以億計的物聯網數據,如何正確搜索以期應用已經成為一個重要的研究課題。當前,大量傳感器數據仍然選擇以上傳至因特網的方式提供給用戶,因此,正確識別出包含傳感器數據信息的網頁內容,將成為物聯網搜索工作的一項重要前提。
目前,因特網頁采用了視頻、圖片、表格和圖例等表現形式來展現傳感器的數據信息。對一張未知網頁而言,我們將以何種手段來識別出網頁中傳感器信息的存在,并準確獲取所包含傳感信息的相關情況,例如傳感信息的類型,位置等等,這將為評價網頁的傳感信息量提供重要依據。傳感信息自動識別準確率的保證,也將大大減輕人工判斷的工作壓力,可以更加有效地實現網頁傳感信息量的計算,對于基于網頁進行的物聯網傳感信息搜索具有重要意義。
技術實現要素:
為了解決上述的研究缺口,本發(fā)明提供一種基于視覺特征提取的網頁傳感信息塊判決方法,目的在于依據網頁中的DOM樹結構以及視覺特征來提取網頁數據塊的相關特征,對數據塊是否包含傳感信息進行判斷。
本發(fā)明的目的是這樣實現的:
(1)某些非傳感信息塊也存在視覺變化的情況,例如某些廣告信息,滾動信息等等,但他們的變化往往是已知地,在有限的幾種信息之中來回播放,而傳感信息往往實時采集上傳,一切內容都以當前實際情況為準,因此是未知的。據此,選擇一段合適長度的時間內截取多張網頁圖片,綜合分析不同截圖之間的變化情況,可以增加判斷的準確性。
(2)根據不同網頁數據塊的截圖變化信息,可以對數據的傳感信息包含情況進行一定分析。通常,根據傳感信息塊的類型不同,往往具有不同的變化特性,例如: 由于光照等環(huán)境因素的影響,網絡攝像頭在一段時間內采集的兩張圖像往往所有像素點都會發(fā)生變化,而以表格形式表示的溫度,濕度環(huán)境信息的數據內容,則會在固定位置的像素點發(fā)生明顯規(guī)律性的變化。提取網頁數據塊的視覺信息,包括像素點變化值的大小,變化像素點的數量,位置等等,都將為傳感信息的判斷提供輔助依據。
(3)傳感信息塊通常在網頁中以圖表等特定形式出現,合理設計網頁分割粒度,可以有效實現傳感信息塊的檢測,同時為未來進行傳感數據的提取提供更精準的輸入條件。依據html標簽類型,不同標簽對之間的相對深度信息和視覺映射情況三個條件,可以在網頁分割過程中有效適應傳感信息塊的分割粒度,提高分割的精度和有效性。
本發(fā)明的具體技術方案如下:
一種基于視覺特征提取的網頁傳感信息塊判決方法,先對待判決的網頁進行預處理;然后根據處理后提取的參數信息實現網頁分割;接著對分割后得到的網頁數據塊依次提取特征并進行最后判決;具體包括以下步驟:
步驟1:網頁預處理,提取待檢測標簽集合以及預定時間點網頁截圖集合;
步驟2:自適應傳感粒度的網頁分割;
步驟3:分割后網頁數據塊的視覺特征提??;
步驟4:依據特征提取的結果,利用分類器對網頁數據塊進行判決,實現對傳感信息塊的判斷以及信息塊類型的判斷。
所述步驟1的網頁預處理過程包括:
提取網頁源代碼,解析出所有可視化html標簽存入標簽集合,提取標簽對應的DOM樹結構信息和視覺信息,包括DOM樹父子節(jié)點對應關系,節(jié)點深度信息,節(jié)點視覺位置及大小信息。
所述步驟2的自適應傳感粒度的網頁分割過程包括父子節(jié)點對的取舍判斷和取舍后留下節(jié)點中直系節(jié)點對之間的取舍判斷;
對父子節(jié)點對的取舍判斷過程包括:首先根據子節(jié)點數量進行分類判斷,對僅含一個子節(jié)點的節(jié)點對而言,依次取父子節(jié)點的重疊區(qū)域、子節(jié)點的傳感特征包含情況以及視覺區(qū)域大小作為判斷依據;對于包含多個子節(jié)點的節(jié)點對而言,只要有子節(jié)點顯現出傳感特征,即選擇保留子節(jié)點,反之需對子節(jié)點之間的相似情況進行判斷,如果該節(jié)點對中所有子節(jié)點所包含的信息內容或視覺樣式表現一致,則選擇保留子節(jié)點,否則舍棄子節(jié)點;
將所有經過父子留存判斷后保留的節(jié)點再次進行結構分析,對于留存的直系節(jié)點對,依次對每一層后代節(jié)點與直系根節(jié)點的取舍判斷進行判斷,判斷過程根據后代節(jié)點的數量分為兩類展開:當同層后代節(jié)點僅余一個,只需對后代節(jié)點的傳感特征包含情況進行再次判斷,當確認后代節(jié)點包含傳感特征后,即決定舍棄根節(jié)點;當同層后代節(jié)點各自所包含信息的數據類型相同或視覺樣式的表現符合預設的相似度判斷準則時,保留該后代節(jié)點群。
所述步驟3的分割后網頁數據塊的視覺特征提取,是針對截圖內發(fā)生變化的像素點,設置網頁數據塊的視覺特征,包括變化數量、變化幅度和位置分布。
所述步驟4的傳感信息塊的判斷過程為:利用SVM分類器,將步驟3中獲取的視覺特征的特征向量輸入訓練好的分類器,即得到判決結果;
依據判決需求,可以分別選擇二分類器和多分類器,二分類器判斷該數據庫是否為傳感信息塊,多分類器進一步對信息塊的表達類型進行判斷,將其分類為圖片,表格抑或曲線。
所述步驟2,對父子節(jié)點對的取舍判斷過程中,子節(jié)點的傳感特征包含情況有兩個判斷依據:
1)標簽名稱;
2)依據關鍵詞匹配方法,對標簽的正文內容進行提取分析。
以徑向基函數作為SVM分類器的核函數。
本發(fā)明的優(yōu)勢在于:
采用由html標簽對反映射DOM樹內結構信息和網頁視覺信息結合的方法,自適應控制網頁分割算法的分割粒度,使得分割后的數據塊更有效接近傳感信息塊的真實情況。同時,分析預定時間軸上不同時間點采集網頁圖片間的變化,提取變化發(fā)生像素點的視覺信息,包括數量,變化幅度以及位置分布等,利用分類器有效實現傳感信息塊的判決。
附圖說明
圖1是本發(fā)明的總框圖。
圖2是本發(fā)明中網頁截圖存取時間分布圖。
圖3是本發(fā)明中網頁分割算法父子節(jié)點對取舍流程圖。
圖4是本發(fā)明中網頁分割算法直系節(jié)點對取舍流程圖。
圖5是本發(fā)明中網頁分割算法說明示意圖。
圖6是本發(fā)明中視覺特征項細節(jié)圖。
具體實施方式
為了便于本領域普通技術人員理解和實施本發(fā)明,下面結合附圖及實施例對本發(fā)明作進一步的詳細描述。
本判決方法的實現過程如圖1所示,對待判決的網頁完成預處理后,根據處理后提取的參數信息實現網頁分割;接著對分割后得到的網頁數據塊依次提取特征并進行最后判決??偟膩碚f,本發(fā)明的主要實現方法包括以下幾部分內容:
步驟1:網頁預處理,提取待檢測標簽集合以及預定時間點網頁截圖集合。
步驟2:自適應傳感粒度的網頁分割。
步驟3:分割后網頁數據塊的視覺特征提取。
步驟4:依據特征提取的結果,利用分類器對網頁數據塊進行判決,實現對傳感信息塊的判斷以及信息塊類型的判斷。
具體實施方案包括:
1、網頁預處理
設計網頁截圖提取的時間點如圖2所示,截取10張圖片,大致提取了2天內不同時間間隔內的網頁截圖數據。提取網頁源代碼,解析出所有可視化html標簽存入標簽集合,提取標簽對應的DOM樹結構信息和視覺信息,主要包括DOM樹父子節(jié)點對應關系,節(jié)點深度信息,節(jié)點視覺位置及大小信息。
2、自適應傳感粒度的網頁分割
自適應傳感粒度的網頁分割算法主要分為兩個步驟:父子節(jié)點對的取舍判斷和第一步后留下節(jié)點中直系節(jié)點對之間的取舍判斷。
對父子節(jié)點而言,取舍判斷的流程如圖3所示。首先根據子節(jié)點數量進行分類判斷,對僅含一個子節(jié)點的節(jié)點對而言,依次取父子節(jié)點的重疊區(qū)域,子節(jié)點的傳感特征包含情況以及視覺區(qū)域大小幾個點作為判斷依據;對于包含多個子節(jié)點的節(jié)點對而言,只要有子節(jié)點顯現出傳感特征,即選擇保留子節(jié)點,反之需對子節(jié)點之間的相似情況進行判斷,如果該節(jié)點對中所有子節(jié)點間均具有較高相似度,則選擇保留子節(jié)點,否則舍棄子節(jié)點。
其中,節(jié)點的傳感特征的包含情況目前有兩個判斷依據:
3)標簽名稱;
4)依據關鍵詞匹配方法,對標簽的正文內容進行提取分析。
將所有經過父子留存判斷后保留的節(jié)點再次進行結構分析,對留存的直系節(jié)點對而言,依次對每一層后代節(jié)點與直系根節(jié)點的取舍判斷進行判斷,判斷的流程如圖4所示。由于已經經過一次判斷,因此有些判斷過程在此輪可以省略。與父子留存判斷過程類似,判斷過程將根據后代節(jié)點的數量分為兩類展開。當同層后代節(jié)點僅余一個,只需對后代節(jié)點的傳感特征包含情況進行再次判斷,當確認后代節(jié)點包含傳感特征后,即決定舍棄根節(jié)點;當同層后代節(jié)點數量大于一時,只考慮對同層后代節(jié)點間的相似性進行分析,保留滿足一定相似度的后代節(jié)點群。
以圖5為例,說明整個網頁分割算法的實現過程。對一個如圖所示的網頁標簽結構而言,首先對所有父子節(jié)點對的取舍進行分析,如圖包含了AB,BD,AC,CE,EF,F(GHI)共6對節(jié)點,分別依據視覺情況和傳感特征包含情況進行判斷后,假定依次選擇留下B,D,C,E,E,(GHI),那么最終此輪余下的節(jié)點集合為{D,E,(GHI)}。因此進行直系節(jié)點對判決時,需要判斷的對象為E(GHI),由于GHI間彼此相似度足夠大,舍棄節(jié)點E后,網頁分割輸出的標簽結果即為集合{D,(GHI)}。
3、分割后網頁數據塊的視覺特征提取
如圖6所示,針對截圖內發(fā)生變化的像素點,設計網頁數據塊的視覺特征主要包括三大部分:變化數量、變化幅度和位置分布。其中,不同部分所對應的特征提取內容又分別為箭頭對應框內所示。
為了提高分析效率,僅僅分析時間點連續(xù)的截圖對,依據本設計中預存取的10張網頁截圖,每個網頁數據塊將存在9對可供分析的數據塊截圖對。以集合I和集合U分別表示9組截圖對中變化像素點的交集和并集。
變化數量的提取內容包括數據塊截圖總計像素點數量,集合I和集合U的大小,9組截圖對各自變化像素數量分別除以集合I和集合U的總大小,計算兩組變化數值的平均值和方差。
變化幅度的提取內容包括集合I和集合U中每一個像素點三通道變化值的平均值和方差。
位置分布的提取內容包括將數據塊截圖以九宮格形式劃分區(qū)域,計算集合U中的像素點在九個分區(qū)中的分布密度,將位置分布情況以九個分區(qū)的密度值進行表征。
提取后,每個網頁數據塊包含28個視覺特征值,因此,將每個待判決的網頁數據塊以28維特征向量的形式保存,等待最后判決。
4、傳感信息塊判決
利用SVM分類器,將第三步中獲取的特征向量輸入訓練好的分類器,即可得到判決結果。依據判決需求,可以分別選擇二分類器和多分類器,前者可以判斷該數據庫是否為傳感信息塊,而后者則可以進一步對信息塊的表達類型進行判斷,將其分類為圖片,表格抑或曲線等等。經實驗,選擇徑向基函數作為SVM分類器的核函數,可達到較好的分類效果。