專利名稱:一種Web瀏覽器緩存數(shù)據的取證方法
技術領域:
本發(fā)明屬于信息安全與計算機應用技術領域,涉及一種Web瀏覽器數(shù) 據的取證方法,特別是一種對個人計算機中Web瀏覽器相關數(shù)據的證據分 析和提取方法。本發(fā)明能面向計算機勘査、取證工作的需要,對個人計算 機中Web瀏覽器數(shù)據進行分析、搜索,尋找犯罪證據。
背景技術:
計算機犯罪與計算機技術密切相關。隨著計算機技術的飛速發(fā)展,計 算機在社會中應用領域的急劇擴大,計算機犯罪的類型和領域不斷地增加 和擴展,從而使"計算機犯罪"這一術語隨著時間的推移而不斷獲得新的 涵義。 一般來說計算機犯罪的概念可以有廣義和狹義之分廣義的計算機 犯罪是指行為人故意直接對計算機實施侵入或破壞,或者利用計算機實施 有關金融詐騙、盜竊、貪污、挪用公款、竊取國家秘密或其它犯罪行為的 總稱;狹義的計算機犯罪僅指行為人違反國家規(guī)定,故意侵入國家事務、 國防建設、尖端科學技術等計算機信息系統(tǒng),或者利用各種技術手段對計 算機信息系統(tǒng)的功能及有關數(shù)據、應用程序等進行破壞、制作、傳播計算 機病毒,影響計算機系統(tǒng)正常運行且造成嚴重后果的行為。計算機犯罪活 動給國家安全和社會穩(wěn)定造成了極大的威脅。面對日益嚴峻的計算機安全 形勢,計算機取證與分析手段顯得尤為重要。
隨著網絡的普及,人們的網絡行為日趨頻繁。據第22次中國互聯(lián)網絡 發(fā)展狀況統(tǒng)計報告顯示,截至2008年6月底,我國網民數(shù)量達到了 2. 53 億,首次大幅度超過美國,躍居世界第一位。中國網站數(shù)量也持續(xù)增長, 共有191.9萬個。正當網絡化大潮推進全球信息化的同時,接踵而來的計 算機與網絡犯罪,如傳播邪教、淫穢物品、非法經營、詐騙、破壞計算機 信息系統(tǒng)等,對社會安定和人民生活構成了嚴重的威脅。近年來,在計算 機取證勘察過程中,與web瀏覽器(網頁瀏覽器)相關的IE歷史記錄、IE 收藏夾、Web緩存文件等能反映用戶興趣特征的證據信息越來越引起取證 專家的關注。因此,找到一種可以從這些瀏覽器相關數(shù)據中發(fā)現(xiàn)重要的證 據線索的技術手段就十分有意義。
目前針對計算機證據的提取技術主要有以下幾種
(1)對計算機系統(tǒng)和文件的安全獲取技術,避免對原始介質進行任何破
壞和干擾;比如專利"一種分析和提取數(shù)字證據的取證分析系統(tǒng)和方
法"(專利號10011634.8),該發(fā)明的重點在于它可以在不對證據造成任 何破壞的情況識別、搜集和分析數(shù)字證據,并通過哈希簽名等手段保證所 搜集和分析的數(shù)字證據的可靠性和可信性。它對于提取具體的證據信息(如 Email數(shù)據、瀏覽器數(shù)據),則未明顯涉及。
(2) 對磁盤或其它存儲介質的安全備份技術;比如專利"一種利用無線 終端和服務器獲取證據的方法"(專利號10024479.2),該發(fā)明所述方法 的特征在于,設有專用服務器,無線終端與之通訊;無線終端獲取電子數(shù) 據和其他相關信息并集成在一起,并即時發(fā)往服務器,由服務器記錄并保 存終端發(fā)送來的電子數(shù)據和其他信息。專利側重介紹的是如何從現(xiàn)場收集 到的大量證據信息中提取所需的具體證據。
(3) 計算機在某一特定時間段內的實時數(shù)據搜集技術;比如專利"基于 計算機取證的數(shù)字證據完整性保存方法"(專利號10013610.0),該發(fā)明 所述的方法是在主機系統(tǒng)運行期間,實時記錄主機產生的可能與入侵相關 的每一條關鍵信息即取證信息,并采取一致性算法對這些信息記錄進行保 護。而本專利主要針對的取證對象是靜態(tài)的Web瀏覽器數(shù)據。
其他計算機證據的獲取技術還包括對已刪除文件的恢復、重建技術; 對磁盤空間、未分配空間和自由空間中包含的信息的發(fā)掘技術;對交換文 件、緩存文件、臨時文件中包含的信息的復原技術等。
計算機取證過程還涉及到證據分析技術。在己經獲取的數(shù)據流或信息 流中尋找、匹配關鍵詞或關鍵短語是目前主要的證據分析技術,專利 CN1445665A介紹的是一種常用應用軟件默認數(shù)據及緩沖數(shù)據勘查取證方 法。該發(fā)明是在分析了多種應用軟件的默認數(shù)據及緩沖數(shù)據、臨時文件的 定位基礎上作出的。它所述的方法著重介紹了對Word文件、ASCII編碼文 件和Unicode編碼文件的勘察、搜索過程,檢索這些文件中是否存在敏感 信息串、敏感信息模式等,并把勘察結果全部保存入數(shù)據庫。該發(fā)明的主 要不足在于,由于應用程序數(shù)據及緩沖數(shù)據較多,如果搜索結果未經篩選 或排序就提供用戶瀏覽,會迫使用戶需要花費大量的時間來分析搜索結果。
目前,在文本搜索領域有不少關于文件相似性搜索的技術發(fā)明。專利 CN1963807A提出了一種相似文件的自動偵測方法。該方法用以自多個測試 文件中偵測出一待對比文件具有相似內容或相似主題的多個相似文件。本 專利所述方法主要涉及基于敏感關鍵詞的相關性排序。
由于本專利主要關注針對Web瀏覽器數(shù)據的分析技術,下面對相關的 專利進行介紹。專利1996316A介紹了一種基于網頁相關性的搜索引擎搜索
方法。該方法能夠在一次查詢過程中提供兩次結果給用戶。利用用戶第一 次點擊提供的信息有效的解決一意多詞和一詞多意的問題,該發(fā)明不需要 長期跟蹤特定用戶的行為,及可為該用戶提供統(tǒng)計意義上的優(yōu)化服務。但 是該方法需要用戶的參與,這與計算機取證技術的一般假設相沖突。專利
CN101192234A公開了一種基于網頁抽取的搜索系統(tǒng),包括用戶下載網頁的 網頁下載單元以及存儲搜索結果的結果存儲單元,該發(fā)明通過將下載的網 頁與預設的網頁特征進行匹配,從而獲得更加準確的搜索結果。在本專利 中,搜索的對象并不全是網頁文件,且搜索的關鍵詞是由取證人員按照需 要指定的。專利CN101218582A提出的是一種搜索和瀏覽URL和URL歷史的 方法。該發(fā)明描述了呈現(xiàn)網絡瀏覽器應用程序的隱式和顯式用戶關聯(lián)網頁 的標志的系統(tǒng)或方法("工具")。該工具可響應與用戶對單個統(tǒng)一訪問點 的選擇,或響應于對瀏覽器的用戶關聯(lián)網頁的搜索在單個圖形用戶界面上 呈現(xiàn)這些標志。該發(fā)明旨在讓計算機用戶通過人性化的圖形界面更容易査 找到瀏覽過的網頁。而本專利的目的則是為了讓取證人員通過瀏覽器歷史 記錄尋找犯罪的證據,并了解用戶的上網行為。專利CN101079064提供了 一種網頁排序方法及裝置。該發(fā)明是通過對用戶訪問的IP日志的學習對網 頁進行評分,有效解決了現(xiàn)有的Web搜索引擎技術中直接靠用戶的點擊次 數(shù)對網頁加分而導致用戶惡意點擊,加分推薦非常盲目的問題。本專利的 背景是計算機取證環(huán)境下,所以考慮的主要是單用戶的網頁排序技術。專 利CN101079062公開了一種網頁重要性評價方法,它通過統(tǒng)計終端瀏覽網 頁時點擊網頁中正向鏈接的概率,將父節(jié)點的一般重要性值分配到各子節(jié) 點的一般重要性中,從而使網頁的一般重要性值更趨合理。該發(fā)明中通過 顯式的記錄終端的點擊操作計算各節(jié)點的一般重要性,而在計算機調查中, 一般是事后分析,所以很難獲取網頁的點擊操作以及其他需要用戶參與才 能獲取的信息。
發(fā)明內容
本發(fā)明的目的在于克服與彌補現(xiàn)有技術中的不足和缺憾,針對Web瀏 覽器數(shù)據的特點,提供一種對個人計算機中Web瀏覽器相關數(shù)據的證據分 析和提取方法,能面向計算機勘查、取證工作的需要,對個人計算機中Web 瀏覽器數(shù)據進行分析、搜索,尋找犯罪證據。具體來說,要實現(xiàn)以下幾個 目標
(1) 能夠從原始證據文件中提取Web瀏覽器相關數(shù)據,并對特殊格式的 文件進行解析,對網頁進行預處理。
(2) 能夠把數(shù)量巨大且分布零散的Web瀏覽器數(shù)據按照一定的方式整
合起來,方便用戶查看。
(3) 能夠從Web瀏覽器數(shù)據中提煉出可能的用戶瀏覽路徑。
(4) 能夠根據調查員輸入的敏感關鍵詞搜索相關的數(shù)據,并對結果進行 多角度的相關性排序。
(5) 能夠在取證分析結束后生成Web取證報告,詳細介紹取證的過程和 結果。
本發(fā)明方法包括以下步驟
步驟(l):輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞。 輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞。本專利中涉及的Web 瀏覽器數(shù)據為常用的IE瀏覽器的相關數(shù)據,具體包括IE歷史記錄、 Cookies、 IE表單、Web緩存文件以及其他相關數(shù)據,以下對這些數(shù)據以及
它們的存放位置進行介紹
(a) IE歷史記錄指的是IE緩存索引文件(index.dat)。該文件的存放位 置因操作系統(tǒng)類型而異。例如在Windows XP環(huán)境下,index.dat存放于
"DocumentsandSettings\<username〉\LocalSettings\Temporary Internet Files\Content. IE5\,, 、"\Documents and Settings\〈username〉 \Cookies\" 和 "\Document and Settings\〈username〉\LocalSettings\History\History. IE5\,,這
三個位置。
(b) Cookies是用戶瀏覽某網站時Web服務器置于硬盤上的一個非常小 的文本文件,它用于記錄你的用戶ID、密碼、瀏覽過的網頁、停留的時間 等信息。Cookies的存放位置也是因操作系統(tǒng)類型而不同的。例如在Windows XP環(huán)境下,Cookies存放于"\Documents and Settings\〈username〉\Cookies\"中。
(c) IE表單是IE瀏覽器中的"自動完成"表單資料,它可以根據您以 前在地址欄、表單、密碼框和其他文本框中輸入的信息,自動完成文字輸 入。這些信息被保存在注冊表的一個特殊位置中?;A注冊表鍵是
"HKEY—CURRENT_USER\Software\Mic:rosoft\Protected Storage System Provider"。 IE表單的具體存放位置因操作系統(tǒng)類型而不同。例如在Windows XP環(huán)境下, IE表單存方文于"HKEY—CURRENT—USER\Software\Microsoft\Internet Explorer\ IntelliForms\Storage"。
(d) Web緩存文件是用戶曾經訪問的網頁內容(包括圖片以及其他類型 文件)。存放位置因操作系統(tǒng)類型而異。在WindowXP環(huán)境下,Web緩存的位 置在"\Documents and Settings \〈username〉\Local Settings\Temporary Internet Files"。
(e) 其他相關的瀏覽器數(shù)據包括IE收藏夾的信息、IE主頁信息和IE
地址欄的最近訪問列表的信息。在Window XP環(huán)境下,IE收藏夾的信息位
于"Documents and Settings \<username〉\Favorites" 。IE主頁信息和IE地
址欄的最近訪問列表的信息則分別位于注冊表的
"HKEY—CURRENT—USER\Software\Microsoft\Internet Explorer\main" 禾口
"HKEY—CURRENT_USER\Software\Microsoft\Internet Explorer\TypedURLs"。
輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞的具體步驟是
(1-1)首先分析硬盤上的注冊表文件,根據不同操作系統(tǒng)類型獲取存 放于注冊表中的IE主頁信息和IE地址欄的最近訪問列表的信息,并根據 注冊表中相關的鍵值中獲取IE歷史記錄、Cookies、 Web緩存文件和IE收 藏夾的存放位置。例如在Windows XP環(huán)境下,這些瀏覽器數(shù)據的位置信息 存方文于"HKEY—CURRENT_USER\Software\Microsoft \Windows \Current Version\ Explorer\User Shell Folders"中;
(1-2)然后取證機構操作人員根據取證調査的具體需要,有選擇地獲 取指定的瀏覽器數(shù)據文件(例如只獲取Web緩存文件和IE歷史記錄),即把 這些數(shù)據分別從原始文件夾中拷貝到特定的目錄下,用于進一步分析;
(l-3)取證機構操作人員輸入待搜索的敏感關鍵詞。
步驟(2):對證據文件進行解析和預處理,并將結果存入數(shù)據庫中。具 體步驟是
(2-l)首先根據文件內部格式分別對IE歷史記錄、Cookies和IE表單 這三類瀏覽器數(shù)據進行解析,然后將解析的結果存入數(shù)據庫中;
(2-2)首先根據文件類型篩選出Web緩存文件中的網頁文件,然后通過 分析每個網頁的html標簽,得到網頁的標題、正文、錨文本和對應網址以 及其他信息,并把這些分析結果存入數(shù)據庫;
(2-3)將其他瀏覽器數(shù)據的信息存入數(shù)據庫,即提取IE收藏夾、IE主頁信 息和IE地址欄的最近訪問列表信息這三類數(shù)據的屬性信息,并分別存入數(shù) 據庫。
歩驟(3):以Web瀏覽記錄為主線,將每條記錄與其他關聯(lián)的Web證據 整合成一個Web對象。具體步驟是
(3-l)針對數(shù)據庫中的每條Web瀏覽記錄,查詢與它具有相同網址信息 的Web緩存文件和IE表單信息,以及具有相同域名的Cookies文件,將這 些文件的索引編號和關鍵屬性提取出來,并標注它的網址是否出現(xiàn)在最近 訪問的網址或收藏夾中,然后將這些信息合并成一條新的記錄,并存入數(shù) 據庫;
(3-2)針對數(shù)據庫中的每條本地文件瀏覽記錄,將它也作為一條記錄存
入Web對象對應的數(shù)據表中。
步驟(4):選擇特殊的Web對象為樹根結點,根據頁面之間鏈接引用和 頁面訪問時間來構建Web樹,組建Web證據森林。具體步驟是
(4-1)首先選取網址出現(xiàn)在IE主頁或IE地址欄下拉列表中的Web對象 作為一棵Web樹的根結點,即Web樹的第一個父結點,并標注Web對象已 選中;如果網址出現(xiàn)在IE地址欄下拉列表中的Web對象都已選取過,則轉 到步驟(4-6);否則轉到步驟(4-2);
(4-2)在所有未被選中的Web對象中,找出一組網址為父節(jié)點網頁中錨 文本對應網址的Web對象;如果找到則轉到(4-3),如果未找到則標記該結 點為葉子結點,轉到歩驟(4-5);
(4-3)在找到的一組Web對象中選取一個和父結點構成一對Web對象, 轉到步驟(4-4),如果都已選取過,則轉到步驟(4-5);
(4-4)根據瀏覽記錄中的頁面訪問時間先后次序確定這對Web對象中 的父子關系,如果兩個Web對象的先后訪問時間差在設定的時間間隔之內, 那么可以確定它們之間的父子關系,即先訪問的為父結點,后訪問的為子 結點,并標注子結點Web對象已被選中;如果先后訪問時間差在設定的時 間間隔之外,則無法確定父子關系,轉到步驟(4-3);設定的時間間隔為小 于30秒;
(4-5)從新生成的子結點中選取一個作為父結點,轉到步驟(4-2),如 果全部都已選取過,則返回上一層中再執(zhí)行步驟(4-5),如果上一層為0層 則轉到步驟(4-6);
(4-6)Web樹構建完畢,如果仍存在Web對象未被選中和處理,則根據 當前選取的根節(jié)點的類型,分別轉到步驟(4-1)、 (4-7)、 (4-8);如果所有 的Web對象都已被處理,則轉到步驟(4-9);
(4-7)選取網址出現(xiàn)在收藏夾中的Web對象作為一棵Web樹的根結點, 即Web樹的第一個父結點;如果網址出現(xiàn)在收藏夾中的Web對象都已選取 過,則轉到步驟(4-8);如果收藏夾中仍有未處理過的Web對象,則轉到步 驟(4-2);
(4-8)選取網址為站點主頁的Web對象作為一棵Web樹的根結點,即 Web樹的第一個父結點;如果網址為站點主頁的Web對象都己選取過,則 轉到步驟(4-9);如果網址為站點主頁仍有未處理過的Web對象,則轉到步 驟(4-2);
(4-9) Web森林構建完畢。
步驟(5):利用輸入的關鍵詞對森林進行智能搜索,得到相關的web對
象。具體歩驟是
(5-1)首先輸入待搜索的關鍵詞或者基于關鍵詞的正則表達式;
(5-2)根據關鍵詞匹配規(guī)則對Web對象進行匹配査找,如果是含有網頁 或IE表單信息的Web對象,則根據網頁的文本信息和IE表單信息進行匹 配;如果是不含有網頁的Web對象,則根據文件名對進行匹配;
(5-3)對每個匹配成功的Web對象,記錄關鍵詞的出現(xiàn)位置和出現(xiàn)次 數(shù)(點擊次數(shù))。
步驟(6):對相關的Web對象、Web樹進行內容分析。具體步驟是
(6-1)根據步驟(5)中記錄的關鍵詞出現(xiàn)位置和出現(xiàn)次數(shù),計算每個 Web對象與敏感關鍵詞相關程度,計算公式為《 = 1—,,",..附,)/^;(",.0,其 中^是用戶對該web對象的訪問次數(shù)、《,是關鍵詞在位置區(qū)域f處匹配的次 數(shù)、w,是位置區(qū)域/處出現(xiàn)匹配的權重系數(shù);
(6-2)在Web森林中找出包含至少與關鍵詞匹配一次的Web對象節(jié)點的 Web樹,并計算這些Web樹的分數(shù),計算公式為& =(2>,^)/2>,,其中&為 該web樹t中節(jié)點/與關鍵詞的匹配次數(shù),co,為web對象節(jié)點i與敏感關鍵 詞的相關程度;
(6-3)將Web對象和Web樹按照分數(shù)高低降序排列。
步驟(7):生成Web取證報告供用戶瀏覽,就是將按相關程度排序的 web對象和web樹整理成規(guī)范化的文檔。
本發(fā)明可以滿足在如下場合應用需求(1)公安人員已經繳獲了嫌疑 人使用的計算機,并獲取了硬盤上的所有數(shù)據,此時可以利用本發(fā)明描述 的方法對瀏覽器證據(包括Web緩存和瀏覽歷史等)進行獲取和分析;(2) 公安人員懷疑嫌疑人通過網絡進行商業(yè)犯罪或其他非法行為,那么只需要 在目標計算機上安裝本系統(tǒng)就可以快速的査找到相關的瀏覽器數(shù)據,以便 確認嫌疑人的犯罪事實。
本發(fā)明采用的技術方案解決了背景技術中的不足,具有明顯的優(yōu)點和
積極效果,(l)主要關注瀏覽器的相關證據。傳統(tǒng)的取證分析技術主要是
針對硬盤上的全部數(shù)據,較少關注特定的證據,比如瀏覽器數(shù)據、Email 數(shù)據等。本發(fā)明通過對多種類型的瀏覽器數(shù)據進行分析,整合Web對象并 構建Web森林以反映用戶可能的瀏覽路徑,該發(fā)明可以有效的幫助取證人 員在較短的時間內了解用戶的上網行為。(2)效率高。在以往的計算機取 證分析過程中,每次關鍵詞搜索返回的結果經常是成千上萬條記錄,以致 于調查人員需要花費大量時間來分析搜索結果。本發(fā)明中對搜索結果進行 相關性排序,這使得調查人員更容易發(fā)現(xiàn)所需的證據信息,提高了搜索的
效率,節(jié)省了取證調查的時間。(3)對調查人員的熟練度的要求較低。在 本發(fā)明所述的方法中,除了待搜索的敏感關鍵詞需要手動輸入外,其他均 為自動完成,不需要過多的人工參與,極大的方便了調查人員。(4)可理 解性強。當前, 一般的取證分析過程只顯示即時的分析結果,較少考慮在 分析結束形成匯總報告。本發(fā)明則考慮到在分析過程結束后,生成取證分 析報告供調査人員査看,方便更多的人了解取證分析的結果。
圖l本發(fā)明中的Web瀏覽器文件輸入流程圖; 圖2本發(fā)明中的Web證據解析及處理流程圖; 圖3本發(fā)明中的IE歷史記錄文件解析流程圖4本發(fā)明中的Cookies文件解析流程圖; 圖5本發(fā)明中的IE表單信息解析流程圖。 圖6本發(fā)明中的Web對象整合流程圖; 圖7本發(fā)明中的Web樹構建流程圖; 圖8本發(fā)明中的Web森林構建流程圖; 圖9本發(fā)明中的關鍵詞搜索流程圖; 圖10本發(fā)明中的內容相關度排序流程具體實施例方式
下面結合附圖,對本發(fā)明進一步詳細描述
在步驟1對應的圖1中,首先,操作員在現(xiàn)場取證中從目標計算機中
通過DOS命令獲取注冊表文件和操作系統(tǒng)類型。在下一步中,根據不同操 作系統(tǒng)(98/2000/XP)對應的注冊表中不同位置,提取IE主頁、IE地址欄 下拉列表的網址以及重要文件夾的路徑。這些重要的文件夾包括IE臨時文 件夾、IE Cookies的文件夾和IE收藏夾。然后,用戶根據案件情況選擇 需要分析的瀏覽器數(shù)據后,系統(tǒng)將分別拷貝文件到對應的特定文件夾中, 例如將Web緩存文件拷貝到名為"Web緩存"的文件夾中。
在步驟2對應的圖2中,首先檢測歩驟1提取的證據中包含哪些瀏覽 器數(shù)據,然后根據不同的文件內部格式對這些數(shù)據進行解析和預處理,最 后把分析結果存入數(shù)據庫。需要注意的是,本方法中涉及的IE歷史文件指 的是全時間段的緩存索引文件,而不是分時間段的索引文件。并且,在將 分析結果存入數(shù)據庫之前,必須對結果文件按照數(shù)據表的形式進行格式化, 以方便導入。具體解析過程在圖3, 4, 5中描述。
圖3描述的是IE歷史文件的解析過程。首先確認文件是否可讀,然后 讀取它的版本號和文件大小信息,接下來依次取出記錄,并根據不同的記
錄類型(REDR、 URL或LEAK、未知類型)進行分析,直到讀取至文件尾, 則解析完畢。
圖4描述的是Cookies文件的解析過程。同樣,首先確認文件的可讀 性,然后依次讀取其中的每條記錄,并分析得出記錄的屬性,包括變量名, 變量的值、網站名、標志、過期時間和創(chuàng)建時間,如此反復直至讀取至文 件結束,則解析完畢。
圖5描述的是IE表單信息的解析過程。首先輸入注冊表文件,然后 創(chuàng)建PstoreCreatelnstance函數(shù)接收Pstore接口的指針。接下來便依次 讀取Pstore中的記錄,包括提取標志為"5e7e8100"的項為IE自動完成 密碼的內容,以及提取標志為"el612554"的項為IE自動完成表單的內容。 循環(huán)提取記錄直至讀取完畢,則解析操作結束。
在步驟3對應的圖6中,首先從數(shù)據庫中逐條選出Web瀏覽記錄,根 據它的網址和域名査詢其他數(shù)據表中的相關記錄,如具有相同網址的IE表 單信息和Web緩存文件等,并把這些關聯(lián)記錄中的關鍵屬性提取,如緩存 文件編號、IE表單信息編號等。然后,新增三個字段來表示該網址是否IE 主頁、IE地址欄或IE收藏夾中出現(xiàn),若出現(xiàn)則在對應的字段中進行標注。 最后將原來的Web瀏覽記錄、從關聯(lián)記錄中提取出的屬性以及新增的三個 字段合并成一條新的記錄,即Web對象。在這里需要注意的是,如果選出 的Web瀏覽記錄中的"protocol"字段為"file",即表瀏覽的是本地文 件,則無需添加任何字段,直接作為Web對象添加到對應的數(shù)據表。
在歩驟4對應的圖7表示的是構建Web森林的步驟,即依次選取3種 類型的Web對象作為Web樹的根節(jié)點,直至Web對象都已選取過。圖8表 示的是根據根結點Web對象來構建一棵Web樹的具體步驟,Web樹構建完 畢后,對組成樹的Web對象進行標注,即用唯一編號表示該Web對象在樹 中的位置,然后存入數(shù)據庫。假設某Web對象的編號(A, B, C), A為Web 樹的編號,B為該對象所在的層數(shù),C為該對象的父結點Web對象的編號。
在步驟5對應的圖9中,首先判斷待搜索對象是否包含網頁或IE表 單,如果是,就將網頁文本或IE表單文本作為搜索對象,否則就把文件名 作為搜索對象。當Web對象中的搜索對象與關鍵詞匹配成功后,必須記錄 關鍵詞所在的位置(如正文或標題),并計數(shù)(自增l)。例如,某關鍵詞在 網頁的標題中出現(xiàn)l次,正文中出現(xiàn)3次,這些信息必須保存入數(shù)據庫。
在歩驟6對應的圖10描述的是對Web對象和Web計算相關系數(shù)并按降 序排列的過程。首先輸入數(shù)據庫中的搜索結果,依次計算出每個web對象 與敏感關鍵詞的相關程度(計算公式為 <formula>formula see original document page 13</formula> ,其中^是
用戶對該web對象的訪問次數(shù)、"'是關鍵詞在位置區(qū)域^處匹配的次數(shù)、W 是位置區(qū)域f處出現(xiàn)匹配的權重系數(shù));然后依次按計算公式對每個web樹 與敏感關鍵詞的相關程度(計算公式為G-(I^'W)/1^,其中^為該web 樹t中節(jié)點z-與關鍵詞的匹配次數(shù),coi為web對象節(jié)點^與敏感關鍵詞的 相關程度);最后按相關程度的高低對web對象和web樹進行降序排序。
在步驟7中,最后在生成取證報告時,首先生成以樹狀框架為基礎的 XML頁面,然后根據每個節(jié)點的信息從數(shù)據庫中提取相應的內容填入頁面 中。這些內容瀏覽器數(shù)據的類型和對應的條數(shù),以及每次搜索過程的關鍵 詞和搜索結果,然后計算并顯示每次搜索結果記錄的條數(shù)以及所有搜索結 果的總條數(shù)。
權利要求
1.一種Web瀏覽器緩存數(shù)據的取證方法,其特征在于該方法包括以下步驟(1)輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞;(2)對證據文件進行解析和預處理,并將結果存入數(shù)據庫中;(3)以Web瀏覽記錄為主線,將每條記錄與其他關聯(lián)的Web證據整合成一個Web對象;(4)選擇特殊的Web對象為樹根結點,根據頁面之間鏈接引用和頁面訪問時間來構建Web樹,組建Web證據森林;(5)利用輸入的關鍵詞對森林進行智能搜索,得到相關的web對象;(6)對相關的Web對象、Web樹進行內容分析;(7)生成Web取證報告供用戶瀏覽。
2、 如權利要求l所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(l)輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞的具體步驟是(l-l)首先分析硬盤上的注冊表文件,根據不同操作系統(tǒng)類型獲取存放 于注冊表中的IE主頁信息和IE地址欄的最近訪問列表的信息,并根據注 冊表中相關的鍵值中獲取IE歷史記錄、Cookies、 Web緩存文件和IE收藏 夾的存放位置;(l-2)然后取證人員根據取證調查的具體需要,獲取指定的瀏覽器數(shù)據 文件,即把這些數(shù)據分別從原始文件夾中拷貝到特定的目錄下; (1-3)取證機構操作人員輸入待搜索的敏感關鍵詞。
3、 如權利要求l所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(2)對證據文件進行解析和預處理的具體步驟是(2-l)首先根據文件內部格式分別對IE歷史記錄、Cookies和IE表單 這三類瀏覽器數(shù)據進行解析,然后將解析的結果存入數(shù)據庫中;(2-2)首先根據文件類型篩選出Web緩存文件中的網頁文件,然后通過 分析每個網頁的html標簽,得到網頁的標題、正文、錨文本和對應網址以 及其他信息,并把這些分析結果存入數(shù)據庫;(2-3)將其他瀏覽器數(shù)據的信息存入數(shù)據庫,即提取IE收藏夾、IE主 頁信息和IE地址欄的最近訪問列表信息這三類數(shù)據的屬性信息,并分別存 入數(shù)據庫。
4、如權利要求1所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(3)將每條記錄與其他關聯(lián)的Web證據整合成一個Web對象的具體 步驟是(3-l)針對數(shù)據庫中的每條Web瀏覽記錄,查詢與它具有相同網址信息 的Web緩存文件和IE表單信息,以及具有相同域名的Cookies文件,將這 些文件的索引編號和關鍵屬性提取出來,并標注它的網址是否出現(xiàn)在最近 訪問的網址或收藏夾中,然后將這些信息合并成一條新的記錄,并存入數(shù) 據庫;(3-2)針對數(shù)據庫中的每條本地文件瀏覽記錄,將它也作為一條記錄存 入Web對象對應的數(shù)據表中。
5、如權利要求l所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(4)構建Web樹、組建Web證據森林的具體步驟是(4-l)首先選取網址出現(xiàn)在IE主頁或IE地址欄下拉列表中的Web對象 作為一棵Web樹的根結點,即Web樹的第一個父結點,并標注Web對象已 選中;如果網址出現(xiàn)在IE地址欄下拉列表中的Web對象都已選取過,則轉 到步驟(4-6);否則轉到步驟(4-2);(4-2)在所有未被選中的Web對象中,找出一組網址為父節(jié)點網頁中錨 文本對應網址的Web對象;如果找到則轉到(4-3),如果未找到則標記該結 點為葉子結點,轉到步驟(4-5);(4-3)在找到的一組Web對象中選取一個和父結點構成一對Web對象, 轉到步驟(4-4),如果都已選取過,則轉到步驟(4-5);(4-4)根據瀏覽記錄中的頁面訪問時間先后次序確定這對Web對象中的 父子關系,如果兩個Web對象的先后訪問時間差在設定的時間間隔之內, 那么可以確定它們之間的父子關系,即先訪問的為父結點,后訪問的為子 結點,并標注子結點Web對象已被選中;如果先后訪問時間差在設定的時 間間隔之外,則無法確定父子關系,轉到步驟(4-3);設定的時間間隔為 10 300秒;(4-5)從新生成的子結點中選取一個作為父結點,轉到步驟(4-2),如 果全部都已選取過,則返回上一層中再執(zhí)行步驟(4-5),如果上一層為0層 則轉到步驟(4-6);(4-6)Web樹構建完畢,如果仍存在Web對象未被選中和處理,則根據 當前選取的根節(jié)點的類型,分別轉到步驟(4-l)、 (4-7)、 (4-8);如果所有 的Web對象都已被處理,則轉到步驟(4-9);(4-7)選取網址出現(xiàn)在收藏夾中的Web對象作為一棵Web樹的根結 點,即Web樹的第一個父結點;如果網址出現(xiàn)在收藏夾中的Web對象都己 選取過,則轉到步驟(4-8);如果收藏夾中仍有未處理過的Web對象,則轉 到步驟(4-2);(4-8)選取網址為站點主頁的Web對象作為一棵Web樹的根結點,即 Web樹的第一個父結點;如果網址為站點主頁的Web對象都已選取過,則 轉到步驟(4-9);如果網址為站點主頁仍有未處理過的Web對象,則轉到步 驟(4-2);(4-9) Web森林構建完畢。
6. 如權利要求1所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(5)利用輸入的關鍵詞對森林進行智能搜索的具體步驟是(5-1)首先輸入待搜索的關鍵詞或者基于關鍵詞的正則表達式; (5-2)根據關鍵詞匹配規(guī)則對Web對象進行匹配査找,如果是含有網頁 或IE表單信息的Web對象,則根據網頁的文本信息和IE表單信息進行匹 配;如果是不含有網頁的Web對象,則根據文件名對進行匹配;(5-3)對每個匹配成功的Web對象,記錄關鍵詞的出現(xiàn)位置和出現(xiàn)次數(shù)。
7. 如權利要求l所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(6)對相關的Web對象、Web樹進行內容分析的具體步驟是(6-l)根據步驟(5)中記錄的關鍵詞出現(xiàn)位置和出現(xiàn)次數(shù),計算每個Web 對象與敏感關鍵詞相關程度,計算公式為^^Z(nm,.)/ZdO,其中 m,是用戶對該web對象的訪問次數(shù)、w,.是關鍵詞在位置區(qū)域/處匹配的次 數(shù)、w.是位置區(qū)域z'處出現(xiàn)匹配的權重系數(shù);(6-2)在Web森林中找出包含至少與關鍵詞匹配一次的Web對象節(jié)點的 Web樹,并計算這些Web樹的分數(shù),計算公式為^=(2>,.^.)/1>,.,其中^ 為該web樹t中節(jié)點f與關鍵詞的匹配次數(shù),ca為web對象節(jié)點/與敏感關 鍵詞的相關程度;(6-3)將Web對象和Web樹按照分數(shù)高低降序排列。
8. 如權利要求1所述的一種Web瀏覽器緩存數(shù)據的取證方法,其特征 在于步驟(7)生成Web取證報告是將按相關程度排序的web對象和web樹整 理成規(guī)范化的文檔。
全文摘要
本發(fā)明涉及一種Web瀏覽器緩存數(shù)據的取證方法?,F(xiàn)有方法很難獲取網頁的點擊操作以及其他需要用戶參與才能獲取的信息。本發(fā)明方法是輸入Web瀏覽器數(shù)據文件和搜索的敏感關鍵詞;對證據文件進行解析和預處理;以Web瀏覽記錄為主線,將每條記錄與其他關聯(lián)的Web證據整合成一個Web對象;選擇特殊的Web對象為樹根結點,根據頁面之間鏈接引用和頁面訪問時間來構建Web樹,組建Web證據森林;利用輸入的關鍵詞對森林進行智能搜索,得到相關的web對象;對相關的Web對象、Web樹進行內容分析;生成Web取證報告供用戶瀏覽。本發(fā)明方法效率高、可理解性強、對調查人員的熟練度的要求較低。
文檔編號G06F17/30GK101369276SQ200810121139
公開日2009年2月18日 申請日期2008年9月28日 優(yōu)先權日2008年9月28日
發(fā)明者明 徐, 楊弘曧, 寧 鄭 申請人:杭州電子科技大學