本發(fā)明涉及非結(jié)構(gòu)化數(shù)據(jù)處理方法,尤其是一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法,屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著大數(shù)據(jù)時代的到來,越來越多的非結(jié)構(gòu)化數(shù)據(jù)受到人們的重視,尤其是符合大數(shù)據(jù)4V特性(數(shù)據(jù)容量大、數(shù)據(jù)類型繁多、商業(yè)價值高和處理速度快)的非結(jié)構(gòu)化數(shù)據(jù),如大量的視頻數(shù)據(jù)、圖片數(shù)據(jù)等。
以交通行業(yè)為例,如今道路上的視頻監(jiān)控設(shè)備和電子警察設(shè)備積累了大量的視頻監(jiān)控數(shù)據(jù)以及抓拍圖像數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)中,包含人員、車輛、路網(wǎng)、環(huán)境等多種影響交通狀況的信息,如何利用好這些數(shù)據(jù)來解決由于機動化和城市化進程加快帶來的交通擁堵、交通事故頻發(fā)等問題,成為了一個熱門方向。
當(dāng)今的非結(jié)構(gòu)化數(shù)據(jù)的處理方式主要是模板匹配法,將現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)與已經(jīng)完成處理的模板進行對比,從而找到最相似的模板,從中提取出相應(yīng)有用的信息,但這種方法在處理大量非結(jié)構(gòu)化數(shù)據(jù)時耗時長,并且沒有那么大的模板庫與之相應(yīng)匹配。
技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法,包含圖像、視頻等符合大數(shù)據(jù)4V特性(數(shù)據(jù)容量大、數(shù)據(jù)類型繁多、商業(yè)價值高和處理速度快)的非結(jié)構(gòu)化數(shù)據(jù),該方法包括以下步驟:1)非結(jié)構(gòu)化數(shù)據(jù)的存儲,基于Hadoop的大數(shù)據(jù)框架,可以很好解決非結(jié)構(gòu)化數(shù)據(jù)的存儲、管理、訪問;2)非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理,利用大數(shù)據(jù)平臺的ETL能力,完成數(shù)據(jù)預(yù)處理(清洗、轉(zhuǎn)換、挖掘、搜索等);3)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理,對非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容按照語義關(guān)系,采用時空分割、特征提取、對象識別等處理手段,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向信息、情報的轉(zhuǎn)化;4)非結(jié)構(gòu)化數(shù)據(jù)的處理能力提升,利用深度學(xué)習(xí)算法來替代手工獲取特征分析,提升非結(jié)構(gòu)化數(shù)據(jù)處理的準(zhǔn)確性和合理性。
本發(fā)明的具體技術(shù)方案如下:
步驟1,非結(jié)構(gòu)化數(shù)據(jù)的存儲
本發(fā)明利用大數(shù)據(jù)平臺來對非結(jié)構(gòu)化數(shù)據(jù)進行存儲,主要是基于Hadoop的大數(shù)據(jù)框架,解決視頻數(shù)據(jù)的存儲、管理、訪問,具體方式如下:
步驟1.1,根據(jù)數(shù)據(jù)連通度選擇共享交換方式將非結(jié)構(gòu)化數(shù)據(jù)上傳匯聚到大數(shù)據(jù)對象存儲或通過在線存儲服務(wù)訪問方式配置非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù);
步驟1.2,將需要采集的非結(jié)構(gòu)化數(shù)據(jù),基于Hadoop的大數(shù)據(jù)框架,完成大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲;
步驟1.3,利用圖形化的配置界面對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一管理。
步驟2,非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理
本發(fā)明利用大數(shù)據(jù)平臺的ETL能力,完成數(shù)據(jù)的清洗、轉(zhuǎn)換、挖掘、搜索等基本處理,具體方式如下:
步驟2.1,從不同的數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)格式中抽取數(shù)據(jù);
步驟2.2,將抽取的數(shù)據(jù)根據(jù)規(guī)則進行計算、合并、拆分、編碼轉(zhuǎn)換等操作,清除重復(fù)數(shù)據(jù)、錯誤數(shù)據(jù),清空稀疏的數(shù)據(jù)集;
步驟2.3,將已經(jīng)處理后的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫,以供下一步驟的分析使用。
步驟3,非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理
本發(fā)明對非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容按照數(shù)據(jù)間的語義關(guān)系,采用時空分割、特征提取、對象識別等處理手段,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向信息、情報的轉(zhuǎn)化,具體做法如下:
步驟3.1,將非結(jié)構(gòu)化數(shù)據(jù)根據(jù)數(shù)據(jù)線性序列的橫向關(guān)系以及相同結(jié)構(gòu)、相同位置之間的縱向結(jié)構(gòu),建立好非結(jié)構(gòu)化數(shù)據(jù)的語義關(guān)系;
步驟3.2,將建立好語義關(guān)系的非結(jié)構(gòu)化數(shù)據(jù),根據(jù)非結(jié)構(gòu)數(shù)據(jù)的時間和空間的差異,進行數(shù)據(jù)分割;
步驟3.3,將分割后的非結(jié)構(gòu)化數(shù)據(jù),通過影像分析和變換,將數(shù)據(jù)按照一定的規(guī)律生成不同的子集,形成一個個特征參數(shù);
步驟3.4,根據(jù)特征提取的結(jié)果,利用定量描繪子提取的方式,提取出具體的結(jié)構(gòu)化數(shù)據(jù),定量描繪子包括長度、紋理和面積等。
步驟4,非結(jié)構(gòu)化數(shù)據(jù)的處理能力提升
本發(fā)明利用深度學(xué)習(xí)算法,對不同非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理結(jié)果進行不斷學(xué)習(xí)調(diào)整,提升非結(jié)構(gòu)化數(shù)據(jù)處理的準(zhǔn)確性和合理性,具體做法如下:
步驟4.1,利用大量歷史數(shù)據(jù)進行訓(xùn)練,即將大量非結(jié)構(gòu)化數(shù)據(jù)帶入步驟3,得到多種不同的處理結(jié)果,并打上相對應(yīng)的標(biāo)簽;
步驟4.2,新的非結(jié)構(gòu)化數(shù)據(jù)中,將新的非結(jié)構(gòu)化數(shù)據(jù)和步驟4.1訓(xùn)練的標(biāo)簽數(shù)據(jù)進行概率匹配,獲取新的數(shù)據(jù)與標(biāo)簽數(shù)據(jù)的聯(lián)合概率分布函數(shù)f(p);
步驟4.3,利用步驟4.2獲取的聯(lián)合概率分布,完成先驗概率和后驗概率的估計,概率估計較高的為新的非結(jié)構(gòu)化數(shù)據(jù)處理結(jié)果;
步驟4.4,在今后的其他非結(jié)構(gòu)化數(shù)據(jù)處理中,將步驟4.3得到的結(jié)果當(dāng)成歷史數(shù)據(jù),擴大步驟4.1中的樣本量,并重復(fù)上述操作,完成自學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理。
本發(fā)明的有益效果是:基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法,利用大數(shù)據(jù)平臺,基于Hadoop的大數(shù)據(jù)框架,采用深度學(xué)習(xí)算法,完成符合大數(shù)據(jù)4V特性的圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的存儲、預(yù)處理以及最終的結(jié)構(gòu)化處理。該方法可以實現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)的存儲,支持非結(jié)構(gòu)化數(shù)據(jù)的批量實時處理,增強非結(jié)構(gòu)化數(shù)據(jù)處理的效率,提高處理結(jié)果的準(zhǔn)確性和合理性。
附圖說明
圖1 為本發(fā)明基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法總流程圖。
圖2 為本發(fā)明基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理能力提升流程圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的特征及其它相關(guān)特征作進一步詳細說明。
如圖1所示,提供一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法,包含圖像、視頻等符合大數(shù)據(jù)4V特性(數(shù)據(jù)容量大、數(shù)據(jù)類型繁多、商業(yè)價值高和處理速度快)的非結(jié)構(gòu)化數(shù)據(jù),該方法包括以下步驟:1)非結(jié)構(gòu)化數(shù)據(jù)的存儲,基于Hadoop的大數(shù)據(jù)框架,可以很好解決非結(jié)構(gòu)化數(shù)據(jù)的存儲、管理、訪問;2)非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理,利用大數(shù)據(jù)平臺的ETL能力,完成數(shù)據(jù)預(yù)處理(清洗、轉(zhuǎn)換、挖掘、搜索等);3)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理,對非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容按照語義關(guān)系,采用時空分割、特征提取、對象識別等處理手段,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向信息、情報的轉(zhuǎn)化;4)非結(jié)構(gòu)化數(shù)據(jù)的處理能力提升,利用深度學(xué)習(xí)算法來替代手工獲取特征分析,提升非結(jié)構(gòu)化數(shù)據(jù)處理的準(zhǔn)確性和合理性。
結(jié)合道路上高清攝像頭記錄的視頻數(shù)據(jù)為例,詳細說明基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法的步驟:
步驟1,非結(jié)構(gòu)化數(shù)據(jù)的存儲
步驟1.1,將視頻數(shù)據(jù)通過在線存儲服務(wù)訪問方式配置非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù);
步驟1.2,將需要采集到的視頻數(shù)據(jù),基于Hadoop的大數(shù)據(jù)框架,完成視頻數(shù)據(jù)在大數(shù)據(jù)平臺上的分布式存儲;
步驟1.3,利用圖形化的配置界面對視頻數(shù)據(jù)進行統(tǒng)一管理。
步驟2,非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理
步驟2.1,從不同的數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)格式中抽取出視頻數(shù)據(jù);
步驟2.2,將抽取的視頻數(shù)據(jù)根據(jù)規(guī)則進行計算、合并、拆分、編碼轉(zhuǎn)換等操作,清除重復(fù)數(shù)據(jù)、錯誤數(shù)據(jù),清空稀疏的數(shù)據(jù)集;
步驟2.3,將已經(jīng)處理后的視頻數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫,以供下一步驟的分析使用。
步驟3,非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理
步驟3.1,將視頻數(shù)據(jù)根據(jù)數(shù)據(jù)線性序列的橫向關(guān)系以及相同結(jié)構(gòu)、相同位置之間的縱向結(jié)構(gòu),建立好非結(jié)構(gòu)化數(shù)據(jù)的語義關(guān)系;
步驟3.2,將建立好語義關(guān)系的視頻數(shù)據(jù),根據(jù)視頻數(shù)據(jù)的記錄的時間和空間的不同,進行視頻數(shù)據(jù)時空分割;
步驟3.3,將分割后的視頻數(shù)據(jù),通過影像分析和變換,將數(shù)據(jù)按照一定的規(guī)律生成不同的子集,形成一個個特征參數(shù);
步驟3.4,根據(jù)特征提取的結(jié)果,利用定量描繪子提取的方式,提取出具體的結(jié)構(gòu)化數(shù)據(jù),定量描繪子包括車輛長度、紋理和面積等。
步驟4,非結(jié)構(gòu)化數(shù)據(jù)的處理能力提升,如圖2所示,具體流程如下:
步驟4.1,利用大量歷史數(shù)據(jù)進行訓(xùn)練,即將大量視頻數(shù)據(jù)帶入步驟3,得到多種不同的處理結(jié)果,并打上相對應(yīng)的標(biāo)簽;
步驟4.2,新的視頻數(shù)據(jù)中,將新的視頻數(shù)據(jù)和步驟4.1訓(xùn)練的標(biāo)簽數(shù)據(jù)進行概率匹配,獲取新的數(shù)據(jù)與標(biāo)簽數(shù)據(jù)的聯(lián)合概率分布函數(shù)f(p);
步驟4.3,利用步驟4.2獲取的聯(lián)合概率分布,完成先驗概率和后驗概率的估計,概率估計較高的為新的視頻數(shù)據(jù)處理結(jié)果;
步驟4.4,在今后的其他視頻數(shù)據(jù)處理中,將步驟4.3得到的結(jié)果當(dāng)成歷史數(shù)據(jù),擴大步驟4.1中的樣本量,并重復(fù)上述操作,完成自學(xué)習(xí)的視頻數(shù)據(jù)處理。