一種基于Spark的海量視頻語義標(biāo)注方法
【專利摘要】本發(fā)明提出了基于Spark的海量視頻語義標(biāo)注方法,其主要是以海量視頻在Hadoop大數(shù)據(jù)集群環(huán)境下的彈性分布式存儲(chǔ)為基礎(chǔ),采用Spark計(jì)算模式進(jìn)行視頻標(biāo)注。該方法主要包括以下內(nèi)容:基于分形理論的視頻分割方法及其在Spark上的實(shí)現(xiàn);基于Spark的視頻特征提取方法和基于元學(xué)習(xí)策略的視覺單詞形成方法;基于Spark的視頻標(biāo)注的生成方法。本發(fā)明,相對于傳統(tǒng)的單機(jī)計(jì)算、并行計(jì)算或分布式計(jì)算,計(jì)算速度提高百倍以上,具有標(biāo)注內(nèi)容信息全、錯(cuò)誤率低等優(yōu)點(diǎn)。
【專利說明】—種基于Spark的海量視頻語義標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種視頻的處理方法,特別是一種基于Spark的海量視頻語義標(biāo)注方法。
【背景技術(shù)】
[0002]近年來,隨著多媒體應(yīng)用及社交網(wǎng)絡(luò)的風(fēng)靡流行,各種多媒體數(shù)據(jù)(文本、圖像以及視頻等)呈現(xiàn)指數(shù)級的爆炸式增長;這些大規(guī)模數(shù)據(jù)給傳統(tǒng)的多媒體研究,尤其是基于視頻應(yīng)用和研究帶來了新的挑戰(zhàn)和機(jī)遇,如何有效地組織、利用視頻數(shù)據(jù)來驅(qū)動(dòng)和滿足用戶對于視頻多種個(gè)性化需求正成為計(jì)算機(jī)視覺和多媒體領(lǐng)域的一個(gè)研究熱點(diǎn)。
[0003]人類所理解的視頻與用底層視覺特征來表達(dá)的視頻之間存在著很大的差距,即在視頻語義和視覺特征之間橫亙著“語義鴻溝”。為了實(shí)現(xiàn)更為貼近用戶理解能力的、用自然語言描述的查詢方式,對視頻語義標(biāo)注的研究逐漸引起人們的廣泛注意。標(biāo)注就是使用語義關(guān)鍵字或標(biāo)簽來表示一幅視頻的語義內(nèi)容,進(jìn)而可以將視頻檢索轉(zhuǎn)化為基于文本的檢索。早期,基于文本的視頻檢索大都采用人工標(biāo)注的方法,即需要專業(yè)人員對每幅視頻標(biāo)出關(guān)鍵字。然而,一方面人工標(biāo)注存在主觀性和不精確性,直接影響到檢索結(jié)果的準(zhǔn)確性?’另一方面對視頻進(jìn)行人工標(biāo)注費(fèi)時(shí)費(fèi)力,尤其是面對目前的海量視頻,人工標(biāo)注十分困難。
[0004]大數(shù)據(jù)技術(shù)為海量視頻標(biāo)注提供了一個(gè)有效的解決途徑。一方面,大數(shù)據(jù)技術(shù)可以解決大容量視頻數(shù)據(jù)的存儲(chǔ)問題;另一方面,分布式運(yùn)算也可以解決視頻語義分析運(yùn)算。Spark是UC Berkeley AMP lab所開源的并行計(jì)算框架,Spark基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop/MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。
[0005]同時(shí),Spark在機(jī)器學(xué)習(xí)方面有著無與倫比的優(yōu)勢,特別適合需要多次迭代計(jì)算的視頻標(biāo)注算法。同時(shí)Spark的擁有非常出色的容錯(cuò)和調(diào)度機(jī)制,確保系統(tǒng)的穩(wěn)定運(yùn)行。因此,使用Spark計(jì)算框架解決海量視頻標(biāo)注問題,具有非常好的易用性。
[0006]國內(nèi)外已有諸多學(xué)者對多媒體標(biāo)注進(jìn)行了深入研究,圖像內(nèi)容語義注釋方法(專利申請?zhí)?00610053867.9)將圖像處理技術(shù)與機(jī)器學(xué)習(xí)技術(shù)以及自然語言處理等技術(shù)結(jié)合起來,實(shí)現(xiàn)了對圖像內(nèi)容的語義標(biāo)注;同時(shí)支持根據(jù)用戶的標(biāo)注特點(diǎn)校正底層的標(biāo)注映射規(guī)則庫,使得標(biāo)注結(jié)果更符合具體用戶的標(biāo)注要求。一種基于語義二叉樹的圖像標(biāo)注(專利申請?zhí)?01110002770.6)對于特定場景的圖像集,采用圖像分割算法對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行分割,獲得圖像區(qū)域的視覺描述;同時(shí),構(gòu)造用于學(xué)習(xí)的所有圖像的視覺最近鄰圖并建立所述場景的語義二叉樹;最后,對所述場景下的待標(biāo)注圖像,從語義二叉樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)找到相應(yīng)位置,并將該節(jié)點(diǎn)處到根節(jié)點(diǎn)的所有標(biāo)注字傳遞給所述圖像。
[0007]這兩種方法在數(shù)據(jù)量不大、實(shí)時(shí)性要求不高的情況下,能夠取得不錯(cuò)的圖片標(biāo)注效果,但對于海量視頻資源,單機(jī)的計(jì)算資源明顯無法支持大規(guī)模運(yùn)算,因此該算法無法應(yīng)用到海量視頻標(biāo)注中去。本發(fā)明中,在Spark框架強(qiáng)計(jì)算能力的支持下,通過顏色矩、邊緣、紋理三重特征表征一類實(shí)體,采用元學(xué)習(xí)策略在實(shí)體表征合理性和分類學(xué)習(xí)可靠性方面有了很大提聞。
【發(fā)明內(nèi)容】
[0008]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于Spark的海量視頻語義標(biāo)注方法。
[0009]為了解決上述技術(shù)問題,本發(fā)明公開了一種一種基于Spark的海量視頻語義標(biāo)注方法,包括以下步驟:
[0010]步驟1:將海量視頻部署到一組計(jì)算節(jié)點(diǎn)上,通過Spark集群計(jì)算視頻巾貞時(shí)間序列的分形維度差值,實(shí)現(xiàn)鏡頭分割,獲取關(guān)鍵幀;關(guān)于Spark集群和Hadoop,可以參見:
1、基于Spark的機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn),唐振坤,廈門大學(xué),2014-05-01,碩士論文;
2、基于Hadoop的海量視頻數(shù)據(jù)存儲(chǔ)及轉(zhuǎn)碼系統(tǒng)的研究與設(shè)計(jì),李曉波,浙江工業(yè)大學(xué),2013-03-28,碩士論文;3、基于Hadoop開源框架的視頻內(nèi)容分發(fā)平臺(tái)研究,葉志強(qiáng);劉晨鳴;王一梅廣播電視信息,2013-03-15
[0011]步驟2:在Spark集群上提取對象的檢測樣本的顏色矩、邊緣以及紋理特征向量,進(jìn)行元學(xué)習(xí)策略訓(xùn)練,形成視覺詞典;并依據(jù)視覺詞典對關(guān)鍵視頻幀進(jìn)行預(yù)測,產(chǎn)生能表征該關(guān)鍵視頻幀的視覺單詞;
[0012]步驟3:通過Tf方法對待測視頻的視覺單詞進(jìn)行優(yōu)先排序,將篩選結(jié)果作為該視頻的標(biāo)注。TF詞頻(Term Frequency),TF表示詞條在文檔中出現(xiàn)的頻率,頻率越高說明該視覺單詞在視頻中的重要性越大。
[0013]步驟I在Spark集群上實(shí)現(xiàn)視頻分割,劃分海量視頻分布至一組計(jì)算節(jié)點(diǎn),利用分形方法將視頻按時(shí)間序列分割為若干鏡頭,并提取關(guān)鍵幀,具體包括如下步驟:步驟1-1:轉(zhuǎn)換視頻數(shù)據(jù)格式,將視頻二進(jìn)制數(shù)據(jù)通過Hadoop自定義輸出流轉(zhuǎn)換為Spark集群可讀取的byte型數(shù)據(jù),并保存到Hadoop分布式系統(tǒng)Hadoop Distributed File System(以下簡稱“HDFS”)上;根據(jù)視頻總幀數(shù),利用并行分塊函數(shù)parallelize把視頻切分為塊,一個(gè)塊代表一個(gè)視頻巾貞的彈性分布式數(shù)據(jù)集Resilient Distributed Datasets (以下簡稱“RDD”)數(shù)據(jù)對象parVideoRDD ;調(diào)用幀處理程序,將parVideoRDD中的每一數(shù)據(jù)塊都并行的分配到P個(gè)計(jì)算節(jié)點(diǎn),從而實(shí)現(xiàn)對整個(gè)視頻的幀數(shù)據(jù)并行處理;
[0014]步驟1-2:采用差分盒法,計(jì)算每一視頻幀分形維度,通過時(shí)間序列的分形維度差值,求出切變鏡頭和漸變鏡頭的邊界,從而將視頻分割為一組鏡頭;在此計(jì)算過程中,通過Spark在各計(jì)算節(jié)點(diǎn)見的聯(lián)系方式SparkContext實(shí)現(xiàn)各個(gè)計(jì)算節(jié)點(diǎn)間共享,使用映射函數(shù)map O完成分配步驟,再使用歸一函數(shù)reduce O完成更新步驟;
[0015]步驟1-3:按時(shí)間序列,取每一鏡頭臨界幀作為該鏡頭的關(guān)鍵幀,返回Spark主節(jié)點(diǎn)的結(jié)果是關(guān)鍵幀號和其場景描述的視頻幀的RDD數(shù)據(jù),將該視頻幀的RDD數(shù)據(jù)存儲(chǔ)為KeyFrameSce.txt文本文件,用于后續(xù)步驟調(diào)用。
[0016]步驟2包括如下步驟:
[0017]步驟2-1:截取一組包括待測對象的各類圖片,作為該對象的檢測樣本;將圖片通過通道管理函數(shù)pipeO分配到一組計(jì)算節(jié)點(diǎn),根據(jù)關(guān)鍵幀顏色矩、邊緣直方圖以及分形維度特征提取18維特征向量,用于表征該對象的圖像語義內(nèi)容;返回Spark主節(jié)點(diǎn)的結(jié)果是特征向量RDD數(shù)據(jù),將其輸出到文本文件SampleVec.txt中,此時(shí)SampleVec.txt文本文件包含該對象的特征信息;
[0018]步驟2-2:將分布式文件系統(tǒng)HDFS上的文本文件SampleVec.txt通過分析類SparkContext的文本讀取函數(shù)TextFile讀取字符串String類型的RDD數(shù)據(jù)SampleVecRDD,并將該數(shù)據(jù)分配到P個(gè)計(jì)算節(jié)點(diǎn),P為大于I的自然數(shù);采用基于元學(xué)習(xí)策略的4種分類算法,包括Generalized Winnow算法、支持向量機(jī)算法、條件隨機(jī)域算法和最大熵算法,對代表該類對象的語義內(nèi)容進(jìn)行特征訓(xùn)練,形成代表該類對象的視覺單詞,并與文字語義內(nèi)容相關(guān)聯(lián);視覺單詞是一個(gè)由元分類器表征且與文字語義內(nèi)容存在相應(yīng)映射關(guān)系的XML文件,每一個(gè)XML文件代表一類視覺單詞;
[0019]步驟2-3:重復(fù)步驟2-1和步驟2-2,訓(xùn)練得到一組能夠代表一類對象的特征的視覺單詞,與相對應(yīng)的文字語義內(nèi)容建立映射關(guān)系后,匯聚成視覺詞典;
[0020]步驟2-4:根據(jù)步驟2-1的,將步驟1-3得到的關(guān)鍵視頻幀數(shù)據(jù)通過通道管理函數(shù)pipeO分配到一組計(jì)算節(jié)點(diǎn),并提取18維特征向量,用于表征該關(guān)鍵視頻幀的語義內(nèi)容;返回Spark主節(jié)點(diǎn)的結(jié)果是關(guān)鍵視頻幀的幀序號和特征向量RDD數(shù)據(jù),將返回的[幀序號,特征向量RDD數(shù)據(jù)]輸出到文本文件KeyFrameVec.txt中,此時(shí)KeyFrameVec.txt文本文件包含整個(gè)視頻文件關(guān)鍵幀信息;
[0021]步驟2-5:根據(jù)步驟2-2,將分布式文件系統(tǒng)HDFS上的文本文件KeyFrameVec.txt通過SparkContext的文本讀取函數(shù)TextFile函數(shù)讀取字符串String類型RDD數(shù)據(jù)FrameVecRDD,數(shù)據(jù)FrameVecRDD每一行包含一巾貞號及語義特征向量,并將數(shù)據(jù)FrameVecRDD分配到P個(gè)計(jì)算節(jié)點(diǎn);對照視覺詞典,采用元學(xué)習(xí)策略對代表視頻巾貞語義內(nèi)容的特征向量進(jìn)行預(yù)測,得出該視頻幀所表述的一個(gè)以上的視覺單詞;返回的結(jié)果是幀序號、視覺單詞、對應(yīng)文字組合的RDD數(shù)據(jù),將該RDD數(shù)據(jù)存儲(chǔ)為Word, txt文本文件,用于后續(xù)步驟調(diào)用。
[0022]步驟3將視頻中各關(guān)鍵幀對應(yīng)的視覺單詞進(jìn)行匯總,通過Tf模型篩選,實(shí)現(xiàn)視頻基于量化單詞的線性表達(dá),形成視頻標(biāo)注,具體包括如下步驟:
[0023]步驟4-1:將HDFS上的文本文件Word, txt讀取到Spark集群上,設(shè)待測視頻所有關(guān)鍵幀共含有M個(gè)視覺單詞,將這些視覺單詞按照權(quán)值的大小進(jìn)行排序,權(quán)值范圍O?1,視覺單詞權(quán)值由Tf模型決定;
[0024]步驟4-2:通過數(shù)據(jù)集RDD的保存文檔函數(shù)SaveAsTextFile將視覺單詞、對應(yīng)文字及出現(xiàn)概率保存為HDFS上的文本文件Keywords, txt,取出現(xiàn)頻率最高的五個(gè)視覺單詞作為該視頻的標(biāo)注。
[0025]步驟2-1中,所述一組包括待測對象的各類圖片為I萬至3萬張。
[0026]本發(fā)明涉及基于Spark的海量視頻語義標(biāo)注方法。首先,在Spark集群上,以HDFS存儲(chǔ)方式將海量視頻部署到若干計(jì)算節(jié)點(diǎn)上,通過分形維度實(shí)現(xiàn)鏡頭分割。其次,在Spark集群上提取對象樣本的顏色矩、邊緣以及紋理特征向量,進(jìn)行元學(xué)習(xí)策略訓(xùn)練,形成視覺詞典;并依據(jù)視覺詞典對關(guān)鍵幀進(jìn)行預(yù)測,產(chǎn)生能表征該鏡頭的視覺單詞。最后,通過Tf方法對待測視頻的視覺單詞進(jìn)行排序,將篩選結(jié)果作為該視頻的標(biāo)注。
[0027]本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:采用Spark計(jì)算框架,將存儲(chǔ)和計(jì)算節(jié)點(diǎn)在物理上結(jié)合在一起,從而避免在數(shù)據(jù)密集計(jì)算中易形成的1/0吞吐量的制約,通過數(shù)據(jù)冗余性,提升了可擴(kuò)展性、容錯(cuò)能力、并發(fā)訪問能力和并發(fā)讀寫能力;實(shí)現(xiàn)了對體量龐大的非結(jié)構(gòu)化視頻數(shù)據(jù)進(jìn)行分析,將海量復(fù)雜多源的視頻數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識別的、具有明確語義的信息,進(jìn)而進(jìn)行視頻標(biāo)注。
【專利附圖】
【附圖說明】
[0028]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述和/或其他方面的優(yōu)點(diǎn)將會(huì)變得更加清楚。
[0029]圖1基于Spark的海量視頻語義標(biāo)注流程圖。
[0030]圖2海量視頻數(shù)據(jù)Hadoop存儲(chǔ)模型架構(gòu)圖。
[0031]圖3Hadoop存儲(chǔ)模型架構(gòu)的寫操作過程示意圖。
[0032]圖4Hadoop存儲(chǔ)模型架構(gòu)的讀操作過程示意圖。
[0033]圖5基于Spark的元學(xué)習(xí)訓(xùn)練過程示意圖。
[0034]圖6基于Spark的元學(xué)習(xí)測試過程示意圖。
【具體實(shí)施方式】
[0035]本發(fā)明基于Spark的海量視頻語義標(biāo)注方法,步驟如下:
[0036]第一步,建立Hadoop/Spark海量視頻大數(shù)據(jù)平臺(tái),該平臺(tái)由管理模塊、結(jié)構(gòu)模塊和數(shù)據(jù)模塊三部分組成且相互獨(dú)立,實(shí)現(xiàn)海量數(shù)據(jù)的彈性存儲(chǔ);模塊間通過以太網(wǎng)實(shí)現(xiàn)通信,實(shí)現(xiàn)各模塊單獨(dú)維護(hù)和升級,靈活處理系統(tǒng)的冗余和備份。如圖2所示,管理模塊向操作系統(tǒng)(客戶端)提供一組訪問界面,主要包括:對文件和目錄的建立、打開、關(guān)閉、撤銷、讀、寫、權(quán)限管理等。操作系統(tǒng)(客戶端)通過這些訪問界面獲得數(shù)據(jù)存儲(chǔ)系統(tǒng)的各種服務(wù)。結(jié)構(gòu)模塊,將不同結(jié)構(gòu)的數(shù)據(jù)文件在數(shù)據(jù)庫中創(chuàng)建對應(yīng)的數(shù)據(jù)表,表中描述了文件屬性信息和文件存儲(chǔ)信息。數(shù)據(jù)模塊是管理模塊、結(jié)構(gòu)模塊的橋梁。數(shù)據(jù)模塊將管理模塊提交的用戶文件以硬盤數(shù)據(jù)塊或扇區(qū)為單位存儲(chǔ)到文件系統(tǒng),并將磁盤數(shù)據(jù)塊或扇區(qū)信息存入結(jié)構(gòu)模塊中。
[0037]實(shí)現(xiàn)數(shù)據(jù)寫操作過程,如圖3所示。
[0038]I)客戶端調(diào)用管理模塊接口調(diào)用函數(shù)來創(chuàng)建文件。
[0039]2)向文件數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫查詢文件信息。若文件不存在,在文件數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫中創(chuàng)建一個(gè)新的文件,即在對應(yīng)文件類型的數(shù)據(jù)表中添加一條表項(xiàng)。管理軟件模塊返回“文件輸出”命令給客戶端,并創(chuàng)建文件輸出緩沖,此緩沖用于客戶端寫入文件數(shù)據(jù)。文件輸出緩沖的大小應(yīng)和數(shù)據(jù)模塊的數(shù)據(jù)塊(扇區(qū))大小保持一致。
[0040]3)客戶端準(zhǔn)備寫入文件數(shù)據(jù)。將文件按數(shù)據(jù)塊(扇區(qū))的大小分割成獨(dú)立塊,再將第一個(gè)文件塊寫入文件輸出緩沖,并將寫入文件輸出緩沖的數(shù)據(jù)大小信息發(fā)送給管理模塊。
[0041]4)客戶端向管理軟件模塊發(fā)出數(shù)據(jù)準(zhǔn)備完畢消息。
[0042]5)管理模塊向大數(shù)據(jù)數(shù)據(jù)模塊請求一個(gè)磁盤塊(扇區(qū))。
[0043]6)把磁盤塊(扇區(qū))號返回給管理模塊,并對本塊(扇區(qū))做已分配標(biāo)記。
[0044]7)管理模塊將文件輸出緩沖中的數(shù)據(jù)發(fā)送給數(shù)據(jù)模塊。
[0045]8)數(shù)據(jù)模塊將文件系統(tǒng)返回的磁盤塊(扇區(qū))地址返回給管理模塊。
[0046]9)管理模塊收到確認(rèn)消息后并通知結(jié)構(gòu)模塊把這個(gè)磁盤塊(扇區(qū))地址記錄到文件的disk和sector表項(xiàng)中,并累計(jì)己寫入的文件大小。
[0047]10)管理模塊向客戶端發(fā)數(shù)據(jù)寫入成功消息,并通知客戶端寫入下一個(gè)文件塊。循環(huán)執(zhí)行3)到10),直到所有的文件塊都傳輸完畢。
[0048]11)客戶端收到最后一個(gè)文件塊的寫入確認(rèn)消息后向管理模塊發(fā)出關(guān)閉文件消息,文件管理模塊收到文件關(guān)閉消息后執(zhí)行文件關(guān)閉操作,文件寫入過程結(jié)束。實(shí)現(xiàn)數(shù)據(jù)讀的過程如下,如圖4所示。
[0049]I)客戶端調(diào)用管理模塊接口調(diào)用函數(shù)打開所要讀取的文件。
[0050]2)管理模塊向文件數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫模塊發(fā)出讀取文件信息命令。
[0051]3)文件數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫模塊返回文件信息。管理模塊得到該文件的所有文件信息和對應(yīng)的數(shù)據(jù)塊(扇區(qū))地址。
[0052]4)管理模塊創(chuàng)建文件輸入緩沖,此緩沖用于客戶端讀取文件數(shù)據(jù)。文件輸入緩沖的大小應(yīng)和數(shù)據(jù)模塊的數(shù)據(jù)塊(扇區(qū))大小一致。管理模塊根據(jù)文件數(shù)據(jù)塊(扇區(qū))地址向數(shù)據(jù)模塊發(fā)出數(shù)據(jù)塊(扇區(qū))讀取命令。
[0053]5)數(shù)據(jù)模塊將數(shù)據(jù)塊(扇區(qū))數(shù)據(jù)發(fā)送到管理模塊。
[0054]6)管理模塊通知客戶端輸入數(shù)據(jù)準(zhǔn)備好。
[0055]7)客戶端調(diào)用管理模塊接口調(diào)用函數(shù)開始讀取數(shù)據(jù)。
[0056]8)管理模塊將輸入緩沖數(shù)據(jù)和數(shù)據(jù)大小值發(fā)送到客戶端。
[0057]9)客戶端向管理模塊發(fā)送數(shù)據(jù)讀取確認(rèn)消息。管理模塊收到確認(rèn)消息后開始重復(fù)步驟5到步驟10。
[0058]10)全部數(shù)據(jù)塊都發(fā)送完畢后,管理模塊向客戶端發(fā)送文件關(guān)閉消息。
[0059]第二步,將海量視頻部署到若干計(jì)算節(jié)點(diǎn)上,在Spark集群上,通過分形維度實(shí)現(xiàn)鏡頭分割,并提取鏡頭關(guān)鍵幀。
[0060]I)轉(zhuǎn)換視頻數(shù)據(jù)格式,將HDFS上二進(jìn)制的視頻數(shù)據(jù)通過Hadoop的自定義輸出流轉(zhuǎn)換為Spark可讀取的數(shù)據(jù),視頻數(shù)據(jù)通過分析類SparkContext的文件讀取函數(shù)TextFile讀取為Spark集群上的String類型RDD數(shù)據(jù)VideoRDD,利用RDD的數(shù)據(jù)類型轉(zhuǎn)換函數(shù)toArray將該RDD數(shù)據(jù)轉(zhuǎn)換為Int型的Array數(shù)據(jù)VideoArray。根據(jù)視頻的總巾貞數(shù),利用數(shù)據(jù)并行分塊函數(shù)parallelize把VideoArray切分為塊大小為一個(gè)視頻幀的RDD數(shù)據(jù)parVideoRDD,此時(shí)調(diào)用幀處理程序,parVideoRDD中的每一塊數(shù)據(jù)區(qū)都將并行的分配到P個(gè)計(jì)算節(jié)點(diǎn),從而實(shí)現(xiàn)了對整個(gè)視頻的幀數(shù)據(jù)并行處理。
[0061]2)通過SparkContext的參數(shù)共享函數(shù)broadcast在各個(gè)計(jì)算節(jié)點(diǎn)間共享鏡頭分割所需的參數(shù)。在每個(gè)計(jì)算節(jié)點(diǎn),對每一視頻幀采用差分盒法計(jì)算分形維度,定義第i幀圖像的分形維度為Di,則第i幀與第i+Ι幀的分形維度差fdi = |Di+1-D」。在同一個(gè)鏡頭內(nèi),幀差變化存在于很小范圍內(nèi)。鏡頭邊界幀差應(yīng)遠(yuǎn)大于所屬鏡頭幀差平均值和下一時(shí)間序列鏡頭的幀差平均值。對于切邊鏡頭,迭代求解出最大幀差fd_,幀前鏡頭的幀差平均值fdbavg,幀后鏡頭的幀差平均值fda avg。如果fdmax > 2*fdb avg且fdmax > 2*fda avg,則判定該幀是切變的鏡頭邊界。對于漸變鏡頭,當(dāng)漸變未被標(biāo)記時(shí),若fdmax > 2*fdb avg且fdmax < 2*fdaavg,則判定為漸變鏡頭邊界的開始幀;如果漸變開始幀己被標(biāo)記,若fdmax > 2*fda avg,則判定為漸變鏡頭邊界的結(jié)束幀,從而將視頻按照時(shí)間序列切分為若干鏡頭。
[0062]3)若所有視頻幀處理過后,視頻每一幀均轉(zhuǎn)化為[幀序號,分形維度]RDD數(shù)據(jù),返回Spark主節(jié)點(diǎn)的結(jié)果是一組時(shí)間序列臨界幀(簡稱“關(guān)鍵幀”)的幀號和其場景描述圖像RDD數(shù)據(jù),該RDD數(shù)據(jù)存儲(chǔ)為KeyFrameSce.txt文本文件,此時(shí)整個(gè)文件包含視頻文件關(guān)鍵幀的屬性信息,以便進(jìn)一步調(diào)用。
[0063]第三步:在Spark集群上提取對象樣本的顏色矩、邊緣以及紋理特征向量,進(jìn)行元學(xué)習(xí)策略訓(xùn)練,形成視覺詞典;并依據(jù)視覺詞典對關(guān)鍵幀進(jìn)行預(yù)測,產(chǎn)生能表征該鏡頭的視覺單詞。
[0064]I)選取兩萬張對象的各種樣本圖片并提取其底層特征,包括8維的顏色矩、9維邊緣分布直方圖、I維分形維度特征,組成包括顏色、邊緣、紋理在內(nèi)的18維特征向量;由于分形維度能更好的表示圖像特征,這里賦予32%的權(quán)重,其他各維均勻賦予4%的權(quán)重。這樣的一組特征向量就代表了該對象的視覺特征。將這些圖片通過通道管理函數(shù)pipe O分配到一組計(jì)算節(jié)點(diǎn)進(jìn)行特征提取,返回Spark主節(jié)點(diǎn)的結(jié)果是特征向量RDD數(shù)據(jù),將其輸出到文本文件SampleVec.txt中,此時(shí)SampleVec.txt文本文件包含該對象的特征信息;
[0065]2)將 Hadoop 的 HDFS 上的 SampleVec.txt 文本文件通過 SparkContext 的文件讀取函數(shù)TextFile讀取為Spark集群上的String類型RDD數(shù)據(jù)SampleVecRDD,并將該數(shù)據(jù)分配到P個(gè)計(jì)算節(jié)點(diǎn)。采用基于元學(xué)習(xí)策略對代表圖片樣本語義內(nèi)容的特征向量進(jìn)行訓(xùn)練。即將4種分類算法即GeneralizedWinnow算法、支持向量機(jī)算法(SVM)、條件隨機(jī)域算法(CRF)和最大熵算法(ME)作為基分類器,圖片實(shí)例Xi(i為η個(gè)圖片的序號),其表征特征向量為Vec (Xi),正確分類標(biāo)識為I (Xi),通過上述4種學(xué)習(xí)算法訓(xùn)練,分別獲得基分類模型 Mgen、MSVM、MKCF、MME,將 4 種算法的預(yù)測結(jié)果 P (Xi) gen、P (Xi) SVM、P(Xi)10^ P(Xi)Iffi 和 Vec(Xi)、Kxi)為輸入,以CRF為元分類器進(jìn)行二次訓(xùn)練,可得元分類模型Mmrta,如圖5所示。元分類模型Mmrta的表征XML文件可作為該類特征向量的視覺單詞,將每個(gè)視覺單詞與文字語義關(guān)聯(lián),即使得每一個(gè)視覺單詞(XML文件)都與其文字符號相對應(yīng),并錄入視覺單詞庫。依此類推,對多種對象樣本進(jìn)行訓(xùn)練,累積形成視覺詞典。
[0066]3)將 Hadoop 的 HDFS 上的 KeyFrameVec.txt 文本文件通過 SparkContext 的文件讀取函數(shù)TextFile讀取為Spark集群上的String類型RDD數(shù)據(jù)FrameVecRDD,并將其分配到P個(gè)計(jì)算節(jié)點(diǎn)。類似第三步2)所述,采用基于元學(xué)習(xí)策略對關(guān)鍵幀的特征向量進(jìn)行預(yù)測。關(guān)鍵幀實(shí)例Xi (i為η個(gè)視頻關(guān)鍵幀的序號),其表征特征向量為Vec(Xi),分類標(biāo)識為I (Xi)。通過上述4種學(xué)習(xí)算法預(yù)測,將預(yù)測結(jié)果P (Xi) gen、P (Xi) SVM、P (Xi) ECF>P (Xi) ME和Vec (Xi)輸入分類模型Mmrta,對照視覺詞典中的單詞逐一預(yù)測是否包含該單詞內(nèi)容,如圖6所示。一副關(guān)鍵幀種可包含一個(gè)或多個(gè)視覺單詞,程序返回Spark主機(jī)的結(jié)果是幀號、視覺單詞、對應(yīng)文字符號組合RDD數(shù)據(jù),將該RDD數(shù)據(jù)存儲(chǔ)為Word, txt文本文件,以便進(jìn)一步調(diào)用。
[0067]第四步,將視頻中各關(guān)鍵幀對應(yīng)的視覺單詞進(jìn)行匯總,通過Tf模型,實(shí)現(xiàn)視頻基于量化單詞的線性表達(dá),進(jìn)行形成視頻摘要關(guān)鍵詞。
[0068]I) HDFS 上的 Word, txt 文本文件通過 SparkContext 的 TextFile 函數(shù)讀取為 Spark集群上的String類型RDD數(shù)據(jù)FrameSemaRDD。
[0069]2)利用RDD的按鍵值統(tǒng)計(jì)函數(shù)ReduceByKey函數(shù)對FrameSemaRDD中的視覺單詞和場景描述單詞進(jìn)行字?jǐn)?shù)統(tǒng)計(jì),結(jié)果為String類型的RDD數(shù)據(jù)SemaCountRDD,此數(shù)據(jù)每一行包含單詞及出現(xiàn)的次數(shù)。
[0070]3)將字?jǐn)?shù)統(tǒng)計(jì)結(jié)果SemaCountRDD數(shù)據(jù)中的視覺單詞出現(xiàn)次數(shù)除以視頻總幀數(shù),獲得視覺單詞在整個(gè)視頻中出現(xiàn)的概率,利用RDD的按鍵值排序函數(shù)SortByKey函數(shù)對概率進(jìn)行排序,然后設(shè)定概率閾值P,將大于P的統(tǒng)計(jì)結(jié)果寫入String類型的RDD數(shù)據(jù)KeyRDD中。通過Tf模型確定該視覺單詞在總數(shù)中的權(quán)值,即視覺單詞在關(guān)鍵幀中出現(xiàn)的次數(shù)越多,那么它與視覺內(nèi)容相關(guān)性越強(qiáng),其權(quán)值也應(yīng)該越大。
[0071]將KeyRDD 通過 RDD 的 SaveAsTextFile 函數(shù)分別保存為 HDFS 上的 KeyWords.txt。此文件的每一行將包含整個(gè)視頻的關(guān)鍵詞和出現(xiàn)概率。取出現(xiàn)頻率最高的五個(gè)視覺單詞,并將其對應(yīng)文字標(biāo)注在視頻名中。
[0072]本發(fā)明提供了一種基于Spark的海量視頻語義標(biāo)注方法,具體實(shí)現(xiàn)該技術(shù)方案的方法和途徑很多,以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
【權(quán)利要求】
1.一種基于Spark的海量視頻語義標(biāo)注方法,其特征在于,包括以下步驟: 步驟1:將海量視頻部署到一組計(jì)算節(jié)點(diǎn)上,通過Spark集群計(jì)算視頻幀時(shí)間序列的分形維度差值,實(shí)現(xiàn)鏡頭分割,獲取關(guān)鍵幀; 步驟2:在Spark集群上提取對象的檢測樣本的顏色矩、邊緣以及紋理特征向量,進(jìn)行元學(xué)習(xí)策略訓(xùn)練,形成視覺詞典;并依據(jù)視覺詞典對關(guān)鍵視頻幀進(jìn)行預(yù)測,產(chǎn)生能表征該關(guān)鍵視頻幀的視覺單詞; 步驟3:通過Tf方法對待測視頻的視覺單詞進(jìn)行優(yōu)先排序,將篩選結(jié)果作為該視頻的標(biāo)注。
2.根據(jù)權(quán)利要求1所述的基于Spark的海量視頻數(shù)據(jù)分布式語義標(biāo)注方法,其特征在于,步驟I在Spark集群上實(shí)現(xiàn)視頻分割,劃分海量視頻分布至一組計(jì)算節(jié)點(diǎn),利用分形方法將視頻按時(shí)間序列分割為若干鏡頭,并提取關(guān)鍵幀,具體包括如下步驟: 步驟1-1:轉(zhuǎn)換視頻數(shù)據(jù)格式,將視頻二進(jìn)制數(shù)據(jù)通過Hadoop自定義輸出流轉(zhuǎn)換為Spark集群可讀取的byte型數(shù)據(jù),并保存到Hadoop分布式系統(tǒng)HDFS上;根據(jù)視頻總巾貞數(shù),利用并行分塊函數(shù)把視頻切分為塊,一個(gè)塊代表一個(gè)視頻幀彈性分布式數(shù)據(jù)集RDD的數(shù)據(jù)對象ParVideoRDD ;調(diào)用幀處理程序,將數(shù)據(jù)對象parVideoRDD中的每一數(shù)據(jù)塊都并行的分配到P個(gè)計(jì)算節(jié)點(diǎn),從而實(shí)現(xiàn)對整個(gè)視頻的幀數(shù)據(jù)并行處理; 步驟1-2:采用差分盒法,計(jì)算每一視頻幀分形維度,通過時(shí)間序列的分形維度差值,求出切變鏡頭和漸變鏡頭的邊界,從而將視頻分割為一組鏡頭;在此計(jì)算過程中,通過Spark在各計(jì)算節(jié)點(diǎn)間的聯(lián)系SparkContext實(shí)現(xiàn)各個(gè)計(jì)算節(jié)點(diǎn)間數(shù)據(jù)共享,使用映射函數(shù)map O完成分配步驟,再使用歸一函數(shù)reduce O完成更新步驟; 步驟1-3:按時(shí)間序列,取每一鏡頭臨界幀作為該鏡頭的關(guān)鍵視頻幀,返回Spark主節(jié)點(diǎn)的結(jié)果是關(guān)鍵幀號和其場景描述的視頻幀的RDD數(shù)據(jù),將該視頻幀的RDD數(shù)據(jù)存儲(chǔ)為KeyFrameSce.txt文本文件,用于后續(xù)步驟調(diào)用。
3.根據(jù)權(quán)利要求2所述的基于Spark的海量視頻語義標(biāo)注方法,其特征在于,步驟2包括如下步驟: 步驟2-1:截取一組包括待測對象的各類圖片,作為該對象的檢測樣本;將圖片通過通道管理函數(shù)pipeO分配到一組計(jì)算節(jié)點(diǎn),根據(jù)關(guān)鍵幀顏色矩、邊緣直方圖以及分形維度特征提取18維特征向量,用于表征該對象的圖像語義內(nèi)容;返回Spark主節(jié)點(diǎn)的結(jié)果是特征向量RDD數(shù)據(jù),將其輸出到文本文件SampleVec.txt中,此時(shí)SampleVec.txt文本文件包含該對象的特征信息; 步驟2-2:將分布式文件系統(tǒng)HDFS上的文本文件SampleVec.txt通過分析類SparkContext的文本讀取函數(shù)TextFile讀取字符串String類型的RDD數(shù)據(jù)SampleVecRDD,并將該數(shù)據(jù)分配到P個(gè)計(jì)算節(jié)點(diǎn),P為大于I的自然數(shù);采用基于元學(xué)習(xí)策略的4種分類算法,包括Generalized Winnow算法、支持向量機(jī)算法、條件隨機(jī)域算法和最大熵算法,對代表該類對象的語義內(nèi)容進(jìn)行特征訓(xùn)練,形成代表該類對象的視覺單詞,并與文字語義內(nèi)容相關(guān)聯(lián);視覺單詞是一個(gè)由元分類器表征且與文字語義內(nèi)容存在相應(yīng)映射關(guān)系的XML文件,每一個(gè)XML文件代表一類視覺單詞; 步驟2-3:重復(fù)步驟2-1和步驟2-2,訓(xùn)練得到一組能夠代表一類對象的特征的視覺單詞,與相對應(yīng)的文字語義內(nèi)容建立映射關(guān)系后,匯聚成視覺詞典; 步驟2-4:根據(jù)步驟2-1的,將步驟1-3得到的關(guān)鍵視頻幀數(shù)據(jù)通過通道管理函數(shù)pipeO分配到一組計(jì)算節(jié)點(diǎn),并提取18維特征向量,用于表征該關(guān)鍵視頻幀的語義內(nèi)容;返回Spark主節(jié)點(diǎn)的結(jié)果是關(guān)鍵視頻幀的幀序號和特征向量RDD數(shù)據(jù),將返回的[幀序號,特征向量RDD數(shù)據(jù)]輸出到文本文件KeyFrameVec.txt中,此時(shí)KeyFrameVec.txt文本文件包含整個(gè)視頻文件關(guān)鍵幀信息; 步驟2-5:根據(jù)步驟2-2,將分布式文件系統(tǒng)HDFS上的文本文件KeyFrameVec.txt通過SparkContext的文本讀取函數(shù)TextFile函數(shù)讀取字符串String類型RDD數(shù)據(jù)FrameVecRDD,數(shù)據(jù)FrameVecRDD每一行包含一巾貞號及語義特征向量,并將數(shù)據(jù)FrameVecRDD分配到P個(gè)計(jì)算節(jié)點(diǎn);對照視覺詞典,采用元學(xué)習(xí)策略對代表視頻巾貞語義內(nèi)容的特征向量進(jìn)行預(yù)測,得出該視頻幀所表述的一個(gè)以上的視覺單詞;返回的結(jié)果是幀序號、視覺單詞、對應(yīng)文字組合的RDD數(shù)據(jù),將該RDD數(shù)據(jù)存儲(chǔ)為Word, txt文本文件,用于后續(xù)步驟調(diào)用。
4.根據(jù)權(quán)利要求3所述的基于Spark的海量視頻語義標(biāo)注方法,其特征在于,步驟3將視頻中各關(guān)鍵幀對應(yīng)的視覺單詞進(jìn)行匯總,通過Tf模型篩選,實(shí)現(xiàn)視頻基于量化單詞的線性表達(dá),形成視頻標(biāo)注,具體包括如下步驟: 步驟4-1:將HDFS上的文本文件Word, txt讀取到Spark集群上,設(shè)待測視頻所有關(guān)鍵幀共含有M個(gè)視覺單詞,將這些視覺單詞按照權(quán)值的大小進(jìn)行排序,權(quán)值范圍O?1,視覺單詞權(quán)值由Tf模型決定; 步驟4-2:通過數(shù)據(jù)集RDD的保存文檔函數(shù)SaveAsTextFile將視覺單詞、對應(yīng)文字及出現(xiàn)概率保存為HDFS上的文本文件Keywords, txt,取出現(xiàn)頻率最高的五個(gè)視覺單詞作為該視頻的標(biāo)注。
5.根據(jù)權(quán)利要求3所述的基于Spark的海量視頻語義標(biāo)注方法,其特征在于,所述一組包括待測對象的各類圖片為I萬至3萬張。
【文檔編號】G06K9/62GK104239501SQ201410459787
【公開日】2014年12月24日 申請日期:2014年9月10日 優(yōu)先權(quán)日:2014年9月10日
【發(fā)明者】崔銅, 葛軍 申請人:中國電子科技集團(tuán)公司第二十八研究所