的行號或列號 由用戶指定,其中每一個人物在矩陣中的行號或列號由用戶指定,具體流程如下:
[0026] 步驟6. 1)從所有場景語義的矩陣中,抽取出所有人物及每個人物相應(yīng)的人物語 義信息集合HashMap,依次將這些語義信息集合取并集,合并并保存到一個HashMap集合, 再將該合并后的HashMap集合保存到矩陣的相應(yīng)的對角線元素中;
[0027] 步驟6. 2)從所有場景語義的矩陣中提取出人物之間的社交關(guān)系,根據(jù)人物在矩 陣中的行號或列號,依次將相同的人物的社交關(guān)系集合取并集,合并并保存到一個HashMap 集合,再將該合并后的HashMap集合保存到每一個人物在矩陣中的位置。
[0028] 有益效果:本發(fā)明先將視頻內(nèi)容結(jié)構(gòu)化保存,便于計算機識別和分析視頻語義,從 而能夠有效的推理出視頻中蘊含的社交關(guān)系,拓寬了挖掘社交關(guān)系的方式。具體來說,本發(fā) 明所屬的方法具有如下的有益效果:
[0029] (1)本發(fā)明運用XML技術(shù)將視頻的內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)格式,便于保存視頻中 蘊含的內(nèi)在語義信息。為后面解析視頻中蘊含的語義信息和社交關(guān)系提供一種結(jié)構(gòu)基礎(chǔ)。
[0030] (2)本發(fā)明從多角度對視頻語義進行提取,能夠得到豐富的語義信息,為后面準(zhǔn)確 地分析視頻中蘊含的社交關(guān)系提供了豐富的內(nèi)容基礎(chǔ)。
【附圖說明】
[0031] 圖1為本發(fā)明的方法流程圖,
[0032] 圖2為本發(fā)明的場景語義信息矩陣結(jié)構(gòu)圖。
【具體實施方式】
[0033] 下面結(jié)合圖1對本發(fā)明具體實施做更詳細的描述。
[0034] -、提取鏡頭中目標(biāo)對象的語義
[0035] 首先對鏡頭進行目標(biāo)對象檢測與分類,在鏡頭中提取前景對象和背景對象,以及 它們的視覺和行為特征,記錄時間和人物對話信息,并把目標(biāo)對象的特征向量分析出來的 語義以鍵值對的形式保存到XML文件的〈short〉結(jié)點下的〈key〉結(jié)點中。如下所示:
[0036]
【主權(quán)項】
1. 一種基于視頻語義的目標(biāo)對象社交關(guān)系識別方法,其特征在于該方法所包含的步驟 為: 步驟1)首先對用戶輸入的視頻數(shù)據(jù)進行預(yù)處理,具體處理流程如下: 步驟1.1)利用基于塊的比較方法對視頻數(shù)據(jù)進行分割,獲取該視頻數(shù)據(jù)的鏡頭,所 述基于塊的比較方法是將視頻數(shù)據(jù)每一幀的圖像劃分成用戶指定數(shù)量的區(qū)域塊,通過比較 連續(xù)幀之間的區(qū)域塊的相似性劃分出不同的鏡頭,其中幀是視頻數(shù)據(jù)的最小單位即一幀圖 像,鏡頭是視頻中一組連續(xù)的幀序列,所述區(qū)域塊的相似性的特征和具體標(biāo)準(zhǔn)由用戶指定, 同一個鏡頭的連續(xù)幀之間的區(qū)域塊具有相似性; 步驟1.2)依次從每一個鏡頭中提取處于該鏡頭幀序列中間位置的那一幀作為關(guān)鍵 幀,該關(guān)鍵幀在后續(xù)處理中代表該鏡頭; 步驟2)提取所有關(guān)鍵幀中用戶指定的目標(biāo)對象的語義集,將語義集轉(zhuǎn)換成鍵值對的 形式保存到XML格式的文件中;所述目標(biāo)對象包含背景對象和前景對象兩類,前景對象是 人物對象,背景對象是人物所處的地點、時間信息;所述語義集是視頻中目標(biāo)對象提取出 來的語義信息的集合,包含背景、時間、對話、人物、顏色、形狀、紋理的語義;所述的XML格 式的文件包含3層嵌套結(jié)點,第一層是場景結(jié)點,用〈scene〉標(biāo)簽標(biāo)示,所述的場景是指 按照鏡頭的語義信息和鏡頭之間的時序關(guān)系組成的一組鏡頭序列;第二層是鏡頭結(jié)點,用 〈short〉標(biāo)簽標(biāo)示;第三層是具體語義結(jié)點,用〈key〉標(biāo)簽標(biāo)示;提取每一個關(guān)鍵幀中用戶 指定的目標(biāo)對象的語義集的具體處理流程如下: 步驟2.1)對關(guān)鍵幀進行目標(biāo)對象的檢測和分類,提取出該關(guān)鍵幀包含的所有目標(biāo)對 象,同時記錄該關(guān)鍵幀中人物之間的對話信息和該關(guān)鍵幀位于視頻中的播放的時間點; 步驟2.2)提取關(guān)鍵幀所有前景和背景對象的視覺特征,構(gòu)成相應(yīng)的特征向量,所述背 景對象的視覺特征包括顏色、紋理;前景對象的視覺特征包括顏色、紋理、形狀; 步驟2. 3)用SVM對關(guān)鍵幀中目標(biāo)對象的特征向量進行學(xué)習(xí),提取出前景對象和背景對 象的語義信息;所述前景對象的語義信息是前景對象的視覺行為表現(xiàn)的語義信息,包括顏 色、形狀、紋理、人物、對話;所述背景對象取的語義信息是背景對象所處的環(huán)境語義信息, 包括背景、時間,所述SVM是一種有監(jiān)督的學(xué)習(xí)模型; 步驟2. 4)將獲取的關(guān)鍵幀的前景對象和背景對象的語義信息,按照鍵值對的形式保 存到XML文件的鏡頭結(jié)點下; 步驟3)解析步驟2)得到的每一個鏡頭的結(jié)點下時間和人物所對應(yīng)的語義結(jié)點,把擁 有相同的人物語義結(jié)點的鏡頭結(jié)點歸為一組鏡頭結(jié)點;所述的人物語義結(jié)點就是XML文件 中〈short〉結(jié)點下〈key〉結(jié)點中名稱屬性為人物的那一個鍵值對; 步驟4)將已分類好的每組鏡頭結(jié)點的數(shù)據(jù)按照名稱為時間結(jié)點的結(jié)點值的遞增順序 保存到XML文件的場景結(jié)點下,依次構(gòu)造出鏡頭語義序列,代表一個個場景; 步驟5)依次解析XML文件中每一個場景結(jié)點,分析其包含的所有的語義信息,得到人 物之間的關(guān)系和人物的語義信息,將每個場景的這些信息依次保存到一個個矩陣中,這些 矩陣的每一行或每一列的元素存儲一個人物與其他人物之間的關(guān)系以及該人物的語義信 息,每一個人物在一個矩陣中的行號或列號由用戶指定;所述的場景語義信息包括人物之 間的社交關(guān)系和人物的語義信息,其中將人物的社交關(guān)系和人物的語義信息保存到一個矩 陣的具體處理流程如下: 步驟5. 1)抽取XML文件中場景結(jié)點下的所有鏡頭結(jié)點中的語義結(jié)點,得到該場景所有 的語義信息; 步驟5.2)從得到場景所有的語義信息中找出人物的語義信息,依此建立一個矩陣,矩 陣中除對角線元素以外,當(dāng)一行元素的行號與一列元素列號相同,這一行元素和一列元素 代表同一個人物的社交關(guān)系,對角線的元素保存該人物的語義信息;所述對角線的元素的 行號和列號相同; 步驟5. 3)對場景對應(yīng)矩陣的元素進行賦值,從步驟5. 1)得到的所有的語義信息,抽取 人物之間的社交關(guān)系和人物的語義信息,再依次用集合HashMap保存人物的社交關(guān)系和語 義信息,將集合賦值給矩陣的對應(yīng)位置的元素;所述的集合HashMap是一個用來存放鍵值 對的數(shù)據(jù)集合; 步驟6)根據(jù)所有代表場景語義的矩陣獲得一個代表視頻語義信息的矩陣;該矩陣保 存視頻中所有人物的語義信息和社交關(guān)系,矩陣的每一行或每一列的元素存儲一個人物與 其他人物之間的關(guān)系以及該人物的語義信息,每一個人物在一個矩陣中的行號或列號由用 戶指定,其中每一個人物在矩陣中的行號或列號由用戶指定,具體流程如下: 步驟6.1)從所有場景語義的矩陣中,抽取出所有人物及每個人物相應(yīng)的人物語義信 息集合HashMap,依次將這些語義信息集合取并集,合并并保存到一個HashMap集合,再將 該合并后的HashMap集合保存到矩陣的相應(yīng)的對角線元素中; 步驟6.2)從所有場景語義的矩陣中提取出人物之間的社交關(guān)系,根據(jù)人物在矩陣中 的行號或列號,依次將相同的人物的社交關(guān)系集合取并集,合并并保存到一個HashMap集 合,再將該合并后的HashMap集合保存到每一個人物在矩陣中的位置。
【專利摘要】一種基于視頻語義的目標(biāo)對象社交關(guān)系識別方法,首先對用戶輸入的視頻數(shù)據(jù)預(yù)處理,得到鏡頭圖像幀序列,從中取出關(guān)鍵幀,通過SVM學(xué)習(xí)模型提取該關(guān)鍵的特征向量,將分析特征向量得到的鏡頭語義存儲到XML文件中鏡頭結(jié)點,然后根據(jù)每一個鏡頭的結(jié)點下時間和人物所對應(yīng)的語義結(jié)點,把擁有相同的人物語義結(jié)點的鏡頭結(jié)點歸為一組鏡頭結(jié)點,將已分類好的每組鏡頭結(jié)點的數(shù)據(jù)按照名稱為時間結(jié)點的結(jié)點值的遞增順序保存到XML文件的場景結(jié)點下,依次構(gòu)造出鏡頭語義序列,代表一個個場景;最后用一個個場景語義矩陣來存儲場景中人物的語義信息和社交關(guān)系,再通過取并集的方式,將所有的場景語義矩陣中的人物語義信息和社交關(guān)系合并成一個大的代表視頻語義的矩陣。
【IPC分類】G06Q50-00, G06F17-30
【公開號】CN104778224
【申請?zhí)枴緾N201510137760
【發(fā)明人】陳志 , 高翔, 岳文靜
【申請人】南京郵電大學(xué)
【公開日】2015年7月15日
【申請日】2015年3月26日