^和L %分別是一個顏色對在CIELAB顏色空間中的亮度值。
[0048] 整體的顏色和諧度特征則由色調(diào)因子Hh、亮度因子扎和飽和度因子Hc聯(lián)合起來得 到:
[0049] CH = Hh+Hc+Hl
[0050] 邊緣特征的計算方法如下。研究表明,HSV顏色空間比RGB顏色空間能夠更準確地 表述人類對顏色的感知。所以,先將圖像由RGB顏色空間轉換到HSV顏色空間,然后,V通 道經(jīng)過高斯濾波器進行濾波,隨后將得到的結果與邊緣檢測器進行掩模,最后計算超過閾 值的像素的個數(shù)。
[0051] 紋理特征的計算方法如下。紋理特征與圖像情感有密切的關系。場景的空間紋理 特征符合韋布分布:
[0053] 其中,X為隨機變量,(β,γ)為韋布分布參數(shù)。韋伯分布中的參數(shù)對圖像紋理的 空間結構具有很完整的表示,參數(shù)β表示的是圖像的對比度,其值越大圖像對比度越大; 參數(shù)γ則表示的是圖像的顆粒度,其值越大表示圖像顆粒度越小。
[0054] 顏色變化特征的計算方法如下。研究表明,Luv顏色空間具有空間統(tǒng)一性。本發(fā) 明用行列式Af= det(P)表示顏色變化特征。在顏色變化特征的計算過程中,首先將RGB 顏色空間轉換到Luv顏色空間,然后得到顏色變換矩陣:
[0056] 其中,〇 Z表示在Luv空間i通道的方差,<表示在Luv空間i和j通道的協(xié)方 差。
[0057] 計算海報中人臉的個數(shù)的計算過程如下??植篮笾袥]有正常的人臉,愛情海報 中大多是兩個人臉,喜劇海報中人臉個數(shù)大于兩個。因此,本發(fā)明提取海報中的人臉的個數(shù) 來體現(xiàn)不同類型電影的差別。在計算海報中人臉的個數(shù)過程中,采用opencv自帶的模型對 海報中人臉的個數(shù)進行檢測。
[0058] 2):利用得到的每幅海報的特征及其對應的標簽訓練支持向量機得到海報的分類 模型。
[0059] 步驟103 :提取劇情介紹的文本的特征,利用得到的每個文本的特征及其對應的 標簽訓練支持向量機得到文本的分類模型,具體流程如圖4所示。
[0060] 1)劇情介紹的文本的預處理。
[0061] 要先去除該文本中的標點符號和停留詞。本實施例涉及的電影是外國電影,所以 它們的劇情介紹是用英文寫的,因此要對英文單詞進行詞型的還原。
[0062] 然后構建詞包模型。構建詞包模型需要有特征詞。本發(fā)明采用了信息增益的方法 來獲取特征詞。信息增益的計算公式如下所示:
[0066] 其中、P(C1)表示電影類型C1出現(xiàn)的概率,p(t)表示特征T出現(xiàn)的概率。p(Cl|t) 表示出現(xiàn)T的時候,類C1出現(xiàn)的概率。H(C)表示存在η種電影類型的情況下系統(tǒng)的熵, H(C|T)表示在得知特征T的情況下系統(tǒng)的熵減少量。
[0067] 2):把每個電影的劇情介紹用詞包模型表示成空間向量。利用得到的每個文本的 特征及其對應的標簽訓練支持向量機得到文本的分類模型。
[0068] 步驟 104 :
[0069] 用海報的分類模型,對待測的電影的海報進行預測得到類型Υ1,然后再調(diào)用文本 的分類模型對待測電影的劇情介紹進行預測得到類型Υ2。最后將Yl和Υ2進行"或"操作, 即與待測電影的類型標簽對比,得到最后的待測電影的類型,具體流程如圖5所示。
[0070] Yl和Υ2中只要有一個預測結果是正確的,則將檢測正確的那個結果當做最后的 預測結果;否則,把海報模型預測的結果Yl當作最后的預測結果。
[0071] 以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳 細說明,應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在 本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護 范圍之內(nèi)。
【主權項】
1. 一種基于海報與劇情介紹的電影類型的快速分類方法,該方法包括以下步驟: 步驟1 :確定電影所屬的類型集合,建立各種類型的電影的海報訓練集和劇情介紹的 訓練集; 步驟2 :提取待測電影的海報的特征,利用得到的每幅海報的特征及其對應的標簽訓 練支持向量機得到海報的分類模型; 步驟3 :提取待測電影的劇情介紹的文本的特征,利用得到的每個文本的特征及其對 應的標簽訓練支持向量機得到文本的分類模型; 步驟4 :用海報的分類模型,對待測電影的海報進行預測得到結果Y1,然后再調(diào)用文本 的分類模型對待測電影的劇情介紹進行預測得到結果Y2 ;最后將Y1和Y2進行"或"操作, 即與待測電影的類型標簽對比,只要一個預測結果是正確的,則預測正確的那個類型當作 最后的待測電影的類型;否則將Y1作為最后的待測電影的類型。2. 根據(jù)權利要求1所述的方法,其特征在于,搜集中外視頻網(wǎng)站上的電影的類型,確定 電影所屬的類型集合;搜集電影對應的海報和劇情介紹,分別建立海報的訓練集和文本的 訓練集。3. 根據(jù)權利要求2所述的方法,其特征在于,所述的海報的特征包括:顏色情感特征、 顏色和諧度特征、邊緣特征、紋理特征、顏色變化特征和海報中人臉的個數(shù)。4. 據(jù)權利要求3所述的方法,其特征在于,當劇情介紹的文本為英文時,提取劇情介紹 的文本的特征包括: 步驟4a:去文本中的標點符號和停留詞; 步驟4b:還原詞型; 步驟4c:選取特征詞,建立詞包模型; 步驟4d:把每個電影的劇情介紹用詞包模型表示成空間向量模型。5. 據(jù)權利要求3所述的方法,其特征在于,使用行列式 AF=det(P)表示所述顏色變化特征,在顏色變化特征的計算過程中,首先將RGB顏 色空間轉換到Luv顏色空間,然后得到顏色變換矩陣;圖像在Luv空間,每個像素3個通道 產(chǎn)生的協(xié)方差矩陣為:其中,CT:表示在Luv空間i通道的方差,表示在Luv空間i和j通道的協(xié)方差。
【專利摘要】本發(fā)明公開了一種基于海報與劇情介紹的電影類型的快速分類方法,該方法包括:確定電影所屬的類型集合,建立各種類型的電影的海報訓練集和劇情介紹的訓練集;提取待測電影的海報的特征,利用得到的每幅海報的特征及其對應的標簽訓練支持向量機得到海報的分類模型;提取待測電影的劇情介紹的文本的特征,利用得到的每個文本的特征及其對應的標簽訓練支持向量機得到文本的分類模型;用海報的分類模型,對待測的電影的海報進行預測得到結果Y1,然后再調(diào)用文本的分類模型對待測電影的劇情介紹進行預測得到結果Y2;最后將Y1和Y2進行“或“操作,得到最后的待測電影的類型。本發(fā)明能夠在沒有電影視頻的情況下,對電影的類型實現(xiàn)快速、高準確率的預測。
【IPC分類】G06K9/46, G06K9/62, G06F17/30
【公開號】CN105260398
【申請?zhí)枴緾N201510592018
【發(fā)明人】胡衛(wèi)明, 付志康, 李兵
【申請人】中國科學院自動化研究所
【公開日】2016年1月20日
【申請日】2015年9月17日