一種基于Bag-of-features模型的自學習行人計數(shù)方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于Bag-of-features模型的自學習行人計數(shù)方法,該計數(shù)方法包括:建立預先采集的視頻圖像樣本的Bag-of-features模型,采用支持向量機作為分類器訓練獲得初始狀態(tài)下的基于Bag-of-features模型的行人分類器;提取符合支持向量機基本分類條件的當前視頻圖像的前景區(qū)域,并對當前視頻圖像的搜索窗口進行區(qū)域劃分,根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信度樣本;根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進而更新基于Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。本發(fā)明能夠自動提取視頻中的高置信度行人和非行人樣本,進行實時調整Bag-of-features模型參數(shù),提高系統(tǒng)對多場景的適應能力和計數(shù)準確性。
【專利說明】-種基于Bag-of-features模型的自學習行人計數(shù)方法及 裝置
【技術領域】
[0001] 本發(fā)明涉及數(shù)字圖像處理、計算機視覺、模式識別領域,特別是涉及一種基于 Bag-of-features模型的自學習行人計數(shù)方法和裝置。
【背景技術】
[0002] 基于視頻的行人計數(shù)系統(tǒng)能夠智能分析圖像,得到攝像機視野范圍內的行人數(shù) 目,在公共場所有很大的應用價值。隨著計算機視覺計數(shù)的飛速發(fā)展,該領域的研究和產品 化受到廣泛關注。
[0003] 基于行人檢測跟蹤的行人計數(shù)算法是一種主流的方法。該方法首先通過背景 建模、幀差法等方法分割出前景區(qū)域,檢測行人目標,并進一步跟蹤檢出區(qū)域,實現(xiàn)行人 計數(shù)° 例如,Zhao 等人(Xi Zhao, E. Delleandrea, Liming Chen. A People Counting System based on Face Detection and Tracking in a Video.Proc of6th IEEE International Conference on Advanced Video and Signal Based Surveillance. Genoa, Italy, 2009:67-72)和 Zu 等人(Keju Zu, Fuqiang Liu, and Zhipeng Li. Counting pedestrian in crowded subway scene. IEEE2nd International Congress on In Image and Signal Processing, 2009)采用檢測跟蹤行人頭部的方法,Li等人(M. Li, Z. Zhang, K. Huang,and T.Tan. Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection. Proc of19th IEEE International Conference on Pattern Recognition. Tampa, Florida, USA, 2008:1 - 4) 采用頭肩檢測的方法來實現(xiàn)行人計數(shù)。Wen等人(Wusheng Wen, Mengfen Ho, and Chunglin Huang. People tracking and counting for applications in video surveillance system. International Conference on In Audio, Language and Image Processing, 2008)先采用模板匹配的方法檢測前景中的行人區(qū)域,并進一步采 用霍夫變換的方法最終確定行人頭部輪廓。Rittscher等人(Jens Rittscher, Peter H Tu, and Nils Krahnstoever.Simultaneous estimation of segmentation and shape. IEEE Computer Society Conference on In Computer Vision and Pattern Recognition, pages486 - 493, 2005)利用行人輪廓的先驗知識分割前景圖像,得到行人個 體并計數(shù),該類方法假設行人個體是互不遮擋的,適用于行人密度較低的場景。
[0004] 現(xiàn)有及上述的基于行人檢測的人數(shù)計數(shù)算法在行人檢測環(huán)節(jié)大都采用離線訓練 的分類器,通過人工收集大量樣本訓練分類器以實現(xiàn)行人檢測。然而在實際應用中,視頻監(jiān) 控系統(tǒng)將面臨復雜多樣的應用場景,場景中的行人樣本和背景差異很大,離線采集訓練不 僅耽誤時間更重要的是影響了系統(tǒng)的實際應用價值。
【發(fā)明內容】
[0005] 鑒于以上問題,本發(fā)明提供了一種基于視覺詞袋模型Bag-of-features模 型的在線自適應學習的行人計數(shù)方法,通過在線自動采集高置信度樣本,實時更新 Bag-of-feature模型參數(shù),使系統(tǒng)在Bag-of-features模型上具備自適應學習功能,有效 提高了系統(tǒng)對不同場景的適應能力,減少人工干預,增加應用價值。
[0006] 本發(fā)明的目的通過以下技術方案來實現(xiàn):
[0007] -種基于Bag-of-features模型的自學習行人計數(shù)方法包括:
[0008] 建立預先采集的視頻圖像樣本的Bag-of-features模型,采用支持向量機作為分 類器訓練獲得初始狀態(tài)下的基于Bag-of-features模型的行人分類器;
[0009] 提取符合支持向量機基本分類條件的當前視頻圖像的前景區(qū)域,并對當前視頻圖 像的搜索窗口進行區(qū)域劃分,根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻 圖像的高置信度樣本;
[0010] 根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進而更新基于 Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。
[0011] 進一步,所述建立視頻圖像樣本的Bag-of-features模型包括如下步驟:
[0012] 提取預先采集的視頻圖像中的正樣本和負樣本中的感興趣特征點,對感興趣特征 點進行特征描述;其中,所述正樣本為行人樣本,所述負樣本為非行人樣本;
[0013] 采用聚類方法將進行特征描述的感興趣特征點劃分成不同的類別,將每一個類別 作為一個視覺詞條,所有的類別構成Bag-of-features模型的視覺詞典庫;
[0014] 將正樣本和負樣本分別劃分成η個區(qū)域,將每個區(qū)域以及正樣本和負樣本作為整 體區(qū)域內的特征點與視覺詞條進行樣本映射,獲得每個特征點的直方圖,形成視頻圖像樣 本的Bag-of-features模型;其中,η不小于正整數(shù)4。
[0015] 進一步,所述提取符合支持向量機基本分類條件的當前視頻圖像的前景運動區(qū)域 包括:
[0016] 采用混合高斯背景建模方法提取當前視頻圖像的背景區(qū)域,將所述背景區(qū)域與當 前圖像幀進行比較,提取當前視頻圖像的前景區(qū)域;
[0017] 所述根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信 度樣本包括,當所述搜索窗口內的前景像素點的數(shù)目與搜索窗口內所有像素點的數(shù)目之比 不小于設定閾值時,將所述搜索窗口提取為高置信度正樣本;當所述搜索窗口內的前景像 素點的數(shù)目與搜索窗口內所有像素點的數(shù)目之比小于設定閾值時,將所述搜索窗口提取為 高置信度負樣本。
[0018] 進一步,所述對當前視頻圖像的搜索窗口進行區(qū)域劃分包括:
[0019] 將搜索窗口沿橫向平均分為3個橫向子區(qū)域,沿縱向平均分為2個縱向子區(qū)域;
[0020] 所述根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信 度樣本包括,
[0021] 統(tǒng)計各個橫向子區(qū)域和縱向子區(qū)域內的特征點的數(shù)目;
[0022] 當各個橫向子區(qū)域之間的特征點的數(shù)目差異和各個縱向子區(qū)域之間的特征點的 數(shù)目差異不大于設定閾值時,將所述搜索窗口提取為高置信度正樣本;
[0023] 當各個橫向子區(qū)域之間的特征點的數(shù)目差異和各個縱向子區(qū)域之間的特征點的 數(shù)目差異小于設定閾值時,將所述搜索窗口提取為高置信度負樣本。
[0024] 進一步,所述根據(jù)提取的高置信度樣本對Bag-of-features模型的各項參數(shù)進行 實時更新包括:
[0025] 提取所述高置信度正樣本和所述高置信度負樣本中的感興趣特征點,對感興趣特 征點進行特征描述,將每個感興趣特征點根據(jù)歐氏距離映射到距離最近的m個視覺詞條; 其中,m小于視覺詞條的總數(shù)目;
[0026] 根據(jù)每個視覺詞條所映射的感興趣特征點的數(shù)目,對所有視覺詞條進行降序排 序;
[0027] 在降序排序后的視覺詞條中選擇包含正樣本數(shù)目最多的N+個在支持向量機分類 器中權重為正的視覺詞條和包含負樣本數(shù)目最多的f個在支持向量機分類器中權重為負 的視覺詞條;
[0028] 將待更新的詞條進行維度加和并加權方式,對已選擇的N+個視覺詞條和f個視覺 詞條進行更新。
[0029] 進一步,所述提取預先采集的視頻圖像中的正樣本和負樣本中的感興趣特征點包 括:
[0030] 提取正樣本和負樣本中的邊緣信息,通過對邊緣信息的下采樣獲得正樣本和負樣 本中的感興趣特征點。
[0031] 進一步,所述對感興趣特征點進行特征描述包括:
[0032] 選擇以關鍵點為中心的16 X 16區(qū)域,計算每個區(qū)域中每個特征點的梯度值,將 16 X 16區(qū)域中所有特征點的梯度值用一個中心在該區(qū)域中央且標準差為1.5倍的區(qū)域寬 度的高斯函數(shù)加權;所述關鍵點為感興趣特征點
[0033] 將所述16 X 16區(qū)域分為16個4X4的小區(qū)域,在每個小區(qū)域中統(tǒng)計所有特征點 的梯度直方圖,將直方圖分為8個方向,形成128維特征向量;其中,在統(tǒng)計所有特征點的梯 度直方圖時,將所有大于設定閾值的梯度直方圖均設置為該設定閾值;
[0034] 將所述特征向量歸一化完成對感興趣特征點的特征描述。
[0035] 進一步,所述獲得每個特征點的直方圖包括:
[0036] 所述樣本映射為將正樣本和負樣本中的每個特征點用視覺詞典庫中的視覺詞條 近似代替,通過統(tǒng)計視覺詞典庫中每個視覺詞條在樣本圖像中出現(xiàn)的次數(shù)得到相應直方圖 特征;或者,所述樣本映射為將正樣本和負樣本中的每個特征點根據(jù)歐式距離映射到距離 最近的m個視覺詞條,通過統(tǒng)計視覺詞典庫中每個視覺詞條在樣本圖像中出現(xiàn)的次數(shù)得到 相應直方圖特征;其中,m小于視覺詞條的總數(shù)目。
[0037] 本發(fā)明還提供一種基于Bag-of-features模型的自學習行人計數(shù)裝置,該計數(shù) 裝置包括:Bag-of-features模型及行人分類器建立模塊,用于建立預先采集的視頻圖像 樣本的Bag-of-features模型,采用支持向量機作為分類器訓練獲得初始狀態(tài)下的基于 Bag-of-features模型的行人分類器;高置信度樣本提取模塊,用于提取符合支持向量機 基本分類條件的當前視頻圖像的前景區(qū)域,并對當前視頻圖像的搜索窗口進行區(qū)域劃分, 根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信度樣本;更新模 塊,用于根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進而更新基于 Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。
[0038] 本發(fā)明的優(yōu)點在于:
[0039] 本發(fā)明能夠自動提取視頻中的高置信度行人和非行人樣本,以此獲取該場景內行 人和背景特點,并根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),實現(xiàn) 了在使用多攝像頭的大場景環(huán)境下對行人數(shù)量的準確統(tǒng)計。
【專利附圖】
【附圖說明】
[0040] 圖1為本發(fā)明第一實施例提供的行人計數(shù)方法流程圖;
[0041] 圖2為本發(fā)明第一實施例提供的建立Bag-of-features模型的方法流程圖;
[0042] 圖3為本發(fā)明第一實施例提供的連接圖像邊緣點的示意圖;
[0043] 圖4為本發(fā)明第一實施例提供的樣本映射的硬投票示意圖;
[0044] 圖5為本發(fā)明第一實施例提供的樣本映射的軟投票示意圖;
[0045] 圖6為本發(fā)明第一實施例提供的提取高置信度樣本的方法流程圖;
[0046] 圖7為本發(fā)明第一實施例提供的搜索窗口進行區(qū)域劃分的示意圖;
[0047] 圖8為本發(fā)明第一實施例提供的基于Bag-Of-Features模型參數(shù)更新的方法流程 圖;
[0048] 圖9為本發(fā)明第二實施例提供的行人計數(shù)裝置圖。
【具體實施方式】
[0049] 本發(fā)明實現(xiàn)基于Bag-of-features模型的在線自適應學習的區(qū)域行人計數(shù)方法。 首先預先采集訓練樣本,包括正負樣本(正樣本為行人樣本,負樣本為非行人樣本,非必須 為當前場景),提取正負樣本中的感興趣特征點,采用SIFT特征(Scale-invariant feature transform)的描述方法描述該感興趣特征點。對訓練樣本采用K-means聚類方法將進行特 征描述的感興趣特征點劃分成不同的類別得到視覺詞條(codebook),并生成特征最終得到 初始的Bag-of-features模型。在實時運行階段,當針對特定場景進行區(qū)域行人計數(shù)時,該 方法能夠實時采集當前場景下的高置信度正負樣本,并實時更新Bag-of-features模型的 各項參數(shù),從而提高系統(tǒng)對特定場景的自適應能力。
[0050] 圖1所示為本發(fā)明行人計數(shù)方法流程圖,該方法包括:
[0051] 建立預先采集的視頻圖像樣本的Bag-of-features模型,采用支持向量機作為分 類器訓練獲得初始狀態(tài)下的基于Bag-of-features模型的行人分類器;所述初始狀態(tài)是針 對某一應用場景時,系統(tǒng)剛開始運行的狀態(tài)。
[0052] 提取符合支持向量機基本分類條件的當前視頻圖像的前景區(qū)域,并對當前視頻圖 像的搜索窗口進行區(qū)域劃分,根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻 圖像的高置信度樣本;
[0053] 根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進而更新基于 Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。
[0054] 圖2為本發(fā)明建立Bag-of-features模型的方法流程圖。如圖2所示,建立視頻 圖像樣本的Bag-of-features模型包括如下步驟:
[0055] 步驟一:提取感興趣特征點并進行特征點描述;具體為:提取預先采集的視頻圖 像中的正樣本和負樣本中的感興趣特征點,對感興趣特征點進行特征描述;其中,所述正樣 本為行人樣本,所述負樣本為非行人樣本。
[0056] 1)步驟一包括提取訓練樣本的感興趣特征點,采用如下方法:
[0057] 為了獲得足夠的感興趣特征點,先預先采集訓練樣本,包括正負樣本(行人樣本和 非行人樣本),首先提取樣本邊緣信息,對邊緣信息下采樣得到感興趣特征點。下采樣的采 樣頻率與對感興趣特征點數(shù)目的需求相關。此處的下采樣指對每一幀視頻圖像中的像素點 間隔提取,取采樣頻率為6個像素間隔。
[0058] 本發(fā)明采用Canny算子進行邊緣檢測以提取樣本邊緣信息。Canny算子采用的是 先平滑然后求導數(shù)的方法,具體包括如下步驟:
[0059] (a)采用Canny算子用高斯函數(shù)對樣本圖像進行圖像平滑,并去除圖像噪聲。
[0060] 高斯函數(shù)用公式(1)表示:
[0061]
【權利要求】
1. 一種基于Bag-of-features模型的自學習行人計數(shù)方法,其特征在于,該計數(shù)方法 包括: 建立預先采集的視頻圖像樣本的Bag-of-features模型,采用支持向量機作為分類器 訓練獲得初始狀態(tài)下的基于Bag-of-features模型的行人分類器; 提取符合支持向量機基本分類條件的當前視頻圖像的前景區(qū)域,并對當前視頻圖像的 搜索窗口進行區(qū)域劃分,根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像 的高置信度樣本; 根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進而更新基于 Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。
2. 根據(jù)權利要求1所述的一種基于Bag-of-features模型的自學習行人計數(shù)方法,其 特征在于,所述建立視頻圖像樣本的Bag-of-features模型包括如下步驟: 提取預先采集的視頻圖像中的正樣本和負樣本中的感興趣特征點,對感興趣特征點進 行特征描述;其中,所述正樣本為行人樣本,所述負樣本為非行人樣本; 采用聚類方法將進行特征描述的感興趣特征點劃分成不同的類別,將每一個類別作為 一個視覺詞條,所有的類別構成Bag-of-features模型的視覺詞典庫; 將正樣本和負樣本分別劃分成n個區(qū)域,將每個區(qū)域以及正樣本和負樣本作為整體區(qū) 域內的特征點與視覺詞條進行樣本映射,獲得每個特征點的直方圖,形成視頻圖像樣本的 Bag-of-features模型;其中,n不小于正整數(shù)4。
3. 根據(jù)權利要求1或2所述的一種基于Bag-of-features模型的自學習行人計數(shù) 方法,其特征在于,所述提取符合支持向量機基本分類條件的當前視頻圖像的前景區(qū)域包 括: 采用混合高斯背景建模方法提取當前視頻圖像的背景區(qū)域,將所述背景區(qū)域與當前圖 像幀進行比較,提取當前視頻圖像的前景區(qū)域; 所述根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信度樣 本包括,當所述搜索窗口內的前景像素點的數(shù)目與搜索窗口內所有像素點的數(shù)目之比不小 于設定閾值時,將所述搜索窗口提取為高置信度正樣本;當所述搜索窗口內的前景像素點 的數(shù)目與搜索窗口內所有像素點的數(shù)目之比小于設定閾值時,將所述搜索窗口提取為高置 信度負樣本。
4. 根據(jù)權利要求3所述的一種基于Bag-of-features模型的自學習行人計數(shù)方法,其 特征在于,所述對當前視頻圖像的搜索窗口進行區(qū)域劃分包括: 將搜索窗口沿橫向平均分為3個橫向子區(qū)域,沿縱向平均分為2個縱向子區(qū)域; 所述根據(jù)所述前景區(qū)域和所述搜索窗口內的特征點提取當前視頻圖像的高置信度樣 本包括, 統(tǒng)計各個橫向子區(qū)域和縱向子區(qū)域內的特征點的數(shù)目; 當各個橫向子區(qū)域之間的特征點的數(shù)目差異和各個縱向子區(qū)域之間的特征點的數(shù)目 差異不大于設定閾值時,將所述搜索窗口提取為高置信度正樣本; 當各個橫向子區(qū)域之間的特征點的數(shù)目差異和各個縱向子區(qū)域之間的特征點的數(shù)目 差異小于設定閾值時,將所述搜索窗口提取為高置信度負樣本。
5. 根據(jù)權利要求4所述的一種基于Bag-of-features模型的自學習行人計數(shù)方法,其 特征在于,所述根據(jù)提取的高置信度樣本對Bag-of-features模型的參數(shù)進行實時更新包 括: 提取所述高置信度正樣本和所述高置信度負樣本中的感興趣特征點,對感興趣特征點 進行特征描述,將每個感興趣特征點根據(jù)歐氏距離映射到距離最近的m個視覺詞條;其中, m小于視覺詞條的總數(shù)目; 根據(jù)每個視覺詞條所映射的感興趣特征點的數(shù)目,對所有視覺詞條進行降序排序; 在降序排序后的視覺詞條中選擇包含正樣本數(shù)目最多的N+個在支持向量機分類器中 權重為正的視覺詞條和包含負樣本數(shù)目最多的f個在支持向量機分類器中權重為負的視 覺詞條; 將待更新的詞條進行維度加和并加權方式,對已選擇的N+個視覺詞條和f個視覺詞條 進行更新。
6. 根據(jù)權利要求2所述的一種基于Bag-of-features模型的自學習行人計數(shù)方法,其 特征在于,所述提取預先采集的視頻圖像中的正樣本和負樣本中的感興趣特征點包括:提 取正樣本和負樣本中的邊緣信息,通過對邊緣信息的下采樣獲得正樣本和負樣本中的感興 趣特征點。
7. 根據(jù)權利要求6所述的一種基于Bag-of-features模型的自學習行人計數(shù)方法,其 特征在于,所述對感興趣特征點進行特征描述包括 : 選擇以關鍵點為中心的16X16區(qū)域,計算每個區(qū)域中每個特征點的梯度值,將每個區(qū) 域中所有特征點的梯度值用一個中心在該區(qū)域中央且標準差為1. 5倍的區(qū)域寬度的高斯 函數(shù)加權;其中,所述關鍵點為感興趣特征點; 將所述16X 16區(qū)域分為16個4X4的小區(qū)域,在每個小區(qū)域中統(tǒng)計所有特征點的梯度 直方圖,將梯度直方圖分為8個方向,形成128維特征向量;其中,在統(tǒng)計所有特征點的梯度 直方圖時,將所有大于設定閾值的梯度直方圖均設置為該設定閾值; 將所述特征向量歸一化完成對感興趣特征點的特征描述。
8. 所述根據(jù)權利要求7所述的一種基于Bag-of-features模型的自學習行人計數(shù)方 法,其特征在于,所述獲得每個特征點的直方圖包括:所述樣本映射為將正樣本和負樣本中 的每個特征點用視覺詞典庫中的視覺詞條近似代替,通過統(tǒng)計視覺詞典庫中每個視覺詞條 在樣本圖像中被映射的次數(shù)得到相應直方圖特征;或者,所述樣本映射為將正樣本和負樣 本中的每個特征點根據(jù)歐式距離映射到距離最近的m個視覺詞條,通過統(tǒng)計視覺詞典庫中 每個視覺詞條在樣本圖像中被映射的次數(shù)得到相應直方圖特征;其中,m小于視覺詞條的 總數(shù)目。
9. 一種基于Bag-of-features模型的自學習行人計數(shù)裝置,其特征在于,所述計數(shù)裝 置包括: Bag-of-features模型及行人分類器建立模塊,用于建立預先采集的視頻圖像樣 本的Bag-of-features模型,采用支持向量機作為分類器訓練獲得初始狀態(tài)下的基于 Bag-of-features模型的行人分類器; 高置信度樣本提取模塊,用于提取符合支持向量機基本分類條件的當前視頻圖像的前 景區(qū)域,并對當前視頻圖像的搜索窗口進行區(qū)域劃分,根據(jù)所述前景區(qū)域和所述搜索窗口 內的特征點提取當前視頻圖像的高置信度樣本; 更新模塊,用于根據(jù)提取的高置信度樣本實時更新Bag-of-features模型的參數(shù),進 而更新基于Bag-of-features模型的行人分類器,通過所述行人分類器實現(xiàn)行人計數(shù)。
【文檔編號】G06M11/00GK104517127SQ201310449781
【公開日】2015年4月15日 申請日期:2013年9月27日 優(yōu)先權日:2013年9月27日
【發(fā)明者】黃磊, 李靜雯 申請人:漢王科技股份有限公司