本發(fā)明屬于圖像分析,具體涉及一種基于場景理解的多專家投票式人群計(jì)數(shù)方法。
背景技術(shù):
1、隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,人群計(jì)數(shù)在公共安全監(jiān)控、智能交通和商業(yè)分析等領(lǐng)域中發(fā)揮著越來越重要的作用?,F(xiàn)有的人群計(jì)數(shù)方法主要集中在對整體人群進(jìn)行計(jì)數(shù)。然而,當(dāng)需要進(jìn)行細(xì)粒度的屬性特征計(jì)數(shù)(如不同位置、姿態(tài)、外觀屬性等的區(qū)分)時(shí),這些方法的表現(xiàn)通常受限。細(xì)粒度計(jì)數(shù)不僅要求模型識別目標(biāo)的類別,還需要在復(fù)雜場景中區(qū)分個(gè)體屬性,當(dāng)前方法在這些方面仍然存在一定的困難。
2、為了提升在復(fù)雜場景下對細(xì)粒度屬性特征的人群計(jì)數(shù)效果,近年來基于多模態(tài)信息融合和多專家系統(tǒng)的技術(shù)逐漸引起關(guān)注。多模態(tài)信息融合(如視覺與文本信息的結(jié)合)有助于模型提取出更豐富的細(xì)粒度特征,而多專家系統(tǒng)則能將不同的屬性特征作為獨(dú)立的處理單元,使模型在處理不同類型的信息時(shí)更加精細(xì)和準(zhǔn)確。但是,目前缺少一種能夠?qū)烧吆芎玫倪M(jìn)行結(jié)合的計(jì)數(shù)方法。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)以上現(xiàn)有技術(shù)中的不足,本發(fā)明的目的在于提供一種基于場景理解的多專家投票式人群計(jì)數(shù)方法,能夠利用多專家系統(tǒng)的投票機(jī)制和知識蒸餾策略來優(yōu)化復(fù)雜場景下的細(xì)粒度人群計(jì)數(shù)性能。
2、為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是,一種基于場景理解的多專家投票式人群計(jì)數(shù)方法,包括以下步驟:
3、s1、利用包括圖像編碼器、文本編碼器和特征增強(qiáng)器的骨干網(wǎng)絡(luò),從輸入圖像中提取視覺特征,包括淺層視覺特征和深層視覺特征,對淺層視覺特征和深層視覺特征進(jìn)行優(yōu)化,并從文本提示中提取文本特征,包括局部文本特征和全局文本特征;
4、s2、將文本特征投影到與視覺特征相同的嵌入空間中進(jìn)行對齊;
5、s3、構(gòu)建用于局部人群目標(biāo)檢測的局部主體專家,其輸入為局部文本特征(對齊后的,下同)和淺層視覺特征(優(yōu)化后的,下同),輸出為對局部區(qū)域中人群的計(jì)數(shù)結(jié)果;
6、s4、構(gòu)建用于理解場景的整體布局的全局上下文專家,其輸入為全局文本特征和深層視覺特征,輸出為全景式的人群計(jì)數(shù)預(yù)測;
7、s5、構(gòu)建用于建模人群之間的空間關(guān)系的空間關(guān)系專家,其輸入為淺層視覺特征和深層視覺特征,輸出為淺層視覺特征和深層視覺特征的多層次關(guān)聯(lián);
8、s6、構(gòu)建用于處理場景中目標(biāo)的外觀和屬性信息的屬性特征專家,其輸入為淺層視覺特征和全局文本特征,輸出為屬性計(jì)數(shù)結(jié)果;
9、s7、采用知識蒸餾策略,細(xì)粒度訓(xùn)練各個(gè)專家;
10、s8、獲取各個(gè)專家的輸出,采用多層感知器門控網(wǎng)絡(luò),通過加權(quán)投票機(jī)制對各個(gè)專家的輸出進(jìn)行融合,并通過解碼器輸出最終的計(jì)數(shù)結(jié)果。
11、作為本發(fā)明的優(yōu)選方案,所述的s1中,視覺特征的提取過程為:
12、s1.1、對于輸入圖像i,圖像編碼器通過swin-transformer提取多尺度視覺特征,表示為:
13、(1);
14、式中,、分別表示淺層視覺特征和深層視覺特征;
15、s1.2、通過特征增強(qiáng)器對和進(jìn)行特征增強(qiáng),首先提取水平方向h和垂直方向v的視覺特征,表示為:
16、(2);
17、式中,表示淺層視覺特征的分解結(jié)果,包括水平方向的淺層視覺特征和垂直方向的淺層視覺特征;表示深層視覺特征的分解結(jié)果,包括水平方向的深層視覺特征和垂直方向的深層視覺特征;
18、s1.3、通過交叉注意力cross-attention進(jìn)行水平方向和垂直方向間的信息交互,優(yōu)化淺層和深層視覺特征,表示為:
19、(3);
20、式中,、分別表示優(yōu)化后的淺層視覺特征和深層視覺特征。
21、作為本發(fā)明的優(yōu)選方案,所述的s1中,基于包含分詞器tokenizer和預(yù)訓(xùn)練的深度學(xué)習(xí)模型bert的文本編碼器,文本特征的提取過程為:
22、s1.4、對于文本提示t,文本編碼器通過tokenizer將其轉(zhuǎn)化為語義向量,表示為:
23、(4);
24、式中,、分別表示局部文本嵌入向量和全局文本嵌入向量;
25、s1.5、通過bert提取、對應(yīng)的文本特征,表示為:
26、(5);
27、式中,為局部文本特征,捕捉具體目標(biāo)的語義信息;為全局文本特征,關(guān)注上下文語義信息。
28、作為本發(fā)明的優(yōu)選方案,所述的s2中,引入線性變換,將文本特征投影到與視覺特征相同的嵌入空間中進(jìn)行對齊,表示為:
29、(6);
30、式中,為非線性激活函數(shù);、分別表示對齊后的局部文本特征和全局文本特征。
31、作為本發(fā)明的優(yōu)選方案,所述的s3中,為了使局部主體專家聚焦于前景人頭區(qū)域,實(shí)現(xiàn)對局部無關(guān)信息的過濾,通過區(qū)域掩碼對背景區(qū)域進(jìn)行屏蔽,表示為:
32、(7);
33、式中,是過濾后的淺層視覺特征;表示hadamard乘積;由相關(guān)性概率決定,為閾值;
34、局部主體專家通過q-former將局部文本信息與淺層視覺特征進(jìn)行跨模態(tài)融合,表示為:
35、(8);
36、式中,表示局部主體專家融合后的輸出特征;表示可學(xué)習(xí)的局部查詢特征。
37、作為本發(fā)明的優(yōu)選方案,所述的s4中,引入金字塔池化單元,對進(jìn)行不同尺度的信息整合,表示為:
38、(9);
39、式中,表示下采樣倍數(shù)為n的池化層;up表示上采樣操作;concat表示拼接操作;為通過金字塔池化單元整合后的不同尺度的深層視覺特征;
40、全局上下文專家通過q-former將全局文本特征與深層視覺特征進(jìn)行跨模態(tài)融合,表示為:
41、(10);
42、式中,表示全局上下文專家融合后的輸出特征;表示可學(xué)習(xí)的全局查詢特征。
43、作為本發(fā)明的優(yōu)選方案,所述的s5中,空間關(guān)系專家對淺層視覺特征和深層視覺特征進(jìn)行多層次關(guān)聯(lián)建模,以提升計(jì)數(shù)的準(zhǔn)確;引入動態(tài)特征重加權(quán)機(jī)制與門控控制,對輸入特征進(jìn)行類別相關(guān)的重加權(quán),生成權(quán)重矩陣,調(diào)節(jié)不同特征流的關(guān)注強(qiáng)度,表示為:
44、(11);
45、式中,是生成的動態(tài)權(quán)重;為激活函數(shù);mlp為多層感知器;concat表示拼接操作;
46、空間關(guān)系專家的輸出表示為:
47、(12);
48、式中,表示空間關(guān)系專家融合后的特征;、是可學(xué)習(xí)參數(shù)。
49、作為本發(fā)明的優(yōu)選方案,所述的s6中,屬性特征專家分別與和進(jìn)行注意力交互,學(xué)習(xí)細(xì)粒度和全局語義融合的屬性特征;其中,與進(jìn)行交互的查詢向量定義為,則與的交互表示為:
50、(13);
51、式中,表示與交互學(xué)習(xí)到的淺層視覺特征;為的轉(zhuǎn)置;表示的維度大??;為激活函數(shù);
52、與進(jìn)行交互的查詢向量定義為,則與的交互表示為:
53、(14);
54、式中,表示與交互學(xué)習(xí)到的全局文本特征;為的轉(zhuǎn)置;表示的維度大??;
55、屬性特征專家基于q-former將學(xué)習(xí)到的淺層視覺特征和全局文本特征相結(jié)合,聚焦于指定屬性的目標(biāo),包括顏色、大小或姿態(tài),對目標(biāo)的計(jì)數(shù)進(jìn)行精細(xì)區(qū)分,提供基于目標(biāo)外觀的分布統(tǒng)計(jì)信息,表示為:
56、(15);
57、式中,表示屬性特征專家的融合輸出;表示可學(xué)習(xí)的查詢輸出。
58、作為本發(fā)明的優(yōu)選方案,所述的s7中,通過加權(quán)投票機(jī)制對各個(gè)專家的輸出進(jìn)行融合的過程為:
59、s7.1、基于各個(gè)專家的誤差動態(tài)調(diào)整融合權(quán)重,自適應(yīng)不同專家的性能變化,表示為:
60、(16);
61、式中,表示第j個(gè)專家對應(yīng)的誤差,j=1,2,3,4;是第j個(gè)專家對應(yīng)的權(quán)重;exp為指數(shù)函數(shù),表示以自然常數(shù)e為底的對數(shù);
62、s7.2、經(jīng)過多層感知器門控網(wǎng)絡(luò)融合后的輸出表示為:
63、(17);
64、式中,為非線性激活函數(shù);表示第j個(gè)專家對應(yīng)的輸出;表示第j個(gè)專家對應(yīng)的權(quán)重偏置。
65、作為本發(fā)明的優(yōu)選方案,所述的s8中,知識蒸餾策略將教師模型的知識傳遞到學(xué)生模型中,以實(shí)現(xiàn)更高效的推理效果,教師模型采用多個(gè)獨(dú)立網(wǎng)絡(luò),細(xì)粒度指導(dǎo)訓(xùn)練各個(gè)專家,確保不同專家能夠獨(dú)立提取特征并聚焦于細(xì)節(jié)信息,學(xué)生模型則采用共享權(quán)重的q-former網(wǎng)絡(luò);
66、蒸餾過程中,教師模型通過對學(xué)生模型的指導(dǎo)訓(xùn)練,使學(xué)生模型在簡化的結(jié)構(gòu)下學(xué)習(xí)教師模型的細(xì)粒度特征識別能力;在推理階段,學(xué)生模型進(jìn)行復(fù)雜場景的人群計(jì)數(shù)預(yù)測,表示為:
67、(18);
68、式中,表示知識蒸餾損失,用于衡量教師模型預(yù)測值與學(xué)生模型預(yù)測值之間的平方誤差。
69、本發(fā)明涉及的算法可以通過電子設(shè)備執(zhí)行,電子設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,通過處理器執(zhí)行軟件實(shí)現(xiàn)上述的算法計(jì)算。
70、本發(fā)明所具有的有益效果是:
71、本發(fā)明在不同屬性的細(xì)粒度人群計(jì)數(shù)任務(wù)中,通過場景理解和多模態(tài)信息融合,有效提高了計(jì)數(shù)的準(zhǔn)確性與魯棒性;知識蒸餾的引入使學(xué)生模型在保證性能的同時(shí)保持簡化結(jié)構(gòu),進(jìn)一步提升了系統(tǒng)的效率和適應(yīng)性,從而更好地滿足復(fù)雜場景下的人群計(jì)數(shù)需求,實(shí)現(xiàn)了利用多專家系統(tǒng)的投票機(jī)制和知識蒸餾策略來優(yōu)化復(fù)雜場景下的細(xì)粒度人群計(jì)數(shù)性能。
72、本發(fā)明通過多模態(tài)特征融合、多專家模型處理以及投票機(jī)制實(shí)現(xiàn)了對復(fù)雜場景中細(xì)粒度人群的準(zhǔn)確計(jì)數(shù)。通過引入局部主體專家、全局上下文專家、空間關(guān)系專家和屬性特征專家,能夠從多角度分析圖像中的不同屬性人群,實(shí)現(xiàn)精細(xì)化的計(jì)數(shù)。同時(shí),知識蒸餾策略使得學(xué)生模型在精簡結(jié)構(gòu)下仍具備優(yōu)良的細(xì)粒度識別和計(jì)數(shù)能力。本發(fā)明在公共安全監(jiān)控、智能交通、商業(yè)分析等場景中具有廣泛的應(yīng)用價(jià)值,能夠有效提升計(jì)數(shù)精度和資源利用效率。