本發(fā)明涉及對行人、騎自行車的人、溜冰者等易受傷害人群的實時檢測,以實現(xiàn)更安全、更高效的高級駕駛輔助系統(tǒng)(adas,advanced?driver?assistance?systems)。更具體地,本發(fā)明涉及利用車內(nèi)駕駛系統(tǒng)的視頻獲取功能的人的姿態(tài)估計,以避免碰撞。
背景技術(shù):
1、在高級駕駛系統(tǒng)或自動駕駛車輛的自動駕駛系統(tǒng)中,確保乘客安全至關(guān)重要,這需要通過熟練且及時的車輛操控來實現(xiàn),同時還要遵守交通規(guī)則,如保持車道(lanekeeping)、轉(zhuǎn)彎(turning)、在信號(signal)、在人行道(pedestrian?crossings)處停車等。行人姿態(tài)估計是輔助/自動駕駛感知技術(shù)的重要步驟,包括預(yù)測和關(guān)聯(lián)人的身體部位或行人的關(guān)鍵點。姿態(tài)估計為人體提供了有效的低維且可解釋的表征,這對于識別易受傷害的道路使用者(vrus,vulnerable?road?users),例如行人和騎自行車的人,的行動和預(yù)測其行為至關(guān)重要。準(zhǔn)確且及時地檢測易受傷害的道路使用者的關(guān)鍵動作(例如,行人穿過馬路或騎自行車的人發(fā)出左轉(zhuǎn)/右轉(zhuǎn)信號)非常重要,以避免任何碰撞并確保所有道路使用者的安全和舒適。行人姿態(tài)估計尤其具有挑戰(zhàn)性,因為在大視場(fov,field?of?view)圖像中,行人的尺寸受到限制。此外,在人群場景或行人并排行走或相互交叉的場景中,經(jīng)常會觀察到人體遮擋。
2、與乘客安全不同,確保人員安全對于新時代的駕駛系統(tǒng)同樣重要。adas正在使用各種方法,首先識別容易受傷或與車輛發(fā)生碰撞的人員,然后相應(yīng)地操縱車輛以確保安全。adas中使用的感知技術(shù)包括檢測與人的身體部位或肢體相關(guān)的關(guān)鍵點。當(dāng)考慮到路邊擁擠的情況,或者從車輛的角度來看行人或騎自行車的人在前方或旁邊行進時,預(yù)測人們的行動就變得困難。因此,與車輛相關(guān)的adas面臨著一個奇特的挑戰(zhàn),可能會錯誤地檢測到多個人。除了人群(其中多個人因為遮擋而無法被檢測到)之外,“小”或“遠(yuǎn)處”的人也可能導(dǎo)致漏判(false?negative)的產(chǎn)生。
3、對于這樣的感知技術(shù),各種深度學(xué)習(xí)方法可以大致分為兩大類方法:自上而下(top-down)或自下而上(bottom-up)。zhe?cao等人在“使用部位關(guān)聯(lián)場進行實時多人二維姿態(tài)估計”一文中使用了部位關(guān)聯(lián)場(part?affinity?fields,pafs)來學(xué)習(xí)如何將圖像中的身體部位與個體關(guān)聯(lián)起來。無論圖像中的人數(shù)多少,基于貪心算法的自下而上解析步驟都能保持高精度,同時實現(xiàn)實時檢測。
4、在george?papandreou等人的“個體實驗室(personlab):基于自下而上、基于部位、幾何嵌入模型的人體姿態(tài)估計和實例分割(instance?segmentation)”中,也采用了類似的自下而上的方法。該模型通過基于部件的建模,既使用了語義級別的推理,也利用了對象部件之間的關(guān)聯(lián)。該系統(tǒng)學(xué)習(xí)檢測個體的關(guān)鍵點并預(yù)測它們之間的相對位移,以便將關(guān)鍵點重新組合成人體姿態(tài)實例。
5、newell等人的“用于人體姿態(tài)估計的堆疊沙漏(stacked?hourglass)網(wǎng)絡(luò)”中解釋了一種自上而下的深度學(xué)習(xí)方法。該文章描述了一種基于連續(xù)的池化和上采樣步驟的“堆疊沙漏”網(wǎng)絡(luò)架構(gòu),用于產(chǎn)生最終的預(yù)測集合。利用新型的卷積網(wǎng)絡(luò)架構(gòu)對所有尺度的特征進行處理和整合,以最佳方式捕捉各種空間關(guān)系,從而完成人的姿態(tài)估計任務(wù)。然而,將重復(fù)的自下而上和自上而下的處理與中間監(jiān)督相結(jié)合,對于提高網(wǎng)絡(luò)性能至關(guān)重要。
6、xiao等人的題為“人體姿態(tài)估計和跟蹤的簡單基線”的研究披露了簡單有效的基線方法,包括用于姿態(tài)估計的簡單算法和架構(gòu)。在之前的兩種方法中,自上而下的檢測方法都是使用單人姿態(tài)。雖然與自下而上的方法相比,這些方法能更好地區(qū)分“小”的道路使用者,但推理時間與圖像中的人數(shù)成正比,因此很難在嵌入式系統(tǒng)中部署。此外,這些方法高度依賴于檢測器的準(zhǔn)確性來實現(xiàn)高精度。
7、li等人的另一篇題為“通道增強的升級高分辨率網(wǎng)絡(luò)(ce-higherhrnet,其中,“ce”代表“channel-enhanced”(通道增強),而“higherhrnet”則是對高分辨率網(wǎng)絡(luò)(high-resolution?network,hrnet)的一種改進或增強版本):增強小人(small?people)自下而上人體姿態(tài)估計的通道信息”描述了通道增強的高分辨率網(wǎng)絡(luò)(ce-higherhrnet)。升級高分辨率網(wǎng)絡(luò)(higherhrnet)包含三個主要組件:多尺度子像素跳躍融合模塊(multiscalesubpixel?skip?fusion?module)、輕量級注意力機制(lightweight?attentionmechanism)(包含增強的通道注意力和空間注意力模塊),以及高分辨率特征金字塔(high-resolution?feature?pyramid)。在每次特征圖融合之后,輕量級注意力機制會對特征圖進行優(yōu)化。
8、上述所有方法都通過將與身體部位相關(guān)的關(guān)鍵點分組來預(yù)測人體的姿態(tài)。由于分組函數(shù)所需的計算時間極少,因此自下而上方法的總推理時間通常獨立于圖像中的人數(shù)。然而,自下而上方法在處理“小”人時的性能會顯著下降。因為整個圖像都被用作輸入,所以“小”的路上行人的分辨率會受到影響。
9、盡管現(xiàn)有技術(shù)已經(jīng)包含了許多可用于人體實時姿態(tài)估計的adas系統(tǒng),尚未開發(fā)出一種全面的系統(tǒng),該系統(tǒng)不會在計算時間和準(zhǔn)確性之間做出妥協(xié),反之亦然。更快的處理速度和避免錯誤檢測對于改進駕駛環(huán)境中的路邊人員檢測至關(guān)重要。
10、因此,本發(fā)明旨在解決現(xiàn)有技術(shù)中的特殊挑戰(zhàn),本發(fā)明公開了一種用于實時檢測車輛周圍人的姿態(tài)的系統(tǒng)。該系統(tǒng)采用一種新的自上而下的方法來確定人的姿態(tài)。本發(fā)明所述系統(tǒng)將輕量級骨干基礎(chǔ)結(jié)構(gòu)(lightweight?backbone?infrastructure)與置信度預(yù)處理流程方法(confidence?pre-processing?procedure?method)相結(jié)合,可更快更迅速地檢測到人的姿態(tài)。除了提高檢測速度外,還提供了召回任何遺漏檢測或減少與視圖中相互重疊的人或近距離檢測到的人相關(guān)的錯誤檢測。
11、現(xiàn)在很明顯的是,現(xiàn)有技術(shù)中已經(jīng)開發(fā)出許多足以滿足各種目的的方法和系統(tǒng)。此外,即使這些發(fā)明可能適用于其所針對的特定目的,但相應(yīng)地,它們并不適合于如前面所述的本發(fā)明的目的。因此,有必要提供用于預(yù)測易受傷害的道路使用者或人的姿態(tài)的系統(tǒng),該系統(tǒng)使用輕量級骨干基礎(chǔ)結(jié)構(gòu),復(fù)雜性較低,確保使用更高分辨率的圖像進行處理,從而克服現(xiàn)有技術(shù)中涉及“小”或“遠(yuǎn)處”的人的缺點,并減少現(xiàn)有技術(shù)中已知的系統(tǒng)的錯誤檢測。
技術(shù)實現(xiàn)思路
1、根據(jù)本發(fā)明,通過提供一種用于檢測車輛周圍多人的新型輕量級的人的姿態(tài)估計方法和系統(tǒng),基本上避免了現(xiàn)有技術(shù)的缺點和局限性。根據(jù)本發(fā)明,所述系統(tǒng)使用輕量級、復(fù)雜程度低的骨干來處理行人圖像。因此,所使用的圖像可以是更大尺寸和更高分辨率的,為與易受傷害的道路使用者(vru,vulnerable?road?users)相關(guān)的姿勢估計提供了便利和準(zhǔn)確性。推斷錯誤或容易出錯的檢測以及恢復(fù)使用道路的個人的遺漏檢測的額外好處,使所述系統(tǒng)更適合adas,尤其是自動駕駛汽車。
2、本發(fā)明公開了一種電子設(shè)備,例如與車輛相關(guān)的攝像頭或視頻獲取設(shè)備(如行車記錄儀),用于在視頻中生成連續(xù)幀。根據(jù)本發(fā)明的一個替代實施例,連續(xù)幀可以是由任何圖像獲取設(shè)備生成的圖像。連續(xù)幀包括第一幀和若干后續(xù)幀。根據(jù)本發(fā)明的一個優(yōu)選實施例,第一幀被用于人員檢測器的邊界框生成器利用,以在車輛附近的任何人的周圍生成邊界框。
3、在第一幀以及后續(xù)幀中均存在人。邊界框是視頻中連續(xù)幀的第一幀中識別出的每個人所獨有的。在連續(xù)幀中的任一幀,只要首次識別出其中任何一個人,則該幀就成為該人的原始幀,而原始幀之后的連續(xù)幀則成為該人的后續(xù)幀。根據(jù)本發(fā)明的一個優(yōu)選實施例,人員跟蹤器會預(yù)測每個人的位置,并使用跟蹤器在后續(xù)幀內(nèi)放置一個邊界框。跟蹤器與人的姿勢或肢體的關(guān)鍵點相關(guān)聯(lián)。
4、人員檢測器和跟蹤器使用邊界框生成器,然后比較閾值數(shù)量的連續(xù)幀(athreshold?number?of?consecutive?frames)的跟蹤器,以檢測其中一個跟蹤器與當(dāng)前幀的邊界框之間的匹配。根據(jù)本發(fā)明的一個優(yōu)選實施例,人員檢測器和跟蹤器包括跟蹤器匹配比較器和跟蹤器優(yōu)化器。跟蹤器匹配比較器確定在閾值數(shù)量的連續(xù)幀中的每一幀的邊界框和跟蹤器之間的匹配程度。跟蹤器優(yōu)化器使用處理方法來減少假陽性(falsepositives)并恢復(fù)假陰性(false?negative)檢測。根據(jù)本發(fā)明的一個優(yōu)選實施例,跟蹤器優(yōu)化器確保在閾值數(shù)量的連續(xù)幀中,任何一個跟蹤器之間的不匹配都是有效的。如果跟蹤器在閾值數(shù)量內(nèi)沒有“匹配”,該關(guān)鍵點(即跟蹤器之一)將被跟蹤器優(yōu)化器從姿態(tài)估計中丟棄。
5、然而,如果在閾值數(shù)量的連續(xù)幀內(nèi),不匹配的跟蹤器再次與邊界框的檢測相匹配,跟蹤器優(yōu)化器會將該跟蹤器更新為更新后的跟蹤器。因此,根據(jù)本發(fā)明的人員檢測系統(tǒng),更新后的跟蹤器都是在跟蹤優(yōu)化結(jié)束時成功匹配的跟蹤器。
6、根據(jù)本發(fā)明的一個優(yōu)選實施例,后續(xù)幀的更新后的跟蹤器被用作姿態(tài)估計器的輸入。姿態(tài)估計器包括骨干網(wǎng)絡(luò)以基于后續(xù)幀的更新后的跟蹤器來生成特征圖。特征圖可以直接使用,或者通過使用各種基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(cnn,convolutional?neuralnetwork)方法合并特征圖的多個分辨率卷積來使用。根據(jù)本發(fā)明的一個優(yōu)選實施例,特征圖被轉(zhuǎn)換成熱力圖(熱圖,heat?map),以便通過關(guān)鍵點編碼器和解碼器進行分析。根據(jù)本發(fā)明的一個優(yōu)選實施例,熱力圖通過關(guān)鍵點編碼和解碼器進行調(diào)制,以識別關(guān)鍵點的基礎(chǔ)最大值。關(guān)鍵點編碼器和解碼器通過應(yīng)用泰勒展開式(taylor?expansion)來利用這些最大值進行姿態(tài)估計。
7、本發(fā)明的進一步方面將從以下詳細(xì)描述中變得顯而易見,所述詳細(xì)描述將結(jié)合附圖進行說明,附圖以示例的方式說明了根據(jù)本發(fā)明的實施例的特征。
8、為實現(xiàn)上述及相關(guān)的目的,本發(fā)明可以采用附圖所示的方式實施。值得注意的是,附圖僅作說明性展示,在所附權(quán)利要求書的范圍內(nèi),可以對所說明和描述的具體結(jié)構(gòu)進行更改。
9、盡管本文以各種示例性實施例對本發(fā)明進行了描述,但應(yīng)當(dāng)理解的是,在一個或多個單獨實施例中描述的各種特征、外觀和功能等,其適用性并不局限于所描述的特定實施例。相反,無論是否明確描述了這些實施例,也無論這些特征是否作為所描述的實施例的一部分呈現(xiàn),它們可以單獨或以各種組合方式應(yīng)用于本發(fā)明的一個或多個其他實施例。因此,本發(fā)明的范圍不應(yīng)受到上述任何示例性實施例的限制。
10、在一些場景中,出現(xiàn)“一個或多個”、“至少”、“但不限于”或其他類似短語,不應(yīng)被理解為在不存在此類擴大范圍短語的場景中,要求的范圍變窄。