本發(fā)明屬于計算機視覺,尤其涉及一種基于時空交互注意力機制的人體動作預測方法及系統(tǒng)。
背景技術:
1、本部分的陳述僅僅是提供了與本發(fā)明相關的背景技術信息,不必然構成在先技術。
2、人體運動預測是指基于現(xiàn)有的運動數(shù)據(jù)和特定條件,推測出未來的運動軌跡或姿態(tài)。這一過程涉及利用計算機視覺、深度學習、物理仿真等技術,從過去的運動模式中提取特征,并預測人物下一步或一系列連續(xù)動作的可能性。人體運動預測廣泛應用于多個領域。在體育訓練中,它可以幫助教練和運動員分析動作的合理性,并優(yōu)化訓練計劃。在人機交互中,通過預測用戶的動作,設備能夠提前做出反應,提高互動的自然性和流暢性。自動駕駛和機器人領域,通過預測行人或其他物體的運動軌跡,系統(tǒng)可以提前規(guī)劃路徑,避免碰撞。在虛擬現(xiàn)實(vr)和增強現(xiàn)實(ar)中,人體運動預測使虛擬人物的動作更加逼真,提高用戶的沉浸感。此外,醫(yī)療康復領域通過預測患者的運動,能夠幫助制定個性化的康復計劃,輔助康復訓練。
3、深度學習方法在人體運動預測任務中具有顯著的優(yōu)勢,提升了預測的精度、靈活性和應用范圍。首先,深度學習能夠自動從大量數(shù)據(jù)中提取高維特征,不依賴于手工設計的特征提取方法。這使得模型可以更準確地捕捉復雜的運動模式和時序關系,尤其是在處理大規(guī)模、高維度的運動數(shù)據(jù)時表現(xiàn)尤為出色。其次,深度學習模型,尤其是遞歸神經網(wǎng)絡(rnn)、長短期記憶網(wǎng)絡(lstm)和transformer等,擅長處理時序數(shù)據(jù),能夠有效建模人體運動的動態(tài)特征。這使得它們能夠預測長時間跨度內的連續(xù)運動,并生成更自然的動作序列。此外,通過使用生成對抗網(wǎng)絡(gan)等深度生成模型,可以生成多樣化的運動預測,考慮到不同可能性,從而提高模型的魯棒性和泛化能力。深度學習方法還具備良好的擴展性,可以輕松集成多種輸入數(shù)據(jù)類型(如視覺、語音、傳感器數(shù)據(jù)),從而提高預測的準確性和適用性。在實際應用中,如虛擬現(xiàn)實、智能監(jiān)控、自動駕駛和機器人運動規(guī)劃,深度學習的強大能力為人體運動預測提供了更為智能和高效的解決方案。
4、transformer?機制由谷歌團隊提出,并用于機器翻譯,現(xiàn)已成為自然語言處理任務的主要方法。transformer?的關鍵部分是多頭自注意力機制,有助于捕獲長期依賴關系同時能夠提高全局建模能力。最近的研究表明,transformer?網(wǎng)絡結構顯著提高了各種任務的性能,如圖像分類,目標檢測和視覺問答系統(tǒng)等領域。
5、transformer模型在提取時空特征方面表現(xiàn)出色。通過自注意力機制,transformer能夠同時關注序列中不同位置的關系,從而捕捉時間維度上的依賴性。同時,transformer還能利用其多頭注意力機制,分別從不同角度分析輸入數(shù)據(jù),獲取更豐富的空間特征。在處理時空數(shù)據(jù)時,transformer的時間分支負責捕捉動作或事件在不同時間幀之間的動態(tài)變化,而空間分支則聚焦于對象或人體關節(jié)在不同空間位置上的關系。這種雙重分支結構使得transformer可以有效地整合時間和空間信息,從而為任務提供更為準確和全面的特征表示,廣泛應用于人體運動預測、視頻分析等領域。
6、雖然基于transformer的方法取得了顯著的成果,但是這些方法在處理時間和空間的信息交互時,除了在模型最后對時空信息進行拼接外,沒有任何操作來增強兩個分支之間的連貫性;現(xiàn)有的方法都忽略了時空信息的一致性,這是處理時變數(shù)據(jù)時的重要線索。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術的不足,本發(fā)明提供了一種基于時空交互注意力機制的人體動作預測方法、系統(tǒng)、電子設備、計算機可讀存儲介質和計算機程序產品,
2、為實現(xiàn)上述目的,本發(fā)明的一個或多個實施例提供了如下技術方案:
3、第一方面,本發(fā)明提供了一種基于時空交互注意力機制的人體動作預測方法,包括:
4、獲取人體歷史運動數(shù)據(jù)集并進行預處理,得到歷史運動序列;
5、將獲取的歷史運動序列進行位置編碼后,輸入至基于時空交互注意力機制的transformer模型中,首先利用時間特征提取分支以及空間特征提取分支分別進行時間特征和空間特征的提取,之后利用交互注意力機制對提取到的特征進行交互,最后通過聯(lián)合交互后的時間特征和空間特征得到人體運動序列預測結果;
6、所述利用交互注意力機制對提取到的特征進行交互,包括:利用自注意力機制將一個特征提取分支與另一個特征提取分支的補丁令牌進行信息交換;從另一個特征提取分支獲取信息后,通過下一個時空transformer模塊將更新后的補丁令牌帶回自身的分支,以便將從另一個特征提取分支中學到的信息傳遞回自身分支,增強時空表示能力。
7、進一步地,所述基于時空交互注意力機制的transformer模型的處理過程包括:使用n層基于transformer注意力機制對時空特征進行提取,將空間特征和時間特征分別區(qū)分為兩部分特征信息標志和特征塊,將空間分支中的特征信息標志與時間分支中的特征信息標志進行維度對齊后經投影得到查詢向量q,在空間特征信息標志和時間特征塊之間執(zhí)行交叉轉換得到鍵向量k和值向量v;查詢向量q與鍵向量k以及值向量v相乘后,與維度對齊后的空間分支中的特征信息標志進行拼接;完成時間交互特征之后,拼接后的特征經反投影后再與空間特征塊進行拼接,由此得到信息返還之后的特征;時空交互后的具有一致性的空間特征。
8、進一步地,利用所述時間特征提取分支進行時間特征提取,包括:利用transformer中的自注意力機制,通過考慮同一關節(jié)點在不同時間幀之間的相關性來更新其特征表示;在自注意力機制的計算過程中,引入掩碼矩陣以防止未來信息的泄露。
9、進一步地,利用所述空間特征提取分支進行空間特征提取,包括:給定一個人體姿態(tài)嵌入和權重矩陣,利用多頭注意力機制聚合在時刻下的所有關節(jié)信息,得到空間特征。
10、進一步地,所述通過聯(lián)合交互后的時間特征和空間特征得到人體運動序列預測結果,包括:通過相加的方式將交互后的時間特征和空間特征進行融合后,經過歸一化獲得預測結果。
11、進一步地,采用adam優(yōu)化器對所述基于時空交互注意力機制的transformer模型進行訓練,通過反向傳播更新模型的參數(shù)。
12、第二方面,本發(fā)明提供了一種基于時空交互注意力機制的人體動作預測系統(tǒng),包括:
13、數(shù)據(jù)獲取及預處理模塊,被配置為:獲取人體歷史運動數(shù)據(jù)集并進行預處理,得到歷史運動序列;
14、聯(lián)合預測模塊,被配置為:將獲取的歷史運動序列進行位置編碼后,輸入至基于時空交互注意力機制的transformer模型中,首先利用時間特征提取分支以及空間特征提取分支分別進行時間特征和空間特征的提取,之后利用交互注意力機制對提取到的特征進行交互,最后通過聯(lián)合交互后的時間特征和空間特征得到人體運動序列預測結果;
15、所述利用交互注意力機制對提取到的特征進行交互,包括:利用自注意力機制將一個特征提取分支與另一個特征提取分支的補丁令牌進行信息交換;從另一個特征提取分支獲取信息后,通過下一個時空transformer模塊將更新后的補丁令牌帶回自身的分支,以便將從另一個特征提取分支中學到的信息傳遞回自身分支,增強時空表示能力。
16、第三方面,本發(fā)明提供了一種電子設備;
17、一種電子設備,包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)上述一種基于時空交互注意力機制的人體動作預測方法的步驟。
18、第四方面,本發(fā)明提供了一種計算機可讀存儲介質;
19、一種計算機可讀存儲介質,其上存儲有計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述一種基于時空交互注意力機制的人體動作預測方法的步驟。
20、第五方面,本發(fā)明提供了一種計算機程序產品;
21、一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述一種基于時空交互注意力機制的人體動作預測方法的步驟。
22、以上一個或多個技術方案存在以下有益效果:
23、(1)本發(fā)明提出了一種基于transformer時空注意力機制交互方法來有效地預測3d人體運動。該方法將人體動作序列信息分為時間分支以及空間分支,采用基于transformer注意力方法對人體動作的空間和時間分支分別進行特征提取,旨在捕獲人體動作的全局信息。
24、(2)本發(fā)明設計了基于transformer時空交互注意力機制方法旨在學習3d?人體運動空間和時間特征的一致性以及交互性信息。該時空交互注意力機制方法分為三個階段,從基于transformer的時空信息匯總到時空信息交互,最后到時空信息返回到各自時空分支,通過該注意力機制,本發(fā)明設計的方法可以在長時間建模方面產生更真實的3d人體運動。
25、本發(fā)明附加方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。