本申請涉及音視頻采集處理領(lǐng)域,且更為具體地,涉及一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)及方法。
背景技術(shù):
1、音視頻采集處理系統(tǒng)是一個(gè)綜合性的系統(tǒng),負(fù)責(zé)采集、處理和管理音視頻數(shù)據(jù)。它通常包括視頻采集設(shè)備、音頻采集設(shè)備、視頻處理軟件、音頻處理軟件和存儲(chǔ)設(shè)備。
2、在醫(yī)學(xué)心理健康領(lǐng)域,診斷和治療常常依賴于患者的口述和醫(yī)生的評估。然而,由于患者可能缺乏專業(yè)術(shù)語來準(zhǔn)確描述自己的感受,因此他們有時(shí)難以精確表達(dá)自己的情緒狀態(tài)。并且,盡管醫(yī)生接受了專業(yè)培訓(xùn)和教育,也可能無法在有限的時(shí)間內(nèi)完全理解患者的情感需求。此外,醫(yī)生可能受到自身經(jīng)驗(yàn)、偏見或局限性的影響,這可能導(dǎo)致醫(yī)生對患者情感狀態(tài)的理解存在偏差。
3、因此,期望一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)及方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,提出了本申請。本申請的實(shí)施例提供了一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)及方法,其首先獲取由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù),然后利用深度學(xué)習(xí)技術(shù),對二者進(jìn)行特征提取和關(guān)聯(lián)分析,最后通過分類器,以得到患者的情感標(biāo)簽信息,以更好地了解患者的情緒狀態(tài)和心理健康狀況,從而進(jìn)行個(gè)性化的診斷和治療計(jì)劃,從而提高醫(yī)療服務(wù)的質(zhì)量和效果。
2、根據(jù)本申請的一個(gè)方面,提供了一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其包括:
3、患者音視頻數(shù)據(jù)獲取模塊,用于獲取由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù);
4、患者音視頻數(shù)據(jù)提取模塊,用于從所述由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和所述由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù)中提取患者音頻特征向量和患者面部顯著特征向量;
5、多模態(tài)情感識別模塊,用于基于所述患者音頻特征向量和所述患者面部顯著特征向量,得到患者的情感標(biāo)簽信息。
6、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述患者音視頻數(shù)據(jù)提取模塊,包括:患者音頻數(shù)據(jù)特征編碼單元,用于對所述由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)進(jìn)行特征編碼以得到所述患者音頻特征向量;患者視頻數(shù)據(jù)特征編碼單元,用于對所述由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù)進(jìn)行特征編碼以得到所述患者面部顯著特征向量。
7、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述患者音頻數(shù)據(jù)特征編碼單元,包括:從所述由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)中提取患者對數(shù)梅爾譜圖、患者耳蝸?zhàn)V圖和患者恒定q變換譜圖;將所述患者對數(shù)梅爾譜圖、所述患者耳蝸?zhàn)V圖和所述患者恒定q變換譜圖排列為患者多通道音譜圖;將所述患者多通道音譜圖通過使用通道注意力機(jī)制的患者音頻特征編碼器以得到所述患者音頻特征向量。
8、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述患者視頻數(shù)據(jù)特征編碼單元,包括:患者視頻關(guān)鍵幀提取子單元,用于從所述由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù)中提取多個(gè)患者視頻關(guān)鍵幀;視頻關(guān)鍵幀目標(biāo)特征提取子單元,用于對所述多個(gè)患者視頻關(guān)鍵幀進(jìn)行目標(biāo)特征提取以得到患者面部顯著特征圖;患者面部顯著特征池化子單元,用于將所述患者面部顯著特征圖進(jìn)行最大值池化以得到所述患者面部顯著特征向量。
9、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述視頻關(guān)鍵幀目標(biāo)特征提取子單元,包括:將所述多個(gè)患者視頻關(guān)鍵幀通過患者面部目標(biāo)檢測網(wǎng)絡(luò)以得到多個(gè)患者面部感興趣區(qū)域;將所述多個(gè)患者面部感興趣區(qū)域通過患者面部顯著目標(biāo)檢測器以得到所述患者面部顯著特征圖。
10、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述多模態(tài)情感識別模塊,包括:患者情感特征融合單元,用于對患者音頻特征向量和患者面部顯著特征向量進(jìn)行基于視角對齊投影的跨模態(tài)數(shù)據(jù)融合以得到患者情感分類特征向量;患者情感特征優(yōu)化單元,用于對所述患者情感分類特征向量進(jìn)行基于類散度空間的散射反饋深度依賴性調(diào)整以得到優(yōu)化患者情感分類特征向量;多模態(tài)患者情感標(biāo)簽識別單元,用于將所述優(yōu)化患者情感分類特征向量通過分類器以得到分類結(jié)果,所述分類結(jié)果用于表示得到患者的情感標(biāo)簽信息。
11、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述患者情感特征融合單元,包括:構(gòu)造所述患者音頻特征向量和所述患者面部顯著特征向量之間的患者音頻-面部顯著距離拓?fù)渚仃?;?gòu)造所述患者音頻特征向量和所述患者面部顯著特征向量之間的患者音頻-面部顯著特征值粒度關(guān)聯(lián)矩陣;基于所述患者音頻-面部顯著距離拓?fù)渚仃噷λ龌颊咭纛l-面部顯著特征值粒度關(guān)聯(lián)矩陣進(jìn)行拓?fù)潢P(guān)聯(lián)調(diào)制以得到患者音頻-面部顯著拓?fù)湔{(diào)制關(guān)聯(lián)矩陣;以所述患者音頻-面部顯著拓?fù)湔{(diào)制關(guān)聯(lián)矩陣作為視角共投影空間,將所述患者音頻特征向量和所述患者面部顯著特征向量投影到所述視角共投影空間以得到視角調(diào)制患者音頻特征向量和視角調(diào)制患者面部顯著特征向量;融合所述視角調(diào)制患者音頻特征向量和所述視角調(diào)制患者面部顯著特征向量以得到所述患者情感分類特征向量。
12、在上述基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)中,所述患者情感特征優(yōu)化單元,包括:確定所述患者情感分類特征向量的均值;對所述患者情感分類特征向量進(jìn)行累加求和以得到所述患者情感分類特征向量的總和值;將所述患者情感分類特征向量的總和值減去所述患者情感分類特征向量的均值后除以預(yù)定超參數(shù)再除以所述患者情感分類特征向量的長度以得到第一商值;對所述第一商值計(jì)算以自然常數(shù)為底的指數(shù)函數(shù)值以得到第一自然指數(shù)函數(shù)值;將所述第一自然指數(shù)函數(shù)值與所述患者情感分類特征向量進(jìn)行按位置點(diǎn)乘以得到優(yōu)化患者情感分類特征向量。
13、根據(jù)本申請的另一方面,提供了一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理方法,其包括:
14、獲取由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù);
15、從所述由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和所述由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù)中提取患者音頻特征向量和患者面部顯著特征向量;
16、基于所述患者音頻特征向量和所述患者面部顯著特征向量,得到患者的情感標(biāo)簽信息。
17、與現(xiàn)有技術(shù)相比,本申請?zhí)峁┑囊环N基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng)及方法,其首先獲取由語音記錄設(shè)備采集的患者音頻數(shù)據(jù)和由醫(yī)療監(jiān)控設(shè)備的患者視頻數(shù)據(jù),然后利用深度學(xué)習(xí)技術(shù),對二者進(jìn)行特征提取和關(guān)聯(lián)分析,最后通過分類器,以得到患者的情感標(biāo)簽信息,以更好地了解患者的情緒狀態(tài)和心理健康狀況,從而進(jìn)行個(gè)性化的診斷和治療計(jì)劃,從而提高醫(yī)療服務(wù)的質(zhì)量和效果。
1.一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述患者音視頻數(shù)據(jù)提取模塊,包括:
3.根據(jù)權(quán)利要求2所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述患者音頻數(shù)據(jù)特征編碼單元,包括:
4.根據(jù)權(quán)利要求3所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述患者視頻數(shù)據(jù)特征編碼單元,包括:
5.根據(jù)權(quán)利要求4所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述視頻關(guān)鍵幀目標(biāo)特征提取子單元,包括:
6.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述多模態(tài)情感識別模塊,包括:
7.根據(jù)權(quán)利要求6所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述患者情感特征融合單元,包括:
8.根據(jù)權(quán)利要求7所述的基于大數(shù)據(jù)技術(shù)的音視頻采集處理系統(tǒng),其特征在于,所述患者情感特征優(yōu)化單元,包括:
9.一種基于大數(shù)據(jù)技術(shù)的音視頻采集處理方法,其特征在于,包括: