本發(fā)明屬于人機(jī)交互,具體涉及一種多模態(tài)人機(jī)交互的性能評估方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、在多模態(tài)人機(jī)交互系統(tǒng)中,數(shù)據(jù)是核心不僅可以幫助系統(tǒng)更準(zhǔn)確地理解用戶的意圖和需求,還可以為系統(tǒng)的優(yōu)化和改進(jìn)提供有力支持。因此,如何有效地采集、處理和分析多模態(tài)數(shù)據(jù)成為了多模態(tài)人機(jī)交互技術(shù)發(fā)展的關(guān)鍵。
3、評估多模態(tài)人機(jī)交互性能時所采用的數(shù)據(jù)較為單一,導(dǎo)致無法全面準(zhǔn)確的評估多模態(tài)人機(jī)交互的性能,因此,為了評估多模態(tài)人機(jī)交互系統(tǒng)的性能,需要一種全面、準(zhǔn)確且高效的評估方法。然而,由于多模態(tài)數(shù)據(jù)的復(fù)雜性和多樣性,傳統(tǒng)的評估方法往往難以勝任。因此,亟需開發(fā)一種能夠綜合考慮多種模態(tài)數(shù)據(jù)、提取關(guān)鍵特征并輸出準(zhǔn)確評估結(jié)果的評估方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種多模態(tài)人機(jī)交互的性能評估方法及系統(tǒng),通過綜合多種交互模態(tài)、精細(xì)化的特征提取以及高效的評估模型構(gòu)建,實(shí)現(xiàn)對人機(jī)交互系統(tǒng)性能的全面、準(zhǔn)確評估,為系統(tǒng)的設(shè)計和優(yōu)化提供了有力的支持。
2、根據(jù)一些實(shí)施例,本發(fā)明的第一方案提供了一種多模態(tài)人機(jī)交互的性能評估方法,采用如下技術(shù)方案:
3、一種多模態(tài)人機(jī)交互的性能評估方法,包括:
4、獲取實(shí)時的多模態(tài)人機(jī)交互數(shù)據(jù),其中,所述多模態(tài)人機(jī)交互數(shù)據(jù)至少包括手勢、眼部、語音交互數(shù)據(jù)以及用戶生理信號;
5、對所獲取的多模態(tài)人機(jī)交互數(shù)據(jù)進(jìn)行預(yù)處理,得到目標(biāo)交互數(shù)據(jù);
6、提取所得到的目標(biāo)交互數(shù)據(jù)中的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶生理特征數(shù)據(jù);
7、根據(jù)所提取到的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶生理特征數(shù)據(jù),以及基于長短期時間記憶網(wǎng)絡(luò)的性能評估模型進(jìn)行多模態(tài)人機(jī)交互的性能評估,得到多模態(tài)人機(jī)交互的性能的評估結(jié)果。
8、作為進(jìn)一步的技術(shù)限定,所述對所獲取的多模態(tài)人機(jī)交互數(shù)據(jù)進(jìn)行預(yù)處理得到目標(biāo)交互數(shù)據(jù)的過程為:
9、識別并剔除交互數(shù)據(jù)中的異常值,并對有缺失的交互數(shù)據(jù),根據(jù)交互數(shù)據(jù)的分布特性采用插值法進(jìn)行填補(bǔ),獲得初始交互數(shù)據(jù);
10、對所述初始交互數(shù)據(jù)進(jìn)行分段處理,以便分析不同區(qū)間的數(shù)據(jù)表現(xiàn),獲得目標(biāo)交互數(shù)據(jù)。
11、作為進(jìn)一步的技術(shù)限定,所述提取所得到的目標(biāo)交互數(shù)據(jù)中的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶生理特征數(shù)據(jù)的過程為:
12、篩選出目標(biāo)交互數(shù)據(jù)中包含手勢和眼部的圖像,并采用形態(tài)學(xué)處理包含手勢和眼部的圖像,并通過區(qū)域連通,獲得手勢輪廓和眼部輪廓;
13、對手勢輪廓和眼部輪廓進(jìn)行反向膨脹處理,獲得手勢特征數(shù)據(jù)和眼部特征數(shù)據(jù);
14、針對語音交互數(shù)據(jù),進(jìn)行分幀處理,以確定出語音交互數(shù)據(jù)對應(yīng)的頻譜信號,并基于預(yù)設(shè)的頻譜信號與圖像像素值之間的關(guān)系,將所述頻譜信號映射為圖像,基于映射后的圖像采用圖像處理方式獲得語音特征數(shù)據(jù);
15、針對用戶的生理信號,分析生理信號的周期,以確定時域信息,并采用傅里葉變換將用戶的生理信號轉(zhuǎn)換為頻域信息;
16、基于時域信息和頻域信息分析用戶的生理信號在不同時間和頻率上的變化情況,獲得用戶的生理特征數(shù)據(jù)。
17、作為進(jìn)一步的技術(shù)限定,所述手勢特征數(shù)據(jù)包括但不限于手指、手掌的位置、方向和角度幾何特征、手勢的速度、加速度、軌跡動態(tài)特征、手勢的輪廓、邊緣、紋理形狀特征;
18、所述眼部特征數(shù)據(jù)包括但不限于用戶眼球注視的坐標(biāo)點(diǎn)、用戶在目標(biāo)區(qū)域或?qū)ο蟮淖⒁晻r間、用戶眼球掃視的軌跡和速度;
19、所述語音特征數(shù)據(jù)包括但不限于語音信號的梅爾頻率倒譜系數(shù)、語音內(nèi)容的語義特征;
20、所述用戶的生理特征數(shù)據(jù)包括但不限于從腦電、心率、皮膚電導(dǎo)生理信號中提取反映認(rèn)知負(fù)荷的特征。
21、作為進(jìn)一步的技術(shù)限定,所述基于長短期時間記憶網(wǎng)絡(luò)的性能評估模型的構(gòu)建過程包括:
22、從所述目標(biāo)交互數(shù)據(jù)中選取訓(xùn)練集,并將訓(xùn)練集中不同時域下的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶的生理特征數(shù)據(jù)輸入評估模型的輸入層;
23、將所述輸入層的輸出以及所述訓(xùn)練集中的輸入所述評估模型中的短期時間記憶網(wǎng)絡(luò)層,并將短期時間記憶網(wǎng)絡(luò)層的輸出輸入至所述評估模型中的長期時間記憶網(wǎng)絡(luò)層,獲得長期時間記憶網(wǎng)絡(luò)層的輸出;
24、將長期時間記憶網(wǎng)絡(luò)層的輸出輸入所述評估模型中的預(yù)測層,輸出為與所述訓(xùn)練集對應(yīng)時域窗口內(nèi)最后一個時間點(diǎn)的人機(jī)交互的性能評估結(jié)果;
25、計算人機(jī)交互的性能評估結(jié)果與訓(xùn)練集對應(yīng)的歷史人機(jī)交互的性能評估結(jié)果之間的損失函數(shù),根據(jù)所述損失函數(shù)的結(jié)果調(diào)整所述評估模型的參數(shù),直至達(dá)到預(yù)設(shè)迭代停止條件,得到評估模型。
26、進(jìn)一步的,所述多模態(tài)人機(jī)交互的性能評估的過程為:
27、將所述手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶的生理特征數(shù)據(jù)輸入至預(yù)先構(gòu)建的評估模型的輸入層,通過卷積核分別在所述手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶的生理特征數(shù)據(jù)上滑動,進(jìn)行局部特征提?。?/p>
28、對輸入層輸出的特征圖采用短期時間記憶網(wǎng)絡(luò)層進(jìn)行下采樣,并將下采樣結(jié)果輸入至長期時間記憶網(wǎng)絡(luò)層,進(jìn)行全局整合,并映射到樣本標(biāo)記空間,使用預(yù)測層輸出所述手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶的生理特征數(shù)據(jù)對應(yīng)的預(yù)測概率。
29、根據(jù)一些實(shí)施例,本發(fā)明的第二方案提供了一種多模態(tài)人機(jī)交互的性能評估系統(tǒng),采用如下技術(shù)方案:
30、一種多模態(tài)人機(jī)交互的性能評估系統(tǒng),包括:
31、獲取模塊,其被配置為獲取實(shí)時的多模態(tài)人機(jī)交互數(shù)據(jù),其中,所述多模態(tài)人機(jī)交互數(shù)據(jù)至少包括手勢、眼部、語音交互數(shù)據(jù)以及用戶生理信號;對所獲取的多模態(tài)人機(jī)交互數(shù)據(jù)進(jìn)行預(yù)處理,得到目標(biāo)交互數(shù)據(jù);
32、提取模塊,其被配置為提取所得到的目標(biāo)交互數(shù)據(jù)中的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶生理特征數(shù)據(jù);
33、評估模塊,其被配置為根據(jù)所提取到的手勢特征數(shù)據(jù)、眼部特征數(shù)據(jù)、語音特征數(shù)據(jù)以及用戶生理特征數(shù)據(jù),以及基于長短期時間記憶網(wǎng)絡(luò)的性能評估模型進(jìn)行多模態(tài)人機(jī)交互的性能評估,得到多模態(tài)人機(jī)交互的性能的評估結(jié)果。
34、根據(jù)一些實(shí)施例,本發(fā)明的第三方案提供了一種計算機(jī)可讀存儲介質(zhì),采用如下技術(shù)方案:
35、一種計算機(jī)可讀存儲介質(zhì),其上存儲有程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如本發(fā)明第一方案所述的一種多模態(tài)人機(jī)交互的性能評估方法中的步驟。
36、根據(jù)一些實(shí)施例,本發(fā)明的第四方案提供了一種電子設(shè)備,采用如下技術(shù)方案:
37、一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并在處理器上運(yùn)行的程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如本發(fā)明第一方案所述的一種多模態(tài)人機(jī)交互的性能評估方法中的步驟。
38、根據(jù)一些實(shí)施例,本發(fā)明的第五方案提供了一種計算機(jī)程序產(chǎn)品,采用如下技術(shù)方案:
39、一種計算機(jī)程序產(chǎn)品,包括軟件代碼,所述軟件代碼中的程序執(zhí)行如本發(fā)明第一方案所述的一種多模態(tài)人機(jī)交互的性能評估方法中的步驟。
40、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
41、本發(fā)明綜合考慮多種模態(tài)數(shù)據(jù),提取所考慮的多模態(tài)數(shù)據(jù)的關(guān)鍵特征進(jìn)行人機(jī)交互的性能評估,實(shí)現(xiàn)了對人機(jī)交互系統(tǒng)性能的全面、準(zhǔn)確評估,為系統(tǒng)的設(shè)計和優(yōu)化提供了有力的支持。