本公開(kāi)涉及計(jì)算機(jī)視覺(jué),具體而言,涉及一種交互控制方法、車載設(shè)備、車輛及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、車載設(shè)備上通常部署有語(yǔ)音接口,用戶可以通過(guò)語(yǔ)音對(duì)車載設(shè)備可以提供的各項(xiàng)服務(wù)進(jìn)行控制,比如用戶在觀看電子設(shè)備中顯示的某多媒體內(nèi)容時(shí),可以通過(guò)語(yǔ)音的方式對(duì)該多媒體內(nèi)容進(jìn)行播放的控制。這種服務(wù)可以提高用戶的體驗(yàn),減少用戶的操作,提高用戶的效率。但是隨著車載設(shè)備可以提供的服務(wù)越來(lái)越多,車載設(shè)備的顯示屏幕也越來(lái)越大。這使得車載設(shè)備可以通過(guò)顯示屏幕為用戶同時(shí)提供多種服務(wù)的相關(guān)內(nèi)容,這就導(dǎo)致了需要用戶提供精確的語(yǔ)音指令才能夠?qū)崿F(xiàn)對(duì)某項(xiàng)服務(wù)的控制,造成操作的不便。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)實(shí)施例至少提供一種交互控制方法、車載設(shè)備、車輛及計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本公開(kāi)實(shí)施例提供了一種交互控制方法,包括:
3、獲取語(yǔ)音交互的過(guò)程中目標(biāo)用戶的語(yǔ)音信息和視覺(jué)信息;
4、根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶的注意力位置;
5、若所述語(yǔ)音信息用于指示執(zhí)行與顯示屏幕顯示的內(nèi)容關(guān)聯(lián)的操作,則根據(jù)所述注意力位置,確定所述顯示屏幕中的注意力區(qū)域;
6、識(shí)別所述語(yǔ)音信息和所述注意力區(qū)域中的內(nèi)容,并根據(jù)識(shí)別結(jié)果從所述注意力區(qū)域中確定與所述語(yǔ)音信息關(guān)聯(lián)的目標(biāo)操作對(duì)象;
7、基于所述語(yǔ)音信息中指示的操作動(dòng)作,對(duì)所述目標(biāo)操作對(duì)象執(zhí)行與所述操作動(dòng)作對(duì)應(yīng)的操作。
8、這樣,結(jié)合視覺(jué)信息和語(yǔ)音信息,通過(guò)視覺(jué)信息來(lái)確定目標(biāo)用戶的注意力位置,并在語(yǔ)音信息用于指示與顯示屏幕顯示的內(nèi)容關(guān)聯(lián)的操作的情況下,根據(jù)注意力位置確定顯示屏幕中的注意力區(qū)域,然后識(shí)別語(yǔ)音信息和注意力區(qū)域中的內(nèi)容,并根據(jù)識(shí)別結(jié)果從注意力區(qū)域中確定與語(yǔ)音信息關(guān)聯(lián)的目標(biāo)操作對(duì)象,然后基于語(yǔ)音信息中指示的操作動(dòng)作,對(duì)目標(biāo)操作對(duì)象執(zhí)行與操作動(dòng)作對(duì)應(yīng)的操作,從而實(shí)現(xiàn)了利用視覺(jué)信息和語(yǔ)音信息綜合性的判斷目標(biāo)用戶的操作意圖和操作對(duì)象,將僅利用語(yǔ)音控制,轉(zhuǎn)換為基于視覺(jué)信息和語(yǔ)音相結(jié)合的操作,從而能夠方便目標(biāo)用戶以更簡(jiǎn)潔的語(yǔ)言并結(jié)合視覺(jué)信息,更好的判斷目標(biāo)用戶的操作意圖,提升操作的便捷性和準(zhǔn)確性。
9、一種可選的實(shí)施方式中,確定所述顯示屏幕中的注意力區(qū)域之前,所述方法還包括:
10、若所述注意力位置位于所述顯示屏幕上,則判斷所述語(yǔ)音信息用于指示執(zhí)行與所述顯示屏幕顯示的內(nèi)容關(guān)聯(lián)的操作。一種可選的實(shí)施方式中,
11、一種可選的實(shí)施方式中,所述根據(jù)所述視覺(jué)信息,確定目標(biāo)用戶的注意力位置,包括:
12、根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶是否作出指示所述顯示屏幕的行為;
13、在所述目標(biāo)用戶作出指示所述顯示屏幕行為的情況下,根據(jù)所述行為的指示方向,從所述顯示屏幕中確定所述目標(biāo)用戶的注意力位置。
14、一種可選的實(shí)施方式中,所述根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶是否作出指示所述顯示屏幕的行為,包括:
15、根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶的動(dòng)作信息;
16、根據(jù)所述動(dòng)作信息,確定所述目標(biāo)用戶的動(dòng)作是否是對(duì)所述顯示屏幕有指示動(dòng)作;
17、和/或,
18、根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶的姿態(tài)信息;
19、根據(jù)所述姿態(tài)信息,確定所述目標(biāo)用戶的姿態(tài)是否指示所述目標(biāo)用戶對(duì)所述顯示屏幕有指示動(dòng)作。
20、一種可選的實(shí)施方式中,
21、所述基于所述語(yǔ)音信息中指示的操作動(dòng)作,對(duì)所述目標(biāo)操作對(duì)象執(zhí)行與所述操作動(dòng)作對(duì)應(yīng)的操作,包括:
22、基于所述目標(biāo)用戶的權(quán)限信息,確定所述目標(biāo)用戶對(duì)所述目標(biāo)操作對(duì)象是否存在控制權(quán)限;其中,所述目標(biāo)用戶對(duì)應(yīng)的權(quán)限信息,基于所述目標(biāo)用戶乘坐的座椅位置、和/或所述目標(biāo)車輛的車輛狀態(tài)確定;
23、若是,則對(duì)所述目標(biāo)操作對(duì)象執(zhí)行與所述操作動(dòng)作對(duì)應(yīng)的操作。
24、一種可選的實(shí)施方式中,所述根據(jù)所述注意力位置,確定所述顯示屏幕中的注意力區(qū)域,包括:
25、根據(jù)所述注意力位置,從所述顯示屏幕中確定和所述注意力位置關(guān)聯(lián)的顯示內(nèi)容;
26、根據(jù)所述顯示內(nèi)容在所述顯示屏幕中的顯示位置,確定所述注意力區(qū)域。
27、一種可選的實(shí)施方式中,
28、所述根據(jù)識(shí)別結(jié)果從所述注意力區(qū)域中確定與所述語(yǔ)音信息關(guān)聯(lián)的目標(biāo)操作對(duì)象,包括:
29、生成所述注意力區(qū)域?qū)?yīng)的第一特征數(shù)據(jù),并生成所述語(yǔ)音信息中所攜帶語(yǔ)義的第二特征數(shù)據(jù);
30、對(duì)所述第一特征數(shù)據(jù)和所述第二特征數(shù)據(jù)進(jìn)行拼接處理,得到拼接特征數(shù)據(jù),并將所述拼接特征數(shù)據(jù)輸入注意力編碼模型,通過(guò)所述注意力編碼模型對(duì)所述拼接特征數(shù)據(jù)編碼處理,輸出目標(biāo)特征數(shù)據(jù);
31、基于所述目標(biāo)特征數(shù)據(jù),確定所述目標(biāo)用戶的操作動(dòng)作、以及與所述操作動(dòng)作對(duì)應(yīng)的目標(biāo)操作對(duì)象;所述操作對(duì)象屬于所述注意力區(qū)域。
32、第二方面,本公開(kāi)實(shí)施例提供一種車載設(shè)備,執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中的步驟。
33、第三方面,本公開(kāi)實(shí)施例提供一種車輛,包括如第二方面所述車載設(shè)備。
34、第四方面,本公開(kāi)可選實(shí)現(xiàn)方式還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被計(jì)算機(jī)設(shè)備或處理器運(yùn)行時(shí),執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中的步驟。
35、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,而非限制本公開(kāi)的技術(shù)方案。
36、為使本公開(kāi)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。
1.一種交互控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述顯示屏幕中的注意力區(qū)域之前,所述方法還包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶的注意力位置,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述視覺(jué)信息,確定所述目標(biāo)用戶是否作出指示所述顯示屏幕的行為,包括:
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述基于所述語(yǔ)音信息中指示的操作動(dòng)作,對(duì)所述目標(biāo)操作對(duì)象執(zhí)行與所述操作動(dòng)作對(duì)應(yīng)的操作,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述注意力位置,確定所述顯示屏幕中的注意力區(qū)域,包括:
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述根據(jù)識(shí)別結(jié)果從所述注意力區(qū)域中確定與所述語(yǔ)音信息關(guān)聯(lián)的目標(biāo)操作對(duì)象,包括:
8.一種車載設(shè)備,其特征在于,執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的交互控制方法。
9.一種車輛,其特征在于,包括:包括如權(quán)利要求8所述的車載設(shè)備。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被計(jì)算機(jī)設(shè)備或處理器運(yùn)行時(shí),執(zhí)行如權(quán)利要求1至7任意一項(xiàng)所述的交互控制方法的步驟。