本發(fā)明涉及車輛,特別是涉及一種語(yǔ)音系統(tǒng)的喚醒方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、當(dāng)前,車載中控設(shè)備所裝載的語(yǔ)音系統(tǒng),所采用的喚醒方式普遍是通過點(diǎn)觸語(yǔ)音喚醒控件進(jìn)行系統(tǒng)喚醒,或者是通過固定的語(yǔ)音喚醒詞進(jìn)行系統(tǒng)喚醒。
2、上述喚醒方法較為固定,降低了用戶對(duì)語(yǔ)音助手的使用體驗(yàn)感。并且,在車載設(shè)備處于嘈雜環(huán)境,例如車內(nèi)人員較多、車外降雨量較大等不利于語(yǔ)音識(shí)別的復(fù)雜駕駛環(huán)境中時(shí),通過固定的語(yǔ)音喚醒詞也容易產(chǎn)生漏喚醒的情況,從而降低了語(yǔ)音系統(tǒng)的喚醒精確度。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)當(dāng)前車載語(yǔ)音喚醒系統(tǒng)的喚醒方式固定,且在復(fù)雜多變的駕駛環(huán)境中,喚醒精確度低的技術(shù)問題,提出了本發(fā)明,以便提供一種克服上述問題或者至少部分地解決上述問題的語(yǔ)音系統(tǒng)的喚醒方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。
2、基于本發(fā)明的第一方面,提供了一種語(yǔ)音系統(tǒng)的喚醒方法,所述喚醒方法包括:
3、獲取目標(biāo)用戶的用戶駕駛信息,所述用戶駕駛信息至少包括行程信息、車內(nèi)用戶圖像和語(yǔ)音操作記錄;
4、對(duì)所述用戶駕駛信息進(jìn)行信息分析,確定出所述用戶駕駛信息所關(guān)聯(lián)的駕駛行為特征;
5、將所述駕駛行為特征輸入到預(yù)設(shè)的意圖檢測(cè)模型進(jìn)行意圖識(shí)別,得到意圖檢測(cè)結(jié)果;
6、在識(shí)別出所述意圖檢測(cè)結(jié)果為存在語(yǔ)音喚醒意圖的情況下,生成語(yǔ)音響應(yīng)指令,并下發(fā)至車載語(yǔ)音助手,以使所述車載語(yǔ)音助手進(jìn)入語(yǔ)音交互模式,以等待檢測(cè)功能指令。
7、一種可選的
技術(shù)實(shí)現(xiàn)要素:
,所述對(duì)所述用戶駕駛信息進(jìn)行信息分析,確定出所述用戶駕駛信息所關(guān)聯(lián)的駕駛行為特征,包括:
8、將所述行程信息輸入到行程分析模型中進(jìn)行行程識(shí)別,確定出所述目標(biāo)用戶當(dāng)前行程對(duì)應(yīng)的目的地特征;
9、將所述車內(nèi)用戶圖像輸入到動(dòng)作分析模型中進(jìn)行動(dòng)作識(shí)別,確定出所述目標(biāo)用戶的動(dòng)作特征;
10、將所述語(yǔ)音操作記錄輸入到記錄分析模型中進(jìn)行記錄識(shí)別,確定出所述目標(biāo)用戶的偏好喚醒特征;
11、將所述目的地特征、動(dòng)作特征以及偏好喚醒特征,作為所述目標(biāo)用戶當(dāng)前的駕駛行為特征。
12、一種可選的發(fā)明內(nèi)容,所述意圖檢測(cè)模型包括多特征融合網(wǎng)絡(luò)和分類網(wǎng)絡(luò);
13、所述將所述駕駛行為特征輸入到預(yù)設(shè)的意圖檢測(cè)模型進(jìn)行意圖識(shí)別,得到意圖檢測(cè)結(jié)果,包括:
14、將所述駕駛行為特征輸入到多特征融合網(wǎng)絡(luò)中,進(jìn)行特征融合,得到所述駕駛行為特征的聯(lián)合行為特征;
15、將所述聯(lián)合行為特征輸入到所述分類網(wǎng)絡(luò)中進(jìn)行分類,得到意圖檢測(cè)結(jié)果,其中,所述意圖檢測(cè)結(jié)果包括存在語(yǔ)音喚醒意圖和未存在語(yǔ)音喚醒意圖。
16、一種可選的發(fā)明內(nèi)容,所述方法還包括所述意圖檢測(cè)模型的第一訓(xùn)練步驟,所述第一訓(xùn)練步驟包括:
17、獲取目標(biāo)用戶的多條樣本駕駛行為特征;
18、將各所述樣本駕駛行為特征輸入到所述意圖檢測(cè)模型中進(jìn)行意圖識(shí)別,預(yù)測(cè)出意圖檢測(cè)結(jié)果;
19、依據(jù)各預(yù)測(cè)的所述意圖檢測(cè)結(jié)果,和各樣本駕駛行為特征對(duì)應(yīng)的真實(shí)意圖檢測(cè)結(jié)果之間的損失函數(shù)值,調(diào)整所述意圖檢測(cè)模型的模型參數(shù),并確定出訓(xùn)練完成的意圖檢測(cè)模型。
20、一種可選的發(fā)明內(nèi)容,所述將所述駕駛行為特征輸入到多特征融合網(wǎng)絡(luò)中,進(jìn)行特征融合,得到所述駕駛行為特征的聯(lián)合行為特征,包括:
21、通過所述多特征融合網(wǎng)絡(luò),對(duì)所述目的地特征、動(dòng)作特征以及偏好喚醒特征進(jìn)行拼接,得到所述駕駛行為特征的聯(lián)合行為特征。
22、一種可選的發(fā)明內(nèi)容,所述動(dòng)作分析模型包括目標(biāo)檢測(cè)網(wǎng)絡(luò)和目標(biāo)分類網(wǎng)絡(luò);
23、所述將所述車內(nèi)用戶圖像輸入到動(dòng)作分析模型中進(jìn)行動(dòng)作識(shí)別,確定出所述目標(biāo)用戶的動(dòng)作特征,包括:
24、將所述車內(nèi)用戶圖像輸入到所述目標(biāo)檢測(cè)網(wǎng)絡(luò)中進(jìn)行目標(biāo)識(shí)別,確定出所述目標(biāo)用戶的用戶動(dòng)作圖像,所述用戶動(dòng)作圖像至少包括以下其中一種:面部圖像和手部圖像;
25、將所述用戶動(dòng)作圖像輸入到所述目標(biāo)分類網(wǎng)絡(luò)中進(jìn)行分類識(shí)別,確定出所述目標(biāo)用戶的動(dòng)作特征。
26、一種可選的發(fā)明內(nèi)容,所述方法還包括所述目標(biāo)檢測(cè)網(wǎng)絡(luò)的第二訓(xùn)練步驟,所述第二訓(xùn)練步驟包括:
27、獲取用戶在進(jìn)行語(yǔ)音喚醒時(shí)的多張樣本用戶圖像,其中,所述樣本用戶圖像至少包括以下其中一項(xiàng):目標(biāo)用戶面部和目標(biāo)用戶手部;
28、將各所述樣本用戶圖像分別輸入到待訓(xùn)練的目標(biāo)檢測(cè)網(wǎng)絡(luò)中進(jìn)行目標(biāo)識(shí)別,預(yù)測(cè)出所述目標(biāo)用戶面部的第一坐標(biāo)信息,和/或,預(yù)測(cè)出所述目標(biāo)用戶手部的第二坐標(biāo)信息;
29、依據(jù)各所述第一坐標(biāo)信息與對(duì)應(yīng)樣本用戶圖像中的真實(shí)第一坐標(biāo)信息之間的損失函數(shù)值,和/或,依據(jù)所述第二坐標(biāo)信息與對(duì)應(yīng)樣本用戶圖像中的真實(shí)第二坐標(biāo)信息之間的損失函數(shù)值,調(diào)整所述目標(biāo)檢測(cè)網(wǎng)絡(luò)的模型參數(shù),并確定出訓(xùn)練完成的目標(biāo)檢測(cè)網(wǎng)絡(luò)。
30、一種可選的發(fā)明內(nèi)容,所述方法還包括所述目標(biāo)分類網(wǎng)絡(luò)的第三訓(xùn)練步驟,所述第三訓(xùn)練步驟包括:
31、獲取目標(biāo)用戶在進(jìn)行語(yǔ)音喚醒時(shí)的多張樣本用戶動(dòng)作圖像,其中,所述樣本用戶動(dòng)作圖像至少包括以下其中一種:面部圖像和手部圖像。所述樣本用戶動(dòng)作圖像可以是所述多張樣本用戶圖像,輸入到所述訓(xùn)練完成的目標(biāo)檢測(cè)網(wǎng)絡(luò)中進(jìn)行識(shí)別得到;
32、將各所述樣本用戶動(dòng)作圖像分別輸入到待訓(xùn)練的目標(biāo)分類網(wǎng)絡(luò)中進(jìn)行分類識(shí)別,預(yù)測(cè)出所述目標(biāo)用戶的面部動(dòng)作,和/或,預(yù)測(cè)出所述目標(biāo)用戶的手部動(dòng)作;
33、依據(jù)預(yù)測(cè)的各面部動(dòng)作與對(duì)應(yīng)樣本用戶動(dòng)作圖像中的真實(shí)面部動(dòng)作之間的損失函數(shù)值,和/或,依據(jù)預(yù)測(cè)的各手部動(dòng)作與對(duì)應(yīng)樣本用戶動(dòng)作圖像中的真實(shí)手部動(dòng)作之間的損失函數(shù)值,調(diào)整所述目標(biāo)分類網(wǎng)絡(luò)的模型參數(shù),并確定出訓(xùn)練完成的目標(biāo)分類網(wǎng)絡(luò)。
34、一種可選的發(fā)明內(nèi)容,所述方法還包括所述行程分析模型的第四訓(xùn)練步驟,所述第四訓(xùn)練步驟包括:
35、獲取行程樣本數(shù)據(jù),所述行程樣本數(shù)據(jù)包括多條目標(biāo)用戶的常用出行路線;
36、將所述常用出行路線輸入到待訓(xùn)練的行程分析模型中進(jìn)行行程識(shí)別,確定出所述目標(biāo)用戶當(dāng)前行程對(duì)應(yīng)的預(yù)測(cè)目的地;
37、依據(jù)所述預(yù)測(cè)目的地和常用出行路線中的真實(shí)目的地之間的損失函數(shù)值,調(diào)整所述行程分析模型的模型參數(shù),并確定出訓(xùn)練完成的行程分析模型。
38、一種可選的發(fā)明內(nèi)容,所述方法還包括所述記錄分析模型的第五訓(xùn)練步驟,所述第五訓(xùn)練步驟包括:
39、獲取目標(biāo)用戶的多條常用語(yǔ)音操作記錄;
40、將各所述常用語(yǔ)音操作記錄輸入到待訓(xùn)練的記錄分析模型中進(jìn)行記錄識(shí)別,預(yù)測(cè)出所述目標(biāo)用戶的常用功能指令;
41、依據(jù)預(yù)測(cè)的常用功能指令和真實(shí)的常用功能指令之間的損失函數(shù)值,調(diào)整所述記錄分析模型的模型參數(shù),并確定出訓(xùn)練完成的記錄分析模型。
42、一種可選的發(fā)明內(nèi)容,所述方法還包括:
43、在識(shí)別出所述意圖檢測(cè)結(jié)果為未存在語(yǔ)音喚醒意圖的情況下,重新獲取所述用戶駕駛信息。
44、基于本發(fā)明的第二方面,還提供了一種語(yǔ)音系統(tǒng)的喚醒裝置,所述喚醒裝置包括:
45、信息獲取模塊,用于獲取目標(biāo)用戶的用戶駕駛信息,所述用戶駕駛信息至少包括行程信息、車內(nèi)用戶圖像和語(yǔ)音操作記錄;
46、特征確定模塊,用于對(duì)所述用戶駕駛信息進(jìn)行信息分析,確定出所述用戶駕駛信息所關(guān)聯(lián)的駕駛行為特征;
47、意圖識(shí)別模塊,用于將所述駕駛行為特征輸入到預(yù)設(shè)的意圖檢測(cè)模型進(jìn)行意圖識(shí)別,得到意圖檢測(cè)結(jié)果;
48、響應(yīng)判斷模塊,用于在識(shí)別出所述意圖檢測(cè)結(jié)果為存在語(yǔ)音喚醒意圖的情況下,生成語(yǔ)音響應(yīng)指令,并下發(fā)至車載語(yǔ)音助手,以使所述車載語(yǔ)音助手進(jìn)入語(yǔ)音交互模式,以等待檢測(cè)功能指令。
49、基于本發(fā)明的第三方面,還提供了一種電子設(shè)備,包括:
50、一個(gè)或多個(gè)處理器;
51、存儲(chǔ)器;
52、一個(gè)或多個(gè)程序,其中所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述一個(gè)或多個(gè)程序配置用于執(zhí)行上述發(fā)明內(nèi)容中任一所述的方法。
53、基于本發(fā)明的第四方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)與電子設(shè)備結(jié)合使用的計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序可被處理器執(zhí)行以完成上述發(fā)明內(nèi)容中任一所述的方法。
54、基于本發(fā)明的第五方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述計(jì)算機(jī)程序/計(jì)算機(jī)可執(zhí)行指令,被電子設(shè)備中的處理器執(zhí)行時(shí)實(shí)現(xiàn)上述發(fā)明內(nèi)容任一項(xiàng)所述的方法。
55、與現(xiàn)有技術(shù)相比,本發(fā)明包括首先獲取目標(biāo)用戶的用戶駕駛信息,然后對(duì)所述用戶駕駛信息進(jìn)行信息分析,確定出所述用戶駕駛信息所關(guān)聯(lián)的駕駛行為特征。將所述駕駛行為特征輸入到預(yù)設(shè)的意圖檢測(cè)模型進(jìn)行意圖識(shí)別,得到意圖檢測(cè)結(jié)果。最后在識(shí)別出所述意圖檢測(cè)結(jié)果為存在語(yǔ)音喚醒意圖的情況下,生成語(yǔ)音響應(yīng)指令,并下發(fā)至車載語(yǔ)音助手,以使所述車載語(yǔ)音助手進(jìn)入語(yǔ)音交互模式,以等待檢測(cè)功能指令。從而可以依據(jù)多模態(tài)數(shù)據(jù)確定到的駕駛行為特征,預(yù)測(cè)目標(biāo)用戶存在語(yǔ)音喚醒意圖的情況下,使得車載語(yǔ)音助手直接進(jìn)入語(yǔ)音交互模式。由此,可以豐富了車載語(yǔ)音系統(tǒng)的喚醒方式,有助于提高用戶的使用體驗(yàn)感,并可以提高在噪音大的環(huán)境中的喚醒精確度。
56、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。