欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

駕駛方法及系統(tǒng)的制作方法_4

文檔序號:9389080閱讀:來源:國知局
+ar(t+2) +a2r(t+3) + …
[0155] 其中,R(t)表示未來無窮回報累加和,r(t+1)表示t+1時刻的增強信號,r(t+2) 表示t+2時刻的增強信號,r(t+3)表示t+3時刻的增強信號,a表示折算因子,參見上述公 式可知,對未來回報累加和影響最大的是t+1時刻的增強信號,t+2時刻、t+3時刻的增強信 號對未來回報累加和影響以指數(shù)形式衰減。
[0156] 示例地,避撞控制模塊分別計算決策動作ul(t)、u2(t)和u3(t)的未來無窮回報 累加和。
[0157] 需要說明的是,當(dāng)障礙物的位置為X(t)時,避撞控制模塊執(zhí)行X(t)對應(yīng)的任意一 個決策動作都會改變障礙物的位置,使得障礙物的位置變?yōu)閄(t+1),同時避撞控制模塊會 得到X(t+1)對應(yīng)的一個增強信號,當(dāng)障礙物的位置為X(t+1)時,避撞控制模塊執(zhí)行X(t+1) 對應(yīng)的任意一個決策動作都會改變障礙物的位置,使得障礙物的位置變?yōu)閄(t+2),同時避 撞控制模塊會得到X(t+2)對應(yīng)的一個增強信號,依次類推。示例地,假設(shè)避撞控制模塊執(zhí) 行X(t)對應(yīng)的決策動作ul(t),使得障礙物的位置變?yōu)閄(t+1),避撞控制模塊得到X(t+1) 對應(yīng)的一個增強信號為rl(t+1),避撞控制模塊執(zhí)行X(t+1)對應(yīng)的決策動作為ul(t+1),使 得障礙物的位置變?yōu)閄(t+2),避撞控制模塊得到X(t+2)對應(yīng)的一個增強信號為rl(t+2), 依次類推,則可以根據(jù)上述未來無窮回報累加和計算公式得到?jīng)Q策動作ul(t)對應(yīng)的未來 無窮回報累加和為Rl⑴=rl(t+l) +arl(t+2) +a2rl(t+3)+…
[0158] 在子步驟4043a中,將未來無窮回報累加和最大的決策動作作為目標(biāo)決策動作。
[0159] 避撞控制模塊計算得到目標(biāo)可執(zhí)行動作中的每個決策動作的未來無窮回報累加 和之后,可以從目標(biāo)可執(zhí)行動作中的所有決策動作的未來無窮回報累加和中確定出未來回 報累加和最大的決策動作,并將未來無窮回報累加和最大的決策動作作為目標(biāo)決策動作。 示例地,假設(shè)決策動作ul(t)的未來無窮回報累加和為Rl(t),決策動作u2(t)的未來無窮 回報累加和為R2(t),決策動作u3(t)的未來無窮回報累加和為R3(t),且Rl(t) >R2(t) >R3 (t),則避撞控制模塊將決策動作ul(t)作為目標(biāo)決策動作。
[0160] 需要說明的是,參見表1可知,對于任意時刻t的障礙物的位置X(t),都會有多種 不同的決策動作可供駕駛系統(tǒng)選擇。選擇不同的決策動作意味著下一個時刻t+1的障礙物 的位置x(t+l)和對應(yīng)的增強信號r(t+l)也會不同。雖然駕駛系統(tǒng)選擇決策動作的標(biāo)準(zhǔn)是 依據(jù)于增強信號帶來的回報,但這并不表示駕駛系統(tǒng)在t時刻要選擇能在下一時刻帶來最 大回報的決策動作。對于動態(tài)變化過程,最優(yōu)決策動作選擇的標(biāo)準(zhǔn)要依據(jù)于貝爾曼最優(yōu)化 原則,即,要考慮該決策動作之后,余下(未來)所有可能存在的狀態(tài)、可供選擇的動作和反 饋的增強信號都要是最優(yōu)的。
[0161] 還需要說明的是,在子步驟4041a之前,駕駛系統(tǒng)可以先通過機器學(xué)習(xí)算法得到 表1所示的障礙物的位置與可執(zhí)行動作的對應(yīng)關(guān)系。其中,學(xué)習(xí)的過程可以在計算機里進(jìn) 行,可以在計算機(比如,在計算機的Matlab軟件)里進(jìn)行模擬實驗,創(chuàng)建車輛行駛環(huán)境模 型,并設(shè)計多種插車情況,使車輛的駕駛系統(tǒng)能夠自主學(xué)習(xí)避撞策略。學(xué)習(xí)后的駕駛系統(tǒng)可 以儲存學(xué)習(xí)經(jīng)驗(如表1所示的對應(yīng)關(guān)系),之后將駕駛系統(tǒng)安裝到車輛上使用。
[0162]示例地,請參考圖8,其示出的是圖4所示實施例提供的一種通過機器學(xué)習(xí)算法確 定障礙物的位置與可執(zhí)行動作的對應(yīng)關(guān)系的示意圖。參見圖8,環(huán)境感知模塊可以獲取障礙 物的位置X(t),并將障礙物的位置X(t)發(fā)送至避撞控制模塊,避撞控制模塊可以根據(jù)障礙 物的位置X(t)做出決策動作u(t),該決策動作u(t)會改變車輛的位置,進(jìn)而使得障礙物的 位置變?yōu)閄(t+1),同時,環(huán)境感知模塊會反饋給避撞控制模塊一個增強信號r(t),該增強 信號r(t)表示執(zhí)行決策動作u(t)后的立即回報,通常,增強信號可以以數(shù)值方式存在,不 同的數(shù)值用以評價做出的決策動作的"好"、"壞",且增強信號的數(shù)值越大表明對應(yīng)的決策 動作越好,增強信號的數(shù)值越小表明對應(yīng)的決策動作越差。同樣,對于新的位置X(t+1),避 撞控制模塊會做出新的決策動作U(t+1),并從得到一個增強信號r(t+l)。依次類推下去, 即避撞控制模塊在每個時刻都會與環(huán)境感知模塊交互,通過環(huán)境感知模塊反饋的增強信號 的"好"、"壞",在線調(diào)節(jié)決策策略,以便在后續(xù)決策動作中獲得最大的回報,使得整個決策 過程趨于最優(yōu),最終,可以根據(jù)增強信號確定決策動作的好壞,得到表1所示的對應(yīng)關(guān)系。
[0163] 再示例地,請參考圖9,其示出的是圖4所示實施例提供的另一種根據(jù)障礙物的位 置,采用機器學(xué)習(xí)算法確定目標(biāo)決策動作的方法流程圖,參見圖9,該方法流程可以包括如 下幾個步驟:
[0164] 在子步驟4041b中,獲取駕駛員的決策動作。
[0165] 在本發(fā)明實施例中,在車輛的行駛環(huán)境中會發(fā)生由障礙物引發(fā)的突發(fā)事件時,駕 駛員可以人為做出決策動作,比如,駕駛員人為操作方向盤,油門,剎車等。避撞控制模塊可 以獲取駕駛員的決策動作,示例地,避撞控制模塊可以通過讀取油門,剎車,方向盤的操作 數(shù)據(jù),來獲取駕駛員的決策動作。
[0166] 在子步驟4042b中,獲取執(zhí)行駕駛員的決策動作之后障礙物的第一位置。
[0167] 駕駛員做出的決策動作會改變車輛的位置,進(jìn)而導(dǎo)致障礙物的位置發(fā)生改變,示 例地,執(zhí)行駕駛員的決策動作之后障礙物的位置可以變?yōu)榈谝晃恢?,因此,避撞控制模塊可 以獲取執(zhí)行駕駛員的決策動作之后障礙物的第一位置,假設(shè)障礙物的第一位置為X(t+1), 則避撞控制模塊可以獲取障礙物的第一位置X(t+1)。
[0168] 示例地,請參考圖10,其示出的是圖4所示實施例提供的避撞控制模塊獲取執(zhí)行 駕駛員的決策動作之后障礙物的第一位置的方法流程圖,參見圖10,在本發(fā)明實施例中, 避撞控制模塊獲取執(zhí)行駕駛員的決策動作之后障礙物的第一位置的可以包括如下幾個步 驟:
[0169] 在子步驟4042bl中,計算駕駛員的決策動作對應(yīng)的未來n個狀態(tài)的增強信號,得 到n個增強信號,n為大于或者等于1的整數(shù)。
[0170] 其中,未來n個狀態(tài)也即是障礙物的未來的n個位置。假設(shè)駕駛員的決策動作為 表1所示的決策動作u2 (t),則該決策動作u2 (t)可以改變障礙物的位置,使得障礙物的位 置從X(t)改變?yōu)閄(t+1),該障礙物的位置X(t+1)可以為駛員的決策動作u2(t)對應(yīng)的 未來n個狀態(tài)中的第一個狀態(tài),則避撞控制模塊計算障礙物的位置X(t+1)對應(yīng)的增強信 號,參見表1可知,障礙物的位置X(t+1)對應(yīng)的增強信號包括rl(t+1)、r2 (t+1)、r3 (t+1) 和r4(t+1)共4個增強信號,且每個增強信號對應(yīng)一個決策動作,因此,避撞控制模塊計算 每個決策動作對應(yīng)的未來n-1個狀態(tài)的增強信號。示例地,避撞控制模塊計算決策動作 ul(t+1)對應(yīng)的增強信號rl(t+1),并計算執(zhí)行決策動作ul(t+1)后障礙物的位置X(t+2), 假設(shè)該X(t+2)對應(yīng)的決策動作對應(yīng)的增強信號為rl(t+2),依次類推,避撞控制模塊可以 得到n個增強信號。
[0171] 在子步驟4042b2中,判斷n個增強信號中是否存在符合預(yù)設(shè)條件的增強信號。
[0172] 其中,在執(zhí)行符合預(yù)設(shè)條件的增強信號對應(yīng)的決策動作時,車輛與車輛的行駛環(huán) 境中的障礙物會發(fā)生碰撞。示例地,預(yù)設(shè)條件可以為增強信號小于或者等于-1,也即,避撞 控制模塊判斷n個增強信號中是否存在小于或者等于-1的增強信號。
[0173] 在子步驟4042b3中,若n個增強信號中存在符合預(yù)設(shè)條件的增強信號,則獲取執(zhí) 行駕駛員的決策動作之后障礙物的第一位置。
[0174] 若在步驟4042b2中,避撞控制模塊確定n個增強信號中存在符合預(yù)設(shè)條件的增強 信號,說明駕駛員的決策動作存在誤差,因此,可以由環(huán)境感知模塊獲取執(zhí)行駕駛員的決策 動作之后障礙物的第一位置,進(jìn)而由避撞控制模塊根據(jù)執(zhí)行駕駛員的決策動作之后障礙物 的第一位置對駕駛員的決策動作進(jìn)行修正。
[0175] 在子步驟4043b中,從經(jīng)驗存儲庫中確定與障礙物的第一位置對應(yīng)的目標(biāo)可執(zhí)行 動作。
[0176] 其中,經(jīng)驗存儲庫中記錄了預(yù)先通過機器學(xué)習(xí)算法確定的障礙物的位置與可執(zhí)行 動作的對應(yīng)關(guān)系,每個障礙物的位置對應(yīng)至少一個可執(zhí)行動作,每個可執(zhí)行動作包括決策 動作和與決策動作一一對應(yīng)的增強信號,增強信號用于指示與增強信號一一對應(yīng)的決策動 作在執(zhí)行時的立即回報。
[0177] 在子步驟4044b中,計算目標(biāo)可執(zhí)行動作中的每個決策動作的未來無窮回報累加 和。
[0178] 在子步驟4045b中,將未來無窮回報累加和最大的決策動作作為目標(biāo)決策動作。
[0179] 上述步驟4043b至步驟4045b的實現(xiàn)過程與圖7所示實施例中的步驟4041a至 步驟4043a相同或者類似,其實現(xiàn)過程可以參考圖7所示實施例中的步驟4041a至步驟 4043a,本發(fā)明實施例在此不再贅述。
[0180] 在步驟405中,根據(jù)目標(biāo)決策動作控制車輛行駛。
[0181] 避撞控制模塊確定目標(biāo)決策動作后,可以根據(jù)目標(biāo)決策動作控制車輛行駛。示例 地,避撞控制模塊根據(jù)目標(biāo)決策動作ul(t)控制車輛行駛。
[0182] 需要說
當(dāng)前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
西峡县| 阿勒泰市| 右玉县| 姜堰市| 崇左市| 新郑市| 赞皇县| 广河县| 禹州市| 郴州市| 水富县| 通辽市| 吉木乃县| 罗源县| 鸡东县| 崇州市| 宜春市| 怀化市| 海林市| 姚安县| 沙田区| 城固县| 中西区| 海安县| 阿瓦提县| 铜梁县| 多伦县| 营口市| 武乡县| 阿城市| 陆川县| 乌鲁木齐市| 金川县| 陇川县| 商丘市| 高陵县| 太湖县| 镇安县| 宝鸡市| 简阳市| 南陵县|