本發(fā)明涉及車輛控制領域,特別是涉及一種用于車輛自動駕駛的速度規(guī)劃方法、裝置及計算裝置。
背景技術:
隨著車輛技術的發(fā)展,車輛自動駕駛成為熱點研究領域。速度規(guī)劃和控制是自動駕駛中的一個重要研究內(nèi)容,其基本目標是根據(jù)檢測到的狀態(tài)(如當前車速、前車的車速、與前車的距離)規(guī)劃出一系列后續(xù)時間點車的預期車速,并計算出車的最終控制參數(shù)(如油門和剎車)對車進行實際的控制操作。速度規(guī)劃在保證乘客的基本舒適和安全的同時,需要保證在其它車輛有非預期的行為(如突然剎車)時能保證乘客絕對的安全。
為了處理各種可能出現(xiàn)的情況,需要設計較復雜的速度規(guī)劃和控制模型。在人工設計和實現(xiàn)中,很容易漏掉某些少見的情況和因素。同時,從駕駛員駕駛的汽車上可以采集很豐富的成熟的駕駛數(shù)據(jù)。由于機器學習方法可以很方便的從數(shù)據(jù)中學習模型,機器學習方法越來越多地應用到速度規(guī)劃和控制。另外,在現(xiàn)實世界中,每個駕駛員都有不同的駕駛習慣和對安全舒適程度的界定,因此如果使用同一種規(guī)劃和控制方法很難滿足各種不同的需求,而機器學習方法可以很好的適配這種個性化駕駛習慣需求。
技術實現(xiàn)要素:
本發(fā)明的發(fā)明人通過長期研究,認識到應用機器學習對車輛進行速度規(guī)劃存在一些問題。
首先,通過機器學習方法學習到的模型的效果和訓練數(shù)據(jù)直接相關。由于駕駛員通常都是在一個很舒適的范圍內(nèi)駕駛,收集到的訓練數(shù)據(jù)很難覆蓋到所有可能出現(xiàn)的場景(如車速極快而據(jù)前車距離很短等極端場景),雖然泛化等技術可以一定程度上解決這個問題,但不能完全解決這個問題。另外,收集到的駕駛員的行為不一定完全滿足舒適安全的需求,如有些駕駛員并不能保證和前車的距離,因此當前車突然剎車時,駕駛車輛很難保證不碰上前車的情況下完全剎車。顯然,用這種數(shù)據(jù)訓練出來的模型同樣也不能處理這種情況。
機器學習存在的另一個問題是很難對其訓練出來的模型做局部微調(diào)。在應用于自動駕駛的速度規(guī)劃和控制中,通常需要針對某種特殊情況對模型進行局部調(diào)整。而對機器學習得到的模型,對學習到的每個參數(shù)的調(diào)整,都可能帶來全局的不易控制的影響。通過添加更多的訓練用例也可以修正模型,但是這種方法周期比較長,并且最后訓練出來的模型也不能完全預知。
本發(fā)明的目的在于克服現(xiàn)有技術中的缺點與不足,提出一種全新的用于車輛自動駕駛的速度規(guī)劃方法、裝置及計算裝置。
根據(jù)本發(fā)明的一個方面,提供一種用于車輛自動駕駛的速度規(guī)劃方法,具體包括:
首先為機器學習步驟,采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值;
其次為分區(qū)決策表取得步驟,對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表;
再次為實時決策步驟,實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果。
進一步地,速度規(guī)劃方法還可以包括實時控制步驟,基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
進一步地,在實時控制中,在發(fā)現(xiàn)確定分區(qū)的決策結果不符合預期時,可以對該分區(qū)的分區(qū)決策結果進行調(diào)整。
進一步地,對該分區(qū)的分區(qū)決策結果進行調(diào)整,可以依經(jīng)驗對該分區(qū)的分區(qū)決策結果進行調(diào)整,也可以通過機器學習方法對該分區(qū)進行學習,調(diào)整該分區(qū)的分區(qū)決策結果。
進一步地,各維特征分量可以包括當前車速、和前車的距離、前車相對速度和最大車速。
進一步地,在機器學習步驟之前,需要對特征空間進行離散化編碼。
進一步地,根據(jù)本發(fā)明實施例的速度規(guī)劃方法,離散化編碼方法優(yōu)選為tilingcoding,其中用只有一個tiling的tilingcoding對每個特征分量進行編碼,并且將每個特征分量所處的維度劃分成優(yōu)選的7-13個區(qū)間,從而對所述輸入空間進行分區(qū)。
進一步地,在分區(qū)決策表取得步驟中,首先需要計算采用離散化編碼方法得到的離散化編碼結果的空間大小,當所述空間大于確定閾值時,采用動態(tài)存儲方法存儲分區(qū)決策表,僅遍歷訓練空間的輸入,存儲相應決策模型的輸出結果,同時除了分區(qū)決策表,還存儲訓練出的決策模型備用;當所述空間小于所述確定閾值時,采用靜態(tài)存儲方法存儲分區(qū)決策表,遍歷所有編碼空間,存儲決策模型的輸出結果。
進一步地,在實時決策步驟中,首先采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,然后將獲得的離散化編碼結果作為分區(qū)決策表的索引,當分區(qū)決策表為采用靜態(tài)存儲方法存儲時,直接獲取分區(qū)決策表中已存儲的決策結果;
進一步地,在實時決策步驟中,首先采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,然后將獲得的離散化編碼結果作為分區(qū)決策表的索引,當分區(qū)決策表為采用動態(tài)存儲方法存儲時,如果分區(qū)決策表內(nèi)存儲有該離散化編碼結果的決策結果,則直接從分區(qū)決策表中獲取決策結果;反之如果分區(qū)決策表內(nèi)沒有存儲該離散化編碼結果的決策結果,則調(diào)用所述存儲的決策模型來得到?jīng)Q策結果,并將得到的決策結果加入到分區(qū)決策表。
進一步地,機器學習的方法可以采用監(jiān)督式學習方法或非監(jiān)督式學習方法,也可以采用增強式學習方法。
進一步地,對特征空間進行離散化編碼時,只要兩個輸入最終的離散編碼相同,即認為這兩個輸入屬于同一個分區(qū)。
進一步地,離散化編碼方法可以包括各類coarsecoding方法,如tilecoding。
進一步地,在實時控制中,在對該分區(qū)的分區(qū)決策結果進行調(diào)整后需要確定被調(diào)整過分區(qū)決策結果的分區(qū)的數(shù)目,當所述分區(qū)的數(shù)目超過預定閾值時,應當重新執(zhí)行所述機器學習步驟和分區(qū)決策表取得步驟。
根據(jù)本發(fā)明的另一個方面,提供一種用于車輛自動駕駛的速度規(guī)劃裝置,該裝置包括機器學習單元、分區(qū)決策表取得單元、實時決策單元??蛇x地,速度規(guī)劃裝置還可以包括實時控制單元。
其中,機器學習單元配置為采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值。
其中,分區(qū)決策表取得單元配置為對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表。
其中,實時決策單元配置為實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果。
其中,實時控制單元配置為基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
進一步地,其中的實時控制單元還配置為在實時控制中,在發(fā)現(xiàn)確定分區(qū)的決策結果不符合預期時,對該分區(qū)的分區(qū)決策結果進行調(diào)整。
進一步地,其中的分區(qū)決策表取得單元還配置為對該分區(qū)的分區(qū)決策內(nèi)容進行調(diào)整,可以依經(jīng)驗對該分區(qū)的分區(qū)決策內(nèi)容進行調(diào)整,也可以通過機器學習方法對該分區(qū)進行學習,調(diào)整該分區(qū)的分區(qū)決策結果。
進一步地,其中實時決策單元還配置為各維特征分量包括當前車速、和前車的距離、前車相對速度和最大車速。
進一步地,本發(fā)明的車輛自動駕駛的速度規(guī)劃裝置還包括離散化編碼單元,配置為對訓練樣本和所述實時決策階段的輸入特征量進行離散化編碼。
進一步地,根據(jù)本發(fā)明實施例的速度規(guī)劃裝置,離散化編碼單元采用的離散化編碼方法為tilingcoding,其中用只有一個tiling的tilingcoding對每個特征分量進行編碼,并且將每個特征分量所處的維度劃分成7-13個區(qū)間,從而對所述輸入空間進行分區(qū)。
進一步地,分區(qū)決策表取得單元配置為計算采用離散化編碼方法得到的離散化編碼結果的空間大小,當所述空間大于確定閾值時,采用動態(tài)存儲方法存儲分區(qū)決策表,僅遍歷訓練空間的輸入,存儲相應決策模型的輸出結果,同時還存儲訓練出的決策模型備用;當所述空間小于所述確定閾值時,采用靜態(tài)存儲方法存儲分區(qū)決策表,遍歷所有編碼空間,存儲決策模型的輸出結果。
進一步地,實時決策單元配置為采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,將獲得的離散化編碼結果作為分區(qū)決策表的索引,當分區(qū)決策表為采用靜態(tài)存儲方法存儲時,直接獲取分區(qū)決策表中已存儲的決策結果。
進一步地,實時決策單元配置為采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,將獲得的離散化編碼結果作為分區(qū)決策表的索引,當分區(qū)決策表為采用動態(tài)存儲方法存儲時,如果分區(qū)決策表內(nèi)存儲有該離散化編碼結果的決策結果,則直接從分區(qū)決策表中獲取決策結果;反之如果分區(qū)決策表內(nèi)沒有存儲該離散化編碼結果的決策結果,則調(diào)用所述存儲的決策模型來得到?jīng)Q策結果,并將得到的決策結果加入到分區(qū)決策表。
進一步地,機器學習的方法可以為監(jiān)督式學習方法或非監(jiān)督式學習方法,也可以為增強式學習方法。
進一步地,分區(qū)決策表取得單元配置為只要兩個輸入最終的離散編碼相同,即認為這兩個輸入屬于同一個分區(qū)。
進一步地,離散化編碼方法選自可以包括各類coarsecoding方法,如tilecoding。
進一步地,反饋單元配置為確定被調(diào)整過分區(qū)決策結果的分區(qū)的數(shù)目,當所述分區(qū)的數(shù)目超過預定閾值時,引發(fā)所述機器學習單元和分區(qū)決策表取得單元重新進行機器學習操作和分區(qū)決策表取得操作。
根據(jù)本發(fā)明的另一個方面,提供一種用于車輛自動駕駛的速度規(guī)劃的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:機器學習步驟,采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值;分區(qū)決策表取得步驟,對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表;實時決策步驟,實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果;以及實時控制步驟,基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
本發(fā)明采用分區(qū)決策表技術提供的速度規(guī)劃方法、裝置及計算裝置適用于車輛自動駕駛技術,很好的解決了不能對機器學習訓練出的模型做局部調(diào)整的問題,可以很容易修改某個分區(qū)的決策,而完全不影響其它分區(qū)的決策結果,從而完成局部調(diào)整。同時,分區(qū)決策表的直觀特性可以很好的幫助發(fā)現(xiàn)和解決機器學習過程中存在的問題。分區(qū)決策表可以加速決策過程,查分區(qū)決策表可以獲得更快的決策速度。
附圖說明
從下面結合附圖對本發(fā)明實施例的詳細描述中,本發(fā)明的這些和/或其它方面和優(yōu)點將變得更加清楚并更容易理解,其中:
圖1是根據(jù)本發(fā)明一個實施例的用于車輛自動駕駛的速度規(guī)劃方法的總體流程圖;
圖2示意性地示出了機器學習訓練和應用的操作過程和輸入、輸出的示例性示意圖;
圖3示出了在應用機器學習方法之前,進行離散化編碼處理的機器學習訓練和應用的操作過程和輸入、輸出的示例性示意圖;
圖4示出了coarsecoding類別中的tilecoding離散化編碼方法。
圖5示出了根據(jù)本發(fā)明一個實施例的、在采用離散化編碼情況下的整個決策分區(qū)表的建立和優(yōu)化過程。
圖6示出了根據(jù)本發(fā)明一個實施例的實時決策步驟的實現(xiàn)方法的流程圖。
圖7示出了根據(jù)本發(fā)明實施例的含有實時控制步驟的速度規(guī)劃控制方法的700的流程圖。
圖8示出了根據(jù)本發(fā)明實施例的用于車輛自動駕駛的速度規(guī)劃裝置800的結構框圖。
具體實施方式
為了使本領域技術人員更好地理解本發(fā)明,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細說明。
在進行詳細說明之前,首先介紹一下本發(fā)明的總體思想,以便于本領域技術人員把握本發(fā)明。
如前所述,發(fā)明人經(jīng)實現(xiàn)和分析發(fā)現(xiàn),利用機器學習具有嚴重依賴于訓練數(shù)據(jù),由于訓練數(shù)據(jù)的局限性使得訓練出來的模型不能處理一些實際突發(fā)情況等問題,以及還具有難于做局部微調(diào),整體調(diào)整周期長且效果難以預知的問題。為此,發(fā)明人提出了本發(fā)明,將機器學習模型的訓練和應用分別處理:在訓練時,我們按照通用的機器學習方法來進行訓練;在應用這些訓練出來的模型之前,將輸入空間按分成多個分區(qū),并且將模型中決策結果存入到不同分區(qū),從而形成一個按分區(qū)組織的決策表,由此,應用模型的決策過程轉(zhuǎn)化為一個查分區(qū)決策表的過程。這樣,可以很容易修改某個分區(qū)的決策,而完全不影響其它分區(qū)的決策結果,從而完成局部調(diào)整。同時,分區(qū)決策表的直觀特性可以很好的幫助發(fā)現(xiàn)和解決機器學習過程中存在的問題。分區(qū)決策表可以加速決策過程,查分區(qū)決策表可以獲得更快的決策速度。對于實時性要求較高的自動駕駛速度規(guī)劃來說,易于調(diào)整局部策略和具有迅捷的決策速度是非常重要的。
下面結合圖1描述根據(jù)本發(fā)明實施例的車輛自動駕駛方法示例。圖1示出了本發(fā)明一個實施例的用于車輛自動駕駛的速度規(guī)劃方法的總體流程圖。
在步驟s110中,執(zhí)行機器學習步驟,采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值。在步驟s110完成后,前進到步驟s120。
在步驟s120中,執(zhí)行分區(qū)決策表取得步驟,對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表。
在步驟s130中,進行實時決策,實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果。
根據(jù)本發(fā)明實施例,將機器學習模型的訓練和應用分別處理。在訓練時按照通用的事先收集的訓練用例訓練模型,具體的機器學習方法可以是需要標注數(shù)據(jù)的監(jiān)督式學習,也可以是不需要標注數(shù)據(jù)的非監(jiān)督式學習,也可以是增強學習等。和傳統(tǒng)方法不同的是,在應用這些訓練出來的模型之前,將輸入空間按訓練時的離散化編碼方法劃分成多個分區(qū),并且將模型中決策結果存入到不同分區(qū),從而形成一個按分區(qū)組織的決策表。因此,采用本發(fā)明實施例的車輛自動駕駛的速度規(guī)劃方法,就是將應用模型的決策過程轉(zhuǎn)化為一個查分區(qū)決策表的過程。
為便于理解,圖2示意性地示出了機器學習訓練和應用的操作過程和輸入、輸出的示例性示意圖。
在圖2所示,針對輸入的各個訓練用例(訓練樣本)210,進行機器學習220,得到?jīng)Q策模型230,對輸入空間分區(qū)240,結合分區(qū)和決策模型,得到分區(qū)決策表250。
在利用分區(qū)決策表進行決策時,對于到來的輸入270,首先對其進行分區(qū)240,在確定所屬分區(qū)后,到分區(qū)決策表250中查詢獲得對應的決策結果。作為進行分區(qū)的例子,對于連續(xù)維度的分區(qū),例如可以基于車輛控制專家的經(jīng)驗知識來進行分區(qū)。
在一個示例中,在應用機器學習方法前,采用某種編碼方式對輸入空間進行離散化處理提取特征后再進行處理,這些離散化編碼方法很自然的將連續(xù)輸入空間劃分成多個分區(qū)。這里的分區(qū)不限定是同一維度數(shù)據(jù)連續(xù)空間的分區(qū),只要其最終的編碼相同,即可以認為兩個樣本屬于同一分區(qū);換句話說這里的分區(qū)并不一定是按原空間連續(xù)劃分的,而是按照離散編碼的結果劃分。圖3示出了在應用機器學習方法之前,進行離散化編碼處理的機器學習訓練和應用的操作過程和輸入、輸出的示例性示意圖,其中任何輸入,不管是訓練示例,還是應用示例,都要先進行離散化編碼處理380。
圖4示出了示出了粗編碼(coarsecoding)類別中的tilecoding離散化編碼方法。在圖4所示的二維輸入空間中,三個不同位置的tiling將整個空間劃分為不同的小區(qū)域,這些小區(qū)域即可作為分區(qū)。
作為輸入空間的示例,可以由當前車速、和前車的距離、前車相對速度和最大車速四個維度構成。需要說明的是,這里的前車是一個寬泛的概念,并不局限于車輛。當前面沒有任何物體時,可以虛擬出一輛前車,并設置虛擬前車的距離和相對速度。最大車速是由各種條件限制(如道路限制、天氣條線限制)下的最高行駛速度。因此,自動駕駛領域中的速度規(guī)劃和控制的編碼空間通常不大,因此比較適合進行分區(qū)。
發(fā)明人實踐得到的一個優(yōu)選例子為:用只有一個tiling的tilingcoding對每個輸入維度進行編碼,將每個輸入維度劃分成10個左右分區(qū)即可很好的滿足自動駕駛的速度決策需求。比如對于最大車速,我們可以以10公里每小時的分區(qū)大小對其進行分區(qū),結合現(xiàn)實情況,將其劃分成[0,10,20,30,40,50,60,70,80,90,100,110,120]共12個分區(qū)。此時的分區(qū)數(shù)為104左右。對計算機而言,這樣大小的分區(qū)表非常容易存儲和處理。在某些極端情況下(如輸入維度很多或離散化編碼輸出空間很大),最后出來的編碼空間可能超出計算機的存儲空間。此時,基于來自現(xiàn)實世界的真實輸入非常稀疏,可以采用哈希表或其它節(jié)省存儲空間的方法來動態(tài)存儲和處理分區(qū)決策表。
下面參考圖5描述根據(jù)本發(fā)明一個實施例的、在采用離散化編碼情況下的整個決策分區(qū)表的建立和優(yōu)化過程示例,該過程可以用于執(zhí)行圖1所示的步驟s120。需要說明的是,圖5中的閾值可以根據(jù)機器的存儲空間設定。需要說明的是,此僅為示例,并非在機器學習訓練之前,必須要對訓練樣本進行離散化編碼,
如圖5所示,在步驟s510中,計算機器學習方法采用離散化編碼結果的空間大小。
在步驟s520中,判斷空間大小是否大于某個閾值。
當步驟s520中判斷結果為否時,前進到步驟s530,靜態(tài)存儲分區(qū)決策表:遍歷所有編碼空間,存儲決策模型的輸出結果;反之,當判斷結果為是時,前進到步驟s540,用哈?;蚱渌鼊討B(tài)存儲方法存儲分區(qū)決策表:僅遍歷訓練空間的輸入,存儲相應決策模型的輸出結果;接下來前進到步驟s550,除了分區(qū)決策表,還存儲訓練出的決策模型備用。需要說明的是,當需要動態(tài)存儲分區(qū)決策表時,為了降低后續(xù)動態(tài)應用時動態(tài)建表的開銷,可以選擇提前添加訓練集對應的表項,也可以選擇添加其它輸入集對應的表項,或者不添加任何表項,等后續(xù)需要時再動態(tài)添加。此時,由于后面需要動態(tài)插入決策表項,除了初始分區(qū)決策表以外,也需要保存機器學習得到的決策模型,如步驟s550所示。
下面參考附圖6描述根據(jù)本發(fā)明一個實施例的實時決策步驟s130的實現(xiàn)方法的操作過程示例,這里,假設采用離散化編碼方法對輸入進行處理,而且分區(qū)決策表是通過圖5所示的方法構建和存儲的。
如圖6所示,在步驟s610中,應用離散編碼方法對輸入進行編碼。這里的輸入可以為車輛自動駕駛過程中實時獲得的當前車速、和前車的距離、前車相對速度和最大車速。不過此僅為示例,輸入的維度和具體特征量可以根據(jù)速度規(guī)劃方法的不同而不同。
在步驟s620中,將獲得的離散化結果作為分區(qū)塊的索引,查詢分區(qū)決策表。
在分區(qū)決策表為采用靜態(tài)存儲方法存儲的或者雖為采用動態(tài)存儲方法存儲的但是分區(qū)決策表內(nèi)存儲有該離散化編碼結果的決策結果時,能夠直接從分區(qū)決策表中獲取決策結果;反之當分區(qū)決策表為采用動態(tài)存儲方法存儲且分區(qū)決策表內(nèi)沒有存儲該離散化編碼結果的決策結果時,則不能直接從分區(qū)決策表中獲得決策結果。
在步驟s630中,判斷是否得到?jīng)Q策結果。如果答案為“是”,則前進到步驟s650,返回決策結果。反之,答案為“否”,則前進到步驟s640,調(diào)用所述存儲的決策模型來得到?jīng)Q策結果,并將得到的決策結果加入到分區(qū)決策表,然后前進到步驟s650。
需要說明的是,圖6是在進行了離散編碼而且先前視情況采用了靜態(tài)存儲或動態(tài)存儲情況下的決策過程示例。不過這僅為示例,而不是作為本發(fā)明的限制,在不進行離散編碼的情況下,利用分區(qū)決策表進行決策的過程可以不同,例如,此時可以直接根據(jù)輸入來確定其所屬分區(qū),然后查詢分區(qū)決策表,獲得決策結果;在沒有通過查詢分區(qū)決策表得到?jīng)Q策結果的情況下,在存儲了決策模型的情況下,可以調(diào)用存儲的決策模型來得到?jīng)Q策結果,或者也可以直接給出反饋表明此時無法給出決策結果等等。
根據(jù)本發(fā)明實施例的速度規(guī)劃方法,當發(fā)現(xiàn)確定分區(qū)的決策結果不符合預期時,能夠迅速對該分區(qū)的分區(qū)決策結果進行調(diào)整。不需要修改訓練用例集或調(diào)整訓練參數(shù)重新訓練,也不需要調(diào)整訓練出來的模型的參數(shù),而只需要修改分區(qū)決策表上相應分區(qū)的決策結果,從而保證所做的調(diào)整只局限于這個分區(qū),而不會影響其它分區(qū)上的決策結果。
針對分區(qū)決策結果進行調(diào)整的具體方法可以是依經(jīng)驗對該分區(qū)的分區(qū)決策結果進行調(diào)整,也可以通過機器學習方法對該分區(qū)進行學習。比如,當發(fā)現(xiàn)在當前車速是10公里每小時、和前車的距離是200米、前車相對速度是5公里每小時、最大車速是30公里每小時的時候速度控制不正常時,即可以參考某個有經(jīng)驗的駕駛員在這種情況下的反應,將其轉(zhuǎn)換成相應的決策結果,存儲到該輸入所屬區(qū)間對應的決策表項?;蛘咭部梢允占芏囫{駛員在駕駛時的數(shù)據(jù),將所有和該輸入空間相應的決策結果收集起來,通過歸納或者簡單的機器學習方法得到一個期望的決策結果。
在一個示例中,在獲得決策結果后,執(zhí)行實時控制步驟,基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。圖7示出了根據(jù)本發(fā)明實施例的含有實時控制步驟的速度規(guī)劃控制方法的700的流程圖,圖7中的步驟s710-s730與圖1所示的步驟s110-s130類似,不同在于多了實時控制步驟s740,即基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
需要說明的是,這里根據(jù)速度規(guī)劃決策結果,執(zhí)行實時控制,并不是排他式的控制,而是可以結合自動駕駛的其他控制策略(例如轉(zhuǎn)向控制等)來一起綜合對車輛進行控制。
根據(jù)本發(fā)明一個優(yōu)選實施例,當發(fā)現(xiàn)某些分區(qū)的決策結果不符合預期時,在對該分區(qū)的分區(qū)決策結果進行調(diào)整后可以確定被調(diào)整過分區(qū)決策結果的分區(qū)的數(shù)目,當所述分區(qū)的數(shù)目超過預定閾值時,則重新執(zhí)行整體訓練步驟,重新機器學習,然后得到新的決策模型,再次進行分區(qū),即可以基于這些反饋結果來重新執(zhí)行例如圖1所示的步驟s110至步驟s130,即機器學習步驟和分區(qū)決策表取得步驟,在重新進行機器學習時,可以基于應用決策結果的反饋來嘗試通過修改訓練參數(shù)、添加相應的訓練用例等方法來得到更好的機器學習。
根據(jù)本發(fā)明的另一實施例,還提供了一種用于車輛自動駕駛的速度規(guī)劃裝置。下面將結合圖8進行說明,速度規(guī)劃裝置包括以下單元:機器學習單元810、分區(qū)決策表取得單元820和實時決策單元830??蛇x地,還可以包括實時控制單元830。
機器學習單元810配置為采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值。
分區(qū)決策表取得單820配置為對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表。
實時決策單元830配置為實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果。
實時控制單元840配置為基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
在一個示例中,速度規(guī)劃裝置還可以包括局部分區(qū)決策調(diào)整單元,配置為當發(fā)現(xiàn)確定分區(qū)的決策結果不符合預期時,對該分區(qū)的分區(qū)決策結果進行調(diào)整。
局部分區(qū)決策調(diào)整單元對該分區(qū)的分區(qū)決策內(nèi)容進行調(diào)整時,可以依經(jīng)驗對該分區(qū)的分區(qū)決策內(nèi)容進行調(diào)整,也可以通過機器學習方法對該分區(qū)進行學習,調(diào)整該分區(qū)的分區(qū)決策結果。
在一個示例中,速度規(guī)劃裝置還包括離散化編碼單元,配置為對訓練樣本和所述實時決策階段的輸入特征量進行離散化編碼。
因為最終的編碼空間通常不大,比如在實現(xiàn)自動巡航系統(tǒng)時的速度規(guī)劃和控制中,輸入只有當前車速、和前車的距離、前車相對速度和最大車速四個維度。離散化編碼單元優(yōu)選采用的離散化編碼方法為tilingcoding,只有一個tiling的tilingcoding對每個輸入維度進行編碼,將每個輸入維度劃分成優(yōu)選的7-13個區(qū)間,這樣即可很好的滿足自動駕駛的速度決策需求。
因為在某些極端情況下(如輸入維度很多或離散化編碼輸出空間很大),最后出來的編碼空間可能超出計算機的存儲空間,所以分區(qū)決策表取得單元820還配置為計算采用離散化編碼方法得到的離散化編碼結果的空間大小。
當分區(qū)決策表取得單元820計算出采用離散化編碼方法得到的離散化編碼結果的空間大于所確定的閾值時,則決定選擇采用動態(tài)存儲方法存儲分區(qū)決策表,此時僅遍歷訓練空間的輸入,存儲相應決策模型的輸出結果,同時還存儲訓練出的決策模型備用。
相應的,本發(fā)明的實時決策單元830配置為先采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,再將獲得的離散化編碼結果作為分區(qū)決策表的索引,因為此時分區(qū)決策表為采用動態(tài)存儲方法存儲,如果分區(qū)決策表內(nèi)存儲有該離散化編碼結果的決策結果,則直接從分區(qū)決策表中獲取決策結果;反之如果分區(qū)決策表內(nèi)沒有存儲該離散化編碼結果的決策結果,則調(diào)用所述存儲的決策模型來得到?jīng)Q策結果,并將得到的決策結果加入到分區(qū)決策表。
當本發(fā)明的分區(qū)決策表取得單元820計算出采用離散化編碼方法得到的離散化編碼結果的空間小于所述確定閾值時,采用靜態(tài)存儲方法存儲分區(qū)決策表,遍歷所有編碼空間,存儲決策模型的輸出結果。
相應的,本發(fā)明的實時決策單元830配置為先采用所述離散化編碼方法對所述輸入特征量進行離散化編碼,再將獲得的離散化編碼結果作為分區(qū)決策表的索引,因為此時分區(qū)決策表為采用靜態(tài)存儲方法存儲,可以直接獲取分區(qū)決策表中已存儲的決策結果。
機器學習單元810配置為采用的機器學習的方法可以為監(jiān)督式學習方法或非監(jiān)督式學習方法,也可以為增強式學習方法。
分區(qū)決策表取得單元820配置為只要兩個輸入最終的離散編碼相同,即認為這兩個輸入屬于同一個分區(qū)。
作為離散化編碼單元配置為所采用的離散化編碼方法可以選自各類coarsecoding方法,如tilecoding。
在一個示例中,速度規(guī)劃裝置800還可以包括反饋單元,配置為當發(fā)現(xiàn)某些分區(qū)的決策結果不符合預期時,在對該分區(qū)的分區(qū)決策結果進行調(diào)整后需要確定被調(diào)整過分區(qū)決策結果的分區(qū)的數(shù)目,當所述分區(qū)的數(shù)目超過預定閾值時,引發(fā)所述機器學習單元810和分區(qū)決策表取得單元820重新進行機器學習操作和分區(qū)決策表取得操作。
本發(fā)明另一個實施例還提供了一種用于車輛自動駕駛的速度規(guī)劃的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:機器學習步驟,采用訓練樣本集進行機器學習,獲得機器學習模型,每個訓練樣本由形成輸入空間的多維特征分量和形成輸出空間的決策結果來描述,所述多維特征分量的每維是用于描述車輛特定時刻狀態(tài)的、與速度規(guī)劃有關的變量,所述決策結果指示下一時刻的預期速度和/或與速度控制相關的控制參數(shù)數(shù)值;分區(qū)決策表取得步驟,對于輸入空間進行分區(qū),以及基于所述獲得的機器學習模型,得到與確定分區(qū)對應的決策結果,形成各個分區(qū)對應于相應決策結果的分區(qū)決策表;實時決策步驟,實時獲得行駛中車輛的各維特征分量作為輸入特征量,確定該輸入特征量所屬于的輸入分區(qū),基于所確定的分區(qū),查詢分區(qū)決策表來獲得相應的決策結果。
可選地,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,還可以執(zhí)行下述步驟:實時控制步驟,基于所獲得的決策結果,對車輛發(fā)出控制命令,從而控制車輛的速度。
需要說明的是,本文中的車輛應該做廣義理解,包括各種大中小型車輛,也包括水上交通工具等。
需要說明的是,有關方法的各個步驟可以在車輛本地執(zhí)行,也可以在云端執(zhí)行,或者在本地和云端結合起來執(zhí)行,有關數(shù)據(jù)的存儲也可以存儲在本地,或者存儲在云端,或者在本地和云端結合起來存儲。
以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例上性的,并非窮盡性的,并且也不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍為準。