本發(fā)明涉及一種機械學習裝置、電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法,特別涉及學習與機械指令對應的濾波器的機械學習裝置、具備機械學習裝置的電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法。
背景技術:
在電動機控制裝置中,有時在檢測向電動機的電流的電路、反饋電動機的位置的電路中使用模擬信號。如果在這些模擬信號中施加有噪聲,則會對系統(tǒng)整體的精度產(chǎn)生影響。因此,對模擬信號加入濾波器而進行檢測,由此除去噪聲,使得不對系統(tǒng)整體的精度產(chǎn)生影響(例如日本特開2012-062044號公報。以下,稱為“專利文獻1”)。
在專利文獻1中公開了一種通信控制系統(tǒng),其應用于安裝了成為噪聲源的各種設備的車輛,選擇該車輛相關的無線通信的通信方法,在該通信控制系統(tǒng)中,具備:檢測單元,其檢測成為噪聲源的各種設備的動作狀態(tài);推定單元,其根據(jù)通過檢測單元檢測出的各種設備的動作狀態(tài),推定該動作狀態(tài)所特有的電磁噪聲特性;選擇單元,其與通過推定單元推定出的電磁噪聲特性對應地選擇通信方法。通過這樣的結(jié)構(gòu),通過選擇適合于成為噪聲源的各種設備的動作狀態(tài)、例如車輛所安裝的電動機的旋轉(zhuǎn)狀態(tài)的通信方法,能夠適合地實施通信。
對模擬信號施加的濾波器越大,則越能夠除去噪聲。但是,如果過于增大濾波器,則會降低響應性,損失即時性。另外,根據(jù)系統(tǒng)/機械的狀態(tài),噪聲的大小、成分變化,因此最佳的濾波器并不是固定的,將濾波器設為固定并不一定是最佳的。
技術實現(xiàn)要素:
本發(fā)明的目的在于:提供一種機械學習裝置、具備機械學習裝置的電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法,其能夠通過機械學習而在系統(tǒng)/機械的運轉(zhuǎn)狀態(tài)下設定去除外部噪聲的最佳的濾波器,能夠不降低響應性地除去外部噪聲。
本發(fā)明的一個實施例的機械學習裝置是學習與對模擬的輸入信號進行濾波的濾波器部關聯(lián)的條件的機械學習裝置,其中,具備:狀態(tài)觀測部,其觀測由濾波器部的輸出信號的噪聲分量、噪聲量和對輸入信號的響應性構(gòu)成的狀態(tài)變量;學習部,其依照由狀態(tài)變量構(gòu)成的訓練數(shù)據(jù)集,學習與濾波器部關聯(lián)的條件。
本發(fā)明的一個實施例的電動機驅(qū)動裝置具備上述機械學習裝置。
本發(fā)明的一個實施例的電動機驅(qū)動系統(tǒng)具備:上述電動機驅(qū)動裝置;機械指令部,其通知機械的動作信息。
本發(fā)明的一個實施例的機械學習方法是學習與對模擬的輸入信號進行濾波的濾波器部關聯(lián)的條件的機械學習方法,其中,包括以下步驟:觀測由濾波器部的輸出信號的噪聲分量、噪聲量和對輸入信號的響應性構(gòu)成的狀態(tài)變量;依照由狀態(tài)變量構(gòu)成的訓練數(shù)據(jù)集,學習與濾波器部關聯(lián)的條件。
附圖說明
根據(jù)與附圖關聯(lián)的以下的實施方式的說明,能夠進一步了解本發(fā)明的目的、特征以及優(yōu)點。
圖1是本發(fā)明的實施例的機械學習裝置的結(jié)構(gòu)圖。
圖2是本發(fā)明的實施例的電動機驅(qū)動系統(tǒng)的結(jié)構(gòu)圖。
圖3是用于說明本發(fā)明的實施例的機械學習裝置的動作步驟的流程圖。
圖4是用于說明本發(fā)明的實施例的電動機驅(qū)動系統(tǒng)的動作步驟的流程圖。
具體實施方式
以下,參照附圖,說明本發(fā)明的機械學習裝置、電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法。
圖1是本發(fā)明的實施例的機械學習裝置的結(jié)構(gòu)圖。圖2是本發(fā)明的實施例的電動機驅(qū)動系統(tǒng)的結(jié)構(gòu)圖。
本發(fā)明的實施例的機械學習裝置1是學習與對模擬的輸入信號進行濾波的濾波器部關聯(lián)的條件的機械學習裝置1,具備狀態(tài)觀測部2、學習部3。
狀態(tài)觀測部2觀測由濾波器部7(參照圖2)的輸出信號的噪聲分量、噪聲量和對輸入信號的響應性構(gòu)成的狀態(tài)變量。
學習部3依照由狀態(tài)變量構(gòu)成的訓練數(shù)據(jù)集,學習與濾波器部7關聯(lián)的條件。
狀態(tài)觀測部2觀測來自機械指令部9的機械運轉(zhuǎn)狀態(tài)的信息。學習部3根據(jù)機械運轉(zhuǎn)狀態(tài)的信息,更新訓練數(shù)據(jù)集。
在圖2所示的電動機驅(qū)動系統(tǒng)的結(jié)構(gòu)圖中示出只具備一個濾波器部7的例子。但是,并不限于這樣的例子,也可以具備多個濾波器部。進而,學習部3也可以構(gòu)成為依照對多個濾波器部取得的訓練數(shù)據(jù)集而學習條件。
優(yōu)選還具備:意圖決定部4,其根據(jù)學習部3依照訓練數(shù)據(jù)集學習的結(jié)果,對當前的狀態(tài)變量的輸入進行響應,根據(jù)訓練數(shù)據(jù)集更新濾波器。
理想的是機械學習裝置1具備回報計算部5、函數(shù)更新部6。回報計算部5根據(jù)噪聲分量、噪聲量以及響應性計算回報。函數(shù)更新部6根據(jù)回報,更新用于從當前的狀態(tài)變量變更濾波器部的函數(shù)。
回報計算部5在噪聲量增加、或響應性為規(guī)定值以下的情況下減少回報,在噪聲量減少、并且響應性為規(guī)定值以上的情況下增加回報。
理想的是函數(shù)更新部6使用所謂的Q學習來進行強化學習。Q學習是在某環(huán)境“s”下學習選擇行為“a”的價值(行為的價值)Q(s,a)的方法。在某狀態(tài)“s”時,選擇Q(s,a)最高的行為“a”作為最佳行為。函數(shù)更新部6使用下述的式(1)更新函數(shù)(行為價值函數(shù)Q(st,at))。
在此,Q(st,at)是行為價值函數(shù),st是時刻t的狀態(tài)(環(huán)境),at是時刻t的行為,α是學習系數(shù),rt+1是回報,γ是折扣率。行為價值函數(shù)表示回報的期待值。附加了max的項是將在環(huán)境st+1下選擇了Q值最高的行為“a”的情況下的Q值乘以γ所得的結(jié)果。
如果為了簡化,將學習系數(shù)和折扣率設為1,則表示為下述的式(2)。
該更新式表示如果行為“a”引起的下一環(huán)境狀態(tài)下的最佳行為的評價值Q(st+1,max at+1)比環(huán)境“s”下的行為“a”的評價值Q(st,at)大,則增大Q(st,at),相反,如果比環(huán)境“s”下的行為“a”的評價值Q(st,at)小,則減小Q(st,at)。即,使某狀態(tài)下的某行為的價值接近其引起的下一狀態(tài)下的最佳行為的價值。
如圖2所示,濾波器部7的狀態(tài)包括因行為而間接地變化的狀態(tài)、因行為而直接地變化的狀態(tài)。因行為而間接地變化的狀態(tài)包含濾波后的噪聲分量、噪聲量以及響應性。因行為而直接變化的狀態(tài)包含濾波器。
學習部3構(gòu)成為依照由當前的狀態(tài)變量構(gòu)成的追加的訓練數(shù)據(jù)集,再學習條件并進行更新。
也可以經(jīng)由網(wǎng)絡將機械學習裝置1與濾波器部7連接。狀態(tài)觀測部2也可以構(gòu)成為經(jīng)由網(wǎng)絡取得當前的狀態(tài)變量。
接著,說明本發(fā)明的實施例的電動機驅(qū)動裝置。本發(fā)明的實施例的電動機驅(qū)動裝置8具備:上述機械學習裝置1;濾波器部7,其包括作為可變?yōu)V波器的可變?yōu)V波器部、以及變更可變?yōu)V波器部的濾波器的濾波器變更部。
理想的是機械學習裝置1存在于云服務器中。
電動機驅(qū)動系統(tǒng)具備電動機驅(qū)動裝置8、機械指令部9、機械10以及模擬的輸入信號11。機械指令部9不僅向電動機驅(qū)動裝置8和機械10提供指令,還向電動機驅(qū)動裝置8發(fā)送指令中的與噪聲關聯(lián)的條件。模擬的輸入信號11是反饋信號,從電動機驅(qū)動裝置8和機械10施加噪聲。
接著,說明本發(fā)明的實施例的機械學習方法。本發(fā)明的實施例的機械學習方法,學習與對模擬的輸入信號進行濾波的濾波器部關聯(lián)的條件,其中,包括以下步驟:觀測由濾波器部的輸出信號的噪聲分量、噪聲量和對輸入信號的響應性構(gòu)成的狀態(tài)變量;依照由狀態(tài)變量構(gòu)成的訓練數(shù)據(jù)集,學習與濾波器部關聯(lián)的條件。
在圖3中表示用于說明本發(fā)明的實施例的機械學習裝置的動作步驟的流程圖。首先,在步驟S101中,觀測由濾波器部7的輸出信號的噪聲分量、噪聲量、以及對輸入信號的響應性構(gòu)成的狀態(tài)變量。
接著,在步驟S102中,依照由狀態(tài)變量構(gòu)成的訓練數(shù)據(jù)集,學習與濾波器部7關聯(lián)的條件。
接著,說明使用了本發(fā)明的實施例的電動機驅(qū)動裝置的機械學習方法。在圖4中表示用于說明本發(fā)明的實施例的電動機驅(qū)動裝置的動作步驟的流程圖。首先,在步驟S201中,開始學習。
接著,在步驟S202中,從機械指令部9得到與噪聲相關的狀態(tài)的信息。
接著,在步驟S203中,根據(jù)行為價值表選擇濾波器的大小、濾波器的截止頻率。然后,在步驟S208中,更新行為價值表。
接著,在步驟S204中,判斷噪聲的絕對值與上次學習相比是否下降了。在噪聲的絕對值與上次學習相比沒有下降的情況下,在步驟S206中減少回報。
另一方面,在噪聲的絕對值與上次學習相比下降了的情況下,在步驟S205中進行響應性的評價。
在響應性不到規(guī)定值的情況下,在步驟S206中減少回報。然后,在步驟S208中,更新行為價值表。
另一方面,在響應性為規(guī)定值以上的情況下,在步驟S207中增加回報。然后,在步驟S208中,更新行為價值表。
通過根據(jù)行為價值表,以行為價值的分數(shù)大的項目為優(yōu)先地決定變更濾波器的項目,來進行步驟S208中的行為價值表的更新。然后,根據(jù)所決定的項目變更濾波器,返回到步驟S202,使得與濾波器的噪聲分量、噪聲量、響應性有關的行為價值變得最佳。
如以上說明的那樣,根據(jù)本發(fā)明的實施例的機械學習裝置、具備機械學習裝置的電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法,能夠通過機械學習,在系統(tǒng)/機械的運轉(zhuǎn)狀態(tài)下,設定除去外部噪聲的最佳的濾波器。
根據(jù)本發(fā)明,能夠提供一種機械學習裝置、具備機械學習裝置的電動機驅(qū)動裝置、電動機驅(qū)動系統(tǒng)以及機械學習方法,其能夠通過機械學習,在系統(tǒng)/機械的運轉(zhuǎn)狀態(tài)下,設定除去外部噪聲的最佳的濾波器,能夠不降低響應性地除去外部噪聲。