1.一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,在所述步驟1中,控制器輸出影響前饋的過程為逆擾動模型、逆擾動和外部擾動構成的復合擾動對系統(tǒng)輸出的影響為復合擾動模型,以被控模型、逆擾動模型和復合擾動模型作為子模型,構建所述前饋雙向關聯(lián)下的系統(tǒng)動力學模型。
3.根據權利要求2所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述前饋雙向關聯(lián)下的系統(tǒng)動力學模型的狀態(tài)空間模型形式的表達式如下:
4.根據權利要求2或3任一所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述步驟2中,包括以下子步驟:
5.根據權利要求4所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述步驟2.1中的所述誤差系統(tǒng)模型表達式如下:
6.根據權利要求2、3或5任一所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述步驟3中,包括以下子步驟:
7.根據權利要求6所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述步驟4中,包括以下子步驟:
8.根據權利要求7所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法,其特征在于,所述步驟4.2中獎勵函數r(t)為:
9.一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制系統(tǒng),其特征在于,包括存儲模塊,所述存儲模塊包括由處理器加載并執(zhí)行的指令,所述指令在被執(zhí)行時使所述處理器執(zhí)行根據權利要求1-8任一項所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制的各個步驟。
10.一種電子設備,其特征在于,包括根據權利要求9所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制系統(tǒng)。