【宅家学习】中国科学院自动化研究所魏庆来 | 您所在的位置:网站首页 › 最优性原理和最优性定理的关系 › 【宅家学习】中国科学院自动化研究所魏庆来 |
(2) 1961年,Bellman提出在求解动态最优化问题时需要利用逆向归纳法基于状态变量的每一个值进行计算,当状态变量的数量很多的时候,需要计算的频次是幂次增加的。然而在向量计算的问题中,随着维数的增加,计算量会呈指数倍增长,即维数灾难(Curse of Dimensionality)问题。 1977年,美国学者Paul J. Werbos首次提出了自适应动态规划(Adaptive/Approximate Dynamic Programming, ADP),又叫近似动态规划,是人工智能和控制领域发展而交汇形成的新兴学科。ADP是一种新的非线性优化方法,该方法融合了强化学习和动态规划的思想,模拟人通过环境反馈进行学习的思路,被认为是一种非常接近人脑智能的方法。该方法有效地解决了动态规划"维数灾"的难题。因此,ADP是一种适合于解决复杂非线性系统优化控制的新方法。同年,Prokhorov和Wunsch讨论了启发式动态规划(Heuristic Dynamic Programming, HDP),双启发式动态规划(Dual Heuristic Programming, DHP)和全局双启发式动态规划(Globalized Dual heuristic Programming, GDHP)的设计,并提出了ADP的实现方法与训练步骤。 ADP是利用函数近似结构,来逼近动态规划方程中的性能指标函数和控制策略,使之满足最优性原理,进而时间向前(Forward-in-time)获得最优控制和最优性能指标函数。ADP一般包括三个部分:动态系统(dynamic system)、评价执行函数(critic performance index function)环节、执行/控制(action/control)环节,每个环节均可由神经网络来代替。其中动态系统(或称为被控对象)对应于建立的模型,执行/控制环节用来近似最优控制策略,评价执行函数环节是基于Bellman最优性原理进行参数更新,评价网络和执行网络的组合成了一个智能体。执行/控制作用于动态系统,评价执行函数由动态系统产生奖励或是惩罚作用来影响。执行/控制环节输出控制动作,评价执行函数的输出是基于贝尔曼最优性原理的代价函数值,即以输出代价函数值最小为目标调整执行/控制环节使其输出动作近似最优。自适应动态规划原理图如图1所示。 图1 自适应动态规划原理图 二 迭代自适应动态规划理论 2.1迭代自适应动态规划基本思想 若要解出传统Bellman方程(3)中的,可以考虑一个代数方程,用迭代法求解这个方程。如果上面的迭代是收敛的,则从任意初始值开始。 (3) 2.2迭代自适应动态规划分类 迭代自适应动态规划分为两类:值迭代自适应动态规划方法(Value iterative adaptive dynamic programming)和策略迭代自适应动态规划方法(Policy iterative adaptive dynamic programming)。 值迭代自适应规划,每一个当前状态s,对每个可能的动作a都计算一次采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大,就将这个最大的期望价值函数作为当前状态的价值函数,循环执行该步骤,直到价值函数收敛。选择初始值迭代函数。定理1:对于,求解控制率公式(4),同时更新值函数(5)。迭代过程如图2所示。2008年,Frank Lewis和他的合作者证明了值迭代学习的收敛性和单调性(单调非增有上界)(Al-Tamimi, A., Lewis, F. L., & Abu-Khalaf, M. (2008). Discrete-time nonlinear HJB solution using approximate dynamic programming: Convergence proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) , 38 (4), 943-949.)。 (4) (5) 图2 值迭代过程 策略迭代自适应动态规划初始于一个给定的容许控制率,对于,可通过如下两式进行迭代。构建性能指标函数满足GHJB方程(6),获得迭代控制(7)。2014年,我和刘德荣教授证明了策略迭代学习的稳定性、收敛性和单调性(单调非增有下界)(Liu, D., & Wei, Q. (2014). Policy iteration adaptive dynamic programming algorithm for discrete-time nonlinear systems. IEEE Transactions on Neural Networks and Learning Systems , 25 (3), 621-634.)。 (6) (7) 三 自适应动态规划进展 3.1广义值迭代自适应动态规划 对于i=0,设初始性能指标函数,初始迭代控制率公式(8),性能指标函数计算为公式(9)。 (8) (9) 对于i=1,2…,广义迭代ADP算法在公式(10)和公式(11)两者之间进行迭代. (10) (11) 对收敛性进行分析,定理2:假设猜想1-4成立,对于i=0,1,…,令和以(8)—(11)表示。若定理成立,则迭代性能指标函数收敛于最优性能指标函数,如公式(12)。 (12) 并得到以下两个推论: 对稳定性进行分析如下 定理3:对于,当不等式(15)成立,则在迭代控制律下,非线性系统(1)的状态一致渐近有界(UUB)稳定,其中i=0,1,…。 如何获得渐近稳定的控制律?定理4和定理5给出两种方法。 如果是稳定的,那么还是稳定的嘛?定理6和定理7给出两种方法。 考虑如下的扭摆系统,仿真结果如图3、图4、图5、图6、图7所示。 图3 值迭代函数对比 图4 误差函数对比 图5 状态函数对比 图6 控制函数对比 图7 结果对比 3.2广义策略迭代自适应动态规划 针对如下离散时间非线性系统,广义策略迭代自适应动态理论如下: 广义策略迭代自适应动态规划推导过程如下: 广义策略迭代与值迭代与策略迭代之间的关系如图8所示。 图8 广义策略迭代与值迭代与策略迭代之间的关系 广义策略迭代自适应动态规划有如下两个定理: 下面给出一个仿真应用,仿真结果如图9、图10、图11所示。 图9 性能指标函数对比 图10 状态策略函数 图11 控制策略函数 四 自适应动态规划应用 4.1工业生产优化控制 新奥集团60万吨煤制甲醇生产过程优化,图12为煤制甲醇生产过程(气化车间)。图13为煤气化过程流程图。图14为气化炉控制系统接口界面 图12 煤制甲醇生产过程(气化车间) 图13 煤气化过程流程图 图14 气化炉控制系统接口界面 问题描述:针对煤气化过程构建问题模型,控制目标是将气化炉炉温控制在额定的温度。 基于数据的建模和属性 系统转换 迭代ADP算法 神经网络构建,如图15所示。 图15 迭代ADP算法神经网络模型的构建 4.2智能微电网优化控制 智能住宅能源系统由电网、住宅负荷、电池系统(包括电池和正弦波逆变器)、电源管理单元(控制器)组成。智能住宅及其能源系统如图16、17所示。 图16 智能住宅 图17 智慧住宅能源系统 智能住宅能源系统的储电池有三种运作模式:1)充电模式:当住宅负荷较低且电价低廉时,电网直接向住宅负荷供电,同时对电池进行充电;2)空闲模式:在电池电量保持固定的情况下,电网在一定时间内直接向居民负荷供电;3)放点模式:电池在住宅负荷高、电费昂贵的时段供应住宅负荷。 问题描述: 控制电池的目标是最小化电网的总成本,使电池的储存能量接近储存极限的中间值,充分避免电池的充电/放电,定义电池的性能指标函数为公式(3)。 对偶相互作用Q学习的推导如下: 作者简介 魏庆来,中国科学院自动化研究所研究员,博士生导师,复杂系统管理与控制国家重点实验室副主任,中国自动化学会理事,获得国家自然科学基金优秀青年基金。主要从事人工智能、自学习控制,平行控制,自适应动态规划,智能控制,最优控制及其工业应用研究工作。目前发表/录用论文120余篇,SCI论文73篇,出版专著4部,撰写图书章节2章。入选2018年全球高被引科学家。获得IEEE Transactions on Neural Networks and Learning Systems Outstanding Paper Award,IEEE System, Man, and Cybernetics Society, Andrew P. Sage Best Transactions Paper Award,中国自动化学会青年科学家奖,亚太神经网络学会青年学者奖,2015年张嗣瀛优秀青年论文奖等10余项奖励。共担任11本期刊编委包括6本IEEE期刊编委,主要包括IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Cognitive and Developmental Systems, IEEE Transactions on Systems, Man, and Cybernetics: Systems, 《自动化学报》,《控制工程》等。担任IEEE CIS Beijing Chapter, Secretary。在ICONIP 2018,ISNN2017,ICONIP 2017,WCICA 2016,WCCI2014等14项国际相关领域学术会议上担任重要职务,现任中国科学院大学岗位教授,讲述《最优控制》《智能自学习系统优化与决策》课程。 来源:学会秘书处返回搜狐,查看更多 |
CopyRight 2018-2019 实验室设备网 版权所有 |