基于自适应动态规划的智能优化控制

出版社:科学出版社
出版日期:2013-2
ISBN:9787030364333
页数:216页

章节摘录

版权页：   插图：   最优控制与动态规划等运筹学领域的研究是促使强化学习理论形成的第二个主要的学科方向，该学科方向的研究为强化学习理论提供了数学基础。最优控制的思想最早由Bellman于20世纪50年代中期提出，其主要研究成果包括动态规划的最优性原理与Bellman方程、求解动态规划问题的基本算法等。其他的最优控制思想则是Hamilton与Jacobi理论的推广。在动态规划方法中采用了动态系统的状态与值函数（Value Function）的概念，并以Bellman方程为基础。针对不定期或无期Markov决策过程（MDP）的最优控制问题，也就是最优控制问题的随机离散版本，文献提出了值迭代算法（Value Iteration Algorithm）和策略迭代算法（Value Iteration Algorithm）等一系列算法和相关理论。上述研究成果虽然都针对具有完备信息的MDP最优控制问题，并没有涉及在信息不完备条件下的学习问题，但这些方法和思想成为进一步研究强化学习理论和方法的基础。 3.时序差分学习 时序差分学习（Temporal Difference Learning，TD学习）是促使强化学习理论形成的第三个学科方向。时序差分学习方法的特点是利用同一个事件或变量在连续两个时刻观测的差值来引导学习过程。时序差分学习的思想也部分来源于动物心理学的研究。在动物心理学中提出了“次要增强信号（Secondary Reinforce）”的概念，即伴随“主要增强信号（Primary Reinforce）”如食物、疼痛等直接满足个体需求的刺激信号，次要增强信号也能起到增强行为反射的作用。

书籍目录

前言 第1章动态规划 1.1动态规划的基本方法 1.1.1多级决策过程 1.1.2最优性原理 1.1.3动态规划的基本递推方程 1.2离散系统的动态规划 1.2.1离散最优问题的动态规划解 1.2.2动态规划的数值计算法 1.2.3离散系统动态规划的特点 1.3连续动态规划 1.3.1连续时间系统的最优控制问题 1.3.2哈密顿—雅可比—贝尔曼方程 1.3.3连续动态规划的基本方程 参考文献 第2章强化学习 2.1强化学习的基本概念 2.2强化学习的形成和发展 2.2.1强化学习的学科基础 2.2.2强化学习的形成阶段 2.2.3强化学习的发展阶段 2.3强化学习的主要算法 2.3.1蒙特卡罗算法 2.3.2时序差分算法 2.3.3自适应启发评价算法 2.3.4Q—学习算法 参考文献 第3章自适应动态规划 3.1自适应动态规划的研究概况 3.2大脑智能与优化 3.2.1神经系统 3.2.2大脑的分区功能与统一协调 3.2.3大脑是智能控制器 3.2.4大脑的渐进学习 3.2.5强化学习与最优化 3.2.6大脑优化的两个问题 3.2.7仿脑智能优化控制的实现 3.3自适应动态规划的基本原理 3.3.1自适应动态规划的基本思想 3.3.2动态规划的前向、后向算法 3.3.3自适应动态规划迭代算法 3.3.4函数近似结构 3.3.5自适应动态规划的优点 3.4自适应动态规划的基本结构与分类 3.4.1启发式动态规划 3.4.2双启发式动态规划 3.4.3执行依赖启发式动态规划 3.4.4执行依赖双启发式动态规划 3.5自适应动态规划的发展趋势 3.5.1三代大脑智能ADP模型 3.5.2自适应动态规划的研究动态 参考文献 第4章基于BP网络的自适应动态规划算法及实现 4.1基于BP网络的HDP算法及实现 4.1.1HDP的结构和基本原理 4.1.2模型网络 4.1.3评价网络 4.1.4执行网络 4.1.5相关参数的选择 4.2基于BP网络的DHP算法及实现 4.2.1DHP的结构和基本原理 4.2.2模型网络 4.2.3评价网络 4.2.4执行网络 4.3基于BP网络的ADHDP算法及实现 4.3.1ADHDP结构和基本原理 4.3.2评价网络 4.3.3执行网络 参考文献 第5章自适应动态规划的应用 5.1水泥预分解窑系统的HDP控制 5.1.1水泥预分解窑系统 5.1.2水泥预分解窑的神经网络建模 5.1.3水泥预分解窑HDP算法 5.1.4HDP训练策略及控制系统仿真 5.1.5小结 5.2糖厂澄清过程pH值的DHP控制 5.2.1糖厂澄清过程工艺流程 5.2.2制糖澄清过程系统建模 5.2.3制糖澄清过程DHP算法 5.2.4DHP算法控制清汁pH值 5.2.5小结 5.3同步发电机励磁系统的ADP控制 5.3.1同步发电机及其励磁系统 5.3.2基于ADHDP的励磁控制 5.3.3基于多目标ADHDP的励磁控制 5.4基于DHP方法的发电商竞价策略模型 5.4.1竞价策略研究 5.4.2发电商市场竞价策略模型 5.4.3仿真试验及分析 5.4.4小结 5.5ADHDP在高压直流输电整流控制中的应用 5.5.1高压直流输电系统 5.5.2ADHDP整流控制器设计 5.5.3整流侧定电流、逆变侧定电压控制模型仿真 5.5.4小结 5.6三容液位系统的ADHDP控制 5.6.1三容液位系统简介及其模型 5.6.2三容液位系统ADHDP控制器设计 5.6.3控制仿真及分析 5.6.4实时控制 5.6.5小结 参考文献

编辑推荐

《基于自适应动态规划的智能优化控制》在论述动态规划、强化学习的基本概念和基本理论的基础上，介绍了自适应动态规划的研究状况、发展趋势，可供从事智能控制、优化控制、计算智能、人工智能与智能信息处理的科技人员使用，也可供高等院校有关专业师生参考。

作者简介

《基于自适应动态规划的智能优化控制》内容理论性较强，紧密结合工程实际，全面阐述了基于自适应动态规划系统的设计和实现，包括自适应动态规划各种算法的详尽推导、实现步骤，训练过程等，并详细介绍了自适应动态规划在轻工、建材、电力行业应用的工程实例。

基于自适应动态规划的智能优化控制下载

发布书评

精彩短评 (总计1条)

RL--->control .ps:适合计算机背景的人学习使用控制的算法

基于自适应动态规划的智能优化控制

发布书评

精彩短评 (总计1条)

类似图书

相关图书推荐