基于在线附加Q学习的伺服电机速度最优跟踪控制方法
发布时间:2019-05-26 20:14:35   来源:自考网在工业应用场景中,跟踪控制问题无处不在,如化工生产中的温度控制、浓度控制,伺服系统中的速度控制、位置控制等。提高跟踪控制器的控制性能有利于工业系统朝着精密化、节能化的方向发展。为研究如何实现最优跟踪控制,学界提出了线性二次型跟踪器(Linear Quadratic Tracker, LQT)问题。
该问题的目标是设计一个控制器,使得在该控制器作用下系统输出在某个线性二次型指标下性能最优。传统的LQT解法包含两个步骤:首先求解代数黎卡提方程(Algebraic Riccati Equation, ARE)得到一个反馈项,然后求解一个非因果的微分方程得到一个前馈项[1]。该解法一般需要离线进行,且需要知道被控系统的动态模型。
为了扩大LQT的应用范围,使其在系统动态模型未知的情况下也能得到最优控制输出,人们尝试将自适应动态规划(Adaptive Dynamic Programming,ADP)的思想(文献[2]中也称其为强化学习(Reinforcement Learning, RL))应用到LQT问题中。
Q学习算法是ADP方法中较为流行的一种,已有大量研究将其用在了线性二次型调节器(Linear Quadratic Regulator, LQR)问题的求解上。该算法属于一种策略迭代(Policy Iteration)式的算法,它的应用不需要知道被控系统的动态模型。
然而,相比于LQR问题,LQT问题中前馈项的计算带来了额外的复杂度,因此Q学习在LQT问题中还未能得到大量的应用。文献中已有的应用案例也往往附带了某些前提条件,如要求系统动态模型已知等[5]。文献[4]提出了一种将Q学习应用于离散线性系统最优跟踪控制的方法,并给出了理论上的收敛性证明。该算法可在线运行,并且将系统模型的辨识包含在了策略迭代的过程中,因此不需要知道系统的动态模型即可达到线性二次型指标下的最优控制。
值得指出的是,目前基于ADP思想的控制方法具有对噪声干扰敏感、收敛性差、运行工况受限、运算量大的缺点,这些都限制了它们在实际控制器中的应用。在实际应用中,一般被控系统都已经预先拥有可用的控制器,只是该控制器的控制性能需要得到改善。
为充分发挥ADP控制方法的自适应性与原控制器的稳定性,赋予原控制器在线学习的能力,近年来有学者提出将基于ADP思想的控制器作为附加控制器与原控制器并联使用,取得了一定的效果。
在电力系统控制领域,文献[6]将附加学习控制用于含大规模风电的电力系统中传统火电机组的附加频率控制,文献[7]将附加学习控制用于双馈风电场的暂态无功控制。在电力电子领域,文献[8]将附加学习控制用于并联型有源电力滤波器的控制,文献[9,10]将附加学习控制用于虚拟同步机的控制。在以上文献的仿真验证中,附加学习控制均带来了一定的控制性能提升。
速度控制是交流电机伺服系统中的一个重要问题,传统上多采用PID控制。在电机运行过程中,转动惯量、转矩环时间常数等参数均容易发生一定的变化,影响速度环的控制性能。因此在要求高精度的场合中,传统的PID控制无法满足需要,往往需要对速度控制器做自适应设计。
常见的自适应设计方法有非线性PI控制、自适应控制、自抗扰控制、模糊系统、滑模控制等。其中非线性PI控制包括PI参数自整定、变结构PI控制等。部分PI参数自整定的研究用到了ADP思想,即通过某种逼近结构(如神经网络)对系统进行建模,再根据某种代价函数动态地调整Kp、Ki,一般用于控制难以建模的电机(如开关磁阻电机)。虽然对于速度环的改进方向已经很丰富,然而目前将Q学习与附加学习相结合用于电机速度控制的研究还非常之少。
本文在文献[4]所提的用于跟踪控制的Q学习方法的基础上,结合附加控制的思想,提出了用于跟踪控制的在线附加Q学习方法。首先在LQT问题的框架下对待求解问题进行了定义;然后针对性地给出了在线附加Q学习迭代式地进行策略评价、策略改善的具体算法。
为验证所提算法的有效性,选取伺服系统中电机速度跟踪这一实际问题进行仿真。首先为被控系统设计了传统的PI控制器,然后将本文所提出的附加控制器与其并联组成新的控制器,最后通过仿真对不同参数设置下的控制效果进行了分析。
图1 附加Q学习最优跟踪控制器结构示意图
图2 附加控制下电机速度环结构框图
上一篇
下一篇
推荐文章
-
自考生课外阅读什么类型的书好
2024-02-29  阅读:624 -
今日自考,祝愿所有考生考试顺利!
2021-10-16  阅读:702 -
自考机构招生乱象横生
2021-10-10  阅读:800 -
江苏自考机电大专专业考试科目是什么
2020-04-28  阅读:748
自考网版权所有 2024 粤ICP备16065536号