• 1
  • 2
新闻详细
基于CMAC的ASE/ACE登高维修车强化学习系统   广州登高维修车出租
新闻分类:行业资讯   作者:admin    发布于:2017-04-124    文字:【】【】【


     基于CMAC的ASE/ACE登高维修车强化学习系统   广州登高维修车出租, 广州登高维修车租赁, 广州登高维修车价格   基于CAMC的ASE/ACE算法ACE对控制进行评判,按梯度下降法对ASE的权值进行更新,其输出用来调整ASE权值的学习速率,目的是使系统误差尽快降到最小。采用CMAC改进的ASE/ACE模型,其中关联搜索单元ASE采用大致CMAC学习结构,只不过删去模型参考部分,其中固定增益P为CMAC提供学习样本数据;学习的目的是通过不断地更新权值使Un逐步接近Uc,最终Un承担起主要的控制作用并接替固定增益控制器并改善其控制效果。这一过程为一个边学习边控制的过程。如前所述,ASE-CMAC与ACE-CMAC都有独立的译码器,学习过程和输出。 ACE-CMAC的工程过程分为:主要包括三个部分:解码、学习(权值更新)和输出。译码器对输入信号进行量化,量化的级数为N,泛化参数为C。假设输入信号ρ的范围为:ρmin,ρmax那么译码器自动生成N+C个量化间隔, ASE—CMAC学习速率,其中vk是固定的比例系数,故vη具有自适应调整能力,称之为ACE—CMAC产生的评价信号。该信号实时地调整ASE—CMAC的速率,而ASE—CMAC产生控制量。由上可见,ASE-CMAC和ACE-CMAC的结构相同,甚至量化级数和泛化参数都可取不相同或者相同的数值。当误差变得较大时,ACE-CMAC会输出较大的评价信号,以加快ASE-CMAC的学习过程中权值的变化;当误差较小,甚至为零时,评价信号最弱,CMAC的输出也几乎不变。基于CMAC的ASE/ACE算法的工作过程若ρ增加到ρΔ+(Δ为一个较小的正数),评价作用主要体现在第二部分:即当误差增大时,评价单元ACE的评价也增强;并且在增加策略单元ASE学习速率的同时(如第一部分),还产生了一个额外分量(第二部分)。指出对于单神经元自适应控制器,学习速率尽可能的取小,以保证系统的稳定(或学习策略的收敛性)。本文中当cvη取较小的数时,其增强作用则主要体现在第一部分,即通过迭代运算,迅速得到较大的svabsη。即学习速率取得较小的情况下,跟踪系统的快速性也不受到较大的影响。这可以通过后面的仿真得到验证。 学习速率的大小和控制误差的变化有关,自适应评判单元恰恰就是通过对控制误差,来逐步迭代形成策略单元的学习速率。下面通过仿真进一步验证该方案的有效性。基于CMAC的ASE/ACE算法的仿真研究考虑节的时变系统仿真模型,采用基于CMAC的ASE/ACE算法,对比分析DCMAC+P控制。通过仿真分析得出,基于CMAC的ASE/ACE算法快速性好,跟踪精度高;ACE/CMAC能根据控制误差通过迭代得到合适的控制评价,该控制评价影响策略单元的学习速率。本章的仿真针对与上一章相同的对象,即双伺服系统的协调控制。CMAC的编程在本实验中,会多次用到CMAC控制器,故以Matlab中以M函数的形式,编写一个CMAC函数,以备在实验中调用。取函数名字为:MULCMAC,输入参量为:参考量,误差量,时钟,带增益的误差,CMAC编号,学习速率。




     在三角波输入下系统的单周期控制误差的变化过程;由可以看出系统控制平稳,并逐步达到协调。三角波单周期控制误差以系统输出、控制误差、CMAC-ACE输出和CMAC-ASE输出来描述系统在三角波输入情况下的强化自学习过程。可以看出,当误差较大时,评价信号较强,当误差较小时,评价信号较弱。在秒左右,误差较大,策略单元产生较大的控制输出;当尽管在秒到秒之间,误差为零,但是策略单元已经通过学习过程,积累了控制经验。在积累的控制经验下,若误差为零,则评价信号不再进行评价。  通过对上述仿真结果的观察,可得出基于CMAC的ASE/ACE算法的控制有如下特点:系统有超调:从a上看,超调小,但是依然会出现超调,而且当策略单元分辨率较低时,这种超调还是比较大的。评价单元的学习速率对系统的快速性和超调影响不大,为确保稳定,可以设置得较小。与DCMAC方案中的CMAC-M与CMAC-F相互独立不同,本方案中的策略单元ASE和评价单元ACE相互影响,即评价单元产生评价信号,该评价信号影响策略单元的学习过程。这种算法的意义在于:两个参数不同的系统在各自系统的ASE/ACE的作用下能自主地达到动作一致,这一点可以来说明。但是,这种自主行为是缓慢的。在本文的第六章中通过计算两者误差的均值,可以更快的协调他们的行为。所以,在多个电动机协调作业的伺服系统中,可以采用ASE/ACE算法实现系统与系统间的协调控制。子系统将系统对协调控制的指令,如平均速度,平均电流等作为评价单元的输入,评价单元ACE在控制误差的示教下产生评价信号,作为一种协调指示,而策略单元ASE在该评价信号作用下,完成学习边控制的过程,最终实现子系统与整个系统的协调控制。第四章应用研究——登高维修车跟踪过程的协调控制由多个登高维修车完成一个共同任务的协调控制系统是一个受到控制界关注的课题,这些任务有多登高维修车共同完成提升和装配,跟踪登高维修车对逃逸登高维修车的追随等。与带式运输机不同,系统中的多个登高维修车彼此之间并无物理上的耦合,而是通过共同的任务而耦合。在多登高维修车系统中,跟踪是一个具有实际意义的控制问题~。跟踪控制往往采用链式变换的方法来解决,即将登高维修车模型转化为链式系统的跟踪问题,得到结果后通过逆变换得到控制量。但链式变换和逆变换较为复杂,Lyapunov函数不易构造;此外,自主移动登高维修车差异性比较大,模型参数不易获取,因此基于精确模型的控制算法并不具有优势。提出了基于神经元网络,迭代学习,模糊控制,自适应PID无模型等控制方法。CMAC神经网络因具有学习算法简单,收敛速度快且不存在局部极小等特点而广泛应用于在登高维修车控制。采用CMAC控制器实现轮式登高维修车的跟踪控制;提出一种改进的CMAC完成两轮登高维修车的平衡控制;、则把CMAC用于伺服及灵巧手指的控制。实验及仿真表明,CMAC满足登高维修车运动实时控制,自适应等要求;但是在应用中存在学习速率选择困难,容易出现过度学习等弱点。和通过信度(和学习次数有关)来逐步调整学习速率,该信度和控制误差无关。提出一种基于信度学习的方法,学习速率随学习次数的增加而变化。



     广州登高维修车出租, 广州登高维修车租赁, 广州登高维修车价格 http://www.chuzushengjiangche.com/




      在训练样本在量化空间中均匀分布的情况下,提出了M-CMAC,即使学习速率提高到时CMAC的稳定性也得到提高。本在上一章中提出的基于CMAC的ASE/ACE方法是一种根据控制误差来实时调整学习速率的方法,评价单元ACE和策略单元ASE由结构相同的两个CMAC控制器组成,其中评价单元采用可选范围比较大的固定的学习速率,实验证明其大小对跟踪的快速性和精度影响不大,从而解决了学习速率选择困难的问题;评价单元根据控制误差实时调整策略单元的学习速率。基于登高维修车运动模型的仿真结果表明,采用这种算法的跟踪控制器具有跟踪速度快、自适应能力强、配置参数选择范围宽等特点。本章研究登高维修车跟踪过程的协调控制问题。首先介绍登高维修车的运动学模型,然后给出了基于CMAC的ASE/ACE算法和运算过程,得到仿真模型、仿真实验数据、以及后续的研究内容。登高维修车的跟踪问题考虑所示的双轮独立驱动的自主移动登高维修车。当登高维修车左右轮速度大小相同且方向相同时,登高维修车直线运动;当左右轮速度大小不同,或者方向不同,则登高维修车转弯或旋转。设为登高维修车的运动由沿登高维修车车体方向的线速度v,和登高维修车沿车体中心的角速度w组成,则可得登高维修车的运动方程。某个登高维修车的运动姿态由wyxυθ表示。  登高维修车在XOY坐标系中的位置坐标,θi为前进方向对X轴的倾角。登高维修车沿前进方向的线速度和以车体质心为中心的角速度。 ρ分别为#登高维修车与#登高维修车间的距离、φ为#登高维修车正方向与跟踪角σ的跟踪角度误差。跟踪问题则可表示为:根据两个登高维修车间距离和跟踪角度差,不断调整#登高维修车线速度和角速度,最终达到期望的距离的控制问题。 几种跟踪控制算法线性控制算法提出一种线性控制律:把登高维修车从它的实际位置相对于目标位置的相对坐标驱动到零位置。设计控制信号为υ和ω,线性控制规律为,则系统在ρ=处没有任何奇异。从仿真曲线来看,所有的运动具有趋向目标中心的平滑的轨迹。但是该控制算法存在如下问题:当跟踪为匀速移动时,存在较大的跟踪误差。该方法的参数配置是建立在系统在稳定点线性化的基础上的,而在动态过程中这个基础并不成立,在实际控制中多采用试凑法来解决参数配置。提出了采用CMAC控制器的方法。在CMAC控制的作用下,登高维修车的跟踪可以匀速,静止和加速,在跟踪的快速性上优于线性控制。同样在实验中发现,学习速率的选择对跟踪性能影响很大。 利用前一章提出的ASE/ACE算法解决中提出的参数自适应问题。双CMAC控制方法ραβυω双CMAC控制结构为了对速度和转角进行控制,设计了如的双CMAC控制结构,其中CMAC-V为速度控制器,输入量为登高维修车当前位置与目标位置之间的距离ρ,输出为直线速度ν;CMAC-D为转角控制器,输入量为а,β输出量为转向速度ω。CMAC控制的登高维修车的跟踪可以匀速,静止和加速,跟踪时间小于秒。采用比例线性控制规律时登高维修车可以追击匀速运动物体,秒左右实现跟踪。对比线性控制规律发现,在CMAC控制下,夹角α很快为零,而在线性控制规律下夹角归零时间较长。基于CMAC的跟踪控制器,称为策略单元的ASE-CMAC-v为线速度控制器,输入量为跟踪距离ρ,输出为线速度控制量。称为评价单元ACE-CMAC-v的输出为ηsv,即ASE-CMAC-v的学习速率。随ρ的变化而变化,从而增加了跟踪控制器的自适应能力。





   广州登高维修车出租, 广州登高维修车租赁, 广州登高维修车价格



分享到:
点击次数:1101  更新时间:2017-04-12  【打印此页】  【关闭

Copyright © 2009-2014,恒越吊篮车出租公司,All rights reserved