江门登高车, 江门登高车出租, 江门登高车租赁 将DQN算法应用于机械臂运动控制领域中,提出了两种基于DQN的改进算法
新闻分类:行业资讯 作者:admin 发布于:2018-07-084 文字:【
大】【
中】【
小】
摘要:
江门登高车, 江门登高车出租, 江门登高车租赁 将DQN算法应用于机械臂运动控制领域中,提出了两种基于DQN的改进算法,一种为引导式DQN算法,一种为递归式DQN算法。两种算法都参考了原始DQN算法的部分网络结构,并针对机械臂抓取物体这个场景分别设计了感知环境模型和动作设计,完成了以下工作:
(1)将机械臂抓取物体的过程描述为一个马尔科夫决策过程,建立了机械臂感知环境模型,设计了机械臂动作空间以及回报函数,提出了数据增强机制。采用DQN的网络架构使机械臂可以在复杂的环境中直接通过原始图像数据成功学习到控制策略。
(2)针对原始DQN算法中探索策略的局限性问题,提出了一种引导式DQN算法,利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围,实现深层探索。通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。
(3)针对真实场景中很少存在对环境状态完全可观测的情况,本课题提出了一种递归式DQN算法,应用于部分可观测马尔科夫决策过程。对于原始DQN网络模型进行改进,即像原有网络中添加循环祌经网络结构,使模型具有时间轴上的记忆能力。同时为了减小三维真实环境映射到二维图像上的映射误差,采用了多角度的思想来对机械臂环境的隐含信息进行建模。
江门登高车, 江门登高车出租, 江门登高车租赁
本文成功的证明了引导式DQN和递归式DQN算法在机械臂策略控制上的有效性,但还有许多问题需要我们进行深入研究和解决。下一步的研究工作如下:
(1)本文提出的两种改进算法中均使用经验重放机制,这需要大量的存储空_间来存储训练样本,对于存储空间的需求显著增加,其后的研究中应改进经验重'放机制使得算法不再需要存储大量样本,节省存储资源的开销。
(2)本文提出的引导式DQN算法在网络模型中分流了多个值函数的支路,增加了网络的计算负担。因此可以采用模型并行化的方法,比如提升网络规模,增加卷积层数量),或者可以使用多个GPU训练,又或者可以对算法个部分并行化提尚计算效率。
(3)本文的实验采用的是较为简单的奖赏矩阵处理环境中的奖励信号问题,但目前大部分的智能体结构及环境都较为复杂,需要人工设计合理的回报函数来获得奖励信号,不合理的回报函数可能会导致学习延迟收敛,更有可能导致策略发生偏离,构造一个符合实际应用的回报函数也是今后研究的一个方向。
江门登高车, 江门登高车出租, 江门登高车租赁