Google 团队於近期发表了新论文,透过视觉观察和强化学习(Reinforcement learning)并藉轨迹优化机器人动作,达到零样本(zero-shot)前提下让机器人成功擦拭桌面脏污。
像擦桌面、折衣服等重复性高的任务虽然适合交由机器人,但仍颇具挑战性。例如擦桌子的动作,机器人该如何根据图像来规划出最佳解方?该如何擦拭,以避免洒出来的脏污面积扩散开?又该如何在避免撞到附近障碍物的情况下,到达能擦到桌子的位置?
目前像强化学习等技术有望解决这些复杂的任务,但若要应用在机器人上,则须仰赖收集大量的数据,以及运用准确但昂贵的模型。
因此 Google 团队提出方法是在不需特定任务相关的训练数据下,就能基於图像观察规划出有效的强化学习策略,并零样本的转移此方法至硬体设备,促机器人成功擦拭桌子。
团队透过随机微分方程(SDE),生成了一个 SDE 模拟器,共具有四大功能,分别可描述被擦拭动作推动的乾物件,和在擦拭过程中被吸收掉的液体;同时捕捉到桌面上多个独立的脏污;将脏污与机器人互动後的不确定性模组化;模拟的速度比实际时间快。
SDE 模拟器能进而产生大量用於强化学习的训练数据。团队接着再将强化学习的策略,透过能快速计算底座和手臂关节轨迹的优化工具来执行。团队表示此种方法也可以避免碰撞障碍物,并实现在零经验模拟下将策略部属到真实世界,并已在模拟环境中和实际硬体设备上验证了此方法。
资料来源:Google Research
责任编辑:Jocelyn
核稿编辑:Chris…