丰色发自凹非寺

  量子位公众号 QbitAI

  讲真,机器狗的花活见得多了——

  但今天还是有被惊艳到。

  来自 CMU 的最新成果,直接让狗子学会了:

  两倍身长的跳高、跳远、倒立撒欢儿甚至倒立下楼梯。

  话不多说,直接放图感受一波:

这是跳远:

这是跳高:

倒立撒欢儿:

倒立下楼梯:

  不得不说,尤其跳高那段中的“挣扎”显得狗子特别灵魂。

  除了这些s操作,CMU 也公布了几段跑酷视频,完全自主的那种。

  上坎儿、过缝隙、跨斜坡,那叫一个溜。

  中间即使有“失误”,也丝毫不影响它立即前进。

  笑鼠,甚至还给安排了一段压力测试,结果当然是“通过”~

  最厉害的是,据 CMU 介绍,以上这些极限操作,全部靠单个神经网络完成。

  LeCun 大佬听了,都得反手一个赞。

如此灵魂,如何炼成?

  在推文中,作者对这只狗子的技术进行了挨个解析。

  首先,比起基于视觉的端到端行走,2 倍身长跳高跳远这种极限操作可谓完全不属同一个 level。

  毕竟,任何一个失误都可能是“致命的”。

  对此,CMU 采用sim2real来实现精准的足部控制和挑战,最大限度地发挥机械优势。

  其中,模拟器用的是 Gym。

  其次,倒立。用两条腿行走显然比用四条腿要困难得多。

  但 CMU 的机器狗使用相同的基本方法同时实现了这两种任务,甚至还可以一边倒立一边下楼梯。

  第三,对于跑酷操作来说(本研究重点),机器狗必须通过精确的“眼部肌肉”协调来自己决定前进方向,而非听从人类指挥

  比如连续过两个斜坡时,它需要以一个非常特定的角度跳上坡道,然后立即改变方向。

  为了学会这些正确的方向,CMU 使用MTS(Mixed Teacher Student)系统来教会机器狗。

  其中,仅当预测方向接近真实值时才会被系统采纳。

具体而言,该系统分为两个阶段:

  第一阶段,先利用 RL 学习一种移动策略,该过程可以访问一些特权信息,除了环境参数和扫描点(scandots)以外,CMU 还为机器狗适当提供了一些标志点(waypoints),目的是引导大体方向。

  然后,使用正则化在线自适应(Regularized Online Adaptation ,ROA)来训练评估器,以便从观察历史中恢复环境信息。

  第二阶段,从扫描点(scandots)中提取策略,系统将根据该策略和深度信息自主决定如何前进,从而敏捷地输出电机命令。

  整个过程就像“老师教,学生举一反三学习”。

  除了这个系统之外,由于跑酷需要用上各种不同动作穿越障碍,因此为每一个障碍设计特定奖励函数也是一件头疼的事儿。

  在此,作者选择为所有任务制定了一个统一且简单的内积奖励函数。

  它可以自动产生不同的奖励,并完全适应不同的地形形状。

  没有它,狗子的表现就是这样的:

  最后,CMU 还提出了一种全新的双重蒸馏(dual distillation)方法,用于从深度图像中提取敏捷的运动指令和快速波动的前进方向。

  同样,没有它,狗子的表现也跟个“醉汉”似的:

  经过如上一番操作,这只狗子终于学会了全新的自主跑酷,并穿插高难度动作。

  是不是很心动?别急:

以上这些成果,CMU 已全部开源(瞧这日期,还是热乎的呢)。

  同时,论文也上线了。大家可以在结尾获取。

作者介绍

  本研究全部由 CMU 完成,一共四位作者。

  其中两位共同一作,且都是华人

  一位叫 Xuxin Cheng,这项工作是他在 CMU 读研时完成的,他现在是加州大学圣地亚哥分校(UCSD)的博士生,导师为王小龙;

  另一位叫石可心,CMU 机器人研究所的访问学者。她本科毕业于西安交大。

  项目主页(包含论文、代码等链接):

  https://extreme-parkour.github.io/

来自: 网易科技

蓝易云是一家专注于香港及国内数据中心服务的提供商,提供高质量的服务器租用和云计算服务、包括免备案香港服务器、香港CN2、美国服务器、海外高防服务器、国内高防服务器、香港VPS等。致力于为用户提供稳定,快速的网络连接和优质的客户体验。
最后修改:2023 年 10 月 02 日
如果觉得我的文章对你有用,请随意赞赏