为了让它走两步 我的电脑抽了十几小时皮鞭-麦享科技
麦享科技
前沿资讯网站

为了让它走两步 我的电脑抽了十几小时皮鞭

不知不觉,2026年已经过去了四分之一了。。。

不知道大伙儿是啥感觉,反正自从开年以来,世超总能刷到各种机器人。今天开幕式上露个脸,明天路演现场走两步,到处刷存在感。

尤其是从春晚那波机器人武术出圈之后,很多人都觉得,这玩意儿的发展速度是不是有点太快了,去年还在转手绢,今年已经能给人类上强度了。。。

不过,我也看到有人说,这些走两步路、跳个舞的机器人其实没啥技术含量,说白了就是个大型遥控玩具。

诶,原来让机器人动起来很容易吗,那岂不是我上我也行?

 为了搞清楚这事儿,这回世超干脆借来了一台双足机器人,准备亲自训练点新动作,看看这个类人形机器人,能玩出多少花活儿。

刚一搬进屋,新同事就被好奇的老登们围了个水泄不通。

大伙儿四足的、人形的在办公室里见怪不怪,全身只有两条腿的还是第一次见,纷纷主动列队欢迎。

为了让它走两步 我的电脑抽了十几小时皮鞭

世超 py 来的这个机器人叫 TRON 1,是目前构型最精简的双足机器人。翻了翻说明书,这家伙每条腿上各有三个关节,对应三个电机。

相比那些动辄几十个关节的人形机器人,这种双足机器人,更适合拿来研究一个最底层的问题:

两条腿,怎么在真实世界里稳定地走。

按理说,我只要把这两条腿上,6 个电机安排明白,就能控制它做出想要的动作。比如电机转得快一点,腿就抬得快一点;角度大一点,腿就抬高一点。

为了让它走两步 我的电脑抽了十几小时皮鞭

看起来没啥难度对吧,搞清楚基本工作原理,咱先从最基本的走路学起,练个手。

想训练一个机器人在现实里做动作,第一步,得先让它在虚拟环境里动起来。

创建一个 Isaac Gym 仿真环境,在这里,你可以一次性拉出成千上万个一模一样的机器人,让它们同时摔、同时犯错,快速成长,训练效率直线提升。

为了让它走两步 我的电脑抽了十几小时皮鞭

而有了训练的环境,咱又来到了第二关。让机器人成功走起来的核心,其实是一套合理的奖惩机制。

在这里,世超采用了比较基础的强化学习 PPO 算法。大伙儿可以把这个过程理解成萝卜纸巾真蚌,做好了,及时给奖励,做错了,就得惩罚。

而机器人和人一样,学习,是一个循序渐进的过程。要想学花活儿,得先把走路学明白,稳定不摔倒。未经训练的机器人非常怠惰,只会迅速陷入婴儿般的睡眠。

所以,一套训练程序里,十八个奖励函数,只有三个是给糖吃的:站稳、按给定方向移动、按固定方向移动,其它十五个全负责抽皮鞭。

为了让它走两步 我的电脑抽了十几小时皮鞭

双腿并拢,罚。脚没着地,罚。头着地了,罚。

为了让它走两步 我的电脑抽了十几小时皮鞭

训练了一会儿,不走直线,罚。走得太慢,罚。方向错了,罚。

为了让它走两步 我的电脑抽了十几小时皮鞭

什么,你问奖励给这么少是不是虐待机器人?真不是我们不想给,这么做也是为它好。

奖励给得太多,很容易让机器人钻空子,学不到有用的本事。比如,要是不摔就给奖励,那机器人大概率会避开走路摔倒的风险,原地罚站。

很快,只要两三个小时的训练,机器人顺利地走起来了。

为了让它走两步 我的电脑抽了十几小时皮鞭

其实直到这里,世超已经通过 TRON 1,完整地体验了一遍机器人走路的强化学习入门级流程。

有一说一,确实不算难。只要大伙儿有点编程基础,摸索摸索,做出点好看的成果还是很快的,还相当有成就感。

如果事情只停在这里,那机器人可能确实是个大玩具。

 然而,当世超想开始第二阶段的拷打,搞点新东西的时候,事情就没那么简单了。。。

这一次,我们设计了 3 个新的奖励函数来让它走得更有难度:机器人的腿离地面过近、膝盖弯曲的角度不对、每步走得太短都不行。

为了让它走两步 我的电脑抽了十几小时皮鞭

有了这些函数,机器人走路的时候腿会抬得更高,走路的姿势会变得完全不一样。

大概四五个小时后,世超给机器人准备的新动作也诞生了。以后它走路得边跳边走,年轻人,有活力一点。

为了让它走两步 我的电脑抽了十几小时皮鞭

模型准备就绪,模拟世界里一切正常,机器人学得很好。

接下来,只要把这个训练好的模型,通过一根网线,传递到机器人的身上。。。

等等,事情开始不对劲了。

把虚拟环境里的算法移植给现实里的真机器人,才是地狱的开端。

当那套在模拟器里跑得一点没毛病的模型注入真机,你会发现电脑里丝滑的步态,到现实里全变成了水土不服。

真实物理世界里,地面变化的摩擦力、机器人重心变化、传感器的延迟。。。这些微小的变量在几十斤重的铁疙瘩身上会无限放大。

世超试了五六次,它依然脚抬不起来,腿迈不开,时不时原地抽搐。

为了让它走两步 我的电脑抽了十几小时皮鞭

巨大的声响,甚至还把金毛火锅吓哭了。。。

为了让它走两步 我的电脑抽了十几小时皮鞭

没招了,咱只好向场外求救。听完逐际动力工程师 Brandon 的解释,我才意识到,这就是具身智能最难的地方 —— 把看似完美的虚拟模型,搬到残酷复杂的现实世界。

往好里说,现在这套模型也许不是完全没戏。

它就像买彩票,你反复跑上成百上千次实验,只要有一次,环境、参数、运气全对上了,机器人也能站起来、踉踉跄跄走两步。

但更常见的情况,是模型本身有问题。这时候,我们得把模型回炉重造,修改奖惩机制继续练习。

甚至存在很大可能,我们再花几十小时搞出来的新东西,还不如老模型效果好。例如你可能设置了抬高腿的新奖励,结果直接导致机器人重心不稳。一个 bug 的修复,往往会引入更多的 bug。

另外,很反直觉的是,即使在模拟环境里做到 100% 好,对真机也不一定是好事。因为它可能早早地过拟合,只在严格的特定环境下才好用。

为了让它走两步 我的电脑抽了十几小时皮鞭

跑完整个机器人培训流程,世超才发现我们对它有很多误解。即使是一个简单重复的走路动作,一旦要让它在真的机器人上丝滑运行,也绝对不是一朝一夕的事。

而大伙儿平常快看腻了的各种跳舞、导览、巡逻功能,往往需要更多的数据、更复杂的训练手法、面对更变幻莫测的真机反应。

机器人看起来像个大遥控玩具,并不是因为它技术含量低,而是因为真正难的那部分很少被拍出来。

不管是昂贵的数据采集,还是模型一遍又一遍以小时为计的训练调整,亦或是弥合虚拟世界到真实机器人的巨大鸿沟,都需要有经验的工程师来反复实验,反复调试,花费大量金钱和时间,才能保证次次成功,稳定运行。

当然,肯定有差友忍不住问一句:这机器人就两条腿,能干的事这么少,就算真把它做成了,又有什么用?

逐际动力团队是这样向我们解释的,像 TRON 1 这类机器人,一方面能在游乐园里让已经灭绝的恐龙“动起来”,在火车站、机场这种人多的环境去巡逻,在大型设备进不去的危险环境作业,用小小很可爱的优势补位;

为了让它走两步 我的电脑抽了十几小时皮鞭

但更重要的价值,并不在立刻能干多少活,而是在科研本身。

同样是研究两条腿怎么走,在 TRON 1 这种只有两条腿的机器人上实验,成本更低、迭代更快。一旦这些底层规律被跑通,就能类比迁移到更复杂的人形机器人上,相当于先用小号模型把坑都踩完。

科研离生活很远,但没有科研机器人,它们永远不可能走进生活。

为了让它走两步 我的电脑抽了十几小时皮鞭

如果把时间拉长一点看,这些机器人的确谈不上有用,但研究过程中留下来的方法、经验、模型和理论依据不会消失,它们会一层层垫在所有后来机器人脚下。

为了让它走两步 我的电脑抽了十几小时皮鞭

 机器人能走到今天,本身就是一条漫长又不容易的技术积累之路。

我们不如换个角度想,人类进化到可以直立行走,至少经过了几百万年。早期想造出一个会走路的机器人,以早稻田大学 WABOT 为例,也是数以年计。而现在,就像世超这样的非专业工程师,只需要不到一天,就能教会一个铁疙瘩稳稳走起来。

为了让它走两步 我的电脑抽了十几小时皮鞭

从这个意义上说,看似干啥啥不行的机器人,已经超过人了。

所以,趁着这帮铁疙瘩现在还只会点地板 breaking,世超建议大伙儿还是对它们客气点。

毕竟当机器人学啥都只要一天不到的时候,被吓哭的可能就不止是火锅了。

为了让它走两步 我的电脑抽了十几小时皮鞭

未经允许不得转载:麦享科技 » 为了让它走两步 我的电脑抽了十几小时皮鞭

相关推荐

  • 暂无文章

评论 抢沙发

评论前必须登录!