为了让它走两步我的电脑抽了十几小时皮鞭-麦享科技

不知不觉，2026年已经过去了四分之一了。。。

不知道大伙儿是啥感觉，反正自从开年以来，世超总能刷到各种机器人。今天开幕式上露个脸，明天路演现场走两步，到处刷存在感。

尤其是从春晚那波机器人武术出圈之后，很多人都觉得，这玩意儿的发展速度是不是有点太快了，去年还在转手绢，今年已经能给人类上强度了。。。

不过，我也看到有人说，这些走两步路、跳个舞的机器人其实没啥技术含量，说白了就是个大型遥控玩具。

诶，原来让机器人动起来很容易吗，那岂不是我上我也行？

为了搞清楚这事儿，这回世超干脆借来了一台双足机器人，准备亲自训练点新动作，看看这个类人形机器人，能玩出多少花活儿。

刚一搬进屋，新同事就被好奇的老登们围了个水泄不通。

大伙儿四足的、人形的在办公室里见怪不怪，全身只有两条腿的还是第一次见，纷纷主动列队欢迎。

为了让它走两步我的电脑抽了十几小时皮鞭

世超 py 来的这个机器人叫 TRON 1，是目前构型最精简的双足机器人。翻了翻说明书，这家伙每条腿上各有三个关节，对应三个电机。

相比那些动辄几十个关节的人形机器人，这种双足机器人，更适合拿来研究一个最底层的问题：

两条腿，怎么在真实世界里稳定地走。

按理说，我只要把这两条腿上，6 个电机安排明白，就能控制它做出想要的动作。比如电机转得快一点，腿就抬得快一点；角度大一点，腿就抬高一点。

为了让它走两步我的电脑抽了十几小时皮鞭

看起来没啥难度对吧，搞清楚基本工作原理，咱先从最基本的走路学起，练个手。

想训练一个机器人在现实里做动作，第一步，得先让它在虚拟环境里动起来。

创建一个 Isaac Gym 仿真环境，在这里，你可以一次性拉出成千上万个一模一样的机器人，让它们同时摔、同时犯错，快速成长，训练效率直线提升。

为了让它走两步我的电脑抽了十几小时皮鞭

而有了训练的环境，咱又来到了第二关。让机器人成功走起来的核心，其实是一套合理的奖惩机制。

在这里，世超采用了比较基础的强化学习 PPO 算法。大伙儿可以把这个过程理解成萝卜纸巾真蚌，做好了，及时给奖励，做错了，就得惩罚。

而机器人和人一样，学习，是一个循序渐进的过程。要想学花活儿，得先把走路学明白，稳定不摔倒。未经训练的机器人非常怠惰，只会迅速陷入婴儿般的睡眠。

所以，一套训练程序里，十八个奖励函数，只有三个是给糖吃的：站稳、按给定方向移动、按固定方向移动，其它十五个全负责抽皮鞭。

为了让它走两步我的电脑抽了十几小时皮鞭

双腿并拢，罚。脚没着地，罚。头着地了，罚。

为了让它走两步我的电脑抽了十几小时皮鞭

训练了一会儿，不走直线，罚。走得太慢，罚。方向错了，罚。

为了让它走两步我的电脑抽了十几小时皮鞭

什么，你问奖励给这么少是不是虐待机器人？真不是我们不想给，这么做也是为它好。

奖励给得太多，很容易让机器人钻空子，学不到有用的本事。比如，要是不摔就给奖励，那机器人大概率会避开走路摔倒的风险，原地罚站。

很快，只要两三个小时的训练，机器人顺利地走起来了。

为了让它走两步我的电脑抽了十几小时皮鞭

其实直到这里，世超已经通过 TRON 1，完整地体验了一遍机器人走路的强化学习入门级流程。

有一说一，确实不算难。只要大伙儿有点编程基础，摸索摸索，做出点好看的成果还是很快的，还相当有成就感。

如果事情只停在这里，那机器人可能确实是个大玩具。

然而，当世超想开始第二阶段的拷打，搞点新东西的时候，事情就没那么简单了。。。

这一次，我们设计了 3 个新的奖励函数来让它走得更有难度：机器人的腿离地面过近、膝盖弯曲的角度不对、每步走得太短都不行。

为了让它走两步我的电脑抽了十几小时皮鞭

有了这些函数，机器人走路的时候腿会抬得更高，走路的姿势会变得完全不一样。

大概四五个小时后，世超给机器人准备的新动作也诞生了。以后它走路得边跳边走，年轻人，有活力一点。

为了让它走两步我的电脑抽了十几小时皮鞭

模型准备就绪，模拟世界里一切正常，机器人学得很好。

接下来，只要把这个训练好的模型，通过一根网线，传递到机器人的身上。。。

等等，事情开始不对劲了。

把虚拟环境里的算法移植给现实里的真机器人，才是地狱的开端。

当那套在模拟器里跑得一点没毛病的模型注入真机，你会发现电脑里丝滑的步态，到现实里全变成了水土不服。

真实物理世界里，地面变化的摩擦力、机器人重心变化、传感器的延迟。。。这些微小的变量在几十斤重的铁疙瘩身上会无限放大。

世超试了五六次，它依然脚抬不起来，腿迈不开，时不时原地抽搐。

为了让它走两步我的电脑抽了十几小时皮鞭

巨大的声响，甚至还把金毛火锅吓哭了。。。

为了让它走两步我的电脑抽了十几小时皮鞭

没招了，咱只好向场外求救。听完逐际动力工程师 Brandon 的解释，我才意识到，这就是具身智能最难的地方 —— 把看似完美的虚拟模型，搬到残酷复杂的现实世界。

往好里说，现在这套模型也许不是完全没戏。

它就像买彩票，你反复跑上成百上千次实验，只要有一次，环境、参数、运气全对上了，机器人也能站起来、踉踉跄跄走两步。

但更常见的情况，是模型本身有问题。这时候，我们得把模型回炉重造，修改奖惩机制继续练习。

甚至存在很大可能，我们再花几十小时搞出来的新东西，还不如老模型效果好。例如你可能设置了抬高腿的新奖励，结果直接导致机器人重心不稳。一个 bug 的修复，往往会引入更多的 bug。

另外，很反直觉的是，即使在模拟环境里做到 100% 好，对真机也不一定是好事。因为它可能早早地过拟合，只在严格的特定环境下才好用。

为了让它走两步我的电脑抽了十几小时皮鞭

跑完整个机器人培训流程，世超才发现我们对它有很多误解。即使是一个简单重复的走路动作，一旦要让它在真的机器人上丝滑运行，也绝对不是一朝一夕的事。

而大伙儿平常快看腻了的各种跳舞、导览、巡逻功能，往往需要更多的数据、更复杂的训练手法、面对更变幻莫测的真机反应。

机器人看起来像个大遥控玩具，并不是因为它技术含量低，而是因为真正难的那部分很少被拍出来。

不管是昂贵的数据采集，还是模型一遍又一遍以小时为计的训练调整，亦或是弥合虚拟世界到真实机器人的巨大鸿沟，都需要有经验的工程师来反复实验，反复调试，花费大量金钱和时间，才能保证次次成功，稳定运行。

当然，肯定有差友忍不住问一句：这机器人就两条腿，能干的事这么少，就算真把它做成了，又有什么用？

逐际动力团队是这样向我们解释的，像 TRON 1 这类机器人，一方面能在游乐园里让已经灭绝的恐龙“动起来”，在火车站、机场这种人多的环境去巡逻，在大型设备进不去的危险环境作业，用小小很可爱的优势补位；

为了让它走两步我的电脑抽了十几小时皮鞭

但更重要的价值，并不在立刻能干多少活，而是在科研本身。

同样是研究两条腿怎么走，在 TRON 1 这种只有两条腿的机器人上实验，成本更低、迭代更快。一旦这些底层规律被跑通，就能类比迁移到更复杂的人形机器人上，相当于先用小号模型把坑都踩完。

科研离生活很远，但没有科研机器人，它们永远不可能走进生活。

为了让它走两步我的电脑抽了十几小时皮鞭

如果把时间拉长一点看，这些机器人的确谈不上有用，但研究过程中留下来的方法、经验、模型和理论依据不会消失，它们会一层层垫在所有后来机器人脚下。

为了让它走两步我的电脑抽了十几小时皮鞭

机器人能走到今天，本身就是一条漫长又不容易的技术积累之路。

我们不如换个角度想，人类进化到可以直立行走，至少经过了几百万年。早期想造出一个会走路的机器人，以早稻田大学 WABOT 为例，也是数以年计。而现在，就像世超这样的非专业工程师，只需要不到一天，就能教会一个铁疙瘩稳稳走起来。

为了让它走两步我的电脑抽了十几小时皮鞭

从这个意义上说，看似干啥啥不行的机器人，已经超过人了。

所以，趁着这帮铁疙瘩现在还只会点地板 breaking，世超建议大伙儿还是对它们客气点。

毕竟当机器人学啥都只要一天不到的时候，被吓哭的可能就不止是火锅了。

为了让它走两步我的电脑抽了十几小时皮鞭

相关推荐

评论抢沙发

评论前必须登录！

网购比价

网购返利

外卖红包

本地生活

麦享生活

热门标签

热门文章

相关推荐

评论 抢沙发

评论前必须登录！

网购比价

网购返利

外卖红包

本地生活

麦享生活

热门标签

热门文章

评论抢沙发