老黄一夜被偷家!特斯拉Dojo 2芯片量产倒计时 算力直逼英伟达最强B200
老黄人在北京侃侃而谈,没想到转眼老家被“偷”,客户变对手。
特斯拉的最新消息,Dojo二代芯片量产进入倒计时,性能比第一代提高10倍,算力直逼英伟达Blackwell B200芯片。
这很可能会让特斯拉FSD实现“自产自训”,从此摆脱英伟达的束缚,甚至能向外部提供算力。
更关键的是,特斯拉表示,Dojo 2超算能让数据训练速度猛增一个数量级,也意味着FSD的优化能再上一个台阶。
不过在马斯克这儿,还不够。
算力更强、性能巅峰的Dojo第三代芯片,时间表也定了,明年就推出。
特斯拉Dojo 2量产倒计时
据外媒平台Not a Tesla App称,特斯拉新一代Dojo 2芯片,已和全球最大的半导体制造商——台积电达成合作,年底前进入量产阶段。
台积电方面也透露过,第二代Dojo的训练模块已投入生产,且采用了台积电最新的封装技术。
特斯拉多次表示,Dojo 2芯片已经接近英伟达Blackwell B200水平——这是英伟达最新一代的AI芯片,性能也最强。
在马斯克的另一家公司X平台上,也有人分享了这个消息:
不少“特粉”表示,足够令人振奋。
因为这意味着,特斯拉实现了从传感器到超算的垂直AI能力,即将摆脱英伟达的束缚:
甚至,特斯拉未来可以向外提供算力,成为英伟达的对手。
并且自研芯片最利好的就是成本,特斯拉将有能力以前所未有的速度扩大规模:
还有网友已经“预见”到未来的惊天巨变,认为Dojo 2很有可能会改变汽车和AI行业的游戏规则:
也有人对真实性存疑,毕竟,马斯克定下的ddl总是设定在年末,但真正兑现的情况并不多见:
不过,马斯克倒是在评论区现身说法,回应很简洁:“Dojo 2是一台很好的计算机”,算是暗戳戳地肯定了量产时间属实。
紧接着他又讲了个经典的计算机硬件性能笑话——
Dojo 2可以以每秒十亿帧的速度玩《孤岛危机》。
提醒一下不知道的朋友,《孤岛危机》是2007年发行的一款游戏,起初对配置要求极高,不知道烧坏了多少显卡,被玩家一致调侃为“显卡危机”。
后来是英伟达向游戏官方提供了技术支持,英伟达曾多次用“可以玩《孤岛危机》”,证明其配置硬核。
现在,这个玩笑也被马斯克也拿出来证明Dojo二代芯片的性能,算是里里外外都和英伟达对标了。
那么Dojo到底有多厉害,能和全球第一的AI公司杠上?
马斯克布局6年的关键基建
所谓Dojo,就是马斯克亲自推动、为了训练FSD神经网络而自研的AI超级计算平台。
关于“Dojo”的概念,最早是在2019年特斯拉的自动驾驶日上,被马斯克和AI团队首次提及。
马斯克多次强调,视觉是实现FSD的关键,强大的神经网络需要海量视频数据训练。
特斯拉的纯视觉方案,每天会产生1600亿帧的视频数据。
这些视频需要逐一进行分析、标记和处理,帮助FSD不断学习新的边缘场景(即不可预测的罕见情况),这对于坚持不用激光雷达的特斯拉而言至关重要。
而当时,即便强如英伟达,其算力也很难满足特斯拉对大规模视频训练的需求,并且缺乏针对视频训练的专用指令集。
这让特斯拉产生了自研芯片、打造高性能视频训练超算的念头。因为一旦成功,特斯拉的FSD训练效率将从根本上被改变。
在这种背景下,第一代Dojo及其自研芯片D1,首次亮相于2021年的特斯拉AI Day上,不过当时还只是Demo。
D1芯片是Dojo的核心,由台积电7nm工艺制造,有500亿个晶体管,芯片面积为645mm?,小于英伟达的A100(826 mm?)和AMD的Arcturus(750 mm?)。
每个芯片有354个训练处理节点,以及440MB的静态随机存储器,BF16精度下算力高达362TFLOPs,一块芯片功耗只有400W。
D1芯片测试完成后,会被封装到Dojo训练瓦片(Tile)上,每个瓦片容纳25颗D1,这就是最终的Dojo。
当时的Dojo有超过50万个训练节点,每个模块算力为9 petaflops,每秒36 TB的区块外带宽。
而120个Dojo组合在一起,就是当时超算的顶级配置——Dojo ExaPOD,集结3000块D1芯片,拥有超1百万个训练节点,算力达到1.1EFLOP。
不过,特斯拉也表示,当时的D1芯片还不能完全为Dojo提供计算支持,需要和英伟达的GPU一起工作,之后会逐步扩大D1和Dojo使用的占比。
次年9月,特斯拉展示了首个Dojo机柜,进行了2.2兆瓦的负载测试,还演示了运行Stable Diffusion模型生成“火星Cybertruck”图像的能力,以证明其AI训练通用性。
直到2024年1月,特斯拉投资5亿美元(约36亿元),在纽约工厂打造了Dojo集群,承担起特斯拉5%~10%的智能辅助驾驶训练数据量。
只不过,特斯拉这时候仍是“自研+合作”双路径运行,没有摆脱对英伟达的依赖。
但这一切,可能都会随着今年Dojo 2芯片的量产而改变。
据特斯拉透露,新一代Dojo芯片仍由台积电代工,解决了上一代Dojo的静默数据损坏(SDC)和功耗问题,性能将比上一代提升10倍。
静默数据损坏,就是超算存在有缺陷的节点,可能导致耗时数周的AI模型训练产生错误结果,或使收敛速度显著放缓,并且这种缺陷很难被第一时间检测。
而Dojo 2实现性能大涨,原因来自多方面,包括优化了D1的核心架构,采用更密集的mesh网络互联架构扩展带宽,模块化规模更大、集成度更高等等。
其中最值得一提的是台积电的最新封装技术——InFO-SoW。
这是一种晶圆级系统集成技术,就是把整个晶圆当作一个整体,把多颗芯片、电源模块、散热结构等直接集成在晶圆上,而不再是传统方式中先切割晶圆,再单独封装芯片的方法。
Dojo将直接在整片晶圆上集成25个计算芯片,在645平方毫米的晶片上放置500亿个晶体管,单晶粒提供362 TFlops的运算能力。
也就是说,一个晶圆就相当于一个超算模块,单一Dojo就拥有9 Petaflops(每秒千兆次)的算力。
同时,新的封装技术取消传统封装中的基板(PCB)和中介层,芯片之间通过超高密度金属布线直接进行高带宽连接,数据传输速度翻倍增长。
散热模组则被直接集成在晶圆背面,热量通过金属板快速导出,显著改善了散热问题。
据特斯拉介绍,Dojo 2已经能够达到接近、甚至部分超越英伟达B200的水平。
例如其单训练瓦片算力可达1000 TOPS,高于B200单芯片的900 TOPS;Dojo 2的瓦片模块间带宽达36TB/s,也是B200的NVLink 5(10TB/s)的3.6倍。
也就是说,特斯拉或许很快就能脱离外部GPU的依赖,实现“计算自由”。
而且,Dojo虽然是为FSD而生,却也适用于其他应用领域,比如同样需要“视觉”的特斯拉机器人擎天柱。
此外,Dojo 2还不是特斯拉超算实力的终点。
马斯克曾表示,Dojo实现起来“可能不抱希望”,并且应当是“三代出巅峰”。Dojo 3将是特斯拉超算的最强水平,性能还会是Dojo 2的40倍。
而Dojo 3的推出时间已经不远,预计2026年就会问世。
马斯克不愧是马斯克。
从公开首次提出概念,到二代产品即将追平世界顶尖水平,不过六年时间。
其实透过特斯拉的例子看中国汽车行业,同样大有启发。
AI基础设施,中国车企的新战场
马斯克之前,中国车圈没有类似的先例。
现在,虽然能完全独立的超算芯片还没真正看到落地,但他的做法已经给了中国车圈启发。
自动驾驶发展,有三大核心要素:算力、数据、算法,它们也被统称为AI基础设施。
现在,车圈已经有不少玩家和特斯拉类似,在这些AI基础设施上布局。
算法方面,不用多说,这是各家车企最先争夺的智能化战场。
数据方面,比亚迪在深圳构建了超级数据闭环平台,数据每日回传规模达PB级别,蔚来在上海与合肥建立了双数据中心,与部分外部云平台一起协同工作。
算力方面,有蔚来自研的神玑NX9031芯片,小鹏自研的图灵芯片。
也有比亚迪成立先进技术研发中心,自建AI超算平台,吉利、长城、蔚小理等也都打造了自己的智算中心。
通过这些车企动作,可以得出一个汽车行业更远的趋势是:
车企智能化战场,已经从单纯的智能化功能叠加,转向更持久的AI基建能力。