不是,这年头用在电视上的 Micro LED 技术 ,还能做成网线,用来传数据了?
是这样的,前阵子托尼在网上刷到这样一条新闻,说微软正在研究通过 Micro LED 光互联技术(MOSAIC),来解决算力中心的数据传输,被 “卡脖子” 的问题。

emmm,虽然听起来很抽象,但是负责数据处理的算力中心,反过来被数据传输卡了脖子,竟然是因为算力中心的网线 “不够用了”。。。
你可能好奇了,我这会儿上某东搜条超六类的万兆(10Gbps)网线也就十几块钱,咋能不够用呢?

但其实它们跟数据中心用的网线,在连接速率上,差了可不止一个数量级 ——
我们家里的网线,通常能承载的最大速率就是 1000 Mbps - 2500 Mbps,也就是 1 Gbps - 2.5 Gbps。这两年部分地区在推广 “万兆网络”,匹配了 10 Gbps 的网线,但这几乎就是民用网线速率的上限了。
而数据中心的端口交换速率,100 Gbps 早就已经是主流,AI 算力中心的交换机,更是要做到 400 Gbps 起步。

其实就是因为 AI 大模型越来越大,在做训练和推理的时候,服务器之间和 GPU 之间,都得交换大量数据,对带宽的需求也就跟着变大了。
要传递这么多的数据,数据中心现在用的铜缆和光纤,还真就 “不够用了”。。。
先说铜缆,这种材料的特性就是传输速率和有效距离只能顾一头。为了达到数据中心要求的高速率,高速铜缆的长度一般就只有 1-2m。这也就是为啥机柜内部一个个 GPU 之间,往往是用铜缆来连接。
随着传输速率增加,铜缆有效距离逐渐缩短(a)、光纤功耗逐渐增加(b)

而光纤虽然跑得又快又远,可以跨机柜连接。但它涉及到复杂的 “光电转换”,相关的电路非常费电,而且对温度敏感,又容易老化,在机房这种极其高温的环境下,非常容易出故障。
微软的论文里就提到,如果全用光纤互联,那么英伟达的 GB200 NVL72 机柜,功耗会原地暴涨 17%;超大规模的 GPU 集群,会每 6-12 小时就发生一次链路故障。。。

所以在综合考虑之后,英伟达 GB200 NVL72 最终采用了铜缆连接方案。但这样一来,里面的 72 个 GPU 只能被塞在单个机架里,导致整个机柜的供电和散热压力非常大。
而且维护起来也很麻烦。毕竟集成度做到这么高,一旦某个 GPU 或者传输链路上的哪个部分出点什么问题,真要修起来,整个机柜的运行都会受影响。
通过这个例子你也能发现,传统的铜缆和光纤通信,已经不能同时满足数据中心高带宽、低功耗和长距离的连接需求了。

而 MicroLED 光通信的出现,就是为了解决这个问题。
微软提出的 MOSAIC,本质上是用 MicroLED 像素做光源。你可以把发光的 MicroLED 像素阵列,想象成一个个摞起来的显示器 ——
因为 MicroLED 像素可以独立发光,每个像素就是一条传输数据的光通道。

所以发射端控制像素的亮灭,让亮表示 1、灭表示 0。接收端再记录每个像素的亮度变化,就能把接收到的长串 0/1,还原成原始的数据,也就能通过光信号来传递信息。
听上去跟传统光纤的通信原理差不多,但不同于光纤的 “窄带宽、高速率”,MOSAIC 的传输模式属于 “宽而慢” ——

咱们先来聊聊 “慢” 的事情。
MOSAIC 就规定,不需要像传统光纤通信那样,把单通道卷到 50 Gb/s、甚至 100 Gb/s 的超高速率,每个 MicroLED 像素可以摸摸鱼,只跑 2 Gb/s 的 “低速率” 。
用这么慢的速率,还能实现高速传输,靠的是 MOSAIC 的另一个特性 “宽”。
以往要做到 800Gbps 带宽,需要靠 8 个 100Gbps 的高速通道,而 MOSAIC 虽然单个通道降到了 2Gbps,但把 MicroLED 阵列做成 400 个像素点,就可以实现 800Gbps 的带宽。

但可千万不要以为,MicroLED 光通信的模块体积和功耗,也会跟着 “失控 ”——
之所以 MOSAIC 敢用规模换速度,一方面是因为 MicroLED 像素本身只有几微米到几十微米,即使做成 400 个像素点的阵列,核心发光的芯片体积也不足 1 mm?。而传统 800Gbps 级别的光模块,核心的 光源/调制器体积,会达到 十几 mm? 甚至几十 mm? 的量级。
相当于把一粒小米和一粒大米放在桌面上比大小。
Micro LED 在同样的像素间距下,像素尺寸更小、排列更密集

即使把 MicroLED 的连接速率,拓展到 1.6 Tbps,甚至 3.2 Tbps,也就是目前数据中心主流传输速率的 4 倍,整个 MicroLED 光模块的体积,也不会比传统光纤的光模块更大。。。
另外一方面,MOSAIC 的传输线缆也比较硬核,直接把医疗内窥镜里用的 “多芯成像光纤” 搬进了机房。简单来说,MicroLED 光通道的增加,并不会让线缆变得更占地方。
因为这种光纤的内部包含成千上万个细小的纤芯,数量上完全可以覆盖 MicroLED 几百个光通道的连接需求。
MicroLED 多纤成像光纤,可承载数百个光通道

还是拿 800Gbps 的带宽举例,传统的光纤方案,需要把 16 根单模光纤( 8 根发射 + 8 根接收 ),封装到一起。而 “多芯成像光纤” 相当于用一根线缆就能搞定高带宽。
而且,这类多芯成像光纤可以做到 50m 的有效传输距离,也已经远超铜缆连接的极限了。
再加上,MicroLED 结构简单,所以控制像素亮灭的电流开关也能做得简单,省去了不少传统光模块的高功耗电路。
根据微软的数据,实现相同的带宽,MOSAIC 的功耗,相比传统的光纤互联,最多可以降低 68%,故障率更是可以降到原来的 1/100。。。
可以说,有了这个技术,往后再搭建机柜或者服务器,就不需要在“粗重的铜缆”,和 “高功耗的光纤模块” 中间纠结,而是多了一条在功耗、距离和带宽之间更平衡的第三种方案。
数据中心常用的连接方案:交换机之间采用光纤连接,机柜内部采用铜缆连接

只不过,目前 MicroLED 光通信还停留在技术验证阶段,台积电、Avicena、兆驰等厂商也还在做原型机和产业布局,真正的大规模商用还没有落地。
不过托尼倒是很看好这个技术的发展前景,毕竟 MicroLED 光通信,可是实打实地会降低功耗,而国外的电力紧缺一直是个大问题。
还有更重要的一点,就是咱们开头提到的,现在算力中心越来越被通信效率 “卡脖子” 的问题。或者换个角度来说,通信效率的革命,会反过来弥补算力的劣势。
就比如现在华为的 384 超节点,里面单个昇腾 AI 处理器的性能并没有那么强,但通过 384 颗 NPU 互相串联成算力集群,就能够让整台机器的性能,对标英伟达的 GB200 NVL72。
那么我想,能不能靠新的光通信协议 “弯道超车”,把数据传输做得更快、更省电、更可靠,可能会是 AI 竞赛和算力 “游戏” 的下半场。。。

微信扫一扫打赏
支付宝扫一扫打赏