别高估英伟达别低估DeepSeek-麦享科技

DeepSeek-V4终于来了。

4月24日，全新系列模型DeepSeek-V4预览版本正式上线，并同步开源。

DeepSeek-V4开创了一种全新的注意力机制，在token维度进行压缩，结合DSA稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。

可别小瞧了，DeepSeek-V4大幅降低了对计算和显存的需求。

妙投认为，这将直接削弱英伟达GPU的优势。值得注意的是，DeepSeek-V4还优先适配国产芯片厂商。

换句话说，别高估英伟达的护城河，也千万别低估DeepSeek正在掀起的这场架构革命。关键不在“谁替代谁”，而在AI产业链的利润分配、部署路径和投资逻辑，可能正在变。

戴着“镣铐”起舞

过去两年，AI大模型主要看的是训练，拼的是算力。

在一定程度上，AI基础大模型的竞争，本质就是GPU算力基础设施的竞争。谁能买到更多高端GPU，谁能堆出更大的集群，谁就更有机会做出更强的基础模型。

然而，由于美国通过出口管制，禁止英伟达H100/H200等顶级芯片对华销售。此外，台积电先进制程等已经被美国卡死了，国产GPU卡与英伟达卡仍有一定的差距。

“国内GPU厂商都是戴着“镣铐”与英伟达同台竞技的”，一位GPU企业人士曾向妙投形容。

有意思的是，就是在这样的逆风局下，这两年中美大模型的差距开始逐步缩小，甚至接近拉平。

2023年底，中美的顶级模型在各大维度的差距还在20%-30%之间徘徊。4月14日，斯坦福大学HAI实验室发布2026年度《AI指数报告》，这份长达423页的行业权威报告显示，中美大模型性能差距已收窄至2.7%，基本实现技术追平。

妙投认为，如果把中美AI大模型性能差距看作结果，那么英伟达GPU并非决定性因素。

这一方面，归结于国产芯片崛起及中国电力基础设施的完备。

黄仁勋在最近访谈中表示，“AI本质上是并行计算问题，中国完全可以通过堆叠更多芯片来弥补单颗芯片的制程差距，中国有那么多能源，如果愿意，完全可以把更多芯片组合在一起，即使制程落后几个纳米。”

实际上，不少国内GPU厂商已实现了万卡集群，以弥补单卡算力的短板。比如：摩尔的夸娥万卡集群、沐曦的曦源一号SADA万卡集群。

另一方面，则归结于DeepSeek为代表的大模型企业脱颖而出。

DeepSeek用软件上的前瞻性设计，主动去适配和赋能国产硬件，为国产芯片铺平道路。

比如：DeepSeek-V3验证了FP8在大规模模型训练的可用性，在不增加额外开销的情况下扩大了模型训练规模且不影响模型训练质量。

打个比方，过去，要完成一个复杂的AI计算任务，需要几台巨大、精密且昂贵的德国进口机床（代表英伟达的高精度GPU）。而现在，DeepSeek通过改变任务的加工流程（即改变数据格式），使得这个任务可以被几十台小巧、简单且便宜的国产机床（代表国产GPU的计算单元）组成的流水线高效完成。

即便如此，英伟达GPU仍让海外大模型在训练上更胜一筹。

但从产业演进看，大模型训练只是第一阶段。大模型做出来之后，真正决定商业化速度和产业渗透深度的，是推理。尤其是，Openclaw、Hermes为代表的Agent爆火之后。

英伟达赢了训练，但推理才刚开始

训练和推理是两种不同的模式。

Claw类Agent爆发，长上下文记忆能力就是核心导火索。

以前的AI只会聊天、转头就忘，鱼的记忆；而Claw能记住一切、持续干活、越用越懂你，记忆让它从 “玩具” 变成 “工具”。

当上下文越来越长、Agent记忆越来越深、工具调用越来越频繁的时候，GPU的显存会被KV cache（记忆缓存）撑爆，大模型的推理质量就会下降。

因此，推理爆发的第一个瓶颈，不是算力不够，是”记忆"和"计算"抢同一块显存。

对国产GPU而言，算力（峰值 TFLOPS）不是最大瓶颈，是显存。而英伟达GPU在显存技术上拥有领先其他厂商1-2年的代际优势。

英伟达的主流数据中心GPU（如A100、H100）的单卡显存容量通常标配为80GB，而最新一代Rubin GPU搭载8颗36GB的HBM4内存颗粒（总容量 288GB），显存总带宽提升13 TB/s。

国产芯片受限于先进制程，显存容量和带宽都更低，仍需突围。比如：昇腾910B的显存容量为64GB。

按照此前梁文锋发布的论文，这次DeepSeek-V4应采用了独特的Engram架构，而Engram恰好解决的是显存容量瓶颈。

DeepSeek-V4的做法是，把模型里那些“死记硬背”的静态知识抽出来，塞进一个巨大的内存表里；推理时，CPU负责“查字典”（检索知识），GPU只负责“想逻辑”（计算推理）。

这两者是完全重叠执行的。当GPU在算上一个词的逻辑时，CPU已经把下一个词所需的知识搬到了门口。由于延迟被这种并行架构彻底掩盖，AI单位时间内的产出效率呈几何级数提升，GPU显存不再被KV cache撑爆。

比如：一个需要80GB显存才能跑的长上下文推理任务，在Engram架构下，可能只需要8GB显存就能跑。

这意味着国产GPU在显存受限的情况下，也能完成同样的任务，而英伟达引以为傲的HBM显存稀缺性面临崩塌。同时，CPU也将迎来爆发。

此外，更值得关注的是，DeepSeek-V4即将发布，这次没有按行业惯例给英伟达早期测试权限，把提前适配的机会全部留给了华为和寒武纪。目标是从CUDA生态整体迁移到华为CANN框架。

虽然英伟达的CUDA生态短期不会被取代，但已经出现了裂缝。这也意味着DeepSeek无论在开源生态还是国产自主上依然有着其强力的生态位。

据媒体报道，为应对基于该模型云服务上线需求，阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片，订单规模达数十万颗。

可以预见的是，这次即将发布的DeepSeek-V4，也将给AI投资带来新的预期。

新的投资预期

从投资角度看，妙投认为DeepSeek-V4将直接利好两大方向：国产算力及AI应用。

1.国产算力

如果DeepSeek-V4确认是完全基于国产算力训练出来的，那这将是国产芯片史上的“DeepSeek时刻”。这证明了即便没有H100，我们也能跑出世界一流的大模型。

这带来的边际变化是大超预期的。这个预期，不亚于Google凭借自研的TPU芯片训练出Gemini。要知道，Google已成为巴菲特的伯克希尔持仓标的。

此前，市场对国产算力的预期大多停留在“自主可控”的宏大叙事逻辑上，而V4将把逻辑推向“好用且必需”的商业逻辑。

这次受益的最大方，便是国产GPU厂商。华为、寒武纪已经明牌了。其他国产GPU厂商也将积极适配DeepSeek大模型。从确定性来看，以华为、寒武纪为代表的国产芯片、国产服务器及相关配套厂商的受益确定性最高。

展望2026年，寒武纪、壁仞科技、天数智芯等5家已上市AI芯公司Wind一致预期收入同比增长约120%到约257亿人民币。

此外，从弹性上来看，沐曦股份预期2026年将扭亏为盈，有望成为继寒武纪之后另一家盈利的GPU厂商，从而实现商业闭环。

因此，国产算力将为AI投资继续关注的重点。

2.AI应用

除了适配国产算力的推理需求，DeepSeek-V4可能通过创新架构（mHC和Engram技术）进一步降低训练和推理成本，加速中国AI价值链创新周期。

同时，DeepSeek有望帮助全球大语言模型和AI应用企业加速商业化进程，从而缓解日益沉重的资本开支压力。

随着Engram架构落地，GPU显存需求降低90%，推理的硬件成本会大幅压缩。这对终端部署（边缘AI推理）是重大利好。

此外，今年1月以来，A股AI应用板块表现低迷，核心痛点是“大模型吞噬软件”的恐惧。AI应用已经进入了“杀逻辑”的阶段。

但DeepSeekV4的发布可能改善这个情绪。对于国内A股的应用公司来说，大模型更像是一种廉价的基础设施，有利于优化成本。

妙投认为，与核心数据绑定较为紧密的AI应用企业、相关云服务厂商，也将有望迎来边际改善。

小结

英伟达依旧是训练大模型最强的基础设施，这一点没有悬念。短期内，它在高端训练GPU、CUDA生态和集群能力上的优势，依然很难被替代。

不可忽视，英伟达的优势正在逐步被DeepSeek“曲线救国”式地瓦解。

DeepSeek-V4率先适配国产芯片以及创新正在试图证明，AI推理不一定只能靠最贵的GPU继续往前推，系统级优化、软硬协同和本地化部署，同样可以打开一条新路。而国产算力又能往前再走一步。

不要高估了英伟达，也不要低估了DeepSeek和国产算力。

别高估英伟达别低估DeepSeek

别高估英伟达别低估DeepSeek

相关推荐

网购比价

网购返利

外卖红包

本地生活

麦享生活

热门标签