麦享科技9月29日消息,今日,DeepSeek宣布正式发布DeepSeek-V3.2-Exp模型。
该模型为实验性(Experimental)版本,是迈向新一代架构的中间步骤。
V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价,新价格即刻生效。
DeepSeek-V3.2-Exp API
输入缓存命中0.2元;
输入未缓存命中2元;
输出3元。
DeepSeek表示,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
据介绍,DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
为了严谨地评估引入稀疏注意力带来的影响,DeepSeek特意DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行严格对齐。
在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。
DeepSeek-V3.2-Exp模型现已在Huggingface与魔搭开源:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp