2026年4月2日,深度求索(DeepSeek)在官方技术博客上发布了DeepSeek V4的技术预览报告。这款备受期待的下一代大模型采用了全新的第三代混合专家(MoE)架构,总参数量达到2.4万亿,激活参数为480B,在多项权威基准测试中超越GPT-5 Turbo。
DeepSeek V4的核心突破在于全新的「自适应路由MoE」架构,与传统MoE的三项关键差异:
不同于V3中每层独立的专家配置,V4引入了跨层共享专家池。96个专家中,32个为全局共享专家,64个为层级专属专家。共享专家负责处理通用知识表征,专属专家聚焦层级特定任务,实现了参数效率提升40%。
新引入的「注意力感知路由」机制,让专家选择不再仅依赖Token表示,还综合考虑注意力分布和上下文语义。每个Token激活的专家数从V3的8个优化为4-12个动态范围,在简单任务上节省算力,复杂任务上增强能力。
通过结合FlashAttention-4和自研的通信压缩算法,DeepSeek V4的训练效率比V3提升2.8倍。在1万卡H800集群上,完成全量训练仅需28天。
📌 性能亮点:在MMLU-Pro测试中达到91.3%,在HumanEval+上达到89.7%,在GPQA Diamond上达到72.1%,三项指标均超越GPT-5 Turbo同期水平。
DeepSeek V4将首次原生支持多模态输入输出,包括:
DeepSeek确认V4将延续开源路线,计划分三个阶段发布:
阶段一(预计4月底):发布V4-Base基座模型和V4-Chat对话模型,采用DeepSeek License 2.0开源协议,允许商业使用。
阶段二(预计5月):发布V4-Coder编程模型和V4-Math数学推理模型。
阶段三(预计6月):发布V4多模态模型和API服务,提供按量付费和包年两种模式。