DeepSeek V4发布预告：第三代MoE架构曝光，性能对标GPT-5 Turbo

2026年4月2日，深度求索（DeepSeek）在官方技术博客上发布了DeepSeek V4的技术预览报告。这款备受期待的下一代大模型采用了全新的第三代混合专家（MoE）架构，总参数量达到2.4万亿，激活参数为480B，在多项权威基准测试中超越GPT-5 Turbo。

2.4T

总参数量

480B

激活参数

专家模块数量

第三代MoE架构的技术创新

DeepSeek V4的核心突破在于全新的「自适应路由MoE」架构，与传统MoE的三项关键差异：

不同于V3中每层独立的专家配置，V4引入了跨层共享专家池。96个专家中，32个为全局共享专家，64个为层级专属专家。共享专家负责处理通用知识表征，专属专家聚焦层级特定任务，实现了参数效率提升40%。

新引入的「注意力感知路由」机制，让专家选择不再仅依赖Token表示，还综合考虑注意力分布和上下文语义。每个Token激活的专家数从V3的8个优化为4-12个动态范围，在简单任务上节省算力，复杂任务上增强能力。

通过结合FlashAttention-4和自研的通信压缩算法，DeepSeek V4的训练效率比V3提升2.8倍。在1万卡H800集群上，完成全量训练仅需28天。

📌 性能亮点：在MMLU-Pro测试中达到91.3%，在HumanEval+上达到89.7%，在GPQA Diamond上达到72.1%，三项指标均超越GPT-5 Turbo同期水平。

DeepSeek V4将首次原生支持多模态输入输出，包括：

一道科技作为DeepSeek生态合作伙伴，可为企业提供V4的早期体验、场景评估和私有化部署规划服务。

DeepSeek确认V4将延续开源路线，计划分三个阶段发布：

阶段一（预计4月底）：发布V4-Base基座模型和V4-Chat对话模型，采用DeepSeek License 2.0开源协议，允许商业使用。

阶段二（预计5月）：发布V4-Coder编程模型和V4-Math数学推理模型。

阶段三（预计6月）：发布V4多模态模型和API服务，提供按量付费和包年两种模式。

一道科技已建立覆盖DeepSeek全系列、通义千问、百川等国产大模型的评估与部署体系，帮助企业找到最适合的AI方案。