时间:2026-04-24 13:52:06 来源:转载作者:lyp 点击:61
千呼万唤,等了几个月的DeepSeek-V4终于和大家见面了。
今天深度求索推出了DeepSeek-V4系列模型的预览版本,包含两款强大的混合专家(MoE)语言模型:
DeepSeek-V4-Pro(总参数量1.6万亿,激活参数量490亿)
DeepSeek-V4-Flash(总参数量2840亿,激活参数量130亿)
两者均支持100万token的上下文长度。DeepSeek-V4系列在架构和优化方面引入了多项关键升级:
混合注意力架构,结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA),以提高长上下文效率;
流形约束超连接(mHC),增强了传统的残差连接;、
Muon优化器,以实现更快的收敛和更高的训练稳定性。

DeepSeek-V4在超过32万亿个多样且高质量的token上对这两个模型进行了预训练,随后通过全面的后训练流程进一步解锁并增强它们的能力。DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理算力模式,重新定义了开放模型的业界最优水平,在核心任务上超越了其前代模型。同时,DeepSeek-V4系列在长上下文场景中效率极高。在百万token上下文设定下,与DeepSeek-V3.2相比,DeepSeek-V4-Pro仅需27%的单token推理浮点运算次数和10%的KV缓存。这使得他能够常规化支持百万token上下文,从而让长时程任务以及进一步的测试阶段扩展变得更加可行。模型权重可在
https://huggingface.co/collections/deepseek-ai/deepseek-v4 获取
上图左图:DeepSeek-V4-Pro-Max 及其对比模型的基准测试性能。右图:DeepSeek-V4系列与DeepSeek-V3.2的推理浮点运算次数和KV缓存大小。
推理模型(如 DeepSeek-AI,2025;OpenAI,2024c)的出现确立了一种新的测试阶段扩展(test-time scaling)范式,为大型语言模型(LLMs)带来了显著的性能提升。然而,这一扩展范式从根本上受到 标准注意力机制(Vaswani 等,2017)二次计算复杂度 的限制,这在处理超长上下文和复杂推理过程时形成了难以承受的瓶颈。
与此同时,长时程(long-horizon)场景和任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期的一些开源工作(Bai 等,2025a;DeepSeek-AI,2024;MiniMax,2025;Qwen,2025)在通用能力方面取得了进展,但在处理超长序列方面的这一核心架构低效问题仍然是主要障碍,限制了测试时扩展的进一步收益,也阻碍了对长时程任务的深入探索。
为突破超长上下文的效率瓶颈,DeepSeek-V4 系列模型提出了,包括:
DeepSeek-V4-Pro(预览版):1.6 万亿参数(激活参数 490 亿)
DeepSeek-V4-Flash:2840 亿参数(激活参数 130 亿)
通过架构创新,DeepSeek-V4 系列在处理超长序列的计算效率上实现了显著飞跃。这一突破使模型能够高效支持 百万级(1M)token 上下文长度,开启了下一代 LLM 的“百万上下文”时代。高效处理超长序列的能力将解锁test-time scaling的下一阶段,为长时程任务研究铺平道路,并为未来如在线学习等新范式奠定基础。
与 DeepSeek-V3 架构(DeepSeek-AI,2024)相比,DeepSeek-V4 系列在保留以下核心设计的同时进行了关键创新:
DeepSeekMoE 框架(Dai 等,2024)
多 Token 预测(MTP, Multi-Token Prediction)
同时引入了多项重要改进:
1. 长上下文效率优化
设计了一种 混合注意力机制:
CSA(Compressed Sparse Attention)
在序列维度压缩 KV cache
然后执行 DeepSeek Sparse Attention(DSA)
HCA(Heavily Compressed Attention)
更激进地压缩 KV cache
但仍保持 dense attention
2. 表达能力增强
引入:
mHC(Manifold-Constrained Hyper-Connections)
对传统残差连接(residual connection)的升级
提升模型表达能力
3. 训练优化
引入:
Muon 优化器
加速收敛
提升训练稳定性
4. 系统与基础设施优化
为了支持高效训练与推理,并提升开发效率,提出了一系列工程创新:
(1) MoE 融合算子
单一 fused kernel

完全重叠:
计算
通信
内存访问
(2) TileLang DSL
专用领域语言(DSL)
在开发效率与运行效率之间取得平衡
(3) 可复现性
提供 batch-invariant 且 deterministic 的 kernel
实现训练与推理的 bitwise 可复现
(4) 低精度训练
引入 FP4 量化感知训练
用于 MoE expert 权重
用于 indexer 的 QK 路径
降低:
内存占用
计算成本
5. 训练框架优化
扩展 autograd:
支持 tensor-level checkpointing
实现细粒度重计算控制
引入:
用于处理压缩注意力
Muon 优化器的混合 ZeRO 策略
基于重计算与 fused kernel 的高效 mHC 实现
两阶段上下文并行(contextual parallelism)
6. 推理框架优化
设计 异构 KV cache 结构
支持:
磁盘存储策略(on-disk)
高效的 shared-prefix 复用
DeepSeek-V4 的核心贡献可以概括为:
通过“压缩注意力 + 架构增强 + 系统级优化”,把 LLM 的上下文长度从“万级”推进到“百万级”,同时保持可计算性。
DeepSeek-V3.2 与 DeepSeek-V4 系列在 单 token 推理 FLOPs 和 累计 KV cache 大小方面的估算对比。在 100 万(1M)token 上下文的场景下:

DeepSeek-V4-Pro
尽管激活参数更多
单 token FLOPs(按等效 FP8 FLOPs 计)仅为 DeepSeek-V3.2 的 27%
KV cache 大小仅为 10%
DeepSeek-V4-Flash
激活参数更少,效率进一步提升
单 token FLOPs 仅为 10%
KV cache 大小仅为 7%
此外,在 DeepSeek-V4 系列中:
路由专家(MoE experts)参数采用 FP4 精度
当前硬件上:
FP4 × FP8 的峰值 FLOPs 与 FP8 × FP8 相同
但在未来硬件中:
理论上可实现 约 1/3 的额外效率提升
将进一步增强整体效率
预训练阶段
在预训练过程中:
DeepSeek-V4-Flash 使用 32 万亿(32T)tokens
DeepSeek-V4-Pro 使用 33 万亿(33T)tokens
预训练完成后,这两个模型均可 原生且高效地支持 100 万 token 上下文长度。
在内部评测中:
DeepSeek-V4-Flash-Base
依靠更高的参数效率设计
已在大多数基准测试中超过 DeepSeek-V3.2-Base
DeepSeek-V4-Pro-Base
推理(reasoning)
编程(coding)
长上下文(long-context)
世界知识(world knowledge)
进一步扩大优势
在以下任务上实现全面领先:
后训练(Post-training)流程
DeepSeek-V4 系列采用 两阶段后训练范式:
第一阶段:领域专家独立训练
针对不同目标领域(例如):
数学(math)
编程(coding)
智能体(agent)
指令跟随(instruction following)
分别训练独立专家模型:
监督微调(SFT)
使用高质量领域数据
建立基础能力
强化学习(RL)
采用 GRPO(Group Relative Policy Optimization)
通过奖励模型进行优化
使模型行为更符合特定领域目标

这一阶段产出:
一组多样化的领域专家模型
每个专家在对应领域表现突出
第二阶段:统一模型蒸馏
为了整合各领域能力:
训练一个统一模型(student)
通过 on-policy 蒸馏 学习多个专家(teacher)
具体方式:
优化 reverse KL loss
使 student 模型对齐 teacher 的策略分布
最终得到:
一个统一模型
同时具备多领域专家能力
评测结果总结
知识(Knowledge)
在广泛世界知识评估中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理强度模式)在 SimpleQA(OpenAI, 2024d) 和 Chinese-SimpleQA(He 等,2024) 基准上显著优于主流开源模型。
在教育类知识评估中(包括 MMLU-Pro(Wang 等,2024b)、HLE(Phan 等,2025) 和 GPQA(Rein 等,2023)):
DeepSeek-V4-Pro-Max 相比开源模型仍有小幅领先
同时,虽然仍落后于领先的闭源模型 Gemini-3.1-Pro
但已经显著缩小差距
推理(Reasoning)
通过增加推理 token(即 test-time scaling),DeepSeek-V4-Pro-Max
在标准推理基准上优于:
GPT-5.2
Gemini-3.0-Pro
但略低于:
GPT-5.4
Gemini-3.1-Pro
这表明其整体能力大约落后最前沿模型 3~6 个月,此外,DeepSeek-V4-Flash-Max
在推理性能上可达到:
GPT-5.2
Gemini-3.0-Pro 的水平
同时具备更高性价比,是复杂推理任务中的高效架构选择

智能体(Agent)
在公开基准上:
DeepSeek-V4-Pro-Max 与领先开源模型基本持平,例如:
Kimi-K2.6
GLM-5.1
但略逊于最前沿闭源模型
在内部评测中:
优于:
Claude Sonnet 4.5
接近:
Opus 4.5 的水平
长上下文(Long-Context)
DeepSeek-V4-Pro-Max 在 100 万 token 上下文窗口下表现出色
在合成任务和真实任务中均表现优异
在学术基准上甚至超过 Gemini-3.1-Pro
DeepSeek-V4-Pro vs DeepSeek-V4-Flash
DeepSeek-V4-Flash-Max:由于参数规模较小,在知识类评估中表现较弱,但在分配更大推理预算时,推理任务表现可与Pro接近。
在 Agent 任务中,在部分基准上可与 Pro 持平,但在高难度复杂任务中仍落后于 Pro。
DeepSeek-V4 系列的整体架构。在注意力层中采用混合的CSA(压缩稀疏注意力与HCA(重度压缩注意力),在前馈层中使用 DeepSeekMoE,并通过mHC(流形约束超连接)对传统残差连接进行增强。
声明:该文章观点仅代表作者本人,人民养生网提供信息发布服务,若涉及版权相关问题,请及时联系我们,我们会在24小时内删除。
上一篇: 皮肤抗老化医疗美容医院哪家好?