DeepSeek-V4 预览版正式上线,这次重点增强了什么?

时间:2026-04-24 13:52:06 来源:转载作者:lyp 点击:61

导读:本文是由lyp网友投稿,经过编辑发布关于"DeepSeek-V4 预览版正式上线,这次重点增强了什么?"的内容介绍。

千呼万唤,等了几个月的DeepSeek-V4终于和大家见面了。

今天深度求索推出了DeepSeek-V4系列模型的预览版本,包含两款强大的混合专家(MoE)语言模型:

DeepSeek-V4-Pro(总参数量1.6万亿,激活参数量490亿)

DeepSeek-V4-Flash(总参数量2840亿,激活参数量130亿)

两者均支持100万token的上下文长度。DeepSeek-V4系列在架构和优化方面引入了多项关键升级:

混合注意力架构,结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA),以提高长上下文效率;

流形约束超连接(mHC),增强了传统的残差连接;、

Muon优化器,以实现更快的收敛和更高的训练稳定性。

DeepSeek-V4 预览版正式上线,这次重点增强了什么?

DeepSeek-V4在超过32万亿个多样且高质量的token上对这两个模型进行了预训练,随后通过全面的后训练流程进一步解锁并增强它们的能力。DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理算力模式,重新定义了开放模型的业界最优水平,在核心任务上超越了其前代模型。同时,DeepSeek-V4系列在长上下文场景中效率极高。在百万token上下文设定下,与DeepSeek-V3.2相比,DeepSeek-V4-Pro仅需27%的单token推理浮点运算次数和10%的KV缓存。这使得他能够常规化支持百万token上下文,从而让长时程任务以及进一步的测试阶段扩展变得更加可行。模型权重可在

https://huggingface.co/collections/deepseek-ai/deepseek-v4 获取

上图左图:DeepSeek-V4-Pro-Max 及其对比模型的基准测试性能。右图:DeepSeek-V4系列与DeepSeek-V3.2的推理浮点运算次数和KV缓存大小。

推理模型(如 DeepSeek-AI,2025;OpenAI,2024c)的出现确立了一种新的测试阶段扩展(test-time scaling)范式,为大型语言模型(LLMs)带来了显著的性能提升。然而,这一扩展范式从根本上受到 标准注意力机制(Vaswani 等,2017)二次计算复杂度 的限制,这在处理超长上下文和复杂推理过程时形成了难以承受的瓶颈。

与此同时,长时程(long-horizon)场景和任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期的一些开源工作(Bai 等,2025a;DeepSeek-AI,2024;MiniMax,2025;Qwen,2025)在通用能力方面取得了进展,但在处理超长序列方面的这一核心架构低效问题仍然是主要障碍,限制了测试时扩展的进一步收益,也阻碍了对长时程任务的深入探索。

为突破超长上下文的效率瓶颈,DeepSeek-V4 系列模型提出了,包括:

DeepSeek-V4-Pro(预览版):1.6 万亿参数(激活参数 490 亿)

DeepSeek-V4-Flash:2840 亿参数(激活参数 130 亿)

通过架构创新,DeepSeek-V4 系列在处理超长序列的计算效率上实现了显著飞跃。这一突破使模型能够高效支持 百万级(1M)token 上下文长度,开启了下一代 LLM 的“百万上下文”时代。高效处理超长序列的能力将解锁test-time scaling的下一阶段,为长时程任务研究铺平道路,并为未来如在线学习等新范式奠定基础。

与 DeepSeek-V3 架构(DeepSeek-AI,2024)相比,DeepSeek-V4 系列在保留以下核心设计的同时进行了关键创新:

DeepSeekMoE 框架(Dai 等,2024)

多 Token 预测(MTP, Multi-Token Prediction)

同时引入了多项重要改进:

1. 长上下文效率优化

设计了一种 混合注意力机制:

CSA(Compressed Sparse Attention)

在序列维度压缩 KV cache

然后执行 DeepSeek Sparse Attention(DSA)

HCA(Heavily Compressed Attention)

更激进地压缩 KV cache

但仍保持 dense attention

2. 表达能力增强

引入:

mHC(Manifold-Constrained Hyper-Connections)

对传统残差连接(residual connection)的升级

提升模型表达能力

3. 训练优化

引入:

Muon 优化器

加速收敛

提升训练稳定性

4. 系统与基础设施优化

为了支持高效训练与推理,并提升开发效率,提出了一系列工程创新:

(1) MoE 融合算子

单一 fused kernel

DeepSeek-V4 预览版正式上线,这次重点增强了什么?

完全重叠:

计算

通信

内存访问

(2) TileLang DSL

专用领域语言(DSL)

在开发效率与运行效率之间取得平衡

(3) 可复现性

提供 batch-invariant 且 deterministic 的 kernel

实现训练与推理的 bitwise 可复现

(4) 低精度训练

引入 FP4 量化感知训练

用于 MoE expert 权重

用于 indexer 的 QK 路径

降低:

内存占用

计算成本

5. 训练框架优化

扩展 autograd:

支持 tensor-level checkpointing

实现细粒度重计算控制

引入:

用于处理压缩注意力

Muon 优化器的混合 ZeRO 策略

基于重计算与 fused kernel 的高效 mHC 实现

两阶段上下文并行(contextual parallelism)

6. 推理框架优化

设计 异构 KV cache 结构

支持:

磁盘存储策略(on-disk)

高效的 shared-prefix 复用

DeepSeek-V4 的核心贡献可以概括为:

通过“压缩注意力 + 架构增强 + 系统级优化”,把 LLM 的上下文长度从“万级”推进到“百万级”,同时保持可计算性。

DeepSeek-V3.2 与 DeepSeek-V4 系列在 单 token 推理 FLOPs 和 累计 KV cache 大小方面的估算对比。在 100 万(1M)token 上下文的场景下:

DeepSeek-V4 预览版正式上线,这次重点增强了什么?

DeepSeek-V4-Pro

尽管激活参数更多

单 token FLOPs(按等效 FP8 FLOPs 计)仅为 DeepSeek-V3.2 的 27%

KV cache 大小仅为 10%

DeepSeek-V4-Flash

激活参数更少,效率进一步提升

单 token FLOPs 仅为 10%

KV cache 大小仅为 7%

此外,在 DeepSeek-V4 系列中:

路由专家(MoE experts)参数采用 FP4 精度

当前硬件上:

FP4 × FP8 的峰值 FLOPs 与 FP8 × FP8 相同

但在未来硬件中:

理论上可实现 约 1/3 的额外效率提升

将进一步增强整体效率

预训练阶段

在预训练过程中:

DeepSeek-V4-Flash 使用 32 万亿(32T)tokens

DeepSeek-V4-Pro 使用 33 万亿(33T)tokens

预训练完成后,这两个模型均可 原生且高效地支持 100 万 token 上下文长度

在内部评测中:

DeepSeek-V4-Flash-Base

依靠更高的参数效率设计

已在大多数基准测试中超过 DeepSeek-V3.2-Base

DeepSeek-V4-Pro-Base

推理(reasoning)

编程(coding)

长上下文(long-context)

世界知识(world knowledge)

进一步扩大优势

在以下任务上实现全面领先:

后训练(Post-training)流程

DeepSeek-V4 系列采用 两阶段后训练范式:

第一阶段:领域专家独立训练

针对不同目标领域(例如):

数学(math)

编程(coding)

智能体(agent)

指令跟随(instruction following)

分别训练独立专家模型:

监督微调(SFT)

使用高质量领域数据

建立基础能力

强化学习(RL)

采用 GRPO(Group Relative Policy Optimization)

通过奖励模型进行优化

使模型行为更符合特定领域目标

DeepSeek-V4 预览版正式上线,这次重点增强了什么?

这一阶段产出:

一组多样化的领域专家模型

每个专家在对应领域表现突出

第二阶段:统一模型蒸馏

为了整合各领域能力:

训练一个统一模型(student)

通过 on-policy 蒸馏 学习多个专家(teacher)

具体方式:

优化 reverse KL loss

使 student 模型对齐 teacher 的策略分布

最终得到:

一个统一模型

同时具备多领域专家能力

评测结果总结

知识(Knowledge)

在广泛世界知识评估中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理强度模式)在 SimpleQA(OpenAI, 2024d) 和 Chinese-SimpleQA(He 等,2024) 基准上显著优于主流开源模型。

在教育类知识评估中(包括 MMLU-Pro(Wang 等,2024b)HLE(Phan 等,2025) 和 GPQA(Rein 等,2023)):

DeepSeek-V4-Pro-Max 相比开源模型仍有小幅领先

同时,虽然仍落后于领先的闭源模型 Gemini-3.1-Pro

但已经显著缩小差距

推理(Reasoning)

通过增加推理 token(即 test-time scaling),DeepSeek-V4-Pro-Max

在标准推理基准上优于:

GPT-5.2

Gemini-3.0-Pro

但略低于:

GPT-5.4

Gemini-3.1-Pro

这表明其整体能力大约落后最前沿模型 3~6 个月,此外,DeepSeek-V4-Flash-Max

在推理性能上可达到:

GPT-5.2

Gemini-3.0-Pro 的水平

同时具备更高性价比,是复杂推理任务中的高效架构选择

DeepSeek-V4 预览版正式上线,这次重点增强了什么?

智能体(Agent)

在公开基准上:

DeepSeek-V4-Pro-Max 与领先开源模型基本持平,例如:

Kimi-K2.6

GLM-5.1

但略逊于最前沿闭源模型

在内部评测中:

优于:

Claude Sonnet 4.5

接近:

Opus 4.5 的水平

长上下文(Long-Context)

DeepSeek-V4-Pro-Max 在 100 万 token 上下文窗口下表现出色

在合成任务和真实任务中均表现优异

在学术基准上甚至超过 Gemini-3.1-Pro

DeepSeek-V4-Pro vs DeepSeek-V4-Flash

DeepSeek-V4-Flash-Max:由于参数规模较小,在知识类评估中表现较弱,但在分配更大推理预算时,推理任务表现可与Pro接近。

在 Agent 任务中,在部分基准上可与 Pro 持平,但在高难度复杂任务中仍落后于 Pro。

DeepSeek-V4 系列的整体架构。在注意力层中采用混合的CSA(压缩稀疏注意力与HCA(重度压缩注意力),在前馈层中使用 DeepSeekMoE,并通过mHC(流形约束超连接)对传统残差连接进行增强。

点赞(779706)
收藏(615559)

声明:该文章观点仅代表作者本人,人民养生网提供信息发布服务,若涉及版权相关问题,请及时联系我们,我们会在24小时内删除。