
DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿
DeepSeek 于 2026 年 4 月 24 日正式发布 V4 预览版,包含 Pro 和 Flash 两个版本,以 1.6T 总参数、1M 上下文窗口、极低 API 定价冲击 AI 格局。本文基于官方技术报告与 HuggingFace 开源模型信息,全面解读其架构创新、性能表现与行业影响。
原创。信息来源:DeepSeek 官方公告、HuggingFace 模型仓库、技术报告。
2026 年 4 月 24 日,DeepSeek 正式发布了 V4 预览版——这不仅是 V3 系列之后最大的一次版本迭代,更是开源模型首次在多个核心基准上逼近甚至超越顶尖闭源模型。
一、模型概览
DeepSeek V4 系列包含两个版本:
| 模型 | 总参数量 | 激活参数量 | 上下文 | 精度 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 1M tokens | FP4 + FP8 混合 |
| DeepSeek-V4-Flash | 284B | 13B | 1M tokens | FP4 + FP8 混合 |
两个模型均采用 MoE(Mixture-of-Experts) 架构。Pro 版本定位"旗舰",目标与 GPT-5.5、Claude Opus 4.7 等闭源模型竞争;Flash 版本定位"轻量高效",以极低的成本提供服务。
所有模型权重在 MIT 许可下开源,可在 HuggingFace 和 ModelScope 下载。
二、架构创新
2.1 混合注意力机制
V4 最大的架构创新在于注意力机制。它设计了一种混合方案,结合了两种新的注意力类型:
- Compressed Sparse Attention (CSA) — 压缩稀疏注意力,对长序列进行高效处理
- Heavily Compressed Attention (HCA) — 重压缩注意力,进一步减少计算量
效果极其显著:在 1M token 上下文下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 占用仅为 V3.2 的 10%。
2.2 Manifold-Constrained Hyper-Connections (mHC)
V4 引入了 mHC 来增强传统的残差连接。这个设计的目的是改善信号在深层网络中的传播稳定性,同时保持模型的表达能力。简单说,就是让 1.6T 参数的巨模型能够更稳定地训练和推理。
2.3 Muon 优化器
DeepSeek 在 V4 的训练中采用了 Muon 优化器,替代了传统的 AdamW。Muon 优化器在 32T tokens 的预训练中表现出更快的收敛速度和更好的训练稳定性。
2.4 两阶段后训练
后训练采用了独特的两阶段范式:
- 独立培养 — 通过 SFT 和 GRPO 强化学习分别培养不同领域的专家能力
- 统一整合 — 通过 on-policy distillation 将不同领域的能力融合到单一模型中
这解释了为什么 V4 在代码、数学、知识等不同维度上都能有出色表现——它不是"全能但都不精",而是真正做到了多领域专家能力的融合。
三、性能表现
3.1 基础模型(Base)
在基础模型评测中,V4-Pro-Base 在几乎所有知识类基准上大幅领先 V3.2:
| 基准 | V3.2-Base | V4-Pro-Base |
|---|---|---|
| MMLU (5-shot) | 87.8 | 90.1 |
| MMLU-Pro (5-shot) | 65.5 | 73.5 |
| SimpleQA Verified | 28.3 | 55.2 |
| FACTS Parametric | 27.1 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 76.8 |
| MATH (4-shot) | 60.5 | 64.5 |
| LongBench-V2 | 40.2 | 51.5 |
知识能力的飞跃最为惊人——FACTS Parametric 从 27.1% 跃升至 62.6%,SimpleQA 从 28.3% 到 55.2%,几乎是翻倍增长。
3.2 指令模型(Instruct)
V4 支持三种推理模式:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| Non-Think | 快速直觉回应 | 日常任务、低风险决策 |
| Think High | 有意识逻辑分析 | 复杂问题解决、规划 |
| Think Max | 极限推理 | 探索推理能力边界 |
V4-Pro-Max(最高推理模式)与闭源模型的对比如下:
| 基准 | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | 88.8 | - | 91.7 |
| Codeforces Rating | 3206 | - | 3168 | 3052 |
| SWE Verified | 80.6 | 80.8 | - | 80.6 |
| MCPAtlas | 73.6 | 73.8 | 67.2 | 69.2 |
| BrowseComp | 83.4 | 83.7 | 82.7 | 85.9 |
| Apex Shortlist | 90.2 | 85.9 | 78.1 | 89.1 |
在编程基准上,V4-Pro-Max 表现极为抢眼。LiveCodeBench 达到 93.5%,Codeforces Rating 达到 3206——在编码竞赛场景中位列所有模型第一。SWE Verified 与 Opus 4.6 仅差 0.2 个百分点,几乎打平。
四、API 定价
V4 的定价策略延续了 DeepSeek 一贯的"价格屠夫"风格:
| 模型 | 输入(每百万 token) | 输出(每百万 token) | 缓存命中 |
|---|---|---|---|
| V4 Pro | $1.74 | $3.48 | 更低 |
| V4 Flash | $0.14 | $0.28 | 更低 |
对比竞品:Claude Opus 4.6 输出价格为 $25/百万 token,GPT-5.4 为 $30/百万 token。V4-Pro 的价格仅为 Opus 的 14%,而性能在多个维度已接近打平。
V4 Flash 版本尤其惊人:输出 $0.28/百万 token,比很多轻量模型还便宜,但在 SWE Verified 上能达到 79.0%。
五、Agent 能力优化
V4 在 Agent 能力上做了专门优化:
- 已与 Claude Code、OpenClaw、OpenCode 等主流 AI 编程 Agent 深度集成
- 支持 OpenAI ChatCompletions 和 Anthropic API 两种协议
- 内置 Tool Calls 支持,可直接调用外部工具
DeepSeek 内部已经在使用 V4 进行 Agent 编码,这为模型在真实编码场景中的表现提供了第一手验证。
六、行业影响
DeepSeek V4 的发布有几个重要信号:
-
开源 / 开放权重模型的追赶速度在加速。从 V3 到 V4,DeepSeek 从一个"还不错"的开源模型,变成了真正能在多个维度与前沿闭源模型竞争的选手。
-
定价压力持续加大。1M token 上下文、接近前沿的性能、不到闭源模型 1/5 的价格——这不是促销,而是常态化的定价策略。闭源模型厂商的定价空间正在被压缩。
-
1M 上下文成为标配。V4 和 Claude Opus 4.7 都支持 1M token 上下文,长上下文能力正在从前沿特性变成行业标配。
-
后训练方法创新。V4 的两阶段后训练(独立培养 + 统一整合)为模型训练提供了新思路——不需要一个模型在所有方面都从头学到尾,而是可以"分科培养、统一整合"。
七、注意事项
DeepSeek 官方在公告中特别提示:deepseek-chat 和 deepseek-reasoner 两个旧模型将在 2026 年 7 月 24 日后完全退役,目前已经路由到 V4-Flash。
另外,模型当前为预览版,DeepSeek 表示后续会继续优化性能,预计在年内推出 V4-Pro 的正式版,并计划在华为昇腾芯片大规模部署后进一步降低价格。
结语
DeepSeek V4 的发布是 2026 上半年 AI 领域最值得关注的事件之一。它不是"又一个开源模型",而是第一次让开源社区在编程、推理、知识等关键维度上拥有了真正能与闭源正面竞争的选择。结合其激进的价格策略,V4 很有可能加速整个行业的定价重构和开源生态的繁荣。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/ai/deepseek-v4-preview
相关文章
Claude Opus 4.7 发布:进阶软件工程能力的新里程碑
Anthropic 于 2026 年 4 月 16 日发布 Claude Opus 4.7,这是 Opus 4.6 的重大升级,在复杂软件工程任务上表现突出,支持 1M token 上下文、128K 输出,定价保持不变。
GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro vs DeepSeek V4:2026 年 5 月 AI 大模型横评
2026 年 5 月,四款前沿大模型同场竞技。OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7、Google 的 Gemini 3.1 Pro、DeepSeek 的 V4——哪个模型在代码、推理、Agent、知识方面最强?本文基于各大厂商官方数据和第三方评测,提供一份横向对比。
DeepSeek-R1:通过强化学习激发推理能力
DeepSeek 开源的推理模型 R1 用纯强化学习训练,不依赖人类标注的推理数据,在数学和编程任务上接近 OpenAI o1 水平。