DeepSeek V4 预览版全面解读：1M 上下文、1.6T MoE、开源逼近闭源前沿

原创。信息来源：DeepSeek 官方公告、HuggingFace 模型仓库、技术报告。

2026 年 4 月 24 日，DeepSeek 正式发布了 V4 预览版——这不仅是 V3 系列之后最大的一次版本迭代，更是开源模型首次在多个核心基准上逼近甚至超越顶尖闭源模型。

一、模型概览

DeepSeek V4 系列包含两个版本：

模型	总参数量	激活参数量	上下文	精度
DeepSeek-V4-Pro	1.6T	49B	1M tokens	FP4 + FP8 混合
DeepSeek-V4-Flash	284B	13B	1M tokens	FP4 + FP8 混合

两个模型均采用 MoE（Mixture-of-Experts） 架构。Pro 版本定位"旗舰"，目标与 GPT-5.5、Claude Opus 4.7 等闭源模型竞争；Flash 版本定位"轻量高效"，以极低的成本提供服务。

所有模型权重在 MIT 许可下开源，可在 HuggingFace 和 ModelScope 下载。

二、架构创新

2.1 混合注意力机制

V4 最大的架构创新在于注意力机制。它设计了一种混合方案，结合了两种新的注意力类型：

Compressed Sparse Attention (CSA) — 压缩稀疏注意力，对长序列进行高效处理
Heavily Compressed Attention (HCA) — 重压缩注意力，进一步减少计算量

效果极其显著：在 1M token 上下文下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 占用仅为 V3.2 的 10%。

2.2 Manifold-Constrained Hyper-Connections (mHC)

V4 引入了 mHC 来增强传统的残差连接。这个设计的目的是改善信号在深层网络中的传播稳定性，同时保持模型的表达能力。简单说，就是让 1.6T 参数的巨模型能够更稳定地训练和推理。

2.3 Muon 优化器

DeepSeek 在 V4 的训练中采用了 Muon 优化器，替代了传统的 AdamW。Muon 优化器在 32T tokens 的预训练中表现出更快的收敛速度和更好的训练稳定性。

2.4 两阶段后训练

后训练采用了独特的两阶段范式：

独立培养 — 通过 SFT 和 GRPO 强化学习分别培养不同领域的专家能力
统一整合 — 通过 on-policy distillation 将不同领域的能力融合到单一模型中

这解释了为什么 V4 在代码、数学、知识等不同维度上都能有出色表现——它不是"全能但都不精"，而是真正做到了多领域专家能力的融合。

三、性能表现

3.1 基础模型（Base）

在基础模型评测中，V4-Pro-Base 在几乎所有知识类基准上大幅领先 V3.2：

基准	V3.2-Base	V4-Pro-Base
MMLU (5-shot)	87.8	90.1
MMLU-Pro (5-shot)	65.5	73.5
SimpleQA Verified	28.3	55.2
FACTS Parametric	27.1	62.6
HumanEval (Pass@1)	62.8	76.8
MATH (4-shot)	60.5	64.5
LongBench-V2	40.2	51.5

知识能力的飞跃最为惊人——FACTS Parametric 从 27.1% 跃升至 62.6%，SimpleQA 从 28.3% 到 55.2%，几乎是翻倍增长。

3.2 指令模型（Instruct）

V4 支持三种推理模式：

模式	特点	适用场景
Non-Think	快速直觉回应	日常任务、低风险决策
Think High	有意识逻辑分析	复杂问题解决、规划
Think Max	极限推理	探索推理能力边界

V4-Pro-Max（最高推理模式）与闭源模型的对比如下：

基准	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro High
LiveCodeBench	93.5	88.8	-	91.7
Codeforces Rating	3206	-	3168	3052
SWE Verified	80.6	80.8	-	80.6
MCPAtlas	73.6	73.8	67.2	69.2
BrowseComp	83.4	83.7	82.7	85.9
Apex Shortlist	90.2	85.9	78.1	89.1

在编程基准上，V4-Pro-Max 表现极为抢眼。LiveCodeBench 达到 93.5%，Codeforces Rating 达到 3206——在编码竞赛场景中位列所有模型第一。SWE Verified 与 Opus 4.6 仅差 0.2 个百分点，几乎打平。

四、API 定价

V4 的定价策略延续了 DeepSeek 一贯的"价格屠夫"风格：

模型	输入（每百万 token）	输出（每百万 token）	缓存命中
V4 Pro	$1.74	$3.48	更低
V4 Flash	$0.14	$0.28	更低

对比竞品：Claude Opus 4.6 输出价格为 $25/百万 token，GPT-5.4 为 $30/百万 token。V4-Pro 的价格仅为 Opus 的 14%，而性能在多个维度已接近打平。

V4 Flash 版本尤其惊人：输出 $0.28/百万 token，比很多轻量模型还便宜，但在 SWE Verified 上能达到 79.0%。

五、Agent 能力优化

V4 在 Agent 能力上做了专门优化：

已与 Claude Code、OpenClaw、OpenCode 等主流 AI 编程 Agent 深度集成
支持 OpenAI ChatCompletions 和 Anthropic API 两种协议
内置 Tool Calls 支持，可直接调用外部工具

DeepSeek 内部已经在使用 V4 进行 Agent 编码，这为模型在真实编码场景中的表现提供了第一手验证。

六、行业影响

DeepSeek V4 的发布有几个重要信号：

开源 / 开放权重模型的追赶速度在加速。从 V3 到 V4，DeepSeek 从一个"还不错"的开源模型，变成了真正能在多个维度与前沿闭源模型竞争的选手。
定价压力持续加大。1M token 上下文、接近前沿的性能、不到闭源模型 1/5 的价格——这不是促销，而是常态化的定价策略。闭源模型厂商的定价空间正在被压缩。
1M 上下文成为标配。V4 和 Claude Opus 4.7 都支持 1M token 上下文，长上下文能力正在从前沿特性变成行业标配。
后训练方法创新。V4 的两阶段后训练（独立培养 + 统一整合）为模型训练提供了新思路——不需要一个模型在所有方面都从头学到尾，而是可以"分科培养、统一整合"。

七、注意事项

DeepSeek 官方在公告中特别提示：deepseek-chat 和 deepseek-reasoner 两个旧模型将在 2026 年 7 月 24 日后完全退役，目前已经路由到 V4-Flash。

另外，模型当前为预览版，DeepSeek 表示后续会继续优化性能，预计在年内推出 V4-Pro 的正式版，并计划在华为昇腾芯片大规模部署后进一步降低价格。

结语

DeepSeek V4 的发布是 2026 上半年 AI 领域最值得关注的事件之一。它不是"又一个开源模型"，而是第一次让开源社区在编程、推理、知识等关键维度上拥有了真正能与闭源正面竞争的选择。结合其激进的价格策略，V4 很有可能加速整个行业的定价重构和开源生态的繁荣。