AI 前沿·阅读约 3 分钟·
DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿

DeepSeek V4 预览版全面解读:1M 上下文、1.6T MoE、开源逼近闭源前沿

DeepSeek 于 2026 年 4 月 24 日正式发布 V4 预览版,包含 Pro 和 Flash 两个版本,以 1.6T 总参数、1M 上下文窗口、极低 API 定价冲击 AI 格局。本文基于官方技术报告与 HuggingFace 开源模型信息,全面解读其架构创新、性能表现与行业影响。

原创。信息来源:DeepSeek 官方公告HuggingFace 模型仓库技术报告

2026 年 4 月 24 日,DeepSeek 正式发布了 V4 预览版——这不仅是 V3 系列之后最大的一次版本迭代,更是开源模型首次在多个核心基准上逼近甚至超越顶尖闭源模型。

一、模型概览

DeepSeek V4 系列包含两个版本:

模型总参数量激活参数量上下文精度
DeepSeek-V4-Pro1.6T49B1M tokensFP4 + FP8 混合
DeepSeek-V4-Flash284B13B1M tokensFP4 + FP8 混合

两个模型均采用 MoE(Mixture-of-Experts) 架构。Pro 版本定位"旗舰",目标与 GPT-5.5、Claude Opus 4.7 等闭源模型竞争;Flash 版本定位"轻量高效",以极低的成本提供服务。

所有模型权重在 MIT 许可下开源,可在 HuggingFace 和 ModelScope 下载。

二、架构创新

2.1 混合注意力机制

V4 最大的架构创新在于注意力机制。它设计了一种混合方案,结合了两种新的注意力类型:

  • Compressed Sparse Attention (CSA) — 压缩稀疏注意力,对长序列进行高效处理
  • Heavily Compressed Attention (HCA) — 重压缩注意力,进一步减少计算量

效果极其显著:在 1M token 上下文下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 占用仅为 V3.2 的 10%

2.2 Manifold-Constrained Hyper-Connections (mHC)

V4 引入了 mHC 来增强传统的残差连接。这个设计的目的是改善信号在深层网络中的传播稳定性,同时保持模型的表达能力。简单说,就是让 1.6T 参数的巨模型能够更稳定地训练和推理。

2.3 Muon 优化器

DeepSeek 在 V4 的训练中采用了 Muon 优化器,替代了传统的 AdamW。Muon 优化器在 32T tokens 的预训练中表现出更快的收敛速度和更好的训练稳定性。

2.4 两阶段后训练

后训练采用了独特的两阶段范式:

  1. 独立培养 — 通过 SFT 和 GRPO 强化学习分别培养不同领域的专家能力
  2. 统一整合 — 通过 on-policy distillation 将不同领域的能力融合到单一模型中

这解释了为什么 V4 在代码、数学、知识等不同维度上都能有出色表现——它不是"全能但都不精",而是真正做到了多领域专家能力的融合。

三、性能表现

3.1 基础模型(Base)

在基础模型评测中,V4-Pro-Base 在几乎所有知识类基准上大幅领先 V3.2:

基准V3.2-BaseV4-Pro-Base
MMLU (5-shot)87.890.1
MMLU-Pro (5-shot)65.573.5
SimpleQA Verified28.355.2
FACTS Parametric27.162.6
HumanEval (Pass@1)62.876.8
MATH (4-shot)60.564.5
LongBench-V240.251.5

知识能力的飞跃最为惊人——FACTS Parametric 从 27.1% 跃升至 62.6%,SimpleQA 从 28.3% 到 55.2%,几乎是翻倍增长。

3.2 指令模型(Instruct)

V4 支持三种推理模式:

模式特点适用场景
Non-Think快速直觉回应日常任务、低风险决策
Think High有意识逻辑分析复杂问题解决、规划
Think Max极限推理探索推理能力边界

V4-Pro-Max(最高推理模式)与闭源模型的对比如下:

基准V4-Pro MaxOpus 4.6 MaxGPT-5.4 xHighGemini 3.1 Pro High
LiveCodeBench93.588.8-91.7
Codeforces Rating3206-31683052
SWE Verified80.680.8-80.6
MCPAtlas73.673.867.269.2
BrowseComp83.483.782.785.9
Apex Shortlist90.285.978.189.1

在编程基准上,V4-Pro-Max 表现极为抢眼。LiveCodeBench 达到 93.5%,Codeforces Rating 达到 3206——在编码竞赛场景中位列所有模型第一。SWE Verified 与 Opus 4.6 仅差 0.2 个百分点,几乎打平。

四、API 定价

V4 的定价策略延续了 DeepSeek 一贯的"价格屠夫"风格:

模型输入(每百万 token)输出(每百万 token)缓存命中
V4 Pro$1.74$3.48更低
V4 Flash$0.14$0.28更低

对比竞品:Claude Opus 4.6 输出价格为 $25/百万 token,GPT-5.4 为 $30/百万 token。V4-Pro 的价格仅为 Opus 的 14%,而性能在多个维度已接近打平。

V4 Flash 版本尤其惊人:输出 $0.28/百万 token,比很多轻量模型还便宜,但在 SWE Verified 上能达到 79.0%。

五、Agent 能力优化

V4 在 Agent 能力上做了专门优化:

  • 已与 Claude Code、OpenClaw、OpenCode 等主流 AI 编程 Agent 深度集成
  • 支持 OpenAI ChatCompletions 和 Anthropic API 两种协议
  • 内置 Tool Calls 支持,可直接调用外部工具

DeepSeek 内部已经在使用 V4 进行 Agent 编码,这为模型在真实编码场景中的表现提供了第一手验证。

六、行业影响

DeepSeek V4 的发布有几个重要信号:

  1. 开源 / 开放权重模型的追赶速度在加速。从 V3 到 V4,DeepSeek 从一个"还不错"的开源模型,变成了真正能在多个维度与前沿闭源模型竞争的选手。

  2. 定价压力持续加大。1M token 上下文、接近前沿的性能、不到闭源模型 1/5 的价格——这不是促销,而是常态化的定价策略。闭源模型厂商的定价空间正在被压缩。

  3. 1M 上下文成为标配。V4 和 Claude Opus 4.7 都支持 1M token 上下文,长上下文能力正在从前沿特性变成行业标配。

  4. 后训练方法创新。V4 的两阶段后训练(独立培养 + 统一整合)为模型训练提供了新思路——不需要一个模型在所有方面都从头学到尾,而是可以"分科培养、统一整合"。

七、注意事项

DeepSeek 官方在公告中特别提示:deepseek-chat 和 deepseek-reasoner 两个旧模型将在 2026 年 7 月 24 日后完全退役,目前已经路由到 V4-Flash。

另外,模型当前为预览版,DeepSeek 表示后续会继续优化性能,预计在年内推出 V4-Pro 的正式版,并计划在华为昇腾芯片大规模部署后进一步降低价格。

结语

DeepSeek V4 的发布是 2026 上半年 AI 领域最值得关注的事件之一。它不是"又一个开源模型",而是第一次让开源社区在编程、推理、知识等关键维度上拥有了真正能与闭源正面竞争的选择。结合其激进的价格策略,V4 很有可能加速整个行业的定价重构和开源生态的繁荣。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/ai/deepseek-v4-preview