AI 前沿·阅读约 2 分钟·
DeepSeek-R1:通过强化学习激发推理能力

DeepSeek-R1:通过强化学习激发推理能力

DeepSeek 开源的推理模型 R1 用纯强化学习训练,不依赖人类标注的推理数据,在数学和编程任务上接近 OpenAI o1 水平。

原文来源:DeepSeek-R1 GitHub — DeepSeek 开源的推理模型,通过纯强化学习训练,在数学、编程和逻辑推理任务上达到接近 OpenAI o1 的水平。

2024 年底,DeepSeek 发布了 R1 模型,在 AI 社区引发了巨大反响。不是因为它的规模(参数量不是最大的),而是因为它的训练方法——纯强化学习,不依赖人类标注的推理数据。这个突破让开源社区第一次获得了接近顶尖闭源推理模型的能力。

R1 的核心创新

传统 LLM 的训练流程是:预训练(学语言)→ 监督微调(学回答格式)→ RLHF(学人类偏好)。R1 在这个基础上增加了一个关键步骤:在基础模型上直接应用强化学习,让模型自己学会"思考"。

具体来说,R1 的训练分为两个阶段:

阶段一:冷启动

用少量高质量推理示例(约 5000 条)对基础模型进行监督微调。这些示例展示了"思考链"的格式——不是直接给答案,而是展示推理过程。

阶段二:强化学习

对冷启动后的模型应用 GRPO(Group Relative Policy Optimization)强化学习。模型生成多个候选答案,奖励函数评估答案的正确性,模型通过梯度更新学会生成更好的推理过程。

关键突破:奖励函数只评估最终答案是否正确,不评估推理过程本身。这意味着模型需要自己学会"如何思考",而不是模仿人类的思考方式。

能力表现

R1 在多个推理基准测试上的表现:

任务R1OpenAI o1GPT-4o
MATH-50097.3%96.4%74.6%
AIME 202479.8%79.2%39.2%
Codeforces96.3%96.6%58.7%
GPQA Diamond71.5%75.5%62.1%

在数学和编程任务上,R1 接近甚至超过 o1。在科学问答(GPQA)上稍逊,但仍然显著优于 GPT-4o。

开源的意义

R1 的开源发布有几个重要意义:

训练方法透明 — DeepSeek 公开了技术报告,详细描述了训练流程、奖励函数设计、超参数选择。这让其他团队可以复现和改进。

权重开放下载 — 模型权重完全开放,可以本地运行、微调、蒸馏。社区已经基于 R1 蒸馏出了多个小模型(1.5B 到 70B 参数),在消费级硬件上运行。

成本降低 — R1 的 API 定价远低于 o1。输入 token 约 0.14 美元/百万,输出 token 约 2.19 美元/百万,是 o1 的 1/30 到 1/50。

推理过程的特点

R1 的推理过程有几个有趣的特点:

自我修正 — 模型在推理过程中会检查自己的中间步骤,发现错误后回溯重来。

多路径探索 — 对于复杂问题,模型会尝试多种解法,然后选择最可靠的。

反思 — 模型会评估自己的推理是否充分,有时会补充"让我再检查一下"之类的自我反思。

这些行为不是训练时显式教授的,而是强化学习自然涌现的。模型发现"检查答案"能提高正确率,于是学会了这个策略。

使用方式

通过 API

code
import openai
 
client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.deepseek.com"
)
 
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "解这个方程:2x + 5 = 13"}
    ]
)
 
print(response.choices[0].message.content)

本地运行

通过 Ollama 或 llama.cpp 运行蒸馏版模型:

code
ollama run deepseek-r1:14b

对行业的影响

R1 的发布加速了推理模型的普及:

开源社区追赶闭源 — 之前推理能力是 OpenAI 的独家优势,R1 证明开源社区也能达到相近水平。

推理成本下降 — R1 的低价 API 和开源权重让推理能力从"高端服务"变成"基础设施"。

训练范式转变 — 纯 RL 训练的成功证明了不需要大量人类标注数据,模型可以自己学会推理。

局限性

R1 不是完美的:

通用能力有限 — 在非推理任务(创意写作、开放对话)上,R1 的表现不如通用模型。

推理时间长 — 复杂问题的推理过程可能包含数千个 token,响应时间显著长于普通模型。

语言混合 — 训练数据以英文和中文为主,其他语言的支持较弱。

总结

DeepSeek-R1 是 2024 年最重要的开源 AI 发布之一。它不仅提供了接近顶尖水平的推理能力,更重要的是展示了一条新的训练路径——纯强化学习让模型自主学会思考。

对于开发者来说,R1 意味着高质量的推理能力变得可获取、可负担、可定制。对于 AI 研究来说,R1 证明了开源社区在核心能力上追赶闭源模型的可能性。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/ai/deepseek-r1-reasoning