DeepSeek-R1：通过强化学习激发推理能力

原文来源：DeepSeek-R1 GitHub — DeepSeek 开源的推理模型，通过纯强化学习训练，在数学、编程和逻辑推理任务上达到接近 OpenAI o1 的水平。

2024 年底，DeepSeek 发布了 R1 模型，在 AI 社区引发了巨大反响。不是因为它的规模（参数量不是最大的），而是因为它的训练方法——纯强化学习，不依赖人类标注的推理数据。这个突破让开源社区第一次获得了接近顶尖闭源推理模型的能力。

R1 的核心创新

传统 LLM 的训练流程是：预训练（学语言）→ 监督微调（学回答格式）→ RLHF（学人类偏好）。R1 在这个基础上增加了一个关键步骤：在基础模型上直接应用强化学习，让模型自己学会"思考"。

具体来说，R1 的训练分为两个阶段：

阶段一：冷启动

用少量高质量推理示例（约 5000 条）对基础模型进行监督微调。这些示例展示了"思考链"的格式——不是直接给答案，而是展示推理过程。

阶段二：强化学习

对冷启动后的模型应用 GRPO（Group Relative Policy Optimization）强化学习。模型生成多个候选答案，奖励函数评估答案的正确性，模型通过梯度更新学会生成更好的推理过程。

关键突破：奖励函数只评估最终答案是否正确，不评估推理过程本身。这意味着模型需要自己学会"如何思考"，而不是模仿人类的思考方式。

能力表现

R1 在多个推理基准测试上的表现：

任务	R1	OpenAI o1	GPT-4o
MATH-500	97.3%	96.4%	74.6%
AIME 2024	79.8%	79.2%	39.2%
Codeforces	96.3%	96.6%	58.7%
GPQA Diamond	71.5%	75.5%	62.1%

在数学和编程任务上，R1 接近甚至超过 o1。在科学问答（GPQA）上稍逊，但仍然显著优于 GPT-4o。

开源的意义

R1 的开源发布有几个重要意义：

训练方法透明 — DeepSeek 公开了技术报告，详细描述了训练流程、奖励函数设计、超参数选择。这让其他团队可以复现和改进。

权重开放下载 — 模型权重完全开放，可以本地运行、微调、蒸馏。社区已经基于 R1 蒸馏出了多个小模型（1.5B 到 70B 参数），在消费级硬件上运行。

成本降低 — R1 的 API 定价远低于 o1。输入 token 约 0.14 美元/百万，输出 token 约 2.19 美元/百万，是 o1 的 1/30 到 1/50。

推理过程的特点

R1 的推理过程有几个有趣的特点：

自我修正 — 模型在推理过程中会检查自己的中间步骤，发现错误后回溯重来。

多路径探索 — 对于复杂问题，模型会尝试多种解法，然后选择最可靠的。

反思 — 模型会评估自己的推理是否充分，有时会补充"让我再检查一下"之类的自我反思。

这些行为不是训练时显式教授的，而是强化学习自然涌现的。模型发现"检查答案"能提高正确率，于是学会了这个策略。

使用方式

通过 API

code

import openai
 
client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.deepseek.com"
)
 
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "解这个方程：2x + 5 = 13"}
    ]
)
 
print(response.choices[0].message.content)

本地运行

通过 Ollama 或 llama.cpp 运行蒸馏版模型：

code

ollama run deepseek-r1:14b

对行业的影响

R1 的发布加速了推理模型的普及：

开源社区追赶闭源 — 之前推理能力是 OpenAI 的独家优势，R1 证明开源社区也能达到相近水平。

推理成本下降 — R1 的低价 API 和开源权重让推理能力从"高端服务"变成"基础设施"。

训练范式转变 — 纯 RL 训练的成功证明了不需要大量人类标注数据，模型可以自己学会推理。

局限性

R1 不是完美的：

通用能力有限 — 在非推理任务（创意写作、开放对话）上，R1 的表现不如通用模型。

推理时间长 — 复杂问题的推理过程可能包含数千个 token，响应时间显著长于普通模型。

语言混合 — 训练数据以英文和中文为主，其他语言的支持较弱。

总结

DeepSeek-R1 是 2024 年最重要的开源 AI 发布之一。它不仅提供了接近顶尖水平的推理能力，更重要的是展示了一条新的训练路径——纯强化学习让模型自主学会思考。

对于开发者来说，R1 意味着高质量的推理能力变得可获取、可负担、可定制。对于 AI 研究来说，R1 证明了开源社区在核心能力上追赶闭源模型的可能性。

DeepSeek-R1：通过强化学习激发推理能力

R1 的核心创新

能力表现

开源的意义

推理过程的特点

使用方式

对行业的影响

局限性

总结

相关文章

DeepMind 前研究员 David Silver 融资 11 亿美元，打造无需人类数据即可学习的 AI

12-Factor Agents：构建生产级 LLM 软件的 12 条原则

AI Agent 发表了一篇攻击我的文章