
让 AI 自己跑 ML 实验:Karpathy 的 autoresearch 项目上手教程
Andrej Karpathy 开源的 autoresearch 项目让 AI Agent 自动运行机器学习研究实验,涵盖从 nanoGPT 微调到超参数搜索。本文带你从安装到跑通第一个实验。
原创。一学就会:用 Karpathy 开源的 autoresearch 项目让 AI 自动跑 ML 实验,从环境搭建到跑通第一个 nanoGPT 微调任务。
2026 年 3 月,Andrej Karpathy 开源了一个新项目——autoresearch。名字很直白:让 AI Agent 自动运行机器学习研究。上线当天就冲上 GitHub 趋势榜第一,不到两个月收获 8.5 万颗星。
但大多数人看完 README 的反应是:这到底怎么用?
别担心。这篇文章就是来解决这个问题的。我会从零开始,带你走过安装、配置、跑第一个实验的完整流程,然后聊聊实际可以拿它做什么、有什么坑。
autoresearch 是什么
简单说,autoresearch 是一个让 AI Agent 来跑 ML 实验的框架。你给 Agent 一个研究目标——比如「找出 nanoGPT 在莎士比亚数据集上的最佳学习率」——Agent 就会自己写训练脚本、修改超参数、运行实验、记录结果,然后根据结果决定下一步做什么。
整个过程不需要你手动敲一行训练命令。
背后的核心思路是:ML 研究中有大量重复性工作——调参、跑 baseline、对比实验、画图表。这些工作有明确的评估标准(loss、accuracy),有固定的执行流程(改配置 → 训练 → 记录 → 分析),非常适合交给 Agent 来自动化。
Karpathy 用一张图说明了设计理念:Agent 在一个循环里不断「思考 → 执行 → 观察 → 再思考」,直到完成研究目标。
环境准备
autoresearch 对硬件要求不高——它主要管理实验流程,训练本身交给 GPU 就行了。但如果你没有 GPU,也能跑一些轻量实验(比如 nanoGPT 的 CPU 模式)。
系统要求
- Linux 或 macOS(Windows 用户建议用 WSL2)
- Python 3.11+
- Git
- 可选:NVIDIA GPU + CUDA(跑实际训练时需要)
安装步骤
第一步:克隆仓库
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch第二步:创建虚拟环境
python3 -m venv venv
source venv/bin/activate第三步:安装依赖
pip install -r requirements.txt这个文件包含了 PyTorch、transformers、wandb 等必要的 ML 库。如果运行中遇到缺少某个包的错误,手动 pip install 补上就行。
第四步:配置 API key
autoresearch 需要调用 LLM 来做决策——选择下一个实验、分析结果、决定是否停止搜索。
# 如果使用 OpenAI
export OPENAI_API_KEY="sk-xxx"
# 如果使用 Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxx"配置文件中可以指定使用哪个模型。目前支持 GPT-4o、Claude Sonnet 4.6、DeepSeek 等主流模型。
跑第一个实验
为了快速验证安装是否成功,我们先跑一个最简测试。
cd autoresearch
python run.py --config configs/demo.yaml这个 demo 配置会:
- 创建一个简单的小型 ML 实验(训练一个极简神经网络)
- Agent 根据初始结果调整参数
- 运行 3-5 轮迭代后输出报告
整个过程应该在 5-10 分钟内完成。如果一切顺利,你会在终端看到 Agent 的思考过程,以及每轮实验的结果。
输出解读
运行完成后,autoresearch 会在 outputs/ 目录下生成以下内容:
- 实验日志:每次运行的详细记录
- 结果摘要:Agent 写的实验总结
- 图表:损失曲线、参数重要性分析等
- 最终报告:Agent 对整个研究过程的复盘
首次运行后,建议仔细看看这些输出。它们能帮你理解 Agent 的决策逻辑——什么时候决定调整学习率、什么时候决定增减层数、什么条件下判断「实验已完成」。
实战:优化 nanoGPT
熟悉基本流程后,可以试试更有意思的实验。nanoGPT 是 Karpathy 之前开源的 GPT 训练项目,autoresearch 直接支持用它作为实验平台。
创建一个新配置文件 configs/nano-experiment.yaml:
research_goal: "Find optimal hyperparameters for nanoGPT on Shakespeare dataset"
model: "nanoGPT"
dataset: "shakespeare"
max_experiments: 10
llm:
provider: "anthropic"
model: "claude-sonnet-4-6-20260217"
search_space:
learning_rate: [0.001, 0.01]
batch_size: [32, 128]
n_layer: [4, 8]
n_head: [4, 8]
n_embd: [128, 256]然后运行:
python run.py --config configs/nano-experiment.yaml这个实验会跑 10 轮,每轮 Agent 根据上一轮的结果调整超参数。实际运行时间取决于你的 GPU 和数据量——用一块 RTX 4090 跑整个流程大约需要 30-60 分钟。
Agent 的典型工作流程是这样的:
- 第一轮:用默认参数训练,记录 loss 和训练速度
- 第二轮:尝试提高学习率,观察是否加速收敛
- 第三轮:发现学习率太高导致不稳定,回调并增加层数
- 后续轮次:在探索(尝试新参数组合)和利用(在最佳参数附近微调)之间平衡
- 最终:给出最佳参数组合和训练建议
实际能做什么
超参数搜索
这是最直接的用例。传统做法是写脚本跑 Grid Search 或 Random Search,但效率很低——很多参数组合其实没必要试。autoresearch 的 Agent 会根据中间结果动态调整搜索策略,通常用更少的实验次数就能找到更优的参数。
Baseline 验证
读论文时看到一个新的模型架构或训练技巧,想快速验证它是否真的有效?写一个训练脚本,让 autoresearch 自动帮你跑 baseline 和对比实验。Agent 会记录完整的实验条件,确保对比的公平性。
消融实验
研究某个组件对整个系统的影响时,需要跑大量消融实验。autoresearch 可以自动化这个过程——你只需要定义完整配置和消融变量,Agent 会依次跑完所有变体并汇总结果。
论文实验复现
复现论文实验往往是繁琐的体力活。autoresearch 可以帮你自动化大部分流程——下载数据、配置环境、运行训练、生成结果。虽然不是所有论文都能一键复现(很多论文的代码和数据不完整),但对于开源了完整代码的论文,autoresearch 能大幅减少手动操作。
局限和注意事项
不是什么问题都能解。 autoresearch 适合有明确评估指标的研究任务(loss、准确率、BLEU 等)。如果你的研究目标是「提出一个新的理论框架」或「设计一个新的模型架构」,它帮不上忙——这些需要人类的创造力。
需要一定的 ML 基础。 虽然流程自动化了,但你还是要能写出正确的训练脚本和配置文件。Agent 会帮你调整参数和跑实验,但它不会替你理解什么是过拟合、为什么学习率要衰减。
LLM 费用。 每次决策都调用 LLM,长时间运行下来 API 费用会累积。一天跑几十轮实验大概需要几美元到十几美元,取决于你用的模型和调用频率。
实验管理的复杂度。 同时跑多个实验时,建议使用 WandB 或 MLflow 来管理日志。autoresearch 本身的实验管理功能还比较基础,跑大量实验时容易混乱。
代码还在快速迭代。 目前版本(v0.x)的 API 和配置文件格式还不稳定,升级时可能需要调整配置。建议锁定版本号并在项目中有改动时关注 release notes。
适合谁用
如果你是以下类型的开发者,autoresearch 值得一试:
- ML 研究员:经常跑对比实验和消融实验
- 算法工程师:需要反复调参优化模型
- AI 应用开发者:想了解最新 ML 研究但没时间手动复现
- ML 学习者:想理解超参数调优的过程
如果你只是用现成的 API(比如直接调 GPT-4o),不自己训练模型,那 autoresearch 对你用处不大。
总结
autoresearch 的核心理念很吸引人:把 ML 研究中重复性的「体力活」交给 AI,让人专注于真正需要创造力的部分。
它不完美——配置需要学习成本、不是所有实验都能自动化、LLM 费用会累积。但对于经常跑实验的 ML 开发者来说,它确实能省下大量时间。从一个粗浅的想法到一组可靠的实验结果,中间做十几次参数调整是常态。有 Agent 帮你盯着这些实验、记录过程、甚至写总结,你可以把精力花在更有价值的地方。
截至 2026 年 6 月,autoresearch 仍处于早期阶段,但方向是对的。随着 Agent 推理能力的提升,这类「AI 辅助科研」的工具只会越来越强。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tutorials/karpathy-autoresearch-guide