让 AI 自己跑 ML 实验：Karpathy 的 autoresearch 项目上手教程

原创。一学就会：用 Karpathy 开源的 autoresearch 项目让 AI 自动跑 ML 实验，从环境搭建到跑通第一个 nanoGPT 微调任务。

2026 年 3 月，Andrej Karpathy 开源了一个新项目——autoresearch。名字很直白：让 AI Agent 自动运行机器学习研究。上线当天就冲上 GitHub 趋势榜第一，不到两个月收获 8.5 万颗星。

但大多数人看完 README 的反应是：这到底怎么用？

别担心。这篇文章就是来解决这个问题的。我会从零开始，带你走过安装、配置、跑第一个实验的完整流程，然后聊聊实际可以拿它做什么、有什么坑。

autoresearch 是什么

简单说，autoresearch 是一个让 AI Agent 来跑 ML 实验的框架。你给 Agent 一个研究目标——比如「找出 nanoGPT 在莎士比亚数据集上的最佳学习率」——Agent 就会自己写训练脚本、修改超参数、运行实验、记录结果，然后根据结果决定下一步做什么。

整个过程不需要你手动敲一行训练命令。

背后的核心思路是：ML 研究中有大量重复性工作——调参、跑 baseline、对比实验、画图表。这些工作有明确的评估标准（loss、accuracy），有固定的执行流程（改配置 → 训练 → 记录 → 分析），非常适合交给 Agent 来自动化。

Karpathy 用一张图说明了设计理念：Agent 在一个循环里不断「思考 → 执行 → 观察 → 再思考」，直到完成研究目标。

环境准备

autoresearch 对硬件要求不高——它主要管理实验流程，训练本身交给 GPU 就行了。但如果你没有 GPU，也能跑一些轻量实验（比如 nanoGPT 的 CPU 模式）。

系统要求

Linux 或 macOS（Windows 用户建议用 WSL2）
Python 3.11+
Git
可选：NVIDIA GPU + CUDA（跑实际训练时需要）

安装步骤

第一步：克隆仓库

code

git clone https://github.com/karpathy/autoresearch.git
cd autoresearch

第二步：创建虚拟环境

code

python3 -m venv venv
source venv/bin/activate

第三步：安装依赖

code

pip install -r requirements.txt

这个文件包含了 PyTorch、transformers、wandb 等必要的 ML 库。如果运行中遇到缺少某个包的错误，手动 pip install 补上就行。

第四步：配置 API key

autoresearch 需要调用 LLM 来做决策——选择下一个实验、分析结果、决定是否停止搜索。

code

# 如果使用 OpenAI
export OPENAI_API_KEY="sk-xxx"
 
# 如果使用 Anthropic
export ANTHROPIC_API_KEY="sk-ant-xxx"

配置文件中可以指定使用哪个模型。目前支持 GPT-4o、Claude Sonnet 4.6、DeepSeek 等主流模型。

跑第一个实验

为了快速验证安装是否成功，我们先跑一个最简测试。

code

cd autoresearch
python run.py --config configs/demo.yaml

这个 demo 配置会：

创建一个简单的小型 ML 实验（训练一个极简神经网络）
Agent 根据初始结果调整参数
运行 3-5 轮迭代后输出报告

整个过程应该在 5-10 分钟内完成。如果一切顺利，你会在终端看到 Agent 的思考过程，以及每轮实验的结果。

输出解读

运行完成后，autoresearch 会在 outputs/ 目录下生成以下内容：

实验日志：每次运行的详细记录
结果摘要：Agent 写的实验总结
图表：损失曲线、参数重要性分析等
最终报告：Agent 对整个研究过程的复盘

首次运行后，建议仔细看看这些输出。它们能帮你理解 Agent 的决策逻辑——什么时候决定调整学习率、什么时候决定增减层数、什么条件下判断「实验已完成」。

实战：优化 nanoGPT

熟悉基本流程后，可以试试更有意思的实验。nanoGPT 是 Karpathy 之前开源的 GPT 训练项目，autoresearch 直接支持用它作为实验平台。

创建一个新配置文件 configs/nano-experiment.yaml：

code

research_goal: "Find optimal hyperparameters for nanoGPT on Shakespeare dataset"
model: "nanoGPT"
dataset: "shakespeare"
max_experiments: 10
llm:
  provider: "anthropic"
  model: "claude-sonnet-4-6-20260217"
search_space:
  learning_rate: [0.001, 0.01]
  batch_size: [32, 128]
  n_layer: [4, 8]
  n_head: [4, 8]
  n_embd: [128, 256]

然后运行：

code

python run.py --config configs/nano-experiment.yaml

这个实验会跑 10 轮，每轮 Agent 根据上一轮的结果调整超参数。实际运行时间取决于你的 GPU 和数据量——用一块 RTX 4090 跑整个流程大约需要 30-60 分钟。

Agent 的典型工作流程是这样的：

第一轮：用默认参数训练，记录 loss 和训练速度
第二轮：尝试提高学习率，观察是否加速收敛
第三轮：发现学习率太高导致不稳定，回调并增加层数
后续轮次：在探索（尝试新参数组合）和利用（在最佳参数附近微调）之间平衡
最终：给出最佳参数组合和训练建议

实际能做什么

超参数搜索

这是最直接的用例。传统做法是写脚本跑 Grid Search 或 Random Search，但效率很低——很多参数组合其实没必要试。autoresearch 的 Agent 会根据中间结果动态调整搜索策略，通常用更少的实验次数就能找到更优的参数。

Baseline 验证

读论文时看到一个新的模型架构或训练技巧，想快速验证它是否真的有效？写一个训练脚本，让 autoresearch 自动帮你跑 baseline 和对比实验。Agent 会记录完整的实验条件，确保对比的公平性。

消融实验

研究某个组件对整个系统的影响时，需要跑大量消融实验。autoresearch 可以自动化这个过程——你只需要定义完整配置和消融变量，Agent 会依次跑完所有变体并汇总结果。

论文实验复现

复现论文实验往往是繁琐的体力活。autoresearch 可以帮你自动化大部分流程——下载数据、配置环境、运行训练、生成结果。虽然不是所有论文都能一键复现（很多论文的代码和数据不完整），但对于开源了完整代码的论文，autoresearch 能大幅减少手动操作。

局限和注意事项

不是什么问题都能解。 autoresearch 适合有明确评估指标的研究任务（loss、准确率、BLEU 等）。如果你的研究目标是「提出一个新的理论框架」或「设计一个新的模型架构」，它帮不上忙——这些需要人类的创造力。

需要一定的 ML 基础。 虽然流程自动化了，但你还是要能写出正确的训练脚本和配置文件。Agent 会帮你调整参数和跑实验，但它不会替你理解什么是过拟合、为什么学习率要衰减。

LLM 费用。 每次决策都调用 LLM，长时间运行下来 API 费用会累积。一天跑几十轮实验大概需要几美元到十几美元，取决于你用的模型和调用频率。

实验管理的复杂度。 同时跑多个实验时，建议使用 WandB 或 MLflow 来管理日志。autoresearch 本身的实验管理功能还比较基础，跑大量实验时容易混乱。

代码还在快速迭代。 目前版本（v0.x）的 API 和配置文件格式还不稳定，升级时可能需要调整配置。建议锁定版本号并在项目中有改动时关注 release notes。

适合谁用

如果你是以下类型的开发者，autoresearch 值得一试：

ML 研究员：经常跑对比实验和消融实验
算法工程师：需要反复调参优化模型
AI 应用开发者：想了解最新 ML 研究但没时间手动复现
ML 学习者：想理解超参数调优的过程

如果你只是用现成的 API（比如直接调 GPT-4o），不自己训练模型，那 autoresearch 对你用处不大。

总结

autoresearch 的核心理念很吸引人：把 ML 研究中重复性的「体力活」交给 AI，让人专注于真正需要创造力的部分。

它不完美——配置需要学习成本、不是所有实验都能自动化、LLM 费用会累积。但对于经常跑实验的 ML 开发者来说，它确实能省下大量时间。从一个粗浅的想法到一组可靠的实验结果，中间做十几次参数调整是常态。有 Agent 帮你盯着这些实验、记录过程、甚至写总结，你可以把精力花在更有价值的地方。

截至 2026 年 6 月，autoresearch 仍处于早期阶段，但方向是对的。随着 Agent 推理能力的提升，这类「AI 辅助科研」的工具只会越来越强。

让 AI 自己跑 ML 实验：Karpathy 的 autoresearch 项目上手教程

autoresearch 是什么

环境准备

系统要求

安装步骤

跑第一个实验

输出解读

实战：优化 nanoGPT

实际能做什么

超参数搜索

Baseline 验证

消融实验

论文实验复现

局限和注意事项

适合谁用

总结

相关文章

MCP Server 从零搭建：用 TypeScript 为 AI Agent 构建自定义工具生态

从零构建 AI Agent：工具篇

n8n 入门指南：2026 年搭建你的第一个 AI Agent 工作流