
Agent TARS:字节跳动开源通用多模态 AI Agent 栈
字节跳动开源的 Agent TARS 是一套通用多模态 AI Agent 栈,提供 CLI 和 Web UI,支持 GUI Agent、浏览器控制、MCP 工具集成和远程桌面操作,近期登顶 GitHub Trending。
原文来源:GitHub - bytedance/UI-TARS-desktop — 字节跳动开源的通用多模态 AI Agent 栈,近期登顶 GitHub Trending 榜单。
2026 年 5 月,一款来自字节跳动的开源项目登上了 GitHub Trending 榜首——Agent TARS(原 UI-TARS-desktop)。这不仅仅是一个桌面应用,而是一整套多模态 AI Agent 基础设施。
项目背景
Agent TARS 由字节跳动 Seed 团队开发,是一套通用多模态 AI Agent 栈。它最初以 UI-TARS-desktop 的名字在 2025 年初开源,经过一年多的迭代,已经发展成包含 CLI、Web UI、桌面应用和 SDK 的完整生态。
项目目前包含两个主要组件:
- Agent TARS — 通用多模态 AI Agent,提供 CLI 和 Web UI,支持 GUI Agent、Vision 和 MCP 工具集成
- UI-TARS Desktop — 桌面应用,基于 UI-TARS 模型提供原生 GUI Agent 体验,支持本地和远程电脑操作
核心功能
一键式 CLI
Agent TARS 最让人印象深刻的是它的易用性。通过 npx 即可启动:
npx @agent-tars/cli@latest也支持全局安装(需要 Node.js >= 22):
npm install @agent-tars/cli@latest -g
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428
agent-tars --provider anthropic --model claude-3-7-sonnet-latest支持包括 Claude、Doubao、GPT 在内的多种模型提供商。
混合浏览器 Agent
Agent TARS 支持三种浏览器控制策略:
- GUI Agent — 通过视觉识别定位页面元素
- DOM 模式 — 通过访问 DOM 树理解页面结构
- 混合策略 — 结合两者优势
这意味着它可以像人类一样"看"页面并点击,也可以像开发者一样直接访问页面结构。
MCP 集成
Agent TARS 的内核基于 MCP(Model Context Protocol)构建,支持挂载任意的 MCP Server 来连接真实世界的工具。这意味着它可以利用 MCP 生态中的数百个现有工具。
远程电脑操作
UI-TARS Desktop 支持远程电脑操作和远程浏览器操作,可以远程控制其他电脑的界面——完全免费,无需配置。
事件流驱动
项目采用协议驱动的 Event Stream 机制,实现了"上下文工程"和 Agent UI,让开发者可以实时追踪 AI Agent 的决策过程。
实际用例
Agent TARS 的官方演示展示了一些令人印象深刻的场景:
航班预订 — Agent 可以在 Priceline 上自主完成机票搜索和预订:
"Please help me book the earliest flight from San Jose to New York on September 1st and the last return flight on September 6th on Priceline"
酒店预订 — 结合预算限制、位置偏好和交通信息,自动完成酒店预订和出行指南整理。
图表生成 — 通过额外的 MCP Server,Agent 可以调用数据分析工具生成天气图表等可视化内容。
技术特点
Agent TARS 的设计有几个值得关注的技术特点:
- 视觉定位(Visual Grounding) — 通过多模态模型理解和定位屏幕元素,而非依赖 DOM 或辅助功能 API
- 协议驱动 — Event Stream 协议使 Agent 的状态可追踪、可调试
- MCP 优先 — 工具集成走 MCP 标准,避免供应商锁定
- 跨平台 — 支持 macOS、Linux、Windows 和 Docker 部署
与竞品对比
| 特性 | Agent TARS | Claude Code | OpenCode |
|---|---|---|---|
| 开源 | ✅ | ❌ | ✅ |
| 多模态 | ✅ | ✅ | ❌ |
| GUI Agent | ✅ | ❌ | ❌ |
| 浏览器控制 | ✅ | 有限 | ❌ |
| MCP 集成 | ✅ | ✅ | ✅ |
| 远程桌面 | ✅ | ❌ | ❌ |
| 免费使用 | ✅ | 有限 | ✅ |
Agent TARS 的独特定位在于 "GUI Agent"——它不仅能看代码,还能看屏幕、操作界面。这在自动化测试、浏览器自动化、远程桌面等场景中非常有用。
社区数据
截至 2026 年 5 月:
- GitHub Stars:快速增长中,已登顶 Trending
- npm 下载量:持续上升
- 社区活跃:Discord 和飞书群均有活跃讨论
安装使用建议
对于开发者,推荐从 CLI 版本开始:
# 快速体验
npx @agent-tars/cli@latest
# 查看完整文档
# https://agent-tars.com对于需要图形界面的用户,可以直接下载 UI-TARS Desktop 的桌面应用版本。
小结
Agent TARS 是 2026 年值得关注的开源 AI Agent 项目之一。它的核心贡献在于将多模态能力(视觉理解)与 Agent 框架结合,让 AI 不再局限于操作代码和文本,而是可以真正"看到"和"操作"图形界面。对于做浏览器自动化、桌面自动化、RPA 的开发者来说,这是一个值得深入了解的工具。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tools/agent-tars
相关文章
Trigger.dev:开发者优先的开源工作流自动化平台
Trigger.dev 是面向开发者的开源工作流自动化平台,用 TypeScript 代码定义任务而非拖拽界面,支持 AI Agent、长时运行、弹性扩缩容。
Gemini CLI:Google 开源的终端 AI Agent
Gemini CLI 是 Google 推出的开源终端 AI Agent,将 Gemini 3 的强大能力直接带入命令行。支持 60 请求/分钟的免费额度、Google Search 联网搜索、MCP 扩展和代码库级理解。
Open Design:Claude Design 的开源替代方案
Open Design 是 Anthropic Claude Design 的开源替代方案,支持 16 种编码 Agent、71 套品牌级设计系统,可生成交互式原型、幻灯片、图片和视频。本地优先、BYOK、可部署到 Vercel。