工具推荐·阅读约 2 分钟·
Agent TARS:字节跳动开源通用多模态 AI Agent 栈

Agent TARS:字节跳动开源通用多模态 AI Agent 栈

字节跳动开源的 Agent TARS 是一套通用多模态 AI Agent 栈,提供 CLI 和 Web UI,支持 GUI Agent、浏览器控制、MCP 工具集成和远程桌面操作,近期登顶 GitHub Trending。

原文来源:GitHub - bytedance/UI-TARS-desktop — 字节跳动开源的通用多模态 AI Agent 栈,近期登顶 GitHub Trending 榜单。

2026 年 5 月,一款来自字节跳动的开源项目登上了 GitHub Trending 榜首——Agent TARS(原 UI-TARS-desktop)。这不仅仅是一个桌面应用,而是一整套多模态 AI Agent 基础设施。

项目背景

Agent TARS 由字节跳动 Seed 团队开发,是一套通用多模态 AI Agent 栈。它最初以 UI-TARS-desktop 的名字在 2025 年初开源,经过一年多的迭代,已经发展成包含 CLI、Web UI、桌面应用和 SDK 的完整生态。

项目目前包含两个主要组件:

  • Agent TARS — 通用多模态 AI Agent,提供 CLI 和 Web UI,支持 GUI Agent、Vision 和 MCP 工具集成
  • UI-TARS Desktop — 桌面应用,基于 UI-TARS 模型提供原生 GUI Agent 体验,支持本地和远程电脑操作

核心功能

一键式 CLI

Agent TARS 最让人印象深刻的是它的易用性。通过 npx 即可启动:

code
npx @agent-tars/cli@latest

也支持全局安装(需要 Node.js >= 22):

code
npm install @agent-tars/cli@latest -g
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428
agent-tars --provider anthropic --model claude-3-7-sonnet-latest

支持包括 Claude、Doubao、GPT 在内的多种模型提供商。

混合浏览器 Agent

Agent TARS 支持三种浏览器控制策略:

  • GUI Agent — 通过视觉识别定位页面元素
  • DOM 模式 — 通过访问 DOM 树理解页面结构
  • 混合策略 — 结合两者优势

这意味着它可以像人类一样"看"页面并点击,也可以像开发者一样直接访问页面结构。

MCP 集成

Agent TARS 的内核基于 MCP(Model Context Protocol)构建,支持挂载任意的 MCP Server 来连接真实世界的工具。这意味着它可以利用 MCP 生态中的数百个现有工具。

远程电脑操作

UI-TARS Desktop 支持远程电脑操作和远程浏览器操作,可以远程控制其他电脑的界面——完全免费,无需配置。

事件流驱动

项目采用协议驱动的 Event Stream 机制,实现了"上下文工程"和 Agent UI,让开发者可以实时追踪 AI Agent 的决策过程。

实际用例

Agent TARS 的官方演示展示了一些令人印象深刻的场景:

航班预订 — Agent 可以在 Priceline 上自主完成机票搜索和预订:

"Please help me book the earliest flight from San Jose to New York on September 1st and the last return flight on September 6th on Priceline"

酒店预订 — 结合预算限制、位置偏好和交通信息,自动完成酒店预订和出行指南整理。

图表生成 — 通过额外的 MCP Server,Agent 可以调用数据分析工具生成天气图表等可视化内容。

技术特点

Agent TARS 的设计有几个值得关注的技术特点:

  1. 视觉定位(Visual Grounding) — 通过多模态模型理解和定位屏幕元素,而非依赖 DOM 或辅助功能 API
  2. 协议驱动 — Event Stream 协议使 Agent 的状态可追踪、可调试
  3. MCP 优先 — 工具集成走 MCP 标准,避免供应商锁定
  4. 跨平台 — 支持 macOS、Linux、Windows 和 Docker 部署

与竞品对比

特性Agent TARSClaude CodeOpenCode
开源
多模态
GUI Agent
浏览器控制有限
MCP 集成
远程桌面
免费使用有限

Agent TARS 的独特定位在于 "GUI Agent"——它不仅能看代码,还能看屏幕、操作界面。这在自动化测试、浏览器自动化、远程桌面等场景中非常有用。

社区数据

截至 2026 年 5 月:

  • GitHub Stars:快速增长中,已登顶 Trending
  • npm 下载量:持续上升
  • 社区活跃:Discord 和飞书群均有活跃讨论

安装使用建议

对于开发者,推荐从 CLI 版本开始:

code
# 快速体验
npx @agent-tars/cli@latest
 
# 查看完整文档
# https://agent-tars.com

对于需要图形界面的用户,可以直接下载 UI-TARS Desktop 的桌面应用版本。

小结

Agent TARS 是 2026 年值得关注的开源 AI Agent 项目之一。它的核心贡献在于将多模态能力(视觉理解)与 Agent 框架结合,让 AI 不再局限于操作代码和文本,而是可以真正"看到"和"操作"图形界面。对于做浏览器自动化、桌面自动化、RPA 的开发者来说,这是一个值得深入了解的工具。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/tools/agent-tars