
Open-AutoGLM:智谱开源的手机端 AI Agent
Open-AutoGLM 是智谱 AI 开源的手机端智能助理框架,通过多模态视觉理解手机屏幕,以 ADB 自动化操作完成复杂任务。支持 Android、鸿蒙和 iOS,让手机成为真正的 AI 终端。
原文来源:Open-AutoGLM GitHub — 智谱 AI 开源的手机端智能助理框架,25.2k Stars,3.9k Forks,106 次提交,通过 ADB 自动化操作完成复杂手机任务。
Open-AutoGLM 是智谱 AI(Zhipu AI)开源的手机端智能助理框架。它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成复杂任务。用户只需用自然语言描述需求,比如"打开小红书搜索美食",Phone Agent 就会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
核心能力
Open-AutoGLM 的核心是视觉语言模型驱动的手机自动化。系统通过 ADB(Android Debug Bridge)或 HDC(HarmonyOS Device Connector)控制设备,结合屏幕感知能力生成并执行操作流程。
多模态屏幕理解
Agent 不仅读取 UI 树结构,还通过视觉模型理解屏幕截图中的内容。这意味着即使应用没有提供无障碍服务支持,Agent 也能通过"看图"来识别按钮、输入框和文字内容。这种视觉理解能力对于现代移动应用尤为重要,因为很多应用使用自定义渲染、游戏引擎或 WebView,传统的无障碍服务无法准确解析其界面结构。
自然语言任务执行
用户用自然语言描述目标,Agent 自动完成四个步骤:
- 意图解析:理解用户想要做什么,将模糊的自然语言转化为具体的操作目标
- 界面感知:分析当前屏幕状态,识别可交互元素和当前应用上下文
- 动作规划:确定下一步点击、滑动或输入,生成操作序列
- 执行验证:确认操作结果是否符合预期,如果不符合则调整策略重试
敏感操作保护
系统内置安全机制,防止自动化操作造成意外损失:
- 敏感操作(如支付、删除、修改系统设置)需要用户确认
- 登录和验证码场景自动转人工接管,避免密码泄露
- 完整的操作审计日志,记录每一步执行过程
模型支持
项目提供两个版本的模型:
| 模型 | 适用场景 | 下载渠道 |
|---|---|---|
| AutoGLM-Phone-9B | 中文手机应用 | Hugging Face / ModelScope |
| AutoGLM-Phone-9B-Multilingual | 多语言场景(含英文) | Hugging Face / ModelScope |
两个模型都基于 90 亿参数规模,针对手机屏幕理解和小尺寸 UI 元素识别进行了专门优化。手机界面与桌面界面有本质不同:元素更小、密度更高、交互方式更依赖手势而非精确点击。AutoGLM 的模型训练数据包含了大量真实手机屏幕截图,使其对这些挑战有更好的适应能力。
平台支持
Android
- Android 7.0 及以上版本
- 需要启用开发者模式和 USB 调试
- 需安装 ADB Keyboard 用于文本输入(替代系统输入法,避免输入法界面干扰屏幕识别)
- 支持实体设备和模拟器
- 可通过 USB 或 WiFi 连接
鸿蒙(HarmonyOS)
- HarmonyOS NEXT 版本及以上
- 使用 HDC 工具连接(鸿蒙版的 ADB)
- 原生输入法支持,无需额外键盘应用
- 体现了智谱对国产操作系统的支持态度
iOS
- 通过 WebDriverAgent 连接
- 需要专门配置 iOS 开发环境(Xcode、开发者证书等)
- 参考项目提供的 iOS 配置指南
- 由于 iOS 系统的封闭性,配置相对复杂,但项目提供了详细步骤
部署方式
选项 A:使用第三方模型服务
如果不想自行部署模型,可以使用现成的服务:
- 智谱 BigModel:
--base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone - ModelScope:
--base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B
这种方式上手最快,不需要本地 GPU,适合快速体验。
选项 B:自行部署模型
使用 SGLang 或 vLLM 在本地或服务器上部署:
# vLLM 部署示例
python -m vllm.entrypoints.openai.api_server \
--model ZhipuAI/AutoGLM-Phone-9B \
--tensor-parallel-size 1 \
--max-model-len 8192自行部署的好处是数据完全本地,没有隐私顾虑,且可以自定义模型行为。
快速开始
# 克隆项目
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
# 安装依赖
pip install -r requirements.txt
pip install -e .
# 连接设备(确保已启用 USB 调试)
adb devices
# 运行任务
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "your-api-key" \
"打开美团搜索附近的火锅店"与 Midscene.js 集成
Midscene.js 是一款视觉模型驱动的开源 UI 自动化 SDK,已完成对 AutoGLM 模型的适配。通过 Midscene.js,可以在 iOS 和 Android 设备上快速体验 AutoGLM 的自动化能力,支持 JavaScript 或 YAML 格式的流程语法。
这种集成让开发者可以用熟悉的 Web 技术栈来编写手机自动化脚本,而不需要直接处理 ADB 命令或模型调用细节。
适用场景
- 自动化测试:对移动应用进行端到端 UI 测试,覆盖真实用户操作流程
- 无障碍辅助:帮助视障用户操作手机,通过语音指令完成复杂任务
- 效率工具:自动完成重复性手机操作,比如定时签到、数据备份、信息整理
- 数据采集:在授权前提下自动化收集应用数据,用于竞品分析或市场研究
- 远程控制:通过 WiFi 或网络远程操作设备,适合设备管理或技术支持场景
技术挑战
手机端 AI Agent 面临比桌面端更复杂的挑战:
小尺寸 UI 元素
手机屏幕上的按钮、文字往往只有几十个像素,视觉模型需要极高的分辨率理解能力才能准确识别。
触摸交互复杂性
除了点击,还有滑动、长按、双指缩放、拖拽等手势,每种手势都有不同的参数(起点、终点、速度、持续时间)。
应用间跳转
完成任务可能需要跨多个应用协作,比如"把微信里的地址复制到地图应用导航"。Agent 需要理解应用间的数据流转。
系统权限管理
Android 和 iOS 都有严格的权限控制,Agent 在需要敏感权限时必须正确引导用户授权。
注意事项
⚠️ 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。
Open-AutoGLM 代表了移动端 AI Agent 的重要进展。与桌面端 Agent 不同,手机端需要处理更复杂的挑战:小尺寸 UI 元素、触摸交互、应用间跳转、系统权限管理。智谱通过开源这个项目,为整个社区提供了探索"AI 手机"可能性的基础设施。在苹果和谷歌都在探索 AI 手机操作系统的背景下,Open-AutoGLM 提供了一条开放的、可定制的替代路径。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tools/open-autoglm-guide
相关文章
Gemini CLI:Google 开源的终端 AI Agent
Gemini CLI 是 Google 推出的开源终端 AI Agent,将 Gemini 3 的强大能力直接带入命令行。支持 60 请求/分钟的免费额度、Google Search 联网搜索、MCP 扩展和代码库级理解。
Trigger.dev:开发者优先的开源工作流自动化平台
Trigger.dev 是面向开发者的开源工作流自动化平台,用 TypeScript 代码定义任务而非拖拽界面,支持 AI Agent、长时运行、弹性扩缩容。
Open Design:Claude Design 的开源替代方案
Open Design 是 Anthropic Claude Design 的开源替代方案,支持 16 种编码 Agent、71 套品牌级设计系统,可生成交互式原型、幻灯片、图片和视频。本地优先、BYOK、可部署到 Vercel。