工具推荐·阅读约 2 分钟·
Open-AutoGLM:智谱开源的手机端 AI Agent

Open-AutoGLM:智谱开源的手机端 AI Agent

Open-AutoGLM 是智谱 AI 开源的手机端智能助理框架,通过多模态视觉理解手机屏幕,以 ADB 自动化操作完成复杂任务。支持 Android、鸿蒙和 iOS,让手机成为真正的 AI 终端。

原文来源:Open-AutoGLM GitHub — 智谱 AI 开源的手机端智能助理框架,25.2k Stars,3.9k Forks,106 次提交,通过 ADB 自动化操作完成复杂手机任务。

Open-AutoGLM 是智谱 AI(Zhipu AI)开源的手机端智能助理框架。它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成复杂任务。用户只需用自然语言描述需求,比如"打开小红书搜索美食",Phone Agent 就会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

核心能力

Open-AutoGLM 的核心是视觉语言模型驱动的手机自动化。系统通过 ADB(Android Debug Bridge)或 HDC(HarmonyOS Device Connector)控制设备,结合屏幕感知能力生成并执行操作流程。

多模态屏幕理解

Agent 不仅读取 UI 树结构,还通过视觉模型理解屏幕截图中的内容。这意味着即使应用没有提供无障碍服务支持,Agent 也能通过"看图"来识别按钮、输入框和文字内容。这种视觉理解能力对于现代移动应用尤为重要,因为很多应用使用自定义渲染、游戏引擎或 WebView,传统的无障碍服务无法准确解析其界面结构。

自然语言任务执行

用户用自然语言描述目标,Agent 自动完成四个步骤:

  • 意图解析:理解用户想要做什么,将模糊的自然语言转化为具体的操作目标
  • 界面感知:分析当前屏幕状态,识别可交互元素和当前应用上下文
  • 动作规划:确定下一步点击、滑动或输入,生成操作序列
  • 执行验证:确认操作结果是否符合预期,如果不符合则调整策略重试

敏感操作保护

系统内置安全机制,防止自动化操作造成意外损失:

  • 敏感操作(如支付、删除、修改系统设置)需要用户确认
  • 登录和验证码场景自动转人工接管,避免密码泄露
  • 完整的操作审计日志,记录每一步执行过程

模型支持

项目提供两个版本的模型:

模型适用场景下载渠道
AutoGLM-Phone-9B中文手机应用Hugging Face / ModelScope
AutoGLM-Phone-9B-Multilingual多语言场景(含英文)Hugging Face / ModelScope

两个模型都基于 90 亿参数规模,针对手机屏幕理解和小尺寸 UI 元素识别进行了专门优化。手机界面与桌面界面有本质不同:元素更小、密度更高、交互方式更依赖手势而非精确点击。AutoGLM 的模型训练数据包含了大量真实手机屏幕截图,使其对这些挑战有更好的适应能力。

平台支持

Android

  • Android 7.0 及以上版本
  • 需要启用开发者模式和 USB 调试
  • 需安装 ADB Keyboard 用于文本输入(替代系统输入法,避免输入法界面干扰屏幕识别)
  • 支持实体设备和模拟器
  • 可通过 USB 或 WiFi 连接

鸿蒙(HarmonyOS)

  • HarmonyOS NEXT 版本及以上
  • 使用 HDC 工具连接(鸿蒙版的 ADB)
  • 原生输入法支持,无需额外键盘应用
  • 体现了智谱对国产操作系统的支持态度

iOS

  • 通过 WebDriverAgent 连接
  • 需要专门配置 iOS 开发环境(Xcode、开发者证书等)
  • 参考项目提供的 iOS 配置指南
  • 由于 iOS 系统的封闭性,配置相对复杂,但项目提供了详细步骤

部署方式

选项 A:使用第三方模型服务

如果不想自行部署模型,可以使用现成的服务:

  • 智谱 BigModel--base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone
  • ModelScope--base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B

这种方式上手最快,不需要本地 GPU,适合快速体验。

选项 B:自行部署模型

使用 SGLang 或 vLLM 在本地或服务器上部署:

code
# vLLM 部署示例
python -m vllm.entrypoints.openai.api_server \
  --model ZhipuAI/AutoGLM-Phone-9B \
  --tensor-parallel-size 1 \
  --max-model-len 8192

自行部署的好处是数据完全本地,没有隐私顾虑,且可以自定义模型行为。

快速开始

code
# 克隆项目
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
 
# 安装依赖
pip install -r requirements.txt
pip install -e .
 
# 连接设备(确保已启用 USB 调试)
adb devices
 
# 运行任务
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your-api-key" \
  "打开美团搜索附近的火锅店"

与 Midscene.js 集成

Midscene.js 是一款视觉模型驱动的开源 UI 自动化 SDK,已完成对 AutoGLM 模型的适配。通过 Midscene.js,可以在 iOS 和 Android 设备上快速体验 AutoGLM 的自动化能力,支持 JavaScript 或 YAML 格式的流程语法。

这种集成让开发者可以用熟悉的 Web 技术栈来编写手机自动化脚本,而不需要直接处理 ADB 命令或模型调用细节。

适用场景

  • 自动化测试:对移动应用进行端到端 UI 测试,覆盖真实用户操作流程
  • 无障碍辅助:帮助视障用户操作手机,通过语音指令完成复杂任务
  • 效率工具:自动完成重复性手机操作,比如定时签到、数据备份、信息整理
  • 数据采集:在授权前提下自动化收集应用数据,用于竞品分析或市场研究
  • 远程控制:通过 WiFi 或网络远程操作设备,适合设备管理或技术支持场景

技术挑战

手机端 AI Agent 面临比桌面端更复杂的挑战:

小尺寸 UI 元素

手机屏幕上的按钮、文字往往只有几十个像素,视觉模型需要极高的分辨率理解能力才能准确识别。

触摸交互复杂性

除了点击,还有滑动、长按、双指缩放、拖拽等手势,每种手势都有不同的参数(起点、终点、速度、持续时间)。

应用间跳转

完成任务可能需要跨多个应用协作,比如"把微信里的地址复制到地图应用导航"。Agent 需要理解应用间的数据流转。

系统权限管理

Android 和 iOS 都有严格的权限控制,Agent 在需要敏感权限时必须正确引导用户授权。

注意事项

⚠️ 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。

Open-AutoGLM 代表了移动端 AI Agent 的重要进展。与桌面端 Agent 不同,手机端需要处理更复杂的挑战:小尺寸 UI 元素、触摸交互、应用间跳转、系统权限管理。智谱通过开源这个项目,为整个社区提供了探索"AI 手机"可能性的基础设施。在苹果和谷歌都在探索 AI 手机操作系统的背景下,Open-AutoGLM 提供了一条开放的、可定制的替代路径。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/tools/open-autoglm-guide