Open-AutoGLM：智谱开源的手机端 AI Agent

原文来源：Open-AutoGLM GitHub — 智谱 AI 开源的手机端智能助理框架，25.2k Stars，3.9k Forks，106 次提交，通过 ADB 自动化操作完成复杂手机任务。

Open-AutoGLM 是智谱 AI（Zhipu AI）开源的手机端智能助理框架。它能够以多模态方式理解手机屏幕内容，并通过自动化操作帮助用户完成复杂任务。用户只需用自然语言描述需求，比如"打开小红书搜索美食"，Phone Agent 就会自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

核心能力

Open-AutoGLM 的核心是视觉语言模型驱动的手机自动化。系统通过 ADB（Android Debug Bridge）或 HDC（HarmonyOS Device Connector）控制设备，结合屏幕感知能力生成并执行操作流程。

多模态屏幕理解

Agent 不仅读取 UI 树结构，还通过视觉模型理解屏幕截图中的内容。这意味着即使应用没有提供无障碍服务支持，Agent 也能通过"看图"来识别按钮、输入框和文字内容。这种视觉理解能力对于现代移动应用尤为重要，因为很多应用使用自定义渲染、游戏引擎或 WebView，传统的无障碍服务无法准确解析其界面结构。

自然语言任务执行

用户用自然语言描述目标，Agent 自动完成四个步骤：

意图解析：理解用户想要做什么，将模糊的自然语言转化为具体的操作目标
界面感知：分析当前屏幕状态，识别可交互元素和当前应用上下文
动作规划：确定下一步点击、滑动或输入，生成操作序列
执行验证：确认操作结果是否符合预期，如果不符合则调整策略重试

敏感操作保护

系统内置安全机制，防止自动化操作造成意外损失：

敏感操作（如支付、删除、修改系统设置）需要用户确认
登录和验证码场景自动转人工接管，避免密码泄露
完整的操作审计日志，记录每一步执行过程

模型支持

项目提供两个版本的模型：

模型	适用场景	下载渠道
AutoGLM-Phone-9B	中文手机应用	Hugging Face / ModelScope
AutoGLM-Phone-9B-Multilingual	多语言场景（含英文）	Hugging Face / ModelScope

两个模型都基于 90 亿参数规模，针对手机屏幕理解和小尺寸 UI 元素识别进行了专门优化。手机界面与桌面界面有本质不同：元素更小、密度更高、交互方式更依赖手势而非精确点击。AutoGLM 的模型训练数据包含了大量真实手机屏幕截图，使其对这些挑战有更好的适应能力。

平台支持

Android

Android 7.0 及以上版本
需要启用开发者模式和 USB 调试
需安装 ADB Keyboard 用于文本输入（替代系统输入法，避免输入法界面干扰屏幕识别）
支持实体设备和模拟器
可通过 USB 或 WiFi 连接

鸿蒙（HarmonyOS）

HarmonyOS NEXT 版本及以上
使用 HDC 工具连接（鸿蒙版的 ADB）
原生输入法支持，无需额外键盘应用
体现了智谱对国产操作系统的支持态度

iOS

通过 WebDriverAgent 连接
需要专门配置 iOS 开发环境（Xcode、开发者证书等）
参考项目提供的 iOS 配置指南
由于 iOS 系统的封闭性，配置相对复杂，但项目提供了详细步骤

部署方式

选项 A：使用第三方模型服务

如果不想自行部署模型，可以使用现成的服务：

智谱 BigModel：--base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone
ModelScope：--base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B

这种方式上手最快，不需要本地 GPU，适合快速体验。

选项 B：自行部署模型

使用 SGLang 或 vLLM 在本地或服务器上部署：

code

# vLLM 部署示例
python -m vllm.entrypoints.openai.api_server \
  --model ZhipuAI/AutoGLM-Phone-9B \
  --tensor-parallel-size 1 \
  --max-model-len 8192

自行部署的好处是数据完全本地，没有隐私顾虑，且可以自定义模型行为。

快速开始

code

# 克隆项目
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
 
# 安装依赖
pip install -r requirements.txt
pip install -e .
 
# 连接设备（确保已启用 USB 调试）
adb devices
 
# 运行任务
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your-api-key" \
  "打开美团搜索附近的火锅店"

与 Midscene.js 集成

Midscene.js 是一款视觉模型驱动的开源 UI 自动化 SDK，已完成对 AutoGLM 模型的适配。通过 Midscene.js，可以在 iOS 和 Android 设备上快速体验 AutoGLM 的自动化能力，支持 JavaScript 或 YAML 格式的流程语法。

这种集成让开发者可以用熟悉的 Web 技术栈来编写手机自动化脚本，而不需要直接处理 ADB 命令或模型调用细节。

适用场景

自动化测试：对移动应用进行端到端 UI 测试，覆盖真实用户操作流程
无障碍辅助：帮助视障用户操作手机，通过语音指令完成复杂任务
效率工具：自动完成重复性手机操作，比如定时签到、数据备份、信息整理
数据采集：在授权前提下自动化收集应用数据，用于竞品分析或市场研究
远程控制：通过 WiFi 或网络远程操作设备，适合设备管理或技术支持场景

技术挑战

手机端 AI Agent 面临比桌面端更复杂的挑战：

小尺寸 UI 元素

手机屏幕上的按钮、文字往往只有几十个像素，视觉模型需要极高的分辨率理解能力才能准确识别。

触摸交互复杂性

除了点击，还有滑动、长按、双指缩放、拖拽等手势，每种手势都有不同的参数（起点、终点、速度、持续时间）。

应用间跳转

完成任务可能需要跨多个应用协作，比如"把微信里的地址复制到地图应用导航"。Agent 需要理解应用间的数据流转。

系统权限管理

Android 和 iOS 都有严格的权限控制，Agent 在需要敏感权限时必须正确引导用户授权。

注意事项

⚠️ 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。

Open-AutoGLM 代表了移动端 AI Agent 的重要进展。与桌面端 Agent 不同，手机端需要处理更复杂的挑战：小尺寸 UI 元素、触摸交互、应用间跳转、系统权限管理。智谱通过开源这个项目，为整个社区提供了探索"AI 手机"可能性的基础设施。在苹果和谷歌都在探索 AI 手机操作系统的背景下，Open-AutoGLM 提供了一条开放的、可定制的替代路径。