一、Open-AutoGLM是什么?
Open-AutoGLM是智谱AI于2025年12月9日正式开源的手机端AI Agent框架,被誉为”AI手机的安卓时刻”。它由Phone Agent(手机智能助手框架)和AutoGLM-Phone-9B(9B参数的视觉-语言模型)组成,让AI能够像人类一样理解手机界面并执行各种操作,从简单点击到跨应用复杂任务。
核心能力:
• 像人一样”看”屏幕、理解UI元素、规划操作路径
• 支持**50+**高频中文应用(微信、淘宝、美团等)
• 完成跨应用长链路操作(如”订机票+酒店+打车”)
• 支持自然语言指令(”给张三发微信说生日快乐并附上红包”)
与传统语音助手的本质区别:它不是简单回答问题,而是能实际操作手机,让用户彻底解放双手,实现”动口不动手”的智能体验。
二、GitHub与Hugging Face资源获取
1. GitHub仓库(Open-AutoGLM框架)
• 地址:
https://github.com/zai-org/Open-AutoGLM
• 获取方式:
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
• 开源内容:完整代码库(Apache-2.0协议)、模型训练脚本、应用适配接口、50+场景Demo、Android适配层
2. Hugging Face模型(AutoGLM-Phone-9B)
• 地址:
https://huggingface.co/zai-org/AutoGLM-Phone-9B
• 下载方式:
from huggingface_hub import snapshot_download
model_path = snapshot_download(“zai-org/AutoGLM-Phone-9B”)
• 模型特性:6B参数轻量化设计,却具备媲美百亿参数模型的界面理解能力,支持8步快速推理
三、ADB调试环境配置(关键依赖)
为什么需要ADB?
Open-AutoGLM通过ADB(Android Debug Bridge)连接手机,实现”截图→视觉分析→生成操作→执行点击/滑动→再截图→循环”的完整控制链路。这是使用该框架的必备条件。
详细配置步骤:
1. 安装ADB工具
• Windows:下载平台工具包(
https://dl.google.com/android/repository/platform-tools-latest-windows.zip),解压到任意目录
• Linux/macOS:使用包管理器安装,或直接下载对应平台zip包解压
2. 配置环境变量(Windows为例)
• 将ADB所在目录(如C:platform-tools)添加到系统PATH环境变量
• 验证:打开命令提示符,输入adb version,显示版本号即成功
3. 手机端设置
1. 打开手机”设置→关于手机→连续点击版本号7次”,开启开发者模式
2. 返回设置,进入”开发者选项→打开USB调试”
3. 用数据线连接电脑,手机端确认”允许USB调试”
4. 验证连接
adb devices
# 如显示设备序列号,则连接成功
进阶:无线调试(摆脱数据线)
# 确保手机与电脑在同一Wi-Fi网络
adb tcpip 5555
adb connect [手机IP地址]:5555
四、Open-AutoGLM使用指南(完整流程)
1. 环境准备
• 硬件要求:至少16GB内存的电脑(提议RTX 3060以上显卡加速)
• 软件依赖:Python 3.10+,安装依赖包:
pip install -r requirements.txt
2. 模型部署
方式A:本地部署(推荐,隐私保护)
from open_autoglm import AutoGLM
# 加载模型(首次会自动下载)
model = AutoGLM(“AutoGLM-Phone-9B”, device=”cuda”)
方式B:API调用(适合资源有限情况)
• 注册ModelScope账号,在”我的模型”获取API token
• 使用官方API:
import requests
headers = {“Authorization”: “Bearer [your_token]”}
response = requests.post(
“https://api.modelscope.cn/v1/pipelines/audio/asr”,
json={“model”: “zai-org/AutoGLM-Phone-9B”, “data”: {“prompt”: “打开微信”}}
)
3. 基础使用示例
(1)文本指令操作手机
# 启动AutoGLM服务
model.start()
# 执行简单任务:打开微信并发送消息
result = model.run(“打开微信,给'张三'发消息:'晚上一起吃饭'”)
# 执行复杂任务:点外卖
result = model.run(“用美团点一份宫保鸡丁盖饭,加一份例汤,送到'北京市朝阳区…'”)
# 关闭服务
model.stop()
(2)图像识别与操作(进阶)
# 截图分析
screen_image = model.screenshot()
elements = model.analyze(screen_image)
# 输出识别到的按钮、文本框等UI元素
# 执行自定义操作(如点击坐标(100, 200))
model.tap(100, 200)
五、核心功能详解
1. 多模态界面理解
AutoGLM-Phone-9B模型能精准识别手机屏幕上的各类元素:
• 按钮、文本框、图标等UI组件
• 中文文字内容(支持手写体、艺术字识别)
• 界面布局结构(支持复杂多层嵌套界面)
• 弹窗、通知等临时元素
优势:比传统UI自动化工具(如Appium)更智能,能理解”意图”而非仅识别固定元素,对界面变化有更强适应性。
2. 50+高频应用支持
已预训练支持以下主流应用场景:
应用类型 代表应用 支持功能
社交通讯 微信、QQ、抖音 发消息、点赞、评论、添加好友
电商购物 淘宝、京东、拼多多 搜索、比价、下单、支付
生活服务 美团、饿了么、滴滴 外卖、打车、预订、团购
办公学习 WPS、腾讯会议 文档编辑、会议管理、日程安排
系统工具 设置、应用商店 系统设置、软件更新、权限管理
注:所有涉及隐私的操作(如读取聊天记录)均需用户授权,且支持本地部署保护数据安全
3. 安全与隐私保护(重大特性)
为什么推荐本地部署?
• 所有数据不出设备:模型推理和数据处理均在本地完成
• 开源透明:代码完全公开,可审计是否存在数据泄露风险
• 权限可控:用户可自定义敏感操作的确认机制
• 防误触:内置”操作前预览”和”紧急终止”功能
六、使用提议与注意事项
1. 推荐适用人群
• Android开发者:可集成到自有应用,打造AI增强功能
• 自动化测试工程师:简化UI自动化测试流程,提高效率
• 个人技术爱好者:探索AI手机操作的前沿技术
• 企业应用开发者:构建定制化企业级手机助手
2. 技术要求(必看)
强烈提议具备以下基础:
• Python编程基础(理解函数调用、基本语法)
• Android开发基础(了解Activity、Intent等组件)
• ADB调试基本操作(会使用adb shell命令)
• 对大模型推理有基本了解(如vLLM推理优化)
不适合完全零基础的用户,由于:
• 环境配置涉及多个环节,任何一步出错都会导致整个系统无法运行
• 调试过程中需要理解错误信息并进行排查
• 自定义扩展需要必定的编程能力
3. 常见问题排查
问题1:ADB连接失败
• 检查USB调试是否开启
• 尝试重启ADB服务:adb kill-server && adb start-server
• 确保手机驱动已安装(Windows可能需要手动安装)
问题2:模型推理慢
• 降低分辨率:model.run(prompt, resolution=512)(默认768)
• 使用FP8量化:model = AutoGLM(“AutoGLM-Phone-9B”, quantize=”fp8″)(需支持的显卡)
• 减少推理步数:model.run(prompt, steps=8)(默认12步)
问题3:操作不准确
• 确保手机屏幕干净无遮挡
• 在光线充足环境使用(避免屏幕反光)
• 调整模型参数:model.run(prompt, confidence_threshold=0.7)(默认0.6)
七、总结与下一步
Open-AutoGLM的开源标志着AI手机时代的真正到来,它将”AI操作手机”这一核心能力从少数大厂垄断中解放出来,为开发者提供了完整的技术底座。通过结合AutoGLM-Phone-9B轻量级模型和ADB调试环境,你可以打造出属于自己的智能手机助手,实现各种自动化操作。
下一步行动提议:
1. 先在GitHub上浏览Open-AutoGLM项目,熟悉整体架构
2. 配置ADB环境(这是使用的必要条件)
3. 尝试运行官方Demo,体验基本功能
4. 根据自己的需求,定制化开发特定场景的自动化操作
注:本项目目前主要支持Android系统,iOS版本正在开发中。





