智谱AI开源Phone Agent:Open-AutoGLM,让AI替你操作手机

一、Open-AutoGLM是什么?

Open-AutoGLM是智谱AI于2025年12月9日正式开源的手机端AI Agent框架,被誉为”AI手机的安卓时刻”。它由Phone Agent(手机智能助手框架)和AutoGLM-Phone-9B(9B参数的视觉-语言模型)组成,让AI能够像人类一样理解手机界面并执行各种操作,从简单点击到跨应用复杂任务。

核心能力:

• 像人一样”看”屏幕、理解UI元素、规划操作路径

• 支持**50+**高频中文应用(微信、淘宝、美团等)

• 完成跨应用长链路操作(如”订机票+酒店+打车”)

• 支持自然语言指令(”给张三发微信说生日快乐并附上红包”)

与传统语音助手的本质区别:它不是简单回答问题,而是能实际操作手机,让用户彻底解放双手,实现”动口不动手”的智能体验。

二、GitHub与Hugging Face资源获取

1. GitHub仓库(Open-AutoGLM框架)

• 地址:

https://github.com/zai-org/Open-AutoGLM

• 获取方式:

git clone https://github.com/zai-org/Open-AutoGLM.git

cd Open-AutoGLM

• 开源内容:完整代码库(Apache-2.0协议)、模型训练脚本、应用适配接口、50+场景Demo、Android适配层

2. Hugging Face模型(AutoGLM-Phone-9B)

• 地址:

https://huggingface.co/zai-org/AutoGLM-Phone-9B

• 下载方式:

from huggingface_hub import snapshot_download

model_path = snapshot_download(“zai-org/AutoGLM-Phone-9B”)

• 模型特性:6B参数轻量化设计,却具备媲美百亿参数模型的界面理解能力,支持8步快速推理

三、ADB调试环境配置(关键依赖)

为什么需要ADB?

Open-AutoGLM通过ADB(Android Debug Bridge)连接手机,实现”截图→视觉分析→生成操作→执行点击/滑动→再截图→循环”的完整控制链路。这是使用该框架的必备条件。

详细配置步骤:

1. 安装ADB工具

• Windows:下载平台工具包(

https://dl.google.com/android/repository/platform-tools-latest-windows.zip),解压到任意目录

• Linux/macOS:使用包管理器安装,或直接下载对应平台zip包解压

2. 配置环境变量(Windows为例)

• 将ADB所在目录(如C:platform-tools)添加到系统PATH环境变量

• 验证:打开命令提示符,输入adb version,显示版本号即成功

3. 手机端设置

1. 打开手机”设置→关于手机→连续点击版本号7次”,开启开发者模式

2. 返回设置,进入”开发者选项→打开USB调试”

3. 用数据线连接电脑,手机端确认”允许USB调试”

4. 验证连接

adb devices

# 如显示设备序列号,则连接成功

进阶:无线调试(摆脱数据线)

# 确保手机与电脑在同一Wi-Fi网络

adb tcpip 5555

adb connect [手机IP地址]:5555

四、Open-AutoGLM使用指南(完整流程)

1. 环境准备

• 硬件要求:至少16GB内存的电脑(提议RTX 3060以上显卡加速)

• 软件依赖:Python 3.10+,安装依赖包:

pip install -r requirements.txt

2. 模型部署

方式A:本地部署(推荐,隐私保护)

from open_autoglm import AutoGLM

# 加载模型(首次会自动下载)

model = AutoGLM(“AutoGLM-Phone-9B”, device=”cuda”)

方式B:API调用(适合资源有限情况)

• 注册ModelScope账号,在”我的模型”获取API token

• 使用官方API:

import requests

headers = {“Authorization”: “Bearer [your_token]”}

response = requests.post(

“https://api.modelscope.cn/v1/pipelines/audio/asr”,

json={“model”: “zai-org/AutoGLM-Phone-9B”, “data”: {“prompt”: “打开微信”}}

)

3. 基础使用示例

(1)文本指令操作手机

# 启动AutoGLM服务

model.start()

# 执行简单任务:打开微信并发送消息

result = model.run(“打开微信,给'张三'发消息:'晚上一起吃饭'”)

# 执行复杂任务:点外卖

result = model.run(“用美团点一份宫保鸡丁盖饭,加一份例汤,送到'北京市朝阳区…'”)

# 关闭服务

model.stop()

(2)图像识别与操作(进阶)

# 截图分析

screen_image = model.screenshot()

elements = model.analyze(screen_image)

# 输出识别到的按钮、文本框等UI元素

# 执行自定义操作(如点击坐标(100, 200))

model.tap(100, 200)

五、核心功能详解

1. 多模态界面理解

AutoGLM-Phone-9B模型能精准识别手机屏幕上的各类元素:

• 按钮、文本框、图标等UI组件

• 中文文字内容(支持手写体、艺术字识别)

• 界面布局结构(支持复杂多层嵌套界面)

• 弹窗、通知等临时元素

优势:比传统UI自动化工具(如Appium)更智能,能理解”意图”而非仅识别固定元素,对界面变化有更强适应性。

2. 50+高频应用支持

已预训练支持以下主流应用场景:

应用类型 代表应用 支持功能

社交通讯 微信、QQ、抖音 发消息、点赞、评论、添加好友

电商购物 淘宝、京东、拼多多 搜索、比价、下单、支付

生活服务 美团、饿了么、滴滴 外卖、打车、预订、团购

办公学习 WPS、腾讯会议 文档编辑、会议管理、日程安排

系统工具 设置、应用商店 系统设置、软件更新、权限管理

注:所有涉及隐私的操作(如读取聊天记录)均需用户授权,且支持本地部署保护数据安全

3. 安全与隐私保护(重大特性)

为什么推荐本地部署?

• 所有数据不出设备:模型推理和数据处理均在本地完成

• 开源透明:代码完全公开,可审计是否存在数据泄露风险

• 权限可控:用户可自定义敏感操作的确认机制

• 防误触:内置”操作前预览”和”紧急终止”功能

六、使用提议与注意事项

1. 推荐适用人群

• Android开发者:可集成到自有应用,打造AI增强功能

• 自动化测试工程师:简化UI自动化测试流程,提高效率

• 个人技术爱好者:探索AI手机操作的前沿技术

• 企业应用开发者:构建定制化企业级手机助手

2. 技术要求(必看)

强烈提议具备以下基础:

• Python编程基础(理解函数调用、基本语法)

• Android开发基础(了解Activity、Intent等组件)

• ADB调试基本操作(会使用adb shell命令)

• 对大模型推理有基本了解(如vLLM推理优化)

不适合完全零基础的用户,由于:

• 环境配置涉及多个环节,任何一步出错都会导致整个系统无法运行

• 调试过程中需要理解错误信息并进行排查

• 自定义扩展需要必定的编程能力

3. 常见问题排查

问题1:ADB连接失败

• 检查USB调试是否开启

• 尝试重启ADB服务:adb kill-server && adb start-server

• 确保手机驱动已安装(Windows可能需要手动安装)

问题2:模型推理慢

• 降低分辨率:model.run(prompt, resolution=512)(默认768)

• 使用FP8量化:model = AutoGLM(“AutoGLM-Phone-9B”, quantize=”fp8″)(需支持的显卡)

• 减少推理步数:model.run(prompt, steps=8)(默认12步)

问题3:操作不准确

• 确保手机屏幕干净无遮挡

• 在光线充足环境使用(避免屏幕反光)

• 调整模型参数:model.run(prompt, confidence_threshold=0.7)(默认0.6)

七、总结与下一步

Open-AutoGLM的开源标志着AI手机时代的真正到来,它将”AI操作手机”这一核心能力从少数大厂垄断中解放出来,为开发者提供了完整的技术底座。通过结合AutoGLM-Phone-9B轻量级模型和ADB调试环境,你可以打造出属于自己的智能手机助手,实现各种自动化操作。

下一步行动提议:

1. 先在GitHub上浏览Open-AutoGLM项目,熟悉整体架构

2. 配置ADB环境(这是使用的必要条件)

3. 尝试运行官方Demo,体验基本功能

4. 根据自己的需求,定制化开发特定场景的自动化操作

注:本项目目前主要支持Android系统,iOS版本正在开发中。

© 版权声明

相关文章

暂无评论

none
暂无评论...