耗时 2 天，搓了个 Agent App，语音唤醒，还能视频通话，已免费开源

📌 一句话摘要

本文分享了作者开发的一款名为 MobileClaw 的移动端 App，通过接入 GLM-5V-Turbo 模型，实现了语音唤醒、视觉识别与本地 Agent 的实时交互，并开源了项目代码。

📝 详细摘要

作者基于个人需求，开发了一款名为 MobileClaw 的手机 App，旨在解决本地 AI Agent 交互入口不便的问题。该 App 实现了语音实时唤醒、摄像头视觉输入与本地 Agent 的联动，支持多模态交互。文章详细记录了开发过程，包括使用 Claude Code 配合 GLM-5V-Turbo 进行编码、利用 Task-Harness 管理任务、解决 iOS 真机调试及局域网通信等技术挑战，并开源了相关代码，为开发者提供了 Agent 应用落地的实践参考。

💡 主要观点

- 打造语音与视觉感知的个人 AI Agent 交互入口。 通过 MobileClaw App 解决本地 Agent 交互入口痛点，实现类似 Siri 的语音唤醒与视觉感知能力，提升 Agent 在日常生活中的可用性。

采用 GLM-5V-Turbo 模型实现多模态与代码能力平衡。 选用智谱 GLM-5V-Turbo 模型，兼顾逻辑推理、代码生成与视觉识别，并通过抽帧处理优化多模态交互的带宽与算力成本。

记录了从需求分析到真机调试的完整开发实践。 详细分享了使用 Claude Code 辅助开发、Task-Harness 管理长任务、解决 iOS 编译及局域网通信等实际工程问题，具有很高的参考价值。

💬 文章金句

- 当我们把 AI 从冰冷的服务器终端解放出来，装进我们每天随身携带的手机里，再赋予它眼睛、耳朵、嘴巴，随时随地唤醒。我觉得这才是 Agent 真正走向个人普及的必经之路。

如果用户的指令只是一句帮我设个闹钟，意图小模型判断不需要视觉辅助，就不传图片，直接释放掉内存里的那些关键帧。

📊 文章信息

AI 评分：82

来源：袋鼠帝AI客栈

作者：袋鼠帝AI客栈

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3921

标签： AI Agent, MobileClaw, GLM-5V-Turbo, 多模态交互, 语音唤醒

阅读完整文章

耗时 2 天，搓了个 Agent App，语音唤醒，还能视频通话，已免费开源

🤖 問 AI