拍照即交互、专为 Z 世代打造，Chance AI 做了世界首款视觉 Agent 产品

📌 一句话摘要

Chance AI 是一款专为 Z 世代打造的视觉 Agent 产品，通过模拟人类认知科学的「Harness Engineering」架构，实现「拍照即交互」的直觉化体验，旨在成为下一代 AI 终端的视觉操作系统。

📝 详细摘要

本文是 Founder Park 对 Chance AI 创始人曾熙的深度访谈。Chance AI 提出了「Visual Agent」概念，强调 AI 应通过视觉直觉理解世界而非依赖输入框。产品核心技术在于其「Harness Engineering」架构，该架构模仿人类视觉皮层处理逻辑，将信号采集、传递、处理与决策拆分，在视觉理解 Benchmark MMMU 上位列世界第一。产品精准切中 Z 世代「视觉原住民」的交互习惯，在穿搭、艺术导览、神秘学等生活化场景中积累了 20 万用户。曾熙认为，视觉是人类最直觉的操作系统，Visual Agent 最终将脱离 App 形态，成为 AI 硬件（如智能眼镜）的核心入口。

💡 主要观点

- 视觉 Agent 强调「解释」而非单纯的「识别」。 不同于 Google Lens 等工具型产品侧重于识别与交易，Chance AI 关注物体背后的文化、历史与情绪价值，帮助用户构建理解世界的系统。

采用模拟人类认知的「Harness Engineering」技术架构。 将视觉处理拆分为信号采集、传递、皮层处理和决策四层，通过多模型协作而非单一模型实现从「看见」到「思考」的全链路，提升了视觉推理的准确度。

针对「视觉原住民」Gen Z 打造非效率类 Lifestyle 伴侣。 Z 世代更习惯通过图像和直觉理解世界，Chance AI 舍弃输入框，通过拍照触发任务流，在穿搭、社交分享等感性场景中建立用户粘性。

视觉记忆（Visual Memory）采用低像素图片作为 Agent 间的沟通媒介。 研究发现将文字压缩为低像素图片后，模型间的沟通效率和效果优于纯文本，体现了视觉作为高效沟通媒介的本质。

Visual Agent 是通往下一代 AI 操作系统和硬件终端的入口。 未来 AI 硬件（如智能眼镜）的核心在于与用户一起看世界，视觉交互将取代文本成为最自然的生活场景交互方式。

💬 文章金句

- AI 与人类不应该是一个输入框的关系。更直觉的方式是：我一看，AI 就已经理解我需要什么。

Google Lens 是一个工具，我们是在帮用户构建一个理解系统。因为我们相信一切行动都是建立在理解之上的。
视觉，才是人类最直觉的操作系统。
我们做的事情在 LLM 领域不是什么新鲜的事情，但的确是第一个把这些方法带到视觉领域的公司。
生活场景，才是大众市场的最主要场景。

📊 文章信息

AI 评分：89

来源：Founder Park

作者：Founder Park

分类：人工智能

语言：中文

阅读时间：48 分钟

字数：11981

标签： Visual Agent, VLM, Z 世代, 认知科学, 多模态 AI

阅读完整文章

拍照即交互、专为 Z 世代打造，Chance AI 做了世界首款视觉 Agent 产品

🤖 問 AI