← 回總覽

拍照即交互、专为 Z 世代打造,Chance AI 做了世界首款视觉 Agent 产品

📅 2026-04-03 17:37 Founder Park 人工智能 2 分鐘 1490 字 評分: 89
Visual Agent VLM Z 世代 认知科学 多模态 AI
📌 一句话摘要 Chance AI 是一款专为 Z 世代打造的视觉 Agent 产品,通过模拟人类认知科学的「Harness Engineering」架构,实现「拍照即交互」的直觉化体验,旨在成为下一代 AI 终端的视觉操作系统。 📝 详细摘要 本文是 Founder Park 对 Chance AI 创始人曾熙的深度访谈。Chance AI 提出了「Visual Agent」概念,强调 AI 应通过视觉直觉理解世界而非依赖输入框。产品核心技术在于其「Harness Engineering」架构,该架构模仿人类视觉皮层处理逻辑,将信号采集、传递、处理与决策拆分,在视觉理解 Benchmar

📌 一句话摘要

Chance AI 是一款专为 Z 世代打造的视觉 Agent 产品,通过模拟人类认知科学的「Harness Engineering」架构,实现「拍照即交互」的直觉化体验,旨在成为下一代 AI 终端的视觉操作系统。

📝 详细摘要

本文是 Founder Park 对 Chance AI 创始人曾熙的深度访谈。Chance AI 提出了「Visual Agent」概念,强调 AI 应通过视觉直觉理解世界而非依赖输入框。产品核心技术在于其「Harness Engineering」架构,该架构模仿人类视觉皮层处理逻辑,将信号采集、传递、处理与决策拆分,在视觉理解 Benchmark MMMU 上位列世界第一。产品精准切中 Z 世代「视觉原住民」的交互习惯,在穿搭、艺术导览、神秘学等生活化场景中积累了 20 万用户。曾熙认为,视觉是人类最直觉的操作系统,Visual Agent 最终将脱离 App 形态,成为 AI 硬件(如智能眼镜)的核心入口。

💡 主要观点

- 视觉 Agent 强调「解释」而非单纯的「识别」。 不同于 Google Lens 等工具型产品侧重于识别与交易,Chance AI 关注物体背后的文化、历史与情绪价值,帮助用户构建理解世界的系统。

采用模拟人类认知的「Harness Engineering」技术架构。 将视觉处理拆分为信号采集、传递、皮层处理和决策四层,通过多模型协作而非单一模型实现从「看见」到「思考」的全链路,提升了视觉推理的准确度。
针对「视觉原住民」Gen Z 打造非效率类 Lifestyle 伴侣。 Z 世代更习惯通过图像和直觉理解世界,Chance AI 舍弃输入框,通过拍照触发任务流,在穿搭、社交分享等感性场景中建立用户粘性。
视觉记忆(Visual Memory)采用低像素图片作为 Agent 间的沟通媒介。 研究发现将文字压缩为低像素图片后,模型间的沟通效率和效果优于纯文本,体现了视觉作为高效沟通媒介的本质。
Visual Agent 是通往下一代 AI 操作系统和硬件终端的入口。 未来 AI 硬件(如智能眼镜)的核心在于与用户一起看世界,视觉交互将取代文本成为最自然的生活场景交互方式。

💬 文章金句

- AI 与人类不应该是一个输入框的关系。更直觉的方式是:我一看,AI 就已经理解我需要什么。

  • Google Lens 是一个工具,我们是在帮用户构建一个理解系统。因为我们相信一切行动都是建立在理解之上的。
  • 视觉,才是人类最直觉的操作系统。
  • 我们做的事情在 LLM 领域不是什么新鲜的事情,但的确是第一个把这些方法带到视觉领域的公司。
  • 生活场景,才是大众市场的最主要场景。

📊 文章信息

AI 评分:89

来源:Founder Park

作者:Founder Park

分类:人工智能

语言:中文

阅读时间:48 分钟

字数:11981

标签: Visual Agent, VLM, Z 世代, 认知科学, 多模态 AI

阅读完整文章

查看原文 → 發佈: 2026-04-03 17:37:00 收錄: 2026-04-03 22:00:45

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。