10 万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

📌 一句话摘要

普林斯顿大学助理教授刘壮在最新访谈中提出核心观点：架构选择不如数据重要，数据集远未达到真正的多样性，记忆而非能力是当前 AI 的最大瓶颈。

📝 详细摘要

本文是量子位对普林斯顿大学助理教授刘壮在《信息瓶颈》播客中访谈的深度编译。刘壮以 ConvNeXt、ImageBind 等 10 万+引用论文作者的身份，对 AI 领域多个核心假设提出质疑。他提出五个核心判断：架构选择不如数据重要，只要残差连接、自注意力等基础组件做对，ConvNet 和 Transformer 最终会收敛到同一条性能曲线；数据集远未达到真正的多样性，他与何恺明的实验表明，三个号称多样化的亿级数据集在模型眼中仍然泾渭分明；大语言模型在语言空间内拥有世界模型，但在视觉空间因数据密度过高而尚未实现；记忆而非推理能力是当前最大瓶颈，需要多个智能体协作恰恰是因为单个智能体记不住所有事；自主科研尚未到位，AI 在提出有意义问题、设计实验等方面仍无法替代研究生。访谈贯穿一条主线：AI 领域中被奉为圭臬的许多东西其实是历史偶然，真正决定成败的是数据、规模和记忆这些朴素因素。

💡 主要观点

- 架构选择不如数据重要，ConvNet 和 Transformer 最终收敛到同一条性能曲线。 刘壮通过 ConvNeXt 研究证明，只要残差连接、自注意力、归一化层、线性层等基础组件做对，不同架构在充分优化后会达到相近的性能前沿，真正推动进步的是数据规模和计算规模。

当前数据集远未达到真正的多样性，模型能轻易区分不同来源。 刘壮与何恺明的实验显示，训练神经网络判断图片来自哪个数据集，在三个亿级数据集上准确率超过 80%，说明这些数据集在模型眼中仍然泾渭分明，距离无偏的全球分布还差得远。

大语言模型在语言空间拥有世界模型，但视觉空间的世界模型尚未实现。 LLM 在高层次事件推理上表现出色，但视觉数据信息密度太高，现有算力无法处理。对于超过一半的数字化白领工作，根本不需要视觉世界模型。

记忆而非推理能力是当前 AI 的最大瓶颈。 现有模型的推理能力已经足够强，真正缺的是稳定的长期记忆。需要多个智能体协作，恰恰是因为单个智能体记不住所有事情。

自主科研尚未到位，AI 在提出问题和设计实验方面无法替代研究生。 刘壮亲自测试 Claude Code 独立完成研究项目，结论是低层次任务可行，但提出有意义的问题、设计实验、保持方向感等高层次能力还做不到。

💬 文章金句

- 只要把残差连接、自注意力、归一化层、线性层这四大基础做对，不管用 ConvNet 还是 Transformer，最终都会落在同一条性能曲线上。

过去十年真正推动 AI 进步的，是更大程度上是数据规模和计算规模，而不只是架构创新。
大语言模型在语言空间里是有世界模型的，这毫无疑问。
记忆才是当前最大的瓶颈，不是能力。
我们需要那么多智能体协作，恰恰是因为一个智能体记不住所有事情。

📊 文章信息

AI 初评：88

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：56 分钟

字数：13983

标签：刘壮, AI架构, 数据质量, 世界模型, AI记忆

阅读完整文章

10 万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

🤖 問 AI