从 Token 到词元：全模态时代的基模与交互入口

📌 一句话摘要

本文探讨了「词元」（Token）在全模态时代的范式演进，并深度解析了模思智能（MOSI）如何通过统一词元结构构建情境智能与全模态基座模型。

📝 详细摘要

文章以国家数据局正式确立「词元」为 Token 标准译名为背景，指出 AI 正在从离散文本走向连续感知的全模态时代。核心聚焦于复旦大学邱锡鹏教授团队孵化的「模思智能（MOSI）」，该公司近期完成数亿元融资。模思智能的技术路径避开了同质化的纯文本大模型，选择从语音切入，通过 SpeechGPT、AnyGPT 等系列成果，验证了将语音、图像、视频等不同模态信息统一映射至离散词元序列的可行性。这种「统一词元」架构不仅提升了计算效率，更赋予了不同模态可组合性，是实现「情境智能」和下一代 Agent 系统的底层基石。文章强调，未来大模型的护城河将从单纯的算力堆叠转向架构创新与系统组织方式。

💡 主要观点

- 词元（Token）正从离散文本向全模态连续感知演进。 随着语音、视频与实时交互驱动的多模态场景增加，Token 的生成与消耗方式发生范式变化，从低频批量输入转向高频流式输入，决定了 AI 系统的能力上限。

模思智能坚持「统一词元」技术路径，实现全模态信息的统一计算。 通过将语音、图像、视频等不同模态映射至同一离散 Token 序列，解决了不同模态割裂训练的问题，为全模态基座模型提供了统一的表达和计算框架。

「情境智能」是 Agent 系统走向现实应用的核心载体。 情境智能以持续感知、动态记忆与环境理解为基础，使 AI 能够从「理解一句话」转向「理解一个情境」，在真实世界中进行自适应交互。

大模型的护城河正在从参数规模转向架构创新与系统组织。 单纯依赖算力外推的阶段正在过去，未来的核心竞争力在于能否更早识别并押注统一 Token 表达、情境理解能力及 Agent 系统等下一代智能结构。

💬 文章金句

- 词元既避免被简单理解为自然语言中的「词」，又保留了其作为语言处理基本单位的本质内涵。

从语音切入，走向全模态，在统一的 Token 结构中表达和计算不同模态的信息。
离散化带来的，不只是更高的压缩效率，更重要的是赋予不同模态以可组合性与可计算性。
当大模型进入深水区，真正的护城河究竟是什么？答案或许已不再只是参数规模或算力投入本身，而在于是否能够更早识别并押注下一代智能的核心结构。

📊 文章信息

AI 评分：89

来源：量子位

作者：一水

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3921

标签：词元, 全模态, 情境智能, 模思智能, 邱锡鹏

阅读完整文章

从 Token 到词元：全模态时代的基模与交互入口

🤖 問 AI