视觉语言模型如何从“零”开始训练

📌 一句话摘要

这篇技术指南解释了视觉语言模型 (VLM) 的架构和训练过程，重点介绍了如何通过 Q-Former 适配器将冻结的视觉骨干网络与 LLM 集成。

📝 详细摘要

本文详细解读了现代视觉语言模型 (VLM) 如何采用模块化方法构建，而非从零开始训练。它将架构分解为三个核心组件：用于特征提取的冻结图像骨干网络 (Vision Transformer)、用于将视觉特征与文本嵌入对齐的适配器层（特别是 Q-Former），以及处理组合数据的语言层 (LLM)。作者解释了交叉注意力机制、可学习查询 token 的作用，以及用于将像素映射到语言的各种损失函数 (ITC， ITM， ITG)。最后，文章展示了 LoRA 适配器如何实现在消费级硬件上高效训练语言组件。

💡 主要观点

- 现代 VLM 训练依赖于预训练模型的有效集成，而非同时进行多模态训练。 为了节省计算资源并提高性能，研究人员使用冻结的文本和视觉骨干网络，将训练重点放在弥合像素嵌入与语言 token 之间鸿沟的适配器层。

Q-Former 充当一个精巧的瓶颈，将高维视觉数据转换为与文本兼容的 token。 通过使用可学习查询 token 和交叉注意力，Q-Former 将数百个图像块压缩成一小组嵌入，这些嵌入捕获了对语言模型最相关的视觉特征。

交叉注意力是将视觉像素映射到语义文本概念的基本机制。 模型在自注意力和交叉注意力层之间交替，允许查询 token 在联合嵌入训练阶段选择性地关注与文本描述对齐的特定图像特征。

LoRA 适配器能够以最小的计算开销，将纯文本 LLM 转换为具备视觉能力的模型。 LoRA 不微调数十亿参数，而是将小的可训练矩阵注入 LLM 的注意力层，从而在保留现有知识的同时，学习解释新的视觉输入序列。

💬 文章金句

- 2026 年的研究实验室不再从“零”开始训练多模态模型了。同时教授模型视觉和（文本）语言实在太昂贵了！

适配器的作用是将基于像素的图像嵌入映射到（通常是更短序列的）基于文本的图像嵌入。
通过保持这些权重冻结，我们基本上是将视觉语言学习的“所有权”转移到网络的后续部分。
仅仅通过以不同方式配置注意力掩码，你就能做太多酷炫的事情。
模型同时关注文本指令和视觉 token，并且归功于 LoRA，它学习如何更新其内部连接以理解这种新的视觉语言。

📊 文章信息

AI 评分：83

来源：Towards Data Science

作者：Avishek Biswas

分类：人工智能

语言：英文

阅读时间：11 分钟

字数：2507

标签：视觉语言模型, 多模态学习, Q-Former, Vision Transformer, LoRA

阅读完整文章

视觉语言模型如何从“零”开始训练

🤖 問 AI