Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

📌 一句话摘要

IBM 发布了 Granite 4.0 3B Vision，这是一款紧凑、模块化的视觉语言模型，通过创新的 DeepStack 架构和 ChartNet 数据集，针对表格提取和图表理解等企业文档任务进行了优化。

📝 详细摘要

IBM 推出了 Granite 4.0 3B Vision，这是一款专为企业文档处理而设计的 30 亿参数视觉语言模型（VLM）。与单体模型不同，它作为 LoRA 适配器在 Granite 4.0 Micro 基础模型之上实现，支持高效的多模态或纯文本部署。该模型在表格提取、图表推理和键值对（KVP）解析方面的卓越表现归功于两大创新：包含 170 万个对齐图表样本的海量合成数据集 ChartNet，以及在多层注入视觉特征以平衡语义理解与空间精度的 DeepStack 架构。基准测试显示，它在图表摘要和表格提取方面优于更大的模型。该模型以 Apache 2.0 许可证发布，并与 Docling 流水线集成，以实现端到端的文档智能。

💡 主要观点

- Granite 4.0 3B Vision 是一款针对结构化文档提取优化的紧凑型 VLM。 它专注于三个核心企业需求：复杂表格解析、图表转结构化数据，以及语义键值对识别。

该模型采用了模块化的 LoRA 适配器架构。 通过基于 Granite 4.0 Micro 构建，它允许在视觉语言任务和纯文本任务之间无缝切换，简化了企业部署并降低了开销。

DeepStack 注入提升了空间和语义推理能力。 与在单一点注入视觉数据的标准 VLM 不同，DeepStack 将抽象特征路由到早期层，将高分辨率空间特征路由到后期层，从而保留了布局细节。

ChartNet 提供了高质量、代码引导的合成训练基础。 这个包含 170 万个样本的数据集对齐了绘图代码、图像、数据表和问答对，使模型能够理解图表背后的底层数据，而不仅仅是其视觉外观。

💬 文章金句

- Granite 4.0 3B Vision 是一款专为企业文档理解而设计的紧凑型视觉语言模型（VLM）。

该模型作为 Granite 4.0 Micro 之上的 LoRA 适配器发布，保持了视觉和语言的模块化，以便进行纯文本回退。
DeepStack 注入：抽象视觉特征被路由到早期层以进行语义理解，而高分辨率空间特征则被馈送到后期层以保留细节。
ChartNet 使用代码引导的合成流水线生成了 170 万个多样化的图表样本……为模型提供了关于图表含义的深度跨模态视图。

📊 文章信息

AI 评分：91

来源：Hugging Face Blog

作者：Madison Lee, Rogerio Feris, Eli Schwartz, Dhiraj Joshi, Pengyuan Li, Isaac Sanchez

分类：人工智能

语言：英文

阅读时间：5 分钟

字数：1166

标签： VLM, IBM Granite, 文档理解, 表格提取, ChartNet

阅读完整文章

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

🤖 問 AI