Jina AI 发布 jina-embeddings-v5-omni 全模态向量模型,通过冻结文本底座并仅训练 0.35% 的投影层参数,以极低成本实现了文本、图像、音频、视频四模态支持,且文本向量与 v5-text 逐字节一致,无需重建索引。
📝 详细摘要
Jina AI 正式发布 jina-embeddings-v5-omni 系列全模态向量模型,包括 small(1.57B 参数)和 nano(1.04B 参数)两个版本。该模型采用创新的「冻结编码器 + 轻量投影层」架构:以 v5-text 为文本底座,冻结 Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器,仅训练占总权重 0.35% 的投影层,将多模态表示对齐到文本语义空间。这种设计带来三大优势:文本表现完全无损(与 v5-text 逐字节一致)、训练速度快 1.8-3.9 倍且显存降低 42%-64%、各模态塔可独立加载实现模块化部署。在性能上,v5-omni-small 以不到 LCO-7B 五分之一参数量追平其四模态平均分(53.93 vs 54.43),在文本、图像分类、音频分类等任务上甚至反超。主要短板在视频模态,团队计划后续改进。该模型已上线 Hugging Face、Jina API 和 Elasticsearch 原生推理端点,对现有 v5-text 用户可实现无缝升级。
💡 主要观点
- 采用冻结编码器加轻量投影层架构,仅训练 0.35% 参数。 冻结 v5-text 文本底座、Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器,只训练一层小型投影层对齐多模态表示,实现极低训练成本和模块化部署。
💬 文章金句
- v5-omni 产出的文本向量与 v5-text 逐字节一致,无需重建任何已有索引。
- 组合(composition)胜过重训(retraining)。真正难的事情是先把一个足够强的文本编码器训出来。
- 多模态检索升级这件事的看法:应该是一次原地升级,而不是一次迁移工程。
📊 文章信息
AI 初评:86
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3048
标签: jina-embeddings-v5-omni, 多模态向量模型, Jina AI, 嵌入模型, 模型架构