jina-embeddings-v5-omni 发布！全模态向量小模型

📌 一句话摘要

Jina AI 发布 jina-embeddings-v5-omni 全模态向量模型，通过冻结文本底座并仅训练 0.35% 的投影层参数，以极低成本实现了文本、图像、音频、视频四模态支持，且文本向量与 v5-text 逐字节一致，无需重建索引。

📝 详细摘要

Jina AI 正式发布 jina-embeddings-v5-omni 系列全模态向量模型，包括 small（1.57B 参数）和 nano（1.04B 参数）两个版本。该模型采用创新的「冻结编码器 + 轻量投影层」架构：以 v5-text 为文本底座，冻结 Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器，仅训练占总权重 0.35% 的投影层，将多模态表示对齐到文本语义空间。这种设计带来三大优势：文本表现完全无损（与 v5-text 逐字节一致）、训练速度快 1.8-3.9 倍且显存降低 42%-64%、各模态塔可独立加载实现模块化部署。在性能上，v5-omni-small 以不到 LCO-7B 五分之一参数量追平其四模态平均分（53.93 vs 54.43），在文本、图像分类、音频分类等任务上甚至反超。主要短板在视频模态，团队计划后续改进。该模型已上线 Hugging Face、Jina API 和 Elasticsearch 原生推理端点，对现有 v5-text 用户可实现无缝升级。

💡 主要观点

- 采用冻结编码器加轻量投影层架构，仅训练 0.35% 参数。 冻结 v5-text 文本底座、Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器，只训练一层小型投影层对齐多模态表示，实现极低训练成本和模块化部署。

文本向量与 v5-text 逐字节一致，现有索引无需重建。 由于文本底座完全冻结，相同文本输入产出相同向量，用户可直接切换推理端点获得多模态检索能力，无需重新向量化或重建索引。

以 1/5 参数量追平 LCO-7B，视频模态是主要短板。 v5-omni-small（1.57B）四模态平均分 53.93 接近 LCO-7B（54.43），在文本、图像分类、音频分类上反超，但视频检索（27.82 vs 58.73）差距显著。

💬 文章金句

- v5-omni 产出的文本向量与 v5-text 逐字节一致，无需重建任何已有索引。

组合(composition)胜过重训(retraining)。真正难的事情是先把一个足够强的文本编码器训出来。
多模态检索升级这件事的看法：应该是一次原地升级，而不是一次迁移工程。

📊 文章信息

AI 初评：86

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3048

标签： jina-embeddings-v5-omni, 多模态向量模型, Jina AI, 嵌入模型, 模型架构

阅读完整文章

jina-embeddings-v5-omni 发布！全模态向量小模型

🤖 問 AI