← 回總覽

jina-embeddings-v5-omni 发布!全模态向量小模型

📅 2026-05-14 17:37 魔搭ModelScope社区 人工智能 2 分鐘 1529 字 評分: 86
jina-embeddings-v5-omni 多模态向量模型 Jina AI 嵌入模型 模型架构
📌 一句话摘要 Jina AI 发布 jina-embeddings-v5-omni 全模态向量模型,通过冻结文本底座并仅训练 0.35% 的投影层参数,以极低成本实现了文本、图像、音频、视频四模态支持,且文本向量与 v5-text 逐字节一致,无需重建索引。 📝 详细摘要 Jina AI 正式发布 jina-embeddings-v5-omni 系列全模态向量模型,包括 small(1.57B 参数)和 nano(1.04B 参数)两个版本。该模型采用创新的「冻结编码器 + 轻量投影层」架构:以 v5-text 为文本底座,冻结 Qwen3.5 视觉编码器和 Whisper-large-

📌 一句话摘要

Jina AI 发布 jina-embeddings-v5-omni 全模态向量模型,通过冻结文本底座并仅训练 0.35% 的投影层参数,以极低成本实现了文本、图像、音频、视频四模态支持,且文本向量与 v5-text 逐字节一致,无需重建索引。

📝 详细摘要

Jina AI 正式发布 jina-embeddings-v5-omni 系列全模态向量模型,包括 small(1.57B 参数)和 nano(1.04B 参数)两个版本。该模型采用创新的「冻结编码器 + 轻量投影层」架构:以 v5-text 为文本底座,冻结 Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器,仅训练占总权重 0.35% 的投影层,将多模态表示对齐到文本语义空间。这种设计带来三大优势:文本表现完全无损(与 v5-text 逐字节一致)、训练速度快 1.8-3.9 倍且显存降低 42%-64%、各模态塔可独立加载实现模块化部署。在性能上,v5-omni-small 以不到 LCO-7B 五分之一参数量追平其四模态平均分(53.93 vs 54.43),在文本、图像分类、音频分类等任务上甚至反超。主要短板在视频模态,团队计划后续改进。该模型已上线 Hugging Face、Jina API 和 Elasticsearch 原生推理端点,对现有 v5-text 用户可实现无缝升级。

💡 主要观点

- 采用冻结编码器加轻量投影层架构,仅训练 0.35% 参数。 冻结 v5-text 文本底座、Qwen3.5 视觉编码器和 Whisper-large-v3 音频编码器,只训练一层小型投影层对齐多模态表示,实现极低训练成本和模块化部署。

文本向量与 v5-text 逐字节一致,现有索引无需重建。 由于文本底座完全冻结,相同文本输入产出相同向量,用户可直接切换推理端点获得多模态检索能力,无需重新向量化或重建索引。
以 1/5 参数量追平 LCO-7B,视频模态是主要短板。 v5-omni-small(1.57B)四模态平均分 53.93 接近 LCO-7B(54.43),在文本、图像分类、音频分类上反超,但视频检索(27.82 vs 58.73)差距显著。

💬 文章金句

- v5-omni 产出的文本向量与 v5-text 逐字节一致,无需重建任何已有索引。

  • 组合(composition)胜过重训(retraining)。真正难的事情是先把一个足够强的文本编码器训出来。
  • 多模态检索升级这件事的看法:应该是一次原地升级,而不是一次迁移工程。

📊 文章信息

AI 初评:86

来源:魔搭ModelScope社区

作者:魔搭ModelScope社区

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3048

标签: jina-embeddings-v5-omni, 多模态向量模型, Jina AI, 嵌入模型, 模型架构

阅读完整文章

查看原文 → 發佈: 2026-05-14 17:37:00 收錄: 2026-05-15 00:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。