← 回總覽

谷歌发布 Gemini Embedding 2:全能多模态嵌入模型

📅 2026-03-11 00:49 Philipp Schmid 人工智能 1 分鐘 618 字 評分: 89
Gemini Embedding 2 多模态 AI Google DeepMind 向量嵌入 RAG
📌 一句话摘要 Google DeepMind 推出 Gemini Embedding 2,这是一款支持文本、图像、音频、视频和 PDF 的统一多模态嵌入模型。 📝 详细摘要 Philipp Schmid 宣布 Gemini Embedding 2 开启公开预览,这是谷歌首款全能多模态嵌入模型。该模型将文本、图像、视频、音频和 PDF 五种模态统一到单个嵌入空间中。核心技术亮点包括:支持高达 8,192 个输入 Token、100 多种语言、无需转录步骤的原生音频嵌入,以及通过马特廖什卡表示学习 (MRL) 实现的灵活输出维度(768、1,536 或 3,072)。目前该模型已通过 Gem

📌 一句话摘要

Google DeepMind 推出 Gemini Embedding 2,这是一款支持文本、图像、音频、视频和 PDF 的统一多模态嵌入模型。

📝 详细摘要

Philipp Schmid 宣布 Gemini Embedding 2 开启公开预览,这是谷歌首款全能多模态嵌入模型。该模型将文本、图像、视频、音频和 PDF 五种模态统一到单个嵌入空间中。核心技术亮点包括:支持高达 8,192 个输入 Token、100 多种语言、无需转录步骤的原生音频嵌入,以及通过马特廖什卡表示学习 (MRL) 实现的灵活输出维度(768、1,536 或 3,072)。目前该模型已通过 Gemini API 和 Vertex AI 提供。

📊 文章信息

AI 评分:89

来源:Philipp Schmid(@_philschmid)

作者:Philipp Schmid

分类:人工智能

语言:英文

阅读时间:3 分钟

字数:505

标签: Gemini Embedding 2, 多模态 AI, Google DeepMind, 向量嵌入, RAG

阅读推文

查看原文 → 發佈: 2026-03-11 00:49:59 收錄: 2026-03-11 04:00:50

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。