Google DeepMind 推出 Gemini Embedding 2,这是一款支持文本、图像、音频、视频和 PDF 的统一多模态嵌入模型。
📝 详细摘要
Philipp Schmid 宣布 Gemini Embedding 2 开启公开预览,这是谷歌首款全能多模态嵌入模型。该模型将文本、图像、视频、音频和 PDF 五种模态统一到单个嵌入空间中。核心技术亮点包括:支持高达 8,192 个输入 Token、100 多种语言、无需转录步骤的原生音频嵌入,以及通过马特廖什卡表示学习 (MRL) 实现的灵活输出维度(768、1,536 或 3,072)。目前该模型已通过 Gemini API 和 Vertex AI 提供。
📊 文章信息
AI 评分:89
来源:Philipp Schmid(@_philschmid)
作者:Philipp Schmid
分类:人工智能
语言:英文
阅读时间:3 分钟
字数:505
标签: Gemini Embedding 2, 多模态 AI, Google DeepMind, 向量嵌入, RAG