Google 推出首个原生多模态嵌入模型 Gemini Embedding 2,实现了文本、音视频及文档在共享空间内的统一映射。
📝 详细摘要
该推文介绍了 Google 最新的多模态嵌入模型 Gemini Embedding 2。该模型基于 Gemini 架构,首次将文本、图像、视频、音频和文档统一映射到共享嵌入空间,打破了模态壁垒。关键特性包括支持 8192 token 文本、多图及 120 秒视频输入,并采用 Matryoshka 学习技术支持动态维度缩减。该模型在 RAG 和语义搜索任务上达到 SOTA 水准,并已与 LangChain 等主流框架集成。
📊 文章信息
AI 评分:91
来源:meng shao(@shao__meng)
作者:meng shao
分类:人工智能
语言:中文
阅读时间:4 分钟
字数:870
标签: Google Gemini, 多模态, Embedding Model, RAG, 人工智能资讯