TLiveOmni 1.0 是阿里巴巴大淘宝技术团队推出的面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,在语音识别、商品定位等任务上达到 SOTA 水平。
📝 详细摘要
本文详细介绍了由阿里巴巴大淘宝技术团队研发的 TLiveOmni 1.0 全模态大模型。该模型以 Qwen3-VL-Instruct 为基座,通过添加音频编码器并采用「模态对齐→能力强化→全任务微调」三阶段训练范式,实现了对图像、文本、视频、音频四模态的原生统一输入与 128K 上下文窗口支持。文章深入阐述了模型在电商直播场景下的能力矩阵,涵盖音频维度的语境感知 ASR 与多说话人分离、视频维度的商品时序切分与卖点提取、图像维度的商品空间定位与细粒度 OCR 等超 20 项原子能力。在技术实现上,文章重点介绍了 Audio DeepStack 模块设计、同步长度分组采样器解决分布式训练死锁问题、基于 vLLM 的定制化推理部署优化以及 FP8 量化带来的 2.5-3.5 倍推理加速。实验结果表明,TLiveOmni 1.0 在电商直播域的 ASR、多说话人分离、商品定位和文本分类等任务上显著优于现有开源模型,部分能力接近或超越 Gemini 系列闭源模型。
💡 主要观点
- TLiveOmni 1.0 实现了图像、文本、视频、音频四模态的原生统一输入与 128K 上下文窗口。 模型以 Qwen3-VL-Instruct 为基座,引入 Qwen3-Omni 的 Audio Transformer 作为音频编码器,并通过 Audio DeepStack 模块增强音频特征,实现了跨模态的统一建模。
💬 文章金句
- TLiveOmni 1.0 是一款面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,实现 128K 上下文窗口。
- 我们设计并实现了同步长度分组采样器。该方案通过三层逻辑的紧密配合,在保障计算图统一的前提下,极大提升了 Token 吞吐效率。
- 经过 8bit 量化的 TLiveOmni 1.0 在保持各模态任务效果几乎不掉点的同时能取得 2.5-3.5 倍的推理加速。
- 相比于业界主流的开闭源音频和 Omni 模型,我们的 TLiveOmni 1.0 模型在电商直播域的 ASR 和多说话人分离能力上达到 SOTA 效果。
- 在上下文语音识别上,TLiveOmni 1.0 相比于 Qwen3-ASR-Flash 和 Qwen3-Omni 也展现了明显优势,特别是当上下文关键词数量超过 200 时,TLiveOmni 1.0 模型仍保持大于 75%的关键词召回率。
📊 文章信息
AI 初评:90
来源:大淘宝技术
作者:大淘宝技术
分类:人工智能
语言:中文
阅读时间:56 分钟
字数:13976
标签: 全模态大模型, 电商直播, TLiveOmni, 多模态理解, ASR