TLiveOmni 1.0: 直播视频多模态理解大模型

📌 一句话摘要

TLiveOmni 1.0 是阿里巴巴大淘宝技术团队推出的面向电商直播场景的全模态大模型，原生支持图像、文本、视频、音频四模态统一输入，在语音识别、商品定位等任务上达到 SOTA 水平。

📝 详细摘要

本文详细介绍了由阿里巴巴大淘宝技术团队研发的 TLiveOmni 1.0 全模态大模型。该模型以 Qwen3-VL-Instruct 为基座，通过添加音频编码器并采用「模态对齐→能力强化→全任务微调」三阶段训练范式，实现了对图像、文本、视频、音频四模态的原生统一输入与 128K 上下文窗口支持。文章深入阐述了模型在电商直播场景下的能力矩阵，涵盖音频维度的语境感知 ASR 与多说话人分离、视频维度的商品时序切分与卖点提取、图像维度的商品空间定位与细粒度 OCR 等超 20 项原子能力。在技术实现上，文章重点介绍了 Audio DeepStack 模块设计、同步长度分组采样器解决分布式训练死锁问题、基于 vLLM 的定制化推理部署优化以及 FP8 量化带来的 2.5-3.5 倍推理加速。实验结果表明，TLiveOmni 1.0 在电商直播域的 ASR、多说话人分离、商品定位和文本分类等任务上显著优于现有开源模型，部分能力接近或超越 Gemini 系列闭源模型。

💡 主要观点

- TLiveOmni 1.0 实现了图像、文本、视频、音频四模态的原生统一输入与 128K 上下文窗口。 模型以 Qwen3-VL-Instruct 为基座，引入 Qwen3-Omni 的 Audio Transformer 作为音频编码器，并通过 Audio DeepStack 模块增强音频特征，实现了跨模态的统一建模。

模型采用「模态对齐→能力强化→全任务微调」三阶段训练范式，逐步融合多模态能力。 第一阶段用 500 万条 ASR 数据对齐音频与文本；第二阶段用 2600 万条数据强化音频深度理解；第三阶段用 1376 万条跨模态数据进行端到端联合微调，使模型具备全模态推理能力。

同步长度分组采样器解决了大规模分布式训练中「全局强同步」与「局部异构性」的矛盾。 通过模态隔离、桶内排序和全局同步分发，消除了无效填充和死锁问题，在高方差多模态数据上实现 50% 以上的训练吞吐提升。

基于 vLLM 的定制化推理框架和 FP8 量化实现了 2.5-3.5 倍的推理加速。 团队对 vLLM v1 进行了架构层和算子层的深度定制，解决了多模态精度漂移和引擎死锁问题，并通过 SmoothQuant + GPTQ 复合量化方案在保持精度的同时大幅降低推理延迟。

在电商直播场景的关键任务上，TLiveOmni 1.0 显著优于现有开源模型，部分能力接近 Gemini 系列。 在 ASR、多说话人分离、商品定位和文本分类等任务上达到 SOTA；上下文语音识别在 200+ 关键词时仍保持 75% 以上召回率；音频问答能力接近 Gemini2.5-Pro。

💬 文章金句

- TLiveOmni 1.0 是一款面向电商直播场景的全模态大模型，原生支持图像、文本、视频、音频四模态统一输入，实现 128K 上下文窗口。

我们设计并实现了同步长度分组采样器。该方案通过三层逻辑的紧密配合，在保障计算图统一的前提下，极大提升了 Token 吞吐效率。
经过 8bit 量化的 TLiveOmni 1.0 在保持各模态任务效果几乎不掉点的同时能取得 2.5-3.5 倍的推理加速。
相比于业界主流的开闭源音频和 Omni 模型，我们的 TLiveOmni 1.0 模型在电商直播域的 ASR 和多说话人分离能力上达到 SOTA 效果。
在上下文语音识别上，TLiveOmni 1.0 相比于 Qwen3-ASR-Flash 和 Qwen3-Omni 也展现了明显优势，特别是当上下文关键词数量超过 200 时，TLiveOmni 1.0 模型仍保持大于 75%的关键词召回率。

📊 文章信息

AI 初评：90

来源：大淘宝技术

作者：大淘宝技术

分类：人工智能

语言：中文

阅读时间：56 分钟

字数：13976

标签：全模态大模型, 电商直播, TLiveOmni, 多模态理解, ASR

阅读完整文章

TLiveOmni 1.0: 直播视频多模态理解大模型

🤖 問 AI