字节与港中文推出端到端人-物交互视频生成模型 OmniShow

📅 2026-04-14 17:52 AIGCLINK 人工智能 1 分鐘 604 字評分: 84

📌 一句话摘要字节跳动、香港中文大学等机构的研究人员发布了 OmniShow 模型，这是一个专为人-物交互设计的全模态视频生成模型，支持图像、音频、姿势和文本的混合输入。 📝 详细摘要这条推文介绍了一个由字节跳动、香港中文大学等机构联合发布的最新视频生成模型——OmniShow。该模型专为电商广告等需要人-物交互的场景设计，是一个端到端的全模态模型，能够同时处理图像、音频、人体姿势和文本等多种输入。推文指出，OmniShow 覆盖了 R2V、RA2V、RP2V、RAP2V 四种生成模式，可能是目前唯一支持如此多模态混合输入的模型。推文还评价了其在人脸保持、物理合理性、表现力和口型同步方

📌 一句话摘要

字节跳动、香港中文大学等机构的研究人员发布了 OmniShow 模型，这是一个专为人-物交互设计的全模态视频生成模型，支持图像、音频、姿势和文本的混合输入。

📝 详细摘要

这条推文介绍了一个由字节跳动、香港中文大学等机构联合发布的最新视频生成模型——OmniShow。该模型专为电商广告等需要人-物交互的场景设计，是一个端到端的全模态模型，能够同时处理图像、音频、人体姿势和文本等多种输入。推文指出，OmniShow 覆盖了 R2V、RA2V、RP2V、RAP2V 四种生成模式，可能是目前唯一支持如此多模态混合输入的模型。推文还评价了其在人脸保持、物理合理性、表现力和口型同步方面的效果，并提到其支持生成长达 10 秒的原生长镜头视频。最后，推文说明目前代码尚未开源。

📊 文章信息

AI 初评：84

来源：AIGCLINK(@aigclink)

作者：AIGCLINK

分类：人工智能

语言：中文

阅读时间：1 分钟

字数：231

标签： OmniShow, 视频生成, 多模态, 字节跳动, 香港中文大学

阅读推文

查看原文 → 發佈: 2026-04-14 17:52:39 收錄: 2026-04-14 20:00:52

字节与港中文推出端到端人-物交互视频生成模型 OmniShow

🤖 問 AI