← 回總覽

字节与港中文推出端到端人-物交互视频生成模型 OmniShow

📅 2026-04-14 17:52 AIGCLINK 人工智能 1 分鐘 604 字 評分: 84
OmniShow 视频生成 多模态 字节跳动 香港中文大学
📌 一句话摘要 字节跳动、香港中文大学等机构的研究人员发布了 OmniShow 模型,这是一个专为人-物交互设计的全模态视频生成模型,支持图像、音频、姿势和文本的混合输入。 📝 详细摘要 这条推文介绍了一个由字节跳动、香港中文大学等机构联合发布的最新视频生成模型——OmniShow。该模型专为电商广告等需要人-物交互的场景设计,是一个端到端的全模态模型,能够同时处理图像、音频、人体姿势和文本等多种输入。推文指出,OmniShow 覆盖了 R2V、RA2V、RP2V、RAP2V 四种生成模式,可能是目前唯一支持如此多模态混合输入的模型。推文还评价了其在人脸保持、物理合理性、表现力和口型同步方

📌 一句话摘要

字节跳动、香港中文大学等机构的研究人员发布了 OmniShow 模型,这是一个专为人-物交互设计的全模态视频生成模型,支持图像、音频、姿势和文本的混合输入。

📝 详细摘要

这条推文介绍了一个由字节跳动、香港中文大学等机构联合发布的最新视频生成模型——OmniShow。该模型专为电商广告等需要人-物交互的场景设计,是一个端到端的全模态模型,能够同时处理图像、音频、人体姿势和文本等多种输入。推文指出,OmniShow 覆盖了 R2V、RA2V、RP2V、RAP2V 四种生成模式,可能是目前唯一支持如此多模态混合输入的模型。推文还评价了其在人脸保持、物理合理性、表现力和口型同步方面的效果,并提到其支持生成长达 10 秒的原生长镜头视频。最后,推文说明目前代码尚未开源。

📊 文章信息

AI 初评:84

来源:AIGCLINK(@aigclink)

作者:AIGCLINK

分类:人工智能

语言:中文

阅读时间:1 分钟

字数:231

标签: OmniShow, 视频生成, 多模态, 字节跳动, 香港中文大学

阅读推文

查看原文 → 發佈: 2026-04-14 17:52:39 收錄: 2026-04-14 20:00:52

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。