字节跳动、香港中文大学等机构的研究人员发布了 OmniShow 模型,这是一个专为人-物交互设计的全模态视频生成模型,支持图像、音频、姿势和文本的混合输入。
📝 详细摘要
这条推文介绍了一个由字节跳动、香港中文大学等机构联合发布的最新视频生成模型——OmniShow。该模型专为电商广告等需要人-物交互的场景设计,是一个端到端的全模态模型,能够同时处理图像、音频、人体姿势和文本等多种输入。推文指出,OmniShow 覆盖了 R2V、RA2V、RP2V、RAP2V 四种生成模式,可能是目前唯一支持如此多模态混合输入的模型。推文还评价了其在人脸保持、物理合理性、表现力和口型同步方面的效果,并提到其支持生成长达 10 秒的原生长镜头视频。最后,推文说明目前代码尚未开源。
📊 文章信息
AI 初评:84
来源:AIGCLINK(@aigclink)
作者:AIGCLINK
分类:人工智能
语言:中文
阅读时间:1 分钟
字数:231
标签: OmniShow, 视频生成, 多模态, 字节跳动, 香港中文大学