智谱开源团队联合合肥工业大学和清华大学提出了一种名为Kaleido的开源多主体参考视频生成框架,旨在解决现有开源S2V模型在多主体场景中保持一致性及背景解耦的难题。利用深度学习和计算机视觉技术,能够生成包含多个主体的高质量视频。Kaleido 在多主体视频生成中达到 SOTA 效果,为视频生成领域提供强大的开源方案,助力开发者实现高质量的多主体视频创作。

Kaleido的主要功能
- 多主体一致性生成:框架能在视频中保持多个主体(如人物、物体等)的视觉一致性,在复杂场景和多人交互中能维持稳定的主体特征。
- 背景解耦:框架能有效分离主体与背景信息,避免生成视频中出现参考图像中的无关背景细节,使主体在不同背景中具有更好的适应性。
- 高质量视频生成:通过优化的数据构建和训练方法,生成高质量、高保真度的视频内容,适用多种应用场景,如广告、影视制作等。
- 灵活的条件控制:框架支持通过多张参考图像和文本提示进行视频生成,为创作者提供更灵活的创作空间。
Kaleido的技术原理
- 数据构建管线:Kaleido 采用创新的数据构建管线,解决多主体视频生成中的背景纠缠和主体一致性问题。管线通过跨配对数据合成(将不同实例的主体与背景组合)和背景修复技术,强迫模型在训练时解耦主体特征,避免简单复制参考图像中的背景信息。通过多阶段的数据增强(如主体定位、分割、质量过滤等),确保数据的多样性和高质量,提升模型在复杂场景下的生成能力。
- R-RoPE(Reference Rotary Positional Encoding):为精确区分不同参考图像与视频 Token,Kaleido 引入 R-RoPE 机制。通过为参考图像的 Token 提供独立的旋转位置编码,显式地在注意力计算中确立不同主体与视频帧之间的边界。R-RoPE 通过空间位移确保参考图像 Token 在模型的时空嵌入空间中占据独特位置,有效避免多主体特征混淆,显著提升多主体生成的时空一致性。
- 模型架构与条件注入:Kaleido 基于扩散模型和 Diffusion Transformer 架构,通过简单而高效的条件注入策略,将多张参考图像与视频生成过程结合。模型将参考图像 Token 与视频噪声表示沿序列维度拼接,同时用 R-RoPE 机制区分图像和视频信息。
Kaleido的应用场景
- 影视制作:Kaleido 能根据角色的多张参考图生成高质量的动画视频,帮助动画师快速生成初步动画素材,提高制作效率。
- 广告创意:通过多主体视频生成,Kaleido 能为广告创作者提供灵活的素材生成方案,快速生成包含多个产品或人物的广告视频。
- 虚拟试穿:在电商领域,Kaleido 能生成用户试穿虚拟服装或佩戴虚拟饰品的视频,提升用户体验。
- 虚拟角色互动:为虚拟主播或虚拟角色生成自然的互动视频,使其在直播、游戏等场景中表现出更丰富的动态效果。
- 教育与培训:用在生成教学视频,例如通过多主体生成展示实验过程或多人协作场景,增强教学的直观性和趣味性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



