昆仑万维开源SkyReels-A2 –可控视频生成框架，支持生成无限时长的视频

1.3K 00

SkyReels-A2是昆仑万维推出的可控视频生成框架，支持根据文本提示将任意视觉元素（如人物、物体、背景）组合成合成视频。昆仑万维科技股份有限公司（以下简称“昆仑万维”）SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（ReinforcementLearning）和扩散强迫（Diffusion-forcing）框架实现协同优化。

SkyReels-V2不仅在技术上实现了突破，还提供了多种有用的应用场景，能够生成理论上无限时长的视频，通过滑动窗口方法，模型在生成新帧时会参考之前生成的帧和文本提示。包括故事生成、图生视频、运镜专家和多主体一致性视频生成（SkyReels-A2）。这种方法不仅支持时间上的扩展，还能生成具有连贯叙事的长镜头视频。

SkyReels-V2现已支持生成30秒、40秒的视频，且具备生成高运动质量、高一致性、高保真视频的能力。能够将任意视觉元素（如人物、物体和背景）组合成由文本提示引导的连贯视频，同时确保对每个元素的参考图像的高保真度。这一功能适合短剧、音乐视频和虚拟电商内容创作等应用。

SkyReels-A2的主要功能

多元素组合：将任意视觉元素（如人物、物体、背景等）组合成合成视频，严格保持与每个元素的参考图像的一致性。
文本驱动生成：根据文本提示生成视频，用户基于文字描述精确控制视频的内容和风格。
高质量视频输出：生成的视频具有高分辨率和高质量，满足多种应用场景的需求。
实时交互：支持用户在生成过程中进行实时交互，调整生成参数获得更符合需求的视频结果。

SkyReels-A2的技术原理

扩散模型：SkyReels-A2用扩散模型的特性，将噪声逐步转化为高质量的视频内容。模型基于去噪过程，将随机噪声逐步转化为目标视频，用文本和图像提示引导生成过程。
图像-文本联合嵌入模型：SkyReels-A2设计新颖的图像-文本联合嵌入模型，将参考图像和文本提示嵌入到共同的特征空间中。基于双分支结构，分别提取参考图像的空间特征和语义特征，注入到扩散模型的生成过程中。空间特征基于3D VAE（变分自编码器）提取，确保局部细节的保留，语义特征基于CLIP模型提取，确保全局语义的一致性。
数据管道：构建全面的数据管道，用在生成高质量的文本、参考图像、视频三元组。数据管道包括视频预处理、关键帧分割、多专家视频字幕生成、视觉元素提取等步骤，确保生成的训练数据能够有效支持模型学习。
优化的推理管道：为提高生成速度和稳定性，SkyReels-A2对推理管道进行优化。基于UniPC多步调度策略，结合并行化处理技术（如Context Parallel、CFG Parallel和VAE Parallel），显著提高模型的推理效率。基于模型量化和参数级卸载策略，降低GPU内存消耗，支持在消费级显卡上运行。
评估基准A2 Bench：SkyReels-A2引入基准A2 Bench，用在系统评估元素到视频（E2V）任务的性能。A2 Bench从多个维度（如组成一致性、视觉质量、文本对齐等）进行评估，确保模型在不同场景下的表现满足实际应用需求。