为了实现长视频的高效生成,团队还采用了一种非递减噪声时间表。这个时间表就像是一个精密的时钟,它把连续帧的去噪时间表搜索空间从非常大的O(1e48)大幅降低到O(1e32)。这样一来,模型就能更快速、更准确地生成长视频内容,而且还能保证视频在时间上的连贯性和稳定性。它的工作原理是为每个帧分配独立的噪声水平,然后通过精心设计的噪声调度策略,确保视频序列在生成过程中不会出现错误累积的问题。比如说,它会在前一帧添加轻微的噪声,让生成过程更加稳定,就像在跑步的时候,每一步都迈得很稳,这样就能跑得更远、更久。在实际生成视频时,即使是生成几分钟的长视频,也不会出现画面卡顿、情节不连贯的情况。
(二)创新的训练策略
1. 丰富的数据来源
Skyreels V2之所以这么厉害,离不开它丰富的数据来源。就像一个人要想变得聪明,就得读很多书、学习很多知识一样,模型要想表现出色,也得有大量的数据来训练。
Skyreels V2的训练数据主要来自三个方面:通用数据集,这里面整合了很多高质量的开源资源,像Koala-36M、HumanVid,还有从互联网上爬取的其他视频资源,这些数据就像是一本本百科全书,涵盖了各种各样的场景和动作,为模型提供了广泛的基础视频素材;自收集媒体,这可是一个超级大的影视资源库,里面有280,000多部电影和800,000多集电视剧,覆盖了120多个国家,总时长超过620万小时,这些丰富的影视内容让模型学习到了各种电影风格和叙事结构;艺术资源库,这里面的视频都是从互联网上精选出来的高质量视频资产,它们的视觉质量都达到了专业标准,就像一个个艺术珍品,让模型能够生成高质量的视频内容。通过这些丰富的数据训练,Skyreels V2对各种场景和风格都有了深刻的理解,能够生成出更加多样化和高质量的视频。
2. 渐进式分辨率预训练与多阶段后训练优化
这章没有结束,请点击下一页继续阅读!
Skyreels V2的训练过程就像是一场精心策划的马拉松比赛,分为好几个阶段,每个阶段都有不同的目标和任务。
首先是渐进式分辨率预训练,这就像是马拉松比赛的热身阶段。模型会从低分辨率的视频数据开始训练,逐渐提高分辨率,这样可以让模型更好地学习视频的基本特征和规律,就像运动员在热身的时候,先慢慢地活动身体,适应运动的节奏。从低分辨率开始训练,模型可以先掌握视频的大致结构和基本元素,随着分辨率的提高,再逐渐学习到更精细的细节。
然后是四阶段的后训练增强:
- 初始概念平衡的监督微调(SFT):这个阶段就像是给模型打基础,通过概念平衡的数据集进行微调,让模型对各种概念有更准确的理解,为后续的优化提供一个良好的初始化。比如让模型对各种物体、场景、动作等概念有清晰的认知,这样在生成视频时才能更准确地表现出来。
- 运动特定的强化学习(RL)训练:这时候就像是给模型进行专项训练,针对运动质量进行优化,通过偏好优化提升运动动态质量,让模型生成的运动画面更加自然流畅。通过大量的运动数据训练,让模型学会不同动作的正确表现方式,避免出现运动不自然的情况。
- 扩散强迫框架(DF)训练:这是训练的关键阶段,通过这个阶段的训练,模型掌握了长视频生成的核心技术,能够实现高效的长视频生成。模型学会了如何利用扩散强迫框架,合理地安排每一帧的生成,保证长视频的连贯性和稳定性。
- 高质量SFT:最后再进行一次高质量的微调,进一步提升视频的视觉保真度,让生成的视频画面更加清晰、逼真。对视频的色彩、光影、细节等方面进行优化,使生成的视频达到更高的质量标准。
通过这样一步步的训练,Skyreels V2在指令遵循、运动质量、一致性和视觉质量等方面都取得了显着的进展,成为了一个非常强大的视频生成大模型。在实际应用中,它生成的视频无论是在质量还是在符合用户需求方面,都表现得非常出色。
三、Skyreels V2的实际表现如何?
(一)专业评估表现优异
为了全面评估Skyreels V2的性能,昆仑万维的团队构建了一个专业的评估体系,就像是给模型进行一场严格的考试。这个评估体系主要从四个关键维度来考察模型:指令遵循、运动质量、一致性和视觉质量。
在指令遵循方面,Skyreels V2就像是一个听话的好学生,能够准确理解并实现复杂的创作意图。比如说,当你输入一个包含多个动作序列和场景变化的复杂提示词时,它能按照你的要求,把每个细节都展现得非常到位,在运动指令、主体指令、空间关系、镜头类型、表情和摄像机运动的遵循上都远远优于其他基线方法。在生成一个“主角先在森林中奔跑,然后突然停下,转身面对镜头,脸上露出惊讶的表情,同时周围的树叶随风飘动”的视频时,Skyreels V2能完美地呈现出这些细节,而其他模型可能会遗漏一些动作或者表情表现不到位。
在运动质量方面,它生成的视频就像一部精彩的动作大片,运动动态性、流畅性和物理合理性都非常出色。里面的人物和物体运动起来自然、多样,就像在现实生活中一样,完全没有那种生硬、卡顿的感觉。在一些动作视频中,人物的打斗动作流畅自然,力量感十足,让人感觉就像是真实的武术高手在对决。
一致性方面,Skyreels V2也表现得非常出色。整个视频中主体和场景都能保持高度一致,不管是人物的服装、外貌,还是场景中的道具、环境,在不同的画面中都不会出现前后矛盾的情况,而且运动过程也有很高的保真度,让人感觉非常真实。在一个连续的剧情视频中,主角的服装颜色、款式始终保持一致,场景中的建筑、植物等也不会突然发生变化。
视觉质量上,生成的视频就像一幅精美的画卷,画面清晰度高、色彩准确性好、结构完整性强,没有明显的扭曲或损坏,每一帧都能达到专业影视级别的水准。生成的风景视频中,天空的蓝色、草地的绿色都非常鲜艳、逼真,画面中的物体边缘清晰,没有模糊或者锯齿的现象。
(二)自动化评估成绩突出