新闻动态
欧洲杯体育这种模范不仅减少了训诲资本-开云(中国)kaiyun体育网址-登录入口
发布日期:2026-05-26 14:12    点击次数:89
 

欧洲杯体育这种模范不仅减少了训诲资本-开云(中国)kaiyun体育网址-登录入口

欧洲杯体育

4月21日,昆仑万维SkyReels团队认真发布并开源SkyReels-V2——群众首个使用扩散将就(Diffusion-forcing)框架的无尽时长电影生成模子,其通过诱惑多模态大言语模子(MLLM)、多阶段预训诲(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散将就(Diffusion-forcing)框架来已毕协同优化。

    

追思往常一年,视频生成手艺在扩散模子和自总结框架的鼓励下取得了权贵进展,但在提醒词遵守、视觉质料、通顺动态和视频时长的合作上仍濒临要紧挑战。

现存手艺在升迁褂讪的视觉质料时频频阵一火通顺动态后果,为了优先推敲高远离率而适度视频时长(频繁为5-10秒),何况由于通用多模态大言语模子(MLLM)无法解读电影语法(如镜头构图、演员神采和录像机通顺),导致镜头感知生成才调不及。这些互关连联的适度破损了长视频的传神合成和专科电影作风的生成。

为了处罚这些痛点,SkyReels-V2应时而生,它不仅在手艺上已毕了冲破,还提供多了多种有效的应用场景,包括故事生成、图生视频、运镜大家和多主体一致性视频生成(SkyReels-A2)。

SkyReels-V2现已撑执生成30秒、40秒的视频,且具备生成高通顺质料、高一致性、高保真视频的才调。

中枢手艺篡改,迈入“无尽时长、影视级质料、精确贬抑”的全新视频生成阶段

    

图丨SkyReels-V2模范概述

SkyReels-V2大概达到这么的视频生成后果,源于其多项更脱手艺:

1. 全面的影视级视频知晓模子:SkyCaptioner-V1

为了提高提醒词遵守才调,团队瞎想了一种结构化的视频默示模范,将多模态LLM的一般描画与子大家模子的详备镜头言语相诱惑。这种模范大概识别视频中的主体类型、外不雅、神采、动作和位置等信息,同期通过东说念主工标注和模子训诲,进一步升迁了对镜头言语的知晓才调。

同期,团队训诲了一个长入的视频知晓模子 SkyCaptioner-V1,它大概高效地知晓视频数据,生成相宜原始结构信息的万般化描画。通过这种姿首,SkyCaptioner-V1不仅大概知晓视频的一般内容,还能捕捉到电影场景中的专科镜头言语,从而权贵提高了生成视频的提醒词遵守才调。此外,这个模子当今依然开源,不错胜仗使用。

    

图丨在视频知晓测试集上的模子详尽性能比拟中,SkyCaptioner-V1施展优异,超越了SOTA的模子

2. 针对通顺的偏好优化

现存的视频生成模子在通顺质料上施展欠安,主要原因是优化指标未能充分推敲时序一致性和通顺合感性。咱们通过强化学习(RL)训诲,使用东说念主工标注和合成失真数据,处罚了动态污蔑、分歧理等问题。为了缩短数据标注资本,咱们瞎想了一个半自动数据相聚管说念,大概高效地生成偏好对比数据对。

通过这种姿首,SkyReels-V2在通顺动态方面施展优异,大概生成流通且传神的视频内容,烦扰电影制作中对高质料通顺动态的需求。

3. 高效的扩散将就框架

为了已毕长视频生成才调,咱们建议了一种扩散将就(diffusion forcing)后训诲模范。与从零脱手训诲扩散将就模子不同,咱们通过微调预训诲的扩散模子,将其动荡为扩散将就模子。这种模范不仅减少了训诲资本,还权贵提高了生生服从。

咱们采选非递减噪声期间表,将邻接帧的去噪期间表搜索空间从 O(1e48) 缩短到 O(1e32),从长途毕了长视频的高效生成。这一篡改使得SkyReels-V2大概生成险些无尽时长的高质料视频内容。

4. 渐进式远离率预训诲与多阶段后训诲优化

为了开采一个专科的影视生成模子,咱们的多阶段质料保证框架整合了来自三个主要开始的数据:

通用数据集:整合了开源资源,包括Koala-36M、HumanVid,以及从互联网爬取的迥殊视频资源。这些数据提供了平庸的基础视频素材,涵盖了多种场景和动作。

自相聚媒体:包括280,000多部电影和800,000多集电视剧,掩饰120多个国度(忖度总时长卓著620万小时)。这些数据为模子提供了丰富的电影作风和叙事结构。

艺术资源库:从互联网得到的高质料视频财富,确保生成内容的视觉质料达到专科标准。

原始数据集限制达到亿级(O(100M)),不同子集字据质料要求在各个训诲阶段使用。此外,咱们还相聚了亿级的想法均衡图像数据,以加快早期训诲中生成才调的成立。在此数据基础上,咱们率先通过渐进式远离率预训诲成立基础视频生成模子,然后进行四阶段的后续训诲增强:

运转想法均衡的监督微调(SFT):通过想法均衡的数据集进行微调,为后续优化提供邃密的运动荡。

通顺特定的强化学习(RL)训诲:通过偏好优化升迁通顺动态质料。

扩散将就框架(DF):已毕长视频生成才调。

高质料SFT:进一步升迁视觉保真度。

诱惑富含影视级别数据和多阶段优化模范,咱们确保了SkyReels-V2在资源有限的情况下,高效的稳步升迁多方面的施展,达到影视级视频生成的水准。

在SkyReels-Bench和V-Bench评估中,性能施展超卓

为了全面评估SkyReels-V2的性能,咱们构建了SkyReels-Bench用于东说念主类评估,并诈欺开源的V-Bench进行自动化评估。这种双重评估框架使咱们大概系统地比拟SkyReels-V2和其他起始进的基线模子(包括开源和闭源模子)。

1. SkyReels-Bench评估

SkyReels-Bench包含1020个文本提醒词,系统性地评估了四个关节维度:指示遵守、通顺质料、一致性和视觉质料。该基准旨在评估文本到视频(T2V)和图像到视频(I2V)生成模子,提供跨不同生成范式的全面评估。

在SkyReels-Bench评估中,SkyReels-V2在指示遵守方面取得了权贵进展,同期在保证通顺质料的同期不阵一火视频的一致性后果。具体施展如下:

指示遵守:SkyReels-V2在通顺指示、主体指示、空间关系、镜头类型、神采和录像机通顺的遵守上均优于基线模范。

通顺质料:在通顺动态性、流通性和物理合感性方面,SkyReels-V2施展出色,生成的通顺内容当然且万般。

一致性:主体和场景在整个这个词视频中保执高度一致,通顺经由有较高的保真度。

视觉质料:生成视频在视觉明晰度、色调准确性和结构完竣性上均达到高水平,无光显污蔑或损坏。

    

图丨在SkyReels-Bench的T2V多维度东说念主工评测集下,SkyReels-V2在指示遵守和一致性得到最高水准,同期在视频质料和通顺质料上保执第一梯队

2. VBench1.0放胆

在VBench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质料分(84.7%)上均优于整个对比模子,包括HunyuanVideo-13B和Wan2.1-14B。这一放胆进一步考据了SkyReels-V2在生成高保真、指示对皆的视频内容方面的雄伟才调。

    

图丨在V-bench1.0的长prompt版块下,SkyReels-V2超越了整个的开源模子,包括HunyuanVideo-13B和Wan2.1-14B

03

丰富的应用场景,赋能创意已毕

SkyReels-V2不仅在手艺上已毕了冲破,还为多个骨子应用场景提供了雄伟的撑执:

1. 故事生成

SkyReels-V2大概生成表面上无尽时长的视频,通过滑动窗口模范,模子在生成新帧时会参考之前生成的帧和文本提醒。为了退缩乌有蕴蓄,咱们采选了褂讪化手艺,通过在之前生成的帧上添加轻微噪声来褂讪生成经由。这种模范不仅撑执期间上的推广,还能生成具有连贯叙事的长镜头视频。

通过一系列叙事文本提醒,SkyReels-V2大概编排一个连贯的视觉叙事,卓著多个动作场景,同期保执视觉一致性。这种才调确保了场景之间的平滑过渡,使得动态叙事愈加流通,而不会影响视觉元素的完竣性。这一功能至极稳当需要复杂多动作序列的应用,如电影制作和告白创作。

2. 图像到视频合成

SkyReels-V2提供了两种图像到视频(I2V)的生成模范:

· 微调全序列文本到视频(T2V)扩散模子(SkyReels-V2-I2V):通过将输入图像算作要求注入T2V架构中,模子大概诈欺参考帧进行后续生成。这种模范在384个GPU上仅需10,000次训诲迭代即可取得和闭源模子同等第的后果。

· 扩散将就模子与帧要求诱惑(SkyReels-V2-DF):通过将第一帧算作干净的参考要求输入扩散框架,无需显式从头训诲即可保执期间一致性。

在SkyReels-Bench的I2V多维度东说念主工评测集下,SkyReels-V2在整个质料维度上均优于其他开源模子,并与闭源模子施展非常。

    

3. 录像导演功能

SkyReels-V2在标注录像机通顺方面施展出色,但咱们发现录像机通顺数据的固有对抗衡对进一步优化影相参数建议了挑战。为此,咱们特意筛选了约100万个样本,确保基本录像机通顺过火常见组合的均衡默示。通过在384个GPU上进行3,000次迭代的微调推行,咱们权贵升迁了影相后果,至极是在录像机通顺的流通性和万般性方面。

4. 元素到视频生成

基于SkyReels-V2基座模子,咱们研发了SkyReels-A2决策,并建议了一种新的多元素到视频(E2V)任务,大概将狂妄视觉元素(如东说念主物、物体和布景)组合成由文本提醒指示的连贯视频,同期确保对每个元素的参考图像的高保真度。这一功能至极稳当短剧、音乐视频和造谣电商内容创作等应用。

算作首个生意级E2V开源模子,SkyReels-A2在E2V评估Benchmark A2-Bench中的放胆标明,其一致性和质料维度上评估与闭源模子非常。将来,咱们谋划推广框架以撑执更多输入模态,如音频和动作,旨在构建一个长入的视频生成系统,以撑执更平庸的应用。

SkyReels-V2的推出标识着视频生成手艺迈入了一个新的阶段,为已毕高质料、恒久间的电影作风视频生成提供了全新的处罚决策。它不仅为内容创作家提供了雄伟的用具,更开启了诈欺AI进行视频叙事和创意抒发的无尽可能。

昆仑万维SkyReels团队仍发奋于鼓励视频生成手艺的发展,并将SkyCaptioner-V1和SkyReels-V2系列模子(包括扩散将就、文本到视频、图像到视频、录像导演和元素到视频模子)的各式尺寸(1.3B、5B、14B)进行统统开源,以促进学术界和工业界的进一步瞎想和应用。