一起来看!全新两套开源视频超分方法,SeedVR & STAR 效果惊艳

发布时间:2025-05-01 19:44
带你学AI

视频修复是一个棘手的问题,不仅要恢复清晰的画质,还得保证时间上的细节一致性,特别是当处理那些来源未知且劣化严重的视频时。这些问题让修复变得更加困难。字节跳动联合南洋理工大学和南京大学分别提出了SeedVRSTAR两套视频清晰化的解决方案。(链接在文章底部,SeedVR代码尚未公开)

SeedVR是一个为实际视频修复任务设计的扩散式变换器,它可以处理任意长度和分辨率的视频。SeedVR 在合成视频、真实视频以及 AI 生成的视频修复任务上都表现出了极强的竞争力。STAR(基于T2V模型的真实世界视频超分辨率时空增强),利用T2V模型实现真实的空间细节和稳健的时间一致性。在全局注意力模块之前引入了局部信息增强模块(LIEM),用于丰富局部细节并减少劣化伪影。有效解决了真实世界视频超分辨率中的关键难题,实现了视觉细节的真实性与时间一致性的平衡。

01 SeedVR

SeedVR 是一种用于通用视频修复(VR)的扩散变换器(DiT)模型,能够高效应对分辨率限制问题。SeedVR 以 MM-DiT 作为其主干,并用窗口注意力机制替代了全自注意力。虽然已经有多种窗口注意力设计被研究过,但力求简化设计,因此采用了 Swin 注意力机制,从而构建了 Swin-MMDiT。

与以往的方法不同,Swin-MMDiT 在 8x8 压缩潜空间上采用了 64x64 的大窗口注意力,而不是通常用于低级视觉任务的 8x8 像素空间窗口注意力。在使用 Swin-MMDiT 处理任意分辨率的输入时,由于使用了大窗口,无法再假设输入的空间维度是窗口大小的整数倍。此外,Swin 的滑动窗口机制会导致时空体积边界处出现大小不均的 3D 窗口。为了解决这些问题,设计了一个 3D 旋转位置嵌入机制,用于在每个窗口内建模不同大小的窗口。

02 STAR

STAR(基于T2V模型的时空增强用于真实世界视频超分辨),通过利用T2V模型实现了逼真的空间细节与稳健的时间一致性。

STAR 包括四个模块:VAE、文本编码器、ControlNet 和集成了局部信息增强模块(LIEM)的 T2V 模型,其中 LIEM 用于缓解伪影问题。此外,还引入了动态频率(DF)损失,以在扩散步骤中自适应地调整对高频和低频分量的约束。通过所提出的 LIEM 和 DF 损失,STAR 实现了高水平的时空质量,减少了伪影并增强了复原的真实性。

https://arxiv.org/abs/2501.01320 https://github.com/NJU-PCALab/STAR https://arxiv.org/abs/2501.02976

欢迎交流~,带你学习AI,了解AI

网址:一起来看!全新两套开源视频超分方法,SeedVR & STAR 效果惊艳 http://c.mxgxt.com/news/view/923091

相关内容

又一个开源便斩获 7k star 的新模型「GitHub 热点速览」
一个有效的面试——善用STAR法则
做达人营销,在STAR中找方法
科技感特效视频怎么制作?制作科技感视频的方法
陈冠希和钟欣潼13分钟视频怎么回事 张柏芝艳照门全套94张真假
2024年韩星刘海新趋势:修饰脸型效果惊艳
视频号MCN开通方法
STAR面试法STAR原则企业STAR法则运用可视化图标培训课件
掌握AI生成特效技巧:全方位提升视觉效果与美感指南
star分析法

随便看看