视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw===2650931627idx=5sn=d5b7c4782075465afe068d6f10d96b1achksm=84e7c5d5b3904cc32041e9b1f3a99 fe5 231513556762a7dde039fe5563a730cdd6dd9b69f1adtoken=467310321=zh_CN#rd
论文地址:https://arxiv.org/abs/2408.08189 项目主页:https://fancyvideo.github.io/代码仓库:https://github.com/360CVGroup/FancyVideo 论文标题:FancyVideo: Towards Dynamic and Confluence Video Generation via Cross-frame Textual Guidance 跨帧文本引导模块
正是从这个角度出发,FancyVideo专门设计了跨框架文本引导模块(CTGM,如下图右)来改进现有的文本控制机制。
具体来说,CTGM包含3个子模块:
时间信息注入器(TII)——将潜在特征中的帧特定信息注入到文本条件中,以获得跨帧文本条件; Temporal Affinity Refiner (TAR) - 沿时间维度细化文本条件变换跨帧文本条件和潜在特征之间的相关矩阵;时间特征增强器(TFB) - 增强潜在特征的时间一致性。
FancyVideo培训流程
FancyVideo的整体训练流程如下。在模型结构上,FancyVideo选择在2D T2I模型的基础上插入时序层和基于CTGM的移动模块来构建T2V模型。生成视频时,首先进行T2I操作生成第一帧,然后进行I2V操作。这不仅保留了T2I模型的能力,提高了整体视频质量,还大大降低了训练成本。
此外,为了实现运动控制能力,FancyVideo在训练阶段将基于RAFT和时间嵌入提取的视频运动信息注入到网络中。
实验结果
论文还对UCF-101 和MSR-VTT Benchmark 进行了零样本评估,在衡量生成视频丰富度的IS 指数和衡量文本一致性的CLIPSIM 指数上都取得了SOTA 的结果。
此外,论文还基于FancyVideo模型的T2V和I2V能力以及之前的方法进行了手动评估。结果表明,FancyVideo在视频生成质量、文本一致性、动作和时序一致性方面处于领先地位。
最后,论文利用消融实验探究CTGM不同子模块对视频生成结果的影响,验证各子模块的合理性和有效性。
应用场景
基于这个训练管道和策略,FancyVideo可以同时完成T2V和I2V功能,还可以基于生成关键帧进行帧插入操作:
视频扩展和视频回溯操作:
FancyVideo在开源社区上线不到一周,一些快手同学就已经自发搭建了FancyVideo的ComfyUI插件,让大家可以在自己的机器上玩得开心。
用户评论
终于可以体验下自己生成高质量的视频了!
有20位网友表示赞同!
这可是AI造梦的新高度啊!谁说现在不是元宇宙大发展?
有17位网友表示赞同!
红衣大叔都说了好啊,那肯定厉害!
有20位网友表示赞同!
360的技术还是比较给力的,能把FancyVideo这个模型开源出来太棒了
有12位网友表示赞同!
我准备赶紧去试试看,看看能不能自己生成一段炫酷的视频。
有11位网友表示赞同!
RTX 3090可跑?我的电脑这配置还行吗?
有19位网友表示赞同!
视频生成AI越来越强大啦!不知道什么时候能用手机就搞定视频创作?
有9位网友表示赞同!
FancyVideo这个名字很有意思,感觉科技感满分的。
有10位网友表示赞同!
这款模型未来应用场景应该非常广泛吧?
有8位网友表示赞同!
360一直都在走在人工智能这条路上,这次又给咱们带来了一个惊喜!
有18位网友表示赞同!
开源太好了,方便大家学习研究!
有18位网友表示赞同!
我的笔记本电脑能跑这个FancyVideo吗?期待下体验!
有18位网友表示赞同!
红衣大叔就是有眼光,这款技术一看就太酷了!
有7位网友表示赞同!
AI视频生成,未来可能真的可以自己制作精彩的短片!
有14位网友表示赞同!
这个模型是不是只支持中文? 我想用英文语言生成视频哦!
有17位网友表示赞同!
这技术发展太快了,没跟上节奏怎么办?
有16位网友表示赞同!
360团队加油!期待更多优秀的开源项目出现!
有19位网友表示赞同!
我已经迫不及待想要尝试一下这个FancyVideo了!
有6位网友表示赞同!