稳定扩散官方终于开始处理视频——
发布生成式视频模型stable video diffusion(svd)。
stability ai官方博客显示,全新svd支持文本到视频、图像到视频生成:
并且还支持物体从单一视角到多视角的转化,也就是3d合成:
根据外部评估,官方宣称svd甚至比runway和pika的视频生成ai更受用户欢迎。
尽管目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于稳定扩散的生态系统”
目前论文代码权重已上线。
近期视频生成领域不断涌现新的玩法,如今轮到了stable diffusion的出现,以至于网友们纷纷感叹“快”,这样进步的速度太快了!
但仅从demo效果来说,更多网友们表示并没有感到很惊喜。
虽然我喜欢sd,而且这些demo也很棒……但也存在一些缺陷,光影不对、而且整体不连贯(视频帧与帧之间闪烁)。
总归来说这是个开始,网友对svd的3d合成功能还满是看好:
我敢保证,很快就会有更好的东西问世,只需要简单描述一下,就能够呈现一个完整的3d场景
sd视频官方版来袭除了以上所展示的,官方还发布了更多的演示,下面来先看一下:
太空漫步也安排上:
保持背景静止,只让两只鸟移动也可以:
svd的研究论文目前也已发布,据介绍svd基于stable diffusion 2.1,用约6亿个样本的视频数据集预训练了基础模型。
可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。
经过微调后,官方公布了两种图像到视频模型。这些模型可以根据用户的需求,以每秒3到30帧的自定义帧速率生成14帧(svd)和25帧(svd-xt)的视频
对多视角视频生成模型进行了微调后,我们将其命名为svd-mv
根据测试结果,在gso数据集上,svd-mv得分优于多视角生成模型zero123、zero123xl、syncdreamer:
值得一提的是,stability ai表示svd目前仅限于研究,不适用于实际或商业应用。svd目前也不是所有人都可以使用,但已开放用户候补名单注册。
视频生成大爆发近期,视频生成领域出现了一种“混战”状态
前有pikalabs开发的文生视频ai:
后又有号称“史上最强大的视频生成aimoonvalley推出:
最近gen-2的“运动笔刷”功能也正式上线,指哪画哪:
这不现在svd又出现了,又有要卷3d视频生成的可能。
但文本到3d生成方面好像还没有太多进展,网友对这一现象也很是困惑。
有人认为数据是阻碍发展的瓶颈:
还有一些网友认为问题在于强化学习的能力还不够强
家人们对这方面的最新进展有了解吗?欢迎评论区分享~
论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf 需要重新写的内容是:
以上就是stable video diffusion问世!3d合成功能引关注,网友:进步太快的详细内容。