1句话生成视频

代码还没开源,以后可能开源

输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:

又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心:

这个最新的文本-视频生成AI,是清华&智源研究院出品的模型CogVideo

Demo刚放到网上就火了起来,有网友已经急着要论文了:

CogVideo“一脉相承”于文本-图像生成模型CogView2,这个系列的AI模型只支持中文输入,外国朋友们想玩还得借助谷歌翻译:

看完视频的网友直呼“这进展也太快了,要知道文本-图像生成模型DALL-E2和Imagen才刚出”

还有网友想象:照这个速度发展下去,马上就能看到AI一句话生成VR头显里的3D视频效果了:

所以,这只名叫CogVideo的AI模型究竟是什么来头?

生成低帧视频后再插帧

团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。

在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。

第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;

第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。

在训练上,CogVideo一共用了540万个文本-视频对。

这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。

这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。

其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。

至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义。

最后,生成的视频就是比较丝滑的效果了,输出的4秒视频帧数在32张左右。

在人类评估中得分最高

这篇论文同时用数据测试和人类打分两种方法,对模型进行了评估。

研究人员首先将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。

其中,FVD(Fréchet视频距离)用于评估视频整体生成的质量,数值越低越好;IS(Inception score)主要从清晰度和生成多样性两方面来评估生成图像质量,数值越高越好。

整体来看,CogVideo生成的视频质量处于中等水平。

但从人类偏好度来看,CogVideo生成的视频效果就比其他模型要高出不少,甚至在当前最好的几个生成模型之中,取得了最高的分数:

具体来说,研究人员会给志愿者一份打分表,让他们根据视频生成的效果,对几个模型生成的视频进行随机评估,最后判断综合得分:

CogVideo的共同一作洪文逸和丁铭,以及二作郑问迪,三作Xinghan Liu都来自清华大学计算机系。

此前,洪文逸、丁铭和郑问迪也是CogView的作者。

论文的指导老师唐杰,清华大学计算机系教授,智源研究院学术副院长,主要研究方向是AI、数据挖掘、机器学习和知识图谱等。

对于CogVideo,有网友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同寻常的提示词来证明它们是从0生成的,但CogVideo的效果更像是从数据集中“拼凑”起来的:

例如,狮子直接“用手”喝水的视频,就不太符合我们的常规认知(虽然很搞笑):

(是不是有点像给鸟加上两只手的魔性表情包)

但也有网友指出,这篇论文给语言模型提供了一些新思路:

用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据,还隐含了一些用文本比较难体现的常识和逻辑。

目前CogVideo的代码还在施工中,感兴趣的小伙伴可以去蹲一波了~

项目&论文地址:
https://github.com/THUDM/CogVideo

文字生成视频,清华出品相关推荐

  1. 文字生成视频,只需一步(附论文下载)

    编者按:随着网络性能的不断提升,视频已经成为越来越多人获取信息.娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人.事.物,以具有创意的视频形式呈现出来,这让和小编一样毫无视频创 ...

  2. 文字生成视频,只需一步

    [CSDN 编者按]随着网络性能的不断提升,视频已经成为越来越多人获取信息.娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人.事.物,以具有创意的视频形式呈现出来,这让和小编一 ...

  3. GODIVA:只需一步,文字到视频秒级生成,微软亚洲研究院最新成果

    编者按:随着网络性能的不断提升,视频已经成为越来越多人获取信息.娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人.事.物,以具有创意的视频形式呈现出来,这让和小编一样毫无视频创 ...

  4. 调用智能Ai画图在线生成图片生成视频的工具集API说明等

    四款文字生成视频的智能软件 1. Lumen5:是一种自动化视频制作工具,可以利用其强大的AI技术,自动对文本进行分析,并提供适当的图像.视频剪辑和音乐,生成令人印象深刻的视频.它适用于制作社交媒体广 ...

  5. 这个“1句话生成视频”AI爆火:支持中文输入,分辨率达到480×480,清华智源出品...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 一周不到,AI ...

  6. Wibbitz:根据网页文字生成在线视频(转)

    Wibbitz:根据网页文字生成在线视频 在互联网信息爆炸的时代,如何让自己发表的文字抓住别人的眼球?或许你可以给文字配上几张 图片,或是一段视频,但这显然需要花费更多时间和精力去搜索.编辑和发布.一 ...

  7. 根据文字描述就能生成视频!微软又一开源神器,代号女娲

    来源:新智元 在几年前,要说 AI 能直接用一段文字描述生成清晰的图像,那可真是天方夜谭. 结果现在,Transformer 的出现彻底带火了「多模态」这一领域. 照着文字「脑补」图像居然都不稀奇了! ...

  8. Make-A-Video(造啊视频)——无需文字-视频数据的文字转视频(文生视频)生成方法

    © 2022 Uriel Singer et al (Meta AI) © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation wi ...

  9. 【亲测推荐】文字转视频一键生成软件分享,怎么将文字转成视频?

    怎么将文字转成视频?越来越多的人加入到短视频制作的队伍中来,短视频制作的优势在于:有各大平台大力的扶持:短视频在形式上更容易受用户接受:收益率更高,有效阅读的积累也更容易. 并且这种信息传播方式较之文 ...

最新文章

  1. ICCV 2021 Oral | 无需法向的大场景点云表面重建
  2. 第17节 业务流程管理和重组
  3. 26 Java GC算法 垃圾收集器、标记 -清除算法、复制算法、标记-压缩算法、分代收集算法
  4. 贪心 - 按要求补齐数组
  5. Activity嵌套fragment大全,activity加载单个fragment,TabLayout+ViewPager实现多个fragment滑动效果
  6. thinkphp js带参数跳转页面
  7. cnn卷积核参数如何确定_如何确定肉脯软塑包装的热封参数?
  8. 2.PHP 扩展开始以及内核应用(1) --- PHP 变量在内核中的实现
  9. Java基础入门(八)之面向对象二
  10. 华三交换机配置基础及讲解
  11. 财会法规与职业道德【19】
  12. 【废墟】知我者谓我心忧,不知我者谓我何求~
  13. Google表格初学者指南
  14. python数据组织存在维度吗_用Python 爬取蔡徐坤新浪微博 10 万转发数据,从数据的维度看看存在多少假流量...
  15. 在Unity中实现简单的动画转场
  16. 学习vue-vben-admin遇到的问题(一)
  17. 利用Java反射机制调用含数组参数的方法
  18. 物联网阿里云——Android Mqtt协议连接阿里云
  19. 【JavaScript】内容的展开/收起
  20. Java 基础 | Java 中引用与指针的关系

热门文章

  1. linux nand 驱动,Linux NAND FLASH驱动分析(一)
  2. 短视频平台-小说推文(最右)推广任务详情
  3. 20230222作业
  4. 多智能体强化学习(五)MARL的挑战
  5. 【uni-app】app与H5进行双向通讯
  6. 1字节是多少位,汉字utf-8又占多少。
  7. java怎么查看jdk版本_java版本和jdk版本必须一样
  8. ISO8583 报文协议
  9. 自写网络验证,支持注册 充值 在线消息 自动更新
  10. 如何将pdf转换成jpg图片的格式