#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”,让指定实物在图像中以各种方式展现

在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌、OpenAI
等都接连推出了自己的图像生成模型,如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过,当让一个真实的特定现实物体出现在图像中时,最先进的文本生成图像模型也很难保留其关键视觉特征,即它们缺乏模仿或再现给定参考集中主体外观的能力。比如,对于下图中的时钟(钟面右侧有黄色数字 3),在对包含时钟外观详细描述的提示文本进行数十次迭代后,Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。据了解,造成这一结果的主要原因是此类模型输出域的表达性有限,即便对对象进行最详细文本描述,它们也可能产生具有不同外观的实例。

针对以上问题,谷歌研究人员娜塔尼尔·鲁伊斯(Nataniel Ruiz)等人对 Imagen 模型进行了微调,从而实现了将现实物体在图像中真实还原的功能。可以看到上图最右侧用新模型生成的图片,较好地还原了时钟上数字 3 的位置。近日,相关论文以《微调文本到图像扩散模型,以实现主体驱动生成》(DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation)为题提交在 arXiv 上。本次名为 DreamBooth 的模型是一种新的文本到图像“个性化”(可适应用户特定的图像生成需求)扩散模型。另外,虽然 DreamBooth 是在 Imagen 的基础上做的调整,但研究人员在论文中还提到,他们的方法也适用于其他扩散模型。只需几张(通常 3~5 张)指定物体的照片和相应的类名(如“狗”)作为输入,并添加一个唯一标识符植入不同的文字描述中,DreamBooth 就能让被指定物体“完美”出现在用户想要生成的场景中。

论文题目:ADreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读:https://www.aminer.cn/research_report/631203747cb68b460f125532https://www.aminer.cn/research_report/631203747cb68b460f125532
AMiner链接:https://www.aminer.cn/?f=cs

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”,让指定实物在图像中以各种方式展现相关推荐

  1. #今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到“以假乱真”,让指定现实物体在图像中以各种方式展现

    #今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到"以假乱真",让指定现实物体在图像中以各种方式展现 在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌 ...

  2. #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

    #今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声 目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的. 扩散模 ...

  3. #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景

    #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景 继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了. 苹果发布新 AI 系统 GAUDI ...

  4. #今日论文推荐#1小时学会走路,10分钟学会翻身,世界模型让新生机器狗掌握多项技能

    #今日论文推荐#1小时学会走路,10分钟学会翻身,世界模型让新生机器狗掌握多项技能 人类宝宝在出生后的第1年里,就会逐渐掌握协调能力,学习坐.立.翻滚和爬行. 那么机器人呢? 机器人能完成多复杂的任务 ...

  5. #今日论文推荐# 强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

    #今日论文推荐# 强化学习大牛Sergey Levine新作:三个大模型教会机器人认路 内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey L ...

  6. #今日论文推荐# 中国矿大团队,开发集成多尺度深度学习模型,用于 RNA 甲基化位点预测

    #今日论文推荐# 中国矿大团队,开发集成多尺度深度学习模型,用于 RNA 甲基化位点预测 研究表明,通过转录后 RNA 修饰进行的表观转录组调控,对于所有种类的 RNA 都是必不可少的.准确识别 RN ...

  7. #今日论文推荐# 莫纳什大学最新《长文档摘要》综述,39页pdf长文档摘要的实证研究:数据集、模型和指标

    #今日论文推荐# 莫纳什大学最新<长文档摘要>综述,39页pdf长文档摘要的实证研究:数据集.模型和指标 像学术文章和商业报告这样的长文档已经成为了详述需要额外关注的重要问题和复杂主题的标 ...

  8. #今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务

    #今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务 语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...

  9. #今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务

    #今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务 语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...

最新文章

  1. Linux中yum源配置及软件安装管理
  2. webpack学习笔记
  3. .Net版InfluxDB客户端使用时的一些坑
  4. 操作系统第二章 进程管理
  5. 1.1.1 数据结构的基本概念
  6. python切割时间数据_按小时Python分割时间
  7. ajax获取get请求,get请求
  8. 通过继承来实现注解方式的属性注入
  9. pytorch torch.arange
  10. 一起谈.NET技术,一个MVC分页Helper
  11. python面向对象设计角色攻击_Python技能:面向对象基础实战之英雄联盟
  12. MySQL的函数-窗口函数
  13. 神经计算棒官方例程演示及填坑
  14. U盘全新安装High sierra及打造mac,win10双系统
  15. ssm客户关系管理系统
  16. 安装完黑苹果之后该做的事情
  17. java在线文档管理系统_spring-boot-doc
  18. 最新最全的免费股票数据接口--沪深A股深度分析机构持股数据API接口(十二)
  19. 利用Github Actions部署自动更新PaddleOCR指定代码到指定仓库
  20. 让我康康,还有谁不知道这些简单的vr全景制作“小心机”?

热门文章

  1. MySQL数据库技术 第二版 章末 答案—单元5 ----实训5
  2. 【闲聊CQF的门槛,个人观点,不喜勿喷,欢迎交流指导】
  3. 首个双手控制脑机接口:开颅手术 10 小时植入 6 个电极,瘫痪人士用意念吃蛋糕
  4. 大颗粒积木「托马斯火车」教案-少儿积木建构创意评测与展示活动
  5. python3.7 scrapy crawl 报错
  6. linux可以写脚本嘛,有达人会写脚本吗?可以帮我写个简单的脚本不?
  7. FastDFS的安装和Linux的整合
  8. VMware虚拟机安装DOS6.22(二)
  9. Handler的一些思考
  10. Cloud Native 云原生时代如何不落伍?