#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现

在 AI 长期发展中，目前的文本生成图像模型有了显著提升，今年谷歌、OpenAI
等都接连推出了自己的图像生成模型，如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过，当让一个真实的特定现实物体出现在图像中时，最先进的文本生成图像模型也很难保留其关键视觉特征，即它们缺乏模仿或再现给定参考集中主体外观的能力。比如，对于下图中的时钟（钟面右侧有黄色数字 3），在对包含时钟外观详细描述的提示文本进行数十次迭代后，Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。据了解，造成这一结果的主要原因是此类模型输出域的表达性有限，即便对对象进行最详细文本描述，它们也可能产生具有不同外观的实例。

针对以上问题，谷歌研究人员娜塔尼尔·鲁伊斯（Nataniel Ruiz）等人对 Imagen 模型进行了微调，从而实现了将现实物体在图像中真实还原的功能。可以看到上图最右侧用新模型生成的图片，较好地还原了时钟上数字 3 的位置。近日，相关论文以《微调文本到图像扩散模型，以实现主体驱动生成》（DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation）为题提交在 arXiv 上。本次名为 DreamBooth 的模型是一种新的文本到图像“个性化”（可适应用户特定的图像生成需求）扩散模型。另外，虽然 DreamBooth 是在 Imagen 的基础上做的调整，但研究人员在论文中还提到，他们的方法也适用于其他扩散模型。只需几张（通常 3~5 张）指定物体的照片和相应的类名（如“狗”）作为输入，并添加一个唯一标识符植入不同的文字描述中，DreamBooth 就能让被指定物体“完美”出现在用户想要生成的场景中。

论文题目：ADreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读：https://www.aminer.cn/research_report/631203747cb68b460f125532https://www.aminer.cn/research_report/631203747cb68b460f125532
AMiner链接：https://www.aminer.cn/?f=cs

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现相关推荐

#今日论文推荐# 谷歌推出DreamBooth扩散模型，可做到“以假乱真”，让指定现实物体在图像中以各种方式展现
#今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到"以假乱真",让指定现实物体在图像中以各种方式展现在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌 ...
#今日论文推荐# 扩散模型家族再添一员，最新 Cold Diffusion 不再依赖高斯噪声
#今日论文推荐# 扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的. 扩散模 ...
#今日论文推荐# 文字秒变3D？苹果发布最新AI生成模型GAUDI，根据文字提示创建3D场景
#今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了. 苹果发布新 AI 系统 GAUDI ...
#今日论文推荐#1小时学会走路，10分钟学会翻身,世界模型让新生机器狗掌握多项技能
#今日论文推荐#1小时学会走路,10分钟学会翻身,世界模型让新生机器狗掌握多项技能人类宝宝在出生后的第1年里,就会逐渐掌握协调能力,学习坐.立.翻滚和爬行. 那么机器人呢? 机器人能完成多复杂的任务 ...
#今日论文推荐# 强化学习大牛Sergey Levine新作：三个大模型教会机器人认路
#今日论文推荐# 强化学习大牛Sergey Levine新作:三个大模型教会机器人认路内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey L ...
#今日论文推荐# 中国矿大团队，开发集成多尺度深度学习模型，用于 RNA 甲基化位点预测
#今日论文推荐# 中国矿大团队,开发集成多尺度深度学习模型,用于 RNA 甲基化位点预测研究表明,通过转录后 RNA 修饰进行的表观转录组调控,对于所有种类的 RNA 都是必不可少的.准确识别 RN ...
#今日论文推荐# 莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标
#今日论文推荐# 莫纳什大学最新<长文档摘要>综述,39页pdf长文档摘要的实证研究:数据集.模型和指标像学术文章和商业报告这样的长文档已经成为了详述需要额外关注的重要问题和复杂主题的标 ...
#今日论文推荐# 多边形战士模型，微软提出19亿参数的超大通用模型BEIT-3，刷榜多个CV和多模态任务
#今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...
#今日论文推荐# 多边形战士模型！微软提出19亿参数的超大通用模型BEIT-3，刷榜多个CV和多模态任务
#今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现相关推荐

最新文章

热门文章