新智元报道

编辑:拉燕 桃子

【导读】国外小伙意外发现DALL-E新妙用,AI生成女友竟成逃避长辈催婚利器!?

自从AI图片生成技术爆火以后,各路玩家纷纷亲自尝试。

要不就是用AI做个头像,要不就是生成一些奇思妙想的画作。

但要我说,这些点子和今天的主人公Dinda比起来,简直就是不值一提。

思路打开一点嘛。

用高科技应付长辈?

Dinda是YouTube的一名照片编辑,本着近水楼台先得月的原则,他每天就是和图片生成软件打交道。

最近,Dinda遭遇了全世界大龄青年都会面临的问题——来自长辈的催婚。

然而,Dinda小哥事业未就,怎能思虑儿女情长?可来自长辈的压力又不能不管,那就只剩一条路了——作假骗长辈。

在以前,作假是一件很麻烦的事,要找一个知根知底的异性朋友,约好来个一日情侣。见见家长,把两边都糊弄过去就算完。

但是不得不说,风险挺大的。一个大活人,可不能随时都配合着应付来自长辈的检查。

Dinda想了一个妙招。如果自己能用DALL-E生成一大堆和女朋友合拍的照片,时不时给长辈发过去应付一下,不就行了?

Dinda打开了DALL-E,用图像修复功能进行操作。该功能允许用户擦除图片上的一部分,然后DALL-E会根据用户输入的文字来填补空缺的部分。

于是,Dinda整了点自己的自拍照,然后把身边的空间擦了一块,留下一个正好能放下自己假想的女朋友的位置。

接着,他在指令中输入——一个有女朋友的男人。

然后,啪。

这还不算完,一般和修图打交道的人都很重视细节。

为了让生成的图像更加的逼真,Dinda还把虚拟女友的脸给裁了下来,导出到一个叫GFP-GAN的人工智能照片编辑程序中。

通过这个程序,Dinda可以进行微调,把这张脸做得更逼真。之后再把微调过的图像放到ps里,再修一下,最后放回原始图像。

这样一来,生成的照片就无可挑剔了。

Dinda表示,「就算我告诉别人这张照片是生成的,90%的人也不知道哪里是动过的。」

与此同时,他还演示了照片编辑人员如何使用同样的技术在AI的帮助下把人去掉。

还是一样的把要去掉的人身上涂抹一下,DALL-E就会生成一个替代背景出来。虽然背景很复杂,但是生成出来的图片也还可以。

超凡图像生成工具!

DALL-E究竟是什么呢?

我不允许还有人没听说过DALL·E。毕竟,现在都出到2代——DALL·E 2了。

这是一款由OpenAI开发的转化器模型,全部的功能就是把「话」变成「画」。

具体来说,DALL·E是一个有120亿参数版本的GPT-3,被训练成了使用文本生成图像的模型。背后的数据集是文本-图像的对应集。

比如上面这几张图,有戴帽子的狗,做实验的熊猫,还有长得像星云的狗狗。有没有觉得,哪怕不合常理,但是并不违和?这就是DALL·E能做到的。说起DALL-E的源头,其实是研究人员从GPT-3那里得到了启发。GPT-3是个用语言生成语言的工具,而图像GPT则可以用来生成高保真度的图片。

研究人员发现,用文本来操控视觉,是可以做到的。也就是这样,DALL·E成为了一个和GPT-3一样的转化器。

在此基础上,研究人员又开始琢磨同时用文本描述多个物体,生成一张图。这些物体各自的特征、之间的空间位置关系全都交给文字来描述。

比方说,输入文本:一只戴着红帽子、黄手套,穿着蓝衬衫和绿裤子的刺猬。为了正确生成对应的图片,DALL·E不仅要正确理解不同衣服和刺猬之间的关系,还不能混淆不同衣服和颜色的对应关系。

这种任务被称作变量绑定,在文献中有大量的相关研究。

可以说,DALL·E从1代到2代,就是这么一个个小任务走过来的。最终能够呈现的就是一个不错的文本-图像转化器。

T2I究竟有多卷?

要说今年最火的AI便是多模态人工智能崛起。

上半年,文本生成图像AI模型(T2I)各家争霸。

除了DALL-E,谷歌自家Imagen、Parti,Meta的文本图像生成工具Make-A-Scene,再到现在大火的Stable Diffusion、谷歌文本3D生成模型DreamFusion都在扩充着文本转图像的应用。

先是4月,在GPT-3大模型的加持下,Open AI对画图界的扛把子DALL-E进行了2.0版的全面升级。

和上一代相比,可以说,DALL·E 2简直就是直接从二次元简笔画走向超高清大图:

分辨率提升4倍,从256x256提升到了1024x1024,并且生成图像的准确率也更高!

5月,谷歌不甘落后推出AI创作神器Imagen,效果奇佳。

仅仅给出一个场景的描述,Imagen就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。

6月,谷歌再次推出了新一代AI绘画大师Parti。

要说Imagen和Parti不同地方,便在于采取了不同的策略——自回归和扩散。

Parti是一个自回归模型,它的方法首先将一组图像转换为一系列代码条目,然后将给定的文本提示转换为这些代码条目并「拼成」一个新图像。

7月,Meta公布了自家的AI「画家」——Make-A-Scene,通过文本描述,再加上一张草图,就能生成你想要的样子。

最重要的是,构图上下、左右、大小、形状等各种元素都由你说了算。

可以看到,DALL-E 2、Imagen等仍然停留在二维创作,无法生成360度无死角的3D模型。

而谷歌发布的文本3D生成模型DreamFusion便开辟了这一新路线。

训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型。

而且整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验。

由此可见,在文本转图像这块,各大厂已经卷上了新高度。

甚至有人称,今年文本转视频AI模型暂时还不会到来。

没想到的是,Meta和谷歌再次打破了这一预言。

T2V已来!

9月底,Meta最先公布了文本一键生成视频模型Make-A-Video。

这一模型厉害到什么程度?

除了可以把文本变成视频之外,它也可以把静态图变成Gif、把视频变成视频。

这一模型发布后,就连图灵奖得主Yann LeCun称,该来的都会来。

比如「马儿喝水」,生成如下效果:

猫主子拿着遥控器在看电视

简直AI导演上线。

紧接着10月,谷歌还是文本视频模型两连发。

先是Imagen Video,与Meta的Make-A-Video相比最突出一个特点就是「高清」。

它能生成1280*768分辨率、每秒24帧的视频片段。

与此同时,还有Phenaki模型,让骑马的宇航员也动了起来。

这一模型能根据200个词左右的提示语生成2分钟以上的长镜头,讲述一个完整的故事。

在文本转视频上,下一个谁会接棒?

参考资料:

https://petapixel.com/2022/10/14/photographer-creates-ai-girlfriend-to-stave-off-nosy-relatives/

卧槽!女友可以生成?美国小哥生成了一个AI女友躲避催婚相关推荐

  1. AI 复活「她」! GPT-3 帮美国小哥复刻逝去未婚妻,但又夺走她……

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 今年 7 月,一名33岁的美国小哥 Joshua Barbeau 在未婚妻去世后,根据她在 Facebook 和 twitter ...

  2. AI复活「她」!用GPT-3复刻逝去未婚妻,美国小哥让挚爱以数字形态永生

    转载自:新智元 「死亡不是真正的逝去,遗忘才是永恒的消亡.」 即便逝去,也不要遗忘. 近日,一位美国男子 Joshua Barbeau 在未婚妻去世后,重建了一个AI聊天机器人以复刻死去的未婚妻. J ...

  3. 讨厌手写,印度小哥开源了一个手写体转换工具,支持中文

    [导语]:Text-to-Handwriting 是一个在线的开源工具,可以将文字输入转为手写体,并提供图片下载. 简介 Text-to-Handwriting 的开发者是个印度小哥,他讨厌手写作业, ...

  4. 无需训练RNN或生成模型,我写了一个AI来讲故事

    作者 | Andre Ye 译者 | 弯月 出品 | AI科技大本营(ID:rgznai100) 这段日子里,我们都被隔离了,就特别想听故事.然而,我们并非对所有故事都感兴趣,有些人喜欢浪漫的故事,他 ...

  5. 【高数+AI】中山大学的学霸小哥开源了一个能帮你做高数题的AI

    来自:开源最前线(ID:OpenSourceTop) 链接:https://github.com/Roujack/mathAI 中山大学的一名叫mathAI的硕士学霸小哥在GitHub上开源了一个拍照 ...

  6. 大学数计算机学霸曾做出的数学题,中山大学的学霸小哥开源了一个能帮你做高数题的AI...

    来自:开源最前线(ID:OpenSourceTop) 链接:https://github.com/Roujack/mathAI 中山大学的一名叫mathAI的硕士学霸小哥在GitHub上开源了一个拍照 ...

  7. 校园枪击案后,这个美国小哥开发了“枪支检测器”!迅速定位疑犯,适配任何摄像头...

    作者:曹培信 来源:大数据文摘(ID:BigDataDigest) 2019年8月3日北美中部时区上午约10点40分,在美国德克萨斯州埃尔帕索的一家沃尔玛商店里,一个携带WASR-10和半自动民用版A ...

  8. GPT-3有多强?伯克利小哥拿它写“鸡汤”狂涨粉

    作者 | 文摘菌 出品|大数据文摘 GPT-3有多强大?可不止能写高考作文. 最近,一位美国小哥用GPT-3写的博客,就打败了一票人类作者,登上了新闻平台技术板块热榜第一?? 你没听错.这位小哥名叫L ...

  9. GPT-3有多强?伯克利小哥拿它写“鸡汤”狂涨粉,还成了Hacker News最火文章?!

    大数据文摘出品 GPT-3有多强大?可不止能写高考作文. 最近,一位美国小哥用GPT-3写的博客,就打败了一票人类作者,登上了新闻平台技术板块热榜第一?? 你没听错.这位小哥名叫Liam Porr,来 ...

最新文章

  1. linux 虚拟机扩展硬盘后扩展到分区
  2. 【活动推荐】北京泛娱乐行业技术沙龙——新技术助力内容产业破局之道
  3. 方立勋_30天掌握JavaWeb_JSP
  4. 平流式初沉池贮砂斗计算_城市污水处理厂产泥量的计算
  5. 北航教授李波:说AI会有低潮就是胡扯,这是人类长期的追求
  6. 计算机二级考试python_全国计算机等级考试考试大纲(2018年版)
  7. 悲观锁和乐观锁的区别和应用场景
  8. Android学习之单选按钮
  9. SourceTree 实现 git flow 流程
  10. Android 权限汇总大全
  11. tk芯片智能机刷机方法_MTK通用刷机教程 MTK芯片智能机刷机方法
  12. matlab前馈仿真,前馈-反馈控制系统的具体分析及其MATLAB/Simulink.PDF
  13. 产品设计体会(1015)用户访谈的常见问题与对策
  14. 资产配置(理论+模型),科学找圣杯
  15. 浅析企业云服务之SaaS、PaaS、IaaS对比分析
  16. jQuery 模态框
  17. SpringBoot(二):详细讲解SpringBoot整合MyBatis
  18. 【Unity入门计划】Unity2D动画(2)-脚本与混合树实现玩家角色动画过渡
  19. ubuntu18.04添加网络共享文件夹
  20. 深入JavaWeb技术世界15:通过项目逐步深入了解Mybatis(二)

热门文章

  1. peterson算法p0流程图_Peterson's Algorism皮特森算法详解
  2. 微信小程序 swiper组件轮播图宽度自适应
  3. vue跨域实现与原理(proxyTable)
  4. Git 中删除本地分支和删除远程分支是两回事儿
  5. 远程桌面连接出现身份验证错误解决办法
  6. Java实现验证码验证功能
  7. 深度学习 - 图像定位(一起来学习怎么锁狗头吧~)
  8. html设置按钮阴影效果,CSS如何设置文本和元素阴影效果?(代码示例)
  9. 数据类型Map判空 、空字符串、空key值等各种判断方法,全网最详细
  10. phpStudy中的mySQL无法启动。