作者:脑极体

全文共 2128 字 4 图,阅读需要 6 分钟

———— / BEGIN / ————

作为一个AI垂直自媒体的作者,我工作中的很大一部分就是替AI“带路”,然后告诉人类读者们:你们的这项和那项工作都要被AI替代了。

一直以来,人类似乎都站在一个毫无还手之力的弱势地位,或许未来真的像一些悲观者想象中那样,我们有AI司机、AI售货员、AI诗人,但人类自己却成了可怜的乞讨者。

直到今天,我第一次发现有一项工作AI在一段时间以内都无法超越人类,而这次胜利属于二次元——不会被AI代替的工作,是漫画家。

连漫画都看不懂,谈什么毁灭世界?

漫画家不会AI代替的原因很简单,因为马里兰大学的一位教授进行了一项研究,最终发现AI根本看不懂漫画。

以上是一则非常简单的四格漫画,对于人类来说理解起来非常容易:小猫在思考创作素材,然后发现了小狗,要求小狗讲个笑话,小狗说“你很漂亮”导致小猫非常愤怒。

实际上,在最后一个画面中,小狗没有入镜,而“你很漂亮”本来是表扬,要和上一个画面中的“笑话”连接起来,才能解释出小猫的情绪。

对于AI来说,理解这些呈现在画面之外的信息,简直太困难了。

在马里兰大学的实验中,研究者搭建了一个由120万张漫画画格组成的数据集,并提取出了每个画格中的文本,利用LSTM模型,希望AI能对漫画进行一个连贯的了解。

关于LSTM(长短期记忆网络)此前已经介绍过很多,这一模型的特点就是加入了记忆的概念,可以处理和预测时间序列较长元素。虽然在长文本、机器翻译等等方面表现的都不错,但在看漫画这件事上,LSTM彻底挫败了。

在经过大量训练后,研究人员给了AI一组以前没见过的漫画,要求AI理解并预测下一个画面中的文字信息或画面内容,结果AI的成绩一塌糊涂。而人类的预测正确程度,通常能达到80%的正确率。

视觉叙事?何必强人工智能所难

严格来说,漫画这种东西属于“视觉叙事”——把信息隐藏于图像之中。

同样是视觉叙事,AI理解电影就比理解漫画容易的多,电影的主角是人,而人脸长的都是一个样子,想要训练AI读出人脸表情、识别情绪是件很简单的事,更何况电影还会有详细的剧本。

但漫画最大的特点,就是视觉上不具有连贯性。

就像上文的四格漫画一样,第三张图小狗还在画面中,第四张图就不在了。人类可以很快的理解到,名为淡定狗的小狗扔下一句话就淡定的离开。可对于AI来说,读出这种在画面和文字之外的信息实在是强人工智能所难。

其次,不同漫画的绘画、叙事风格迥异,对于AI的训练来说也是个难点。

简单的四格漫画中,每一格的场景都是相同的,可在其他漫画中,可能这一格是打斗的场景,下一格就是一张愤怒的人脸。能看懂四格漫画AI,再去看那种有镜头切换感的漫画,也是一头雾水。

至于画风方面,不同漫画家对于人脸描绘方式都有很大差异,换成AI来理解,难度又会加大了。

还有一点,视觉叙事这件事是建立在“逻辑”和“常识”两个概念基础之上的。比如小猫说讲个笑话,小狗说“你好漂亮”,理解这个情节就需要“你说我漂亮是笑话=你说我丑”这一基础的逻辑。

又比如哆啦A梦中常见的老鼠梗也需要“猫通常不怕老鼠”这一基础常识。这些东西对于人类来说都很简单,可是AI是不具备这些常识和逻辑概念的,我们也不能像编百科全书那样,把这些概念灌输到AI的大脑之中。

围棋界的大手,到了甄嬛传里也是一集死

其实结合AI在围棋领域的胜利和在漫画上的失败,我们可以看出,AI在完全信息信息领域中的表现和不完全信息领域中的表现完全不同。

完全信息本来是经济学中的一个属于,意思是参与者可以理解整个市场的所有信息。在这里,我们可以看做一项工作的数据集。

在围棋这项工作中,所有的信息都可以归纳为数据集:游戏的规则、每一步的打法。可在漫画中,我们最多能把画面中做上详细的标注,把文本信息都提取出来。可隐藏在图片文字之外的逻辑关系、常识等等只可意会不可言传的东西,是无法向AI提供的。

而AI做的最差的,就是read between the lines。

以此类推,AI在戏剧、歇后语、四国军棋的暗棋(一种包含了欺骗的军旗玩法)包括谈恋爱等等一切充满了不完全信息、欺骗与反欺骗、解读意象、常识和逻辑的游戏中表现都不会太好。

这么看来,AI有点像《三体》里初期的智子,不会隐藏自己的想法,也不能明白隐瞒、欺骗这种概念。所以,我们真的不必对AI的胜利感到恐惧,它会是办公室里人缘最差的那位同事和后宫里一集死的路人,某一项能力的突出并不能弥补它在不完全信息方面的短板。更何况意象、类比、反讽、隐喻这种东西,是人类最擅长的手段。

我相信,未来世界最好的样子一定是人类和AI各司其职,做各自最擅长的事情。在视觉叙事这类AI特别不擅长的事情上,它们依然能给人类提供很多帮助。

比如用生成对抗神经网络创造人物形象、用监督学习+卷积网络来为线稿上色、甚至开发一款会自动放大文字的漫画阅读App。这些并不是幻想,而是正在发生的现实。

当这些繁复的机械劳动被AI代劳后,我们也就能更多的投入到自己擅长的事情中来:利用不完全信息环境讲好更多故事,让这个世界保持应有的趣味。

———— / END / ————

作者:脑极体,微信公众号:脑极体

本文由 @脑极体 原创发布于人人都是产品经理。未经许可,禁止转载

↓↓↓ 点击"阅读原文" 下载APP

AI:连漫画都看不懂,谈什么毁灭世界?相关推荐

  1. 不会SQL注入,连漫画都看不懂了

    先来看一副很有意思的漫画: 相信大家对于学校们糟糕的网络环境和运维手段都早有体会,在此就不多做吐槽了.今天我们来聊一聊SQL注入相关的内容. 何谓SQL注入? SQL注入是一种非常常见的数据库攻击手段 ...

  2. 原子哥的STM32视频,我发现他们都看不懂原子哥里面按键扫描程序

    近身边的很多同学都在学习原子哥的STM32视频,我发现他们都看不懂原子哥里面按键扫描程序.由于问的人多,所以我也写了个心得,分享一下,老鸟别喷我哈.先贴上代码吧: //返回值: //0,没有任何按键按 ...

  3. sas 检测到开型代码语句的递归_对于标准答案的递归很多人都看不懂,其实就是一个深度优先的遍历。我写了段伪代码,将递归步骤还原并注释了一下,供大家参考,希望大家有所收获。...

    源自:7-5 Python之递归函数 对于标准答案的递归很多人都看不懂,其实就是一个深度优先的遍历.我写了段伪代码,将递归步骤还原并注释了一下,供大家参考,希望大家有所收获. #if条件不成立的省略 ...

  4. 美国计算机科学奥林匹克竞赛试题acsl,2020年国际数学奥林匹克竞赛试题全部出炉,网友:给答案都看不懂...

    原标题:2020年国际数学奥林匹克竞赛试题全部出炉,网友:给答案都看不懂 为期两天的2020年第61届国际奥林匹克竞赛已经全部结束,而大家比较关心的奥数试卷也全部出炉.从目前五大学科竞赛来看,数学奥赛 ...

  5. 达不达标的公式计算机,“我面试了几百个大学生都不达标,发现他们连这3个Excel公式都看不懂!”...

    原标题:"我面试了几百个大学生都不达标,发现他们连这3个Excel公式都看不懂!" 顶公众号或 设为星标,否则可能收不到文章 当今职场竞争日益激烈,很多用人单位都提高了对求职者的各 ...

  6. 连老板吃鱼都看不懂,还怎么在职场上混?

    连老板吃鱼都看不懂,还怎么在职场上混? 这天是周末,按照惯例,单位的人又要聚在一块喝酒.马老板说这是深入基层.联系员工的最佳途径.马老板喜欢吃鱼,在点菜的时候自然少不了点这道菜. 酒过三巡,菜过五味, ...

  7. 什么!作为程序员你连英文版的官方文档都看不懂?

    目录 一.笔者英文基础介绍 二.为啥程序员需要阅读官方文档? 三.如何才能无障碍阅读英文文档? 四.坚持!坚持!坚持! 五.来个约定吧! 这篇文章不聊技术,我们来聊一个某种程度上比技术更重要的话题:一 ...

  8. 论文都看不懂,你还搞什么人工智能?

    GitChat 作者:李嘉璇 原文:从零开始,如何阅读一篇人工智能论文,及构建论文与代码的实现 关注公众号:GitChat 技术杂谈,一本正经的讲技术 本次 Chat 的第一部分: 首先讲解如何从零基 ...

  9. 【深度学习】研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂...

    机器之心报道 机器之心编辑部 人工智能 DALLE 善于画出各种神奇图像的原因在于--它不说人话. 「我们发现 DALLE-2 似乎有一个隐藏的词汇表,用于生成各种荒谬描述内容的图像.例如,Apopl ...

最新文章

  1. SpringBoot+Jquery+Jstree实现企业架构管理
  2. String定义字符串,实际操作
  3. Natasha 4.0 探索之路系列(三) 基本的动态编译
  4. CSS动画实战:创建一个太极Loading图
  5. 安卓逆向_8 --- Android 调试工具 DDMS 和 Monitor ( 去掉 车来了 app 的广告 )
  6. 【Elasticsearch】Elasticsearch 缓存策略 QueryCacheingPolicy
  7. java字符串类型和时间类型的转换
  8. 五款最好的免费同步软件
  9. OSI七层模型与TCP/IP四层与五层模型详解
  10. 浏览器升级提示网站:《快乐浏览》
  11. R语言使用t.test函数进行t检验、使用配对的t检验(paired)检验组间不独立数据的差异是否有统计学意义
  12. 深度学习基础技术分析2:神经网络(含代码分析)
  13. 常用的一句话反弹shell总结
  14. 企业微信加密消息体_微信企业号开发之加密方案与全局返回码说明
  15. 猫眼电影爬取(woff 字体文件解析)
  16. 【雷达与对抗】【2006.09】多普勒模式匹配对雷达探测性能的改进
  17. C++ 性能优化篇一《优化概述》
  18. 基于Android O8.1的ffmpeg NDK 开发 - 2 - APP显示ffmpeg所支持协议,编解码,过滤器,格式,配置等信息
  19. Spiking-YOLO:脉冲神经网络高效的目标检测
  20. Silverlight5正式候选版发布附下载地址(Silverlight 5.0 RC)

热门文章

  1. Hive 茄子快传案例
  2. GATK BaseRecalibrator报错”The contig order in dbsnp_138.hg38.vcf and reference is not the same“
  3. 使用TDengine快速搭建车联网平台
  4. 最详细的Cadence OrCAD Capture自带元件库的介绍
  5. 自写 zTree搜索功能 -- 关键字查询 -- 递归无限层
  6. 善始者实繁 克终者盖寡
  7. 计算机专业英语学期总结
  8. win95游戏移植linux,中国网友成功将Win95系统移植入iPhone6 Plus
  9. 【UE5/UE4】【UE C++】制作一个蓝图宏库用以在构造器中Spawn Actor
  10. 汽车共享公司Getaround曲线上市:新公司作价12亿美元 路演PPT曝光