作者:郭一璞

来源:量子位(ID:QbitAI)

原标题:看咒语,知情节?他们用《哈利·波特》让AI学习剧透

看到一句《哈利·波特》里的咒语,就知道接下来要发生什么情节了:

是逃课去喝黄油啤酒、蹲在厕所里易容、还是大战伏地魔?

真的有人做这样的研究。

西班牙拉科鲁尼亚大学的两名研究者,在一篇发表在NAACL的论文里提出了一个新的自然语言处理(NLP)任务:

看文字场景,猜下一步行动。

举个栗子来讲,就是造一个AI,让它看到“深蓝的天空中挂着一轮金黄的圆月,下面是海边的沙地,都种着一望无际的碧绿的西瓜”,就知道接下来少年闰土要刺猹了。

差不多就是一个小说剧透插件。

从咒语入门

既然想到要做这样一个任务,那一定得有相应的语料库,用监督学习的方法,就需要一段文字场景描述,对应一段下一步行动。

这样看来,《哈利·波特》里固定的几十个咒语就是最佳的文字场景描述,毕竟咒语都是一样的,说错了就不管用了,并不像普通的人类自然语言那样博大精深,可以用许多种表述来说同一件事情。

比如说:

Lumos:荧光闪烁

Alohomora:开锁

Avada Kedavra:阿瓦达索命咒

于是,研究人员们开心的抱着《哈利·波特》原著,开始找包含咒语的文本段落,大概长这样:

比如最后一个例子是这样的,文本语料库长这样:

哈利感觉好像被看不见的人推着走一样,他听到罗恩疼的叫了一声。

“怎么了?”赫敏紧张地说,步伐也突然停了下来,哈利在后面撞上了她。

“罗恩,你在哪儿?哦,这样太蠢了——Lumos”

行动是这样的:

发光。

原著翻来覆去看完了,研究者们发现了一个尴尬的问题:

七本《哈利·波特》里,只出现了432次咒语。

432,这么点哪够当语料库用的啊!

数据量不够,怎么办呢?

原著不够,同人来凑。

因为《哈利·波特》系列太火,粉丝们也觉得这些故事看不够,所以创作了很多同人小说。既然是同人小说,那故事的世界观都是一样的,大家住在同一个霍格沃茨城堡里,上一样的魔药课,说一样的咒语,能用。

于是,研究者们找到了《哈利·波特》粉丝网站,从N多部同人小说里挑出了没有太监(断更)的那一部分小说文本,开始扒拉咒语。

果然,人多力量大,这下原著+同人,凑出了82836个咒语文本段落,语料库够了。

各种模型哪家好

有了数据集,就需要在模型上跑了。

研究者用到了多项逻辑回归(MLR)、多层感知器(MLP)、LSTM、CNN四种模型,并在结果上将频繁动作和不频繁的动作分开。

看来,结论来了:

在看场景猜行动这个任务上,LSTM是最好用的,指标相对较高;其他的,像逻辑回归之类的,不太行咯。

论文
Harry Potter and the Action Prediction Challenge from Natural Language
David Vilares, Carlos Gómez-Rodríguez
https://arxiv.org/abs/1905.11037

GitHub
https://github.com/aghie/hpac

往期精选

- 加入社群吧 -

让AI看哈利波特就为了学······剧透?!还能不能愉快的玩耍了?相关推荐

  1. Python来袭,教你用Neo4j构建“复联4”人物关系图谱!没有剧透!【文末赠书】...

    讲技术之前先引个好玩的热点话题,带你与时代接轨~ 漫威系列电影<复仇者联盟4>上映 你去看了吗? 小编就盼着周末去好好享受 谁剧透,跟谁急! 复仇者联盟 之 绝对不剧透 漫威英雄们为了不让 ...

  2. 看咒语,知情节?他们用《哈利·波特》让AI学习剧透

    郭一璞 假装发自 霍格沃兹  量子位 报道 | 公众号 QbitAI 看到一句<哈利·波特>里的咒语,就知道接下来要发生什么情节了: 是逃课去喝黄油啤酒.蹲在厕所里易容.还是大战伏地魔? ...

  3. 学英语看美剧学地道英文必看的10部美剧!

    学英语看美剧学地道英文必看的10部美剧 1.Desperate housewives 绝望主妇 时而压抑.时而诙谐.人物性格刻划得鲜明,只是觉得剧情不是那么贴近生活,不过里面的句子还有哲理性,几个主演 ...

  4. 一周AI看点 | 董明珠投资150亿洛阳造机器人 北京首条无人驾驶地铁线空载试运行

    本期一周AI看点包括行业新闻.技术应用.技术前沿.行业观点以及投融资等方面. 行业 联想设立1亿元种子基金,扶持大学生AI创业 日前,联想公司宣布拿出1亿元人民币建立种子基金,将用于AI人才培养工作. ...

  5. 【AI白身境】学深度学习你不得不知的爬虫基础​​​​​​​

    文章首发于微信公众号<有三AI> [AI白身境]学深度学习你不得不知的爬虫基础 今天是新专栏<AI白身境>的第七篇,所谓白身,就是什么都不会,还没有进入角色. 对于深度学习,一 ...

  6. 【AI白身境】学AI必备的python基础​​​​​​​

    文章首发于微信公众号<有三AI> [AI白身境]学AI必备的python基础 今天是新专栏<AI白身境>的第三篇,所谓白身,就是什么都不会,还没有进入角色. 上一篇给大家介绍了 ...

  7. 【AI白身境】学深度学习你不得不知的爬虫基础

    今天是新专栏<AI白身境>的第七篇,所谓白身,就是什么都不会,还没有进入角色. 对于深度学习,一个好的数据集可以说非常重要的,但是通常情况下我们并没有大量的数据,因此我们有必要掌握一定的爬 ...

  8. 长相不讨AI喜欢面试就会挂?全球百万求职者经历AI“看脸”面试,引发强烈质疑...

    鱼羊 发自 麦蒿寺 量子位 报道 | 公众号 QbitAI AI不仅会筛选你的简历,还会通过看脸决定你能否通过面试. 这不是将来时.全球已有超过一百万求职者,经历过AI面试官的冷酷"凝视&q ...

  9. 第一百零六期:长相不讨AI喜欢面试就会挂?全球百万求职者经历AI“看脸”面试

    AI不仅会筛选你的简历,还会通过看脸决定你能否通过面试.这不是将来时.全球已有超过一百万求职者,经历过AI面试官的冷酷"凝视". 作者:鱼羊 本文经AI新媒体量子位(公众号ID:Q ...

最新文章

  1. 算法笔记--单调队列优化dp
  2. Maven进价:Maven的安装和目录结构
  3. boost学习之 时间和日期 timer
  4. leetcode383. 赎金信(两种做法)
  5. Prosjecni(构造)
  6. 前端学习(2525):实现过滤功能
  7. win10切换桌面_总说win7最好用,那是你还不知道win10系统,竟有这些强大的功能!...
  8. (6)Vivado软件开发流程(第2天)
  9. 错误: 15138删除对于用户失败,数据库主体在该数据库中拥有架构,无法删除。解决方法(转)
  10. 计算机远程桌面连接命令行,远程桌面连接命令,小编教你win7远程桌面连接命令的使用教程...
  11. 高性能Mysql(一)
  12. 广数25i系统倒刀回刀m代码_史上最全数控系统代码信息!错过没有了!
  13. 【010 Editor】010 Editor安装教程
  14. python两个数组合并去重_python中有将两列数据合并为一列数据的函数么
  15. EasyOrtho卫星影像处理软件
  16. 百度K站之前兆与解决方案的另类分析
  17. 当心PayPal,Amazon认真对待付款
  18. android-gpuimage-plus
  19. 榕树说技术支持(Rong Zhiyun technical support)
  20. 实现微信小程序预览文件,预览页面添加倒计时

热门文章

  1. 利用计算机绘制地质图的思路和方法,基于规则的地质快速辅助成图
  2. git flow 概念
  3. 程序员的十层楼(http://softwareblogs-zho.intel.com/2009/02/04/1071/)
  4. python_faker使用
  5. 动手制作智能化家居“魔镜”
  6. 一个老站长说:我是如何通过网络赚来几百万?
  7. 【Arduino基础】蜂鸣器发声实验
  8. 你真的理解函数式编程吗?
  9. AndroidWear 手持设备与穿戴设备的通知同步
  10. (二)QT5.14.2连接MySQL并使用QtableView显示数据表内容