https://www.toutiao.com/a6652492427758141964/

2019-01-31 11:08:13

数据是推动AI发展的催化剂,但如果要收集有效的数据,这就需要AI专家富有创造性了。自然语言处理(NLP)是AI的一个子域,侧重于教计算机如何解析人类语言。在MIT的年度自然语言处理实证方法会议(EMNLP 2018)中,来自微软、脸谱网和谷歌等科技公司或组织的AI专家们介绍了一大系列收集信息的新颖方法,本文主要总结了其中令人印象深刻的四种方法。

1. 混合语言(Spanish+English=Spanglish)

微软在多语种NLP的论文提出了一种专注于处理“混合语言”的方法,即在夹杂不同语言的文本或语音中自由切换,考虑到世界上超过一半的人口使用多语言,这个对此前未涉及领域的研究非常重要。

研究人员从西班牙语和英语着手,不过他们缺少足量的西班牙语文本来训练机器。正如混合代码,很少能找到包含多语言会话的文本,研究人员编写了一个程序克服这个挑战:把流行英语文本录入到微软的必应翻译器,然后将以词组为单位翻译的西班牙语译文转入源文本,确保交换的单词和短语具备同样的意思。通过这种方式,他们能够创建出足够多的西班牙式英语。

通过这种方式产生的NLP模型明显优于之前只用西班牙语或只用英语训练的模型。研究人员希望他们的工作最终能帮助开发多语言聊天机器人。

2. 食谱

食谱以图文并茂和循序渐进的方式教人如何做菜,类似这种的方法也可以被用来训练机器:用结构数据教会机器同时理解文本和图像。土耳其哈斯特帕大学的研究人员汇编了一套涵盖两万多本插图烹饪食谱的大型数据集,他们希望将此作为用于训练机器文本-图像理解性能的基准测试的新资源。

这个所谓的“食谱QA”的数据集是建立在先前的研究基础之上,此前的研究分别侧重机器阅读理解和视觉理解能力,对于前者,机器必须理解问题和相关段落才能找到答案,而对于后者,机器只能在相关图像中搜索答案。文本和图像的并排增加了任务的复杂性,因为这会呈现出互补或多余的信息。

3. 短句

谷歌希望用AI润色散文,研究人员为此创造了有史以来最大的数据集:将长句缩减成短句,但两者具备相同意义。在哪里才能找到大量的编辑数据呢?当然是维基百科了。

研究团队从维基百科丰富的编辑历史中提取了拆分长句的实例,结果显示,相比以前的基准数据集,这次任务中发现了60倍不同的句子拆分例子和90倍的词汇单词,而且数据集跨越多种语言。

当研究人员用新的数据训练机器学习模型时,其准确度(这里的准确度是指句子被重写后其意义和语法保持正确的比例)高达91%,相比之下,用先前数据进行训练的模型仅达到32%的准确度,最后,研究人员结合了两个数据集并用此对第三个模型进行了训练,准确度达到了95%。因此,研究人员得出结论,可以通过寻找更多的数据来源实现更好的效果。

4. 社交媒体的偏差

相关研究已表明,人类创造的语言是人类种族、性别和年龄很好的一个预测指标,即使这些信息从未被明确地陈述过。因此,以色列巴伊兰大学和艾伦AI研究所的研究人员试图利用AI通过移除这些内嵌指标来消除文本中的偏差。

为了获取足够数据代表基于不同人口统计的语言模式,他们转向了Twitter平台,收集了几组不同用户的推文,其中的对比组用户包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34岁和35岁以上。

研究人员采用一种对抗方式将两个神经网络相互对立,查看其是否能自动除去推文中内在的人口统计指标。其中一个神经网络试图预测人口统计学,而另一个试图将文本调整到完全中立的状态,其目的是将第一个模型的预测准确度(或可能性)降低到50%。通过这种方式能显著减低种族,性别和年龄的指标,但无法完全消除。

AI研究员收集NLP数据的四种创意方法(大牛分享)相关推荐

  1. 机器学习 对不平衡数据的四种处理方法

    https://blog.csdn.net/qq_40875849/article/details/85013973

  2. python下载文件到本地-Python下载网络文本数据到本地内存的四种实现方法示例

    本文实例讲述了Python下载网络文本数据到本地内存的四种实现方法.分享给大家供大家参考,具体如下: import urllib.request import requests from io imp ...

  3. java从1到9构建完全二叉树_Java完全二叉树的创建与四种遍历方法分析

    Java完全二叉树的创建与四种遍历方法分析 发布时间:2020-10-01 11:58:56 来源:脚本之家 阅读:87 作者:泡0沫 本文实例讲述了Java完全二叉树的创建与四种遍历方法.分享给大家 ...

  4. 数据科学的四种参数估计方法

    摘 要 文章从概率.统计这两大基本概念入手,通过构造一个基本问题,利用四种参数的估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处. 关键词 极大似然估计 最大后验 ...

  5. 数据事务四种隔离机制和七种传播行为

    数据事务四种隔离机制和七种传播行为 一.隔离级别: 数据库事务的隔离级别有4个,由低到高依次为Read uncommitted.Read committed.Repeatable read.Seria ...

  6. 大数据变现四种途径,如何把海量数据变成现金?

    大数据变现四种途径,如何把海量数据变成现金? 胡敏 • 2015-06-12 09:42 摘要: 西班牙电信.沃达丰电信.DHL等握有巨量数据的企业都在尝试不同的方式把数据变成现金. 大数据变现是大数 ...

  7. Android数据的四种存储方式SharedPreferences、SQLite、Content Provider和File (四) —— ContentProvider...

    ContentProvider是安卓平台中,在不同应用程序之间实现数据共享的一种机制.一个应用程序如果需要让别的程序可以操作自己的数据,即可采用这种机制.并且此种方式忽略了底层的数据存储实现,Cont ...

  8. Android数据的四种存储方式

    很清晰的思路,转自Android数据的四种存储方式 作为一个完成的应用程序,数据存储操作是必不可少的.因此,Android系统一共提供了四种数据存储方式.分别是:SharePreference.SQL ...

  9. 控制器中接收数据的四种方式

    控制器中接收数据的四种方式: (仅限于个别的方式(get/post)有效) 通过形参的方式接收表单提交的数据(可以接收post与get提交的数据): 注释: GetData自己定义的方法名里面存入形参 ...

最新文章

  1. 先安装证书服务(CA),再安装IIS,导致默认certsrv站点不能访问
  2. 异常-自定义异常 和 throw和throws的区别
  3. 小程序获取列表的下标
  4. 增删改模块学习中遇到的问题
  5. 【clickhouse】使用waterdrop将Hive中的数据导入ClickHouse
  6. 三、MQTT Windosw下的 进一步调试
  7. 【推导】【DFS】Codeforces Round #429 (Div. 1) B. Leha and another game about graph
  8. ftp文件下载工具,四款超级好用的ftp文件下载工具
  9. Testin 云测:一个典型的产业互联网创业样本
  10. hdu 1212 Big Number
  11. jpg图片怎么压缩大小?简单快捷的方法教给你
  12. 杭电计算机研究生就业报告,实力杭电 | 留杭就业人数又双叒叕NO.1,快来围观杭电2018届毕业就业质量报告...
  13. JeecgBoot集成DataV组件库
  14. 电视剧《勇敢的心》观后感
  15. mysql修改 mysql.sock路径导致登录时异常
  16. Word表格斜线怎么弄?这里有三种方法很实用
  17. 用c语言做个报数游戏和验证码系统
  18. 更改ubuntu默认文件管理器为deepin
  19. 2020年 java题库
  20. cpu利用率(cpu利用率突然100)

热门文章

  1. C++编译器Qt Creator下载地址
  2. 使用visual vm 分析线程(上)
  3. ORACLE EXP命令
  4. 如何创建共享文件夹?2009.6.10 三 紧张后 高兴
  5. 五、spring boot整合mybatis-plus
  6. DARPA可解释AI研究(XAI计划)的4年回顾与经验总结
  7. 原来,程序的世界远比我想象的精彩
  8. 你竟然还不懂变分自编码机?这个16岁的OpenAI天才实习生讲得可透彻了
  9. 过去50年最重要的统计学思想!
  10. 报名 | 清华大学大数据能力提升项目报名指南 (2020秋)