作者 |  Lionbridge AI

译者 | 天道酬勤 责编 | 徐威龙

封图| CSDN│下载于视觉中国

出品 |  AI科技大本营(ID:rgznai100)

在机器学习领域,训练数据准备是最重要且最耗时的任务之一。实际上,许多数据科学家声称数据科学的很大一部分是预处理的,并且一些研究表明,训练数据的质量比你使用的算法类型更为重要。

事实上,越来越多的公司进入了人工智能市场,来帮助满足这种对训练数据的需求。

 你如何获取机器学习训练数据?

获取训练数据的主要方法有以下三种:

  • 开源数据集:通过Kaggle、Google数据集搜索或数据集聚合器等网站在线查找。

  • 自己构建数据集:收集/创建数据并在内部进行注释。

  • 外包数据收集和注释服务:训练数据提供商提供的服务。

对于个人项目或学校作业,有时打开的数据集可以为你需要完成的任务提供足够的数据量。但是,在为商业目的构建和训练人工智能解决方案时,开源数据集通常无法用于你的用例,也不能用于商业化获利。

此外,当你拥有数千条数据并且只有少量员工时,内部采购和注释训练数据通常效率不高。这给我们提供了第三个选择:外包训练数据服务

机器学习训练数据服务

Lionbridge通过各种机器学习训练数据服务来帮助客户改善其模型。

目前,有一家相关的企业:Lionbridge 就正在做这类型的工作。当我们去了解之后,发现 其中的一些核心服务如下:

  • 数据收集:语音/话语数据,手写数据,聊天机器人训练短语。

  • 图像和视频注释:边界框,多边形,圆形,直线,关键点。

  • 文字注释:情感,实体,实体链接,分类。

  • 音频注释:逐字记录,智能逐字记录,音频分类。

  • 内容评估:广告评估,搜索评估,地理位置数据评估。

从翻译到训练数据

Lionbridge 利用他们的全球数据科学家、计算语言学家、翻译和注释者的专业知识,为各种用例创建机器学习训练数据。

为什么翻译公司适合数据注释?

例如 Lionbridge ,是意识到他们的全球社区是进行数据注释的理想劳动力。

尤其是对于自然语言处理(NLP),专业的语言学家是实体提取、搜索查询分类和其他基于语言的注释项目的理想注释者。经过全面的测试和培训之后,这些相同的员工可以轻松地执行各种图像注释任务,来实现计算机视觉。

翻译质量等于训练数据质量吗?

没必要质量相等。但是,翻译中的质量保证过程非常类似于人工智能训练数据的质量检查协议。

例如,本地化项目的质量检查流程之一就是编辑审查。在进行翻译时,通常我们需要一位或多位编辑来审核翻译人员的输出。同样,在我们的许多人工智能项目中,我们有多个贡献者注释同一条数据来检查是否一致。

很多时候,质量管理意味着对贡献者的管理。为了确保准确性,你的数据必须经过许多流程。

  • 管理输出       

社区需要有许多协议可以确保每个贡献者都尽其所能。例如检查注释者之间的协议,来确保每个注释正确。此过程还可以帮助其验证数据本身是否清晰以及任务是否简单。对于某些项目,最多有五个贡献者对同一数据进行注释。此外,还可以实施自我协议检查,来确保每个贡献者与其工作保持一致。

机器学习训练数据质量保证的一个很好的例子,是他们的话语/语音数据收集过程:

  • 首先,我们有声音工程师确保每个贡献者正确地说出该短语,他们确保贡献者没有遗漏任何单词,并以自然的语调说话(与单调阅读相反)。

  • 接下来,我们将音频文件发送给每种语言的母语者,他们来根据脚本检查声音片段。

  • 最后,他们发送文件以进行音频质量检查,以确保在特定阈值内没有噪音,以及客户要求的其他标准。

这些只是他们已经实施的质量检查措施中的一部分,看起来正在持续完善中。

数据质量是主观的

归根结底,数据质量的定义取决于项目。“当谈到训练数据的质量时,没有客观的定义。这取决于用户要尝试做的事情。” Lionbridge日本AI服务总监Cedric Wagrez说。  “质量与用户的最终目标和各种因素有关,例如用户的KPI、精度和量身定制的用例。”

高质量的机器学习训练数据是以可以帮助用户实现目标的方式收集、注释和校准的数据。

在开始管理质量之前,首先必须了解这对用户的意愿是什么。

  • 试验项目

在项目开始之前会提供免费咨询,来解释收集或注释数据的最佳方法。

接下来,运行测试和试验项目以符合客户预期。假设你有10,000条要注释的数据。为确保所有人都在同一页上,他们将获取前100个数据,在系统中设置项目,并让社区为数据添加标签。如果最终结果与你的想象完全一样,那么将继续处理其余数据。如果需要更改,将根据反馈进行重新校准。

重要的是,质量数据不仅仅是关于清晰的图像和紧密的边界框。你必须考虑选择标签数据的人员,提供数据的准则以及收集数据的环境。

 文本、音频、图像和视频的数据收集和注释工具

有员工为你的数据添加标签,但是需要一个平台对其进行标签?如今,这类需求也得到了满足,已经有服务商将数据注释平台发布为消费产品。

人工智能行业有望在未来十年内为世界经济增加15万亿美元。随着市场的持续增长,对训练数据的需求也将不断增长。因此,我们可能会看到更多类似的服务公司进入机器学习训练数据行业。

一切都在发展,这个行业将会越来越丰富,越来越值得期待!

原文:

https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi

【end】

原力计划

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读

  • Google重磅发布开源库TFQ,快速建立量子机器学习模型

  • 用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库

  • MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告

  • Libra新编程语言 :Move 的所有权模型灵感来源原来是它……

  • 曾经摸鱼的程序员,如今在武汉自愿加班

  • 云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!

  • 你点的每个“在看”,我都认真当成了AI

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……...相关推荐

  1. 案例|这家公司想解开零信任落地难题,拿自己做了1个“实验”

    难道做零信任,只是为了纵享丝滑办公体验? 好比练习武术,所谓"外练筋骨皮,内练一口气",别人看到的是你体格健硕,只有你自己能感受到,体质变好了,抵抗力提高了,身体倍儿棒. 归根到底 ...

  2. 这家公司数据被黑客盗了,想出钱自己买回来,结果黑客收了钱继续卖数据

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 大数据文摘出品 这家公司真的有够惨. 去年,T-Mobile证实,黑客提出以6比特币的 ...

  3. 飞机qar数据可视化_航空公司的QAR是什么?如何用?

    目前QAR译码数据已被各个航空公司或部门广泛应用于飞行过程仿真重现.飞行品质监控与改善.飞行技术评价.飞机维修维护.安全品质评估.油耗评测与节能技术的改进.事故因素调查.主动安全管理等工作,并发挥了重 ...

  4. 三次更名、融资七轮后,这家公司能否挽回它错失的那些年?

    1月23日,北京中关村,传闻中的CRM 厂商纷享销客获得融资一事落下实锤--国内知名软件厂商金蝶国际宣布战略投资纷享销客,金额为5000万美元. 在开场演讲中,纷享销客创始人&CEO罗旭用&q ...

  5. 提到图像数据脱敏,看这家公司如何理解

    交流群 | 进"传感器群/滑板底盘群"请加微信号:xsh041388 交流群 | 进"汽车基础软件群"请加微信号:Faye_chloe 备注信息:群名称 + 真 ...

  6. 3400位造型师,80位大数据科学家,这家美国女装公司这么做个性化定制

    Stitch Fix有一支由80位数据科学家以及3400名造型师组成的团队,从合作的200多个服饰品牌中进行挑选和匹配,为顾客设计"私人穿搭".在Stitch Fix上,100%的 ...

  7. 印度IT业迎来新生:大数据催生大批分析公司

    国外媒体今日撰文指出,随着云计算和开源软件项目的出现,存储和处理海量数据的成本急剧下滑,"大数据"时代也由此降临.这种趋势不仅给发展陷入停滞的印度IT行业重新注入活力,也催生了大量 ...

  8. 清华孵化、张钹加盟的这家公司,现在把“第三代人工智能”落地了

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:量子位 一家清华孵化的公司,最近"口出狂言"了. 回顾2020的A ...

  9. 无数人扎堆计算机视觉,但这家公司却聚焦决策智能

    短视频平台上越来越令人沉迷的个性化推荐.自动驾驶水平越来越高的汽车.戴着口罩也能精准判断的人脸识别,在我们生活中的无数场景,人工智能其实早已参与其中,只是我们不熟悉那些在背后赋能的人工智能公司而已. ...

最新文章

  1. 不明白点积的几何意义
  2. ASPxGridView EditFormLayout修改 TextBox文本长度
  3. 深度对比学习Vue和React两大框架
  4. C#趣味程序---爱因斯坦的台阶问题
  5. 第二次团队冲刺--9
  6. python笔记(一)——python中的类及内置函数
  7. 计算机网络原理html,计算机网络原理与应用html..ppt
  8. 【Java】List 按照字符串里的数值排序
  9. 企业要实现用计算机完成存货管理,关于当前企业存货管理存在的问题及其完善措施...
  10. python做var模型_python中VAR模型的条件预测
  11. endnote正版软件多少钱_销售endnote软件到底价格可以购买 保证正版软件
  12. oracle坏块,教你手把手修复oracle坏块(一)!!!
  13. HTTP代理服务器的工作原理
  14. Quartz集群配置报错 This scheduler instance (XXXX) is still active but was recovered by another instance...
  15. C#学习 - XML Serialization
  16. 论文投稿系列之Cover Letter写法(一)
  17. DCA决策曲线的解读和代码实现
  18. word怎样让表格不跨页【实测成功】
  19. 因为造轮子,我一个月就转正了
  20. 项目临时变更时,项目经理应该如何应对?

热门文章

  1. CentOS 6.4下PXE+Kickstart无人值守安装操作系统
  2. 文件上传的渐进式增强
  3. iOS网络-NSURLSessionDataTask大文件离线断点下载
  4. Oracle RAC系列之:利用srvctl管理RAC数据库
  5. java 日志 生成_Java日志(转)
  6. mgr未同步 mysql_MySQL Group Replication(多主同步复制MGR)
  7. 2019-03-20 Python爬取需要登录的有验证码的网站
  8. codechef ANUCBC(背包)
  9. 洛谷:P3950 部落冲突
  10. JS中根据某个值进行大小排序