作者:Dario Radecic,Medium 高质量技术博主
编译:颂贤

▲图源:[Brandon Lopez]

一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法,然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代机器学习一个非常重要的核心——数据。如果我们没有处理好训练数据没,上百个小时的时间都会被浪费在调整一个低质量数据训练出来的模型上,模型的准确度很容易就会低于预期,而这和模型调优是没有太大关系的。怎样才能避免这样的问题呢?

粗略地看,其实每个AI项目都由两部分组成:模型和数据。对于代码这部分,我们总能使用第三方库来尽可能地提高代码质量,但从来没有人告诉我们该如何充分提升数据的质量。这就是本文想要介绍的新思路:以数据为中心的AI。究竟什么是以数据为中心的AI?数据的数量与质量到底哪一个优先级更高?哪里可以找到好的数据集?这些问题本文都将带大家探讨。

什么是以数据为中心的AI?

既然AI由模型和数据两部分组成,那么我们可以想到有两种基本思路来指导我们的机器学习:

  • 以模型为中心: 通过改进模型来提升表现

  • 以数据为中心: 通过改进数据来提升表现

其实,以数据为中心的AI(data-centric AI)这一概念是吴恩达(Andrew Ng)的发明。吴恩达早前在油管上做了一次直播问答,专门讲解了什么是以数据为中心的AI。他提出,最近发表的学术论文中,99%都是在谈论模型,只有1%是以数据为中心的。其中有一句话特别值得注意:“别再花太多心思在模型优化上了”(your model architecture is good enough)。

吴恩达何出此言呢?ResNet, VGG, EfficientNet等学术界各路天才的种种智慧结晶,已经让我们现在能够接触到的模型架构变得非常强大了。试图再站在这些巨人的肩膀上改善她们的工作只能达到杯水车薪的效果。

不过,以模型为中心的思路的确更适合那些喜欢钻研理论的人,她们可以直接把手头的知识应用到具体场景中提升模型性能。而且,以数据为中心的思路听起来并不讨巧,谁会喜欢每天乐此不疲地给数据做标注呢?

然而事实证明,我们能做到的大部分性能提升都是通过以数据为中心的方法实现的。吴恩达在他的演讲中就展示了下面这组数据:

▲图1 — 基线、模型中心、数据中心性能比较(作者制图)

即使我们对钢铁缺陷这些事情没有什么了解,模型性能在数字上的显著提升我们是看得见的。我们可以看到,以模型为中心的方法对基线的改进不是零就是接近零,而且这种方法往往需要花费从业者数百小时的时间。

总结而言,我们可以得出一个很重要的经验教训:不要试图和一屋子的博士比智商。在想要改进模型之前,我们要首先确保手头上的数据质量是一流的。

数据要先保质还是保量?

要想追求数据的数量,通常的做法就是收集尽可能多的数据,并将其悉数扔给神经网络来学习映射关系。然而,一个数据集好用并不意味着它的数据量很大。我们可以参考数据集分享网站Kaggle上的数据集大小分布,图示如下:

▲图2 — Kaggle上的数据集大小分布 (图源作者)

我们可以看到,大多数数据集并没有太多的数据。在以数据为中心的方法中,数据集的大小并不重要。当然,我们不可能用三张图片去训练神经网络,但我们的重点要放到质量上,而不是数量。就算我们没有成百上千的图片也没关系,已有的数据质量和标注准确度是至关重要的。我们可以参考下面的例子,下图是标注人员为两个橙子的位置做出的两种不同的标注方法。

▲图3 — 为物体检测任务标注边界的不同方法(图源作者)

想要让模型准确度下降很简单,只要给它灌入标注不一致的数据就可以了。如果要追求数据的质量,我们就必须有严格而统一的标注规则。项目同时有多家标注商时情况就更是如此。

不过,就算数据的质量能够保证,我们到底需要多少数据才算够呢?这个问题比你想象的要难回答。大多数算法在其文档中会标明一个最小的推荐数据量。例如,YOLOv5就建议每个类别至少有1500张图片。我本人曾经设法用比这更少的数据取得了很好的结果,但是如果有更多的训练样本,模型的准确性肯定会提高。

总结而言,拥有大量的数据能够如虎添翼,但数据的量绝不是必需品。小数据集只要能有较高的数据质量,我们就可以用较少的数据达到四两拨千斤的效果。

高质量数据集哪里找?

现在我们来看一下两个能够免费获取高质量数据集的平台。

Kaggle

Kaggle拥有大量包括图表和图像在内的数据集。同时,Kaggle经常会举办各种各样的机器学习竞赛,其中不乏现金奖励,非常适合那些想要展示自身技能的同学。不过,尽管Kaggle已经非常出名,它没有针对国内的网络进行优化,下载数据集并非易事。

▲图4 — Kaggle数据集主页

格物钛公开数据集平台

也许你没有听说过这个平台,不过它的出现确实给算法开发者们带来了极大的帮助,不论你身处国内还是国外。

在格物钛公开数据集平台(gas.graviti.cn/open-datasets),用户可以通过数据集的名称联想检索、应用场景筛选、标注类型筛选、推荐、更新时间及热度筛选,轻松找到所需数据集。同时,用户无需下载,即可在数据集详情页在线查看标注情况及标签分布,掌握数据细节。

不过,如果你想下载数据集至本地,格物钛用户提供高速稳定的下载服务。将全球资源Host至国内镜像,无需VPN访问,满带宽极速下载。与进入海外官网下载相比,格物钛至少提速100%

简直是身处国内AI开发者的福音!

▲图5

事实上,格物钛平台上的数据集还在不断增长中,用户可以自发的上传一些开源数据集,其团队也会定期加入新的高质量公开数据集。例如,知名的自动驾驶数据集nuScenes就在平台上有所收录,并且有非常高效的在线可视化插件一键直观查看数据集内容:

▲图6 — 格物钛平台上的nuScenes数据集

不仅如此,当你需要某些未被上传的特定数据集时,你可以加入格物钛社区(微信或Discord)。格物钛提供了问题与需求的反馈渠道,便于一对一针对性回应、跟进、解决用户的需求

结语

以上就是对以数据为中心的AI的基本介绍。简单来说,以数据为中心的AI就是要更关心数据的质量而不是数量。然而,高质量的数据集是很难找到的。如果你想建立优质的机器学习模型,你就一定需要优质的数据集。对于接触数据集平台而言,Kaggle是一个很好的开始。但如果你对计算机视觉等具体领域感兴趣,并且想要以快捷高效的方式访问数据集,务必试试免费好用的格物钛公开数据集平台。

恕我直言,很多调参侠搞不清数据和模型谁更重要相关推荐

  1. 不做调参侠,重视数据及处理能力?吴恩达发起的Data-Centric赛事总结!

    赛题名称:Data-Centric AI Competition 比赛官网:https://https-deeplearning-ai.github.io/data-centric-comp/ 比赛链 ...

  2. 一份来自贾扬清的AI修炼指南:不存在算法工程师,调参侠没有市场

    作者 | 陈彩娴.蒋宝尚 编辑 | 青 暮 算法工程师不仅需要具备牛逼的算法能力,还要精通业务.善于沟通?(小本子赶紧记下来!) 8月23日晚,知乎直播"AI时代听大咖聊"邀请到A ...

  3. 贝叶斯判别分析的基本步骤_贝叶斯分析助你成为优秀的调参侠(1)

    华中师范大学 hahakity 做研究的时候经常莫名其妙的发现自己成了调参侠,为了使用物理模型拟合某组实验数据,不断的在模型参数空间人肉搜索.运气好的话很快找到一组看上去不错的参数,大约能近似的描述实 ...

  4. 贝叶斯分析助你成为优秀的调参侠:自动化搜索物理模型的参数空间

    ©PaperWeekly 原创 · 作者|庞龙刚 学校|华中师范大学 研究方向|能核物理.人工智能 做研究的时候经常莫名其妙的发现自己成了调参侠,为了使用物理模型拟合某组实验数据,不断在模型参数空间人 ...

  5. 一份来自贾扬清的AI青年修炼指南:不存在算法工程师、调参侠没有市场

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者 | 陈彩娴.蒋宝尚 编辑 | 青 暮 算法工程师不仅需要具备牛逼的算法能力,还要精通业务.善于沟 ...

  6. 做一个高尚的fpga调参侠

    前序: 做技术的总会有件及其繁琐又简单的事情--调参.每个人都是一名调参侠,伟大而光荣.常人的思维是改一点参数编译一下再运行一下,看看是不是自己想要的效果,不是就继续调.这个过程极其漫长,这与人品和运 ...

  7. GPT-3 1750亿参数少样本无需微调,网友:「调参侠」都没的当了

    2020-06-02 12:01:04 OpenAI最强预训练语言模型GPT-3周四发表在预印本 arXiv 上,1750亿参数! GPT系列的预训练语言模型一直是大力出奇迹的典型代表,但是一代和二代 ...

  8. 《人工智能训练师》国家职业技能标准发布,看看你是几级调参侠?

    编辑:蛋酱.泽南,来源:机器之心 调参侠?炼丹师?都不对,该工作的学名是人工智能训练师. 从现在开始,「炼丹师」也有了明确的职业技能标准. 近日,国家人力资源社会保障部(以下简称人社部)发布了< ...

  9. 调参侠的自我修养——深度学习调参秘籍

    这是一篇写给萌新的"科学炼丹"手册 前言 近期在订阅号后台和文章评论区review了一下大家的问题,发现很多小伙伴现在已经把机器学习.深度学习的理论基础打好了,但是真正要解决一个现 ...

最新文章

  1. bootstrap 时间线_股票配资均量线的实战用法绝技是什么?怎么用它判断买卖点?...
  2. 中兴视讯服务器 广州,中兴高清视讯服务器ZXV10 M900
  3. 谷歌研究院出品:高效 Transformer 模型最新综述
  4. Matlab中寻找二值图像最大联通域的算法
  5. Android SQLiteDatabase的使用
  6. vue.js框架原理浅析
  7. EFI BIOS下的磁盘管理工具Diskpart,Efifmt与Efichk(转)
  8. 快学好这个去给学妹修热水器
  9. spring boot项目Intellij 打包
  10. 【最短路径】之Dijkstra算法
  11. latex怎么看论文字数_如何确定latex文档字数
  12. 获取Linux服务器公网和内网IP地址
  13. Lucene之Field常用类型
  14. iphone 计算机的shift键在哪,苹果电脑shift是哪个键 苹果电脑shift是什么键
  15. 论文解读:A Hierarchical Framework for Relation Extraction with Reinforcement Learning
  16. java安全 加密解密!
  17. Docker容器修改配置文件
  18. 【Python相关】PyCharm如何修改行注释颜色
  19. English 背单词
  20. After Effects CC SDK 使用指南(二)—— 第一章 介绍 (上)

热门文章

  1. 学习思考 耐得寂寞 拥得繁华
  2. (译)Windows Azure的7月更新:SQL数据库,流量管理,自动缩放,虚拟机
  3. 七、jdk工具之jconsole命令(Java Monitoring and Management Console)
  4. flash和js通讯的伪沙箱安全错误
  5. 关于Python的应用发布技术
  6. Server操作Mxd文件详细讲解
  7. socket api中send()和recv()函数工作原理与要点
  8. 干货,记一次解决录音杂音问题
  9. lisp用entmake生产圆柱体_德BBG公司开发用于CFRP储罐模块生产过程的自闭合HPRTM模具...
  10. python 使用 asyncio 包处理并发