吴恩达老师经验:80%的数据+20%的模型=更好的机器学习
点上方计算机视觉联盟获取更多干货
仅作学术分享,不代表本公众号立场,侵权联系删除
转载于:新智元
AI博士笔记系列推荐
周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接
机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。
吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。
当去arxiv上查找机器学习相关的研究时,所有模型都在围绕基准测试展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,这些模型仅解决了业务问题的20%,在业务场景中取得更好的效果需要更好的数据。
传统软件由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。以前的工作方式是,当模型效果不理想,我们就会去修改模型,而没有想过可能是数据的问题。
机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定,以模型改进为中心对模型性能的提升实际上效率是很低的。但是,当数据集大小适中(<10,000个示例)时,则需要在代码上进行尝试改进。
根据剑桥研究人员所做的一项研究,最重要但仍经常被忽略的问题是数据的格式不统一。当数据从不同的源流式传输时,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。对于机器学习工程师来说,这是一个繁琐的过程,需要将信息组合成适合机器学习的单个数据集。
小数据的劣势在于少量的噪声数据就会影响模型效果,而大数据量则会使标注工作变得很困难,高质量的标签也是机器学习模型的瓶颈所在。
这番话也引起机器学习界对MLOps的重新思索。
MLOps是什么?
MLOps,即Machine Learning和Operations的组合,是ModelOps的子集,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。
与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。
互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景
,你不能指望自己有一百万台拖拉机为自己收集数据。
基于MLOps,吴恩达也提出几点建议:
MLOps的最重要任务是提供高质量数据。
标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。
系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。
如果训练期间出现错误,那么应当采取以数据为中心的方法。
如果以数据为中心,对于较小的数据集(<10,000个样本),则数据容量上存在很大的改进空间。
当使用较小的数据集时,提高数据质量的工具和服务至关重要。
一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。
吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。
一些MLOps的工具已经取得了不错的成绩。
Alteryx处于自助数据分析运动的最前沿。公司的平台“ Designer”旨在快速发现、准备和分析客户的详细信息。该工具用于易于使用的界面,用户可以连接和清除数据仓库。Alteryx的工具还包括空间文件的数据混合,可以将其附加到其他第三方数据。
Paxata提供自适应的信息平台,它具有灵活的部署和自助操作。它使分析人员和数据科学家可以收集多个原始数据集,并将它们转换成有价值的信息,这些信息可以立即转换为执行模型训练所需要的格式。该平台是基于所见即所得设计,具有电子表格风格的数据展示,因此用户无需学习新工具。此外,该平台能够提供算法协助以推断所收集数据的含义。
TIBCO软件最近在这个快速发展的领域中崭露头角。它允许用户连接、清理、合并和整理来自不同来源的数据,其中还包括大数据存储。该软件使用户可以通过简单的在线数据整理进行数据分析,并且提供完整的API支持,可以根据自己的个性化需求进行更改。
网友表示,吴恩达老师说的太真实了!
也有网友表示,机器学习更像是数据分析,模型的搭建就是构建pipelines。
end
我是王博Kings,一名985AI博士,华为云专家/CSDN博客专家,单个AI项目在Github上获得了2000标星,为了方便大家交流,附上了联系方式。
这是我的私人微信,还有少量坑位,可与相关学者研究人员交流学习
目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟
王博Kings 的公众号,欢迎关注,干货多多
王博Kings的系列手推笔记(附高清PDF下载):
博士笔记 | 周志华《机器学习》手推笔记第一章思维导图
博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”
博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”
博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”
博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)
博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)
博士笔记 | 周志华《机器学习》手推笔记第九章聚类
博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习
博士笔记 | 周志华《机器学习》手推笔记第十一章特征选择与稀疏学习
博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(上)
博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论(下)
博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习
博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型
点个在看支持一下吧
吴恩达老师经验:80%的数据+20%的模型=更好的机器学习相关推荐
- 吴恩达的二八定律:80%的数据+20%的模型=更好的机器学习
机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题. 吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎.如 ...
- 【D】吴恩达的二八定律:80%的数据+20%的模型=更好的机器学习
文章源于公众号:新智元 [导读]模型好就能碾压一切吗?吴恩达泼冷水,机器学习发展80%依靠数据集的进步!这也激起了业内对MLOps工具链的关注. 机器学习的进步是模型带来的还是数据带来的,这可能是一个 ...
- 吴恩达老师深度学习视频课笔记:总结
吴恩达老师深度学习视频课网址为:https://mooc.study.163.com/smartSpec/detail/1001319001.htm/?utm_source=weibo.com& ...
- 机器学习笔记(吴恩达老师)
笔记来源:吴恩达老师机器学习课程笔记-第一周 - 知乎 (zhihu.com) 1.1机器学习是什么 第一个机器学习的定义来自于Arthur Samuel.他定义机器学习为,在进行特定编程的情况下,给 ...
- 吴恩达老师深度学习视频课笔记:逻辑回归公式推导及C++实现
逻辑回归(Logistic Regression)是一个二分分类算法.逻辑回归的目标是最小化其预测与训练数据之间的误差.为了训练逻辑回归模型中的参数w和b,需要定义一个成本函数(cost functi ...
- 高效“炼丹”必备技能:一文实现深度学习数学原理入门,还有吴恩达老师亲授课程...
贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 哪个程序员不想高效"炼丹"? 尤其是深度学习算法开发人员,追求模型结构优化和提高编程效率是永远的目标. 但是,如果只做 ...
- Emojify - v2 吴恩达老师深度学习第五课第二周编程作业2
吴恩达老师深度学习第五课第二周编程作业2,包含答案! Emojify! Welcome to the second assignment of Week 2. You are going to use ...
- 机器学习训练秘籍完整中文版下载(吴恩达老师新作)
Machine Learning Yearning 其实是吴恩达早期的一个项目,今年 2 月 Deep Learning Specialization 最后一课上线之后,吴恩达又捡起了这个荒废已久的项 ...
- 斯坦福大学机器学习课程资料-吴恩达老师主讲(2008版)
吴恩达老师于08年在斯坦福大学开办的机器学习课程,本站将课程视频.讲义.笔记分享下,这个课程的视频比较模糊,有大量的数学推导,有点难度,建议有一定数学基础的同学学习,初学者请绕道. 吴恩达老师后来推出 ...
最新文章
- Centos7上openVP-密钥登陆
- mysql 安装 注意点
- 【转】Linux定时任务系统Cron入门
- 农历法定日历_木瓜日历安卓版下载-木瓜日历V1.5下载
- 【python】-socketServer
- PNG,GIF,JPG的区别及如何选
- JVM调优_堆内存溢出和非堆内存溢出
- php 五颗星评价,简单实现点触/输入值给五颗星评价
- ASP.NET基础之HttpContext学习
- 华为发布最强 AI 处理器昇腾 910,全场景 AI 框架 MindSpore 将开源
- AI 会替代程序员?超好用的自动补全代码工具 Deep TabNine!
- 终于解决了x64 win7上运行金山词霸的问题
- 2021年中国新型电力系统行业市场现状、竞争格局与发展方向分析「图」
- 微信小程序如何实现搜索框的防抖功能
- Eclipse TPTP平台配置详细步骤Ver1.0
- 网站优化有哪些技巧,网站优化实用简易教程
- R语言中的countif——dplyr包中的filter函数和nrow
- element ui 表格内容 合计
- 神兽保佑,永无BUG
- 医号馆基层医疗信息化管理软件升级更新!
热门文章
- inner join on 加条件和where加条件_图解 SQL 中各种连接 JOIN
- php字符串以符号截取,PHP按符号截取字符串的指定部分的实现方法
- python画旋转圆_Python使用PyQt界面库绘制不停旋转的圆控件
- 欧几里得范数_浅谈机器学习中的范数
- Java常用类StringBuffer详解
- Django(九)admin相关知识
- View Programming Guide for iOS官方文档翻译一
- 大型互联网系统的监控流水线
- Python之访问set
- DFS序+线段树 hihoCoder 1381 Little Y's Tree(树的连通块的直径和)