什么是为AI另辟蹊径的“小”数据?
在AI的世界里,“大数据”是一个炙手可热的流行词。那么你有听说过“小数据”吗?其实,易于访问和操作的小数据在我们的生活中无处不在:线上购物、航空推荐、天气预报等均依托小数据。随着AI在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。
大数据vs小数据
大数据由大块的结构化和非结构化数据组成,规模庞大,需要高水平的计算机处理能力来解释。而小数据则不需要太多复杂的算法。算法将大数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。因此,公司不需要在数据挖掘过程投入太多。
小数据有哪些优势?
管理难度低:大数据分析需要强大的计算机能力。而小数据分析则不需要投入太多的时间和精力。这意味着小数据比大数据更具可操作性。
应用场景广泛: 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的用户。
关注终端用户:小数据可以用来解释终端用户的行为动机。通过小数据,研究人员可以将终端用户的需求放在首位。
机器学习中的小数据处理
传统的监督学习需要大量标注的训练数据来训练模型。而当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。在这种情况下,数据质量就变得至关重要。此时,数据科学家可以使用以下任何一种机器学习技术:
少样本学习
少样本学习技术常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。少样本学习成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。
知识图谱
知识图谱属于二级数据集,由一组具有定义含义并描述特定域的数据点或标签组成。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。
迁移学习
迁移学习技术,从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,应用迁移学习技术可以减少任务的工作量和所需时间。
自监督学习
自监督学习的原理是,让模型从现有的数据中收集监督信号,利用现有数据来预测未观测到的或隐藏的数据。例如在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,并从未隐藏的单词中获得足够的背景线索来识别句中隐藏的单词。
合成数据
当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。例如,在面部识别模型中,数据科学家可以人工创建深色人脸数据,以实现其代表的平等性。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。
“小数据的‘小’并不代表数据量小,而是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。在创建“小”数据集时,应确保数据的相关性与多样性,依靠先进的机器学习技术,以数据为中心构建,并与训练数据专家合作。”
——澳鹏Appen数据科学总监Rahul Parundekar
澳鹏Appen人工智能数据服务
澳鹏Appen提供数据采集和标注服务平台,以提升大规模机器学习质量。作为该领域的全球领导者,我们能够快速地在多种数据类型中提供大量高质量的训练数据,包括图像、视频、语音、音频、文本等,以满足特定的AI部署需求。我们拥有超过25年的专业经验,与您携手最大限度地优化数据效率。点击此处,与我们的专家联系。
什么是为AI另辟蹊径的“小”数据?相关推荐
- Gartner:70%新应用由低代码开发,AI热潮后小数据崛起
作者 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 国际研究机构Gartner在近日发布了2021年十大数据和分析趋势.纵观这十个趋势,基本可以归纳为三类主题,分别是: 加速数据和 ...
- 吴恩达:告别大数据,AI需要高质量小数据!
来源:AI科技评论 本文约5000字,建议阅读10分钟 本文向大家谈下吴恩达对基础模型.大数据.小数据以及数据工程的一些感悟. 吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里, ...
- 吴恩达:AI是时候从大数据转向「小数据」了
丰色 编译整理 量子位 | 公众号 QbitAI AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿. 如今,他的工作重心放在了他的Landing AI公司上. 这是一家专门面 ...
- 「人物特写」清华大学邓志东:“特征提取+推理”的小数据学习才是AI崛起的关键...
人类是可以进行推理的,只需要从小数据.小样本中学习,然后用特征+推理的方法就可以进行可靠的判别,这就是人类举一反三的能力. 邓志东 清华大学计算机系教授,博士生导师 2017年7月,北京,清华大学. ...
- 漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键
"蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点."蚂蚁金服副总裁.首席科学家漆远博士,在有中国" AI 春节"之称的新智元20 ...
- 吴恩达:AI要拥抱【高质量小数据】的训练范式
丰色 编译整理 量子位 | 公众号 QbitAI AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿.而最新消息显示,目前已经康复. 如今,他的工作重心放在了他的Landing ...
- 吴恩达:AI的下一个发展方向,从大数据转向小数据
AI 发展方向需要转向「小数据」了. 吴恩达(Andrew Ng)在 AI 领域有着很高的声誉.在 2000 年代后期,他率先使用 GPU 与斯坦福大学的学生一起训练深度学习模型,并于 2011 年创 ...
- 美智库最新报告:小数据人工智能潜力不可估量
来源:专知 本文附链接,建议阅读5分钟 研究人员从四个方面说明了"小数据"方法的重要性. 传统观点认为,大量数据支撑起了尖端人工智能的发展,大数据也一直被奉为打造成功机器学习项目的 ...
- AI、ML 和数据工程 | InfoQ 趋势报告(2021 年)
本文要点 我们看到越来越多的公司正在使用深度学习算法.因此,我们将深度学习从创新者转移到了早期采用者的类别中.与此相关的是,深度学习也面临着新的挑战,比如在边缘设备上部署算法以及非常大的模型的训练. ...
- 北大教授吴玺宏:从发声到语言,具身物理模型让NLP回到小数据时代
作者 | 吴彤 编辑 | 青暮 让机器理解人类的语言是我们长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度?如何评价语言理解的智能水平?离强人工智能还有多远距离?未来的技术发展趋势如何 ...
最新文章
- Silverlight 4 WebBrowser的使用及调用 WebBrowser 中的 javascript 方法
- JavaScript中十种一步拷贝数组的方法
- gcc 使用 stdio.h
- Netty原理五:ChannelFuture、DefaultChannelPromise对象解析
- JavaScript对Json的增删改属性
- Controller FioriTest.view.LineItem couldn't be instantiated
- python基础入门(9)之字典
- 我是如何拿到百度计算机视觉暑期实习offer的?百度面经(成功上岸!已拿offer)
- Ext的组件模型印象
- 买基金,是长期持有好,还是短线操作好?
- OPENCV2.4.7+VS2010+海康威视摄像头
- vue json对象转数组
- Snipaste简单使用
- App Extension应用扩展
- layui layer 自定义皮肤真香警告
- 软件项目量化管理(CMMI高成熟度)实践经验谈——之项目管理过程监督与控制篇
- 计算机代表的数字,计算机中数的表示
- linux多拨脚本,openwrt-mwan3负载均衡,多线多拨
- Textual Entailment(自然语言推理-文本蕴含) - AllenNLP
- Soundiron Bontastic Vintage Italian Chord Organ 复古意大利和弦风琴
热门文章
- oracle新增字段时提示数据类型不正确
- android6刷机教程,安卓手机刷机步骤
- 游戏汉化技术内幕——第3章索引和资源的说明
- Python练习题答案: 第一步,成为百万富翁 - 汇率卡塔【难度:2级】--景越Python编程实例训练营,1000道上机题等你来挑战
- 陈欧:创业是最美好的生活方式
- 三层交换机也不贵:自己动手做三层交换机
- mpAndroidchart 坐标和图表距离_合二为一——在Excel中制作组合图表!
- 反向代理为何叫反向代理?(含案例)
- matlab中将数据存为dat格式,matlab中将数据保存为txt或dat格式四种方案
- android 微博功能实现,android 新浪微博实现分享功能