在AI的世界里,“大数据”是一个炙手可热的流行词。那么你有听说过“小数据”吗?其实,易于访问和操作的小数据在我们的生活中无处不在:线上购物、航空推荐、天气预报等均依托小数据。随着AI在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。

大数据vs小数据

大数据由大块的结构化和非结构化数据组成,规模庞大,需要高水平的计算机处理能力来解释。而小数据则不需要太多复杂的算法。算法将大数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。因此,公司不需要在数据挖掘过程投入太多

小数据有哪些优势?

管理难度低:大数据分析需要强大的计算机能力。而小数据分析则不需要投入太多的时间和精力。这意味着小数据比大数据更具可操作性。

应用场景广泛: 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的用户。

关注终端用户:小数据可以用来解释终端用户的行为动机。通过小数据,研究人员可以将终端用户的需求放在首位。

机器学习中的小数据处理

传统的监督学习需要大量标注的训练数据来训练模型。而当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。在这种情况下,数据质量就变得至关重要。此时,数据科学家可以使用以下任何一种机器学习技术:

少样本学习

少样本学习技术常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。少样本学习成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。

知识图谱

知识图谱属于二级数据集,由一组具有定义含义并描述特定域的数据点或标签组成。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。

迁移学习

迁移学习技术,从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是,让模型从现有的数据中收集监督信号,利用现有数据来预测未观测到的或隐藏的数据。例如在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,并从未隐藏的单词中获得足够的背景线索来识别句中隐藏的单词。

合成数据

当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。例如,在面部识别模型中,数据科学家可以人工创建深色人脸数据,以实现其代表的平等性。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。

“小数据的‘小’并不代表数据量小,而是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。在创建“小”数据集时,应确保数据的相关性与多样性,依靠先进的机器学习技术,以数据为中心构建,并与训练数据专家合作。”

——澳鹏Appen数据科学总监Rahul Parundekar

澳鹏Appen人工智能数据服务

澳鹏Appen提供数据采集和标注服务平台,以提升大规模机器学习质量。作为该领域的全球领导者,我们能够快速地在多种数据类型中提供大量高质量的训练数据,包括图像、视频、语音、音频、文本等,以满足特定的AI部署需求。我们拥有超过25年的专业经验,与您携手最大限度地优化数据效率。点击此处,与我们的专家联系。

什么是为AI另辟蹊径的“小”数据?相关推荐

  1. Gartner:70%新应用由低代码开发,AI热潮后小数据崛起

    作者 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 国际研究机构Gartner在近日发布了2021年十大数据和分析趋势.纵观这十个趋势,基本可以归纳为三类主题,分别是: 加速数据和 ...

  2. 吴恩达:告别大数据,AI需要高质量小数据!

    来源:AI科技评论 本文约5000字,建议阅读10分钟 本文向大家谈下吴恩达对基础模型.大数据.小数据以及数据工程的一些感悟. 吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里, ...

  3. 吴恩达:AI是时候从大数据转向「小数据」了

    丰色 编译整理 量子位 | 公众号 QbitAI AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿. 如今,他的工作重心放在了他的Landing AI公司上. 这是一家专门面 ...

  4. 「人物特写」清华大学邓志东:“特征提取+推理”的小数据学习才是AI崛起的关键...

    人类是可以进行推理的,只需要从小数据.小样本中学习,然后用特征+推理的方法就可以进行可靠的判别,这就是人类举一反三的能力. 邓志东 清华大学计算机系教授,博士生导师 2017年7月,北京,清华大学. ...

  5. 漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

    "蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点."蚂蚁金服副总裁.首席科学家漆远博士,在有中国" AI 春节"之称的新智元20 ...

  6. 吴恩达:AI要拥抱【高质量小数据】的训练范式

    丰色 编译整理 量子位 | 公众号 QbitAI AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿.而最新消息显示,目前已经康复. 如今,他的工作重心放在了他的Landing ...

  7. 吴恩达:AI的下一个发展方向,从大数据转向小数据

    AI 发展方向需要转向「小数据」了. 吴恩达(Andrew Ng)在 AI 领域有着很高的声誉.在 2000 年代后期,他率先使用 GPU 与斯坦福大学的学生一起训练深度学习模型,并于 2011 年创 ...

  8. 美智库最新报告:小数据人工智能潜力不可估量

    来源:专知 本文附链接,建议阅读5分钟 研究人员从四个方面说明了"小数据"方法的重要性. 传统观点认为,大量数据支撑起了尖端人工智能的发展,大数据也一直被奉为打造成功机器学习项目的 ...

  9. AI、ML 和数据工程 | InfoQ 趋势报告(2021 年)

    本文要点 我们看到越来越多的公司正在使用深度学习算法.因此,我们将深度学习从创新者转移到了早期采用者的类别中.与此相关的是,深度学习也面临着新的挑战,比如在边缘设备上部署算法以及非常大的模型的训练. ...

  10. 北大教授吴玺宏:从发声到语言,具身物理模型让NLP回到小数据时代

    作者 | 吴彤 编辑 | 青暮 让机器理解人类的语言是我们长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度?如何评价语言理解的智能水平?离强人工智能还有多远距离?未来的技术发展趋势如何 ...

最新文章

  1. Silverlight 4 WebBrowser的使用及调用 WebBrowser 中的 javascript 方法
  2. JavaScript中十种一步拷贝数组的方法
  3. gcc 使用 stdio.h
  4. Netty原理五:ChannelFuture、DefaultChannelPromise对象解析
  5. JavaScript对Json的增删改属性
  6. Controller FioriTest.view.LineItem couldn't be instantiated
  7. python基础入门(9)之字典
  8. 我是如何拿到百度计算机视觉暑期实习offer的?百度面经(成功上岸!已拿offer)
  9. Ext的组件模型印象
  10. 买基金,是长期持有好,还是短线操作好?
  11. OPENCV2.4.7+VS2010+海康威视摄像头
  12. vue json对象转数组
  13. Snipaste简单使用
  14. App Extension应用扩展
  15. layui layer 自定义皮肤真香警告
  16. 软件项目量化管理(CMMI高成熟度)实践经验谈——之项目管理过程监督与控制篇
  17. 计算机代表的数字,计算机中数的表示
  18. linux多拨脚本,openwrt-mwan3负载均衡,多线多拨
  19. Textual Entailment(自然语言推理-文本蕴含) - AllenNLP
  20. Soundiron Bontastic Vintage Italian Chord Organ 复古意大利和弦风琴

热门文章

  1. oracle新增字段时提示数据类型不正确
  2. android6刷机教程,安卓手机刷机步骤
  3. 游戏汉化技术内幕——第3章索引和资源的说明
  4. Python练习题答案: 第一步,成为百万富翁 - 汇率卡塔【难度:2级】--景越Python编程实例训练营,1000道上机题等你来挑战
  5. 陈欧:创业是最美好的生活方式
  6. 三层交换机也不贵:自己动手做三层交换机
  7. mpAndroidchart 坐标和图表距离_合二为一——在Excel中制作组合图表!
  8. 反向代理为何叫反向代理?(含案例)
  9. matlab中将数据存为dat格式,matlab中将数据保存为txt或dat格式四种方案
  10. android 微博功能实现,android 新浪微博实现分享功能