带着观点看商业。超级观点,来自新商业践行者的前沿观察。

文 | 顾夏辉,子长科技(1STEP.AI)CTO、创始人

编辑 | 吕方

AI应用的心病:数据缺失

人工智能(AI)一直是被热议的话题,但围绕着人工智能的讨论往往是“人工智能产业是否存在泡沫?”,“人工智能的估值是否过高?”。

人工智能不同于传统软件或系统开发项目,在各个领域的落地都存在很多问题,比如技术难度大、研发成本高、项目周期长。即使是行业里的头部公司,短期内也很难实现技术落地和商业化。

以行业头部计算机视觉公司旷视科技为例,据其港招股书显示,2016年、2017年和2018年,公司营业收入分别达到人民币6780万元、3.13亿元和14.27亿元,但亏损分别达3.43亿元、7.58亿元和33.52亿元。类似的还有寒武纪,即使已经成为人工智能芯片领域的头部公司,其在2017-2019年的三年亏损总额也超过了16亿元。

其中一个原因是当前人工智能的成果很大程度上还是人工堆砌,成本非常的高。

大部分人工智能项目需要机器学习的训练过程,而这个过程需要大量标注了答案的训练数据,即监督学习。据统计,在整个人工智能项目开发过程中80%的工作量都是准备训练数据,就算对于简单的数字图像识别,也需要五六千张数据图像作为训练数据。而这些数据都需要人工标注,比如目前国内某知名直播品牌就有4万名数据标注员工。

除了模型训练的高成本,找到大量可用于标注的训练数据的成本也非常高。由于信息安全、工作量等原因,很多为甲方开发定制的人工智能项目,往往很难获得大量有效的专项标注数据,而没有大量的数据就无法进行有效的机器学习。但数据是一个企业的核心,无法获得企业提供的数据进行训练是人工智能应用的心病。这就需要人工智能公司自行标注或准备大量训练数据,这个过程又增加了项目成本。因此降低数据准备的成本对人工智能落地至关重要。

数据准备的解药:预标注、数据增强、迁移学习

目前比较流行的降低数据准备成本的方法有预标注、数据增强、迁移学习等方法。

预标注是利用已有模型或者规则对训练数据进行自动标注,再把预标注后的训练数据交给数据标注人员进行标注。这个方法可以有效的降低人工标注的工作量。但预标注要求质量较好的预标注模型,并且标注人员需要对预标注错误的结果进行纠正。也就是说即使进行了预标注,还是需要大量的检查工作量,这种方法获得准确的标注训练数据的成本依然较高。此外,预标注方法还依赖于海量的训练数据为基础,实质上并没有解决需要大量可标注数据的问题。

数据增强是一种基于已有训练数据的基础,对数据进行自动扩充,从而获得更多的训练数据的方法。例如对图片进行标注,通过对图像旋转、截取等方式获得更多的图片数据,使用这种方法可以在少量的训练数据上进行标注,然后通过增强的方式获得大量已标注训练数据,同时解决了数据标注的工作量和对训练数据数量的依赖。但数据增强的过程需要开发模型生成或者是用规则生成,这又产生了数据增强的工作量。而如果通过数据增强的训练数据结果不够多样化,容易出现过拟合的情况,也就是在训练数据集中的结果很好,但在实际生产中的效果较差,模型过度拟合到训练数据。

迁移学习是将其他相似领域中已经充分训练过的模型作为预训练模型,以这个预训练模型为基础,使用目标领域的训练数据进行微调训练,从而获得适应于目标领域的模型。这种方法经常用于不同语言的翻译过程,但不管是预训练模型的训练过程还是微调的过程,依然需要大量的训练数据,否则还是存在过拟合的问题。

以上的三种方法都是希望通过降低训练数据数量,降低人工标注的成本和模型数据的准备成本,但仍然都存在着各种各样的问题。

数据救心丸:小样本学习

我们人类可以从很少的样本中获得某个新领域的知识,这个过程比起机器学习需要依赖成千上万的数据作为训练数据来说快捷很多。这是因为人类有举一反三、融会贯通的能力,可以将其他领域所积累的知识应用到对新领域理解的过程中,但如果完全从零开始学习一个新的知识,学习速度也是很缓慢的。

小样本学习(Few shot learning)与人类学习新领域的方式非常接近。它细分了很多种方法,但都是通过对其他各个领域知识的积累,在新的领域中寻找与所积累的知识的共性,从而快速的对新领域知识进行学习。只需要在新领域只提供几十个甚至几个样本数据,小样本学习就可以对新领域的知识进行学习理解。

小样本学习其实也是一种迁移学习。与其他迁移学习不同的是,小样本学习最大程度的利用了模型在各个领域数据训练的积累,大大降低了训练数据的数量,相比数据增强和迁移学习也有着更好的抗过拟合的效果。更重要的是,小样本训练可以将各个领域的学习过程积累下来,从而在不增加新领域训练数据的同时,获得更好的学习效果。

使用小样本学习可以在人工智能项目落地过程中彻底解决对大量训练数据的依赖,而由于减少了数据标注的工作量,模型训练的成本和周期也降低了。目前越来越多的主流人工智能公司开始对小样本学习方向发力,比如1STEP.AI已经可以在SMP小样本学习的比赛中,对小于十个样本的情况下,做到文本意图识别83.4%的准确率。通过可商用的小样本学习能力,可以解决项目冷启动、项目学习、实施成本等问题。

目前衡量一家人工智能公司是否具有落地能力,主要看这家公司是否找到了用户痛点、是否有算法、算力和数据能不能解决用户痛点。而使用小样本学习不仅能解决数据问题,同时可以降低训练所需要的算力,人工智能公司就可以把全部精力放在研究算法来解决用户痛点上,这样也简化了人工智能落地的复杂度。当然小样本学习不是变魔术,积累越多学习越快,作为一个新的研究方向它需要更为复杂的预训练过程。

不过由于小样本学习可以大大降低人工智能项目的落地成本,解决企业数据泄露的后顾之忧,所以未来很可能变成人工智能落地的一个重要方向。

“超级观点”栏目现发起“特约观察员入驻”计划,邀请各赛道的创业者、大公司业务线带头人等一线的商业践行者,在这里分享你的创业体悟、干货、方法论,你的行业洞察、趋势判断,期待能听到来自最前沿的你的声音。

欢迎与我们联系,微信:cuiyandong66;邮箱:guanchayuan@36kr.com

ai训练 样本大小_成本低、周期短,小样本学习能否成为AI落地的速效药?相关推荐

  1. ai训练 样本大小_防止过拟合(三):数据增强(增加训练样本)

    数据增强(Date Augmentation) 增加数据集大小是解决过拟合最重要的途径.但是收集样本数据和标注往往是代价昂贵的,在有限的数据集上,通过数据增强技术可以增加训练的样本数量,获得一定程度上 ...

  2. python web-Python的哪个Web框架学习周期短,学习成本低?

    不用学前端编程,你就能用 Python 简单高效写出漂亮的交互式 Web 应用,将你的数据分析成果立即展示给团队和客户. /> 痛点 从我开始折腾数据分析工具的那一天,就没有想明白一件事儿 -- ...

  3. ai作文批改_全球第一份机器人批改的作文 阿里AI批改中文试卷

    近日,浙江外国语学院国际学院,来自俄罗斯.韩国.赞比亚等6个国家的11位外国留学生完成了一份特别的中文试卷--看卷老师为来自阿里巴巴的人工智能. 在这批试卷上,阿里AI用代表不同意义的符号在试卷上,精 ...

  4. AI时代的幕后英雄:谁在生产高质量的AI训练数据?

    在AI浪潮的推动下,软件正在朝着更「智能」的方向发展.2017年,特斯拉人工智能部门主管.李飞飞高徒Andrej Karpathy提出了「软件2.0」的概念. 什么是「软件2.0」?其实就是神经网络. ...

  5. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模并行AI训练系统——“夸父”(Colossal-AI) ,通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式,旨在打造一个

    前沿AI模型越来越大,无论是对于企业还是个人,AI模型的训练成本都越来越高.即使花巨资使用超级计算机集群,聘请专家,也难以实现AI模型的高效训练. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模 ...

  6. Tesra超算网络AI训练的使用流程

    这篇文章将会为大家详细地介绍一下,Tesra超算网络AI训练的使用流程. ​在使用Tesra超算网络进行AI模型训练前,需要完成官网注册和开发者钱包注册. ​一:官网注册 ​Tesra超算网络的官网地 ...

  7. 从业3年45万年薪的AI训练师是如何养成的?

        标注猿的第60篇原创        一个用数据视角看AI世界的标注猿   2022年的上半年对于行业来说是艰难的半年,疫情再次冲击我们的生活,我也已经居家1个多月了,最近由于同一栋楼的邻居是密 ...

  8. weka分类器怎么设置样本类别_【程序喵笔记】小样本学习1.0

    小样本学习 前几天接触小样本学习 Few-Shot Learning,感觉很是有意思.看到Shusen Wang老师的讲解,感觉很棒~持续学习~ 学会学习 Lean to learn 小朋友去动物园, ...

  9. 华为云平台使用手册_训练、标注成本节省90%!华为云自动化AI开发平台ModelArts 3.0发布,从训练数据到模型落地一站式打通...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今年的华为,着实遭遇了不小的困难. 尤其是供应链,包括芯片方面的打击,让华为轮值董事长郭平坦承"的确对华为的生产.运营带来了很大困 ...

  10. 每秒处理240万帧游戏画面,AI训练成本降低80%,谷歌开源RL并行计算框架

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 对土豪来说最痛苦的是什么,就是有一大堆硬件却不能实现1+1=2的效果. AI训练中的并行计算就是如此,纵使你有一千张GPU,也无法实现单机 ...

最新文章

  1. 安装suricata
  2. epoch,iteration,batch,batch_size
  3. Alpha 冲刺(2/10)
  4. Spring自学教程-ssh整合(六)
  5. DevOps笔记-06:什么是CI/CD?它们与敏捷开发和devops的关系?
  6. python traceback class_traceback:让你更加灵活地处理python的异常
  7. 停车管理系统汽车到达汽车离去c语言,停车场管理系统 C语言实现
  8. 【deep learning学习笔记】注释yusugomori的LR代码 --- LogisticRegression.cpp
  9. 华为路由器防火墙配置命令总结(上)
  10. 程序员发展职业规划_大厂程序员总结:程序员30岁前,该如何规划自己的职业发展?...
  11. android 应用使用Root权限执行linux命令
  12. [机器学习]-K近邻-最简单的入门实战例子
  13. Halcon图像预处理与形态学(图像的几何变换)
  14. storm中worker、executor、task之间的关系
  15. dosbox中out of memory_flink教程-详解flink 1.11 中的JDBC Catalog
  16. java实验报告大全
  17. 锁定计算机和睡眠有什么区别,电脑系统待机、睡眠和休眠的区别有哪些
  18. 利用安装光盘创建本地 yum 源补装 RPM 软件包
  19. jink Art儿童摄影师视频教程中文字幕
  20. 使用Galen进行Responsive Web测试四部曲

热门文章

  1. linux resin目录,Linux下resin的安装以及配置:
  2. 如何用流程图描述算法?
  3. QT + VTK (QVTKWidget)显示点云,内存泄漏的解决方法
  4. 草根的91助手和它的同类们
  5. VHD 多系统安装 无需分区 无需U盘 无需任何第三方工具
  6. [随笔所想] 2021年新年碎碎念-加油了不起的干饭人!
  7. jzxx1105 【入门】字符图形4-星号正三角
  8. 惠普m128fn中文说明书_惠普M128fw使用说明书
  9. 触动精灵 获取getColor颜色失败
  10. unity如何实现图片透视_FPS透视自瞄从入门到入狱