从难以普及的数据增强技术，看AI的性价比时代

数据是AI训练的核心，这一点已经被确认再确认了。虽然数据驱动不是AI算法训练的唯一途径，但在产业中已经出现了很明显的趋势，那些数据丰富廉价的领域，就是会更容易孕育出AI技术。像是汉英之间的机器翻译能力会大大强于小语种间的机器翻译，数据收集更容易的人脸识别应用率也高于虹膜、眼纹等等生物特征的智能识别。

可以说数据的缺乏或昂贵，往往是阻碍AI发展的直接缘由。

当然面对这种情况，也出现了相应的技术解决方案——数据增强技术。

数据的有丝分裂，是怎样进行的？

所谓数据增强技术，可以理解为数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

以图像数据为例，当图像数据不足时，可以对图像进行一些轻微的改变，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。对于人类来说，虽然可以一眼识破两者之间没有区别。但对于AI来说，即使几个像素点的变动，也是全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子。

这些数据增强技术也开始通过深度学习的加持逐渐提升效率，例如去年4月谷歌就推出了一项名为AutoAugment的技术，这一模式设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略（例如上述的平移、缩放等等），制定执行的顺序并且自动执行。

例如将一个动物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。

为什么数据增强没能普及？AI企业的成本怪圈

看到了这些解决方案，大家是不是有种“天亮了”感觉？既然数据可以“自我繁殖”，那么数据的累积和采集就再也不是AI发展的阻碍。小语种的翻译、冷门植物动物的识别都可以快速AI化，巨头移动互联网企业霸权下的数据垄断也即将被破解……等等，如果数据增强技术有如此之强的能力，这项技术至少应该像BERT一样在学术界和产业界引起极高的关注，并且迅速形成产业链。

可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。

为什么数据增强技术没能彻底解决他们的问题呢？这背后其实是老生常谈的成本问题。

数据增强技术从来都不是免费利用的，很多时候AI技术接口本身就需要按调用次数收费，更别提背后的计算成本和时间成本了。

就拿文本数据经常利用的机器翻译来说，百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的，但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。曾有知乎用户表示，几款主流的机器翻译软件的收费标准大概在48元-60元/百万字符不等。对于企业来说，这也是一项不小的花销。

而应用于图片数据增强的AutoAugment，更是一种十分昂贵的算法。应用时要对15000个模型进行收敛，这对算力的消耗是巨大的。如果以CIFAR-10这样的对象作为数据集，需要利用英伟达Tesla P100 GPU计算几千个小时，以谷歌云的收费标准需要花费7500美元。

换句话说，如果数据增强的收费成本超过了人工去拍照收集，企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本，也不能覆盖数据增强技术应用的成本。

当AI走进性价比时代

这一现象提醒了我们，AI正在进入一个“性价比”时代。

资本对于AI一掷千金的岁月已经过去，随着巨头的AI技术逐渐产业化，其他AI企业已经无法向以前那样不计成本的投入。同时随着产业链发展的越来越完善，AI企业发展过程中的“计费标准”也逐渐清晰起来。在巨头占据市场的情况下，AI企业很容易看到在未来业务的发展中究竟经历着哪些成本上的商业风险。

这时，帮助降低数据增强这一类技术的应用成本就成了一件很重要的事。

例如最近伯克利人工智能研究院就推出了一种群体增强技术，通过数据结组方法，更高效地找到数据增强策略。相比单纯的应用AutoAugment，可以提升近千倍的效率。让很多无法负担高昂计算成本的企业甚至个人都能利用起数据增强技术。

而这种旨在降低AI研发成本的技术，或许未来会成为典型。其中的原因在于，谷歌这样的巨头企业，以及OpenAI这样的研究机构，本身拥有雄厚的资本和资源支持，导致他们在研发技术时，很难会考虑技术的“性价比”。何况很多时候这些企业本身也是算力资源的掌握着，他们在某种程度上掌握着技术与算力之间的定价权。从谷歌的角度来说，他们当然希望企业在研发AI时需要消耗尽可能多的算力资源，毕竟从算法技术到云计算资源都是他们的一套买卖。

如此以往下去，如果技术的计算标准和计算资源都被垄断，AI企业在发展时会遇到一条明显的阈值。一旦超过这一阈值，AI企业就会很难跨越成本，于是直接被拦在门外。甚至科技巨头可以利用这种方式对于产业进行间接的操控，举例来讲，如果谷歌想保护自己在小语种机器翻译上的优势，只需要提高该语种机器翻译应用费用，就能通过加大企业获取语料数据成本的方式，阻碍他们进行相关研究。

在这种情况下，打破垄断、重塑定价权，让AI研发更具性价比，或许能够打造出一条独辟蹊径的道路。

从难以普及的数据增强技术，看AI的性价比时代相关推荐

使用数据增强技术提升模型泛化能力
在<提高模型性能,你可以尝试这几招...>一文中,我们给出了几种提高模型性能的方法,但这篇文章是在训练数据集不变的前提下提出的优化方案.其实对于深度学习而言,数据量的多寡通常对模型性能的影 ...
集合啦，NLP数据增强技术！超全资源汇总
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达白交发自凹非寺量子位报道 | 公众号 QbitAI 数据增强技术已经是CV领 ...
数据增强系列（1）top10数据增强技术:综合指南
数据增强技术就是人为地生成真实数据集的不同版本以增加其数据大小.计算机视觉(CV)和自然语言处理 (NLP) 模型使用数据增强策略来处理数据稀缺和数据多样性不足的问题. 数据增强算法可以提高机器学习模 ...
NLP中的数据增强技术综述
NLP数据增强技术 1. 词汇替换 Lexical Substitution 基于词典的替换 Thesaurus-based substitution 基于词向量的替换 Word-Embeddings ...
NLP的数据增强技术总结
文章目录一.简单的数据增强技术 EDA (Easy Data Augmentation) 即Normal Augmentation Method 1.`同义词替换`(Synonym Replacem ...
gan 总结数据增强_[NLP]聊一聊，预处理和数据增强技术
在基于margin-loss的句子相似度这个项目中,为了验证想法,找不到开放数据集,因此自己从新浪爱问爬取了数据.自己爬的数据和学界开放的数据对比,数据显得非常脏.这里有三个含义:第一:数据不规范,比 ...
图机器学习中的数据增强技术
文稿整理者:张琳审稿&修改:赵通本人总结来自圣母大学的博士生赵通在深蓝学院分享的"图机器学习中的数据增强技术"公开课.通过介绍图机器学习的概念,发展历程等,以及分享两篇 ...
使用数据增强技术对已有样本进行扩充
当数据集中的样本量较少时,直接将其输入网络进行训练可能会导致过拟合,所以需要对已有样本通过使用数据增强技术进行扩充.扩充时主要有翻转和旋转两种操作,其中翻转包含水平翻转.上下翻转两种,旋转包含逆时 ...
AutoAugment: Learning Augmentation Policies from Data(一种自动数据增强技术)
谷歌大脑提出自动数据增强方法AutoAugment:可迁移至不同数据集近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建 ...

从难以普及的数据增强技术，看AI的性价比时代

从难以普及的数据增强技术，看AI的性价比时代相关推荐

最新文章

热门文章