在时间关系数据上AutoML:一个新的前沿
作者:Flytxt
翻译:张恬钰
校对:李海明
本文1600字,建议阅读8分钟。
本文介绍了AutoML的发展历史及其在时间关系数据上的应用方案。
现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。
AutoML的最新进展主要包括从时间关系数据库中自动发现有意义的表间关系的复杂功能合成(例如,深度特征综合),使用模型自动调整进行概念漂移(例如,AutoGBT),以及深度学习模型的自动设计(例如,神经结构搜索),如图1所示。这些研究进展提高了数据科学家的生产力,从而显著提高了AutoML系统的实用性,并使得非机器学习专家也能够处理现实中不同领域的数据科学问题。
图1 AutoML进化史
在时间关系数据库中使用AutoML
在诸如在线广告,推荐系统,自动与客户交流等机器学习应用中,数据集可以跨越多个具有时间戳的相关表来显示事件的时间安排。而传统方法则需要专家们通过繁琐的试错法手动组合表格来获取有意义的特征。用于处理时态关系数据的AutoML考虑了相关关键字段的临时连接,并通过自动发现重要的表间关系来自动进行特征合成。
在没有域信息的情况下,实现基于时态关系数据的真实世界的AutoML案例包括自动生成有用的时态信息和跨多个子表格有效合并特征,且不会导致数据泄露。除了这些困难外,还需要自动选择最佳的学习模型和受资源约束的超参数集,以使解决方案足够通用,并且符合时间和内容预算。
有趣的是,今年的KDD杯开展了以AutoML为主题的挑战赛,邀请了全世界AI / ML领域的研究和从业人员为时态关系数据库开发最新的AutoML。
我们的解决方法
我们的工作流程包括预处理,跨关系表的自动特征合成,模型学习和预测这些步骤。预处理包括对于偏斜校正的特征变换以及平方和三次特征的增强。它还包括分类特征的频率编码,而特征是使用子表中聚合指标的时间联接自动合成的。多数类的实例将进行下列采样以保持1:3的比率。渐进式决策树(GBDT)的Catboost实现可用于学习算法,交叉验证则可用于参数调整来决定最佳树的数量。图2概括地描述了我们的工作流程:
图2 我们的模型管道
时态数据聚合
当时态关系数据跨越多个表格时,找出表间的重要关系然后以最佳方式执行数据聚合将有助于特征提取。为了提取正确的特征表示,可对数字特征使用均值、求和等聚合运算,而对分类特征则采用计数、众数等运算。求频率,聚合指标的计算需要在适当的时间窗口上使用交叉验证完成。
特征处理
连接多个数据库的表会产生高度偏斜的特征。我们的特征预处理步骤包括偏斜校正以及特征变换和增强。特征增强包括添加具有周期性的数字特征的平方和三次方变换以及正则或余弦,日期时间特征的变换(例如,月,时和分)来丰富特征空间。还可对分类特征进行频率编码来进一步扩大特征空间。
模型选择
在计算和存储方面,尝试几种线性和非线性模型的成本可能会非常昂贵。由于梯度增强决策树在处理分类特征和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。同时使用交叉验证对超参数(例如树的数量)进行调整,以避免过度拟合。
我们的解决方案拓展了现有的AutoML研究项目组合,允许使用涉及时态关系数据库学习的用例。可以访问Github存储库来查看我们的解决方案。
AutoML趋势
随着行业越来越关注从AI中快速获取价值并减少机器学习模型从原型到生产部署的周期时间,能够降低AI准入门槛并实现AI工作流程自动化的AutoML已成为重要推动力。AutoML社区越来越关注于支持真实案例的使用,包括从结构化和非结构化数据、时态关系数据库以及受概念漂移影响的数据流中学习。
尽管AutoML最初专注于最佳机器学习管道的自动构建,随着时间的推移,对此类管道自动维护处理它的范围正在扩大,模型自治性进一步增加。AutoML的进步和强大的计算基础设施的可利用性将推动人机智能的融合,使得人类专家能够更好地将精力集中在学习复杂的,非重复和创造性的问题上,从而获得更优的解决方案。
原文标题:
AutoMLfor Temporal Relational Data: A New Frontier
原文链接:
https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html
编辑:黄继彦
校对:王欣
译者简介
张恬钰,上海交通大学本科物理专业,Emory University生物统计硕士在读。以后想继续在生物统计方向深造。希望能留在美国学习和工作。希望能和广大的数据爱好者做朋友!
— 完 —
在时间关系数据上AutoML:一个新的前沿相关推荐
- 行数据上加一个version版本字段,可以有效防止数据重复更新
有时候,可能因为编码上的一些漏洞被利用,导致代码部分的check失效,一些重复请求会同时更新一条数据,导致出现问题.在行数据上加一个 version 版本字段,可以为程序加上最后一道屏障. 原理是什么 ...
- CorelDRAW VBA - 在图层上创建一个新的OLE对象 Layer.CreateOLEObject
Layer.CreateOLEObject 方法用来在图层上创建一个新的OLE对象. 参数说明 参数 描述 ObjectID 指定OLE对象的ID DisplayAsIcon 指定是否将OLE对象显示 ...
- Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)
参考网址:hdfs sinks %t Unix 时间戳,毫秒 %{host} 替换名为"host"的事件 header 的值.支持任意标题名称. %a 星期几的短名,即 Mon, ...
- 在windows上传一个新的项目到GitHub上
不多说,直接上步骤 1,新建GitHub的账号密码. 2,新建一个项目 点击new repository 3,选择自己项目,填写格式 点击创建 create repository,这时候一个雏形 ...
- linux+android4.2键值关系,Android4.0 添加一个新的Android 键值
这里添加新的键值,不是毫无凭据凭空创造的一个键值,而是根据kernel中检测到的按键值,然后转化为所需要的数值: 以添加一个linux键值为217,把它映射为android的键值Browser(这个键 ...
- 微信上了一个新功能,吐槽的人有点多
4 月 12 日,微信官方宣布,微信农场开始营业了. 有微信养猪的 还有微信养狗的 有的人哺乳动物已经不能满足他的需求,他要开始养蟑螂了. 状态怎么开启呢? 1.点击状态 2.选择美滋滋 3.选 ...
- mysql 多对多建表_mysql – 为什么在多对多关系中创建一个新表?
我正在创建一个数据库来存储有关乐器的信息.我在MySQL工作台中使用EER图来可视化每个表之间的关系. 当我创建多对多(n:m)关系时,会创建一个新表,其中包含新关系中涉及的表的主键.其他关系,如一对 ...
- blender中如何将窗口移动到另一块屏幕上,即新开一个窗口,作用到分屏上
在 Blender 中,您可以通过以下步骤将窗口移动到另一块屏幕上: 打开 Blender 的 "User Preferences" 窗口(在 Windows 系统中,您可以在菜单 ...
- 文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)
文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...
最新文章
- PyInstaller打包exe,打包出来的可执行程序在触屏版win10家庭版系统下报错Colud not find QtWebEngineProcess.exe
- CRM Fiori launchpad请求响应结果的字段分析
- python数据库自动对接_如何使用Python连接MySQL建立自动化监控报表
- Android 系统(275)---Mtk Webview基本问题
- 要写related_name的两种情况
- linux的free会擦出磁盘吗,如何在 Linux 上检查可用的磁盘空间 | Linux 中国
- android:layout_gravity和android:gravity
- mysql配置和管理(转载)
- arcgis里面怎么截图_ArcGIS在变更调查中影像截图批量制作的统一方法
- matlab里用simulink仿真教程,Matlab-Simulink仿真教程课件.ppt
- 安装ALEXA工具条
- 案例:仿小米logo过渡渐变效果
- 数据处理中的过采样、下采样、联合采样和集成采样
- oracle新建定时任务,Oracle创建定时任务
- Unity解析XML文件
- 选股策略与技巧 选股策略报告
- 聊聊 C++ 中的四种类型转换符
- 《UNIX网络编程》第一步:编写自己的daytime客户端,并从daytime服务器获取时间
- OpenSIPS 3.1 开发手册(二)--SIP消息及Opensips配置文件
- Java利用qq邮箱发送邮件