雷锋网(公众号:雷锋网) AI 科技评论按,近日,亚太地区数据挖掘领域的顶级国际会议——第 23 届亚太地区知识发现与数据挖掘国际会议(Pacific Asia Knowledge Discovery and Data Mining,PAKDD)在澳门成功举行。本次大会,南京大学人工智能学院院长周志华首先做了开幕致辞,第四范式首席科学家杨强教授、普渡大学副教授 Jennifer Neville、罗格斯大学大学终身教授熊辉、罗维拉·维尔吉利大学名誉教授 Josep Domingo-Ferrer 等知名科学家先后在现场分享了对于知识挖掘领域最新的思考与技术进展。

除此之外,大会另一个重要看点是由第四范式、ChaLearn、微软、亚马逊联合举办的「PAKDD 2019 AutoML Challenge」挑战赛,现场公布了大赛最终成绩并举行了颁奖仪式,深兰科技 DeepBlueAI 、微软亚洲研究院、北航组成的 ML Intelligence 以及清华大学的 Meta_Learners 三只来自中国的队伍包揽了本次比赛前三名,充分展示国内在 AutoML 研究领域的实力。

据悉,本次 AutoML 大赛共吸引了全球 127 支队伍参加,提交超 550 个竞赛方案,最终有 31 支队伍进入决赛进行最终的比拼。比赛共分为 Feedback phase、Test phase、AutoML phase 三个阶段,最终成绩按照 AutoML phase 的 AUC 结果进行评估排序得出,前三名成绩排序在 Feedback phase、AutoML phase 两个阶段均一致。

本次比赛题目是贴近实际应用的终身自动机器学习(AutoML for Lifelong Machine Learning),旨在解决实际应用过程中,数据分布不断变化的动态环境给自动化机器学习带来的难题。在设计能够自主实现终身机器学习的方案中,需兼顾计算效率、多种特征类型、概念漂移(Concept Drift)、终身机器学习设定等诸多挑战。

以本次大赛冠军 DeepBlueAI 方案为例,囊括了自动特征工程、自动特征选择、自动模型调参、自动模型融合等步骤的 AutoML 框架,并对数据类别不均衡、概念漂移、时间空间等方面进行了针对性的处理和优化,同时也有针对性的对概念漂移问题进行处理,并且利用了多种策略对运行时间和运行内存进行了有效的控制,以确保解决方案能在规定时间和有限内存下完成整个流程,并最终在挑战赛中脱颖而出。

除了 DeepBlueAI 外,ML Intelligence 本次参赛方案也提供另一类的方法,我们都知道 AutoML 系统从每一批数据的输入到每一批的输出,实现端到端的自动化,完全不需要人参与,其中核心是自动算法,包括自动配置,自动调参,自动特征衍生和自动筛选等。本次竞赛方案中,ML Intelligence 为了能适应一个长时学习和在线学习的场景,能够适应特征或者样本的概念漂移,提出了一种基于模型的 (model based) 的方法,这与传统的基于分布 (distribution based) 的概念漂移检测方法不同,不需要用人的经验来做一些分布指标就能够实现漂移特征的自动检测。实际操作是训练一个特别简单的 GBDT 模型,来区分两个时间窗的样本,通过特征重要性排序来排序分布偏移的大小。然后为了适应场景,对高阶衍生特征和原始重要特征做了不同的处理。

另外,Meta_Learners 团队本次设计了一套基于梯度提升树(Gradient Boosting Tree)、概念迁移自适应的自动机器学习(AutoML)系统。在传统 AutoML 框架基础上,结合本次比赛的特点进行了针对性的设计。首先,在特征工程方面针对类别特征高基数、长尾分布的特点采用了频数编码;并设计了自动特征工程模块,可以针对不同数据集的特点,高效地提取出有助于提升模型预测效果的多种特征组合;在概念迁移自适应方面,采用自适应的流式协同编码技术,提高数据集的表征一致性,从而提升了预测性能。在超参数调节上,团队设计了一种结合了先验知识和自动搜索的层次化自动调参策略,从而保障整个系统运行的效率和鲁棒性。

尽管本次大赛周期覆盖了中国春节假期以及学生的期末放假时期,但是竞争非常激烈;同时,由于 NeurIPS 2018 的冠军队伍也公布了他们的方案,我们也看到这一届的前三效果都远远超出了 NeurIPS 2018 年的冠军解决方案效果;在整体方案上,这次前三在时序特征处理、不平衡数据处理以及对概念漂移问题的处理相比 NeurIPS AutoML 的解决方案都有了非常多的创新与进步。

近年来,AutoML 学术研究和应用逐渐从前沿研究迈入了行业主流发展的阶段,越来越多的研究机构和企业都纷纷开始 AutoML 的研究工作。PAKDD 2019 AutoML 挑战赛是今年 AutoML 的首场挑战赛,接下来会迎来今年 KDD CUP 2019 AutoML 和 NeurIPS 2019 AutoDL 两场 AutoML 年度大赛,其中 KDD CUP 是首次举办 AutoML 挑战赛,不仅开创了该项赛事 22 年历史的先河,更印证了 AutoML 进入学术研究和行业应用的上升期。

值得欣慰的是,AutoML 在国内的发展一直处于领先水平。本次 PAKDD 2019 AutoML 竞赛前三名被中国队包揽,充分展示了中国在 AutoML 领域的示范力量。

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

PAKDD 2019 AutoML 挑战赛圆满落幕,中国队伍包揽前三...相关推荐

  1. KDD 2020捷报 | 第四范式斩获KDD Cup全球冠军 AutoML挑战赛圆满落幕

    近日,一年一度的国际数据挖掘顶级会议KDD正在如火如荼的进行.在此次会议中,第四范式捷报连连:首先,第四范式与北京航空航天大学童咏昕教授研究组组成的联合团队在千余支队伍中脱颖而出,获得KDD Cup ...

  2. RTC领域首个AI算法大赛 AI in RTC 2019 创新挑战赛圆满落幕

    10月24日,由声网 Agora .RTC 开发者社区主办,数据科学学习社区 DataCastle共同协办,涂图科技.LeanCloud.极光.达观数据等合作伙伴提供支持的AI in RTC 2019 ...

  3. 中国今年包揽前三,KDD Cup 20年全回顾

    雷锋网 AI 科技评论按:从1997年至今,KDD Cup已有二十年历史.日前,第23届KDD大会在加拿大召开,会上,KDD Cup2017优胜者将进行成果展示. 2017年8月13-17日,第23届 ...

  4. 神马搜索上线奥运会人气榜单 中国女排包揽前三

    继战胜东道主巴西女排后,中国女排在今天对阵荷兰女排的半决赛中再次取得胜利,时隔12年再次跻身奥运决赛.在中国女排取得佳绩的同时,神马搜索奥运会人气榜单显示,中国女排队员惠若琪.张常宁.朱婷占据了榜单前 ...

  5. 全球首个机器人抓取云竞赛落幕,华科夺冠,中国团队包揽前三

    来源:机器之心 本文约2300字,建议阅读5分钟. 全球范围内首次全程云端开展,主办方希望将比赛打造成"机器人抓取技术领域的 ImageNet". 日前,由阿里巴巴联合主办的全球首 ...

  6. RNA结构预测竞赛圆满落幕,且看前三名团队飞桨论道(下篇)

    点击左上方蓝字关注我们 由百度飞桨举办的螺旋桨RNA结构预测竞赛圆满结束.本次竞赛依托百度研究院在RNA结构预测上的算法优势和百度大脑AI Studio平台优势,汇聚生物计算.人工智能领域从业者和爱好 ...

  7. 超融合中国力量崛起,IDC2022年Q1报告出炉浪潮中国市场位列前三

    国际数据公司(IDC)发布<2022Q1中国软件定义存储及超融合市场研究报告>,报告显示:2022年第一季度浪潮超融合销售额同比增长86.3%,近8倍于业内平均增速,市场份额跻身中国前三. ...

  8. 着眼未来!2019未来杯高校AI挑战赛圆满落幕

    在目前地产行业不断向大数据智能化转型的背景下,作为行业领先的房地产大数据应用服务商,2019克而瑞再度延伸,参与了第二届"未来杯高校AI挑战赛".在此次的大赛中,克而瑞一览当代高校 ...

  9. 世界智能驾驶挑战赛圆满落幕,智能科技引领汽车行业创新发展

    车控快讯(文/每日一CHEK)2023世界智能驾驶挑战赛(WIDC)于5月19-21日在天津市东丽湖成功举办,吸引了百余支赛队和行业专家学者参与.该赛事是世界智能大会(WIC)的重要组成部分,由多个政 ...

最新文章

  1. CCF201312-5 I’m stuck!(100分)
  2. 【客户案例】智能驾驶行业如何上云?
  3. Yii 2.0高级版 下拉框预设值、默认值
  4. linux如何查看所有的用户(user)、用户组(group)、密码(password/passwd)
  5. MYSQL-统计查询
  6. 上周热点回顾(11.27-12.3)
  7. 手机射频工程师培训大纲
  8. [python爬虫小实战2]根据用户输入关键词爬取今日头条图集,并批量下载图片
  9. 怎样重装计算机系统软件,电脑重装系统软件怎么样保留
  10. 魅族手机刷鸿蒙,魅族很机灵:宣布加入鸿蒙,大家以为魅族手机用鸿蒙,其实并不是...
  11. 关于虚拟机中IPI中断的思考
  12. 蓝桥杯——蓝肽子序列
  13. BIM技术在家装中有5大应用,您知道吗?
  14. Swift 函数的定义及调用
  15. 第5章 LinearR/PLR/SVR/KNN/DTR/RFR(测算房价)
  16. PPT和PPTX的区别是什么
  17. 千万不要尝试波段操作
  18. wow服务器合并信息,《魔兽世界》一区合并服务器正式通告
  19. 随机数字信号处理期末大报告——基于卡尔曼滤波的自由落体运动目标跟踪MATLAB实现
  20. 防病毒的四种防护技术

热门文章

  1. jquery发送Ajax请求预处理和后置处理
  2. 电力电子技术——sepic和zeta电路分析
  3. 如何抓取安卓APP日志?
  4. PageHelper分页插件上的PageInfo使用
  5. 面试时,问你有什么缺点,到底该怎么回答?我总结了“3个3”
  6. 我去图书馆微信公众号抢座【Python版本】
  7. 用javascript写一个简单的登录表单,包含用户名、密码和手机号码。提交数据时验证用户名、密码和手机号输入格式。
  8. c++编程规范和范例
  9. 泰山OFFICE技术讲座:标点关系穷举研究-05
  10. 新款戴尔取消开盖自动开机办法,以戴尔7591为例子如下