近期,在素有“数据世界杯”之称的KDD Cup 2020数据挖掘国际大赛AutoML自动化机器学习赛道(AutoGraph自动化图数据建模)中,南京大学PASA大数据实验室代表队PASA-NJU,在全球顶尖团队和高手云集的220多支参赛队伍中,经过4个多月的激烈角逐,最终荣获大赛国际第二名,并获邀在KDD 2020线上会议上做技术分享。这是继NIPS 2019自动化深度学习大赛获得国际第三名后,PASA实验室又一次在国际顶级AutoML大赛中获奖。

参加本次KDD Cup AutoGraph大赛的PASA大数据实验室团队成员包括:朱光辉博士(队长)以及许卓尔、程锋、邱孟川、汪文杰四位硕士生同学。

作为KDD Cup的重头戏之一,KDD Cup 2020 AutoGraph自动化图数据建模挑战赛是第一次应用于图结构数据的AutoML建模,是AutoML自动化机器学习与图神经网络学习两个前沿领域的结合。图神经网络的设计和超参数调优通常由专家人工完成,技术门槛高,费时费力。大赛要求在完全没有人工专家干预的条件下,完全由机器自动化完成图神经网络的构建和超参数调优,达到与人工智能专家建模同等甚至更好的建模效果。

本次大赛由第四范式主办,ChaLearn、斯坦福大学和谷歌(Google)协办。大赛吸引了全球数百支队伍参赛,囊括了全球一众顶尖高校和业界科技巨头企业。参赛队伍总计进行了超过 2600 余次的作品提交,竞争异常激烈。

经过4个多月的角逐,最终,由美团点评+中国科学院大学+清华大学组成的联合团队获得冠军,南京大学PASA实验室团队斩获亚军,蚂蚁金服团队位列第三。由前10名的比赛结果可见,在具有强大应用背景与技术优势的一众知名IT龙头企业参赛激烈竞争的背景下,PASA实验室团队以多年雄厚的技术积累,夺得了优异成绩。

本次AutoGraph竞赛针对自动化图表示学习这一前沿技术领域,选择了节点多分类任务用于评估图表示学习的质量。比赛分为Feedback(反馈)、Check(检验)、Final(盲测)3个阶段。反馈阶段,参赛者基于5个公开的图结构数据集设计并提交AutoGraph方案,反馈阶段的公共排行榜是参赛者AutoGraph方案在5个反馈数据集上的评估结果;检验阶段,在参赛者在无法看到比赛结果的条件下,在5个私有数据集上进行测试;盲测阶段,参赛队伍将各自最终方案在私有数据集上运行,在无任何人工干预、并在给定的时间和GPU硬件资源的情况下完成训练和预测。最终根据学习模型的精度排名选出TOP10优胜团队。

图数据(Graph)在现实世界中无处不在,例如社交网络、论文引用网络、知识图谱等。图表示学习近年来已成为一个非常热门的话题,并得到了学术界和工业界的广泛关注。图表示学习的目标是学习图中每个节点的低维表示,然后可用于下游机器学习任务,如社交网络朋友推荐、商品推荐、知识图谱补全、交通流量预测等。以GraphSAGE及GAT为代表的图神经网络(GNN)是图表示学习主流的算法模型。

然而图神经网络的设计和超参数调优大量依赖专家人工建模经验,费时费力,限制了现有图表示模型的普及应用,因此,需要研究开发面向图神经网络自动化建模技术。

本次KDD Cup 自动化建模大赛首次将AutoML自动化机器学习与图数据结合,在无需任何人工干预的情况下,利用机器替代人工在给定的时间预算内自动设计图表示学习算法模型,解决现有图表示学习技术门槛高、建模效率低等棘手问题。对此,该赛事负责人之一、第四范式副总裁、主任科学家涂威威认为:“图表示学习的应用领域十分广阔,因此能够自动实现图表示学习的方案极具应用价值,这也是学术界和工业界近年来共同关注的焦点之一。此次比赛验证了AutoML能够很好的应用于图领域,并且获得了出色的效果。参赛者们也对传统的方法进行了诸多改进,对业务效果提升明显”。

KDD是国际顶级数据挖掘学术会议,KDD Cup是该国际学术会议举办的国际数据挖掘大赛,素有“数据世界杯”之称。由于近年来AutoML自动化机器学习成为全球AI领域研究热点,以及行业巨大的实际应用需求,自2019年,KDD Cup首次引入了AutoML赛道,探索了多关系表时序数据的自动化建模技术。而今年的AutoML赛题内容则聚焦于图数据的自动化学习建模(AutoGraph)。目前,将通用化的AutoML技术向不同数据类型的建模拓展,针对特定数据类型进行深度的自动化建模优化,进一步提高学习模型的精度,成为新一轮AutoML技术研究的热点,例如AutoNLP(自动化自然语言分析建模)、AutoSpeech(自动化语音识别)、AutoCV(自动化图像与视频分析)、AutoGraph(自动化图数据学习)等。

自2018年以来,南京大学PASA大数据实验室AutoML研究团队连续9次在各类国际著名的AutoML大赛中参赛并以优异成绩获奖,体现了PASA大数据实验室在不同数据类型(表数据、多表时序数据、图像、视频、文本、语音、图)和不同学习方法和任务类型(机器学习、深度学习、弱监督学习以及终生学习)的自动化机器学习技术方面,均具有很强的技术实力,整体技术达到国际先进水平,相关成果与软件已在华为、360、中电科等知名企业得到推广应用。2019年10月,南京大学PASA大数据实验室联合江苏鸿程大数据研究院,以“PASA-AutoML:人工智能自动化建模工具平台”项目参加了由教育部主办的第五届中国“互联网+”大学生创新创业大赛,并荣获全国金奖。

PASA-AutoML

自动化AI建模工具

自2017年初以来,南京大学PASA大数据实验室在AutoML技术领域开展了一系列系统深入的研究开发工作。实验室所积累的系列AutoML技术成果,已经形成完整的AutoML软件系统工具平台,并已由南京大学授权江苏鸿程大数据研究院进行成果转化。目前,研究院已成功研发出方便易用、功能丰富的AI自动化建模工具PASA-AutoML,以此助力行业/企业大数据与人工智能应用快速落地。

PASA-AutoML系统平台组成

PASA-AutoML自动化AI建模工具具有以下功能特点:

  • 自动化建模功能丰富:支持机器学习流水线的全过程自动化设计,支持分类、回归、聚类及深度学习等自动化算法模型选择和参数调优,支持深度神经网络超参数优化以及架构自动化搜索

  • 技术原创,建模性能优异:性能优于已有的开源AutoML系统,并多次在国际AutoML大赛中获奖,核心技术原创且国际领先

  • 落地化系统,扩展性强:所研制的AutoML技术方法,成为落地可用的系统产品,提供跨平台统一算法接入层,用户可以灵活地接入不同计算平台下的算法底层,可支持TensorFlow、Spark MLlib、scikit-learn、XGBoost等各种开源的人工智能算法平台

  • 方便易用:可与可视化编程平台集成使用,可在拖拽式可视化编程环境中自动化选择算法模型和参数,也可提供简单易用的AutoML编程API,供代码编程时调用

手工建模与AutoML自动化建模对比案例

哈工大大数据实验_【新闻动态】南京大学PASA大数据实验室在KDD Cup 2020 AutoGraph自动化图数据建模国际挑战赛中荣获第二名...相关推荐

  1. 图数据的攻与防:智谱AI和biendata联合组织KDD Cup 2020

    由智谱 AI 和数据竞赛平台 biendata 联合组织的 KDD Cup 2020 目前已经全面展开.本次比赛采用了创新的赛题和赛制,主题为图数据的攻防.本次比赛奖金 2 万美元.  KDD Cup ...

  2. 哈工大大数据实验_哈工大男女比例位居榜首!哈工大、东北林大、哈师大......百所高校2020新生数据大揭秘!这所大学女生数量全国第一?...

    来源:综合软科(ID: zuihaodaxue) 2020年高考录取基本尘埃落定.9月是开学季,很多萌新满怀憧憬地从高中步入大学,而全国各大高校也陆续秀出了2020年本科新生大数据,涵盖新生总数.男女 ...

  3. jquery数据折叠_通过位折叠缩小大数据

    jquery数据折叠 Sometimes your dataset is just too large, and you need a way to shrink it down to a reaso ...

  4. 大数据相加_推动媒体融合与大数据相加发展

    深圳特区报讯 7月7日至8日,备受瞩目的第十二届中国传媒年会在贵州贵安新区东盟国际会议中心举行.本次年会以"媒体深度融合与大数据"为主题,近300名与会嘉宾深入思考研讨媒体融合与大 ...

  5. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  6. 10a大电流稳压芯片_你踩过的大电流芯片测试座的坑

    大电流芯片,顾名思义,就是会过大电流的一种芯片,具体市场上如何定义大电流,这个没有明确的定义.但是测试座的话,却对芯片的电流有限制的,因为测试的小探针的单针一般是小于1A/pcs,小探针的单针最好的是 ...

  7. c - 数据结构实验之图论三:判断可达性_IT世界的诡异事件,2020为何算法和数据结构面试题会如此火爆?...

    只有熟练掌握基础的数据结构与算法,才能对复杂问题迎刃有余. 很多时候,你即使提前复习了这些最常见的面试算法题,你依旧无法通过算法面试!为什么? 你在提前准备复习的时候,在网上找了半天相应题目的分析文章 ...

  8. 哈工大大数据实验_科研常用 | 实验大数据分析方法

    对于每个科研工作者而言,对实验数据进行处理是在开始论文写作之前十分常见的工作之一.但是,常见的数据分析方法有哪些呢?常用的数据分析方法有:聚类分析.因子分析.相关分析.对应分析.回归分析.方差分析. ...

  9. 哈工大大数据实验_大数据创新实验室丨警大智慧警务学院人才培养打造新引擎...

    2020年11月13日,警察大学智慧警务学院与江苏省南通市通州区公安局签署了<大数据创新运用联合开发实验室合作框架协议>.智慧警务学院党委书记王连鹏,南通市通州区副区长.公安局局长杨彬,南 ...

最新文章

  1. 谭浩强c语言第六章兔子数列,谭浩强 C语言 第6章_循环.ppt
  2. Mysql错误问题:ERROR 1005 (HY000): Can't create table 'crm_1.tbl_client' (errno: 150)
  3. 不要让海浪中奔腾的豪情任岁月摧折,不要让江风中许下的誓言随流水消逝
  4. ABAP vs Java, 蛙泳 vs 自由泳
  5. npm执行命令后无任何响应(windows下)
  6. 编写有效用例电子版_剖析用例设计方法的使用
  7. 程序员想进大公司?学会这门编程知识,决定你能进什么样的企业!
  8. 04_Spring中使用Quartz
  9. 网页版进销存源码ERP多仓库管理系统源码
  10. 转 CSS 打印:http://eblog.nenu.edu.cn/user1/easter/archives/2008/1864.html
  11. pyspark连接MySQL数据库,执行SQL语句,返回数据查询结果
  12. sqlite简单笔记
  13. CDA I 级 备考之 PART 1
  14. Groovy 教程系列(一)-- Groovy 入门
  15. MATLAB 符号函数变量替换为常量
  16. 计算机图形学和数据科学实验,计算机图形学作业-图像处理实验室——中国科学技.PDF...
  17. python下载笔趣阁小说生成txt文档
  18. 14.1 常见数据结构、List集合(ArrayList、LinkedList)、Set集合(HashSet、LinkedHashSet)、可变参数方法
  19. 吴军,阅读与写作,18,如何写好简历
  20. 133A 读注意的嘤嘤

热门文章

  1. 毫秒级从百亿大表任意维度筛选数据,是怎么做到的…
  2. 一文带你彻底了解大数据处理引擎Flink内存管理
  3. 【华为云技术分享】云容器引擎 CCE权限管理实践
  4. 华为云鲲鹏云服务器RC6正式公测,多元算力加速企业创新升级
  5. webpack4.0各个击破(6)—— Loader篇
  6. 【Python3网络爬虫开发实战】1.2.1-Requests的安装
  7. 中小企业上云首选,华为云全新云服务器S6性能评测分析
  8. Think in Java第四版 读书笔记5第11章
  9. Head First设计模式读书笔记八 第九章下 组合模式
  10. 小狼毫(Rime)输入法设置Shift直接上屏英文字符并切换为英文状态方法