最近一年图神经网络网络的概念很火,也有很多相关的工作诞生。今天重点介绍下AutoGL,也就是Auto Graph Learn方面的基础概念。首先还是说下图计算和之前传统的非图类结构化数据计算的区别。

Graph建模的特点

以推荐系统为例,传统的结构化数据,其实比较好的描述的场景是user对item的单点关系,比如user A买了一个item B,那么可以把A和B的特征通过表的形式展示出来:

A_f1 A_f2 B_f1 B_f2 label
-- -- -- -- 1

但是实际的上user购买序列往往是一个图关系,user A可能先后买了B、C、D,之后又买了B。通过传统的结构化数据其实很难描绘好这种序列性关系,这时候图的价值就体现了。

既然有图计算,就一定有图机器学习,那么就会有图自动机器学习。接下来就介绍下图自动机器学习的一些概念。

图自动机器学习概念

清华大学有开源相关的工作:https://github.com/THUMNLab/AutoGL

首先可以看下图机器学习包含哪些环节:

大体上就是先构建特征,然后建模,接着调参,最后做模型融合,看上去跟传统的机器学习建模的流程没什么两样。

1.数据&feature

图的数据比较特别,有边和点的概念。一般点表示的是一个实物,比如说人或者物,边表示的是人和物的关系。比如我一天吃3个馒头,我和馒头是两个点,吃这个行为是关系,这个关系的属性是3。

图数据该如何描述呢?业内已经有两个很成熟的库了,

DGL:https://github.com/dmlc/dgl

PyG:https://github.com/rusty1s/pytorch_geometric

通过他们可以快速的导入数据,另外图数据领域有一个类似于CV领域的Benchmark数据集,叫做OGB:http://ogb.stanford.edu

2.Model环节

建模环节包含两个方向的模型训练,是监督学习。分别是Node Classification和Graph Classification。点分类比较好理解,比如在基因领域,把所有对基因颜色有影响的因素做成Node,因素间的边是因素相关性,对结果颜色有黄色影响的Node可以为一类,绿色的为另一类。

Graph Classification往往应用到风控场景。人以类聚,物以群分。好人一般都跟好人有社交关联属性,坏人往往跟坏人关联性高。如果把两个社交群体,一个判断为坏人群体,一个是好人群体,就可以针对坏人做一些风控,一网打尽。这个是Graph Classification的典型应用。

3.HPO环节

HPO就是自动调参,其实在图里面没什么特别的,就是贝叶斯、进化式调参、网格搜索这一些,google有非常多论文发表,不多讲了。

4.Ensemble

Ensemble指的是当我们有多个模型的时候,怎么样综合这些模型的结果并输出一个最终结果。常见的Ensemble有Voting、Bagging、Average、Stacking等。

  • Voting指的是投票机制,假设一共三个模型。两个说结果是1,一个说结果是0,少数服从多数,结果是1。

  • Stacking是一种将弱学习器集成进行输出的策略,其中,在stacking中,所有的弱学习器被称作0级(0 level)学习器,他们的输出结果被一个1级(1 level)学习器接受,然后再输出最后的结果。

总结一下

图数据因为在推荐、风控等领域的天然数据构造优势,肯定会越来越多的有各种好用的工具落地,特别是PyTorch还支持了图数据结构的输入。我自己也认识做这方面创业相关工作的人。没事多了解下是有帮助的,就这样~

AutoGL:浅谈未来非常有前景的自动图机器学习相关概念相关推荐

  1. 清华大学发布首个自动图机器学习工具包 AutoGL,开源易用可扩展,支持自定义模型...

    来源:机器之心本文约2800字,建议阅读6分钟如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理? 清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Lea ...

  2. 赞!清华大学发布首个自动图机器学习工具包AutoGL

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  3. 浅谈电力线上网的前景

    作者:林其水    文章来源:福建省农科院情报所电脑室     随着宽带网络技术的飞速发展,它已开始在人们的工作.生活中发挥着巨大的作用.网络远程教育,网络出版.印刷,网络通信,网络电视等等,使人们通 ...

  4. 手机java软件_浅谈软件开发就业前景

    ​ 我国信息化人才培养还处于发展阶段,导致社会实际需求人才基数远远大于信息化人才的培养基数,使得数以万计的中小企业急需全面系统掌握软件开发基础技能与知识的软件工程师.目前对软件已达20万并且以每年20 ...

  5. 浅谈未来跨境电商发展的新趋势?

    从21世纪初,互联网在我国应运而生,并且在国家政策的倾斜和互联网的渗透下,结合互联网商业巨头对全球互联网产业的优化布局,互联网技术逐渐得到完善,伴随着近年来直播带货以及互联网电商的加持,我国的线上购物 ...

  6. 量子计算101:浅谈其需求、前景和现实

    image 大数据文摘作品 编译:Zoe Zuo.张南星.元元.Aileen 量子纠缠这两天忽然火了,还是因为一件与科技互联网都完全无关的桃色事件. image 没有看懂的同学可自行搜索 被爱因斯坦称 ...

  7. 6位大师浅谈未来三年大数据的发展

    2019独角兽企业重金招聘Python工程师标准>>> 新工具,新视角 维珍传媒(Virgin Media)洞察分析部负责人马克·查普曼(Mark Chapman),(维珍传媒:英国 ...

  8. 浅谈软件测试行业的前景,就业方向和薪资待遇

    软件测试行业是和软件开发相辅相成的一个行业,但是目前大家对于软件测试行业的了解并不多,甚至很多学了软件测试的朋友也不是很了解.今天我就给大家说一说,软件测试行业的前景,就业方向和薪资待遇. 感兴趣的小 ...

  9. 浅谈未来的人工智能与奇点临近

    如今机器学习领域最火的无疑为深度学习,而现在的深度学习模型都是建立在多CPU.多GPU的基础上,识别.计算某个物体需要强大的处理器支撑,如15年大热的AlphaGo对阵李世石,当时AlphaGo的分布 ...

最新文章

  1. Beta阶段总结博客(麻瓜制造者)
  2. MVC+Ninject+三层架构+代码生成 -- 总结(四、數據層)
  3. How React Works (一)首次渲染
  4. Android学习笔记:ScrollView卷轴视图
  5. Linux、Windows进程间通信
  6. 让数字校园走向云端【我身边的戴尔企业级解决方案】
  7. kali kda安装 linux_全昭妍미연Bea MillerWolftylaKDA-THE BADDEST
  8. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1081:分苹果
  9. Scrapy:Python的爬虫框架----原理介绍
  10. 20145225 《信息安全系统设计基础》第14周学习总结
  11. jzoj5986. 【WC2019模拟2019.1.4】立体几何题 (权值线段树)
  12. scrapy python下载图片_使用Scrapy自带的ImagesPipeline下载图片,并对其进行分类。
  13. 20060516: 实现圆角div效果
  14. currentTarget与target的区别
  15. Centos 关闭密码字典检查
  16. 酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
  17. sublime text3之使用等宽字体
  18. 随机点名器——java
  19. linux设备模型详解
  20. 物联网传感器61个应用领域

热门文章

  1. 分数化小数c语言题目,习题 2-5 分数化小数 (decimal)(C语言版)
  2. java list wordcount,初试spark java WordCount
  3. c语言产生cl.exe错误,vc++6.0执行cl.exe时出错
  4. 华为交换机一次性进入多个接口_华为交换机端口的批量配置命令
  5. python数据挖掘例题_数据挖掘与python实践试题及答案
  6. 互斥信号量的原理与创建
  7. html视频资源加载出错处理,如何处理前端异常
  8. java mvc学习_史上最全的SpringMVC学习笔记
  9. ios模拟器装ipa包_在iOS开发的时候如何在模拟器中安装APP
  10. Hadoop中Context类的作用和Mapper<LongWritable, Text, Text, LongWritable>.Context context是怎么回事【笔记自用】