目录

  • 1、文章贡献
  • 2、决策流型
  • 3、TabNet模型结构

好久没有更读论文的总结了,中途有几篇读了还没来得及记录,开学杂事一多竟然已经过了一个多月了……好吧其实就是自己懒,时间挤挤还是有的。
下面就关键记录模型的结构部分防止日后遗忘,其余部分就不写了,回归原文

1、文章贡献

这篇TabNet是暑假末尾看的一个结合了神经网络和决策树的模型,既有神经网络端到端的表征学习的能力,又有决策树良好的可解释性。

因为我们知道,跟神经网络相比的话,决策树这类的树模型有以下几个特点:训练速度快、可解释性强、比较适合应用于表格数据。而神经网络有着较好的端到端学习的表征学习能力,可以减轻对特征工程的需求。所以这篇文章的想法就是让神经网络去模拟决策树的行为,从而获得这两者的能力。

在这之前也有很多文章提出将神经网络结合决策树的想法,但都各有各的缺陷导致效果不佳,这篇TabNet号称在处理表格数据上可以达到和XGBoost、LightGBM这类集成树模型这么高的精度。

2、决策流型

  • 以下是一个决策流型,即对于输入特征x1和x2,通过a和d两个边界划分四块区域,其中每个区域对应不同的决策。
  • 下面是用神经网络简单的模拟决策流的行为,首先是输入特征x1、x2通过两个掩码矩阵进行分流,类似于特征筛选后,经过全连接层(参数已设定)得到各自列向量,随后经过ReLu函数(ReLu函数对于负数输入,输出值为0)相当于是条件判断,就得到当x1分别大于a和小于a时不同的向量,x2类似,最后把结果加起来通过Softmax函数来得到不同决策的权重系数。

3、TabNet模型结构

  • 下面是TabNet中encoder和decoder的结构,整体来看它是顺序多步的框架,在encoder的步骤中最关键的是Attentive transformer和Feature transformer这两个结构块。
  • 其中Attentive transformer起的是一个特征选择的作用,它会根据上一步的结果得到当前步骤的掩码矩阵,且不同的样本可以产生不同的掩码矩阵,相当于让不同的样本选择不同的特征。
    下面是内部的结构,在通过全连接层和批量归一化后,式子里乘了一项Prior scales先验项,这个先验项的主要作用是可以表示特征在先前步骤的使用程度(一般我们会认为如果一个特征在先前步骤使用频率较高的话,希望它在当前步骤使用频率低一些),表达式里的γ起的就是这个调节作用。文中有提到,当γ=1的时候表示特征只能被使用一次,随着γ增大,这个约束会变宽一些。最后通过sparsemax函数得到当前的掩码值。(sparsemax是稀疏化的softmax,相比较来说,softmax输出的值均大于0,图像更加平滑,而sparsemax输出的值中会产生更多的0和1,输出更加稀疏化。)
  • 第二个关键块是Feature transformer,它起的是特征计算的作用。内部结构主要分为两大块,前面一大块在所有步骤中是参数共享的,即可以计算共性特征;后面块在不同的步骤有不同的参数,即可以计算个性特征。每块中间有残差连接乘根号0.5来保持网络稳定。
  • 从Feature transformer输出后经过split层把结果划分两部分,一部分经过ReLu层来得到最后的聚合结果;另一部分继续作为下一步Attentive transformer的输入来得到下一步的掩码矩阵。

在可解释性上,TabNet的特征选择掩码可以揭示不同步骤的特征,当第b个样本的第j个特征在当前步的掩码值为0则说明特征对最终的决策没有贡献。回到TabNet的encoder结构中,每个步骤ReLu输出的结果能够衡量每个决策步的重要性,最后把ReLu的聚合结果乘上当前步的掩码值加以结合就可以得到特征的贡献。

论文解读9——TabNet: Attentive Interpretable Tabular Learning相关推荐

  1. #Paper Reading# TabNet: Attentive Interpretable Tabular Learning

    论文题目: TabNet: Attentive Interpretable Tabular Learning 论文地址: https://arxiv.org/abs/1908.07442 论文发表于: ...

  2. 论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction

    论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction (201 ...

  3. 论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall

    论文解读:Factual Probing Is [MASK]: Learning vs. Learning to Recall   先前一系列Prompt方法基于搜索策略获得Prompt的templa ...

  4. 【论文解读】Attributed Network Embedding for Learning in a Dynamic Environment

    Attributed Network Embedding for Learning in a Dynamic Environment 在2017年发表于CIKM 提出了DANE,一种将网络拓扑与节点特 ...

  5. 【论文解读】DLDL: Deep Label Distribution Learning With Label Ambiguity(年龄估计)

    1. 介绍 论文地址:https://arxiv.org/pdf/1611.01731v2.pdf 代码:https://github.com/gaobb/DLDL 针对问题:年龄估计 (1)缺乏精确 ...

  6. 论文解读--Raw High-Definition Radar for Multi-Task Learning

    图1.我们的RADIal数据集的概述.RADIal包括3个传感器(相机.激光扫描仪.高清雷达),配备GPS和车辆CAN跟踪:25k同步样本为原始格式.(a)摄像头图像,红色投影激光点云,靛蓝色标注雷达 ...

  7. 【论文解读】NN如何在表格数据中战胜GBDT类模型!

    作者:一元,四品炼丹师 TabNet: Attentive Interpretable Tabular Learning(ArXiv2020) 01 背景 本文提出了一种高性能.可解释的规范深度表格数 ...

  8. InfoGAN:Interpretable Representation Learning by Information Maximizing GANs论文解读

    概述: InfoGAN是国际神经信息处理系统大会NIPS 2016上的论文,作者来自加州大学伯克利分校和OpenAI团队的研究人员,被OpenAI称为当年的五大突破之一.针对传统生成对抗网络以高度混杂 ...

  9. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

最新文章

  1. python基础教程 下载-Python基础教程第3版中国PDF电子书免费下载
  2. 理解ResNet结构与TensorFlow代码分析
  3. element 让日期选择器一直显示选择面板
  4. 热门开源CI/CD解决方案 GoCD 中曝极严重漏洞,可被用于接管服务器并执行任意代码...
  5. myeclipse 内存不够用报错PermGen space 和 An internal error has occurred.
  6. 访问网站403错误解决方法(apache)
  7. YGG 与 StemsDAO 达成合作,为全球音乐创作者提供支持
  8. quartus驱动无法识别分析
  9. python乒乓球比赛规则介绍_乒乓球比赛规则简介
  10. android lame wav 转 mp3,Wav文件转mp3(LAME)
  11. 利用高频信号改变钢丝磁性来实现大量存储信息的钢丝录音机
  12. RationalDMIS 7.0量块程序(力合)
  13. 编程入门篇之零基础入门(通用)
  14. 【读书笔记】【思考总结】《AKF15条架构原则》
  15. 为什么理科男喜欢皈依佛门?
  16. 淘宝迈入智能时代 技术就是要实打实解决商业问题
  17. Word技巧:在表格前添加空行
  18. 场景化分析rem布局原理
  19. win7查看网络连接属性报错:网络连接出现意外错误
  20. win10开机自启应用的设置

热门文章

  1. 谷歌翻译用不了,失效的最新解决方法之一
  2. 记录一次mongoDB错误 errmsg: cannot use the part () to traverse the element
  3. JavaScript - 四舍五入
  4. Glide v4详解
  5. Spring Boot 使用 HikariCP 连接池配置详解
  6. db2 如何 将 oracle CONNECT BY 移植到 DB2
  7. c语言判断正整数x是否为同构数,c语言上机题库(阅读).doc
  8. Android 真正的3D Gallery
  9. 抖音表情包引流转化教程之淘宝客新玩法,轻松3w+
  10. mingw+msys windows下配置