Density‑based weighting for imbalanced regression

  • 文章信息
  • 背景
  • 动机
  • 方法
    • DenseWeight
    • DenseLoss
  • 思考
  • References

文章信息

题目: Density‑based weighting for imbalanced regression
期刊:Machine Learning
作者:Michael Steininger 1, Andreas Hotho 1,Konstantin Kobs 1 · Padraig Davidson 1 · Anna Krause 1 ·

背景

相比于分类场景,回归场景的不平衡问题是一个被忽视的方向。不平衡问题的解决的方法大致有两类
(1)Data level: 通过上采样/下采样想办法把数据的分布变平衡;
(2)Algorithm level:通过设计算法/模型来克服因数据不平衡而导致的模型预测Bias;
这篇文章的目的也是解决不平衡回归问题。

动机

当前有少部分解决不平衡回归的文章,这些文章大都采用Data level的方法。然而分类场景中Algorithm level的方法相比Data level的方法有很大优势。因此,本文试图提出一种Algorithm level的方法来解决不平衡回归问题。具体来说, 首先基于核密度估计(KDE)提出一种样本加权的方法用于给不同的样本指定权重,然后与经典的代价敏感学习Cost-sensitive learning的思路结合,提出了一种新的损失函数DenseLoss。

方法

方法非常的简单,先介绍所谓的样本加权DenseWeight。

DenseWeight

所谓的DenseWeight顾名思义就是根据密度来指定样本的权重。那么怎么来指定权重呢?实际上就是根据样本目标值y的稀有程度/密度来指定权重,密度越大,则相应的权重小一点。

开始之前,作者首先指出了权重应该满足的一些属性,然后基于这些属性要求来设计Loss。
权重的一般属性
(1)样本的目标值y的密度越大,则其权重应该越小;
(2)希望有一个超参数α\alphaα能够控制加权的程度:α=0\alpha=0α=0时,对应均匀分布,即样本的权重权重全部为1,α\alphaα越大,则加权的程度越大;
(3)样本的权重权重为正值以避免有的样本被忽视;
(4)所有样本权重的均值应当为1,这一点学优化时的补偿有关,以避免影响学习率;

接下来,DenseWeight的具体步骤
假设有N个样本,第i个样本的目标为yiy_{i}yi​,
Step 1: 基于核密度估计KDE来估算每个样本的密度,对于样本x,其密度的估计公式如下,

注: KDE是一种经典的非参数密度估计方法;
Step 2: 将所有样本的密度归一化到(0,1)之间

Step 3:设置样本的初始权重

可以看到密度越大,权重越小,并且参数α\alphaα可以控制加权的程度,Step 2实际上是为了使Step 3的权重指定规则有意义;
Step 4:通过截断使每个样本的权重都为正

这一步使为了满足属性(3);
Step 5:归一化

这一步是为了满足属性(4);

DenseLoss

DenseLoss的思想实际上就是代价敏感学习,具体到这儿,就是通过上一节的DenseWeight把密度低的样本的Loss放大,把密度大的样本的Loss缩小来客服不平衡问题。故,Loss的定义如下:

其中M表示损失的计算函数。OK。
这里可以发现:
(1)当α=0\alpha=0α=0时,所有样本的权重为1,退化成了原始的损失;
(2)α\alphaα值越大,则权重的设置对密度越敏感,密度大的样本的权重越远离1;

思考

1.总体而言,方法非常简单。很容易想到,看过之后的人可能都觉得太简单了,但之前确实没有类似Idea的文章,我想这也是能中Machine Leaning的原因吧。当然实验部分做的特别好,这也是原因之一。
2.该方法对包含噪声的数据可能不太好,因为没有相应的处理机制。

References

  1. Steininger M, Kobs K, Davidson P, et al. Density-based weighting for imbalanced regression[J]. Machine Learning, 2021, 110(8): 2187-2211.

[论文评析]Density‑based weighting for imbalanced regression,Machine Learning,2021相关推荐

  1. 线性回归的Spark实现 [Linear Regression / Machine Learning / Spark]

    1- 问题提出 2- 线性回归 3- 理论推导 4- Python/Spark实现 1 # -*- coding: utf-8 -*- 2 from pyspark import SparkConte ...

  2. 论文阅读系列--关键词:fMRI+brain connectivity+machine learning,大概近两年顶会顶刊,仅作参考用,如有侵权请联系删除!!!

    参考文献目录: [1]Stoecklein, Veit M., et al. "Resting-state fMRI detects alterations in whole brain c ...

  3. 论文阅读 :A survey of visual analytics techniques for machine learning

    题目:A survey of visual analytics techniques for machine learning A survey of visual analytics techniq ...

  4. 【论文翻译】Machine learning: Trends, perspectives, and prospects

    论文题目:Machine learning: Trends, perspectives, and prospects 论文来源:Machine learning: Trends, perspectiv ...

  5. 【论文翻译】Machine learning: Trends,perspectives, and prospects

    论文题目:Machine learning: Trends, perspectives, and prospects 论文来源:Machine learning: Trends, perspectiv ...

  6. 【论文阅读】Misshapen Pelvis Landmark Detection WithLocal-Global Feature Learning for DiagnosingDevelop

    作者及团队:刘川斌 Chuanbin Liu; 谢洪涛; 张思成; 毛振东; 孙俊; 张永东 会议及时间:IEEE Transactions on Medical Imaging 2020-12| 期 ...

  7. 基于机器学习技术的用户行为分析:当前模型和应用研究综述(A survey for user behavior analysis based on machine learning technique)

    A survey for user behavior analysis based on machine learning techniques: current models and applica ...

  8. 论文领读:人工智能三巨头的Deep learning

    「笑傲算法江湖」的论文领读专栏聚焦于深度学习领域经典和最新论文的中英文对照译文,涵盖计算机视觉.自然语言.语音识别和强化学习等专业领域,帮助初学者理解算法理论,为未来算法工程师或科研工作奠定基础.「笑 ...

  9. [论文解读]关于机器学习测试,看这一篇论文就够了 Machine Learning Testing: Survey ,Landscapes and Horizons

    Machine Learning Testing: Survey ,Landscapes and Horizons 文章目录 Machine Learning Testing: Survey ,Lan ...

  10. 把ACL论文「几乎一字不落」抄到AAAI 2021上,作者回应:属借鉴

    视学算法报道 编辑:蛋酱 AI 领域学术不端又来,一篇 AAAI 2021 论文涉嫌抄袭 ACL 2020 论文,有人还贴了查重结果. 几个月以来,学术圈不端行为屡被爆出,先是港科大硕士 ICCV 论 ...

最新文章

  1. 干货下载 | 高效金融客户分析体系如何搭建?
  2. 上传图片方向不对 php,php-上传图片时出现错误,没有这样的路径或目录
  3. 字体选择_十分钟带你掌握精准选择字体的方法!
  4. 如何用计算机制作公式,常用的那些软件能做公式编辑器
  5. harbor1.4.0高可用部署
  6. Ubuntu编译:error: ‘usleep’ was not declared in this scope
  7. static import java_Java 静态导入Static import
  8. java无效的参数_java.sql.SQLException: 调用中无效的参数
  9. 成功解决 AttributeError: ‘TySpider‘ object has no attribute ‘make_requests_from_url‘
  10. 豆瓣电影页面html代码,Vue.js 仿豆瓣电影DEMO 学习笔记一
  11. poi多个模板实现文档合并
  12. DB2数据库的基础学习
  13. 数据库种类发展史和大数据下的数据库(NoSQL)
  14. SegY地震体数据可视化分析工具
  15. java中的抽象到底是个啥?
  16. php网页爬虫-简单的类
  17. 游戏微服务架构设计:棋牌游戏
  18. 十二种卫星地图的快速比较和选择方法
  19. 数据安全-数据交换安全
  20. 个人项目:中小学数学卷子自动生成程序

热门文章

  1. 拦截一切的CoordinatorLayout Behavior
  2. VS2008 简体中文正式版序列号(到期解决办法)
  3. 如何用计算机进行文件夹整理,如何对电脑文件进行分类整理,试试下面这四个步骤...
  4. F 小名的回答 (奇偶) 湖南师范大学2018年大学生程序设计竞赛新生赛
  5. 见面会 | 创新工场执行董事王嘉平:高性能可伸缩性区块链系统揭秘!
  6. 苹果手机小圆点怎么设置?悬浮球设置,轻松学会
  7. 学习使用php的stripslashe()函数去除反斜杠
  8. Eclipse添加代码自动补全+对齐功能
  9. python将时间戳转换成北京时间、标准格式
  10. 从Logistic回归到神经网络的一点感悟