[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)
文章目录
- 摘要
- 引言
- 方法
- 补充:分支界定法
- 实验结果
摘要
- 提出了一种基于混合整数线性规划(MILP)的数据集操作方法。提出的优化可以将数据集缩小到特定的大小,同时在不同维度上强制执行特定的分布。它本质上利用了初始数据集的冗余,以生成更紧凑的版本,并在每个维度上具有特定的目标分布。
- 如果期望的目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。根据问题的性质,还可以指定其他类型的目标分布。所提出的方法可用于机器学习,用于塑造训练和测试数据集,或用于众包,用于准备可管理的数据集。
引言
- 在我们的时代,数据是丰富的。在我们的日常生活中,照相机、麦克风和其他传感器的广泛使用使得收集各种类型的数据比以往任何时候都更容易。这为许多科学领域的进步,特别是图像处理和计算机视觉,做出了重大贡献。毫不夸张地说,如今,(几乎)每一个研究问题都至少有一个数据集。
- 大数据分析的进步促成了“越大越好”的观念。然而,通常很少关注数据集中的特征分布。因此,一些数据集可能严重偏向特定的属性。例如,一个用于性别估计的数据集,其大部分图像描述的是特定年龄组的人,它就不具有现实生活的代表性,可能不适合用作训练集。此外,偏好可能会影响多个感兴趣的维度,这限制了从特定数据集学习到的模型的可重用性。
- 根据目标的不同,可能会使用不同的方法来处理不平衡的数据集。欠采样(减少过代表的类)和过采样(复制过代表的类)是两种典型的方法[1]。为数据点分配不同的重要权重也是另一种可能产生更平衡的分类器的技术。
- 虽然现有的技术可以缓解不平衡的特征分布,但它们并没有明确提供缩小数据集大小的解决方案,同时为不同的特征强制执行特定的目标分布(不一定是均匀的)。通过不同维度的特定分布的子抽样来合成一个更小的子集是一个具有挑战性的组合问题,在许多不同的领域都有兴趣。
- 为此,提出了一种基于混合整数线性规划(MILP)的数据集整形技术。提出的优化可以将数据集缩小到特定的给定大小,同时在不同的维度上强制执行特定的分布。它本质上利用了初始数据集的冗余性,以便生成更紧凑的版本,并具有跨每个维度的特定目标分布。如果目标分布是均匀的,那么效果就是平衡的:所有不同维度的所有值都被平等地表示出来。也可以使用其他类型的目标分布,这取决于问题的性质。
方法
这本质上意味着,从总样本集S中选择到目标概率质量函数(PMF) L1距离最小的N个样本,从而近似DMs(均匀分布)。
补充:分支界定法
MILP问题是np -难组合问题。然而,现代的分支定界算法可以可靠而快速地解决现实世界中的许多问题。我们的实现1使用MATLAB的intlinprog函数。
实验结果
从Gallagher数据集[7]中从相同的589张照片中选择90张照片的不同方法,根据不同的目标分布。第一行:数据集的原始分布。第二行:强制统一分配。第三行:强制三角形分布。最下面一行:强制线性递减分布。
- 介绍了一种基于混合整数线性规划(MILP)的数据集子采样与整形方法。提出的方法可以将数据集缩小到特定的大小,同时在不同的维度上强制执行特定的目标分布。实验结果表明,该算法能够对数据集进行欠采样,并成功地实现不同维度和量化范围内的各种目标分布。
- 作为一个简单的应用程序,我们的算法可以用于平衡最初不平衡的数据集(强制统一分布)。可能的用途包括机器学习和涉及众包的用户研究,可以创建更小的平衡数据集,以消除数据偏差对用户行为的影响。我们的技术可以限制这类研究的成本(要交互的项目数量更少),并间接提高获得结果的质量(由于工作者注意力的碎片化程度较低)。
[论文阅读](SHAPING DATASETS: OPTIMAL DATA SELECTION FOR SPECIFIC TARGET DISTRIBUTIONS ACROSS DIMENSIONS)相关推荐
- GPT-2隐私泄露论文阅读:Extracting Training Data from Large Language Models
文章目录 论文地址: 原文阐释: 渔樵问对: 原理梗概 预防策略 隐私策略 这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险 文章第5页第二段中提到的 memorized training e ...
- 论文阅读笔记:Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 模型细节 问题符号化 模型结构 注意力模块-Attentive Module 整理表示 ...
- 论文阅读笔记: Modeling Relational Data with Graph Convolutional Networks
arXiv:1703.06103v4 文章目录 1.Introduction 2.神经关系建模(Neural relational modeling) 2.1 关系图卷积网络(Relational g ...
- 【论文阅读】Cleanits: A Data Cleaning System for Industrial Time Series
论文来源 标题: Cleanits (Xiaoou Ding,2019) 作者: Xiaoou Ding, Hongzhi Wang, Jiaxuan Su, Zijue Li, Jianzhong ...
- 论文阅读笔记《Optimal Image-Based Guidance of Mobile Manipulators Using Direct Visual Servoing》
核心思想 该文提出一种基于图像的直接伺服算法用于引导移动机械臂的动作.该文的研究还是比较有特色的,首先该文的控制对象是移动机器人平台+7自由度的机械臂:其次本文采用直接视觉伺服控制,与非直接视觉伺 ...
- 【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning
本文主要讲述了 恶意server 如何在VFL环境下根据数据索引来还原完整的训练数据. 这里写目录标题 现有工作的不足 主要贡献 实现 assumption & target 为什么大批量数据 ...
- 【论文阅读】An Iterative Instance Selection Based Framework for Multiple-Instance Learning
题目 An Iterative Instance Selection Based Framework for Multiple-Instance Learning 一种基于迭代实例选择的多示例学习框架 ...
- 自监督论文阅读笔记SELF-SUPERVISED SPECTRAL MATCHING NETWORK FOR HYPERSPECTRAL TARGET DETECTION
高光谱目标检测是一个像素级的识别问题.给定几个目标样本,它旨在从整个高光谱图像中识别特定的目标像素,例如飞机.车辆.船舶.一般来说,背景像素占图像的大部分并且分布复杂.结果,数据集的注释很弱并且非常不 ...
- CDR 论文阅读 1
CDR 论文阅读 ALL-DIGITAL CLOCK AND DATA RECOVERY 1 研究背景 2 系统架构 Phase Detectors XOR phase detector Tri-St ...
最新文章
- Cordic算法——圆周系统之向量模式
- c语言 sizeof size_t,C/C++中的sizeof运算符和size_t类型的详解
- 一位资深程序员大牛给Java初学者的学习建议
- python 双向循环链表实现_python实现双向循环链表基本结构及其基本方法
- maven添加本地包命令mvn install:install-file
- Android图片编码机制深度解析(Bitmap,Skia,libJpeg)
- [20171220]toad plsql显示整形的bug.txt
- js如何监听元素事件是否被移除_javascript – 如果一个DOM元素被删除,它的监听器也从内存中删除?...
- 中小微企业一大重要数据解析|司法数据指标与报告维度
- 剑指offer——面试题21:包含min函数的栈
- (转) EF三种编程方式的区别Database first ,Model first ,code first
- Android开发过程为C文件或者C++文件配置打印Logcat信息
- R语言与优化模型(一):规划问题和运输问题
- HL7协议介绍(一)
- 一个简单的HTML5后台登陆界面及登录实现
- Blender建模练习:人物模型多边形建模流程图解(一核心布线篇)
- 掌财社:一边亏钱一边被骂,爱奇艺需要出路
- Gradle学习之Android-DSL AppExtension篇
- python nose模块简单使用
- 电路设计经验总结(以软件cadence allegro为例)