1、Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope

Paul May, Hossein Moradi Rekabdarkolaee

降维是分析高维数据的重要工具。Spatial Predictor Envelope是一种回归的降维方法,它假设预测变量的某些线性组合对回归产生的影响很小。与传统的最大似然和最小二乘估计相比,该方法可以显著提高效率和预测准确性。虽然目前的工作已经针对独立数据开发和研究了预测包络,但还没有出现将预测包络适应于空间数据的工作。这篇论文提出了spatial predictor envelope (SPE) ,并且导出了 SPE 的最大似然估计,以及给定某些假设的估计的渐近分布,表明 SPE 估计在渐近上比原始空间模型的估计更有效。还通过一些模拟研究分析说明了所提出模型的有效性。

2、Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra

Konstantin T. Matchev, Katia Matcheva, Alexander Roman

Transit spectroscopy是解码系外行星大气化学成分的有力工具。这篇论文专注于分析来自外行星的光谱数据的无监督技术,并展示了以下方法:

  1. 清理和验证数据,
  2. 基于汇总统计(位置和可变性的估计)的初始探索性数据分析,
  3. 探索和量化数据中现有的相关性,
  4. 预处理和线性变换数据到它的主要成分,
  5. 降维和流形学习,
  6. 聚类和异常检测,
  7. 数据的可视化和解释。

为了说明所提出的无监督方法,论文使用了一个著名的合成传输光谱公共基准数据集。表明光谱数据中存在高度相关性,需要适当的低维表示。论文探索了许多不同的降维技术,并在汇总统计、主成分等方面确定了几种合适的选择。在主成分基础上发现了有趣的结构,即与底层大气的不同化学体系相对应的明确定义的分支。这些分支可以成功地通过K-means聚类算法在完全无监督的方式进行复原。论文建议对光谱数据的前三个主要成分进行三维表示,这样可以揭示数据中的现有结构,并快速表征行星的化学级别

3、Statistical Treatment, Fourier and Modal Decomposition

Miguel Alfonso Mendez

这是VKI 讲座系列“Fundamentals and Recent Advances in Particle Image Velocimetry and Lagrangian Particle Tracking”中“Statistical Treatment, Fourier and Modal Decomposition”的讲义 。该课程于 2021 年 11 月 15 日至 11 月 18 日在 von Karman流体动力学研究所举行。本次讲座提供了通过图像测速获取的数据处理的导览。这个讲义并不是对该领域的详尽描述,但它本身就一门完整的课程,并且提供一个可以动手实际操作的指引。从基本的统计处理开始,简要回顾频率和模态分析,并以更高级的研究主题结束,例如多尺度模态分解和非线性降维。所涵盖的材料有望推动新手进入该主题,同时保持经验丰富的从业者的兴趣。与本讲座相关的所有代码都在 github 上公开了。

4、SLISEMAP: Explainable Dimensionality Reduction

Anton Björklund, Jarmo Mäkelä, Kai Puolamäki

现有的黑盒监督学习模型的解释方法通常是通过构建局部模型来解释模型对于特定数据项的行为。虽然可以进行全局解释,但对于复杂模型的解释的保真度较低。以前关于可解释模型的研究大多集中在分类问题上,对回归的关注较少。论文提出了一种新的流形可视化方法SLISEMAP,该方法可以同时为所有数据项找到局部解释,并构建模型空间的二维可视化,将同一模型解释的数据项进行投影。作者还提供了该方法的开源实现(PyTorch)。SLISEMAP既适用于分类模型也适用于回归模型。将SLISEMAP方法与最流行的降维方法和一些局部解释方法进行了比较。论文中提供了问题的数学推导,并表明SLISEMAP提供了快速而稳定的可视化,可用于解释和理解黑盒回归和分类模型

5、A comprehensive survey on computational learning methods for analysis of gene expression data in genomics

Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare

包括机器学习在内的计算分析方法在基因组学和医学领域具有重大影响。微阵列技术和 RNA 测序等高通量基因表达分析方法会产生大量数据。传统上都是使用统计的方法进行基因表达数据的比较分析。但是对特征基因或样本观察的分类和发现进行更复杂的分析就需要复杂的计算方法。在这篇综述中,作者整理了了用于分析表达微阵列数据的各种统计和计算工具。尽管这些方法是在表达微阵列数据的背景下讨论的,但它们也可用于分析 RNA 测序或定量蛋白质组学数据集。论文中具体讨论了缺失值(基因表达)插补、特征基因缩放、选择和提取特征以进行降维和表达数据的学习和分析的方法。在论文的最后最后,详细描述了学习和分析方法,包括类比较、类预测和类发现以及它们的评估参数。这篇综述描述了微阵列基因表达数据的生成过程以及上述技术的优点和局限性,通过论文正i的这些列表,读者可以根据数据类型和预期结果选择合适的方法。

引用:

  1. Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope https://arxiv.org/pdf/2201.01919.pdf
  2. Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra https://arxiv.org/pdf/2201.02696.pdf
  3. Statistical Treatment, Fourier and Modal Decomposition https://arxiv.org/pdf/2201.03847.pdf
  4. SLISEMAP: Explainable Dimensionality Reduction https://arxiv.org/pdf/2201.04455.pdf
  5. A comprehensive survey on computational learning methods for analysis of gene expression data in genomics https://arxiv.org/pdf/2202.02958.pdf

https://www.overfit.cn/post/dbd558cbc4ff4acbb27d81267ed4084b

作者:Monodeep

2022 年 5 篇与降维方法的有关的论文推荐相关推荐

  1. 机器学习降维方法总结

    降维在机器学习里面再正常不过了,这里总结了降维的一些方法,主要参考了陈利人老师的"数据分析领域中最为人称道的七种降维方法"(在微信公众号看到的,无法提供链接,有兴趣的可以搜索看原文 ...

  2. 传统的线性降维方法效果不佳。_机器学习西瓜书简明笔记(11)降维与度量学习...

    上篇主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means.LVQ.高斯混合聚类.密度聚类以及层次聚类算法.K-Means与L ...

  3. 大数据(线性/非线性)降维方法(PCA,LDA,MDS,ISOMAP,LLE)

    文章目录 数据块划分 特征分布 特征提取 PCA LDA MDS Isomap LLE 数据块划分 对于给定的数据集Magic(19020个样本,10个属性),我们首先将其划分为RSP数据块,然后再分 ...

  4. 可视化降维方法 t-SNE

    本篇主要介绍很好的降维方法t-SNE的原理 详细介绍了困惑度perplexity对有效点的影响 首先介绍了SNE 然后在SNE的基础上进行改进:1.使用对称式.2.低维空间概率计算使用t分布 t-SN ...

  5. 【ICLR 2022】 10篇机器学习研究论文推荐

    ICLR,即国际表征学习大会,是公认的深度学习领域国际顶级会议之一,关注有关深度学习各个方面的前沿研究,在人工智能.统计和数据科学领域以及机器视觉.语音识别.文本理解等重要应用领域中发布了众多极其有影 ...

  6. (论文阅读)2022年一些图像去雾方法的简单调研

    2022年一些图像去雾方法的简单调研 1. Self-augmented Unpaired Image Dehazing via Density and Depth Decomposition 基于密 ...

  7. 12种降维方法终极指南(含Python代码)

    12种降维方法终极指南(含Python代码) 你遇到过特征超过1000个的数据集吗?超过5万个的呢?我遇到过.降维是一个非常具有挑战性的任务,尤其是当你不知道该从哪里开始的时候.拥有这么多变量既是一个 ...

  8. 12种降维方法终极指南

    来源:Analytics Vidhya 编译:Bot 授权自 论智 你遇到过特征超过1000个的数据集吗?超过5万个的呢?我遇到过.降维是一个非常具有挑战性的任务,尤其是当你不知道该从哪里开始的时候. ...

  9. 随机森林matlab降维,七种降维方法

    之前介绍过关于降维和特征选择,这里对几种降维方法进行介绍,与之前的方法大致相同. ​1 缺失值比例 ​该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少.因此,可以将数据列缺失值大于某个阈值 ...

最新文章

  1. JavaScript基础系列---闭包及其应用
  2. CSS基础(part19)--CSS3属性选择器
  3. 利用pyhton爬虫(案例4)--你想要的图片都在这
  4. Angular HTTPClient的使用方法
  5. 解析super-smack的smack文件
  6. FutureV接口CallableV接口的使用
  7. 利用双向循环链表实现长整数的存储_重学数据结构之链表篇
  8. 控件:DataGridView列类型
  9. [导入]在vs2005中调用远程WebService(幻想曲)
  10. 电子学会图形化三级编程题解析含答案:冬天下雪了
  11. wechat实现微信聊天机器人
  12. 破解win7开机密码
  13. 回顾2017展望2018
  14. EXTJS开发过程遇到的一些问题的小结(转自麦田守望者)
  15. 温情冬至暖寒冬 花样饺子大比拼
  16. 利用powerful number求积性函数前缀和
  17. pyrcc5将resources.qrc转换成py文件
  18. 操作系统多重引导规范:Multiboot Specification 0.6.93(中文版)
  19. 思科路由器设置时区和自动重启
  20. RT-thread培训学习和心得(二)

热门文章

  1. 09_0_3_过滤器
  2. excel迷你图 vba_显示隐藏数据的Excel迷你图
  3. 八、robot framework常见错误:执行py文件报global name ‘os’ is not defined
  4. 3ds max 挤出对象的重心与对齐对齐问题
  5. C++编程题目:吉祥数 题解+代码
  6. 书论40 欧阳修《试笔》
  7. 开通微信公众号流程所需资料及时间
  8. 如何在火狐浏览器中使用迅雷下载
  9. Java数字类型转byte数组
  10. 试题 算法提高 能量项链