干货!如何在训练中自动识别数据中潜在的不同分布并自适应?——以空间数据为例,应用不限于空间数据...
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
谢轶群:
马里兰大学助理教授(地球空间信息科学),博士毕业于明尼苏达大学计算机系。主要研究方向为针对空间数据的人工智能方法,解决空间数据对传统机器学习和数据挖掘方法带来的主要挑战。相关研究结果获得包括IEEE ICDM 2021在内的最佳论文奖等。
空间数据在众多重要应用中发挥核心作用,如城市管理、交通、能源、农业、卫生等,也是解决很多全球关键挑战的基础,包括气候变化、粮食能源短缺、疫情等。随着近年采集技术的快速发展,对空间数据的获取和使用已不再是传统少数用户的特权,人工智能和海量空间数据的结合带来新的机遇。但是,空间数据也对传统机器学习和数据挖掘等方法带来独特挑战。例如,空间数据的自相关性和异质性不遵循绝大多数传统模型基于的独立同分布假设(i.i.d. assumption),并且用户通常无法获知或准确假设哪些位置具有相同或不同分布,很难使用迁移学习、元学习等方法,直接造成在实际应用中结果下降及不同位置间的冲突与公平性问题。我们将介绍针对这些挑战的最新机器学习框架,包括对数据异质性模式的自动学习与跨区域迁移等。新框架不局限于空间数据。
空间数据:变化与价值
近年来空间数据已经成为大量日常应用中必不可少的元素,如导航(Google Maps, 百度地图,高德地图等)、共享经济(Uber, Lyft, 滴滴出行等),也不断成为新热点(如Amazon’s Earth on AWS,Microsoft’s AI for Earth Initiative)。针对海量空间数据的预测和模式识别也是这些应用中一系列决策的重要基础。然而,空间数据对传统人工智能方法带来很多问题和挑战:
空间数据:挑战
1)数据异质性(不同分布) 2)基于位置的公平问题
1
数据异质性
• 经典假设:独立同分布 (i.i.d.)
• 独立分布(independence):样本间不相关
• 同分布(identical):来自于同一分布
• 适用于绝大多数机器学习模型
• 空间数据
• 空间自相关
• 空间异质性
1)假设一:独立分布(independence):样本间不相关
• 空间自相关——不服从
• 深度学习中已被CNN、GCN等基本解决
卷积神经网络
在传统神经网络之中,我们完全忽视空间关系;而在卷积网络之中,只会考虑近处的邻居便是考虑到空间关系的示例。我们也可以由结果看到卷积网络的作用。
2)假设二:同分布(identical):来自于同一分布
• 空间异质性——不服从
在这里,如果我们不考虑其实际的位置。从中区别雪地和其他事物是很难的,除非我们知道该事物的空间位置。比如上图中的左图为印度的盐沼,中间图片为新墨西哥州的白沙地。因为上述两个地点不可能有雪地的存在,所以我们可以判断出第三张图片才是雪地。
在空间数据带来的挑战中,异质性也被列为了挑战。
在机器学习中:
如果把空间异质性放在机器学习之中,它代表数据分布无法用一个函数或一个模型来拟合。
其中,空间中有4个不同的分布,各Φ代表从输入特征X到label的一个映射。
待解决的挑战
• 实际应用中通常不知道
• 哪些位置服从同一分布
• 哪些位置服从不同分布
• 服从同分布的区域形状复杂
• 深度学习等需要大量数据
• 一个区域的异质性模型不适用于新区域
我们通常需要大量的数据对模型进行训练,如果我们将区域分的过小则会在里面取出的样本点对分布不具有代表性,就可能出现过拟合等现象。如果我们不知道不同位置的分布,也很难使用迁移学习等方法。
相关方法
最近,也有一些相关方法针对空间异质性问题解决的方法。比如,假设知道各位置分布的SVANN及一系列其他方法;传统的经典方法GWR进行线性拟合。而我们的方法却对其他方法存在的问题都能够做到很好解决。
2
如何训练中自动识别不同分布?
空间转化(Spatial Transformation)
我们首先需要对数据进行分组,使得每组数据具有相同的分布。这一步的目的是为了确认各种不同情况的分组并找到最优分组,观察其是否可以得到显著提升。之后的效率检测如果得到满意的效果,我们才会认可该分组。
分组优化
• 优化的标准是什么?
假设空间中的数据里不存在两个分布,所有的数据均来自于同一种分布,类似于之前的同分布假设。
• 无法直接观测数据分布,使用误差作为媒介
• 训练一套参数,在不同位置测试误差
• 如果Φ1 = Φ2, 我们期待Φ的误差在空间中相似
• 如果Φ1 ≠ Φ2, 我们期待误差在空间中不同
• 似然比(LR)最大化
• 最优分组(简化示例):
• 问题:指数倍增长的搜索空间,无法枚举
• 将指数级的搜索空间变为线性:
• Linear-Time-Subset Scanning (LTSS) property
• Coordinate ascent optimization
我们通过这些线性空间进行探索就可以确保得到最优的解。当然找到最优分组并不是我们最终的目的,因为任何数据都可以得到最优的分组。
基于训练的显著性测试
• Upper-tailed dependent T-test
• 对照组 (不分组/Base): 共享一套参数, 一起继续训练
• 实验组 (分组/Split): 私有参数,分开继续训练
• 对loss变化进行显著性检测
具体模式大概分为两种情况:一种是不分组,继续对模型进行训练。训练过程中将两组不同数据混合,共享一套参数进行训练;另一种是将数据按照最优分组分为两部分,深度学习的网络中建立两个不同分支,我们也可以对每组数据学习一种私有不同参数。
通过对loss的对比,如果我们分组可以使得效果得到显著提升,我们就继续分组;否则我们就不分组。
多层次分组:任意数量的分布
• Hierarchical Partitioning of Space
上述方法都是针对两种数据的分组,在实际应用中数据可以有任意数量的分组。我们可以把两类分组放在多层次的结构之中,就可以得到多层次的分组。
我们首先对数据做一个二分,如果咱们的分组如果可以通过显著性的检测。就继续进行划分...直到分组无法通过显著性的检测为止。这样,分布也就是均一的,不再需要进一步分组。利用多层次的结构,我们也可以对深度学习的网络进行变换。用户使用什么样子的深度学习网络不被限定,我们可以在基础网络上做多层次的变换进行训练。
如上图,可以看到在最开始的几层,参数都是被共享的。如果我们单独取出一种分支,其网络结构是和用户选择的基础网络结构一样的。通过这种特殊共享,我们可以有效减少训练的参数量。
空间协调器(Spatial Moderator)
• 将一个区域学习的异质性模型迁移到新区域
在训练空间协调器的过程中,这一部分的参数将不再被训练。空间协调器会根据我们输入的特征来决定每个分支的重要性。通过这个方法,我们就可以把模型迁移到新的区域,并让每个数据点自行决定采用什么分布进行预测。
不限于空间数据
• 分组优化的前提条件
实验结果
下面我们来看下实验结果,一个是用卫星影像做农业监测;一个是观测疫情期间的人口流动。
• 数据1: Satellite crop monitoring (California, US)
• ~80km by 80km
• X: Sentinel-2 imagery (10 bands) at 20m resolution
• y: US Cropland Data Layers
• 数据2: COVID-19 Mobility Estimation (Boston, US)
• ~30km by 40km
• X: Census, COVID-19 statistics, and policies
• y: Number of POI visits per city area (grid cell), SafeGraph
• Base network architectures
• 单点、全连接 DNN
• 时间序列 LSTM
Satellite-based Crop Monitoring卫星影像做农业监测
• F1-scores
分组可视化
• Training region训练区域
• New region新的区域
Human Mobility Projection疫情期间的人口流动
我们在这里用到了不同的多源数据,如人口普查及疫情期间的政策信息等等,预测城市中不同位置在每天会有多少的访问量。城市区域样本采用的是美国的波士顿。
• Target: Number of POI visits per city area
我们可以看出,在考虑了空间数据的异质性之后,结果也有很大的提高。
3
基于位置的公平问题
“基于位置的公平”
• 目标:减少不同位置间预测能力的偏差
假设区域中只用一个模型:
实际应用中的案例:农业监测
我们用卫星影像对各种农作物进行监测:
F1 scores:棉花分类,区域大小:80×80 km2
我们发现有些地方的精度特别高,有些地方的精度特别差。
重要性
• 如果不加控制,基于位置的“偏见”会导致或加剧不公平的资 源分配, 社会矛盾, 弱化可持续发展等
主要挑战
如果要解决上述问题,则面临着一个挑战。在传统的公平性问题中,我们可以通过如性别一类标准进行群体划分,但是空间位置是连续的而且并不存在确定的分组。
• 可塑性面积单元问题(MAUP)
• 统计结论在空间分区变化的情况下很“脆弱”
我们可以看到,不同的划分方式导致的公平性也是不同的。该问题也导致了许多社会影响,如下图的美国大选中改变选区形状来影响结果的例子。
这也进一步说明了空间分区的变化可以影响到统计的结论。
Space-As-aDistribution (SPAD)
• SPAD通过把连续空间表达为一个基于分区 的统计分布来解决统计敏感的问题
与其用一个固定的分区来表达,我们现在同时考虑几十个、甚至上百个空间分区,对每个分区都会得出一个公平性的得分。这样,我们就得出了一个公平性的分布。我们将公平性转化成分布,可以提升公平性结果分析的鲁棒性。
• SPAD通过把连续空间表达为一个基于分区 的统计分布来解决统计敏感的问题
最终,我们得到了公平性的得分。
SPAD-based Stochastic Training
然而,在训练中还是存在大量的问题。
• Baseline training
每次都考虑不同分区,计算loss都需要考虑很多问题,会引起迭代缓慢。
• SPAD-based stochastic training
我们也可以不考虑所有分区,每次采样一个分区进行训练,最后也会随机遍历所有分区,时间会大大缩短。
Bi-level Fairness Enforcement
我们之后考虑如何把公平性的loss放到训练之中。
针对上述局限,我们提出如下策略来对学习进行改善。
• Bi-level strategy
大致流程如上图所示。
实验结果
• Real-world agriculture data
• Satellite-based crop monitoring (California, US)
• ~80km by 80km • Features: Sentinel-2 imagery (10 bands) at 20m resolution
• Labels: US Cropland Data Layers
• Candidate methods
• Base: Baseline model (no fairness consideration)
• Single: Model considering only a single partitioning
• SPAD: Proposed method with stochastic and bi-level training
• REG: SPAD without bi-level strategy
• SPAD-GD: SPAD without stochastic training
整体(全局)表现
• 考虑了公平的新方法可以保持类似的全局表现吗?
如上图所示,红框里的数字说明了全局表现和基础模型实际上是一样的。通过考虑公平性,并没有牺牲模型在全局的表现。
对比: SPAD vs. Base
• 趋势: SPAD在绝大多数不同分区上都超过baseline的表现
• 图标注释
• X-axis: Partitionings (#rows, #columns)
• Y-axis: Mean absolute distances from partitions’ F1-score to the mean F1- score
如上图,我们可以看到不考虑公平性的蓝色折线比我们的红色折线效果要差很多。
• 趋势: SPAD 在绝大多数分区上的表现超过regularization方法
• 图标注释
• X-axis: Partitionings (#rows, #columns)
• Y-axis: Mean absolute distances from partitions’ F1-score to the mean F1- score
如上图,我们可以看到我们的方法在不同分区上的效果上要比regularization方法好很多。
整理:林 则
作者:谢轶群
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾350场活动,超300万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看回放!
干货!如何在训练中自动识别数据中潜在的不同分布并自适应?——以空间数据为例,应用不限于空间数据...相关推荐
- Python之pandas:对pandas中dataframe数据中的索引输出、修改、重命名等详细攻略
Python之pandas:对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 目录 对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 知识点学习 输 ...
- matlab提取数据的一部分,如何从matlab中的数据中提取数据?
一个问题的单线程: data = get(findobj(open('ttc_delay1000.fig'), 'Type','line'), {'XData','YData'}); 这些步骤(从内部 ...
- 借用继承_博物馆正在数字化,并在此过程中从数据中借用
借用继承 Data visualization is a great way to celebrate our favorite pieces of art as well as reveal con ...
- 在mysql中 更新数据中where_SQL中使用UPDATE更新数据时一定要记得WHERE子句
Servlet访问第一次500,刷新后404的解决办法 第一次运行错误:HTTP Status 500 - --------------------------------------------t ...
- 网络爬虫中进行数据抓取
以下内容是<用python写网络爬虫>的读书笔记 一.安装firebug lite firebug lite是一个用于在网站中查看调试html,css和javascript的有效工具.它现 ...
- MySQL中数组内的JSON数据中获取值
MySQL中JSON数据获取值 1.MySQL中JSON数据中获取值 数据源: {"observeTruth": "111","preventHume ...
- 【干货】计算机视觉中的数据预处理与模型训练技巧总结
来源丨机器学习小王子 编辑丨极市平台 针对图像分类任务提升准确率的方法主要有两条:一个是模型的修改,另一个是各种数据处理和训练的技巧.本文在精读论文的基础上,总结了图像分类任务的11个tricks. ...
- 计算机视觉中的数据预处理与模型训练技巧总结
来源丨机器学习小王子,转载自丨极市平台 导读 针对图像分类任务提升准确率的方法主要有两条:一个是模型的修改,另一个是各种数据处理和训练的技巧.本文在精读论文的基础上,总结了图像分类任务的11个tric ...
- 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项...
机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行 ...
最新文章
- 作为谷歌开发者布道师,我为什么要写这本通俗的《数据压缩入门》(一)
- 重读The C programming Lanuage 笔记三:简单计算器程序
- DBvisualizer free 9.2.10 升级pro版本
- MyBatis中的大于、小于、like等符号写法
- bestcoder Delete
- [网络安全自学篇] 六十四.Windows安全缺陷利用之SMBv3服务远程代码执行(CVE-2020-0796)复现及防御机理
- 大数据架构如何挑选机器.
- Codeforces 173E Camping Groups 线段树
- 水印鲁棒性的分析matlab程序,图像数字水印+matlab程序
- Rancher体系下容器日志采集
- SQL Server高级查询之常见数据库对象(触发器)第五章节
- 圣诞节PPT模板制作技巧分析
- golang 捕获堆栈信息_一篇文章教你如何捕获前端错误
- 3W咖啡商业计划书模板
- 修改linux服务器密码
- node.js仿知乎
- Bill Gekas儿童摄影作品欣赏
- 计算机专业座谈会问题,我院计算机专业开展专业抽检主题座谈会
- Java web框架
- 直接插入排序:监视哨的作用
热门文章
- flash打印纸张设置
- 《第七周RFID作业》物联112118 林家辉
- 农村商业银行服务器未收到证书,不及时更新“证书” 当心网银U盾失效
- Sklearn-GBDT(GradientBoostingDecisionTree)梯度提升树
- Excel 2010 VBA 入门 093 数据处理之建立数组
- 软件测试常见面试题一(功能测试,接口测试)
- 小能手英语口语学习笔记
- plt.plot() marker 一览表 (散点图)
- 《薛兆丰的经济学课》课程总结4--相互依赖
- 零基础学Python--机器学习(一):人工智能与机器学习概述