干货！如何在训练中自动识别数据中潜在的不同分布并自适应？—

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

谢轶群：

马里兰大学助理教授（地球空间信息科学），博士毕业于明尼苏达大学计算机系。主要研究方向为针对空间数据的人工智能方法，解决空间数据对传统机器学习和数据挖掘方法带来的主要挑战。相关研究结果获得包括IEEE ICDM 2021在内的最佳论文奖等。

空间数据在众多重要应用中发挥核心作用，如城市管理、交通、能源、农业、卫生等，也是解决很多全球关键挑战的基础，包括气候变化、粮食能源短缺、疫情等。随着近年采集技术的快速发展，对空间数据的获取和使用已不再是传统少数用户的特权，人工智能和海量空间数据的结合带来新的机遇。但是，空间数据也对传统机器学习和数据挖掘等方法带来独特挑战。例如，空间数据的自相关性和异质性不遵循绝大多数传统模型基于的独立同分布假设（i.i.d. assumption），并且用户通常无法获知或准确假设哪些位置具有相同或不同分布，很难使用迁移学习、元学习等方法，直接造成在实际应用中结果下降及不同位置间的冲突与公平性问题。我们将介绍针对这些挑战的最新机器学习框架，包括对数据异质性模式的自动学习与跨区域迁移等。新框架不局限于空间数据。

空间数据：变化与价值

近年来空间数据已经成为大量日常应用中必不可少的元素，如导航（Google Maps, 百度地图，高德地图等）、共享经济（Uber, Lyft, 滴滴出行等），也不断成为新热点（如Amazon’s Earth on AWS，Microsoft’s AI for Earth Initiative）。针对海量空间数据的预测和模式识别也是这些应用中一系列决策的重要基础。然而，空间数据对传统人工智能方法带来很多问题和挑战：

空间数据：挑战

1）数据异质性（不同分布） 2）基于位置的公平问题

数据异质性

• 经典假设：独立同分布 (i.i.d.)

• 独立分布（independence）：样本间不相关

• 同分布（identical）：来自于同一分布

• 适用于绝大多数机器学习模型

• 空间数据

• 空间自相关

• 空间异质性

1）假设一：独立分布（independence）：样本间不相关

• 空间自相关——不服从

• 深度学习中已被CNN、GCN等基本解决

卷积神经网络

在传统神经网络之中，我们完全忽视空间关系；而在卷积网络之中，只会考虑近处的邻居便是考虑到空间关系的示例。我们也可以由结果看到卷积网络的作用。

2）假设二：同分布（identical）：来自于同一分布

• 空间异质性——不服从

在这里，如果我们不考虑其实际的位置。从中区别雪地和其他事物是很难的，除非我们知道该事物的空间位置。比如上图中的左图为印度的盐沼，中间图片为新墨西哥州的白沙地。因为上述两个地点不可能有雪地的存在，所以我们可以判断出第三张图片才是雪地。

在空间数据带来的挑战中，异质性也被列为了挑战。

在机器学习中：

如果把空间异质性放在机器学习之中，它代表数据分布无法用一个函数或一个模型来拟合。

其中，空间中有4个不同的分布，各Φ代表从输入特征X到label的一个映射。

待解决的挑战

• 实际应用中通常不知道

• 哪些位置服从同一分布

• 哪些位置服从不同分布

• 服从同分布的区域形状复杂

• 深度学习等需要大量数据

• 一个区域的异质性模型不适用于新区域

我们通常需要大量的数据对模型进行训练，如果我们将区域分的过小则会在里面取出的样本点对分布不具有代表性，就可能出现过拟合等现象。如果我们不知道不同位置的分布，也很难使用迁移学习等方法。

干货！如何在训练中自动识别数据中潜在的不同分布并自适应？——以空间数据为例，应用不限于空间数据...相关推荐

Python之pandas：对pandas中dataframe数据中的索引输出、修改、重命名等详细攻略
Python之pandas:对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略目录对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略知识点学习输 ...
matlab提取数据的一部分,如何从matlab中的数据中提取数据？
一个问题的单线程: data = get(findobj(open('ttc_delay1000.fig'), 'Type','line'), {'XData','YData'}); 这些步骤(从内部 ...
借用继承_博物馆正在数字化，并在此过程中从数据中借用
借用继承 Data visualization is a great way to celebrate our favorite pieces of art as well as reveal con ...
在mysql中更新数据中where_SQL中使用UPDATE更新数据时一定要记得WHERE子句
Servlet访问第一次500,刷新后404的解决办法第一次运行错误:HTTP Status 500 - --------------------------------------------t ...
网络爬虫中进行数据抓取
以下内容是<用python写网络爬虫>的读书笔记一.安装firebug lite firebug lite是一个用于在网站中查看调试html,css和javascript的有效工具.它现 ...
MySQL中数组内的JSON数据中获取值
MySQL中JSON数据获取值 1.MySQL中JSON数据中获取值数据源: {"observeTruth": "111","preventHume ...
【干货】计算机视觉中的数据预处理与模型训练技巧总结
来源丨机器学习小王子编辑丨极市平台针对图像分类任务提升准确率的方法主要有两条:一个是模型的修改,另一个是各种数据处理和训练的技巧.本文在精读论文的基础上,总结了图像分类任务的11个tricks. ...
计算机视觉中的数据预处理与模型训练技巧总结
来源丨机器学习小王子,转载自丨极市平台导读针对图像分类任务提升准确率的方法主要有两条:一个是模型的修改,另一个是各种数据处理和训练的技巧.本文在精读论文的基础上,总结了图像分类任务的11个tric ...
机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当，或者模型中加入惩罚项...
机器学习中的数据不平衡问题摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行 ...

干货！如何在训练中自动识别数据中潜在的不同分布并自适应？——以空间数据为例，应用不限于空间数据...

干货！如何在训练中自动识别数据中潜在的不同分布并自适应？——以空间数据为例，应用不限于空间数据...相关推荐

最新文章

热门文章