原文:Spadon, G., de Carvalho, A. C., Rodrigues-Jr, J. F., & Alves, L. G. (2019). Reconstructing commuters network using machine learning and urban indicators. Scientific reports, 9(1), 1-13.

原文链接:https://www.nature.com/articles/s41598-019-48295-x

Personal note

经典的SIM考虑到的用于预测flows的变量较少(距离、人口规模),这篇主要是考虑了更加复杂的变量(22个urban indicators),并且引入了机器学习,来对城市与城市之间的flows进行预测,并且分析这些indicator的重要程度。

Abstrac

Background

人员流动对社会的各个层面都有重大影响。一般将系统表示为一个复杂的网络,physics-inspired model(eg. the gravitation models,the radiation models)被用于对从一个城市迁移到另一个城市的人数进行建模。尽管这些模型取得了进步,但预测通勤人数和重建移动网络的能力仍然有限。

Contribution

使用ML和22个城市指标来预测人流,并重建城际通勤网络。

Results:

  • 基于ML和城市指标的预测准确率高达90.4%,方差为77.6%(类似于R方?)。
  • 确定了恢复网络结构的基本特征和与通勤模式最相关的城市指标:距离国内生产总值(GDP)失业率等是人们通勤的主要驱动力。

Significant of this study

  • 本研究为migration建模提供了新的思路,并强化了城市指标在通勤模式中的作用。
  • 由于链路预测和网络重建仍然是网络科学中的公开挑战,结果在其他领域也有影响,如经济学、社会科学和生物学,其中节点属性可以为我们提供关于连接网络中实体的链路存在的信息。

Introduction

人类每天都要移动。

对Human movement进行建模的重要性:

  • to better allocate resources
  • to improve the impacts of human activities in the community (nearby people) and the environment (cities and nature)

Human movement与社会之间相互影响。

所以,对Human movement进行预测可以:

  • help improve daily human activities with better urban planning
  • help policy-makers with more informed decisions to intervene in the disease spreading and crime

physics-inspired models的缺点

一般都是将系统看做一个spatial complex network,然后用physics-inspired model来预测network的edge的weight(flows)。这些模型的假设:从一个node到另一个node的人数随着它们之间的距离而衰减,并且与这些node的人口数量成比例(即描述其公式)。但是,这个假设不太能准确描述人员流动,因为其他因素(基础交通网络、社会经济方面和交通拥堵)也会增加或减少流动性,而不仅仅只有距离和人口数量。一般情况下,这些模型对于flows的预测不会很准确,而且当面对sparse mobility network的时候会高估node所连接的edges数量。因此这些限制导致这些模型经过校准之后不太能generalize到其他data来进行预测。不太能重建humam mobility network。

基于网络的Link prediction

link prediction在Network science中受到的关注挺多。大多数有关link prediction的研究是评价node之间的相似性(指标有:中心度、最短路径),并且提出缺失的link(以此来重塑网络,方法有:贝叶斯推断etc)。

上述提到这些network-based metrics和基于meta-data attributes(如:人口规模和距离)的预测模型有着很大的区别。

基于meta-data attributes的预测模型

in the context of social contact networks,有着很多这种模型的应用。

本研究的重点就是将node的attributes作为input data来生成一个用于预测link的模型,这个模型比较generalize,可以fit其他数据集

Related research and gap

最近很多有关人与城市的数据都是公开获取的(big data),如GPS轨迹数据、人口规模数据。这些数据加快了有关human mobility的研究(子领域包括:transportation networks、commuters networks和network models of migration)。

另一方面,城市指标也有很多应用(被用来描述城市的规模、衡量城市的表现、不同城市之间的相似性、以及描述与犯罪有关的现象)。

然而,关于human mobility与城市指标(失业率、GDP等)之间的联系的研究很少。这种联系体现在:了解这些指标对个人日常通勤选择的影响,有助于我们预测不同地区之间的人员流动,重构通勤网络结构。

这个research gap导致我们提出了本文要研究的问题:在考虑更加复杂的指标(indicators)的情况下,如何量化/建模城市之间通勤的人数?

Methods

(吐槽一下,Nature子刊SR(Scientific Reports)Figure/Fig都不统一呀)

Classical:State-of-the-art models

  • Gravitation Model
  • Radiation Model

问题:现实中-sparse network;模拟出来:a fully connected network

使用OLS来校准这两个模型,然后使用两个指标(R方Pearson相关系数)来评价这两个模型预测的能力。

ML:Alternative modelling using machine learning

  • Classification:使用二元分类,用于判断一个link存在与否
  • Regression:用于预测每对node之间的flow大小

Classification

基于两个node之间的距离、人口规模来进行二元分类。

首先,the holdout approach:将数据按照7:3分为training和testing data
然后,取样方法:stratified k-fold cross-validation

如何寻找合适的分类器?从scikit-learn和eXtreme Gradient Boosting(XGBoost)库中找了34个分类器进行模拟,最终选择了其中的27个(有一些分类器没法fit),然后根据accuracy score选择了XGBoost这个分类器。

Regression

选择XGBoost,R方为73.1%,经过hp tuning后,提升到77.6%,Gravitation 和 Radiation Model要高很多。

(吐槽错误:Figure5没有C)

Interpreting ML

ML提高预测准确度的代价是模型难以解释。

使用SHapley Additive exPlanations(SHAP)来判断indicator的重要性。对于SHAP的分析有助于我们理解城市指标和距离如何影响个人的决策过程,以及是什么让人们从一个地区移动到到另一个地区工作。

分析结果:有四个变量在classifier和regressor中都很重要:距离、GDP、Area和Traffic accident·1

(看完了记录下:)




文献阅读笔记 | Reconstructing commuters network using machine learning and urban indicators相关推荐

  1. 【文献阅读笔记】KAM Theory Meets Statistical Learning Theory: Hamiltonian Neural Networks with Non-Zero Trai

    文章发表于[2022]AAAI Technical Track on Machine Learning I 文章目录 文章目的 一.主要内容: 1.用统计学习理论证明哈密顿神经网络的训练模型是原系统的 ...

  2. [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW

    [文献阅读笔记]Machine Learning DDoS Detection for Consumer Internet of Things Devices 2018 IEEE SPW 1.INTO ...

  3. 文献阅读笔记----TieNet: Text-Image Embedding Network

    文献阅读笔记----TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reportin ...

  4. 货运服务网络设计:经典文献阅读笔记(3)复现Netplan

    **货运服务网络设计:经典文献阅读笔记(2)**提到说要把Crainic T G(1984年)文献使用的模型复现一下,但是文章给出的通用框架还是太笼统,在尝试后决定使用Jacques Roy & ...

  5. 【知识图谱】本周文献阅读笔记(3)——周二 2023.1.10:英文)知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

  6. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  7. 文献阅读笔记:Smart Homes that Monitor Breathing and Heart Rate

    文献阅读笔记:Smart Homes that Monitor Breathing and Heart Rate Fadel Adib Hongzi Mao Zachary Kabelac Dina ...

  8. 《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结

    <基于区块链技术的虚假新闻检测方法>文献阅读笔记+总结 关键词:区块链.智能合约.虚假新闻.新闻网站.博弈论 来源 题目 时间 作者 中国学术期刊网络版 <基于区块链技术的虚假新闻检 ...

  9. 研究生如何做文献阅读笔记

    ** 研究生如何做文献阅读笔记 ** 研究生如何做文献阅读笔记? 说实在的,我自己也不是很会读书.读书的速度也不快,只是喜欢读书罢了.阅读文献,对于开题期间的研究生和写论文期间的研究生是很重要的功课, ...

最新文章

  1. Asp.Net 之 通过调用 WScript.Shell 启动本地 exe 程序时产生“ automation服务器不能创建对象 ”的错误...
  2. 查看数据库表使用空间大小
  3. Scrum联盟发布《2016年度Scrum状态调查报告》
  4. beanfactorypostprocessor_Spring源码分析(六)容器的扩展点(BeanFactoryPostProcessor)
  5. Flink SQL Client注册SCALA UDF完整流程
  6. 2017届-应届毕业生-兆芯 GPU architecture design校招在线笔试题
  7. 数据结构的java实现
  8. Java队列Disruptor 的使用
  9. 使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题
  10. CF1313C2 Skyscrapers (hard version) -单调栈优化dp
  11. submit 和 button的区别
  12. Android使用开源框架完成城市列表三级联动(从服务端获取数据源和自定义json数据源)
  13. jxl创建excel加水印
  14. Linux中级(七)SAMBA文件服务器
  15. 谈谈 2020 年程序员收入报告
  16. 深度学习训练之optimizer优化器(BGD、SGD、MBGD、SGDM、NAG、AdaGrad、AdaDelta、Adam)的最全系统详解
  17. 2021-3-31 git提交代码的命令及流程
  18. 讷于言而敏于行_百度百科
  19. 因该如何搭建自己的网校系统呢?
  20. 开源一个微信小程序,支持蓝牙配网+WiFi双控制ESP32-C3应用示范;(附带Demo)

热门文章

  1. eclipse里把Servers视图弄出来
  2. 一款适合减压放松的小游戏
  3. 机器人厨房、透视冰箱、可穿戴空气净化器…CES 2021还有哪些新奇特?
  4. 我的世界服务器宝石系统指令,《我的世界》作弊码大全 MC当中所有的指令总汇...
  5. 2020最火网络新词英文_2020年最流行的话 2020最火网络新词
  6. 手机录音m4a怎么转换成mp3
  7. 计算机冯诺伊曼体系结构和哈佛体系结构区别和处理器性能评判标准
  8. APP开发者如何来实现视频聊天室功能
  9. SVN:One or more files are in a conflicted state
  10. 802.11ac协议白皮书阅读笔记