新冠肺炎已经在世界范围内广泛传播,严重影响着人们的日常生活。面对新冠肺炎,人为干预的空间隔离手段(如限制出行或集中隔离)已经被证明其有效性。但是,确诊病例的统计往往是滞后且粗粒度的,比如对于尚未确诊的患者他们的传染过程并没有被考虑,因此直接通过各区域的确诊病例建立时空预测模型的方法效果不佳。基于此,研究人员提出了一种跨城市迁移的新冠肺炎高危社区发现框架,该框架能够从人类移动数据与区域特征对地块的隐式传播性进行建模,并能够将在疫情爆发的源城市中学习到的知识迁移到疫情未爆发目标城市,用于当地高危社区的检测。经过大量的实验证实,该框架在城市高危风险社区早期检测问题上非常有效。

论文题目:C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak

一、背景介绍

隔离能够有效阻断新冠病毒感染者的空间活动,以此限制新冠病毒的传播,该方法已经被广泛证实有效。一般地,当地政府根据各社区感染者的数量与传播模式,将潜在风险地区设为隔离社区。但是该方法往往是低效的,原因有三:1)确诊病例的统计滞后,导致尚未确诊的病例,如长期潜伏感染者和无症状感染者没有被纳入监管;2)确诊病例的详细出行历史并不能总是被清楚地调查到,通常会通过更粗粒度空间(如区县粒度)进行隔离,带来不必要的经济损失;3)现有方法通过已知现有病例分析预测未来趋势依赖于本地的数据积累,爆发初期并不适用。

为了解决这些问题,本文提出了一种支持跨城市迁移的新冠肺炎高危社区检测框架,通过建模各社区的移动模式与传染病传播的关系来评估社区是否高危。其中,作者设计了一个基于对抗表示学习的模型实现知识的跨域迁移。

二、问题定义

给定疫情爆发的源城市各个小区的特征,标签和疫情未爆发的目标城市各个小区的特征,计算对应小区的标签,标签为二分类,该小区为高风险区域,则y为1,反之同理。问题形式化表示为:

三、特征构造

文中选择三组特征用于建模社区的模式,包括POI信息,该社区画像与出行相关的特征。

对于POI信息,直觉上,作者认为社区周围的基本生活设施可能与居民感染新冠存在相关性。比如,一个缺乏基础生活设施的社区可能面临高风险,因为居民为了生活可能需要走更远,面临更大的感染风险。此外,基础设施较差的社区往往缺乏良好的物业管理,这也可能导致较高的感染风险。为了描述这些生活设施相关特征,作者构建了15个POI半径特征。每个特征表示为当前社区到最近种类的POI的距离。并且,利用一组二元特征来描述社区一公里内是否包含所有必要的基础设施(如医院,公交站等)。通过统计在武汉收集的数据显示,如图1(a),不同的二元特征下高低风险社区的比例存在显著差异。

对于社区画像,鉴于新冠的传播方式,人口密度将是一个描述风险的重要指标。从图1(b)可以看出,武汉市平均高危社区的人口密度确实高于低风险社区。此外,每个社区的平均通勤距离,不同的居民群体都暗示了不同的风险水平。例如,老年人和儿童更容易被感染。受教育程度高的居民可能更重视科学预防。因此,根据社区居民的属性,文中构建了13个社区画像特征,11个用户属性特征,2个社区统计特征。

图1 特征分布

出行相关的特征考虑 T (transportation)、OD (origin & destination venues)和OTD (origin-transportation-destination pattern)三种。T表示出行方式,如私家车、公交车等。OD指出发地与目的地的类型与距离。OTD指特定出行方式下的OD对,作者选择所有城市最经常出现的20类OTD作为基准,按照各类的频率作为特征。

四、算法框架

如图2,展示了C-Watcher中跨城市迁移学习模型的网络结构。一般地,不同城市的社区模式不同,为了使知识能够从源域迁移到目标域,跨城市迁移学习模型被设计用于学习源域与目标域的不变知识,而不是那些源城市特有的特征。模型输入源城市与目标城市的社区特征,图中、和分别代表源城市的POI特征、社区画像特征与转移特征。

图2 算法框架

模型采用编码器解码器结构,通过对抗的方式训练。为了学习城市间的不变性,作者利用对抗性学习,通过判别器来识别编码器的输出是否属于目标城市。同时,为了限制模型的表示空间对目标任务(高危社区识别)的适应性,作者引入了重构结构进行约束。

城市不变性表示学习

考虑图2中编码器到判别器这一支路。编码器对输入的社区特征分布和进行空间变换,分别得到和,和是不同城市的不同分布,为了缩小分布之间的差异,我们采用对抗的方式对模型进行训练。对应图中的difference loss 和 cheat loss。形式化表示为:

注意,这里的对抗是传统GAN的一个引申,不同域类比传统GAN中的真实数据与生成数据。cheat loss是对抗损失,用于引导编码器把不同域的所有特征聚集到一起让判别器无法辨别,从形式上表示两个域上分布的熵,想令熵减,即结果分布更稳定。difference loss是一个二分类交叉熵,用于判别输入判别器的特征是来源于源城市还是目的城市。两个loss虽然被形式化表现到一起,但是实际上训练时是交替训练的,当我们训练编码器时,整个支路使用cheat loss,反之同理。在这样的迭代中,编码器试图学习到城市不变性(共有的模式)阻碍鉴别器区分。这种对抗性过程最终会达到一种平衡状态,即鉴别器不能再区分编码的表示是来自源城市还是目标城市,由此编码器能够从原始输入和中提取城市的不变性。

约束嵌入空间

考虑图2中编码器到解码器这两条支路。城市不变性表示学习的一个问题在于,如果没有规定和限制编码器的嵌入空间,源城市的表示和目标城市的编码表示可能只是分布相似但没有保留与任务相关的特征。作者采用多任务学习的策略解决了该问题,通过增加重构网络和感染风险预测组件来对模型的优化方向进行约束。重构损失和最终预测损失形式化表示如下:

最后框架总的损失函数为上述各损失的加权和:

参考城市验证机制

C-Watcher的另一个问题是如何选择最佳的超参数来训练模型。这里作者构建了一个参考城市验证机制来调整超参数。如图3所示,作者在源城市集合上训练C-Watcher模型,并使用参考城市的真实值作为验证数据来选择超参数。参考城市可以是源城市,也可以是一些疫情暴发但没有源城市严重的城市。最后作者在地理位置上选择与参考城市相近的目标城市评估预测性能。这样可以确保模型在目标城市中以最佳超参数工作,而不需要任何确诊病例和传播趋势相关的先验信息。

图3 参考城市验证机制

五、实验结果

论文以中国的新冠感染者统计数据作为数据集,详情如表1所示。

表1 数据集

其中,中心城市数据集以武汉为基础构建的。深圳、长沙、成都、上海和郑州作为各自省份的重点城市作为参考城市。对于每个参考城市,作者分别选择了地理上接近的两个城市构建测试数据集。

实验采用AUC作为评估指标,并通过基线与C-Watcher之间的两两t检验计算p值,展示结果的统计学显著性。由于新冠肺炎高危社区检测的相关工作较少,作者对比了SVM,XGB, Lasso-R 与 MLP四种baseline。实验结果如表2,可以看到在CWatcher在多个城市上取得了最好的结果,相较于基线有较大提升。

表2 模型性能对比

此外,作者分析了20个对模型预测性能影响最大的20个特征,结果如图4所示。对于POI特征,除了社区周边基础设施是否完善的影响,P:RTS的系数表明距离火车站较远可以降低社区的风险。在社区画像特征上,除了人口密度高外,较长的平均通勤距离(D:ACD)也增加了社区的风险。关于出行相关的特征,作者发现步行出行的百分比(T:TW)可以很大程度上降低社区的风险。

图4 特征对性能的影响

同时,作者还比较了不同组特征对结果的影响,结果如表3:

表3 不同组对性能的影响

六、结论

本文研究了社区新冠肺炎感染风险预测问题。首先,作者构建了一组包含人类流动性的特征,以描述人类活动和居住社区的空间相互作用,然后提出了一种跨城市的新冠肺炎高危社区发现框架C-Watcher,以在当地疫情爆发前早期检测城市中的高风险社区。为了提高目标城市的感染风险识别性能,C-Watcher采用对抗学习的思路,学习城市不变性,并将其泛华到目标城市上。最后,作者使用真实数据进行了大量实验,结果展示C-Watcher在城市早期检测高风险社区方面的优势。文中对于地块移动性的建模与对跨域数据的迁移应用具有指导意义。

关注公众号,回复AAAI2021CWatcher,下载论文

转载请注明:康瑞部落 » ​AAAI 2021:一种跨城市迁移的新冠肺炎高危社区发现框架

AAAI 2021:一种跨城市迁移的新冠肺炎高危社区发现框架相关推荐

  1. 三种治疗新冠肺炎中药颗粒获批上市

    记者今天从国家药品监督管理局了解到,国家药监局通过特别审批程序应急批准中国中医科学院中医临床基础医学研究所的清肺排毒颗粒.广东一方制药有限公司的化湿败毒颗粒.山东步长制药股份有限公司的宣肺败毒颗粒上市 ...

  2. 新冠肺炎疫情下,智慧城市可以起到怎样的作用?

    ​智慧城市核心是"智慧",城市像人一样有智慧.智慧城市主要就是靠大数据的能力来实现"智慧",它具有强大的分析能力.那么,在这次的新冠肺炎下,如果是充分利用智慧城 ...

  3. 用 X 光检测新冠肺炎?也许孪生网络+迁移学习是更好的选择!

    始于2019年的新冠肺炎仍然肆虐全球,快速低成本检测该疾病成为了医学技术领域最热门的话题,早已有专家发现,核酸+胸部医学影像检测相结合是更可信的检测手段. 胸部X光影像是低成本的检测技术,但深度学习往 ...

  4. 新冠肺炎疫情数据爬取以及几种简单的地图可视化方法

    众所周知,新冠肺炎疫情是一次很流行的全球性公共卫生事件.如今我国疫情已经好了许多,但世界各国的疫情依然严峻.特殊时期,正好尝试一下疫情网络数据的抓取,并用几种python库对数据进行简单的地图可视化( ...

  5. 中国各城市首轮新冠感染高峰期预测

    公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 近日,我对中国台湾地区.中国香港特别行政区和日本的感染情况与 "发烧" 搜索指数进行了分析,发 ...

  6. 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取

    文本的基本特征可以由内容以及与内容无关的一些形式诸如字符的数量.句子的数量.每个词的长度.标点符号等.在R语言中,textfeatures包提供了从字符对象中提取这些基本特征的便捷方法,而且使用起来极 ...

  7. 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

    在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量.基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘.在实 ...

  8. 带你了解2021世界人工智能大会上的AI新趋势

    计算机视觉研究院专栏 作者:Edison_G 7月10日,以"智联世界,众智成城"为主题的为期三天的2021世界人工智能大会(WAIC 2021)在上海圆满落幕. 长按扫描二维码关 ...

  9. 2021年新能源汽车行业造车新势力专题研究报告

    核心观点 我们预计中国新能源汽车 2021-2025 年间销量年均合复增长率将达到 34.2%.得益于 1)补贴政策的延长和 2)双积分政策的推动等政策利好,我们预计中 国新能源汽车的销量将在 202 ...

最新文章

  1. html中怎么隐藏复选框,隐藏复选框字段HTML
  2. android流量控制的实现,Android系统中P2P应用数据包捕获及流量控制研究
  3. POJ1904 强联通(最大匹配可能性)
  4. C++ 继承和派生 及 学生管理范例
  5. Git--团队开发必备神器
  6. php jcrop,PHP结合JQueryJcrop实现图片裁切实例详解
  7. 压缩感知(I) A Compressed Sense of Compressive Sensing (I)
  8. 全球及中国速冻菠萝市场消费潜力及供需前景调研报告2021-2027年
  9. java 微信转账 ca_error_C#关于微信红包开发问题:CA证书出错,请登录微信支付商户平台下载证书...
  10. js清空文本框的值_一个Vue.js实例控制字变大变小,含样式操作,flex布局。「603」...
  11. open***2.3.12安装与easy-rsa3的使用
  12. python 文本框内容变化_监听文本输入框内容值的改变——4种方法
  13. mysql 360 atlas_360 Atlas中间件安装及使用
  14. java高手之路上的必备基础知识
  15. Hibernate重附(Reattach)和合并(Merge)操作的比较
  16. 色差(color diffference)在不同颜色空间下的计算方式
  17. Linux基础入门到精通之虚拟机中安装Linux系
  18. 2019年的每一天日更只为等待她的出现,好好过余生,庆余年 | 掘金年度征文
  19. 机器视觉中的光源选型及打光方案分析
  20. 房租租赁租房系统都包含哪些功能?

热门文章

  1. 常见模板开启HTTPS后网站访问排版错乱
  2. python 包含语句_如何检查句子是否包含Python中的某个单词然后执行操作?
  3. TimeVallee时光天地在海南开设首个免税精品店;张雨绮出任I Do克拉定制代言人 | 美通企业日报...
  4. Vue2 steam移动端作品介绍
  5. HLS(High-Level Synthesis)详解——循环体并行优化
  6. 转载:北京积分落户门槛有多高?首批6019人公示
  7. 《CPU自制入门》笔记——第二章 电路板的设计与制作
  8. 函数生成的ALV的按钮列表 .
  9. 健身中心专用捷径管理系统加人脸识别
  10. ADPCM文件解码详解