作者:Gianluca Malato         deephub翻译组:刘欣然

当今世界正在与一个新的敌人作斗争,那就是Covid-19病毒。

该病毒自首次在中国出现以来,在世界范围内迅速传播。不幸的是,意大利的Covid-19感染人数是欧洲最高的,为19人。我们是西方世界第一个面对这个新敌人的国家,我们每天都在与这种病毒带来的经济和社会影响作斗争。

在本文中,我将用Python向您展示感染增长的简单数学分析和两个模型,以更好地理解感染的演变。

数据收集(Data collection)

意大利民防部门每天都会更新感染者的累积数据。这些数据在GitHub上作为开放数据公开在Github这里:

https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-andamento-nazionale/dpc-covid19-ita-andamento-nazionale.csv
我的目标是创建迄今为止受感染人数(即实际感染人数加上已感染人数)的时间序列模型。这些模型具有参数,这些参数将通过曲线拟合进行估算。

我们用Python来做。

首先,让我们导入一些库。

import pandas as pd
import numpy as np
from datetime import datetime,timedelta
from sklearn.metrics import mean_squared_error
from scipy.optimize import curve_fit
from scipy.optimize import fsolve
import matplotlib.pyplot as plt
%matplotlib inline

现在,让我们看一下原始数据。

url = https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-andamento-nazionale/dpc-covid19-ita-andamento-nazionale.csv
df =pd.read_csv(url)

我们需要的列是' totale_casi ',它包含到目前为止的累计感染人数。

这是原始数据。现在,让我们为分析做准备。

数据准备(Data preparation)

首先,我们需要将日期改为数字。我们将从一月一日起开始算。

df =df.loc[:,['data','totale_casi']]
FMT ='%Y-%m-%d %H:%M:%S'
date =df['data']
df['data']= date.map(lambda x : (datetime.strptime(x, FMT) -datetime.strptime("2020-01-01 00:00:00", FMT)).days  )

现在,我们可以分析要参加测试的两个模型,分别是逻辑函数(logistic function)和指数函数(exponential function)。

每个模型都有三个参数,这些参数将通过对历史数据进行曲线拟合计算来估计。

logistic模型(The logistic model)

logistic模型被广泛用于描述人口的增长。感染可以被描述为病原体数量的增长,因此使用logistic模型似乎是合理的。

这个公式在数据科学家中非常有名,因为它被用于逻辑回归分类器,并且是神经网络的一个激活函数。

logistic函数最一般的表达式为:

在这个公式中,我们有变量x(它是时间)和三个参数:a,b,c。

•a为感染速度
•b为感染发生最多的一天
•c是在感染结束时记录的感染者总数

在高时间值时,被感染的人数越来越接近c值,也就是我们说感染已经结束的时间点。这个函数在b点也有一个拐点,也就是一阶导数开始下降的点(即感染开始减弱并下降的峰值)。

让我们在Python中定义模型:

def logistic_model(x,a,b,c):return c/(1+np.exp(-(x-b)/a))

我们可以使用scipy库中的curve_fit函数从原始数据开始估计参数值和错误。

x =list(df.iloc[:,0])
y =list(df.iloc[:,1])
fit = curve_fit(logistic_model,x,y,p0=[2,100,20000])

这里是一些值:

a= 3.54
b= 68.00
c= 15968.38

该函数也返回协方差矩阵,其对角值是参数的方差。取它们的平方根,我们就能计算出标准误差。

errors= [np.sqrt(fit[1][i][i]) for i in [0,1,2]]
·       a的标准误差:0.24
·       b的标准误差:1.53
·       c的标准误差:4174.69

这些数字给了我们许多有用的见解。

预计感染人数在感染结束时为15968+/-4174。

感染高峰预计在2020年3月9日左右。

预期的感染结束日期可以计算为受感染者累计计数四舍五入约等于到最接近整数的c参数的那一天。

我们可以使用scipy的fsolve函数来计算出定义感染结束日的方程的根。

sol =int(fsolve(lambda x : logistic_model(x,a,b,c) - int(c),b))

求解出来时间是2020年4月15日。

指数模型(Exponential model)

logistic模型描述了未来将会停止的感染增长,而指数模型描述了不可阻挡的感染增长。例如,如果一个病人每天感染2个病人,1天后我们会有2个感染,2天后4个,3天后8个,等等。

最通用的指数函数是:

变量x是时间,我们仍然有参数a, b, c,但是它的意义不同于logistic函数参数。

让我们在Python中定义这个函数,并执行与logistic增长相同的曲线拟合过程。

def exponential_model(x,a,b,c):return a*np.exp(b*(x-c))
exp_fit =curve_fit(exponential_model,x,y,p0=[1,1,1])

参数及其标准差为:

·       a: 0.0019 +/- 64.6796
·       b: 0.2278 +/- 0.0073
·       c: 0.50 +/- 144254.77

画图

我们现在有了所有必要的数据来可视化我们的结果。

pred_x= list(range(max(x),sol))
plt.rcParams['figure.figsize']= [7, 7]
plt.rc('font',size=14)## Realdata
plt.scatter(x,y,label="Real data",color="red")
#Predicted logistic curve
plt.plot(x+pred_x,[logistic_model(i,fit[0][0],fit[0][1],fit[0][2]) for i in x+pred_x], label="Logistic model" )
#Predicted exponential curve
plt.plot(x+pred_x,[exponential_model(i,exp_fit[0][0],exp_fit[0][1],exp_fit[0][2])for i in x+pred_x], label="Exponential model" )
plt.legend()
plt.xlabel("Days since 1 January 2020")
plt.ylabel("Total number of infected people")
plt.ylim((min(y)*0.9,c*1.1))
plt.show()

这两条理论曲线似乎都很接近实验趋势。哪一个更好?让我们看一下残差(residuals.)。

残差分析

残差是指各实验点与相应理论点的差值。我们可以通过分析两种模型的残差来验证最佳拟合曲线。在第一次近似中,理论和实验数据的均方误差越小,拟合越好。

y_pred_logistic=[logistic_model(i,fit[0][0],fit[0][1],fit[0][2])
for i in x]
y_pred_exp = [exponential_model(i,exp_fit[0][0], exp_fit[0][1], exp_fit[0][2]) for i in  x]
mean_squared_error(y,y_pred_logistic)
mean_squared_error(y,y_pred_exp)

Logistic模型MSE(均方误差):

251977.62

指数模型MSE:

2873584.27

哪个是正确的模型?

残差分析似乎指向逻辑模型。很可能是因为感染应该会在将来的某一天结束;即使每个人都会被感染,他们也会适当地发展出免疫防御措施以避免再次感染。只要病毒没有发生太多变异(例如,流感病毒),这就是正确的模型。

本文作者:

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,请回复“知识星球”喜欢文章,点个在看

【机器学习实战】意大利Covid-19病毒感染数学模型及预测相关推荐

  1. 机器学习实战-逻辑回归-19

    机器学习实战-逻辑回归-用户流失预测 import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',' ...

  2. 机器学习实战 | 意大利Covid-19病毒感染数学模型及预测(附代码)

    来源:DeepHub IMBA 本文约2400字,建议阅读9分钟 本文将用Python展示感染增长的简单数学分析和两个模型,以更好地理解感染的演变. 标签:机器学习 当今世界正在与一个新的敌人作斗争, ...

  3. 机器学习实战:意大利Covid-19病毒感染数学模型及预测

    作者:Gianluca Malato deephub翻译组:刘欣然 当今世界正在与一个新的敌人作斗争,那就是Covid-19病毒. 该病毒自首次在中国出现以来,在世界范围内迅速传播.不幸的是,意大利的 ...

  4. 机器学习实战:Python基于支持向量机SVM-RFE进行分类预测(三)

    文章目录 1 前言 1.1 支持向量机的介绍 1.2 支持向量机的应用 2 demo数据集演示 2.1 导入函数 2.2 构建数据集拟合 2.3 预测模型及可视化 3 实例演示分类(非SVM) 3.1 ...

  5. 【机器学习实战】线性回归之北京市住房价格预测

    文章目录 数据集读取与划分 数据集读取 数据集划分 模型训练及预测 模型评价 数据集读取与划分 数据集读取 import pandas as pd### 代码开始 ### (≈ 2 行代码) df=p ...

  6. 《机器学习实战》 Logistic回归预测患有疝气病的马的存活问题

    <机器学习实战> 实现使用Logistic回归来预测患有疝气病的马的存活问题: 结果截图: 完整代码: # -*- coding: utf-8 -*- # @Time : 2021/6/2 ...

  7. 【李宏毅《机器学习》2022】作业1:COVID 19 Cases Prediction (Regression)

    文章目录 [李宏毅<机器学习>2022]作业1:COVID 19 Cases Prediction (Regression) 作业内容 1.目标 2.任务描述 3.数据 4.评价指标 代码 ...

  8. Python3《机器学习实战》学习笔记(八):支持向量机原理篇之手撕线性SVM

    原 Python3<机器学习实战>学习笔记(八):支持向量机原理篇之手撕线性SVM 置顶 2017年09月23日 17:50:18 阅读数:12644 转载请注明作者和出处: https: ...

  9. 机器学习实战笔记(Python实现)-03-朴素贝叶斯

    --------------------------------------------------------------------------------------- 本系列文章为<机器 ...

最新文章

  1. 一致性Hash算法(KetamaHash)的c#实现
  2. Respo 快速入门
  3. 历数玩转光伏的IT巨头们
  4. 【学习笔记】JAVA IO与NIO(new IO)的对比与不同IO模型的理解
  5. pmp每日三题(2022年3月4日)
  6. Cloud一分钟 |2018天猫双11结果出炉:2135亿;工信部透露:6G概念研究也在今年启动;英特尔39款至强新处理器曝光...
  7. jq ajax异步上传文件,jQuery插件ajaxFileUpload异步上传文件
  8. 标签页 html实现,htmlcssjs实现tab标签页示例代码.pdf
  9. centos7源码安装mysql8.0_CentOS7下源码安装MySQL 8.x
  10. vs2012 编译cocos2d-x项目报error MSB3073
  11. 安装VCSA6.5(vCenter Server Appliance 6.5)
  12. 不要NoSQL/NewSQL,也不要分区,直接分库分表!
  13. luogu P3802 小魔女帕琪
  14. 电脑显示器黑屏故障全解析
  15. 记忆拼图游戏设计及完整代码
  16. android提权工具包,安卓手机root权限一键提权工具_kingroot PC V4.8.5 免费版
  17. Loding缓存展示的写法-vue3
  18. 网易2018校园招聘:重排数列 [python]
  19. openwrt 抓取流量包
  20. 『AidLux工业检测PaaS平台』轻松解决AI工业质检换产难问题!

热门文章

  1. 如何获取空对象的类型
  2. 条款14:在资源管理类中心copying行为(Think carefully about copying behavior in resource-manage classes)...
  3. 博客美化20150418
  4. xfce4 菜单文件
  5. 提高计算机系统性能的方法或者技术,互联网内容审计系统性能优化方法的研究-计算机科学与技术专业论文.docx...
  6. python采集修改原创_python应用系列教程——python中ftp操作:连接、登录、获取目录,重定向、上传下载,删除更改...
  7. 屏幕录像专家详细安装教程
  8. 语音信号之特性分析图(二)
  9. 弱引用使用场景桌面_面试|再次讲解Threadlocal使用及其内存溢出
  10. excelvba怎么设置不打开文件自动保存_自从有了这个工具,我的Office操作已经快到慢不下来了!(升级篇)...