设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 288|回复: 1

关于疫情,我们的不靠谱预测

[复制链接]
发表于 2020-2-10 16:27:22 | 显示全部楼层 |阅读模式
关于疫情的预测,网上已经有相当量的推测与评估。作为非医学专业非科班出身的一员,基于对统计学的一些理解,我们想和你聊聊,关于疫情,我们的不靠谱预测。

之所以说是不靠谱预测,是由于数据的限制和模型的局限,众多复杂因素(如人口流动、地理交通等)未能完全被覆盖,加上政策干预和药物研发对疫情走势的影响等等,我们的模拟仅基于当前研究估计的参数和有限的数据开展,例如模型所用到的基本传染数R0,不同科研人员估计的具体数值存在着一定的差异,本文只引用了其中一组科研团队估计的R0,因此结果仅供参考。

但虽然说是不靠谱预测,其实我们在预测、模拟的过程中,也是经过不断尝试、验证、推理,从而逐步探索出哪些方法更加合理、更能反映实际情况,力图帮助大家得到相对科学、靠谱的结果。希望通过建模思路的展现,邀请更多数据分析人士加入讨论,更加全面地、科学客观地评估新型冠状病毒肺炎的传染性强弱、预测患病人数规模等。


数据的选择——以武汉为探索对象
自2019 年年底第一例新型冠状病毒(2019-nCoV)肺炎发生以来,疫情迅速扩散至全国各省以及全球。直至文章发布前为止(2月7日),两个月以来,我国已经确诊31211例,国外确诊243例。其中,武汉市迄今已经确诊了11618例,占全国的1/3以上。因此,本文将以武汉市的疫情数据为基础,从数据分析的角度,运用JMP软件分别构建传染病动力学的SIR模型和SEIR模型,对疫情的扩散进行模拟。

SIR模型和SEIR模型是当下传染病动力学中常用的两个预测模型。不了解医学或者统计学的朋友也不要被模型的名称吓到,且跟着我们一探究竟。我们先来看看SIR模型。

预测模型初探索——SIR模型
要开展预测模拟,首先要对模型有个基础的认识。这里我们不对理论和方程做过多的阐述。根据SIR模型的理论,SIR将人群分为三类:
  • 易感人群(Susceptible)
  • 感染人群 (Infective)
  • 康复人群(Recovered)



如上图所示,易感人群、感染人群和康复人群数量的转换关系如下:
  • 易感人群与感染人群接触时被传染,传染率为β。传染率控制着疾病传播的速度。
  • 感染人群以康复率γ代表恢复或死亡。如果D表示感染持续时间,则γ=1/D。


基本传染数R0(Basic Reproduction Number)是指没有干预的情况下,在一个全部是易感人群的环境中,平均一个感染者可以传染的人数。从动力学的观点来看,基本传染数R0可以表示为


了解了模型的基本原理后,接下来看看如何利用SIR对疫情传播进行建模。

首先,需要估计出准确的参数 β、γ 。由于一般病毒性肺炎恢复周期为2-3周,考虑到确诊病例被隔离后失去传染性,可以归入康复人群。恢复期D确定为 14 天,所以 γ = 1/14。

由于 1 月 23 日武汉实施“封城”,暂停了市内的所有公共交通,关闭了大部分公众场所,大大减少了人与人之间的接触机会。参考SARS(“非典”)的基本传染数R0为2到4,随后的控制措施将这一比例降低到0.4。预计采取这些干预措施后,接触的人减少为预期的1/10,因此模型以1 月 23 日为分界点,之前以早期无干预下的传染率β作为输入,之后以β/10作为输入。

那么早期传染率β的数值如何估计呢?我们尝试了以下两种方法:

1.  根据早期的疫情数据估计。
在疫情早期有 N ≈ S,简化模型后以“封城”之前的历史数据做非线性拟合可得β=0.205,输入原始模型运行结果如下:

从上图可以看到,假设R0=2.87、β=0.205(从封城前的历史数据拟合得到)和γ = 1/14(大概估计恢复期为14天),SIR模型预测武汉累计感染人数只有900多例,而现在武汉确诊病例已达11618例,显然模型的预测比实际的情况要少得多。

为什么会有如此大的偏差呢?这可能是因为疫情初期尚未研发和普及快速检测试剂,大量感染病例没有被及时地检查出来,确诊人数不能代表真实的感染人数,所以根据确诊的历史数据拟合得到的感染人数偏少,不符合实际情况。

那么第二种方法是否更胜一筹呢?

2.  根据研究报告估计的R0推测β
根据Read等研究人员估计新型冠状病毒肺炎的R0[1]是3.6-4.0, 故选取R0=3.6, 4.0
根据R0=β/γ,计算得β=0.257, 0.286,输入模型运行结果如下:



假设R0=3.6, 4.0(来自于Read等人的研究报告[1]),β=0.257, 0.286, 和γ = 1/14(大概估计恢复期为14天),SIR模型的结果显示,疫情在1月23日开始干预后逐步得到控制,3月上旬趋于稳定,不会再有大规模的增加,累计感染人数将达1万至4万之间。此结果比较符合现实数据,所以根据研究报告的R0推测出来的β看起来似乎比较合理。

事实的确如此吗?不是。这里我们不能忽略的一点是,由于新冠病毒存在无症状的潜伏期,而SIR模型没有考虑潜伏期。所以第二种模拟的结果也可能存在一定的偏差。也就是说,基于现有条件完全套用SIR模型是不靠谱的方式。

那么有没有更靠谱、更理想的模型呢?显然,把潜伏期作为潜在因素考虑进去的SEIR模型就要靠谱得多了。

预测模型之再探索——SEIR模型
在SEIR 模型中,假设人群分为四类:
  • 易感人群(Susceptible)
  • 潜伏人群(Exposed)
  • 确诊人群 (Infective)
  • 康复人群(Recovered)  





SEIR模型是在SIR模型的基础上考虑了潜伏期。如上图所示,发病形式是潜伏、感染,然后痊愈的一个过程。其中σ 为从潜伏到确诊隔离的速率。σ = 1/T, T为潜伏时间。

根据中国疾病预防控制中心编写的《新型冠状病毒感染的肺炎公众防护指南》,新型冠病毒的潜伏期为2~14天,平均7天,因此σ =1/7。β的取值根据Read研究报告的R0 [1]推测出来,γ的取值与SIR 模型相同。

看起来似乎万事俱备,我们是不是拿起来SEIR模型就可以用了呢?答案仍然是否定的。这是因为SEIR模型虽然考虑了潜伏期,但它假定潜伏期不具有传染性,而基于新冠病毒在潜伏期也可传染的事实,我们对模型进行了修正,修正后的模型预测结果如下:

假设R0=3.6, 4.0(来自于Read等人的研究报告[1]),β=0.257, 0.286, 和γ = 1/14(大概估计恢复期为14天),修正的SEIR模型的结果显示,由于采取政策干预,疫情在1月23日开始干预后逐步得到控制,虽然之后感染人数仍然上升,但到3月下旬将趋于稳定,不会再有大规模增加,武汉市的累计感染人数将达2万至7万之间。

那么这个预测结果又是否靠谱呢?我们又做了进一步的探索和尝试,即通过海外国家从武汉撤侨数据的样本以及武汉市外的样本倒推武汉市的预计感染人数。

双重验证——从海外国家撤侨数据反推
根据网络数据显示,日本、德国、韩国和新加坡从武汉撤离的侨民中感染比例是1.39%[2],但这些侨民不是随机地从武汉总人口里采样,侨民可能聚居或者经常来往,甚至在撤侨过程中存在交叉感染的风险,会提高这个群体的感染率。从统计学的角度看,侨民是有偏采样,以这个小样本数据直接反推武汉市的总体感染人数会有一定的偏差。假设武汉市的感染比例是上述四国侨民感染比例的一半0.695%(纯个人不靠谱的猜测,可能与实际差异较大),则武汉市的感染人数是6万左右。

参考武汉市的流出人口和武汉市外的感染数据,假设武汉市的感染比例和武汉市外的感染比例相同(因为人口流动和地理环境因数,各地方的感染率应该是不一样的,这里只是为了简单的估计之用),则武汉市的感染人数是3.5万,从而估计出武汉市的感染人数在3.5万至6万之间,符合上面SEIR模型给出的预测范围,也从侧面印证了SEIR模型是更靠谱的一个模型。

以上就是我们居家隔离探索实践出来的不靠谱预测,这些预测结果完全基于几个重要的假设条件得到,因此一定非常不靠谱。我们的目的不在于找到一个精确的预测结果,而在于分享给大家:在有限的条件下,如何尽可能利用有限的数据,在统计及数学模型的帮助下,开展合理推测。

我们坚信,在党和政府的领导下,本次疫情一定会被战胜!我们祝福武汉,祝福湖北,愿所有被感染者早日康复!
参考资料:
[1] J. M. Read, J. R. E. Bridgen, D. A. T. Cummings, A. Ho, C. P. Jewell, Novel coronavirus 2019-nCoV: early estimation of epidemiological parameters and epidemic predictions, Preprint in MedRXiv 2020.
[2]https://mp.weixin.qq.com/s/AnPGGSQDtQ-4bzdqiirvQw
更多数据分析相关干货、JMP实用技巧、JMP最新活动,敬请关注JMP官方微信公众号:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2020-2-16 13:41:44 | 显示全部楼层
不过是什么做数据分析,都一定要先保证数据的真实,测量系统分析是合格后再做后面的工作,不然只能是garbage in garbage out.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603 )  

GMT+8, 2020-8-15 18:42 , Processed in 0.314274 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表