首页 > 其他分享 >业余开源项目训练出最准确新冠预测机器学习模型

业余开源项目训练出最准确新冠预测机器学习模型

时间:2023-06-10 11:33:01浏览次数:33  
标签:SEIR 机器 projection 开源 covid 新冠 业余 模拟器

file

什么样的机器学习项目会被美国疾控中心CDC、纽约时报、经济学人杂志等多家机构和媒体所引用提及,还被Facebook的Chief AI Executor称为最准确的新冠死亡预测模型?这就是今天要给大家分享的covid-projection——一个来自一名普通美国华裔数据科学家的的业余开源机器学习项目。

covid-projection的作者Gu Yougang在中国出生,儿时随父母移民美国,2015年才从MIT毕业。他本科取得了电气工程与计算机科学专业和数学专业的双学位,硕士则在MIT人工智能实验室的自然语言处理组完成了他的毕业论文。他在疫情期间萌生了对于新冠疫情预测的兴趣,于是在业余时间结合自己的专业所长发起了这个开源项目。在2020年四月到2021年3月的短短一年时间里,该项目实现了对全美五十个州以及全球70个国家的新冠疫情预测,其模型精确度甚至超过华盛顿大学健康指标与评估研究所(Institute for Health Metrics and Evaluation)这样专业科研机构的相关工作,因此受到了美国及全球近百家媒体和机构的关注及报道。

covid-projection构建模型的方法非常朴素,首先它实现了一个基于SEIR传染病模型的模拟器,然后引入机器学习算法及约翰霍普金斯大学等医疗机构发布的新冠历史数据来对其进行优化。优化的过程与机器学习中的hyperparameter tuning非常相似,是利用机器学习或搜索算法来自主的选择模拟器的参数组合,然后将这些参数代入模拟器产生一定时间内的模拟数据。再通过将模拟数据与真实的历史数据进行比较,就可以确定下一次迭代的参数组合调优方向。经过多轮的训练,最后得到的SEIR模拟器就可以被用来产生未来一段时间内的新冠趋势模拟数据,以此实现预测的目的。

SEIR是传染病的基本数学模型之一。S取自Susceptible,指的是还没有阳过的易感人群;E取自Exposed,就是我们常说的密接、次密接人群;I取自Infectious,指新冠感染者;最后的R取自 Recovered,即阳过的康复者。经历过新冠疫情的我们对于这些流行病学术语一定不会陌生,SEIR也其实就是用来描述这四类人群相互之间转换的路径和概率的数学模型。covid-projection的模拟器就是这一模型的计算机程序实现。

当我第一次看到covid-projection这个项目的时候,真的是感觉眼前一亮,有被惊艳到的感觉。新冠是一场影响到全人类、波及到全世界的大型传染病,他对人类文化进程的影响可能不会亚于中世纪的黑死病。在我们的印象中,新冠这样的大型公共卫生事件所涉及的研究工作,似乎只能够由国家或者大型的科研机构来主导。但covid-projection的作者却既不是资深的学者,也不是行业的大牛,只是一位充满热情和公益精神的年轻数据科学家。

技术在改变和影响我们当下生活的过程中确实扮演着重要的角色,但同样重要的还有在生活中发现真正问题的能力,这是我自己在过去的学生生涯中非常缺失的一点,这也正是我从covid-projection的作者身上看到的闪光之处。即使它所解决的问题随着疫情的结束而不再那么重要,即使这个项目在GitHub上最终仅仅收获了300多个赞赏,但它同OpenAI这样的大型知名项目体现了一样的创新精神,从某些角度来说甚至更加的难能可贵。

牛顿在1664年回乡躲避席卷欧洲的第二次鼠疫大流行,其在苹果树下的思考发现了万有有力定律。covid-projection的作者Gu Yougang在2020年的新冠大流行中与医学结缘,如今还在世界卫生组织担任着咨询顾问的志愿工作。相信我们每个人都能够在每一天里找到那个利用自己的专业知识改变自己人生轨迹的契机。


file

可交互的可视化机器学习开源教程 - https://github.com/ocademy-ai/machine-learning

标签:SEIR,机器,projection,开源,covid,新冠,业余,模拟器
From: https://blog.51cto.com/u_16156831/6454290

相关文章

  • 业余开源项目训练出最准确新冠预测机器学习模型
    什么样的机器学习项目会被美国疾控中心CDC、纽约时报、经济学人杂志等多家机构和媒体所引用提及,还被Facebook的ChiefAIExecutor称为最准确的新冠死亡预测模型?这就是今天要给大家分享的covid-projection——一个来自一名普通美国华裔数据科学家的的业余开源机器学习项目。covid......
  • 干货|开源OLAP引擎(ClickHouse、Doris、Presto、ByConity)性能对比分析
    随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。 因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP引......
  • 基于 AIGC,RocketMQ 学习社区探索开源软件学习新范式
    作者:寒斜AIGC持续火爆全球,越来越多的场景开始接入并体现非凡的价值。其中应用广泛的场景之一就是智能知识问答,它改变了人们学习的方式,从阅读式到问答式,让知识的获取更加精准有效。开源软件拥有着广泛的求知群体,AIGC+社区的结合是学习型社区未来演进方向上的一个新颖的尝试,今天我......
  • BBA EDI项目数据库方案开源介绍
    近期为了帮助广大用户更好地使用EDI系统,我们根据以往的项目实施经验,将成熟的EDI项目进行开源。用户安装好知行之桥EDI系统之后,只需要下载我们整理好的示例代码,并放置在知行之桥指定的工作区中,即可开始使用。今天的文章主要为大家介绍BBAEDI项目,了解如何获取开源的项目代码......
  • 大数据可视化开源平台,一招让数据资源活泛起来!
    在现代化办公环境中,数据资源也是非常重要的一种发展要素。有不少朋友会私信我们询问道:如何将企业内部的数据资源利用起来,真正发挥其价值为我所有?在这里,推荐大家了解大数据可视化开源平台,这是可以为企业做好数据管理、实现流程化管理的低代码开发平台。1、做好数据资源的重要性身......
  • 从开源到云原生,时序数据库 TDengine 六年回顾精彩纷呈
    2023年6月6日,涛思数据旗下时序数据库(TimeSeriesDatabase)TDengine迎来六周年庆典,并于北京·保利国际广场T2举办了主题为“TDengine6thAnniversary:BacktoTheFuture”的庆典活动,设置了「TDengine」时序照片亭、「TDengineDatabase」主题鸡尾酒、寻找TDengine等诸多有......
  • Excelize荣获2022年中国开源创新大赛一等奖
    近日,“2022年中国开源创新大赛”正式发布了获奖名单,Excelize电子表格文档开源基础库荣获一等奖。2022年中国开源创新大赛在乌镇世界互联网大会上正式启动,大赛由中央网信办信息化发展局指导,中国互联网发展基金会、中国网络空间研究院、中国互联网投资基金联合主办,北京长风信息技术......
  • 从开源到云原生,时序数据库 TDengine 六年回顾精彩纷呈
    2023年6月6日,涛思数据旗下时序数据库(TimeSeriesDatabase)TDengine迎来六周年庆典,并于北京·保利国际广场T2举办了主题为“TDengine6thAnniversary:BacktoTheFuture”的庆典活动,设置了「TDengine」时序照片亭、「TDengineDatabase」主题鸡尾酒、寻找TDengine等诸多......
  • Cloudflare 推出新的开源软件赞助计划
    导读知名CDN服务商Cloudflare推出新的开源软件赞助计划。早在2018年Cloudflare首次启动了开源软件赞助计划,但当时Cloudflare赞助的开源软件大多是“对内部开发有利”的项目。今年最新的开源软件赞助计划扩大了赞助范围,任何非营利的开源项目都可以报名申请。......
  • 云原生时代Go最受欢迎Web开源框架Gin原理与实战
    @目录概述定义特点概览导图使用快速入门HTTP方法使用参数获取参数绑定自定义日志输出自定义中间件路由组HTML渲染设置和获取CookieXML、YAML、ProtoBuf渲染使用BasicAuth中间件静态文件和BootStrap使用Session写入日志文件原理核心执行流程核心数据结构概述定义Gin官网地址......