Facebook、纽约大学合作研发AI模型, 可利用X射线预测新冠患者病
发布日期:2021-02-03 14:53:59编辑:音乐人
近日,Facebook和纽约大学的研究人员宣布,他们已经研发了三种机器学习模型,旨在帮助预测新冠肺炎患者的病情发展趋势。这些开源的模型,只需要利用X光就可以提前四天预测病情走势以及患者可能需要补充的氧气量,它们在这方面的表现优于人类专家诊断结果。
新冠肺炎的阴霾还没有散去。就在上周,美国单日新冠肺炎死亡人数首次超4000人。每天数十万的感染人数使美国全国的医疗系统承受着巨大压力,一些州的重症监护病房已经运行在超负荷的边缘。
利用X光研发算法并不是什么新鲜事了,汇医慧影、阿里巴巴、Radlogics、Lunit、DarwinAI、推想科技、Qure.ai和其他一些公司已经开发过这方面的AI算法。从表面上看,这些算法可以用X射线高精度诊断新冠肺炎。
不过, Facebook和纽约大学此番研究的不同之处在于,他们试图预测长期的临床轨迹,所以采取了和上述不同的方法。
斯坦福大学、西奈山医院、电子病历供应商Epic和Cerner也开发过一些模型,可用于预测患者死亡率或需要使用呼吸机的几率,得出风险评分。前期的尝试多种多样,但很少达到仅通过扫描电子病例就做出预测的水平。
MoCo模型与X射线:提前96小时的精准预测
在与纽约大学朗格尼医学中心的预测分析部门和放射科的合作中,Facebook研究人员利用一种名为动量对比(Moco)的自我监督学习技术,对两个大型、公开的胸部X光数据集MIMIC-CXR-JPG和CheXpert进行了人工智能系统的预培训。即使这些扫描标签没被解释,MoCo模型也能在X射线的数据集上学习。
Facebook使用了纽约大学新冠肺炎数据集的扩展版本来微调MoCo模型。研究人员用4914名患者的26838张X射线图构建了分类器,并对其进行注释,以表明患者的病情是否会在扫描后的24、48或72小时内恶化。
研究一共使用了两种分类器,一种分类器根据单个X射线预测患者病情,另一种分类器则使用聚集的X射线序列判断。
研究人员表示,基于一系列X射线图像的分类器能提前96小时预测出ICU需求、死亡率和恶化情况,它在这方面的表现优于人类专家诊断结果。
虽然这些研究结果并不一定适用于其他医院的数据集,但研究人员相信,可以用相对较少的资源(单一的GPU)从MoCo模型建立新的分类器。
“基于X射线的模型能够预测病人是否需要吸氧,并帮助医院在未来几周或几个月内决定如何分配资源。当前,全球新冠肺炎形势再次严峻,医院在分配资源时需要模型来预测随时会爆发的激增,并为此做好准备。”Facebook研究团队在一篇博文中写道。“同时,这些预测能够避免没有痊愈的患者被过早送回家。”
算法的失衡:数据集的不对等导致潜在危害
不过,多伦多大学、向量研究所和麻省理工学院最近的研究表明,用于训练诊断模型的胸部X光数据集——包括MIMIC-CXR和CheXpert——都表现出某种程度上的失衡,使它们偏向于某些性别、社会经济和种族群体。
论文入口:https://arxiv.org/pdf/2003.00827.pdf
尽管数据集中的女性比例仅略低于男性,但女性患者的差异程度最高。
在整个数据集中,白人患者占了大多数(基本占到了67.6%),是模型最喜欢的一组数据,而西班牙裔患者则是最不受青睐的数据组。
Facebook和纽约大学的研究人员表示,他们对非新冠肺炎病人的数据进行预训练,并仔细选择每个测试样本来解决这种偏见。
但在去年早些时候,美国疾病控制与预防中心建议不要使用CT扫描或X射线进行新冠肺炎诊断,这是因为,即使是最好的人工智能系统,有时也无法分辨出新冠肺炎与常见的肺部感染(如细菌性或病毒性肺炎)。
由于多家技术持有者不愿意发布代码、数据集和技术,目前用于训练人工智能诊断疾病算法的大部分数据可能导致不平等现象的长期存在。
一个英国科学家团队发现,几乎所有的眼病数据都是来自北美、欧洲和中国的患者,这意味着,眼病诊断算法对其他种族群体是否有效尚不能确定。
在另一项研究中,斯坦福大学的研究人员称,美国大部分涉及人工智能医疗用途的研究数据主要来自加州、纽约和马萨诸塞州。而且,越来越多的研究表明,皮肤癌检测算法用于黑人患者时往往不那么精确,部分原因是,人工智能模型主要以浅肤色患者的图像为训练对象。
要确定Facebook和纽约大学的算法究竟有多可靠,可能需要在全世界多个不同的医疗系统中进行彻底的测试,而且要征得患者的同意。发表于《自然》杂志(Nature)子刊《自然-机器智能》(Nature Machine Intelligence)上的一项研究显示,把在武汉成功应用的新冠肺炎模型拿到纽约的样本上运行时,产生的结果却糟糕透顶。
通过微调模型,Facebook和纽约大学的算法也许可以避免在同样的问题上翻车,但算法的失衡可能会出现在哪里?这是不可预测的。这也再次强调了美国医疗系统在大规模启用模型之前需要进行必要的检测和审核。