根据PLOS One上发表的一项研究,在对50万英国生物银行参与者的研究中,包括深度学习和随机森林在内的机器学习方法极大地提高了诺丁汉大学团队预测过早死亡的能力。
该研究由助理教授兼研究科学家Stephen F. Weng博士率先进行,旨在通过开发和报告新颖的预后模型以补充现有技术,将机器学习整合到传统的流行病学工作中。两年前,同一团队报告发现机器学习模型可以将心血管疾病预测的准确性提高约3.6%。
Weng和合著者写道:“在大数据时代,机器学习可以潜在地改变医疗保健,提供诊断评估方法并个性化与临床医生同等或优于临床医生的个性化治疗决策,这令人非常乐观。” “使用机器学习开发的应用程序和算法所面临的挑战不仅是增强传统方法可以实现的目标,而且还要以类似透明和可复制的方式开发和报告它们。”
对于他们目前的工作,研究人员考虑了502,628名40至69岁的成年人,他们的健康信息已于2006年至2010年期间记录在UK Biobank中。他们使用人口统计学数据并考虑到生物特征识别,临床和生活方式因素,开发了预测死亡率模型,学习,随机森林和Cox回归。
根据研究小组的结果,将近3%的研究人群在累计随访3,508,454人年期间死亡,并且死亡率数据与国家记录相符。基于年龄和性别的Cox模型(一种传统的风险预测方法)具有最小的预测性,曲线下面积(AUC)为0.689,其次是多变量Cox回归模型,该模型可将6.2%的辨别力提高AUC为0.751。
应用随机森林进一步将判别力提高了3.2%,AUC达到0.783,深度学习模型最成功,从多元Cox回归方法获得的辨别力为0.790,再提高了3.9%的判别力。
两种机器学习算法(分别是随机森林和深度学习)与准年龄和性别Cox回归模型相比,分别提高了9.4%和10.1%的辨别力。虽然两种机器学习方法都达到了相似的判别水平并进行了很好的校准,但Cox回归模型始终高估了风险。
“研究表明,使用机器学习来探索各种个体临床,人口统计学,生活方式和环境风险因素的价值,以产生使用标准方法无法实现的新颖而整体的模型,” Weng等人。说过。“这项工作表明,在开发用于预后或诊断的模型时,应更常规地考虑使用机器学习。”
这组作者说,下一步包括在更广泛的人群中验证这些方法,并将其集成到医疗保健系统中,以及探索其他机器学习模型(例如支持向量机或梯度提升)如何参与风险预测。
他们写道:“机器学习模型组成的有趣变化可以为潜在的重大风险因素提供新的假设生成,否则这些风险因素将无法被发现。” “然后,可以专门设计流行病学研究,并相应地进行验证,以验证这些信号。”