如此众多的化石,如此之短的时间—训练人们对其进行识别。
随着科学家们努力应对大量待定的海洋化石积压,由耶鲁大学领导的国际组织已开始使用机器学习技术来解决研究海洋最丰富的生命形式的研究人员面临的艰巨任务。
由耶鲁大学地质学家Pincelli Hull实验室领导的研究小组 建立了一个自动化系统,可以浏览大量浮游生物化石图像并正确识别单个物种。这项新技术代表着科学家评估过去和现在全球生态变化对浮游生物的影响的能力的重大提升。
一项宣布这项技术的研究发表在《古海洋学和古气候学》杂志上。
“数以百万计地球上的物种,以及数百万更在化石记录中,有太多几个分类学专家,以确定他们,这样我们就可以理解这样的关键事情,物种和生态系统如何应对气候变化,说:”赫尔,该研究的资深作者。
赫尔补充说:“在这里,我们通过汇集全球分类学家的专业知识来解决此问题,从而创建了一个重要的浮游生物群体的最大图像数据库(按物种级别识别)。” “然后,我们使用机器学习技术来训练计算机做同样的事情。”
从进行地球化学研究到了解海洋中物理过程的复杂,相互联系的动力学,识别浮游生物是海洋古生物学许多领域的核心。例如,可以对它们进行分析以重建海面温度,盐度和某些大气值。然而,鉴于缺乏可用于培训学生浮游生物分类学的资源,事实证明难以识别单个浮游生物种类进行研究。
赫尔和她的同事们开始了一个雄心勃勃的计划,以对这种情况做些事情。他们通过一个名为Endless Forams的在线门户网站 (“ forams ”是有孔虫的简称,这是一种有着悠久化石记录且可追溯到亿万年的悠久历史的单细胞生物)汇集了34,000多种典型浮游生物物种图像的数据库。 通过在公民科学平台Zooniverse上托管的培训门户网站。这些图像来自耶鲁大学皮博迪自然历史博物馆和伦敦自然历史博物馆的藏品。
接下来,研究人员使用机器学习技术,训练了计算机模型来识别浮游生物。表现最佳的模型能够正确识别87.4%的物种。
赫尔说:“这真的很令人兴奋,因为它既可以自动化也可以标准化一项重要任务。” “它在保留分类学专家的关键知识的同时,提高了科学的可重复性。”
该研究的主要作者是前耶鲁大学博士后的艾莉森·香(Allison Hsiang),他现在在瑞典自然历史博物馆。该研究的合著者来自英国,德国,法国,荷兰和美国的机构。
研究人员指出,使用监督式机器学习技术回答生物学问题提出了独特的挑战。监督图像分类的大多数应用用于许多不同的目的,例如实时识别自动驾驶系统的对象或识别手写字母和数字。研究人员说,同样,某些机器学习识别技术,包括翻转和旋转图像,对于识别分类法可能是成问题的,需要仔细实施。例如,对某些化石的识别取决于其壳被缠绕的方式,并且如果图像被翻转或旋转将发生变化。
耶鲁大学皮博迪自然历史博物馆生物多样性信息学和数据科学负责人纳尔逊·里奥斯(Nelson Rios)说:“我们的最终目标是让专家掌握更多数据。” “能够评估气候随时间的变化并了解物种的反应非常重要。”
赫尔补充说:“这个项目一直是我研究小组的长期目标之一,我们很高兴看到这些结果。”