经过多年的突破性科学探索 阿贡的米超级计算机即将退休

2019-12-31 16:43:40    来源:    作者:

Mira,这台 10 PB触发器 IBM Blue Gene / Q超级计算机于2012年在美国能源部(DOE)的阿贡国家实验室 首次启动,将于今年年底退役。

当一位珍贵而受人尊敬的同事快退休时,同事们会为自己的辛勤工作和勤奋工作所取得的成就和成就彰显自己的情感。事实证明,对于达到使用寿命极限的超级计算机而言,情况同样如此。

Mira,这台 10 PB触发器 IBM Blue Gene / Q超级计算机于2012年在美国能源部(DOE)的阿贡国家实验室 首次启动,将于今年年底退役。它的工作跨越了七年多,交付了 39年。60 亿个核心小时,涉及 800多个 项目,解决了从药理学到天体物理学等科学领域近乎棘手的问题。

“米拉肯定会被错过,”阿贡领导计算设施(主管Michael Papka说ALCF),一个 美国能源部 科学办公室用户的设施,房屋米拉。“服务作为我们的主力超级多年,米拉是心爱 ALCF 用户社区以及我们的应对大科学问题,以及其卓越的可靠性能力的员工。”

领导级别的超级计算机是Argonne在IBM Blue Gene体系结构系列中的第三个也是最后一个系统,该系统 始于实验室5的部署 。2005年推出了7 teraflop的Blue Gene / L机器 。紧随其后的是Intrepid,这是一款 557兆位触发器的 IBM Blue Gene / P系统,从2008年 到2013 年为 科学计算社区服务 。当Mira在 2012年上线时,当时只有 20岁 是Intrepid的三倍,因此为研究人员提供了一种工具,使人们有可能以前所未有的规模进行仿真,并创建更精确的模型,从内燃机到血流的一切。

米拉仍可用于开放科学中最强大的系统中,坐在数 22 最近在 TOP 500 是世界上最快的超级计算机名单。当Mira首次发布时,它被列为第三快的系统,并荣登“绿色500强” 榜单,该榜单认可了世界上最节能的超级计算机。它还是Graph 500 列表中排名第三的系统,该方法 侧重于超级计算机处理数据密集型应用程序的能力。

使Mira如此高效和节能的必要进步之一包括直接用装有水的管道冷却机器,而不是将空气吹到切屑上。“水冷却更快地让您有机会从芯片带走大量的热量更比空气冷却,”苏珊·科格伦说 ALCF 项目总监谁领导米拉的开发和部署在阿贡。

为了使Mira能够解决可能最具挑战性的问题,其设计师需要重新考虑超级计算机的外观。以前的超级计算机都是用功能越来越强大的处理器构建的,但是最终工程师限制了每个内核中可以容纳多少个晶体管。答案是以IBM Blue Gene体系结构的形式出现的,该 体系最终产生了Mira,并在单个节点上安装了16个内核。

“ Mira是Blue Gene多核架构产品线的巅峰之作,它提供了前所未有的强大功能和可靠性,” Coghlan说。

Mira的近50个,000个 节点中的每个 节点都像神经细胞一样起作用,以光速将信息通过光纤电缆传递到机器的其他部分。以最佳配置组织这些连接以减少计算机不同部分交换信息所花费的时间,这是设计超级计算机的一项基本挑战。

“是什么使米拉因此在解决这些复杂的科学挑战非常有效的一个重要组成部分是机器是如何有效地能够在其节点进行通信,”格利扬(库马尔)库马兰,在技术总监说 ALCF。“即使在不同的模拟,在系统的不同部分同时运行,米拉能够通过隔离流量为每个作业以消除通信的干扰。”

Mira的光纤网络几何结构称为互连,可以像州际公路系统一样路由来自每个节点的信号。互连的复杂性是由于引入了额外的尺寸而导致的,这些尺寸会缩小信号需要覆盖的总空间。Blue Gene架构的早期版本具有更简单的互连,但是Mira的确是一项成就。根据ALCF科学总监Katherine Riley的 说法,当前没有现成的技术可以替代Mira的互连并具有竞争力。

从某种意义上说,Mira互连的独特拓扑结构将使其难以被提供大量纯计算能力的未来系统取代。“七年后,大多数时候人们是完全准备好进入到下一个平台,因为它会在做各种各样的科学家们希望解决的问题,以便更有效,”莱利说。“但坦率地说,这不是与米拉的情况下-这是一个令人难以置信的强大,有竞争力的制度,即使它没有那么大的计算,其效果是如此之好,这将是积极地使用,直到最后一分钟。”

Mira的另一个显着方面是研究人员的数量和种类繁多,他们能够利用需要使用其所有节点的大规模仿真来利用系统的全部计算能力。在Mira的整个生命周期中,ALCF 用户已经在Mira上 进行了700多次 全机运行,研究范围从宇宙学到材料科学。

“许多超级计算机通常在一生中就只运行一次完整的机器运行,以后再也不会运行,但是我们的用户经常在Mira上运行它们,” ALCF的运营总监Mark Fahey说 。“那米拉能够处理定期这些全机工作的事实证明了其卓越的可靠性。在其他大型系统上,通常在全机运行期间少数处理器出现故障或宕机,这可能会阻止用户首先尝试使用它们。”

当米拉被退役,阿贡国家实验室的现任领导级的超级计算机,西塔,将作为该实验室的主要系统为开放式科学到即将推出的百亿亿次机,极光,在到达 2021。

尽管ALCF 用户和员工都会错过Mira ,但即使关闭电源,该系统仍将对科学产生持久影响。从大规模的实验设施研究和宇宙学调查到加速新材料和候选药物的发现,Mira开展了许多突破性的研究,这些研究将科学的界限推向了各个学科。

一台机器“一在十亿次”模拟

七年来,Mira被用于处理从微小到宇宙的科学问题。瑞士大型强子对撞机(LHC)的科学家们花费了数年的时间从​​他们的实验中生成许多PB的粒子碰撞数据,而回到Argonne的研究人员一直在Mira上进行模拟,以测试亚原子宇宙的不同模型如何符合观测结果。

“以前,我们有很多努力在像Mira这样的超级计算机上运行代码之前就遇到了很多麻烦,其中包括检测模拟中非常罕见的事件,”曾担任ATLAS 实验物理协调员的Argonne高能物理学家Tom LeCompte说。 在 LHC。“在模拟中,非同寻常的事件迅速类似普通的事件,所以你必须通过很多很多看似平常的事件排序找到他们。”

网格计算(用于高能物理应用的超级计算的前身)的挣扎在于,它一次只能容纳这么多的碰撞,因此某些模型提出的模拟事件无法记录,而实际上却不存在。

LeCompte说:“有了Mira,看到正在发生的事情就变得容易多了-您会发现自己并没有真正遇到过失败,看到这些十亿分之一的事件实在是罕见得多。” “如果你正在寻找一个‘黑天鹅’,你不得不看更多的白天鹅与黑天鹅出现前的能力。”

然后,将模拟中的这些黑天鹅事件用于验证或无效由理论和实验产生的数据。Mira使粒子物理学家能够快速运行整个模型,以确定它们如何无法真正描绘出现实。

大型强子 对撞机 每年大约发表 150篇论文 ,其中一半用于寻找新的物理学。“作为实验者,我们可以做的是使用在米拉产生地说,这些事件“这一理论可能是正确的,这个其他的理论是不正确的,这第三个理论是正确的一组特定的参数,” LeCompte说。“我们真的可以测试数据和理论的协议,因为我们了解的背景比以前我们开始寻找米拉好得多。”

尽管迄今为止还没有任何模型能够完全代表实验中看到的所有物理学,但Mira仍在帮助科学家发展更好的理论。“虽然这本来是很好的挑选赢家马上蝙蝠,米拉使我们能够改进我们的假设,我们的模型,以更接近一个更准确的解决方案,”勒孔特说。“我们既产生更高的冲突数量和较高质量的碰撞比我们以前都做过。”

Mira的其他直接优势之一在于,可以很容易地将最初为网格计算应用程序编写的代码修改为可在超级计算机上工作。“这是真的,我们怎么能做出这样的运行,以做最好的科学,我们不是可以使代码运行在所有的问题较多,”勒孔特说。

从某种意义上说,Mira使具有特定领域专业知识的科学家能够按照他们熟悉的方式解决计算问题,而不必仅仅为了启动和运行而解决大量其他计算机科学难题。“我是一个物理学家,而不是计算机科学家,米拉是第一个机器,通常是可供选择,让我想想就像一个物理学家的问题,”勒孔特说。

随着Mira使用寿命的结束,LeCompte反映出该机器已成功解决了其设计所面临的所有挑战。“大部分可以与需要解决的问题 10 -petaflop计算机已经解决,”他说。“现在是时候让那些需要的问题, 1000 -petaflop电脑。”

这些问题将涉及大型强子对撞机的大量附加数据 (可能多达10 到 20倍) ,据LeCompte称,这将为新科学打开更多机会。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。