第一生活网

杜伦大学将在 COSMA7 超级计算机上测试 Rockport 网络

荆岩忠
导读 杜伦大学计算宇宙学研究所 (ICC) 是 COSMA 系列超级计算机(宇宙机器的缩写)的所在地。COSMA——现在是第八次迭代,COSMA8——自 2001

杜伦大学计算宇宙学研究所 (ICC) 是 COSMA 系列超级计算机(“宇宙机器”的缩写)的所在地。COSMA——现在是第八次迭代,COSMA8——自 2001 年以来一直致力于回答宇宙的基本问题。然而,在其间的几十年里,计算宇宙学已经发展——现在,杜伦大学正在与 Rockport Networks 合作测试ICC 工作负载的无交换机网络。

网络与宇宙

COSMA HPC 服务负责人 Alastair Basden 在接受 HPCwire 采访时解释说:“我们基本上专注于对宇宙的巨大模拟,从大爆炸开始,随着时间的推移传播宇宙,随着时间的推移不断演化等等。”“然后我们所做的就是将这些模拟的输出与我们用望远镜看到的结果进行比较。当然,使用望远镜,你看的越远,你就可以有效地回顾过去——所以我们能够查看模拟的不同阶段,比较不同时间的那些,并真正建立大量统计数据关于我们的模型与我们实际看到的宇宙统计数据的匹配程度。”

“当然,现在,如果我们要模拟整个宇宙,在数以万计的计算核心上运行需要几个月的计算时间,”他继续说道。“我们还……对内存有很高的要求,当然,引力——对我们来说很不幸——是一种长程力,所以这意味着[如果]你有模拟宇宙一部分的节点,它们就是实际上受到模拟宇宙其他部分的其他节点(甚至是很远的节点)的影响。因此,它们之间有很多信息共享,这就是网络对我们如此重要的原因。”

在 ICC 测试 Rockport

进入罗克波特网络。Rockport 成立于 2012 年,提供无交换机网络,其中节点直接连接到其他节点而不是交换机。Rockport 吹捧这种解决方案更具可扩展性和更低的延迟,从而缩短工作负载完成时间并降低能源成本。“[用于 HPC 系统的] 网络在 20 年甚至 30 年内确实没有改变——使用相同的架构,”Rockport Networks 首席技术官 Matt Williams 说。“这带来了很多挑战,因为计算和存储正受到那个相当旧的架构的瓶颈。”

一年多来,ICC 一直在 DINE(达勒姆智能 NIC 环境)上测试 Rockport 硬件,这是一个 24 节点的系统,Basden 将其描述为“非常具有实验性”。ICC 在其中 16 个节点上安装了 Rockport Networks,并一直在对结果进行基准测试。

“我们没有对标准 HPC 基准代码之类的 HPL 或 HPCG 进行基准测试,而是一直在研究主要的特定科学工作负载,”Basden 说。“我们运行这段代码,然后人为地添加拥塞,所以这是为了模拟嘈杂的邻居——其他代码将同时运行做其他事情,比如从存储中提取数据或写入快照。”