优化网络软件推进科学发现


高性能计算(HPC) - 使用超级计算机和并行处理技术来解决大型计算问题 - 在科学界非常有用 。例如 , 能源部(DOE)布鲁克海文实验室的科学家依靠HPC分析他们在现场大型实验设施中收集的数据 , 并模拟过于昂贵或无法通过实验证明的复杂过程 。
现代科学应用 , 例如模拟粒子交互 , 通常需要聚合计算能力 , 用于数据传输的高速网络 , 大量存储器和高容量存储能力的组合 。需要HPC硬件和软件的进步来满足这些要求 。布鲁克海文实验室计算科学计划(CSI)的计算机和计算科学家以及数学家正在与物理学家 , 生物学家和其他领域科学家合作 , 以了解他们的数据分析需求 , 并提供加速科学发现过程的解决方案 。
HPC行业领导者
几十年来 , 英特尔公司一直是开发HPC技术的领导者之一 。2016年 , 该公司发布了英特尔?至强Phi TM处理器(以前代号为“Knights Landing”) , 这是第二代HPC架构 , 每个芯片集成了许多处理单元(核心) 。同年 , 英特尔发布了英特尔?全方位路径架构 , 高速通信网络 。为了使现代超级计算机中的5,000到100,000个单独的计算机或节点一起工作以解决问题 , 它们必须能够在最小化网络延迟的同时快速地彼此通信 。
在这些发布后不久 , 最大的综合研究机构Brookhaven Lab和RIKEN汇集了他们的资源 , 购买了一台由Xeon Phi处理器和两个独立网络连接或轨道构建的小型144节点并行计算机 , 采用英特尔的Omni-Path架构 。该计算机安装在Brookhaven Lab的科学数据和计算中心 , 该中心是CSI的一部分 。
随着安装完成 , 物理学家Chulwoo Jung和CSI计算科学家布鲁克海文实验室的Meifeng Lin; 理论物理学家Christoph Lehner , 布鲁克海文实验室和德国雷根斯堡大学的联合任命; 诺曼基督 , 哥伦比亚大学计算理论物理的Ephraim Gildor教授; 爱丁堡大学的理论粒子物理学家Peter Boyle与英特尔的软件工程师密切合作 , 为两种科学应用优化网络软件:粒子物理学和机器学习 。
“自2015年宣布推出以来 , CSI一直对英特尔Omni-Path架构非常感兴趣 , ”林说 。“英特尔工程师的专业知识对于实施软件优化至关重要 , 这使我们能够充分利用这一高性能通信网络满足我们的特定应用需求 。”
科学应用的网络要求
对于许多科学应用程序 , 在并行计算机上运行一个等级(区分一个进程与另一个进程的值)或每个节点可能有几个等级比每个节点运行多个等级要高效得多 。每个等级通常作为独立过程执行 , 该过程通过使用称为消息传递接口(MPI)的标准协议与其他等级通信 。
例如 , 寻求理解早期宇宙形成的物理学家基于量子色动力学理论(QCD)进行粒子相互作用的复杂数值模拟 。这个理论解释了称为夸克和胶子的基本粒子如何相互作用形成我们直接观察到的粒子 , 如质子和中子 。物理学家通过使用代表空间三维的超级计算机和等间距点的四维(4D)晶格中的时间维度来模拟这些相互作用 , 类似于晶体 。晶格被分成较小的相同子体积 。对于格子QCD计算 , 需要在不同子体积之间的边界处交换数据 。如果每个节点有多个等级 , 则每个等级承载不同的4D子卷 。从而 , 
推动科学发展的软件优化
为了优化用于这种计算密集型科学应用的网络软件 , 该团队专注于提高单一级别的速度 。
“我们使单个MPI等级的代码运行得更快 , 因此不需要增加MPI等级来处理每个节点的大量通信负载 , ”Christ解释说 。
MPI级别中的软件利用Xeon Phi节点上可用的线程并行性 。线程并行是指在共享一些计算资源的同时执行遵循相同指令的多个进程或线程 。通过优化的软件 , 团队能够在单个级别上创建多个通信通道 , 并使用不同的线程驱动这些通道 。
MPI软件现已设置为科学应用程序 , 可以更快地运行并充分利用Intel Omni-Path通信硬件 。但是在实施软件之后 , 团队成员遇到了另一个挑战:在每次运行中 , 一些节点将不可避免地缓慢地通信并保持其他节点 。
他们将这个问题追溯到Linux(大多数HPC平台使用的操作系统)管理内存的方式 。在默认模式下 , Linux将内存划分为称为页面的小块 。通过重新配置Linux以使用大(“巨大”)内存页面 , 他们解决了这个问题 。增加页面大小意味着映射应用程序使用的虚拟地址空间所需的页面更少 。因此 , 可以更快地访问内存 。
【优化网络软件推进科学发现】通过软件增强功能 , 团队成员分析了安装在英特尔双轨“Diamond”集群和分布式研究高级计算(DiRAC)单轨集群中的英特尔Omni-Path架构和英特尔至强融核处理器计算节点的性能 。英国 。对于他们的分析 , 他们使用了两种不同的科学应用:粒子物理学和机器学习 。对于这两种应用代码 , 它们实现了近线速性能 - 理论上的最大数据传输速率 。这种改进表示网络性能的提高是原始代码的4到10倍 。
“由于布鲁克海文 , 爱丁堡和英特尔之间的紧密合作 , 这些优化在全球范围内以新版本的英特尔Omni-Path MPI实施和配置Linux内存管理的最佳实践协议提供 , ”Christ说 。“在布鲁克海文实验室的Xeon Phi计算机和爱丁堡大学的新的 , 甚至更大的800节点Hewlett Packard Enterprise”超立方体“计算机上执行物理代码的五倍加速因素现在正在得到很好的利用正在进行的关于粒子物理学基本问题的研究 。“

    推荐阅读