Google Cloud首次亮相16-GPU Ampere A100实例


在5月Nvidia推出Ampere A100 GPU之后 , Google Cloud宣布在Google Compute Engine上发布A100“加速器优化” VM A2实例系列的alpha可用性 。实例由HGX A100 16-GPU平台提供动力 , 该平台使用NVSwitch互连将两个HGX A100 8-GPU基板组合在一起 。
【Google Cloud首次亮相16-GPU Ampere A100实例】新实例家族针对的是机器学习培训和推理 , 数据分析以及高性能计算工作负载 。根据Nvidia的说法 , 具有新的张量和稀疏性功能 , 每个A100 GPU的性能都比上一代GPU提高了20倍 。
A2 VM系列提供5种配置 , 从1个到16个GPU , 具有两种不同的CPU和网络对GPU的比率 。由于Ampere的多实例组(MIG)功能 , 每个GPU可以划分为七个不同的GPU 。
AI工作量要求最高的客户将能够访问完整的16-GPU实例 , 该实例提供了总计640GB的GPU内存和1.3TB的系统内存 , 这些实例通过NVSwitch连接 , 总带宽高达9.6TB / s 。目前尚未透露A2系列的价格 , 但直接购买此硬件将花费近40万美元 , 这证明了基于云的方法的民主化力量 , 其中最新的HPC硬件的价格仅为后者的一小部分 。-需求 。
回想一下 , 虽然Nvidia的DGX A100系统配备了64核AMD第二代Eypc Rome处理器 , 但 HGX平台可以配置 AMD或Intel处理器 。Google Cloud选择了后者 , A2机器提供了12到96个Intel Cascade Lake vCPU , 以及可选的本地SSD(最高3TB) 。
在安培(Ampere)不到两个月的时间里 , Google Cloud推出了新的A2系列。这是从GPU芯片发布到云采用的创纪录时间 , 反映了在AI工作负载的推动下 , 对云中HPC的需求不断增加 。一直在稳步前进 , 以加快云提供商对最新加速器设备的实施 。Nvidia的K80 GPU花费了两年的时间才能将其导入云(AWS) , Pascal的节奏约为一年 , Volta的节奏为五个月 , 而Ampere则只有数周 。谷歌指出 , 它也是首家推出英伟达T4图形处理器的云提供商 。(Google也是 第一个使用Pascal P100 实例; AWS跳过了Pascal , 但 首先使用了Volta 。)
Google Cloud还宣布即将为Nvidia A100提供对Google Kubernetes Engine , Cloud AI Platform和其他服务的支持 。
根据Ampere发行的声明 , 我们可以预期其他著名的云供应商采用A100 , 包括Amazon Web Services , Microsoft Azure , 百度云 , 腾讯云和阿里云 。
目前 , A2实例可通过私有Alpha程序获得 , Google报告说 , 将于今年晚些时候宣布其公共可用性和定价 。

    推荐阅读