微软的ZeRO-2与深度速度训练神经网络高达1700亿个参数


微软今天升级了它的DeepSpeed库 , 用ZeRO-2训练大型神经网络 。微软表示 , 内存优化技术能够训练1700亿个参数的机器学习模型 。就背景而言 , 英伟达庞大的威震天语言模型是当今世界上最大的语言模型之一 , 拥有110亿个参数 。
【微软的ZeRO-2与深度速度训练神经网络高达1700亿个参数】今天的声明是在DeepSpeed库2月份的开源发布之后发布的 , 该库用于创建Turing-NLG 。Turing-NLG拥有170亿个参数 , 是目前世界上已知的最大的语言模型 。微软在2月份推出了零冗余优化器(Zero)和DeepSpeed 。
ZeRO通过减少数据并行中的内存冗余来实现其结果 , 这是另一种将大型模型放入内存的技术 。ZeRO-1包含一些模型状态内存优化 , 而ZeRO-2提供了激活内存和片段内存的优化 。
DeepSpeed是为跨多台服务器的分布式模型训练而设计的 , 但ZeRO-2也在单GPU上对训练模型进行了改进 , 据报道 , 训练模型如谷歌的BERT提高了30% 。
更多细节将在周三由微软首席技术官凯文·斯科特(Kevin Scott)发表的主题演讲中宣布 。
这一消息是在微软全数字构建开发者大会开幕之际发布的 , 会上宣布了多项人工智能开发成果 , 包括用于机器学习中的差异隐私的WhiteNoise工具包 , 以及用于人工智能工业应用的盆栽项目 。
上周 , 英伟达CEO黄延森发布了Ampere GPU架构和A100 GPU 。新的GPU芯片——以及多模态模型和大规模推荐系统等趋势——将在未来几年引领更大的机器学习模型 。

    推荐阅读