5300亿参数，SOTA屠榜！最大NLP预训练模型新王登基，微软英伟达联手称霸

来源：Microsoft Nvidia

编辑：好困小咸鱼

啥？NLP预训练模型的规模又被刷新了？

就在昨天，微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

大！真的大！

MT-NLG汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验。

作为微软Turing NLG 17B和英伟达Megatron-LM的后继者，MT-NLG的参数量是现有的最大英文语言生成模型（GPT-3）的3倍，并在各种自然语言任务如：完形填空、阅读理解、常识推理、自然语言推理、词义消歧中纷纷屠榜。

基于105层Transformer的MT-NLG在zero-shot、one-shot和few-shot方面对现有的SOTA模型进行了改进。

近年来，在大规模计算、大数据集以及训练模型的先进算法和软件的推动下，基于Transformer的语言模型在自然语言处理(NLP)任务中硕果连连。

因为具有更多模型参数、更多训练数据和更多训练时间，语言模型获得了对语言更丰富、更细致的理解。因此，它们在许多自然语言处理任务都取得了非常高的准确率，在很多数据集上也展现出了不错的zero–shot或few-shot泛化性能。

最先进的自然语言处理模型中的参数量正在以指数速度增长，这些大模型在自然语言处理的下游应用包括：摘要、自动对话生成、翻译、语义搜索和代码自动完成等任务中攻城略池。

大而不强，是训练方式不当

训练大模型很有挑战性，一个GPU内存再大，也不可能吃下拟合这些模型的全部参数；而且，如果不特别注意优化算法、软件和硬件堆栈的设计，大量的计算操作可能会导致训练到地老天荒。

英伟达和微软通过将最先进的用于GPU加速训练的基础设施与顶级的分布式学习软件堆栈相融合，实现了前无古人的惊人效率和稳定性，再加上拥有数千亿token的高质量自然语言训练语料库作为模型训练的食谱，这一切努力都为了让训练MT-NLG变得可行。

豪华硬件+3D并行计算，全力输出

模型训练是在基于NVIDIA DGX SuperPOD的Selene超级计算机集群上以混合精度完成的，该计算机由560台DGX A100服务器提供动力，通过HDR InfiniBand联网。

每个DGX A100都有八个NVIDIA A100 80GB张量核心图形处理器，通过NVLink和NVSwitch完全相互连接，提供海量计算能力，可以在合理的时间范围内训练具有数万亿参数的大模型。

然而，要想充分挖掘这些超级计算机的全部潜力，需要跨数千个GPU并行处理，对内存和计算的高效和可扩展都提出了更严苛的要求。

单独来看，现有的并行策略(如数据并行、管道并行或张量切片)在内存和计算效率上都是有所权衡，不能用于训练MT-NLG这种规模的模型。

这次，英伟达Megatron-LM和微软DeepSpeed强强联手，创建了一个高效且可扩展的三维并行系统，将数据、管道和基于张量切片的并行性来个大杂烩。

具体地说，Megatron-LM的张量切片来缩放节点内的模型，并使用DeepSpeed的流水线并行性来跨节点缩放模型。

例如，对于5300亿模型，每个模型副本会跨越280个NVIDIA A100 GPU，在一个节点内有8个张量切片，节点间有35道流水线并行，再被DeepSpeed的数据并行进一步扩展到数千个GPU。

这样一台经过精心打磨的计算加特林拥有让人叹为观止的系统端到端吞吐量，在Selene超级计算机集群上的420台DGX A100服务器上，设置批处理大小为1920，可以观察到迭代时间最低缩短至44.4秒。这相当于每个GPU都放飞自我，直接飙到每秒113万亿次浮点运算。

大餐开宴

MT-NLG训练采用15个数据集，总共包含3390亿个token。

主菜的原料是来自之前的工作The Pile，萃取其精华，构建了从Books3到GitHub，11个数据集。

小菜是从两个最近的Common Crawl (CC）原始HTML文件中提取的文本，使用在高质量数据上训练好的分类器对提取的文档进行评分，再根据文档的评分过滤文档。

为了使训练多样化，最后附上RealNews和CC-Stories两个数据集作为饭后甜点。

上菜上重这种事偶尔也会发生，相同的内容可以出现在不同数据集的多个文档中。在文档级别，使用最小哈希LSH计算稀疏文档图和其中的相关组成可以有效识别重复文档。

训练使用的数据集

新晋世界第一？拉出来遛遛！

众所周知，一个强大的预训练语言模型（LM）无需微调就可以在各类NLP任务中取得相当优异的结果。

微软和英伟达在测试MT-NLG零样本和小样本的学习能力方面，选择了横跨五个不同领域的八个任务：