陈根:超强语言模型,参数数量提升3倍

文|陈根

全球有数亿用户依靠基于人工智能的搜索、翻译以及语音识别服务,这推动了对更庞大人工智能计算能力的需求。此前,领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力;目前,处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。

在机器学习中,尤其在语言处理领域,参数的数量和复杂程度之间的相关性很高。通常而言,参数越多、系统越复杂,往往功能越强大。因为这样系统在训练过程中会获得更多的训练数据,系统对于语言的理解也会随之更加丰富、细致和准确,甚至可以获得总结书籍以及完整编程写代码的能力。

近日,微软和英伟达宣布了由DeepSpeed和Megatron驱动的Megatron-Turing自然语言模型MT-NLG(Megatron-Turing Natural Language Generation model))。模型包括5300亿个参数,与现有最大的模型GPT-3相比,参数数量是其3倍是迄今为止训练的最大和最强的解码语言模型。

训练这样的大型模型需要面对很多挑战,开发人员沿着现有的人工智能轴线也进行了许多创新和突破。例如,通过紧密合作,英伟达和微软将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合,实现了前所未有的训练效率;微软与NVIDIA建立了高质量的自然语言训练语料库,其中包含数千亿个标记,并共同开发了训练配方,以提高优化效率和稳定性。

具体来说,该系统由 560 个 DGX A100 服务器组成,每个服务器包含 8 个 A100 GPU。所以 GPU 都使用 NVLink 和 NVSwitch 相互连接,每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行

为了训练 MT-NLG,微软和英伟达还专门创建了一个训练数据集,这一数据集主要来自 The Pile,其中包含了来自英语网站的 2700 亿个“令牌”。与所有 AI 模型一样,MG-NLP 必须通过得到一系列示例来获得“训练”,从而学习数据点之间的各种模式,例如语法和句法规则。

在为 MG-NLG 进行基准测试时,虽然 MT-NLG 还没有达到特别准确的程度,但这已经是自然语言处理中的一大突破。

(0)

相关推荐