千亿参数的大模型，需要多少算力？

(资料图)

作者 | Owen Zhu

出品 | NPCon（新程序员大会）

与狭义的人工智能相比，通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型，能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023 年，随着 LLM 大规模语言模型技术的不断突破，大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期，在中国，大模型已经呈现出百花齐放的态势，各种大模型层出不穷。要想在「百模争秀」的时代占得先机，AI 开发团队需要着力化解算力、算法、数据层面的巨大挑战，而开发效率和训练速度是保障大模型市场竞争力的核心关键因素，也是未来的核心发力点。浪潮信息人工智能与高性能应用软件部 AI 架构师 Owen ZHU 参与首届由 CSDN、《新程序员》联合主办的 NPCon：AI 模型技术与应用峰会，分享了面向新一轮 AIGC 产业革命，AI 大模型的算力系统解决之道，并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。本次分享主要包含三块内容，分别是：一、「百模争秀」时代的算力瓶颈二、欲炼大模型，先利其器三、大模型的天花板，基础设施决定速度

备注：现场视频请查阅「CSDN视频号」

「百模争秀」时代的算力瓶颈

大模型研发的核心技术是由预训练与 Alignment（价值对齐）组成的，第一部分就是预训练，需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是 Alignment （价值对齐），Alignment （价值对齐）不完全等于强化学习，其通过使用多种方式/策略优化模型输出，让 AI 在和人的交流反馈中学会如何沟通表达，这两部分是提升大模型质量的核心要素。目前来看，模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大，模型泛化能力越强。由于资源限制，在两者不可兼得的时候，应该如何进行取舍呢？OpenAI 的研究结论认为，与增加数据量相比，先增大模型参数量受益则会更好，用一千亿的模型训练两千亿的 Token 和两千亿模型训练一千亿的 Token，后者的模型性能会更高。由此可见，参数量是衡量模型能力的一个重要指标，当模型参数量增长超过一定阈值时，模型能力表现出跃迁式的提升，表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升，这也就是我们所说的模型的涌现能力。模型规模多大能产生涌现能力呢？现在来看，百亿参数是模型具备涌现能力的门槛，千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争，因为现有大模型并没有得到充分训练，如 GPT-3 的每个参数基本上只训练了 1-2 个Token，DeepMind 的研究表明，如果把一个大模型训练充分，需要把每个参数量训练 20 个 Token。所以，当前的很多千亿规模的大模型还需要用多 10 倍的数据进行训练，模型性能才能达到比较好的水平。无论是提高模型参数量还是提升数据规模，算力依旧是大模型能力提升的核心驱动力：需要用「足够大」的算力，去支撑起「足够精准」模型泛化能力。当前大模型训练的算力当量还在进一步增大，从 GPT-3 到 GPT-4 算力当量增长了 68 倍。算力当量越大，交叉熵越小，模型能力越强。随着训练的 token 数、模型参数、计算量的增加，语言模型的 loss 在平滑下降，这就意味着大语言模型的精度可以随着计算量、参数规模、token 数扩展进一步提升。欲炼大模型，先利其器大模型能力来源于大量工程实践经验，预训练的工程挑战巨大，这表现在如下几个方面：首先，AI 大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求，万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题；其次，大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题；再次，工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。作为最早布局大模型的企业之一，浪潮信息在业界率先推出了中文 AI 巨量模型「源 1.0」，参数规模高达 2457 亿。千亿参数规模的大模型创新实践，使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队，为业界提供AI算力系统参考设计。在算力效率层面，针对大模型训练中存在计算模式复杂，算力集群性能较低的情况。源 1.0 在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略，使用 266 台 8 卡 NVLINK A100 服务器，训练耗时约 15 天，单卡计算效率约 44%。共计训练了 180 billion token，并将模型最后的 loss 值收敛至 1.73，显著低于 GPT-3 等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法，围绕深度学习框架、训练集群 IO、通信开展了深入优化，在仅采用 2x200G 互联的情况下，源 1.0的算力效率达到 45%，算力效率世界领先。在集群高速互联层面，基于原生 RDMA 实现整个集群的全线速组网，并对网络拓扑进行优化，可以有效消除混合计算的计算瓶颈，确保集群在大模型训练时始终处于最佳状态。大模型的天花板：算力效率决定速度当前，中国和业界先进水平大模型的算力差距依然较大，从算力当量来看，GPT-4 的算力当量已经达到了 248,842PD，而国内大多数主流的大模型算力大量仅为数千 PD，差距高达近百倍。同时，中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面，虽然开源为国内大模型发展带来了弯道超车的良机，但 LLaMA 等开源大模型相比 GPT4 等顶级水平自研模型的性能，开源模型的能力存在「天花板」。在数据方面，中文数据集和英文数据集相比较，在规模、质量上均存在显著差距，相较于动辄数千亿单词量级的英文数据，中文大模型的数据量级仅为百亿左右，而且开源程度较低，封闭程度较高。开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来，通过构建高效稳定的智算系统，加速模型开发效率提升。

标签：