【导读】蚂蚁AI重磅突破
中国基金报记者 泰勒
国产AI模型,再次迎来突破。
3月24日,据悉蚂蚁集团使用国产芯片开发了一种训练人工智能模型的技术,可将成本降低20%。
知情人士称,蚂蚁集团采用了国产芯片,基于所谓的“专家混合”(Mixture of Experts)机器学习方法来训练模型。该公司取得的效果与英伟达H800等芯片的结果相当。
有分析称,这些模型标志着蚂蚁集团加入AI领域的竞赛。自DeepSeek展示出能够以远低于OpenAI和Alphabet旗下谷歌投入的数十亿美元成本训练出强大模型以来,这一竞争加速升级。这也凸显出中国企业正积极尝试以本土替代方案取代最先进的英伟达半导体产品,尽管H800并非英伟达最顶级的芯片。
近期,蚂蚁集团Ling团队发表了最新的技术成果论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》。
论文提到,近年来,随着OpenAI、Gemini、Claude、Qwen、DeepSeek-AI等大型语言模型(LLM)的快速发展,学术界和产业界围绕通用人工智能(AGI)展开了广泛讨论。尽管稠密模型取得了显著进展,专家混合(MoE)模型,如DeepSeek系列、Qwen系列和MiniMax-01系列等,在某些特定任务中已展现出优于传统稠密模型的性能。
然而,MoE模型的训练通常依赖于高性能计算资源(例如H100、H800等先进AI加速器),其高昂的成本限制了其在资源受限环境中的广泛应用。因此,该研究旨在提出创新的训练策略,使LLM在资源和预算受限的情况下也能实现高效训练,推动AI技术的普惠发展。
为了给业界提供一种适用于资源受限场景的模型训练新路径,并激发更多创新解决方案的产生,论文介绍了两款开源MoE模型:Ling-Lite(总参数16.8B,激活参数2.75B)与Ling-Plus(总参数290B,激活参数28.8B),重点展示其探索与优化过程。
论文称,基于优化技术,蚂蚁集团开发并开源了Ling系列MoE模型,在资源成本与模型性能之间取得良好平衡。例如Ling-Plus模型在五种不同硬件配置下完成9万亿token的预训练任务。若使用高性能硬件设备训练1万亿token,预计成本为635万元人民币;而使用低规格硬件系统则成本约为508万元,节省近20%。这证明,即使在低性能设备上,也能实现大规模MoE模型的有效训练,提升了基础模型开发在计算资源选择上的灵活性与性价比。
论文显示,实验结果最终表明,一个规模为300B的MoE大语言模型可以在性能较低的设备上有效训练,并在性能上达到与同规模的其他模型(包括稠密模型和MoE模型)相当的水平。与高性能设备相比,在预训练阶段使用低规格硬件系统可显著节约成本,计算开支约降低20%。
当前最先进的MoE模型在训练过程中严重依赖高性能AI加速器(如H100、H800),然而,近年来这类高端硬件持续供不应求。正如DeepSeek开源发布中分析的“昼夜推理负载不均”问题,在推理服务高峰期,高性能资源同样面临短缺。在长期科研实践中,许多机构持续面临高端AI加速卡供应不足的问题。
相比之下,性能较低的加速器更易获得,且单价更低。这种差异凸显出建立一种能够在异构计算单元和分布式集群之间无缝切换的技术体系的必要性,从而优化训练与推理的整体成本。
有分析指出,MoE模型的训练通常依赖于如英伟达所售GPU这类高性能芯片,这使得训练成本对许多中小企业而言过于高昂,限制了更广泛的应用。蚂蚁集团一直在致力于提高大语言模型的训练效率,并突破这一限制。从其论文标题即可看出,该公司将目标定为“在无需高端GPU的情况下扩展模型规模”。
这一方向与英伟达的战略背道而驰。英伟达首席执行官黄仁勋曾表示,即便更高效的模型(如DeepSeek的R1)出现,对计算力的需求仍会持续增长,企业要实现更多营收将依赖更强大的芯片,而非通过更便宜的芯片来削减成本。他坚持打造具备更多处理核心、更高晶体管数量和更大内存容量的大型GPU的战略。
有分析称,蚂蚁集团的研究论文凸显出中国AI领域技术创新和发展速度的加快。如果其研究成果属实,这将表明中国在人工智能领域正逐步走向自主可控,特别是在寻求成本更低、计算效率更高的模型架构来应对英伟达芯片出口限制的背景下。
针对此事,3月24日蚂蚁集团回应称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。