年度世界互联网科技大奖公布,腾讯Angel机器学习平台获领先科技奖
2024-11-19 21:38 海报新闻
腾讯公司副总裁蒋杰现场表示,获得本次世界互联网大会领先科技奖,是对腾讯在大模型相关自研技术的认可。在大模型时代,模型参数超过万亿,训练数据超过十万亿,如此庞大的规模,给模型训练和推理带来巨大挑战,腾讯全链路自研的Angel机器学习平台有效应对这些挑战,实现多个方面的性能效率提升。未来,腾讯也将继续投入底层技术自主研发,并通过开源共享,推动技术创新升级,让智能技术走入千行百业。
腾讯 Angel 机器学习平台针对万亿规模大模型分布式训练和推理、应用部署难的挑战,在网络互联、框架效率、平台规模三方面实现了突破。
在通信方面,从网卡到交换机,再到路由协议,腾讯自研的RDMA网络实现了集群高速互联,单节点带宽达到3.2T,相比于同类领先产品,性能提升30%,成本降低70%。
在效率方面,自研了训练/推理框架,提出显存加主存的一体化机制,实现多维并行和算子优化,相比开源框架,训练性能提升2.6倍,推理速度提升2.3倍。
在规模方面, 实现了单任务万卡的线性扩展,GPU集群加速比从50%提升到99%。