亚马逊AWS发布Project Rainier:分布式集群助力最强AI模型训练

AI资讯4天前发布 ainav
8 0

近日,亚马逊AWS在6月24日发布的一篇文章中宣布了一项名为Project Rainier的重大项目。这一项目被外媒誉为全球最强AI模型训练计算机。

亚马逊AWS发布Project Rainier:分布式集群助力最强AI模型训练

作为亚马逊AWS的重要布局,Project Rainier采用了分布式的架构设计。其核心硬件是基于Annapurna Labs开发的Trainium2 AI芯片。每个服务器搭载了16颗高性能Trainium2芯片,而每4台这样的服务器则组合成一个强大的UltraServer节点。通过将数万台UltraServer节点进行互联,亚马逊构建了一个庞大的超级计算集群——Project Rainier。

亚马逊AWS发布Project Rainier:分布式集群助力最强AI模型训练

在高速互联技术方面,Project Rainier采用了两套先进的解决方案。内部节点之间的通信由NeuronLinks蓝色电缆负责,而单个数据中心内部以及跨数据中心之间的数据传输则交由Elastic Fabric Adapter (EFA) 黄色电缆完成。

亚马逊AWS发布Project Rainier:分布式集群助力最强AI模型训练

值得注意的是,Project Rainier将被部署到Anthropic公司,用于其旗舰级AI模型Claude的未来版本开发。Annapurna Labs的产品和客户工程总监Gadi Hutt表示,Project Rainier提供的算力是目前Anthropic最大训练集群的五倍之多。

© 版权声明

相关文章