阿里云AI基础设施升级亮相 模型算力利用率提升超20%

今天 378阅读 15评论

潮新闻客户端 记者 张云山

920日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

阿里云AI基础设施升级亮相 模型算力利用率提升超20%

阿里云基础设施全面升级

“AI创新需要新形态的云基础设施。阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持SolarRDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS即将推出GPU容器算力。

.portal{background: #f8f8f8; padding: 10px; border-radius: 5px;line-height: 24px;}
文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 15 条评论,378人围观)
网友昵称:凉尘
凉尘 V 游客 沙发
需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存
-15254秒前 回复
网友昵称:花海泪。
花海泪。 V 游客 椅子
tal{background: #f8f8f8; padding: 10px; border-radius: 5px;line-height: 24px;}
-11262秒前 回复
网友昵称:给色的妆
给色的妆 V 游客 板凳
大于99%,模型算力利用率提升20%以上。阿里云基础设施全面升级“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源
今天 回复
网友昵称:就是太逆
就是太逆 V 游客 凉席
要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.
今天 回复
网友昵称:_困獸。
_困獸。 V 游客 地板
础设施全面升级“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,
今天 回复
网友昵称:海王之家
海王之家 V 游客 6楼
I创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机
今天 回复
网友昵称:避过岁月
避过岁月 V 游客 7楼
要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.
-6462秒前 回复
网友昵称:蔍淼
蔍淼 V 游客 8楼
潮新闻客户端 记者 张云山9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。阿里云基础设施全面升级“AI创新需要新形态的
今天 回复
网友昵称:不挽留
不挽留 V 游客 9楼
磐久AI服务器,实现单机16卡、显存1.5T以上,支持SolarRDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。在存储方面,阿里云并行文件存储CPFS实
36分钟前 回复
网友昵称:十三凉
十三凉 V 游客 10楼
PU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持SolarRDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。在存
-22023秒前 回复
网友昵称:愛已至此。
愛已至此。 V 游客 11楼
模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。面向AI业务,阿里云计算产
29分钟前 回复
网友昵称:⒏謧⒏弃
⒏謧⒏弃 V 游客 12楼
潮新闻客户端 记者 张云山9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。阿里云基础设
-21219秒前 回复
网友昵称:初相遇
初相遇 V 游客 13楼
智算提供指数级扩展存储能力。为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。通过底层
-20482秒前 回复
网友昵称:只唱你爱
只唱你爱 V 游客 14楼
上。通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞20TB/s,万卡规模下网络
-14806秒前 回复
网友昵称:咚呱猫猫
咚呱猫猫 V 游客 15楼
潮新闻客户端 记者 张云山9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础
今天 回复