全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

09-05 518阅读 16评论

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

新智元报导

修改:修改部

【新智元导读】两天前,马斯克满意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此音讯一出,奥特曼都被吓到了:xAI的算力现已逾越OpenAI了,还给职工许诺了价值2亿期权,这是要上天?

马斯克的xAI一路狂飙突进,把Sam Altman都整怕了!

就在9月3日,马斯克在推上满意自曝:

团队仅仅用了122天时刻,就建成了有10万张H100的Colossus集群,是世界上最强壮的AI练习体系。

并且,未来几个月规划还要翻一倍,扩展到15万张H100+5万张H200。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

终究,马斯克感谢了英伟达和许多其他合作伙伴、供货商。据悉,是戴尔开发、组装了Colossus体系。

马斯克的xAI,现已让几大AI巨子感触到了激烈的要挟。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

依据内幕音讯,Sam Altman就曾表明,自己是怕了马斯克了!

现在的xAI,不但算力有逾越OpenAI之势,还对职工十分大方。有说法指出,关于xAI的研讨者,马老板曾许诺过价值2亿美元的期权。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

马斯克,全力进军超算

信任咱们都现已发现:马斯克的超算野心,是益发藏不住了!

隔三岔五的,就会有劲爆音讯曝出。

7月底,xAI发动了坐落孟菲斯的超级AI集群的练习,该集群由十万个液冷H100 GPU组成。

十万个H100 GPU消耗的电力大约在70兆瓦,因而这个超算至少会消耗150兆瓦的电力。

8月底,特斯拉宣告了Cortex AI集群,包括5万个英伟达H100 GPU,和2万个特斯拉的Dojo AI晶圆级芯片。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

现在看来,这些集群很或许都正式投入运转,乃至现已在练习AI模型了。

不过,马斯克真的有才干让它们悉数在线吗?

首要问题是,要调试和优化这些集群的设置,需求必定时刻。

其次,xAI还得确保它们取得满意的电力。

咱们知道,虽然马斯克的公司一贯在用14台独立发电机为其供电,但要为十万块H100 GPU供电,这些电力明显不行。

练习xAI的Grok 2,需求两万块H100;而马斯克猜想,要练习Grok 3,或许会需求十万块H100。

所以,xAI的数据中心,建得怎样巨大都不过火。

制作速度太快,估测是「部分上线」

122天,也便是4个月的时刻,建成10万张H100组成的超算集群,这是个什么速度?

有业界人士表明,一般完结这样一个集群或许需求一年时刻。

这个速度,这个规划,很马斯克。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

但也有人猜想,他或许有言过其实的倾向,高估了在单一集群中实践运转的GPU数量。

囤足10万张芯片、放在一同一起运转,并不意味着便是单一集群。

论GPU数量,Meta在本年1月就现已方案收购35万张H100,但实践运转时是分成了不同集群。

之所以还没有其他公司能造出10万GPU规划的集群,很难说是由于缺钱,更重要的要素是网络解决方案。

串联起一切GPU的网络,需求确保满意的高带宽、低推迟和可靠性,才干让10万张芯片协同起来像一台核算机相同作业。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

Colossus是二战期间第一台可编程核算机,也曾在科幻电影里上台

除了网络,还有电力问题。

马斯克此前表明,Colossus在6月底现已发动运转,其时,电力公司供给的最高功率只要几兆瓦,仅能供给数千个GPU一起运转。

电力公司表明,到8月,xAI将取得大约50兆瓦的电力,但这只能供给大约5万个芯片。

与此一起,现场行将建成的另一个发电站将供给别的150兆瓦,能够满意10万个或更多芯片的电力需求,但要到下一年才干完结。

马斯克好像找到了一个短期解决方案:引进化石动力发电机。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

Colossus所在地,田纳西州孟菲斯的环保安排前几天刚刚写信控诉马斯克,责备他在没有答应的状况下安装了至少18台涡轮机(或许更多),加重了当地的空气污染。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

出于网络和电力两方面的约束要素,The Information指出,马斯克的这个集群或许仅仅「部分完结」

除了Colossus和微软在凤凰城为OpenAI制作的超算集群,多个相似的集群也正处在研制和制作过程中。

奥特曼:微软爸爸,咱们的算力不行了

虽然如此,马斯克这个超大集群的发展,仍是让一些比赛对手极度忧虑!

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

其间一位,便是OpenAI的CEO Sam Altman。

依据内部音讯,奥特曼现已向一些微软高管泄漏了自己的忧虑——

他十分忧虑,xAI很快就具有比OpenAI更多的算力!

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

虽然为OpenAI供给算力的微软老大哥,资金实力十分雄厚,但作为上市公司,微软在花费资金时,还需求对公众股东担任。

但马斯克则彻底没有这样的约束,虽然他的资金不如微软。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

别管马斯克有多少吹嘘的成分,即便能部分完结Colossus集群的建成,也是一件令人形象深入的事。

外媒The Information猜想,马斯克这种奇特的赶工速度,是否抛弃了传统的例行安全查看?

究竟,假如按例查看的话,或许会让数据中心项目的竣工推迟数月。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

并且,The Information还发现了一个「华点」:Colossus坐落曾经的制作工厂内,这可不是合适高性能核算的抱负场所。

微柔和英伟达的高管泄漏,这是他们最不乐意放置贵重硬件的地址之一。

由于这些当地很难改造,来习惯服务器消耗的巨大电量,和数据中心设备需求的冷却技能。

咱们都知道,马老板一贯喜爱打破鸿沟,而在质疑声接连不断时,他又经常被证明是正确的。

最近在xAI的姊妹公司X,马斯克又有了一个惊人之举:封闭了一个数据中心。

其时咱们都忧虑,X会因而而溃散。成果谁也没想到,X运转得很好,马斯克居然有如此先见之明。

而这次,马斯克在田纳西州的超算,也相同或许会对AI开发者振聋发聩——

或许他们会发现,传统的干事方法现在现已过期了。

两家奥秘AI巨子,正方案打造1250亿美元超算

现在,数据中心之战,比赛还在炽热加重!至少有六大巨子,现已下场了。

依据北达科他州官员的宣布,除了微软、OpenAI和xAI,还有两家AI巨子也正在酝酿制作「巨型AI数据中心」。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

这两家公司找到了商务专员Josh Teigen和州长Doug Burgum,参议树立巨型AI数据中心。

除了技能研制,这类数据中心也对资源和基础设备提出了很高的要求。

不只需求收购满意的芯片和相关设备,还要留出数万英亩的土地、制作新的发电设备。

马斯克的Colossus要自建发电站才干弄出200兆瓦,而这两家公司或许是由于直接找上了州长,他们的初始电力就能到达500~1000兆瓦,并方案在几年内扩增至5k~1w兆瓦。

这些项目的规划将比现有的任何数据中心,包括Colossus都扩展几个数量级。

100兆瓦能够为7万至10万个家庭供电;上一年微软Azure的全球数据中心一共运用了大约5吉瓦(5k兆瓦)的电力。

这就意味着,一个数据中心,或许和整个Azure云服务渠道的耗电量适当。

依据会议的音频记载,这类规划的项目耗资或许逾越1250亿美元。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

在对外会议上,商务专员Teigen没有泄漏这两家奥秘AI巨子的姓名,但他表明市值到达了「一万亿美元」。

这就将潜在名单缩小到了美国的大约6家公司,七巨子之六——英伟达、亚马逊、微软、谷歌、Meta和苹果。

微软此前就和OpenAI讨论过制作价值1000亿美元的「星际之门」(Stargate),并且北达科他州长Doug Burgum曾是微软的高管,在2001年以11亿美元向微软出售过自己的一家软件公司。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

但咱们也知道,谷歌和亚马逊等其他公司也在活跃提高其AI核算才干。

揭开美国AI超算的奥秘面纱

AI巨子一贯对尖端技能严厉保密,但他们对开发数据中心所需的技能,保密程度有过之而无不及。

The Information列出了在美国7个州运营或方案中的17个超算数据中心,触及微软、OpenAI、Meta和xAI等公司。

总的来说,仍在开发或方案阶段的设备制作本钱或许逾越500亿美元,其间包括约350亿美元的英伟达芯片,以及运营所需的额定数十亿美元。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

这些超算估量在数年时刻内完工,并需求许多的芯片、土地和电力。

在ChatGPT面世前,GPU集群一般只包括几千个芯片。现在,一些最大的GPU集群具有逾越3万个芯片,上面说到的这些超算更是到达了史无前例的规划。

要为一切方案中的数据中心供电,美国动力部估计会呈现电力缺乏的状况,因而最近提出了一些解决方案,例如赞助研讨使AI核算更高效。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

抢夺「下一个高地」

现在,数据中心比赛的焦点,会集到了英伟达CEO黄仁勋的身上。

就在上星期,老黄宣布了以下言辞,宛如在业界投入一颗炸弹。

首先到达超算集群下一个高地的人,将完结革命性的AI水平。

此言一出,英伟达的GPU,谁敢不买?

即便现已和博通一起规划出了TPU的谷歌,最近也为英伟达行将推出的Blackwell下了大单。

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

对GPU的抢夺,现已引发了AI开发者及其云供货商之间的紧张局势,乃至,有时还会引发它们和英伟达的冲突。

比方,马斯克就曾考虑和甲骨文达到一项大规划协议,依据他的方案,xAI将在未来几年内,花费逾越100亿美元租借英伟达的GPU。

而这项商洽终究破裂了,部分原因在于,马斯克认为甲骨文无法满意快地建起超算,而甲骨文则忧虑,他会把GPU集群放在一个供电缺乏的当地。

芯片多多,问题多多

许多超大的GPU集群都坐落土地广阔、空间富余且电力足够的区域。例如,马斯克的Colossus特意选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城区域运营AI服务器。

但随着更大的GPU集群需求更多的电力,AI巨子们正方案在非传统数据中心纽带的区域制作这些集群。

例如,亚马逊最近在宾夕法尼亚州中部的一座核电站周围置办了土地,方案供给约一吉瓦(1000兆瓦)的电力。

这足认为整个旧金山供电,或许构建多达100万张GPU的集群。

另一个应战是怎么进行设备冷却。

传统上,数据中心一般选用风冷,但GPU服务器发生的热量远远逾越传统服务器。

为了更佳的冷却作用,微软在威斯康星州为OpenAI制作的数据中心估计将运用液冷而非风冷。

究竟,竞家都All In了,你能不上吗?

六巨子割据,群雄逐鹿,谁将夺得下一个超算高地?

参考资料:

https://www.theinformation.com/articles/why-musks-ai-rivals-are-alarmed-by-his-new-gpu-cluster?rc=epv9gi

https://www.tomshardware.com/tech-industry/artificial-intelligence/xai-colossus-supercomputer-with-100k-h100-gpus-comes-online-musk-lays-out-plans-to-double-gpu-count-to-200k-with-50k-h100-and-50k-h200

https://www.theinformation.com/articles/two-ai-developers-are-plotting-125-billion-supercomputers

https://www.theinformation.com/articles/introducing-the-ai-data-center-database?rc=epv9gi

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力逾越OpenAI,奥特曼怕了

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 16 条评论,518人围观)
网友昵称:孤岛独心
孤岛独心 V 游客 沙发
的超算,也相同或许会对AI开发者振聋发聩——或许他们会发现,传统的干事方法现在现已过期了。两家奥秘AI巨子,正方案打造1250亿美元超算现在,数据中心之战,比赛还在炽热加重!至少有六大巨子,现已下场了。依据北达科他州官员的宣布,除了微软、OpenA
09-05 回复
网友昵称:秦月〤
秦月〤 V 游客 椅子
伟达的GPU,谁敢不买?即便现已和博通一起规划出了TPU的谷歌,最近也为英伟达行将推出的Blackwell下了大单。对GPU的抢夺,现已引发了AI开发者及其云供货商之间的紧张局势,乃至,
09-06 回复
网友昵称:鹿兮
鹿兮 V 游客 板凳
而甲骨文则忧虑,他会把GPU集群放在一个供电缺乏的当地。芯片多多,问题多多许多超大的GPU集群都坐落土地广阔、空间富余且电力足够的区域。例如,马斯克的Colossus特意选址在田
09-06 回复
网友昵称:伴凯终老▼
伴凯终老▼ V 游客 凉席
比赛还在炽热加重!至少有六大巨子,现已下场了。依据北达科他州官员的宣布,除了微软、OpenAI和xAI,还有两家AI巨子也正在酝酿制作「巨型AI数据中心」。这两家公司找到了商务专员Josh Teigen和州长D
09-06 回复
网友昵称:月小觞
月小觞 V 游客 地板
进军超算信任咱们都现已发现:马斯克的超算野心,是益发藏不住了!隔三岔五的,就会有劲爆音讯曝出。7月底,xAI发动了坐落孟菲斯的超级AI集群的练习,该集群由十万个液冷H100 GPU组成。十万个H100 GPU消耗的电力大约在70
09-06 回复
网友昵称:能怂尽量不刚
能怂尽量不刚 V 游客 6楼
界投入一颗炸弹。首先到达超算集群下一个高地的人,将完结革命性的AI水平。此言一出,英伟达的GPU,谁敢不买?即便现已和博通一起规划出了TPU的谷歌,最近也为英伟达行将推出的Blackwell下了大单。对GP
09-06 回复
网友昵称:披萨心肠
披萨心肠 V 游客 7楼
意味着便是单一集群。论GPU数量,Meta在本年1月就现已方案收购35万张H100,但实践运转时是分成了不同集群。之所以还没有其他公司能造出10万GPU规划的集群,很难说是由于缺钱,更重要的要素是网络解决方案。串联起一切GPU的网络,需求确保满意的高带宽、低推迟和可靠性,才干让10万张芯片协同起来
09-05 回复
网友昵称:草莓味轻喘
草莓味轻喘 V 游客 8楼
工十分大方。有说法指出,关于xAI的研讨者,马老板曾许诺过价值2亿美元的期权。马斯克,全力进军超算信任咱们都现已发现:马斯克的超算野心,是益发藏不住了!隔三岔五的,就会有劲爆音讯曝出。7月底,xAI发动了坐落孟菲斯的超级AI集群的练习,该集群由十万个液冷H100 GPU组成
09-06 回复
网友昵称:不如放纵
不如放纵 V 游客 9楼
力两方面的约束要素,The Information指出,马斯克的这个集群或许仅仅「部分完结」除了Colossus和微软在凤凰城为OpenAI制作的超算集群,多个相似的集群也正处在研制和制作过程中。奥特曼:微软爸爸,咱们的算力不行了虽然
09-06 回复
网友昵称:席笑燕
席笑燕 V 游客 10楼
00k-with-50k-h100-and-50k-h200https://www.theinformation.com/articles/two-ai-developers-are-pl
09-06 回复
网友昵称:久梵之年
久梵之年 V 游客 11楼
原因在于,马斯克认为甲骨文无法满意快地建起超算,而甲骨文则忧虑,他会把GPU集群放在一个供电缺乏的当地。芯片多多,问题多多许多超大的GPU集群都坐落土地广阔、空间富余且电力足够的区域。例如,马斯克的Colossus特意选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城区域运
09-06 回复
网友昵称:你的南仁
你的南仁 V 游客 12楼
电力就能到达500~1000兆瓦,并方案在几年内扩增至5k~1w兆瓦。这些项目的规划将比现有的任何数据中心,包括Colossus都扩展几个数量级。100兆瓦能够
09-06 回复
网友昵称:雨落初夏
雨落初夏 V 游客 13楼
冷。究竟,竞家都All In了,你能不上吗?六巨子割据,群雄逐鹿,谁将夺得下一个超算高地?参考资料:https://www.theinformation.com/articles/why
09-06 回复
网友昵称:荒岛。
荒岛。 V 游客 14楼
居然有如此先见之明。而这次,马斯克在田纳西州的超算,也相同或许会对AI开发者振聋发聩——或许他们会发现,传统的干事方法现在现已过期了。两家奥秘AI巨子,正方案打造1250亿美元超算现在,数据中心之战,比赛还在炽热加重!至少有六大巨子,现已下场了。依据北达科他州
09-05 回复
网友昵称:赖祢①辈吇
赖祢①辈吇 V 游客 15楼
时刻。其次,xAI还得确保它们取得满意的电力。咱们知道,虽然马斯克的公司一贯在用14台独立发电机为其供电,但要为十万块H100 GPU供电,这些电力明显不行。练习xAI的Grok 2,需求两万块H100;而马斯克猜想,要练习Grok 3,或许会需求十万块H100。所以,xAI的数据中心,建得
09-05 回复
网友昵称:过往幸福
过往幸福 V 游客 16楼
ficial-intelligence/xai-colossus-supercomputer-with-100k-h100-gpus-comes-online-musk-lays-out-plans-
09-05 回复