一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬 ”,过去一年光算力就花了 70 亿 ,其中 50 亿都砸在了大模型训练上 。

就在各团队争得不可开交时 ,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用 。

这台 “算力巨兽 ” 真能解决问题吗?据说以前要数周的训练 ,现在几天就能完成。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

内部抢破头

说实话,OpenAI 里抢 GPU 的场面 ,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口 ,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够 ,新功能就没法按时上线 。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼 ,可 GPU 就那么多 ,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

去年 OpenAI 花的 70 亿算力经费里 ,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上 。

而推理计算 ,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型 ,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样 ,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态 ,就怕设备出问题耽误事儿 。

为了让分配更公平 ,OpenAI 特意搭了套三层机制。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发 ,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会 ,根据项目的紧急程度和重要性,给下面的小团队分资源 。

最底层是 Kevin Park 带的小团队,一共就几个人 ,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去 ,有时候一天要调整好几次。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

即便这样 ,还是有人会来 “求情” ,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货 ,不用通知,各团队就主动来问,当天就能把设备装起来用 ,根本留不住 。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨 ” 了 。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用 ,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个 ,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头 ,也忍不住夸这台超算 ,说它简直是 “算力巨兽” 。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算 ,几天时间就能完成训练,效率直接翻了好几倍。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

这可不是吹的 ,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU ,相当于每个机架都有一整套 “超强计算组合 ”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB ,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了 。

而且微软为了让这超算发挥最大作用 ,几乎把能优化的地方都优化了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方 ,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊 ,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU ,数据在不同机架间传也照样快 。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统 ,既能保证设备一直处于稳定的温度 ,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了 。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

软件方面更是没落下,微软重新优化了存储 、编排和调度的软件栈。

简单说,就是让软件能 “指挥 ” 硬件高效工作 ,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着 ,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档 ,比以前快了近一半 。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬” ,其实就是当下 AI 行业竞争的一个缩影 。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI ,Meta 的小扎也说要把 “人均算力 ” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算 ,整个行业都在算力上 “内卷”。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急 ,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机 。

对咱们普通用户来说 ,算力提升也不是跟自己没关系,以后用 AI 工具写文章 、做设计、处理工作,响应会更快 ,能做的事儿也会更多。

说到底 ,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛 ”。

现在 4600+GPU 的超算已经落地 ,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现 。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

本文来自作者[神都未醒]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/youxi/202510-52031.html

(1)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 神都未醒
    神都未醒 2025年10月13日

    我是视听号的签约作者“神都未醒”!

  • 神都未醒
    神都未醒 2025年10月13日

    希望本篇文章《一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场》能对你有所帮助!

  • 神都未醒
    神都未醒 2025年10月13日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 神都未醒
    神都未醒 2025年10月13日

    本文概览:前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们