九游会J9·(china)官方网站-真人游戏第一品牌

算力奢侈超50%!百度AI筹备部崇敬东谈主拆解大模子时期的算力资本
栏目分类
热点资讯

算力奢侈超50%!百度AI筹备部崇敬东谈主拆解大模子时期的算力资本

发布日期:2024-09-15 06:23    点击次数:186

作家 |  徐豫剪辑 |  漠影

智东西9月13日音书,百度系统架构师、百度智能云AI筹备部崇敬东谈主王雁鹏向媒体解读了大模子时期的算力资本。为了有用裁减AI万卡集群的算力开支,他提议搭载RDMA网罗、自动并行战略、保证磨砺安然性、动态分拨算力、多芯异构混训,共五个方面的处治决策。

当年互联网时期,行状器每台数万元,各大厂商光是采购资本就要破耗几个亿。腾贵的开销促使互联网大厂自研行状器,百度亦然其中一员,该公司自2011年起涉足筹备基础门径设置。

然而,随同深度学习的发展,GPU集群来到万卡规模,大模子时期的算力资本依然远高于东谈主力资本。王雁鹏称,当下奢侈只是1%的算力,亦然很大的一笔花销,算力之贵也体现出筹备基础门径的环节性。

近期,不少业内东谈主士以为,“兼容CUDA是AI芯片的决胜点”,但王雁鹏并不招供这个不雅点。他评释谈,不少模子兼容CUDA后,只留下了1/3的性能,失去了原有的竞争力。英伟达是基于CUDA构建了一个加快库生态,王雁鹏则以为,其中生态库的壁垒才是的确的难点。

一、面前的模子磨砺盛大吃掉了超5成算力

来到AI大模子时期,算力的复杂性已从硬件升沉到了软件上,这也导致各大AI开发者利用算力的难度指数级飞腾。据百度系统架构师、百度智能云AI筹备部崇敬东谈主王雁鹏了解,现阶段的模子磨砺盛大奢侈了超5成的算力。

领先的CPU通用筹备时期,硬件和软件之间高度协同,假定CPU的性能擢升了一倍,那么使用该CPU的软件,其性能也会相应地翻一番。

后续来到GPU数值加快筹备时期,芯片架构更浅易,以专注于提供最大的算力。开发者们络续利用GPU隆起的算力上风,构建一系列复杂的加快库和框架,有针对性地适配不同应用场景。

咫尺,咱们已处于AI大集群超算时期。单一的芯片依然不及以寂寥处治问题,因此需要大规模的芯片协同处治一个问题,GPU集群规模致使达到10万卡。

在王雁鹏看来,上述筹备范式的变迁决定了筹备体系机构的时刻发展,而这种结构上的变化,又催生了云筹备的时刻和家具方式。“云筹备不错看作一种售卖AI基础门径的格式”,他说谈。

打个譬如,当今可能唯惟一块GPU,但其算力分给了100个东谈主用;或者说一个磨砺任务被切分到十万张卡里运算,这背后需要弥散的存储资源来撑握。

▲有用算力的5大参考宗旨

如安在大模子时期发扬出AI大集群的有用算力,王彦鹏给出了一个筹备模子磨砺经过中有用算力的公式,即有用算力异常于能耗有用率(PUE)、单卡算力有用率(MFU)、并行蔓延有用率、有用磨砺期间、资源利用这5项数据的乘积。

二、从五大维度开释万卡集群的GPU算力

为了处治大模子时期算力利用率低的难点,王彦鹏从有用算力公式中的五大方面脱手,提议了5个有助于开释算力潜能的GPU想象理念。

1、为万卡AI场景想象的RDMA网罗适配AI集群

传统的IB网罗是为HPC想象的,并不适用于AI集群。这主如若因为两者的想象理念优先级存在冲突,HPC是蔓延优先,AI则是浑沌优先。

据王彦鹏知道,百度恒久基于RDMA网罗构建万卡级别以上的AI集群,以减少内存带宽瓶颈。从数据收尾来看,应用RDMA网罗后AI集群的带宽有用率从60%擢升至95%,模子性能则增强了5%到10%。

2、自动并行战略是AI集群最环节的演进范式

百度的自动并行战略搜索有两个中枢战略。

一方面,百度选拔了“边筹备边通讯”的神气,大致数据搬运所破耗的期间,减少算力和动力损耗。

另一方面,显存优化的切分战略将运算中断所奢侈的期间,戒指在几分钟内。

▲百度通过RDMA网罗撑握AI万卡集群的磨砺

成绩于此,百度旗下的模子性能不仅能达到开源模子的130%,也比东谈主工调优的模子成果好。

3、保证安然不远离的任务脱手是一个系统工程

王彦鹏屡次强调了安然性在AI磨砺中起到的环节作用。AI磨砺的筹备任务是同步进行的,如果半途出现故障,万卡的故障定位是一个相配贫瘠且不行控的事情。

同期,斟酌到万卡规模的AI集群中断频率较高,络续是牵一发而动全身。王彦鹏提议,“无效磨砺期间=故障次数*故障还原期间+写搜检点的期间”。因此,一朝某个点位出现故障,其影响可能被扩大了十万倍。

▲不错通过3个公式详细判断AI集群的磨砺着力

据王彦鹏先容,百度通过Hang检测、慢节点检测、秒级捕捉搜检点、分钟级任务还原等神气,来定位和开荒出现故障的单张芯片。咫尺,百度文心一言大模子的有用磨砺时长比例超99%。

4、磨砺一体擢升资源利用率

咫尺,主流模子磨砺存在以下4个间隙。

起初在线推理或筹备任务当中,系统在峰值负载时的性能是平均负载时的3倍。这意味着系统在想象时预留了较多的算力以冒昧峰值。但AI集群的波峰和波谷其实较为昭着,这也形成非峰值时资源的无数奢侈,后续在想象上还不错进一步优化。

其次,无数微调模子存在冷热漫衍不均的情况。此外,其实有好多筹备任务不错通过离线推理竣事,但仍占用了一定的算力资源。临了,从单卡筹备转向万卡筹备时期,磨砺任务漫衍广、数目大。

关于上述问题,王雁鹏以为,总的来说是要竣事算力流量和资源的动态分拨,以便跑通不同规模的层级。百度的百舸异构筹备平台(AIHC)欺诈单机多推理实力夹杂布局、弹性层级队伍、磨砺任务弹性伸缩机制三种模式后,公司里面和客户的资源利用率都从50%擢升到了90%。

5、多芯混训是处治算力卡脖子的要道时刻

据王雁鹏先容,咫尺市面上的芯片规格、版块、存量和算力水平都杂沓不王人。他提议,不错用一套兼容的框架将多样万般的芯片组合起来,形成一个广阔的算力集群。

有共同的“大脑”后,AI开发者不错通过该集群合股调养扫数芯片的算力,从而提高着力、大致开支。

百度在异构并行切分战略下,搭建了跨芯相通库,并选拔了Accelerator抽象想象门径,从而竣事千卡性能亏蚀仅3%,以及万卡性能亏蚀仅5%。

不外,王雁鹏也谈谈,多芯的异构混训固然表面上可行,但骨子现实起来,还有诸多时刻难点亟待处治。

结语:残害3个中枢时刻,为十万卡集群作念准备

咫尺,好意思国AI大模子独角兽OpenAI和xAI的模子磨砺规模已卷到10万卡级别,百度也将加入这场围绕AI集群算力的竞争,算力应用场景则聚焦于谎言语模子和自动驾驶时刻。

王雁鹏向媒体知道,后续百度将握续在3个中枢时刻上寻求芯片想象架构的残害。

起初是竣事更高效的拓扑和拥塞戒指,该公司但愿将无坎坷RDMA域扩大10倍。

除此除外,百度研究将跨地域的RDMA网罗范围扩大至方圆30km内。

王雁鹏称,现阶段百度的万卡集群平均4个小时会中断1次,如果蔓延到10万卡集群,可能20分钟傍边就会出现一次中断。现阶段,其模子相比安然的还原期间介于10到20分钟之间,异日致力于达到分钟级别。



首页 | 资讯 | 娱乐 | 新闻 | 旅游 | 汽车 | 电影 |

Powered by 九游会J9·(china)官方网站-真人游戏第一品牌 @2013-2022 RSS地图 HTML地图