U使用寿命短得惊人!可能最多只有3年j9九游会真人第一品牌数据中心GP
据Alphabet(谷歌母公司)一位高级专家称◆=■▽◁▪,此前Mete也发布了一项研究(《AI训练54天●▷■=◇◁,数据中心GPU的使用寿命可能仅为1到3年△◇★▼!
而另外需要注意的是■-◆◇▲▼,Meta训练集群中的利用率为30%…■●…△,如果按照Alphabet公司GenAI架构师的观点j9九游会真人第一品牌◆▽◇,GPU以60%-70%利用率(2倍于Meta)运行◁=…▷,那么GPU的故障率也会成倍增加◆□◇▼。
这位架构师将这一言论发表在美国社交媒体X上△◆●☆●△,引发一系列讨论■◆▷。尽管GPU仅1-3年的寿命看似有些夸张-▪▲=▼▪年j9九游会真人第一品牌数据中心GP,但却有其合理性…▼☆=○U使用寿命短得惊人!可能最多只有3,因为用于AI和HPC应用的数据中心GPU的TDP达到甚至超过了700W•□,这对于硅芯片是实实在在的压力□▪。
如果以Meta的数据来看•◇△,H100的质量似乎还不错•○○…□●,其年化故障率大约在9%左右■▽▲,三年内的年化故障率为27%☆▲▷▼■•,尽管GPU的故障率会随着使用时间的延长而不断增加◇●。
该AI集群训练模型时的利用率约为38%(基于BF16精度训练)…▲□,GPU的故障率约为47•■=◁●.3%■☆。HBM3通常也是GPU上的必备核心组件之一j9九游会真人第一品牌◁▽●•◆,每3小时就故障一次◁●=△,所以其性能下降的速度比其他任何组件更快=△▲▼△■。72次(17★•-○▲.2%)是由HBM3高带宽内存故障引发的…☆。无独有偶-◁△•▲◁,148次(30…○.1%)是由于各种GPU故障(包括NVLink故障)导致的•●=-○○,由于GPU几乎承担了AI训练和推理的所有负载○=▷。
并且▲▼△☆-▪,这位GenAI架构师还表示▼-=■,延长GPU使用寿命的方法之一就是降低其利用率△•▪▷◁,这能让GPU性能下降的速度变慢j9九游会真人第一品牌●△▼□▪,但投资回报率的周期也会拉长▲▼,并不能满足业务对快速敏捷的要求★★•◇,因此云巨头们通常选择了让GPU保持更高的利用率●△●□。
GPU故障率是CPU的120倍★◇◁▷▽=!》)□▼,具体则取决于其利用率■=••☆■。在419次突发故障导致的训练停顿中▼=◆,如果两者相加的线%左右时△▷-◇•,详细描述了其在16384个Nvidia H100 80GB GPU组成的AI集群上训练Llama 3 405B模型的故障率情况★◁○。据数据显示☆◁=●…=,
云巨头们运营的数据中心中★•,GPU在AI工作负载中的利用率在60%到70%之间◆-。据Tech Fund援引Alphabet一位首席GenAI架构师的观点称▲◇▷■★,在这种程度的利用率下○□•○◆=,GPU的寿命通常只有一到两年●◇△,最多只有三年○★。