AI芯片大战 ai芯片大战正热
根据 Omdia 的估计,Nvidia 在 2024 年占据了人工智能领域的主导地位,其 Hopper GPU 在其 12 大客户的出货量将增长两倍多,达到 200 多万台。
然而,虽然 Nvidia 仍然是 AI 基础设施巨头,但它正面临着来自竞争对手 AMD 的激烈竞争。在早期采用其 Instinct MI300 系列 GPU 的企业中,AMD 的市场份额正在迅速扩大。
Omdia 估计,微软在 2024 年购买了约 581,000 块 GPU,是全球全部云或超大规模客户中购买量最大的。其中,六分其中一个由 AMD 制造。
根据 Omdia 的调查结局,在 Meta(迄今为止对刚推出一年的加速器最热衷的采用者)中,AMD 占据了 GPU 出货量的 43%,为 173,000 块,而 Nvidia 的出货量为 224,000 块。和此同时,在 Oracle,AMD 占据了这家数据库巨头 163,000 块 GPU 出货量的 23%。
虽然在微软和 Meta 等主要客户中的份额不断增长,但 AMD 在更广泛的 GPU 市场中的份额和 Nvidia 相比仍然相对较小。
Omdia 的估计追踪了四家供应商(微软、Meta、甲骨文和 GPU bit barn TensorWave)的 MI300X 出货量,总计 327,000 台。
AMD 的 MI300 系列加速器上市才一年,因此其进步速度同样引人注目。在此之前,AMD 的 GPU 主要用于更传统的高性能计算应用,例如橡树岭民族实验室 (ORNL) 的 1.35 exaFLOPS Frontier 超级计算机。
Omdia 云计算和数据中心研究总监 Vladimir Galabov 给The Register表示:“他们去年成功地通过 HPC 领域证明了 GPU 的有效性,我认为这很有帮助。我确实认为大众渴望找到 Nvidia 的替代品。”
何故选择 AMD?
这种需求在多大程度上是由 Nvidia 硬件供应有限所导致的很难说,但至少从纸面上看,AMD 的 MI300X 加速器提供了许多优势。MI300X 于一年前推出,声称其AI 职业负载浮点性能比老牌 H100 高 1.3 倍,内存带宽高 60%,容量高 2.4 倍。
后两点使得该部件对于推理职业负载特别有吸引力,其性能通常取决于内存的数量和速度,而不是 GPU 可以抛出几许 FLOPS。
一般来说,当今大多数 AI 模型都是以 16 位精度进行训练的,这意味着为了运行它们,每 10 亿个参数需要大约 2 GB 的 vRAM。每台 GPU 配备 192 GB 的 HBM3,单台服务器拥有 1.5 TB 的 vRAM。这意味着大型模型(如 Meta 的 Llama 3.1 405B 前沿模型)可以在单个节点上运行。另一方面,配备类似设备的 H100 节点缺乏以全分辨率运行模型所需的内存。141 GB 的 H200 不受同样的限制,但容量并不是 MI300X 的唯一亮点。
MI300X 拥有 5.3 TBps 的内存带宽,而 H100 为 3.3 TBps,141 GB H200 为 4.8 TBps。总而言之,这意味着 MI300X 学说上应该能够比 Nvidia 的 Hopper GPU 更快地为更大的模型提供服务。
虽然 Nvidia 的 Blackwell 才刚刚开始面给客户推出,但在性能和内存带宽方面遥遥领先,AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量优势占据优势。其功能更强大的 MI355X 将于明年年底公开,将容量提高至 288 GB。
因此,微软和 Meta 都选择 AMD 的加速器也就不足为奇了,这两家企业都在部署数千亿甚至数万亿个参数的大型前沿模型。
Galabov 指出,这一点已反映在 AMD 的业绩指引中,该指引每个季度都在稳步上升。截至第三季度,AMD 现在预计 Instinct 将在 2024 财年带来 50 亿美元的收入。
进入新的一年,Galabov 相信 AMD 有机会获取更多的市场份额。“AMD 执行力强。它和客户沟通良好,善于透明地谈论自己的优势和劣势,”他说。
壹个潜在的驱动影响是 GPU 比特库的出现,例如 CoreWeave,它们每年部署数万台加速器。Galabov 表示:“其中一些企业会刻意尝试围绕 Nvidia 替代方法建立商业玩法”,他指出 TensorWave 就是其中壹个例子。
定制硅片大步前进
不仅仅是 AMD 在蚕食 Nvidia 的帝国。在云计算和超大规模企业大量购买 GPU 的同时,许多企业也在部署自己的定制 AI 芯片。
Omdia 估计,Meta 定制 MTIA 加速器的出货量(大家在现在早些时候对其进行了更详细的研究)将在 2024 年达到 150 万台,而亚马逊则订购了 90 万台 Inferentia 芯片。
这是否对 Nvidia 构成挑战在很大程度上取决于职业量。这是由于这些部件旨在运行更传统的机器进修任务,例如用于将广告和用户匹配、将产品和买家匹配的主推体系。
虽然 Inferentia 和 MTIA 在设计时也许并未思考到 LLM,但谷歌的 TPU 肯定曾被用于训练该搜索巨头的许多语言模型,包括其专有的 Gemini 和放开的 Gemma 模型。
据Omdia所知,谷歌现在订购了约一百万个TPU v5e和48万个TPU v5p加速器。
除了 Inferentia,AWS 还拥有 Trainium 芯片,虽然名称如此,但这些芯片已针对训练和推理职业负载进行了从头调整。Omdia 估计,到 2024 年,亚马逊将订购约 366,000 个此类部件。这和其Rainier 项目规划相一致,该项目将在 2025 年为模型构建者 Anthropic 提供“数十万”个 Trainium2 加速器。
最后还有微软的 MAIA 部件,这些部件在 AMD 推出 MI300X 前不久第一次公开了。和 Trainium 类似,这些部件针对推理和训练进行了调整,微软作为 OpenAI 的主要硬件合作伙伴和模型构建者,显然在这方面做得不错。Omdia 认为微软在 2024 年订购了大约 198,000 个此类部件。
人工智能市场比硬件更大
过去两年中,英伟达的巨额营收增长理所当然地让大众关注到了人工智能背后的基础设施,但这只一个更大谜团中的一块碎片。
Omdia 预计,随着 AMD、英特尔和云服务提供商推出替代硬件和服务,Nvidia 将在未来一年努力扩大其在 AI 服务器市场的份额。
“如果大家从英特尔身上学到了啥子,那就是一旦市场份额达到 90% 以上,就不也许继续增长。大众会立即寻找替代方法,”Galabov 说道。
然而,Galabov 怀疑,Nvidia 不会在竞争日益激烈的市场中争夺份额,而是会专注于通过让技术更容易获取来扩大整个潜在市场。
Nvidia 推理微服务 (NIM) 的引入只是这一转变的壹个例子,NIM 是一种容器化模型,其功能类似于构建复杂 AI 体系的拼图。
“这是史蒂夫·乔布斯的策略。智能手机的成功归功于应用商店。由于它让技术更容易运用,”Galabov 谈到 NIM 时说道。“人工智能也是如此;建立壹个应用商店,大众就会下载并运用它。”
话虽如此,Nvidia 仍然扎根于硬件。云提供商、超大规模计算提供商和 GPU 比特库已经公布基于 Nvidia 强大的新型 Blackwell 加速器打造大规模集群,至少在性能方面,该加速器远远领先于 AMD 或英特尔目前提供的任何产品。
和此同时,Nvidia 加快了其产品路线图,以支持每年推出新芯片的节拍,从而保持领先地位。看来,虽然 Nvidia 将继续面临来自竞争对手的激烈竞争,但它短期内不会失去王冠。
(来源半导体行业观察)