黄仁勋GTC2025演讲:人工智能的终极形态物理AI将彻底改变世界 黄仁勋lori
3月19日凌晨,NVIDIA 创始人兼首席执行官黄仁勋在2025年GTC开发者大会上发表了主题演讲,演讲覆盖了AI科技演进以及计算需求,同时公开了英伟达的Blackwell架构新鲜一代产品、未来几代产品的规划出货时刻,以及英伟达在人形机器人领域的新鲜进展。
演讲期间,黄仁勋再次提到AI技术的进化途径,从 Perception 感知AI到 Generative生成式AI,再到现阶段进步火热Agentic代理型AI,最终实现具备传感和执行功能的Physical 物理型AI。黄仁勋认为AI的终极形态Physical AI将彻底改变全球。
下面内容是演讲的核心内容和决定因素公开:
一、硬件革新:Blackwell架构及未来路线图
Blackwell Ultra芯片
采用台积电4NP工艺,单卡FP4算力达15 PetaFLOPS,HBM3e显存容量提高至288GB,推理速度较前代Hopper提高11倍8。
机架级化解方法GB300 NVL72集成72颗GPU,支持液冷技术,推理智能达每秒1000 tokens(H100的10倍)。性能提高源于NVLink 72高速互联技术,将多GPU组合成“巨型GPU”,突破算力瓶颈。
未来架构规划
Rubin架构(2026年公开):采用NVLink 144互联技术,HBM4内存带宽提高2倍,2027年Ultra版性能将达Blackwell的14倍。
Feynman架构(2028年):以物理学家费曼命名,目标实现算力成本指数级下降。
二、软件生态和工具更新
Dynamo推理操作体系
开源动态调度体系,优化GPU资源分配,使Hopper平台运行Llama模型的吞吐量提高30倍,并支持KV缓存管理。在DeepSeek-R1模型测试中,单GPU生成token数量提高30倍以上。
CUDA生态扩展
CUDA-X库新增工具:Newton物理引擎(和DeepMind、迪士尼合作):提高机器人训练效率10倍。
cuOpt数学规划工具:加速千倍,已和Gurobi、IBM合作。
开发者生态:全球开发者突破600万,加速库增至900+,覆盖量子计算、生物医学等领域。
三、AI进步阶段论和物理AI的推进
AI三阶段演进途径
感知人工智能(Perception AI):大约10年前启动,专注于语音识别和其他简单任务。
生成式人工智能(Generative AI):过去5年的重点,涉及通过预测玩法进行文本和图像创建。
代理人工智能(Agentic AI):人工智能以数字方法交互并自主执行任务的当前阶段,以推理模型为特征。
物理 AI(Physical AI):AI 的未来,为人形机器人和现实全球的应用提供动力。
物理AI落地操作
开源人形机器人基础模型Isaac GR00T N1:支持双体系认知(慢思索规划+快思索执行),可迁移至工业制造场景。
和通用汽车合作构建全栈自动驾驶体系:覆盖数字孪生仿真和车载AI安全架构HALOS。
四、行业应用和合作案例
企业级AI化解方法
DGX Spark:售价3000美元的桌面级职业站,支持本地化模型微调。
语义存储体系:和Box合作,支持天然语言数据检索。
边缘和通信技术
联合思科、T-Mobile构建AI-RAN(AI无线网络),优化5G信号处理和能耗。
硅光子技术突破:全球首个1.6T共封装光学(CPO),减少数据中心光模块功耗90%。
硬件创造:Blackwell架构引领算力飞跃
黄仁勋公布Blackwell架构已综合投产,其性能和能效相比前代Hopper架构都有显著提高。基于台积电4NP工艺的Blackwell Ultra芯片(B300系列)正式公开,单卡FP4算力达15 PetaFLOPS,HBM3E显存容量提高至288GB,推理速度较前代Hopper提高11倍。Blackwell Ultra包括NVIDIA GB300 NVL72机架级化解方法和NVIDIA HGXT B300 NVL16体系。GB300 NVL72和上一代NVIDIA GB200 NL72相比,AI的性能提高5倍。GB300 NVL72连接了72个Blackwell Ultra GPU和36个基于Arm Neoverse的Grace CPU;NVIDIA HGX B300 NVL16和上一代相比,在大型语言模型上具有11倍推理速度、4倍内存,可以为AI推理等复杂的职业负载提供突破性的性能。机架级化解方法GB300 NVL72集成72颗GPU,支持液冷技术,推理智能达每秒1000 tokens,已获亚马逊AWS、微软Azure等四大云厂商360万片订单。除了这些之后,英伟达还公开了下一代GPU架构Vera Rubin和Feynman的路线图,Vera Rubin架构规划于2026年推出,采用NVLink 144互联技术,HBM4内存带宽提高2倍;2028年公开的Feynman架构,目标实现算力成本指数级下降。
软件生态Dynamo和CUDA-X驱动开发效率
英伟达推出了开源推理软件Dynamo,它可将Hopper平台运行Llama模型的吞吐量提高30倍,支持动态分配GPU资源,优化KV缓存管理。在DeepSeek-R1模型测试中,Dynamo使GB200 NVL72集群的单GPU生成token数量提高30倍以上。CUDA-X库新增Newton物理引擎,和DeepMind、迪士尼合作开发,机器人训练效率提高10倍;cuOpt数学规划工具加速千倍。全球开发者突破600万,加速库数量增至900+,覆盖量子计算、生物医学等前沿领域。
从自主型人工智能推理革命走给物理人工智能
黄仁勋阐述了AI进步的三阶段演进途径:从感知AI(Perception AI)的计算机视觉和语音识别,到生成式AI(Generative AI)的多模态内容生成,再到当下热门的代理式AI(Agentic AI),其具备主动性,能感知并领会语境,制定并执行规划。未来则是物理AI(Physical AI)的时代,领会物理全球、三维全球的AI将推动机器人、自动驾驶等领域的进步。
演讲期间,英伟达推出了开源人形机器人基础模型Isaac GR00T N1,支持双体系认知,可迁移至工业制造场景。同时,英伟达和通用汽车合作构建全栈自动驾驶体系,覆盖数字孪生仿真和车载AI安全架构HALOS。
推动CUDA生态进化
英伟达在AI for Science领域的布局持续加深,开发人员现在可以利用CUDA-X和新鲜的superchip架构实现CPU和GPU资源之间更紧密的自动集成和协调,和运用传统加速计算架构相比,其工程计算工具的速度进步11倍,计算量进步5倍。CUDA-X目前已经在天文学、粒子物理学、量子物理学、汽车、航空航天和半导体设计等一系列新的工程学科带来了加速计算。
AI工厂时代到来
黄仁勋特别强调了AI工厂的概念,Dynamo被比作新时代的VMware,能够自动编排怎样让AI在推理时代跑得更好。英伟达还推出了AIPCDGX Spark和DGX Station,采用Blackwell芯片,助力企业构建更高效的AI基础设施。
小结
黄仁勋的演讲综合展示了英伟达在AI领域的技术实力和战略布局,从硬件的持续创造到软件生态的完善,再到对AI进步阶段的深刻洞察,英伟达正致力于推动AI技术从从自主型人工智能推理革命走给物理人工智能终局。
(来源:物联网智库)