北京青年报

推理性能提升30倍！英伟达发布史上最强AI芯片，黄仁勋：将成最成功产品

澎湃新闻 2024-03-19 09:08

万众瞩目的英伟达GPU技术大会（GTC）如期举行，备受期待的最新AI芯片也被如期推出。

当地时间3月18日，黄仁勋发表主题演讲《见证AI的变革时刻》。在两个小时的演讲中，黄仁勋围绕五大板块，介绍了英伟达的最新研发进展：新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊（AI foundry）服务，以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。

黄仁勋在演讲中重点介绍的五大板块英伟达直播截图

毫不夸张地说，英伟达本次GTC大会可能决定美股科技股的未来命运。英伟达股价在19日当天早盘一度上涨超过4%，随后回落，收于每股884.55美元，涨0.7%，总市值2.21万亿美元。

在大会现场，18日下午四点，身穿经典黑色皮衣的黄仁勋登台亮相。面对座无虚席的美国加州圣何塞SAP中心，他笑着说道“希望你们知道，这可不是一场演唱会”。

随后，黄仁勋用一张手绘图回顾了计算机产业的发展史，以及英伟达的发家史。从1964年IBM推出世界首个通用计算机开始，伴随着Windows 95、加速计算乃至深度学习模型AlexNet的出现，再到2016年，黄仁勋亲手将第一台DGX-1超级计算机送给了OpenAI。而在2022年，随着聊天机器人ChatGPT横空出世，生成式AI带来了全新一轮产业革命。

黄仁勋手绘计算机发展史英伟达直播截图

随后，便到了本次主题演讲众望所归的大戏：最新一代AI芯片Blackwell GPU的亮相。

黄仁勋一边说着“Hopper很棒，但我们需要更大的GPU”，一边在现场展示了英伟达的首款Blackwell芯片。这款芯片被命名为B200，计划于今年晚些时候上市。

英伟达目前按照平均两年一次的更新频率升级GPU架构，对产品性能进行大幅提升。英伟达于2022年发布了基于Hopper架构的H100加速卡，而现在推出基于Blackwell的加速卡在性能上也得到了全面提升，更擅长处理AI相关任务。

从外观来看，Blackwell GPU的体积明显大于H100，采用台积电的4纳米（4NP）工艺蚀刻而成，整合了两个独立制造的裸晶（Die），共有2080亿个晶体管。英伟达使用传输速度达到10 TB每秒的NVLink 5.0技术来连接每块裸晶。

左边B200，右边H100 英伟达直播截图

据黄仁勋介绍，一个B200 GPU能够从其2080亿个晶体管中提供高达20 petaflops（每秒千万亿次浮点运算）的FP4八精度浮点运算能力。相比之下，英伟达H100芯片所包含的晶体管数量为800亿个，提供4 petaflops的FP4八精度浮点运算能力。

在此基础上，一个GB200加速卡结合了两个B200 GPU和一个独立的Grace CPU，将能够使大模型推理工作负载的性能提升30倍，同时提高效率。相比于H100，它可以“将成本和能源消耗降至1/25”。

这就意味着，以前训练一个拥有1.8万亿参数的模型需要8000个Hopper GPU 和15兆瓦的功耗。而今天，黄仁勋表示，同样的工作只需要2000个Blackwell GPU就能完成，功耗仅为4兆瓦。同时，取决于各种Blackwell设备的内存容量和带宽配置，工作负载的实际性能可能会更高。

黄仁勋展示GB200加速卡开发板（左侧），称其“可能价值100亿美元” 来源：英伟达直播截图

而在参数为1750亿的GPT-3 LLM基准测试中，GB200的性能达到了H100的7倍，而训练速度则达到了H100的4倍。

对此，黄仁勋也自豪地晒出了AI芯片技术的发展图，并表示：“在过去，计算能力平均每十年性能提升100倍。而在过去的八年中，我们已经将性能提升了1000倍，距离十年还有两年。”

AI芯片技术的发展图英伟达直播截图

英伟达还将面向有大型需求的企业提供成品服务，例如体积庞大的GB200 NVL72服务器，共包含36个CPU和72个Blackwell GPU，并提供完整的一体水冷散热方案，可实现总计720 petaflops的AI训练性能，或高达1440 petaflops的推理性能。其内部使用的电缆长度累计接近2英里，共有5000条独立电缆。

不过，英伟达并没有公布关于B200和其相关产品的价格，只表示亚马逊、谷歌、微软和甲骨文等公司都已计划在其云服务产品中装配NVL72机架，但没有公布这些公司的购买数量，只透露了亚马逊AWS已计划采购由2万片GB200芯片组建的服务器集群，可以部署27万亿个参数的模型。

黄仁勋表示，Blackwell带来了“令人难以置信的兴奋”：“我们将会把Blackwell推广给全球的AI公司，现在有很多这样的公司都在不同领域做着令人惊奇的工作……全球各地都在签约启动Blackwell，这款Blackwell将成为我们历史上最成功的产品发布。”

GB200 NVL72服务器的外观和内部英伟达直播截图

在硬件之外，英伟达在AI软件领域也取得了新的进展。

黄仁勋宣布，英伟达推出数十项企业级生成式AI微服务，其中最新的NIM微服务，可适用于对英伟达及合作伙伴生态系统中20多个热门的AI模型进行推理优化。这些云原生微服务目录在英伟达CUDA平台上开发，企业可以利用这些微服务在自己的平台上创建和部署定制应用，同时保留对知识产权的完整所有权和控制权。

其中，重点介绍的NIM微服务将提供基于英伟达推理软件的预构建容器，使开发者能够将部署时间从几周缩短至几分钟，并为语言、语音和药物发现等领域提供行业标准API，使开发者能够利用在自己基础设施中的专有数据来快速构建AI应用，而不是在云服务器上运行。

英伟达希望通过这些服务来吸引购买英伟达服务器的客户来注册英伟达企业版NVIDIA AI Enterprise 5.0，对每个GPU每年收取4500美元的费用。企业可以自己选择基础设施来部署这些微服务，包括亚马逊云科技（AWS）、谷歌云、Azure 和 Oracle Cloud Infrastructure 等云平台。超过400个英伟达认证系统也支持 NVIDIA 微服务，包括思科、戴尔科技、慧与（HPE）、惠普、联想和超微的服务器和工作站。

除了硬件和软件，黄仁勋还在演讲中花大篇幅来介绍英伟达的仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。

对于Omniverse，黄仁勋重点介绍了英伟达研究团队利用其在预测气候问题方面的进展。黄仁勋还提到，Omniverse Cloud将可以连接到苹果的混合现实（MR）头显Vision Pro。黄仁勋在现场展示了一款可以完全交互的汽车模型，能够通过流媒体技术传输到Vision Pro中。

关于机器人领域，黄仁勋在现场宣布，英伟达推出名为Project GROOT Foundation的AI模型，旨在创建性能更好的人形机器人。此外，还发布了一款专用于机器人的名为Thor的系统芯片。

黄仁勋表示：“机器人领域出现ChatGPT时刻的可能性近在咫尺，我们已经花了一段时间来构建端到端的机器人系统。”

编辑/樊宏伟