英伟达连甩 20 枚 AI 核弹:800 亿晶体管 GPU、144 核 CPU 来了
今日,NVIDIA(英伟达)携基于最新 Hopper 架构的 H100 GPU 系列新品高调回归!
英伟达创始人兼 CEO 黄仁勋依然穿着皮衣,不过这次他没有出现在几乎已成 GTC 大会"标配"的厨房场景中,而是在一个更具科幻感的虚拟空间。
延续以往风格,黄仁勋在主题演讲中继续秒天秒地秒空气,公布多个"全球首款"。这次他带来一系列堪称"地表最强"的 AI 重磅新品,随便一个精度的 AI 性能,都比上一代 A100 高出 3~6 倍。
虽然英伟达并购 Arm 的计划刚刚告吹,但它的数据中心"三芯"总路线(GPU+DPU+CPU)依然不动摇 -- 继去年推出其首款数据中心 CPU 后,今天,英伟达又亮出一款基于 Arm 架构的 Grace CPU 超级芯片。
此外,黄仁勋再次派出自己的虚拟数字人化身"玩偶老黄"Toy Jensen,并跟这个表情生动的玩偶进行了一番流畅的实时问答对话。
凭借押中图形处理和人工智能(AI)两大赛道,英伟达已经成为全球半导体市值 TOP1。截至文章发布时间,英伟达的市值超过 6600 亿美元,比第二名台积电足足多了近 1100 亿美元。
下面就让我们来看看本场 GTC 大会的完整干货:
1、H100 GPU:采用台积电 4N 工艺,拥有 800 亿个晶体管,实现了首个 GPU 机密计算,相比 A100,FP8 性能提升 6 倍,FP16、TF32、FP64 性能各提升 3 倍。
2、全新 NVLink Switch 系统:高度可扩展,支持 256 块 H100 GPU 互连。
3、融合加速器 H100 CNX:耦合 H100 GPU 与 ConnectX-7 和以太网智能网卡,可为 I / O 密集型应用提供更强劲的性能。
4、DGX H100:配备 8 块 H100 GPU,总计有 6400 亿个晶体管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB / s 的带宽。
5、DGX SuperPOD:最多由 32 个 DGX H100 组成,AI 算力可达 1EFLOPS。
6、Eos 超级计算机:全球运行速度最快的 AI 超级计算机,配备 576 台 DGX H100 系统,FP8 算力达到 18EFLOPS,FP64 算力达到 275PFLOPS。
7、Grace CPU 超级芯片:由两个 CPU 芯片组成,采用最新 Armv9 架构,拥有 144 个 CPU 核心和 1TB / s 的内存带宽,将于 2023 年上半年供货。
8、为定制芯片集成开放 NVLink:采用先进封装技术,与英伟达芯片上的 PCIe Gen 5 相比,能源效率高 25 倍,面积效率高 90 倍。英伟达还将支持通用小芯片互连传输通道 UCIe 标准。
9、CUDA-X:60 多个针对 CUDA-X 的一系列库、工具和技术的更新。
10、Riva 2.0:对话式 AI 服务 Riva 全面发行,2.0 版本支持识别 7 种语言,可将神经文本转换为不同性别发声的语音。
11、Merlin 1.0:可帮助企业快速构建、部署和扩展先进的 AI 推荐系统。
12、Sionna:一款用于 6G 通信研究的 AI 框架。
13、OVX 与 OVX SuperPod:面向工业数字孪生的数据中心级服务器和超级集群。
14、Spectrum-4:全球首个 400Gbps 端到端网络平台,交换吞吐量比前几代产品高出 4 倍,达到 51.2Tbps。
15、Omniverse Cloud:支持协作者们随时随地实现远程实时协同工作。
16、DRIVE Hyperion 9:汽车参考设计,拥有 14 个摄像头、9 个雷达、3 个激光雷达和 20 个超声传感器,总体传感器数量是上一代的两倍。
17、DRIVE Map:多模态地图引擎,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
18、Clara Holoscan MGX:可供医疗设备行业在边缘开发和部署实时 AI 应用的计算平台,AI 算力可达每秒 254~610 万亿次运算。
19、Isaac for AMR:提供自主移动机器人系统参考设计。
20、Jetson AGX Orin 开发者套件:在边缘实现服务器级的 AI 性能。
黄仁勋还介绍了英伟达创建的 NVIDIA AI 加速计划,通过与 AI 生态系统中的开发者合作,开发工程化解决方案,以确保客户放心部署。
01. H100 GPU:800 亿晶体管、六大创新
每次英伟达的 GPU 新架构都会以一位科学家的名字来命名,这次同样如此。
新 Hopper 架构的命名取自美国计算机科学家格蕾丝・赫柏(Grace Hopper),她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一个发现"bug"的人。
▲ 格蕾丝・赫柏正在教学 COBOL 编程语言
1945 年 9 月 9 日,格蕾丝使用的 Mark Ⅱ 机出现故障,经过近一天的排查,她找到了故障的原因:继电器中有一只死掉的蛾子。后来,"bug"(小虫)和"debug"(除虫)这两个词汇就作为计算机领域的专用词汇流传至今。
基于 Hopper 架构的一系列 AI 计算新品,被冠上各种"全球首款"。按行业惯例,但凡比较 AI 算力,必会拿英伟达最新旗舰 GPU 作为衡量标准。
英伟达也不例外,先"碾压"一下自己两年前发布的上一代 A100 GPU。
作为全球首款基于 Hopper 架构的 GPU,英伟达 H100 接过为加速 AI 和高性能计算(HPC)扛旗的重任,FP64、TF32、FP16 精度下 AI 性能都达到 A100 的 3 倍。
可以看到,NVIDIA 越来越热衷于走稀疏化路线。过去六年,英伟达相继研发了使用 FP32、FP16 进行训练的技术。此次 H100 的性能介绍又出现了新的 Tensor 处理格式 FP8,而 FP8 精度下的 AI 性能可达到 4PFLOPS,约为 A100 FP16 的 6 倍。
从技术进展来看,H100 有 6 项突破性创新:
1)先进芯片:H100 采用台积电 4N 工艺、台积电 CoWoS 2.5D 封装,有 800 亿个晶体管(A100 有 540 亿个晶体管),搭载了 HBM3 显存,可实现近 5TB / s 的外部互联带宽。
H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 标准的 GPU,单个 H100 可支持 40Tb / s 的 IO 带宽,实现 3TB / s 的显存带宽。黄仁勋说,20 块 H100 GPU 便可承托相当于全球互联网的流量。
2)新 Transformer 引擎:该引擎将新的 Tensor Core 与能使用 FP8 和 FP16 数字格式的软件结合,动态处理 Transformer 网络的各个层,在不影响准确性的情况下,可将 Transformer 模型的训练时间从数周缩短至几天。
3)第二代安全多实例 GPU:MIG 技术支持将单个 GPU 分为 7 个更小且完全独立的实例,以处理不同类型的作业,为每个 GPU 实例提供安全的多租户配置。H100 能托管 7 个云租户,而 A100 仅能托管 1 个,也就是将 MIG 的部分能力扩展了 7 倍。每个 H100 实例的性能相当于两个完整的英伟达云推理 T4 GPU。
4)机密计算:H100 是全球首款具有机密计算功能的 GPU 加速器,能保护 AI 模型和正在处理的客户数据,可以应用在医疗健康和金融服务等隐私敏感型行业的联邦学习,以及共享云基础设施。
5)第 4 代英伟达 NVLink:为了加速大型 AI 模型,NVLink 结合全新外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多连接多达 256 个 H100 GPU,相较于上一代采用英伟达 HDR Quantum InfiniBand 网络,带宽高出 9 倍。
6)DPX 指令:Hopper 引入了一组名为 DPX 的新指令集,DPX 可加速动态编程算法,解决路径优化、基因组学等算法优化问题,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。
总体来说,H100 的这些技术优化,将对跑深度推荐系统、大型 AI 语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。
比如,用 H100 支持聊天机器人使用的 monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时能满足实时对话式 AI 所需的次秒级延迟。
再比如用 H100 训练包含 3950 亿个参数的混合专家模型,训练速度可加速高达 9 倍,训练时间从几周缩短到几天。
H100 将提供 SXM 和 PCIe 两种规格,可满足各种服务器设计需求。
其中 H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服务器主板;H100 PCIe 通过 NVLink 连接两块 GPU,相较 PCIe 5.0 可提供 7 倍以上的带宽。PCIe 规格便于集成到现有的数据中心基础设施中。
这两种规格的电力需求都大幅增长。H100 SXM 版的散热设计功耗(TDP)达到 700W,比 A100 的 400W 高出 75%。据黄仁勋介绍,H100 采用风冷和液冷设计。
这款产品预计于今年晚些时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软 Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于 H100 的实例。
为了将 Hopper 的强大算力引入主流服务器,英伟达推出了全新的融合加速器 H100 CNX。它将网络与 GPU 直接相连,耦合 H100 GPU 与英伟达 ConnectX-7 400Gb / s InfiniBand 和以太网智能网卡,使网络数据通过 DMA 以 50GB / s 的速度直接传输到 H100,能够避免带宽瓶颈,为 I / O 密集型应用提供更强劲的性能。
02. 更强企业级 AI 系统,全球最快 AI 超算
基于 H100,英伟达最先进的企业级 AI 基础设施 DGX H100 系统、DGX POD、DGX SuperPOD 以及一一登场。它们将从今年第三季度开始供应。
黄仁勋称,在财富 10 强企业和 100 强企业中,分别有 8 家和 44 家企业使用 DGX 作为 AI 基础架构。
英伟达 DGX 系统现在包含英伟达 AI Enterprise 软件套件,该套件新增了对裸金属基础设施的支持。DGX 客户可使用软件套件中的预训练 AI 平台模型、工具包和框架来加快工作速度。
1、DGX H100:最先进的企业级 AI 基础设施
第四代英伟达 DGX 系统 DGX H100 是一款基于英伟达 H100 Tensor Core GPU 的 AI 平台。
每个 DGX H100 系统配备 8 块 H100 GPU,总计有 6400 亿个晶体管,由 NVLink 连接,在全新的 FP8 精度下 AI 性能可达 32Petaflops,比上一代系统性能高 6 倍。
DGX H100 系统中每块 GPU 都通过第四代 NVLink 连接,可提供 900GB / s 的带宽,是上一代系统的 1.5 倍。DGX H100 的显存带宽可达 24TB / s。
该系统支持双 x86 CPU,每个系统还包含 2 个英伟达 BlueField-3 DPU,用于卸载、加速和隔离高级网络、存储及安全服务。
8 个英伟达 ConnectX-7 Quantum-2 InfiniBand 网卡能够提供 400GB / s 的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了 1 倍。
2、DGX SuperPOD:FP8 AI 性能达 1Exaflops
DGX H100 系统是新一代英伟达 DGX POD 和 DGX SuperPOD 超级计算机的构建模块。
借助 NVLink Switch 系统,拥有 32 个节点、256 个 GPU 的 DGX Pod,其 HBM3 显存达 20.5TB,显存带宽高达 768TB / s。
"相比之下,整个互联网不过只有 100TB / s。"黄仁勋感慨道。每个 DGX 都可借助 4 端口光学收发器连接到 NVLink Switch,每个端口都有 8 个 100G-PAM4 通道,每秒能够传输 100GB,32 个 NVLink 收发器连接到 1 个机架单元的 NVLink Switch 系统。
新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能,比上一代产品性能高 6 倍,能够运行具有数万亿参数的大型语言模型工作负载;还有 20TB 的 HBM3 显存、192TFLOPS 的 SHARP 网络计算性能。
通过采用 Quantum-2 InfiniBand 连接及 NVLink Switch 系统,新 DGX SuperPOD 架构在 GPU 之间移动数据的带宽高达 70TB / s,比上一代高 11 倍。
Quantum-2 InfiniBand 交换机芯片拥有 570 亿个晶体管,能提供 64 个 400Gbps 端口。多个 DGX SuperPOD 单元可组合使用。
此外,英伟达推出新的 DGX-Ready 托管服务计划,以助力简化 AI 部署。其 DGX Foundry 托管的开发解决方案正在全球扩展,北美、欧洲和亚洲的新增地点支持远程访问 DGX SuperPOD。
DGX Foundry 中包含英伟达 Base Command 软件,该软件能够使客户基于 DGX SuperPOD 基础设施,轻松管理端到端 AI 开发生命周期。
3、Eos:全球运行速度最快的 AI 超算
黄仁勋还透露说,英伟达正在打造 Eos 超级计算机,并称这是"首个 Hopper AI 工厂",将于数月后推出。
该超算包含 18 个 DGX POD、576 台 DGX H100 系统,共计 4608 块 DGX H100 GPU,预计将提供 18.4Exaflops 的 AI 算力,这比目前运行速度最快的日本富岳(Fugaku)超级计算机快 4 倍。在传统科学计算方面,Eos 预计可提供 275Petaflops 的性能。
03. 由两个 CPU 组成的超级芯片
除了 GPU 外,英伟达数据中心"三芯"战略中另一大支柱 CPU 也有新进展。
今日,英伟达推出首款面向 HPC 和 AI 基础设施的基于 Arm Neoverse 的数据中心专属 CPU--Grace CPU 超级芯片。
这被黄仁勋称作"AI 工厂的理想 CPU"。
据介绍,Grace Hopper 超级芯片模组能在 CPU 与 GPU 之间进行芯片间的直接连接,其关键驱动技术是内存一致性芯片之间的 NVLink 互连,每个链路的速度达到 900GB / s。
Grace CPU 超级芯片也可以是由两个 CPU 芯片组成。它们之间通过高速、低延迟的芯片到芯片互连技术 NVLink-C2C 连在一起。
它基于最新的 Armv9 架构,单个 socket 拥有 144 个 CPU 核心,具备最高的单线程核心性能,支持 Arm 新一代矢量扩展。
在 SPECrate®2017_int_base 基准测试中,Grace CPU 超级芯片的模拟性能得分为 740,据英伟达实验室使用同类编译器估算,这一结果相比当前 DGX A100 搭载的双 CPU 高 1.5 倍以上。
此外,Grace CPU 超级芯片可实现当今领先服务器芯片内存带宽和能效的 2 倍。
其依托带有纠错码的 LPDDR5x 内存组成的创新的内存子系统,能实现速度和功耗的最佳平衡。LPDDR5x 内存子系统提供两倍于传统 DDR5 设计的带宽,可达到 1TB / s,同时功耗也大幅降低,CPU 加内存整体功耗仅 500 瓦。
Grace CPU 超级芯片可运行所有的英伟达计算软件栈,结合英伟达 ConnectX-7 网卡,能够灵活地配置到服务器中,或作为独立的纯 CPU 系统,或作为 GPU 加速服务器,可以搭配 1 块、2 块、4 块或 8 块基于 Hopper 的 GPU。
也就是说,用户只维护一套软件栈,就能针对自身特定的工作负载做好性能优化。
黄仁勋说,Grace 超级芯片有望明年开始供货。
04. 为定制芯片集成开放 NVLink 将支持 UCIe 小芯片标准
我们单独来说一下 NVLink-C2C 技术。
前面说的 Grace CPU 超级芯片系列、去年发布的 Grace Hopper 超级芯片都采用了这一技术来连接处理器芯片。
NVIDIA 超大规模计算副总裁 Ian Buck 认为:"为应对摩尔定律发展趋缓的局面,必须开发小芯片和异构计算。"
因此,英伟达利用其在高速互连方面的专业知识开发出统一、开放的 NVLink-C2C 互连技术。
该技术将支持定制裸片与英伟达 GPU、CPU、DPU、NIC 和 SoC 之间实现一致的互连,从而通过小芯片构建出新型的集成产品,助力数据中心打造新一代的系统级集成。
NVLink-C2C 现已为半定制芯片开放,支持其与 NVIDIA 技术的集成。
通过采用先进的封装技术,英伟达 NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900GB 乃至更高的一致互联带宽。
NVLink-C2C 支持 Arm AMBA 一致性集线器接口(AMBA CHI)协议,或 CXL 工业标准协议,可实现设备间的互操作性。当前英伟达和 Arm 正在密切合作,以强化 AMBA CHI 来支持与其他互连处理器完全一致且安全的加速器。
NVIDIA NVLink-C2C 依托于英伟达的 SERDES 和 LINK 设计技术,可从 PCB 级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。
除 NVLink-C2C 之外,NVIDIA 还将支持本月早些时候发布的通用小芯片互连传输通道 UCIe 标准。
▲ UCIe 标准
与 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 标准,也可以使用 NVLink-C2C,而后者经过优化,延迟更低、带宽更高、能效更高。
05. AI 软件:对话式 AI 服务全面发行 推出推荐系统 AI 框架 1.0 版本
如今英伟达已经能提供全栈 AI,除了 AI 计算硬件外,其 AI 软件也有不少进展。
黄仁勋说,AI 已经从根本上改变了软件的能力以及开发软件的方式,过去十年,英伟达加速计算在 AI 领域实现了百万倍的加速。
今日,英伟达发布了 60 多个针对 CUDA-X 的一系列库、工具和技术的更新,以加速量子计算和 6G 研究、网络安全、基因组学、药物研发等领域的研究进展。
英伟达将使用其首台 AI 数字孪生超级计算机 Earth-2 来应对气候变化挑战,并创建了 Physics-ML 模型来模拟全球天气模式的动态变化。
英伟达还与来自加州理工学院、伯克利实验室等高校及科研机构的研究人员们开发了一个天气预报 AI 模型 FourCastNet,该模型基于 10TB 的地球系统数据进行训练,首次在降水预测上达到比先进的数值模型更高的准确率,并使预测速度提高了 4~5 个数量级。以前,传统的数值模拟需要一年时间,而现在只需几分钟。
NVIDIA Triton 是一款开源的、超大规模的模型推理服务器,是 AI 部署的"中央车站",它支持 CNN、RNN、GNN、Transformer 等各种模型、各类 AI 框架及各类机器学习平台,支持在云、本地、边缘或嵌入式设备运行。
同时,黄仁勋宣布英伟达对话式 AI 服务 Riva 全面发行,Riva 2.0 版本支持识别 7 种语言,可将神经文本转换为不同性别发声的语音,用户可通过其 TAO 迁移学习工具包进行自定义调优。
Maxine 是一个 AI 模型工具包,现已拥有 30 个先进模型,可优化实时视频通信的视听效果。比如开远程视频会议时,Maxine 可实现说话者与所有参会者保持眼神交流,并能将说的语言实时切换成另一种语言,而且音色听起来不变。
本次 GTC 发布的版本增加了用于回声消除和音频超分辨率的新模型。
此外,黄仁勋也宣布推出英伟达面向推荐系统的 AI 框架 Merlin 的 1.0 版本。
Merlin 可帮助企业快速构建、部署和扩展先进的 AI 推荐系统。比如,微信用 Merlin 将短视频推荐延迟缩短为原来的 1/4,并将吞吐量提升了 10 倍。从 CPU 迁移至 GPU,腾讯在该业务上的成本减少了 1/2。
在医疗健康领域,黄仁勋谈道,过去几年,AI 药研初创公司获得了超 400 亿美元的投资,数字生物学革命的条件已经成熟,他称这将是"NVIDIA AI 迄今为止最伟大的使命"。
6G 标准于 2026 年左右问世,一些相关基础技术逐渐成形。对此,黄仁勋宣布推出了一款用于 6G 通信研究的 AI 框架 Sionna。
06. Omniverse:首推数字孪生 专用服务器和超级集群
黄仁勋认为,第一波 AI 学习是感知和推理,下一波 AI 的发展方向是机器人,也就是使用 AI 规划行动。英伟达 Omniverse 平台也正成为制造机器人软件时必不可少的工具。
作为虚拟世界的仿真引擎,Omniverse 平台能遵循物理学定律,构建一个趋真的数字世界,可以应用于使用不同工具的设计师之间的远程协作,以及工业数字孪生。
黄仁勋认为,工业数字孪生需要一种专门构建的新型计算机,因此英伟达打造了面向工业数字孪生的 OVX 服务器和 OVX SuperPOD 超级集群。
OVX 是首款 Omniverse 计算系统,由 8 个英伟达 A40 RTX GPU、3 个 ConnectX-6 200Gbps 网卡(NIC)和 2 个英特尔至强 Ice Lake CPU 组成。
32 台 OVX 服务器可构成 OVX SuperPOD 超级集群,实现这一连接的关键设施是英伟达今日新推出的 Spectrum-4 以太网平台。
据悉,这是全球首个 400Gbps 端到端网络平台,其交换吞吐量比前几代产品高出 4 倍,聚合 ASIC 带宽达到 51.2Tbps,支持 128 个 400GbE 端口。
Spectrum-4 实现了纳秒级计时精度,相比典型数据中心毫秒级抖动提升了 5~6 个数量级。这款交换机还能加速、简化和保护网络架构。与上一代产品相比,其每个端口的带宽提高了 2 倍,交换机数量减少到 1/4,功耗降低了 40%。
该平台由英伟达 Spectrum-4 交换机系列、ConnectX-7 智能网卡、BlueField-3 DPU 和 DOCA 数据中心基础设施软件组成,可提高 AI 应用、数字孪生和云基础架构的性能和可扩展性,大幅加速大规模云原生应用。
Spectrum-4 ASIC 和 SN5000 交换机系列基于 4nm 工艺,有 1000 亿个晶体管,并经过简化的收发器设计,实现领先的能效和总拥有成本。
Spectrum-4 可在所有端口之间公平分配带宽,支持自适应路由选择和增强拥塞控制机制,能显著提升数据中心的应用速度。
Spectrum-4 ASIC 具有 12.8Tbp 加密带宽和领先的安全功能,例如支持 MACsec 和 VXLANsec,并通过硬件信任根将安全启动作为默认设置,帮助确保数据流和网络管理的安全性和完整性。
现在各大计算机制造商纷纷推出 OVX 服务器,对于想在 OVX 试用 Omniverse 的客户,英伟达在全球多地提供 LaunchPad 计划,第一代 OVX 正由英伟达和早期客户运行,第二代 OVX 正被构建中。Spectrum-4 的样机将在今年第四季度末发布。
随后,曾在往届 GTC 大会展示过的黄仁勋虚拟化身"玩偶老黄"Toy Jensen 再度现身。
它不是录像,而能做到完全实时地进行眼神交流与对话。黄仁勋现场问它"什么是合成生物学"、"你是如何制作出来的"等问题,它都对答如流。
使用英伟达 Omniverse Avatar 框架,企业就能快速构建和部署像 Toy Jensen 这样的虚拟形象,从模仿声音到细微的头部及身体运动,乃至高保真度的形象塑造,都让虚拟人更加灵动。
最后,得益于 Riva 中的最新对话式 AI 技术和超大语言模型 Megatron 530B NLP,虚拟人可以听懂你问的问题,也能跟你实时聊天互动。
在此基础上,英伟达宣布将推出 Omniverse Cloud。通过 Omniverse Cloud 连接,协作者们使用英伟达 RTX PC、笔记本电脑和工作站,均可实现远程实时协同工作。
用户如果没有 RTX 计算机,只需点击一下,即可从 GeForce Now 上启动 Omniverse。
07. 汽车:预告 DRIVE Hyperion 9 推出多模态地图引擎
Omniverse 平台是整个工作流程的核心,DRIVE 平台则相当于 AI 司机。
黄仁勋宣布下一代 DRIVE Hyperion 9 将从 2026 年起搭载到汽车中,它将拥有 14 个摄像头、9 个雷达、3 个激光雷达和 20 个超声传感器,总体传感器数量将是 Hyperion 8 的两倍。
此外,英伟达推出了一种多模态地图引擎 NVIDIA DRIVE Map,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
DRIVE Map 有两个地图引擎,真值测绘地图引擎和众包车队地图引擎。黄仁勋谈道,到 2024 年,他们预计绘制并创建北美、西欧和亚洲所有主要公路的数字孪生,总长度约为 50 万公里。
"我们正在构建地球级别的自动驾驶车队数字孪生。"黄仁勋说。
合作方面,全球第二大电动汽车制造商比亚迪将在 2023 年上半年开始投产的汽车中搭载 DRIVE Orin 计算平台。自动驾驶独角兽企业元戎启行、中国自动驾驶创企云骥智行也宣布将在其 L4 级自动驾驶车规级量产方案中搭载 NVIDIA DRIVE Orin SoC 芯片。
美国电动汽车公司 Lucid Motors、中国 L4 级自动驾驶科技公司文远知行、中国新型电动车公司悠跑科技均宣布将应用英伟达 DRIVE Hyperion 自动驾驶汽车平台。
08. 机器人平台:从医疗设备到自主移动机器人
黄仁勋认为下一波 AI 浪潮是机器人,英伟达正在构建多个机器人平台,包括用于自动驾驶汽车的 DRIVE、用于操纵和控制系统的 Isaac、用于自主式基础架构的 Metropolis、用于医疗设备的 Holoscan 等。
他将机器人系统的工作流程简化为真值数据生成、AI 模型训练、Omniverse 数字孪生、机器人技术栈四大支柱。
Clara Holoscan MGX 是一个开放可扩展的机器人平台,其设计符合 IEC-62304 医疗级规格,核心计算机为 Jetson AGX Orin 和 ConnectX-7 智能网卡,并可选配 NVIDIA RTX A6000 GPU。
该平台 AI 算力可达每秒 254~610 万亿次运算,目前向早期体验客户开放,正式上市时间是 5 月,并将于 2023 年第一季度完成医疗级准备。
Metropolis 平台的下载量已经达到 30 万次,拥有 1000 多个生态系统合作伙伴,并在超过 100 万个设施中运营。
机器人发展最快的领域之一是自主移动机器人(AMR),它本质上是室内无人驾驶,速度偏低但环境高度非结构化。
今天,英伟达推出 Isaac for AMR,它有四大核心:用于真值生成的 NVIDIA DeepMap、用于训练模型的 NVIDIA AI、搭载 Orin 的 AMR 机器人参考设计、Isaac 机器人技术堆栈中的新 Gem 及基于 Omniverse 的新版 Isaac Sim,每个都单独可用且完全开放。
与 DRIVE Hyperion 类似,Isaac Nova 是一个 AMR 机器人系统参考设计,整个 Isaac 堆栈都基于此构建。Nova 有 2 个摄像头、2 个激光雷达、8 个超声波雷达和 4 个鱼眼摄像头。
英伟达还宣布推出 Jetson Orin 开发者套件,以在边缘实现服务器级的 AI 性能。
Nova AMR 将于第二季度上市,它将配备英伟达新的 DeepMap 雷达制图系统,可以扫描和重建环境,以进行路线规划和数字孪生仿真。
09. 结语:AI 开发者的前沿技术盛宴
这些年来,英伟达 GTC 大会已经成为一场面向 AI、HPC、科学计算、数字孪生及自动驾驶等诸多前沿领域的技术盛宴。
在这场盛宴中,我们不仅看到技术突破如果改变各行各业的生产效率和工作方式,也看到英伟达围绕计算世界的最新布局。
随着新一代大规模云技术的出现,数据中心架构有待转型。在稳拥 GPU 基本盘的基础之上,英伟达的角色正从图形显示和加速计算"偏科学霸",转向围绕数据中心三大芯片支柱全面发展。
黄仁勋认为,数据中心正在转变成"AI 工厂",它通过处理海量的数据来实现智能,而今日推出的 H100 便是实现企业 AI 业务加速的引擎。
H100 的多项技术创新,数据中心专属 Grace CPU 超级芯片的特殊设计,以及 AI 和 Omniverse 平台的持续升级,进一步扩大了英伟达在加速 AI 训练及推理领域的领导地位。
在为期 4 天的英伟达 GTC 大会上,我们还将看到更多不同细分领域的专家,分享他们如何利用 AI 和加速计算领域的技术创新,来开展各类开创性的研究或解决正面临的挑战。
2022-05-06 01:19:50