最强AI芯片H200黄仁勋又在挤牙膏了

本站原创 2024-10-22 科研动态 0

11 月 13 日晚，英伟达在国际超算大会上推出新一代 GPU，NVIDIA HGX H200。

只看算力 H200 和 H100 基本相同，但为了加速 AI 推理速度，我们优化了显存和带宽。

对这块 GPU，黄仁勋给的学术名称是新一代 AI 计算平台，专为大模型与生成式 AI 而设计，翻译一下：

又一块史上最强芯片

先看具体的参数升级，官方新闻稿是说相比 H100 而言性能提升了 60%-90%，具体来看则是四个方面：

1. 跑 70B Llama2，推理速度比 H100 快 90%;

2. 跑 175B GPT-3，推理速度比 H100 快 60%;

3. 显存容量达到 141GB，是 H100 的近 1.8 倍;

4. 带宽达到 4.8TB，是 H100 的 1.4 倍。

换句话说，虽然算力没有提升，但更高速的推理就意味着大量时间和金钱成本的节约，虽然还没有公布定价，新卡的单美元效率有了显著的提升。

逻辑芯片应该还是台积电的 4N 工艺，CoWoS 封装也没有变化，但 HBM 存储芯片却由原先的 HBM3 升级到了 HBM3e。

虽然当下 H200 的具体架构还没有曝光，根据已有信息我们推测，最重要的三个部分中，

H100 拆机图

原先的 6 颗 HBM3 芯片由 SK 海力士独供，内存带宽为 3.35TB/s，内存为 80GB，而全球首款搭载 HBM3e 内存的 H200，内存带宽达到 4.8TB/s，内存达到 141GB。

141GB 内存这个数字还挺奇怪，但这也是惯例。之前的 HBM3 芯片单颗内存为 16GB，堆叠 6 颗理论上应该是 96GB，但实际只有 80GB，就是英伟达为了保证良率，保留了一部分冗余空间。

而这次的 HBM3e 单颗容量为 24GB，6 颗算下来是 144GB，等于说这次英伟达只保留了 3GB 冗余，更大程度压榨了内存的空间，以实现性能上的突破。

这或许带来产能爬坡速度较慢的问题。

至于供应商方面，英伟达暂时没有公布，SK 海力士和美光今年都公布了这一技术，但美光在今年 9 月份表示，它正在努力成为英伟达的供应商，不知道 H200 有没有选上它。

这块最强 GPU 要到 2024 年二季度才正式发售，现在大家依然得抢 H100。

今年 8 月英伟达发布的 GH200 超级芯片，实际上是由 Grace CPU 与 H100 GPU 组合而成的。

这套组合在 NVLink 的加持下与 H200 完全兼容，也就是说原先用 H100 的数据中心既可以直接升级 H200，也可以再堆几块 H200 进去增加算力。

另一方面，根据此前英伟达公布的更新路径图，在 2024 年的四季度就将发布下一代 Blackwell 架构的 B100，性能将再次突破。

再结合我们上文提到的，相比于 H100，H200 只是在推理能力上有所提升，更接近老黄一贯以来的挤牙膏产品，真正的大招还得看明年的 B100。

问题是，英伟达为什么要出一款这样的产品?

H200 称不上传奇

显卡玩家都知道，老黄的刀法是出了名的精湛。

所谓刀工，就是你去买肉的时候说要一斤肉，老板一刀下去刚好一斤。放到显卡这里，则是厂商通过分割性能设计出不同价位的产品，以满足各类不同需求的消费者。

比如下图所示的五款同一年发售的显卡，采用相同制程和架构，但通过屏蔽不同量的流处理器以诞生性能有所差异的五款显卡。

发售价基本呈等差数列，如果把他们变成性能差异的话，则会出现下面这张层层递进的得分图。

很明显，消费者多花一分钱，就能多得到一点性能，号称每 500 元一档，每 5% 性能一级。

毕竟打游戏这事，有人只玩热血传奇，也有人就喜欢 4K 光追 120FPS 玩《赛博朋克 2077》，不同人群的需求千差万别，不同价位都有市场。

图片来源：极客湾

至于这么操作有什么好处——抢占市场，节约成本。

抢占市场比较好理解，在所有价格带和各种性能档次上铺满自家产品以挤压对手生存空间，这套做法各行各业都有，看看白酒和车企就知道了。

成本这边，一片晶圆能够切割出若干块 die(也就是芯片封装前的晶粒)，而这切割出来的 die 质量参差不齐，也就有了良品率的概念。

因此简单来说，以 16xx 系显卡为例，英伟达就会把质量最高的芯片做成性能最强的 1660Ti，差一点的做成 1660Super 和 1660，再差一点的继续降级。

这样就能够保证在芯片制造过程中的损耗尽可能降低。

同时这种刀法还能用来清库存，比如 22 年矿机市场崩盘，英伟达 30xx 系列芯片堆在仓库里卖不动，老黄就把用在高端显卡上的芯片放进低端显卡系列里，降价出售。

比如说原先放在 3090 上的 ga102 核心，22 年 3 月首发价 11999 元，到了 11 月就搭载到新版的 3070Ti V2 上，价格直接打到了 3500 左右。

回到 H200 这里，H100 已经是最强的 AI 芯片了，但英伟达就是要在 B100 和 H100 之间再切出一个 H200，同样也是上述的两个原因。

这里需要科普一下内存带宽的意义，一套服务器的真实计算速度(FLOPs/s)，是在计算密度 x 带宽与峰值计算速度这两个指标间取最小值。

而计算密度和带宽的上限都是受到内存技术影响的。（这里划个线，后面讨论中国特供 H20 还会提到。）

通俗来说，就是如果芯片内部计算已经结束，但新的数据没传过来，下一次计算也就不能开始，这部分算力实际上是被浪费的。

这也是为什么我们看到一些服务器的算力(FLOPs)相对较低，但计算速度却更高的原因。

因此对于一款高性能芯片来说，算力和带宽应当同步提升才能使计算速度最大化。

对于 H 系列 GPU 来说，在不改架构和所用制程的情况下，可能算力上的突破已经比较困难，但在 HBM3e 的加持下，内存和内存带宽得以继续提升。

另一方面，相较于此前训练大模型所强调的庞大算力，在当下 AI 应用大量落地的时代厂商开始重视推理速度。

推理速度和计算速度可以划上约等号，即是将用户输入的数据，通过训练好的大模型，再输出给用户有价值的信息的过程，也就是你等 ChatGPT 回复你的那段时间。

推理速度越快，回复速度越快，用户体验自然越好，但对于 AI 应用而言，不同难度等级的推理所需要的运算量天差地别。

打个比方，假设现在有一款和 GPT-4 同样强大的模型，但问他附近有什么好吃的足足花一分钟才能给出答案，但 GPT-4 只要一秒，这就是推理速度带来的差异。

这种推理速度上的差异延伸到应用生态上，则会影响应用的广度与深度，比如即时性要求更强的 AI 就必须拥有更高的带宽，最典型的案例就是自动驾驶技术。

在这一逻辑下，头部大厂自然会愿意为更高的内存买单。

而成本这一块，英伟达就更鸡贼了，咱们来看特供版 GPU：H20。

深厚刀工下的产物：H20

日前有消息称，英伟达现已开发出针对中国区的最新改良版系列芯片：HGX H20、L20 PCle 和 L2 PCle，知情人士称，最新三款芯片是由 H100 改良而来，预计会在 16 号正式公布。

这有三款芯片，但 L20 和 L2 是基于 Intel 的第三代平台，这里暂且不表，重点是采用 H100/H800 架构的 H20。

H20 的诞生背景这里就不再赘述，单看这名字，足足落后 H200 十倍，拜登看了直点头。

先看参数，H20 在内存上用的还是 H100 相同的 HBM3，6 个 16G 堆叠完完整整 96GB，完全没有任何留存部分，意味着该技术良率早已不是问题，明显的成熟制程。

但为了规避禁令限制，计算密度(下图中的 TPP/Die size)被大幅阉割，根据上文所述，计算速度也就是推理速度差了不止一星半点。

然后再看这张表，计算能力的核心参数 FP32 为 44TFLOPS，相较于 H100/200 并没有下降多少。

但在张量核心(Tensor Core)的部分则是大砍特砍，BF16、TF32 都被砍到只剩一个零头。

张量核心被砍，基本意味着这块 GPU 当下训练不出比 GPT-3 更高级的模型。

简单来说就是生成比 GPT-3 更高级的大模型所必备的，专为深度学习而设计的计算核心，

张量核心被砍，同样意味着生产这卡可以用成熟制程，品相差一点的晶粒，也就意味着更低的成本。

想想这是不是和显卡玩法差不多?

看到这里感觉就是个全面阉割版，用国产替代不行吗?

老黄刀法厉害就厉害在这：4.0TB 的内存带宽比 H100 还高，卡间、服务器间带宽 NVlink 速度 900GB/s 和 H100 持平。

也就是说，即便禁令影响不能出售高端 GPU，但中国客户可以多买几张堆一起，用来弥补单卡算力不足的问题，粗略算算 2.5 张 H20 可以等效于一张 A100。

NVlink 再加上 CUDA 生态，再算上成熟制程带来的低成本优势，即便国内厂商不得不给英伟达缴更多的税，H20 依旧是国内厂商最好的选择。

还是那句话，老黄这么多年积淀下的刀功确实能给蚊子腿做手术，这一刀下来，既规避了禁令限制，又让国内厂商继续买他们家的产品。

英伟达又赢麻了。

标签：天文科研动态、科研动态、天文学科研动态

最强AI芯片H200黄仁勋又在挤牙膏了

相关文章

钢铁之谜201不锈钢板的千吨秘密

高效污染物去除技术在工业废水处理设备公司中的应用研究

水质检测标准解析揭秘多少数值合格的科学依据