英伟达Thor不仅是自动驾驶SoC,在英伟达的设想中,Thor将座舱、自动泊车和自动驾驶都收入囊中,也就是真正意义上的中央计算中心或者中央服务器,也是Zonal架构的核心。这是英伟达最具野心的芯片,不仅是自动驾驶,高通的大本营——座舱也要拿下。吉利旗下的极氪已经确定采用。
英伟达Thor中央计算平台

图片来源:NVIDIA
Thor的公开资料很少,据英伟达的介绍,Thor就是英伟达Grace CPU和Hopper GPU的结合,英伟达称之为Grace Hopper架构,这两者的公开资料还是不少的,本文依据的资料主要来自英伟达Grace Hopper 架构白皮书。

英伟达的GPU-CPU Superchip可以看做是Thor的放大版。图片来源:NVIDIA
Grace Hopper超级芯片的内部框架图

Hopper实际就是英伟达的H100 GPU。图片来源:NVIDIA

图片来源:NVIDIA
来一张H100的高清大图,H100分两种,一种是SXM,另一种是PCIe。H100 SXM5的INT8算力峰值可达4000TOPS,PCIe是3200TOPS。最近还有一种FH H100,性能略高于SXM。注意H100主芯片旁边的6个紧贴着的芯片,那就是昂贵的HBM3,由韩国SK Hynix提供,目前全球只有SK Hynix能够量产HBM3,也只有英伟达一个用户。这种芯片不太严格地说也能算Chiplet晶粒,那6个芯片实际应该叫die,由于价格非常昂贵,即使英伟达也要节约着用,每个die是16GB,不过有一个是空的,H100的HBM3是80GB,之所以加一个空的,主要是考虑到热效应,少一个die,热量分布不均匀。这也是台积电CoWoS不如英特尔EMIB的地方,英特尔可以不加空die。

图片来源:NVIDIA
上表为H100算力参数升级后的数据,离英伟达第一次宣传的算力几乎没有差别,峰值INT8达到近4000TOPS,这是自动驾驶最常用的格式。特斯拉自己研制的数据中心芯片Dojo D1被英伟达H100秒杀,Dojo D1的FP32算力仅为22 TFLOPS,不及英伟达H100的1/3。BF16精度算力为362TFLOPS,而H100是1979TFLOPS。二者差距明显。这些算力都是稀疏模型下取得的,稠密模型下减半。
英伟达H100的SM(流多处理器)内部图

图片来源:NVIDIA
H100 SXM5每个GPU包含132个SM,H100 PCIe每个GPU包含114个SM。每个SM包含128个FP32 CUDA核心,128个FP64 CUDA核心,来应对FP32/FP64格式。H100 SXM5第四代Tensor核心数量是528个,H100 PCIe是456个。FP32核心会占用很大面积的die,Thor不做数据中心训练用就可以不要FP32核,或者只需要很少,2-4个就够。Tensor核心只需要H100的一半,也就是264个,Thor似乎就能做到2000TOPS了。
实际H100关键的地方不在GPU核心,而是存储,这才是H100高算力的关键。H100的成本估计在1万美元左右,售价约3万美元,而存储占的成本估计有一半,甚至会超过一半。

来源:公开信息整理
对于深度学习或者说人工智能运算,瓶颈就在存储器,最简单的解决办法就是用HBM3内存,HBM就是高宽带。

图片来源:SK Hynix
高性能AI芯片必用HBM,HBM有三个缺点,一是价格昂贵,每GB成本大约20-40美元,至少8GB起售;二是必须使用2.5D封装,成本进一步增加;三是功耗增加不少。H100 PCIe的功耗仅H100 SXM5的一半。除了数据中心用得起HBM,消费类电子和汽车是不可能的。仅此一项就占了H100 SXM5大约2500美元的成本。
HBM的成本还不是最高的,最高的成本是SRAM,也就是L2缓存,H100用的是台积电N4也就是4纳米工艺,不过这种工艺如果做SRAM并不会提高密度,N4工艺下每MB的SRAM成本大约40-50美元,也有人估计是近100美元。FH H100用的是60MB的SRAM,成本更高。这50MB的SRAM会占用大约2000美元的成本。
Thor的价格不会高于500美元,超过500美元,车厂就无力承受了,也就不可能用HBM,也不可能用高容量的SRAM,Thor顶多会用LPDDR5,SRAM容量估计2-3MB。能不能达到2000TOPS的算力,相信大家都已经很清楚了。
看完GPU再来看CPU。

图片来源:NVIDIA
英伟达的Grace超级芯片实际是两片芯片合起来的,每颗芯片有72个核心。这个核心就是Arm 的Neoverse V2。
ARM 服务器CPU架构路线图

图片来源:ARM
V系列是高性能系列。

图片来源:ARM
与Orin的A78不同,Thor的Neoverse V2就是针对服务器设计的,一般来说最少都有24核心。Grace超级芯片每个核心有64 KB I-cache 和64 KB D-cache,L2级缓存也就是SRAM可以选1或2MB,英伟达节约成本,选择的是1MB,毕竟SRAM太贵了。L3缓存是234MB,每核心是1.625MB。英伟达为Grace超级芯片配备的板载DRAM是LPDDR5,容量高达960GB,每颗芯片有480GB。Grace超级芯片的功耗为500瓦,Thor在CPU部分功耗估计不超过20瓦,估计是24核心,甚至是16核心,对应的LPDDR5估计不超过64GB,否则就成本太高了。
英伟达希望靠算力军备竞赛把对手拖下泥潭,一味追求算力或者说数字,都可能被英伟达吊打,功耗和价格是英伟达的缺点,高通未来有能力抗衡英伟达。
声明:本文仅代表作者个人观点。
更多佐思报告
报告订购及合作咨询请私信小编。
佐思2023年研究报告撰写计划
智能网联汽车产业链全景图(2022年12月版)
自主品牌主机厂自动驾驶 | 汽车视觉(国内) | 高精度地图 |
合资品牌主机厂自动驾驶 | 汽车视觉(国外) | 高精度定位 |
ADAS与自动驾驶Tier1-国内 | 环视市场研究(本土篇) | 汽车网关 |
ADAS与自动驾驶Tier1-国外 | 环视市场研究(合资篇) | 数据闭环研究 |
ADAS域控制器关键组件 | 红外夜视 | 汽车信息安全硬件 |
自动驾驶与座舱域控制器 | 自动驾驶仿真(国外) | 汽车信息安全软件 |
多域计算和区域控制器 | 自动驾驶仿真(国内) | OEM信息安全 |
乘用车底盘域控 | 激光雷达-国内篇 | 无线通讯模组 |
域控制器排名分析 | 激光雷达-国外篇 | 汽车5G融合 |
E/E架构 | 毫米波雷达 | 800V高压平台 |
L4自动驾驶 | 车用超声波雷达 | 燃料电池 |
L2/L2+自动驾驶 | Radar拆解 | 一体化电池 |
乘用车摄像头季报 | 激光和毫米波雷达排名 | 一体化压铸 |
ADAS数据年报 | 专用车自动驾驶 | 汽车操作系统 |
合资品牌车联网 | 矿山自动驾驶 | 线控底盘 |
自主品牌车联网 | 无人接驳车 | 滑板底盘 |
自动驾驶重卡 | 无人配送车 | 电控悬架 |
商用车ADAS | 无人零售车研究 | 转向系统 |
商用车智能座舱 | 农机自动驾驶 | 线控制动研究 |
商用车车联网 | 港口自动驾驶 | 充换电基础设施 |
商用车智能底盘 | 模块化报告 | 汽车电机控制器 |
汽车智能座舱 | V2X和车路协同 | 混合动力报告 |
智能座舱Tier1 | 路侧智能感知 | 汽车PCB研究 |
座舱多屏与联屏 | 路侧边缘计算 | IGBT及SiC研究 |
智能座舱设计 | 汽车eCall系统 | EV热管理系统 |
仪表和中控显示 | 汽车EDR研究 | 汽车功率电子 |
智能后视镜 | 智能汽车个性化 | 电驱动与动力域 |
行车记录仪 | 汽车多模态交互 | 汽车线束 |
汽车数字钥匙 | 车载语音 | 汽车音响 |
汽车UWB研究 | TSP厂商及产品 | 汽车座椅 |
HUD行业研究 | 自动驾驶法规 | 汽车照明 |
人机交互 | 自动驾驶标准和认证 | 汽车镁合金压铸 |
车载DMS | 智能网联测试基地 | 电装新四化 |
OTA研究 | PBV及汽车机器人 | 造车新势力-蔚来 |
汽车云服务研究 | 飞行汽车 | 造车新势力-小鹏 |
汽车功能安全 | 行泊一体研究 | 造车新势力-理想 |
AUTOSAR研究 | 智慧停车研究 | 自动驾驶芯片 |
软件定义汽车 | 汽车分时租赁 | 座舱SOC |
软件供应商 | 共享出行及自动驾驶 | 汽车VCU研究 |
乘用车T-Box | 车企数字化转型 | 汽车MCU研究 |
商用车T-Box | 智能表面 | 传感器芯片 |
T-Box排名分析 | 车型供应商调研 | 车载存储芯片 |
小鹏G9功能拆解 | 蔚来ET5/ET7智能化功能拆解 | 汽车CIS研究 |
理想L8/L9功能拆解 | 大疆前视双目与图达通激光雷达拆解 | 自动驾驶融合算法 |
「佐思研究月报」
ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报 | 车载信息系统月报 | 乘用车ACC数据月报 | 前视数据月报 | HUD月报 | AEB月报 | APA数据月报 | LKS数据月报 | 前雷达数据月报
评论·0