业务合作发布作品

    深度分析英伟达Thor,2000 TOPS是真的吗?

    佐思汽车研究头像佐思汽车研究头像
    佐思汽车研究2023-01-30

    英伟达Thor不仅是自动驾驶SoC,在英伟达的设想中,Thor将座舱、自动泊车和自动驾驶都收入囊中,也就是真正意义上的中央计算中心或者中央服务器,也是Zonal架构的核心。这是英伟达最具野心的芯片,不仅是自动驾驶,高通的大本营——座舱也要拿下。吉利旗下的极氪已经确定采用。


    英伟达Thor中央计算平台

    图片来源:NVIDIA



    Thor的公开资料很少,据英伟达的介绍,Thor就是英伟达Grace CPU和Hopper GPU的结合,英伟达称之为Grace Hopper架构,这两者的公开资料还是不少的,本文依据的资料主要来自英伟达Grace Hopper 架构白皮书。


    英伟达的GPU-CPU Superchip可以看做是Thor的放大版。图片来源:NVIDIA



    Grace Hopper超级芯片的内部框架图

    Hopper实际就是英伟达的H100 GPU。图片来源:NVIDIA



    图片来源:NVIDIA



    来一张H100的高清大图,H100分两种,一种是SXM,另一种是PCIe。H100 SXM5的INT8算力峰值可达4000TOPS,PCIe是3200TOPS。最近还有一种FH H100,性能略高于SXM。注意H100主芯片旁边的6个紧贴着的芯片,那就是昂贵的HBM3,由韩国SK Hynix提供,目前全球只有SK Hynix能够量产HBM3,也只有英伟达一个用户。这种芯片不太严格地说也能算Chiplet晶粒,那6个芯片实际应该叫die,由于价格非常昂贵,即使英伟达也要节约着用,每个die是16GB,不过有一个是空的,H100的HBM3是80GB,之所以加一个空的,主要是考虑到热效应,少一个die,热量分布不均匀。这也是台积电CoWoS不如英特尔EMIB的地方,英特尔可以不加空die。


    图片来源:NVIDIA



    上表为H100算力参数升级后的数据,离英伟达第一次宣传的算力几乎没有差别,峰值INT8达到近4000TOPS,这是自动驾驶最常用的格式。特斯拉自己研制的数据中心芯片Dojo D1被英伟达H100秒杀,Dojo D1的FP32算力仅为22 TFLOPS,不及英伟达H100的1/3。BF16精度算力为362TFLOPS,而H100是1979TFLOPS。二者差距明显。这些算力都是稀疏模型下取得的,稠密模型下减半。


    英伟达H100的SM(流多处理器)内部图

    图片来源:NVIDIA



    H100 SXM5每个GPU包含132个SM,H100 PCIe每个GPU包含114个SM。每个SM包含128个FP32 CUDA核心,128个FP64 CUDA核心,来应对FP32/FP64格式。H100 SXM5第四代Tensor核心数量是528个,H100 PCIe是456个。FP32核心会占用很大面积的die,Thor不做数据中心训练用就可以不要FP32核,或者只需要很少,2-4个就够。Tensor核心只需要H100的一半,也就是264个,Thor似乎就能做到2000TOPS了。


    实际H100关键的地方不在GPU核心,而是存储,这才是H100高算力的关键。H100的成本估计在1万美元左右,售价约3万美元,而存储占的成本估计有一半,甚至会超过一半。


    来源:公开信息整理



    对于深度学习或者说人工智能运算,瓶颈就在存储器,最简单的解决办法就是用HBM3内存,HBM就是高宽带。


    图片来源:SK Hynix



    高性能AI芯片必用HBM,HBM有三个缺点,一是价格昂贵,每GB成本大约20-40美元,至少8GB起售;二是必须使用2.5D封装,成本进一步增加;三是功耗增加不少。H100 PCIe的功耗仅H100 SXM5的一半。除了数据中心用得起HBM,消费类电子和汽车是不可能的。仅此一项就占了H100 SXM5大约2500美元的成本。


    HBM的成本还不是最高的,最高的成本是SRAM,也就是L2缓存,H100用的是台积电N4也就是4纳米工艺,不过这种工艺如果做SRAM并不会提高密度,N4工艺下每MB的SRAM成本大约40-50美元,也有人估计是近100美元。FH H100用的是60MB的SRAM,成本更高。这50MB的SRAM会占用大约2000美元的成本。


    Thor的价格不会高于500美元,超过500美元,车厂就无力承受了,也就不可能用HBM,也不可能用高容量的SRAM,Thor顶多会用LPDDR5,SRAM容量估计2-3MB。能不能达到2000TOPS的算力,相信大家都已经很清楚了。


    看完GPU再来看CPU。


    图片来源:NVIDIA



    英伟达的Grace超级芯片实际是两片芯片合起来的,每颗芯片有72个核心。这个核心就是Arm 的Neoverse V2。


    ARM 服务器CPU架构路线图

    图片来源:ARM



    V系列是高性能系列。


    图片来源:ARM



    与Orin的A78不同,Thor的Neoverse V2就是针对服务器设计的,一般来说最少都有24核心。Grace超级芯片每个核心有64 KB I-cache 和64 KB D-cache,L2级缓存也就是SRAM可以选1或2MB,英伟达节约成本,选择的是1MB,毕竟SRAM太贵了。L3缓存是234MB,每核心是1.625MB。英伟达为Grace超级芯片配备的板载DRAM是LPDDR5,容量高达960GB,每颗芯片有480GB。Grace超级芯片的功耗为500瓦,Thor在CPU部分功耗估计不超过20瓦,估计是24核心,甚至是16核心,对应的LPDDR5估计不超过64GB,否则就成本太高了。


    英伟达希望靠算力军备竞赛把对手拖下泥潭,一味追求算力或者说数字,都可能被英伟达吊打,功耗和价格是英伟达的缺点,高通未来有能力抗衡英伟达。


    声明:本文仅代表作者个人观点。


    更多佐思报告


    报告订购及合作咨询请私信小编。

    佐思2023年研究报告撰写计划

    智能网联汽车产业链全景图(2022年12月版)


    自主品牌主机厂自动驾驶

    汽车视觉(国内)

    高精度地图

    合资品牌主机厂自动驾驶

    汽车视觉(国外)

    高精度定位

    ADAS与自动驾驶Tier1-国内

    环视市场研究(本土篇)

    汽车网关

    ADAS与自动驾驶Tier1-国外

    环视市场研究(合资篇)

    数据闭环研究

    ADAS域控制器关键组件

    红外夜视

    汽车信息安全硬件

    自动驾驶与座舱域控制器

    自动驾驶仿真(国外)

    汽车信息安全软件

    多域计算和区域控制器

    自动驾驶仿真(国内)

    OEM信息安全

    乘用车底盘域控

    激光雷达-国内篇

    无线通讯模组

    域控制器排名分析

    激光雷达-国外篇

    汽车5G融合

    E/E架构

    毫米波雷达

    800V高压平台

    L4自动驾驶

    车用超声波雷达

    燃料电池

    L2/L2+自动驾驶

    Radar拆解

    一体化电池

    乘用车摄像头季报

    激光和毫米波雷达排名

    一体化压铸

    ADAS数据年报

    专用车自动驾驶

    汽车操作系统

    合资品牌车联网

    矿山自动驾驶

    线控底盘

    自主品牌车联网

    无人接驳车

    滑板底盘

    自动驾驶重卡

    无人配送车

    电控悬架

    商用车ADAS

    无人零售车研究

    转向系统

    商用车智能座舱

    农机自动驾驶

    线控制动研究

    商用车车联网

    港口自动驾驶

    充换电基础设施

    商用车智能底盘

    模块化报告

    汽车电机控制器

    汽车智能座舱

    V2X和车路协同

    混合动力报告

    智能座舱Tier1

    路侧智能感知

    汽车PCB研究

    座舱多屏与联屏

    路侧边缘计算

    IGBT及SiC研究

    智能座舱设计

    汽车eCall系统

    EV热管理系统

    仪表和中控显示

    汽车EDR研究

    汽车功率电子

    智能后视镜

    智能汽车个性化

    电驱动与动力域

    行车记录仪

    汽车多模态交互

    汽车线束

    汽车数字钥匙

    车载语音

    汽车音响

    汽车UWB研究

    TSP厂商及产品

    汽车座椅

    HUD行业研究

    自动驾驶法规

    汽车照明

    人机交互

    自动驾驶标准和认证

    汽车镁合金压铸

    车载DMS

    智能网联测试基地

    电装新四化

    OTA研究

    PBV及汽车机器人

    造车新势力-蔚来

    汽车云服务研究

    飞行汽车

    造车新势力-小鹏

    汽车功能安全

    行泊一体研究

    造车新势力-理想

    AUTOSAR研究

    智慧停车研究

    自动驾驶芯片

    软件定义汽车

    汽车分时租赁

    座舱SOC

    软件供应商

    共享出行及自动驾驶

    汽车VCU研究

    乘用车T-Box

    车企数字化转型

    汽车MCU研究

    商用车T-Box

    智能表面

    传感器芯片

    T-Box排名分析

    车型供应商调研

    车载存储芯片

    小鹏G9功能拆解

    蔚来ET5/ET7智能化功能拆解

    汽车CIS研究

    理想L8/L9功能拆解

    大疆前视双目与图达通激光雷达拆解

    自动驾驶融合算法


    「佐思研究月报」

    ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报 | 车载信息系统月报 | 乘用车ACC数据月报 | 前视数据月报 | HUD月报 | AEB月报 | APA数据月报 | LKS数据月报 | 前雷达数据月报

    .万次阅读
    30评论
    34赞同
    收藏
    分享
    30评论
    34赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯