业务合作发布作品

    详解特斯拉FSD-Autopilot之自动驾驶体系 6.车端算力

    096核子头像096核子头像
    096核子2023-10-26

    (六)车端算力


    一、HW1.0


    2014年发布HW1.0–基于Mobileye芯片的第一代驾驶辅助硬件。


    它使用了:


    单个EQ3系列摄像头;


    单个毫米波雷达;


    和12个中程超声波传感器。


    毫米波雷达是由博世提供,摄像头布置于后视镜附近,硬件选型都是基于市场上成熟的供应商产品。


    在HW1.0阶段,特斯拉的主要方案是多传感器融合+应用层软件开发。







    二、HW2.0



    2016年发布HW2.0–特斯拉设计的第二代驾驶辅助硬件。


    传感器数量大幅提升:


    使用8个摄像头;


    12个远程超声波传感器;


    和一个前置毫米波雷达。


    这套传感器配置为特斯拉FSD功能打下良好的基础。


    现在回看,当时的特斯拉传感器布局极具前瞻性。


    特斯拉基于英伟达Drive PX2开发一个全新的驾驶辅助硬件;


    MCU芯片采用英飞凌TriCore系列产品;


    毫米波雷达仍然是博世产品,该驾驶辅助硬件安装于手套箱下方。


    这个阶段特斯拉,掌握图像识别算法+多传感器融合+应用层软件开发。






    HW2.5–这是对HW2.0的一个小版本更新,主要用于冗余和略微提高的可靠性。


    此版本还新增两个功能:行车记录仪和带有本地保存视频的哨兵模式。


    还有一个变化点是毫米波雷达的供应商从博世变成大陆,大陆的毫米波雷达也不逊色于博世。




    三、HW3.0


    2019年发布HW3.0–特斯拉驾驶辅助硬件的重大革新。


    首次采用自研的自动驾驶芯片,抛弃英飞凌/英伟达的产品。




    自研高度集成的SoC+MCU芯片。


    特斯拉具备全套芯片设计+图像识别算法+多传感器融合+应用层软件开发。






    值得一提的是,早在2021年5月,特斯拉就开始向纯视觉方案过渡。


    随后于2022年10月,特斯拉官方发布关于新车硬件配置的更新说明:将采用纯视觉系统(Tesla Vision)取代超声波传感器(USS)。


    不过,对于这样的技术迭代,卡内基梅隆大学电气和计算机工程教授拉杰·拉吉库马(Raj Rajkumar)曾表示,“此举究竟是前进还是倒退,还有待观察。”





    四、HW4.0


    2023年发布HW4.0,注意:此时传感器不再是8颗摄像头的纯视觉方案 ,而是增加了一颗超声波雷达!


    同时宣布,HW5.0也已在路上!估计2025年发布!






    下图是HW3.0的CPU架构,为3集群的12核,每个核core是ARM的Cortex-A72。




    ARM提升性能最有效的做法:


    一是增加IPC解码宽度;

    二就是增加缓存Cache容量;

    三是提高核心运行频率。


    HW4使用了基于三星Exynos IP的内核,就是基于IPC的解码宽度!


    X3运行频率高达3.36GHz,而M5很难超过2.5GHz。估计特斯拉魔改了M5,成为一个类X3的超大核!






    特斯拉HW4.0的5集群20核,可能用12核或16核自研类X3架构;


    搭配8核或4核Cortex-A72,A72的运行频率比较低,最低1.37GHz,典型运行频率估计是1.5GHz。


    特斯拉的HW4.0 CPU的20核(混搭类X3与A72)比12核A78的英伟达Drive Orin估计要强15-30%!


    下图HW3 .0的GPU部分,1个工作频率为2GHz的Mali G71 MP12 GPU;2个工作频率为2GHz的NPU。



    HW4.0 FSD芯片可能也会像三星Exynos 990一样有一个MALI G77内核的GPU,算力估计有1GFLOPS。


    图像传感器从


    安森美的AR0136AT;


    改为索尼的IMX490 ;


    NPU:按照特斯拉爆料大神Greentheonly的说法,HW4 FSD芯片是3个NPU,这个NPU应该类似亚马逊Inferentia里的Neuron核心。


    一般来说,核心都是对称平行出现,也就是只可能是偶数,不大可能是3个。


    应该是特斯拉添加了一个CPU!


    两个NPU还是和初代FSD芯片一样,拥有96*96=9216个MAC阵列,算力就很好计算了,9216个阵列。


    一个MAC包含两个operation,因此就是:


    9216*2*2.2=40.55TOPS;


    两个就是81TOPS,两片FSD就是162TOPS的AI算力。


    添加一个CPU主要是应对Transformer,特斯拉有这方面的技术积累,Dojo的CPU架构完全可以再用一次。


    再有就是订制的CPU可以使用自定义的RISC-V指令集而非通常的ARM指令集,这样效率更高。


    至于算力,这只是个数字游戏,单看芯片的算力毫无意义。


    因为AI算力的瓶颈在内存,内存的吞吐量或者说带宽远低于AI处理器的运算速度。


    AI处理器的速度再快,算力再高,90%的时间都是在等内存搬运数据。


    另一个瓶颈就是CPU,AI处理器是个协处理器,需要HOST主机做任务分配和调度,这个HOST一般就是CPU,CPU要足够强,才能发挥AI处理器的全部潜力。


    服务器芯片领域都是用HBM解决内存瓶颈,但汽车领域不行,汽车领域对价格非常敏感,上万美元的芯片不可能出现在量产车上。


    汽车领域最多也就是GDDR6。


    CNN时代,外置CPU足以配合好AI处理器;


    Transformer时代最好内置CPU,这是绝大多数AI芯片不具备的能力。


    Tesla的SoC设计中,除了自研的Neural Network Processor部分之外,其它都是用业界标准IP,并没做太多定制工作,只能说中规中矩。

    次阅读
    评论
    赞同
    收藏
    分享
    评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯