业务合作发布作品

    算力内卷的当下,特斯拉 FSD 的144 TOPS算力足够吗?

    在今年一月初结束的CES上,各大车企为了让自家的自动驾驶系统看起来亮眼,在算力上大做文章。前有国内蔚来ET7(图片|配置|询价)等造车新势力宣布搭载4颗Nvidia Orin,直接将自动驾驶系统的算力堆到难以逾越的1016TOPS,后有国外凯迪拉克 Celestiq EV搭载了两片骁龙SA8540P把算力堆到了300TOPS。


    就在整车厂、芯片厂和消费者都沉浸在高算力所带来的令人激动的氛围中时,全球领先的自动驾驶解决方案提供商Mobileye却泼了一盆冷水。在行业玩家都纷纷追求高算力的2022年,Mobileye推出的旗舰产品EyeQ Ultra却只有176TOPS。

    Mobileye的CEO Ammon Shashua在CES上抛出了一个有悖于直觉的观点,他说「我们非常坦率地认为TOPS是一个非常不充分的计算能力指标,集成在EyeQ芯片中的计算模型非常复杂,远不是单一指标能够量化的」。

    Ammon Shuashua的这番言论并不是空穴来风,如果单纯靠TOPS的大小来表征自动驾驶的能力,那么Tesla配备的144 TOPS的FSD早就被各大造车势力秒成了渣渣,而恰恰相反FSD早已在美国的大街小巷跑了起来。

    那么为什么越来越多的车企都在追求高算力?

    算力高意味着什么?

    高算力有着很多天然优势,它意味着自动驾驶系统可以获取到的资源更多,也就意味着可以实现或预埋的功能(比如影子模式)越多。

    但高算力并不是没有代价的,算力越高也意味着芯片物料越多,进而拉高芯片的成本,这一部分成本最终会反应在汽车的售价上,需要消费者来承担。此外芯片算力越高,其功率也将快速增加,如下图是Nvidia发布的不同等级自动驾驶及对应的功耗。高功耗将导致汽车,尤其是新能源车的可用里程变少。

    Ammon Shashua在CES上也表达过现阶段芯片能耗过高的担忧,他说「计算的能耗要求在产品的经济性方面是非常关键的。我们知道 EyeQ Ultra 运行 Robotaxi 的自动驾驶系统 Mobileye Drive,功耗将是 100 瓦。这在电动汽车的世界里是前所未有的」,「我们不希望关键能耗会耗尽电池电量」。

    那么当下为了实现全场景(城区、高速、泊车)的自动驾驶系统,算力需要控制在什么范围内比较合理呢?

    从已量产自动驾驶功能的车企的现状可以初步做出一个判断。

    国内的小鹏P7用30TOPS的Nvidia Xavier实现高速场景下的NGP,这是因为高速场景相对单一,所需要的环境感知、规控能力要求会低一些,所以30TOPS用于应付高速场景是完全足够的;国外Tesla用144 TOPS算力的FSD实现了全场景的自动驾驶,除此之外在FSD上还同步部署了影子模式、自动Trigger采集数据等复杂功能。综合这些车企的量产实践和考虑一些功能拓展,可以大致推算出算力保持在120~200 TOPS是一个比较合理的区间。

    自动驾驶芯片真正需要的是什么?

    如果算力大小不是自动驾驶芯片的关注重点,那自动驾驶芯片到底应该关注什么?

    自动驾驶芯片真正需要关注的是芯片的有效利用率。

    包括国外Tesla、Mobileye国内地平线Horizon在内的研发团队都注意到芯片的有效利用率才是衡量自动驾驶芯片的关键指标。

    特斯拉为了实现城区FSD,从第三代硬件Hardware 3.0开始,就开始采用其自研 AI 芯片 FSD芯片替代Hardware 2.5 中的 Nvidia Drive PX2,算力从单片 24 TOPS 提升到了单片 72 TOPS,总算力虽然提高了三倍,但同样的网络模型在两片芯片上运行时,Hardware 2.5时每秒只能处理 110 帧图像,在Hardware 3.0上却能高达 2300 帧,帧率(FPS)提升足有21倍。

    除了Tesla外,地平线也做过类似的评测。他们将地平线征程5和Nvidia最新一代自动驾驶芯片Orin在同一套数据集上进行评测对比,发现征程5的FPS高达1283,也是优于Nvidia Orin的。

    为什么Tesla对帧率(FPS)如此重视呢?原因可以从Tesla FSD的架构图上看出。

    Tesla FSD有三个大的模块,第一是感知模块(图中Vision),第二块是规划模块(图中Planning和NN Planner),第三块是控制模块(图中的Steering & Accel)。这三个模块是所有自动驾驶系统的基础。

    在架构明确的情况下,为了让FSD能够更快地对现实世界做出反应,就需要尽可能地降低各模块的时延,即提高各模块的帧率(FPS)。控制模块由于受限于机械执行器,时延很难降低,因此只有尽可能通过优化芯片的有效利用率,提升环境感知和规划模块的帧率,才能降低端到端的时延,提高响应速度。更高的芯片有效利用率才能得到更高的帧率,这大概就是Tesla要自研FSD Chip的原因。。

    与国外Tesla相似,国内自动驾驶技术解决方案提供商地平线Horizon也是有效利用率(效能论)的坚定支持者。

    地平线尝试将多种不同的模型同时部署到N厂商的AI芯片(11.4 TOPS)和他们的AI芯片(4 TOPS)上比拼芯片的有效利用率,并将统计结果做成了下图。

    可以看出N家AI芯片相比地平线AI芯片算力更高,但其算力的有效利用率上却打了很大折扣,不同模型算法的有效利用率有很大差异。实际使用时就会有个很奇怪的现象,虽然芯片的TOPS很高,但实际模型跑在芯片上的效果并不好,这正是芯片有效利用率低的表现。

    正如对于汽车来说,马力(单位:HP)只是一个落在纸面上的指标,百公里加速时间才是更能真实反映整车动力性能的指标。对于芯片来说,算力(TOPS)并不能真实反映自动驾驶芯片的实际性能,有效利用率才是。

    2021已过,希望无论是主机厂还是普通消费者,都要避免陷入算力至上的误区,芯片的效能才是我们在2022年要关注的重点。

    次阅读
    13评论
    赞同
    收藏
    分享
    13评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯