(三)数据标注

可以看到在特斯拉的自动驾驶方案中,无论是在感知层面还是规控层面,核心算法基本都是由数据驱动的,数据的数量和质量决定了算法的性能,因此构建一套高效获取、标注及仿真训练数据的闭环至关重要。
特斯拉每年售出近百万辆汽车,通过这些汽车日常运行,可以采集到超大规模的原始数据集,对这些数据集的标注工作特斯拉最早是外包给合作方,后来发现存在交付延迟和质量不高的情况,因此便在内部发展了上千人的标注团队并独立开发标注基础设施。
特斯拉的标注最初是在二维图像中进行的,后来发展为四维实现,除了标注三维空间外还有对时间维度的标注,直接在向量空间中完成标注后再反向投影到摄像头对应的图像空间中。

图:特斯拉的四维标注
随着数据规模的逐渐扩大,人工标注的方式需要消耗大量人力成本,同时人类相对更擅长语义分割之类的标注任务,对于几何图形的标注,反倒是机器更擅长,因此特斯拉引入了自动标注的方法,实现人工与机器相结合的数据标注模式。
特斯拉实现自动标注的方案是通过汽车在一段时间内采集到的视频、IMU、GPS、里程表等数据构成最小标注单元(Clip),由离线神经网络系统训练得到中间层结果,如目标物、语义分割、深度、光流等,再通过大量机器算法生成最终用以训练的标签集,包括行车轨迹、静态环境重建、动态物、运动学参数等,人工可以对自动生成的标签集进行调整干预。

图:自动标注方案实现过程
对于静态标注物,例如对于某一段道路的标注,以摄像头采集到的路面每个点的平面坐标作为输入,通过神经网络预测出这个点的高度及相关的语义分割、道路线边界等三维中间结果,然后将这个三维点反向投影至各个摄像头的二维空间,并将其与原本在二维图像空间内直接做语义分割的结果进行对比,再基于各个摄像头的对比结果进行跨时空维度的联合优化实现重建,最终得到整个道路在各摄像机画面内及视频前后帧时间序列中的一致性标注结果。
通过不同辆车不同时间经过同一路段采集到的视频数据,按照上述方法进行自动标注,再将所有标注结果进行融合后优化,得到该路段的精确标注结果,实现道路重建。

图:自动标注实现道路重建
通过这种方式,不仅可以重建道路,还可以重建墙体、屏障、建筑物等所有静态环境物。
对于动态标注物,核心是要标注其运动学参数及行为轨迹预测,通过不同车辆在同一路段采集的含时间序列的视频标注单元,我们不仅可以知道每个标注物过去时刻的信息,还可以知道未来时刻的信息,因此可以轻易获取每个动态标注物运动轨迹和参数的“真值”,即使被遮挡的运动物体也可以标注出来。

图:动态物体自动标注
通过对静态物体和动态物体分别标注,最终得到一个最小标注单元的完整标注结果,如下图所示。

图:自动标注实现Clip的完整标注
可以看到,只需要汽车在路上行驶采集到的数据作为输入,然后运行标注模型,再将结果进行融合优化,便可以得到任意场景的标注结果,全过程自动实现,无人工参与。
一万个标注单元在一周内,即可完成自动化标注,而纯人工标注则需要几个月的时间,自动标注大大提升了标注效率。
数据采集:
通常自动驾驶算法会采取一定的触发(Trigger)机制来开启数据上 传。
如出现人类驾驶和自动驾驶不一致的情况,或不同传感器之间一致性不同的情况,或者不同算法出现冲突,以及某些指定的特殊场景如近距离跟车、加塞、光照 急剧变化、阴影车道线等等。
特斯拉在 2022年AI DAY 上表示其拥有 221 种触发器。
数据清洗/挖掘:数据清洗和挖掘实际上是数据处理的过程,通常采集的数据包 含大量的无用数据,这里需要算法将训练模型所需要的数据提取出来,以实现有效的数据收集,同时修正部分错误数据。
这其中对于数据处理的“内功”要求深厚。
数据标注:挖掘到有价值的数据后,需要采用人工标注或自动标注的方式,叠 加部分仿真数据,形成数据集来实现对算法的训练和迭代。这其中涉及 2D 标注、3D 标注、车道线标注、语义分割等,工作量大,同时影响着车企自动驾驶算法的迭代, 是数据闭环中的重中之重。
评论·0