如果将智能汽车看作是一个会自主移动的智能机器人,那么负责感知的传感器就是机器人的“眼睛”。“眼睛”的视力会影响智能驾驶系统整体的性能和体验。
也正因这种对视觉影像信息的需求,车载摄像头对于智能驾驶必不可少。视觉影像信息在成本、分辨率和语义等方面具备天然优势,对于驾驶者也十分直观,因此,目前的各类智能驾驶系统方案,都是由前视视觉摄像头承担大部分感知任务。
但在具体的传感器布局中,如何平衡性能、成本和可靠性的三角关系,考验着智能驾驶研发和工程团队的智慧:这决定了在一个高速移动的智能机器人眼睛里,看见的是怎样的世界。
01 单目,多单目和立体双目,区别在哪?
视觉摄像头上车,最早是作为倒车影像的传感器。早在1991年丰田 Soarer系列车型就配有后视摄像头来支持倒车影像,后续也出现了更多方向的摄像头配置。进入21世纪后,视觉影像信息开始成为车辆主动安全技术的重要组成部分。2006年,多款豪华车型开始搭载前视摄像头实现碰撞预警、车道偏移预警等功能。
随着高级辅助驾驶系统(ADAS)的初步发展,越来越多的汽车厂商及供应商为更多智能驾驶的功能实现,提供不同的前视视觉摄像头方案,这也让前向单目、前向三目(三个非同焦单目)系统成为了常见的智能驾驶系统。
但这种单目或者多单目的视觉摄像头在感知上有一定“盲区”。视觉将三维世界投影成为二维图像的过程中,需要根据一定的后天经验,或者说“算法”,来判断物体的大致距离,但是这些经验假设并不能保证在任何时候都成立。
一个典型的例子就是视错觉艺术 Ames Room。尽管在下图里的这个房间看起来非常正常,但是实际上它并非一个标准房间。相机的成像过程由于丢失了深度信息,造成了视觉上对三维空间的误判。如果切换到驾驶场景,这样的错觉必然会导致一系列的安全事故。
视错觉艺术 Ames Room 示例
上图:单目视觉看到的二维平面,下图:三维空间的真实世界
同样的,在智能驾驶场景中,想要规避特殊视角,特殊场景带来的感知问题,深度信息必不可少。
但几乎所有的单目或多单目视觉方案,都很难直接提供视场内的深度信息,需要其他外部数据输入,或者凭借“近大远小”的经验估算。
此外,单目视觉在障碍物检测时强依赖于深度学习方案,通过大量的训练数据,来学习从二维图像到三维空间的映射关系,这意味着对于非常规的或未见过的障碍物类型容易出现漏检。这依赖大量的数据训练,时间长成本高,而且客观上无法穷尽所有障碍物类型,对环境感知的泛化能力较弱。这种先天不足导致的事故在智能驾驶发展早期有过多起案例。
而立体双目的原理与人的眼睛一致,事实上,所有脊椎动物都是通过双眼视力来获得环境三维信息,“看见”立体的世界。相对于单目或者多单目视觉,立体双目可以通过视差感知到三维空间的深度、物体相对位置等几何信息,在效率和可靠性上的优势非常突出。
有趣的是,如果算上所有广义的“车”,利用立体双目“自己开起来”的车,可以追溯到1996年。
在美国国家航空航天局(NASA)发射的人类首辆火星车旅居者号(Mars Rover Sojourner)上,就搭载了立体双目视觉系统,以适应在未知的火星表面探索和行进的需要。在科幻电影《火星救援》中, 马特·达蒙饰演的宇航员正是通过这台火星车与地球重新取得了联系并获救。
影片《火星救援》中宇航员马克
找到的旅居者火星车及其配置的立体双目视觉系统
事实上,后续多款外太空登陆巡视器,包括我国自主研发制造的玉兔号月球车和祝融号火星车,均搭载了立体双目视觉系统用于导航和避障。这正是因为立体双目视觉系统的在未知环境中运行的可靠性高,为车辆行驶的安全性提供了更好的保障。
由中国空间技术研究院研发制造的祝融号火星车 图源:CNSA
相比单目或多单目视觉系统,立体双目视觉系统能通过测距原理在数据上还原三维物理世界的深度信息。这是根据几何学中三角测量原理,即不同地点观察同一个物体的视角差异,来计算物体的距离。由于三角测量是建立在严密的数学关系上,并且不受环境假设的影响,它被广泛应用于测绘、天文测量等领域。这也是人类眼睛观察认知世界的方式。
具体来说,如下图所示,只需要计算出左摄像头中每个像素在右摄像头中的对应像素,结合每个摄像头间的相对位置关系和镜头参数,就可以换算到物体在物理空间中的位置。
立体双目测距原理图
在获得了环境多个位置的距离信息后,立体双目视觉系统能够统计出高分辨率的稠密三维点云,实现对环境的准确感知,实现更加可靠、更高鲁棒性的任意类型障碍物检测和避让。
立体双目测距公式
这种感知方式与激光雷达有相似之处:激光雷达是通过激光回波直接测量激光点所扫到位置的距离信息,然后将这些距离信息统计为点云。区别在于,激光雷达的距离信息非常精准,而且可以测量很远的物体,但即便是128线激光雷达,每帧也只能提供约15万个点;而立体双目视觉系统所提供的点云密度可以轻松达到百万量级,但精度不如激光雷达。
而考虑到当前两种传感器的成本、可靠性和寿命,显然立体双目视觉系统更具有市场竞争力。
所以,单目、多单目与立体双目的区别在于:视觉传感器是仅拍摄平面图像,分析图像语义,根据训练数据推测距离;还是直接测量距离、空间位置关系等几何信息。
02 惯导立体双目:从天空,到远方
大疆车载特有的惯导立体双目传感器,在立体双目视觉的基础上融入了符合车规的六轴惯性测量单元(IMU)。这是大疆车载团队从无人机系统的发展实践中继承而来的技术路线。
2016年3月,大疆发布了全球首款具备机器视觉能力的消费级无人机——大疆精灵 4(DJI Phantom 4)。通过安装在机身支架位置的一对前向双目摄像头,以及无人机本身具备的惯导、超声波等传感器,这款无人机首次实现了“障碍感知”、“智能跟随”、“指点飞行”等智能功能。后续大疆各款无人机推出了更多智能功能,如全向避障、手势操控等等。这都依赖于立体双目视觉系统能力的不断提升。
2016年推出的大疆精灵 4 ,成为了划时代的经典之作
于是,在2016年开始探索智能驾驶领域时,可靠性高,成本适宜,成熟量产的惯导立体双目视觉系统成为大疆车载智能驾驶方案的感知核心。(拓展阅读:无人机和自动驾驶,其实都属于智能机器人)
大疆车载惯性测量单元(IMU)内建在摄像头模组中,采用视觉惯导融合定位技术(VINS),利用加速度数据提升双目测距的精度和稳定性。在一些极端环境,如急行急停的拥堵、暴雨、夜间、地下停车场等场景,都可保持高精度的车辆轨迹计算。
视觉惯导融合定位技术(VINS)
支持地下多层停车场的高精度性能
基于实时定位与地图构建技术(SLAM),即使受极端环境影响传感器无法直接测量部分环境信息,也可以通过融合一些与定位相关的信息片段,如直线速度、过弯角度、路牌或其他参照物在图像上的位置,来计算车辆定位与环境三维结构。大疆在这一技术领域一直处于世界领先地位,在飞控、航测等技术领域积累了大量实践,而大疆车载也在实车环境打磨了六年以上。这为惯导立体双目视觉系统在量产车型上应用提供充分保障。
03 惯导立体双目视觉系统量产的挑战
最初,惯导立体双目视觉系统的传感器安装是有一定限制条件的。成对的两只摄像头的实际位置、角度等,在真实的环境中会遇到安装公差、热胀冷缩、车辆运行中的抖动、以及长时间使用后的结构形变,而影响测量精度,如果不加以校准,会让生成的点云与实际场景存在偏差,影响系统性能和功能安全。
为了解决这个问题,大疆车载对于惯导立体双目视觉系统的硬件设计、制造,软件算法标定等方面都提出了严格的标准要求。
系统自标定对于智能驾驶场景的重要性
要保证双目测距的精度,需要基于两只摄像头之间的位置、朝向、距离,以及摄像头分辨率,进行校准。而在车辆使用中产生的偏差,则会通过自标定算法,实时计算两个摄像头之间的相对朝向关系,精度能够精确到百分之一度,基本消除因为温度变化,车辆振动,结构老化形变带来的影响。
如下图所示,在大疆车载第一代惯导立体双目视觉系统上,配置有刚性的连接杆来固定摄像头,并且为了消除光线折射对视觉的影响加上了覆盖整个零部件的遮光罩。
而在大疆车载第二代惯导立体双目视觉系统上,通过加入定制的光学偏振片来取消整体遮光罩,并通过更优异的自标定算法取消了刚性连接杆。这使得传感器的安装更加简单,两颗摄像头的距离也可以在180毫米到400毫米间灵活配置。
大疆车载第二代惯导立体双目视觉系统硬件形态及配置
这不仅更加美观,也客观上降低了量产成本。而摄像头分辨率的提升和基线长度的提高,可以让双目看得更远,看得更精准。
总的来说,大疆车载惯导立体双目视觉系统,具有以下能力:
-
能够识别任意类别、形状的障碍物,在双目点云中分割出可行驶区域;
-
通过图像视觉+双目点云多模态融合的检测跟踪算法,检测障碍物的位置和高度信息,帮助规控决策系统输出智能侧避、绕行或减速刹停等主动安全策略;
-
双目生成的稠密点云包含了前方地面信息,可支持车辆分析计算地面局部凸起和凹陷,从而支持车辆的自适应主动悬挂,实现颠簸路面车身稳定的效果;
-
对双目点云的稠密深度进行计算,可帮助车辆预测前方盲区,预防潜在的视觉遮挡、盲区等场景,提升驾驶安全。
大疆车载第二代惯导立体双目传感器在工厂中进行标定
04 结语
大疆车载一直以来的思路是用基本的硬件配置实现核心智能驾驶功能,得益于惯导立体双目视觉系统的诸多优点,大疆车载可以推出成本更优、门槛更低,可用性更高的智能驾驶解决方案。
同时,惯导立体双目视觉系统也可以拓展融合其他更多类型的传感器,以实现更优的智能驾驶体验,以及更高端豪华的配置。
面向中国市场多种定位、价格的不同车型,惯导立体双目视觉系统可以支持灵活的配置选择。有利于更多车企采用合适的配置及成本,开发出满足消费者预期的智能体验。
这对于普及智能驾驶功能,让更多人用上智能驾驶有重要的意义。
官网在这
原文始发于微信公众号(大疆车载):惯导立体双目视觉系统:像人类一样看见三维世界
资料下载: