一些改变正在我们的生活中悄然发生,而且速度之快已经超过了我们思维的反应时间,比如,当你滑动手机,无需手动输入锁屏密码,手机会自动开启人脸识别,顷刻间完成解锁,又比如,工厂仓库里的自动叉车,在无人驾驶的情况下,顺滑地完成了自动导航、货物识别和路线避障,把正确的货物放到了正确的货架上,一气呵成,行云流水,你想过这种种情况中的奥妙所在吗? 我们的眼睛和大脑的感知的进化使我们能够自然地与周围世界互动,因此我们往往对三维现实视而不见。然而,要让机器像我们一样感知世界,就需要深度相机的参与。在本文中,让我们一起了解一下深度相机技术吧!
Table of Contents
常见的深度感知相机的类型
深度感知相机通过测量相机与物体之间的距离来提供与其视野范围内物体相关的三维数据,在某些情况下,可以附加颜色信息,以获得通常称为RGBD或RGBXYZ的数据。然而,这通常需要两台相机:一台输出颜色信息,另一台输出三维数据——它们需要同步和校准。因此,使用三维深度感知相机能够自动检测附近物体的存在,并实时测量与其的距离,这有助于配备深度感知相机的设备或装备通过实时智能决策实现自主行为,比如:移动、避障、抓取或协作。 在目前所有可用的深度技术中,四种最受欢迎和常用的深度感知技术是:
1、双目视觉技术 (Stereo Vision)。
2、飞行时间技术 (ToF/Time of Flight),包含iToF和dToF两种实现方式。
3、结构光技术 (Structured Light),根据结构光的图案分为条纹结构光和散斑结构光两种。
4、线激光技术 (Line Laser)。
不同类型深度感知相机的工作原理及优劣势介绍
双目视觉技术
双目视觉,又叫立体视觉,立体视觉相机遵循与人眼相同的判定物体深度的原理——双眼视差。 两个相机镜头隔着一定的基线距离b,被放置在彼此相邻的位置,就像人类的双眼。双目视觉相机工作时,通过生成针对目标物体的两幅图像(左图和右图),在这两幅图像之间计算点对点的对应关系,便可以通过三角测量来获得物体在三维空间中的位置。如下图所示:
其中:XL-XR 是间距。
优势:
1、硬件成本低:双目相机使用普通的CMOS相机即可,硬件要求和成本较低。
2、近距离精度较高:基于三角测量的原理,双目相机的深度误差和距离平方成反比,因此在较近距离内,双目相机可以提供较高的深度精度。
劣势:
1、对光线敏感:双目相机对环境光照非常敏感,光线变化会导致图像偏差,影响匹配精度,被动双目相机基本上没办法在没有自然光的室内应用,目前的主动双目技术能够在一定程度上解决这个问题;
2、计算复杂:视差计算非常消耗计算资源,需要GPU或FPGA设备加速;
3、细节模糊:双目视觉技术是先通过识别纹理来计算深度,所以多数情况下需要拟合出大部分的像素,导致深度图细节模糊,特别在物体的边缘或凹凸不平的表面无法展示目标物的细节;
4、纹理依赖:对无纹理或表面单调的物体的测量效果较差,因为双目相机依赖视觉特征进行图像匹配。主动双目技术可以改善由于目标物体纹理特征不明显带来的问题,它通过一个额外的投射器向物体发射带有纹理的光斑,从而帮助相机快速对应到纹理特征点,且可以提高在暗光环境下的识别效果。如下图所示:
飞行时间技术
飞行时间(ToF)技术通过自带的光源发射器(激光或LED)向被测物体发射人工光信号(由激光或LED提供),通过测量光线传播到物体并反射回来的时间来估算物体到相机的距离。对于光线飞行时间的测量,ToF技术有多种不同的实现方式,通常分为iToF(indirect ToF)和dToF(direct ToF)。
iToF(indirect ToF),意为通过传感器在不同曝光时间采集的能量值,间接的测量出发射信号与接收信号之间的时间差。进一步,iToF可分为两种实现方式:CW-iToF(连续波ToF)和P-iToF(脉冲ToF)。
dToF(direct ToF),是最近几年开始兴起的技术,相比于 i-ToF 技术用测量不同曝光时间窗口的能量值间接地获得光的飞行时间,d-ToF (direct time-of-flight) 技术直接测量光脉冲的发射和接收的时间差,然后通过多次测量的数据统计来计算时间。
更多内容可参考《技术笔记15-Time-of-Flight感知技术构建实时3D深度数据环境》。
ToF技术工作原理图如下:
一般来说,与双目立体视觉相比,ToF相机能提供更密集的3D数据,同时以更高的帧率运行。由于不需要点对应匹配,它们也比立体相机更容易配置。除此之外,还有以下这些优势:
优势:
1、宽动态范围:ToF技术可以在各种光照条件下有效工作,包括暗光或无光环境;
2、探测距离远:ToF相机的探测距离往往较远,并且距离误差比例不随距离远而变大。特别dToF的探测距离可达10m以上;
3、紧凑设计:该技术允许较小的外形尺寸,便于集成到智能手机和游戏控制台等设备中;
4、更适合快速移动的场景:上面已经提到,ToF相机拥有更高的帧率(一般最高可以达到15-30fps),所以能更好地服务于与之相关联的机器或设备需要快速移动的场景;
5、细节表现突出:不同与双目视觉和结构光技术,ToF的分辨率由ToF sensor的分辨率决定,且每个像素之间是独立的,不需要拟合。所以ToF相机对物体的细节还原度较好。
劣势:
1、近距离精度低:由于光速很快,所以其精度不算高,往往误差在mm级别。特别近距离精度相对于结构光来说较低;
2、多径和杂散光现象:由于自身原理,iToF相机会受到多径现象和杂散光现象影响,导致测量效果在某些环境下变差。请参考《技术笔记06-iToF相机中多径干扰》和《技术笔记11-相机中杂散光的形成以及如何最小化其影响》;
3、对反射率敏感:ToF测量的准确性会受到物体材料反射特性的影响。透明或高度反射的物体可能会导致测试结果有误差。
总体而言,ToF深度感应技术在许多应用中非常强大,但在选择特定用途时需要考虑其局限性。
条纹结构光技术
条纹结构光相机使用激光/LED光源将已知的图案(最常见的图案为条纹)投射到被测量的物体上,通过分析其投影的变形结合三角测量法来计算出物体的距离。条纹结构光技术工作原理如下所示:
优势:
一般来说,条纹结构光相机能够在近距离提供比双目立体视觉或ToF技术相机更优质的图像,精度更高,因为图案的投射提供了清晰、预定义的纹理,便于点对点对应匹配。
劣势:
由于对应匹配仍然是一个复杂而昂贵的操作,它们通常比其他相机(如ToF)的运行帧率更低,不适合在高速运动的场景中使用,并且往往产品的成本较高。
散斑结构光技术
散斑结构光相机使用激光/LED光源将已知的图案(最常见的图案为随机散斑)投射到被测量的物体上,通过分析其投影的变形结合三角测量法来计算出物体的距离。散斑结构光技术工作原理如下所示:
优势:
1、硬件成本低:散斑结构光相机使用普通的CMOS传感器即可,硬件要求和成本较低;
2、近距离精度较高:基于三角测量的原理,散斑结构光相机的深度误差和距离平方成反比,因此在较近距离内,散斑结构光相机可以提供较高的深度精度。
劣势:
1、不适合户外强光环境:在户外强光环境下,发射的散斑会被环境光淹没,从而导致无法识别;
2、探测距离近:基于三角测量的原理,散斑结构光相机的深度误差和距离平方成反比,散斑结构光相机在远距离的效果会较差;
3、细节模糊:散斑结构光技术是先通过识别散斑的形变,再结合三角测量法来计算深度,所以类似双目相机的原理,多数情况下需要拟合出大部分的像素,导致深度图细节模糊,特别在物体的边缘或凹凸不平的表面无法展示目标物的细节。
线激光技术
线激光传感器内部都包含一个激光发射器、一个接收器和一个控制器,激光束被放大形成一条激光线投射到被测物体的表面上,然后通过接收器(类似于相机传感器)捕捉反射光,把光电信息传递给控制器。由于物体不同部分的高度不同,加上激光与摄像机之间的角度,当激光投射到物体上时,激光线被“扭曲”成激光轮廓。控制器通过传感器校准数据并自定义算法,沿着激光线方向生成高度值,被测物体表面在激光线下沿Y轴移动,触发传感器记录下目标物每一个横切面的轮廓数据,生成3D点云数据并显示出来。线激光技术工作原理如下所示:
优势:
1、高精度测量:线激光传感器能够实现微米级分辨率,对物体表面的微小变化进行精确测量。其高线性度和稳定性保证了测量的精确度,非常适用于需要高精度要求的场合。
劣势:
1、成本较高:与一些传统的测量工具相比,线激光传感器的成本相对较高,这可能会限制其在一些低成本应用中的普及。
2、对环境要求高:线激光传感器需要在光线充足且稳定的环境中工作,以确保测量精度。在弱光或光线变化较大的环境中,其测量精度可能会受到影响。
3、安全隐患:由于使用激光束进行测量,如果激光束不当使用或未采取适当的安全措施,可能会对人体造成伤害。因此,在使用过程中需要严格遵守安全规范,并采取相应的防护措施。
如何选择合适具体应用场景的深度相机?
事实上,不同的深度感知技术各有优劣,没有一种能适用于所有项目或场景,而且许多立体相机现在结合了不止一种深度测量技术。虽然结构光在满足高精度要求方面表现较好,但ToF技术获取及处理数据更快且应用更广,而立体视觉可能更普及且成本更低。线激光技术精度高,但价也高。为了更好地选择尽可能合适的技术及产品,最好先自问以下问题:
1、对测量的精度有什么要求?允许误差在多少?
2、测量距离(相机/传感器的工作距离)是什么范围?
3、被测物体的表面特性是什么?高反射表面(光滑、浅色等)还是低反射表面(粗糙、暗色等)?
4、购买预算是多少?
5、是否需要处理实时数据?
Stereo vision technology | Speckle structured technology | Stripe structured technology | ToF technology | Line Laser technology | |
Near-range accuracy and precision (within 1m) | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
Long-range accuracy and precision (far1m) | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Detection distance | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ |
Detail resolution | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Frame rate | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
Environmental adaptabilit | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
Cost | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐ |
在测量精度方面,结构光具有更大的优势,因为它提供了更多的信息。但结构光需要更复杂的编码和解码,因此不适用于低延迟场景。它还需要额外的硬件将结构图案投射到目标上,从而增加了成本。
对于ToF技术,精度可能不是它的强项——光速太快,即使是非常精确的电子元件也难以实现毫米级的精度。但ToF的好处是更多的,帧率高,探测距离远,可适应不同的光线环境,成本相对线激光和条纹结构光也极具优势。在实时运动场景中具有天然优势,比如自主移动机器人或自动导航小车等场景,ToF可以通过系统设计,在精度和速度之间取得刚刚好满足场景需求的平衡,在视觉引导和抓取的场景也有突出的表现。使用调制激光器还意味着它具有出色的抗干扰能力。
立体视觉可以被认为是一种更普遍的技术,人们早期通过模仿人类双目视觉发明了它。立体视觉不需要复杂的硬件——只需要两个摄像头。在过去计算能力不足时,获取深度数据可能是一个挑战,但现在这已不再是问题。不过,它也有自己的问题——在光线不足、工作距离较远、在快速移动场景下运用的情况下,立体视觉可能效果不佳,结构光和ToF似乎没有这个问题。
线激光传感器在测量精度和速度方面的表现较为突出,但成本较高,且对环境和操作安全要求更高。