语音播报
近日,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室研究员李嘉茂团队与合作者在智能驾驶感知领域取得进展。针对智能驾驶感知的两个关键问题——栅格占据预测和全景分割进行研究,两项成果分别被机器人领域国际学术会议2024 IEEE International Conference on Robotics and Automation(ICRA)录用。
在智能驾驶中,栅格占据预测旨在表征空间中的对象分布,以指导路径选择。最直接的表征方法是将立体空间划分为无数个堆叠的占据体素,但庞大的计算量导致难以在实车中部署。鸟瞰视角(BEV)的表征方式,将空间投影于单个水平面,可以大幅减少计算与存储压力,但由于缺失细粒度的结构信息,在开放场景中对象的形状或外观不明确时,往往会出现错误估计障碍物的情况。TPVFormer基于传统三视图的占据预测方法,在BEV基础上将表征平面扩展至三个,可客观精细地表征三维环境,但该方法忽略了自车与表征平面的相对关系,导致场景中的视角重叠障碍物间难以分辨。
为解决上述问题,在TPVFormer基础上,该团队提出了一种以自车为中心的环视视角的占据预测表征方法CVFormer。以汽车全景环视多视图为输入,建立环绕车辆的二维正交视角来表征三维场景,有效实现细粒度三维场景表征,并克服车体周身障碍物的视角遮挡问题。具体地,该研究提出了环视视图交叉注意力模块构建二维环视特征,设计时序多重注意力模块加强帧间关系的利用,并通过设计2D与3D类别一致性约束,增强网络对场景的学习性能。此方法在nuScenes数据集上进行验证,在预测精度上明显优于现有算法,达到了43.09%的mIoU性能指标,相比基线算法提高了102.3%,并将计算复杂度由O(n3)降低至O(n),展现了较强的可部署性,在路特斯下一代量产车型智能驾驶感知系统上完成了测试验证。
全景分割是理解场景中背景与对象个体的语义的基础感知问题,是融合了语义分割与实例分割的综合方法。其中,语义分割关注将图像中的区域分割为不同的类别,而不区分不同的物体实例;实例分割则侧重对每个实例对象进行独立的分割。全景分割往往基于语义分割与实例分割的融合实现,既区分场景语义,又需要明确物体实例。全景分割方法在语义-实例分割任务融合中,往往由于二者预测结果间的矛盾,导致难以分辨合理的预测结果。
为解决这一问题,该团队设计了基于门控编码和边缘约束的端到端全景分割模型BEE-Net。该模型基于全局双向信息交互以及多角度边缘优化,有效地缓解了全景分割中的语义-实例预测矛盾问题与边缘分割挑战。具体地,针对语义与实例分割特征感知融合,研究人员设计了轻量级门控编码模块进行多尺度全局特征信息交互,并通过语义-实例-全景三重边缘优化算法对边缘分割质量进行针对性优化,保持高效的同时,提升了场景分割性能。该方法在驾驶场景分割数据集CityScapes上完成了验证,取得了65.0%的PQ精度指标,在精度上超越了现有基于CNN的全景分割模型,同时在效率上优于所有基于Transformer的全景分割模型。该方法兼顾了分割精度与效率的性能需求,在路特斯下一代量产车型智能驾驶感知系统上完成了测试验证。
上述研究成果得到科技创新2030-重大项目、国家自然科学基金、中国科学院青年创新促进会、上海市优秀学术带头人计划等的支持。
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 中国科学院 版权所有
京ICP备05002857号-1
京公网安备110402500047号
网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话:86 10 68597114(总机)
86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn