北卡罗来纳州立大学的研究人员开发了一种新方法,帮助人工智能(AI)从2D图像中创建三维(3D)信息。到目前为止,2D图像提供了有用的细节,但它们与摄像头看到的真实环境并不直接匹配。新方法及其研究最近在法国巴黎举行的国际计算机视觉会议上发表。这一发展可能对该行业非常有用,因为摄像头比激光雷达等其他3D导航硬件便宜得多。
从 2D 图像中提取 3D 数据的现有技术利用边界框。这些技术训练 AI 扫描 2D 图像,并在 2D 图像中的对象周围放置 3D 边界框,例如街道上的每辆车。车子对应的盒子是长方体,有八个点,可以帮助AI估计图像中物体的尺寸以及每个物体相对于其他物体的位置。但是,现有程序的边界框可能不完美,并且通常无法包括出现在 2D 图像中的车辆或其他对象的部分。
该大学电气和计算机工程副教授Tianfu Wu说,新的MonoXiver方法使用每个边界框作为锚点,并让AI对每个框周围的区域进行第二次分析。第二次分析的结果是程序在锚点周围生成许多附加边界框。
为了确定这些辅助盒子中的哪一个最能捕获对象的任何缺失部分,AI 会进行两次比较。查看每个辅助框的几何形状,以查看它是否包含与锚框中的形状一致的形状。另一个查看每个框的外观,以查看它是否包含与锚框中的颜色或其他视觉特征相似的视觉特征。
Wu 表示,“我们将MonoXiver方法与MonoCon(顶部)和另外两个旨在从2D图像中提取3D数据的现有程序结合使用,MonoXiver显着提高了所有三个程序的性能。我们对这项工作感到兴奋,并将继续评估和微调它,以用于自动驾驶汽车和其他应用。”