MonoXiver助力AI从二维变三维

北卡罗来纳州立大学的研究人员开发了一种新方法，帮助人工智能（AI）从2D图像中创建三维（3D）信息。到目前为止，2D图像提供了有用的细节，但它们与摄像头看到的真实环境并不直接匹配。新方法及其研究最近在法国巴黎举行的国际计算机视觉会议上发表。这一发展可能对该行业非常有用，因为摄像头比激光雷达等其他3D导航硬件便宜得多。

从 2D 图像中提取 3D 数据的现有技术利用边界框。这些技术训练 AI 扫描 2D 图像，并在 2D 图像中的对象周围放置 3D 边界框，例如街道上的每辆车。车子对应的盒子是长方体，有八个点，可以帮助AI估计图像中物体的尺寸以及每个物体相对于其他物体的位置。但是，现有程序的边界框可能不完美，并且通常无法包括出现在 2D 图像中的车辆或其他对象的部分。

该大学电气和计算机工程副教授Tianfu Wu说，新的MonoXiver方法使用每个边界框作为锚点，并让AI对每个框周围的区域进行第二次分析。第二次分析的结果是程序在锚点周围生成许多附加边界框。

为了确定这些辅助盒子中的哪一个最能捕获对象的任何缺失部分，AI 会进行两次比较。查看每个辅助框的几何形状，以查看它是否包含与锚框中的形状一致的形状。另一个查看每个框的外观，以查看它是否包含与锚框中的颜色或其他视觉特征相似的视觉特征。

Wu 表示，“我们将MonoXiver方法与MonoCon（顶部）和另外两个旨在从2D图像中提取3D数据的现有程序结合使用，MonoXiver显着提高了所有三个程序的性能。我们对这项工作感到兴奋，并将继续评估和微调它，以用于自动驾驶汽车和其他应用。”