Google使用AI追踪2D视频中的3D对象_专栏

配合2020年TensorFlow开发者峰会的开幕，谷歌今天发布了一个名为Objectron的管道，它可以在2D图像中发现物体，并通过人工智能模型估计它们的姿态和大小。该公司表示，它对机器人、自动驾驶汽车、图像检索和增强现实技术都有意义——例如，它可以帮助工厂车间的机器人实时避开障碍物。

跟踪3D对象是一项复杂的工作，特别是在处理有限的计算资源(如智能手机系统上的芯片)时。当仅有的图像(通常是视频)是2D的时候，由于缺乏数据和对象的外观和形状的多样性，这就变得更加困难了。

然后，由Objectron支持的Google团队开发了一个工具集，该工具集允许注释者使用分屏视图显示2D视频帧来标记对象的3D边界框（即矩形边框）。3D边界框与点云、摄像机位置和探测平面一起覆盖在上面。注释器在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证它们的位置，对于静态对象，只需在单一帧中注释目标对象。该工具使用来自AR会话数据的ground truth摄像机位姿信息将对象的位置传播到所有帧。

为了补充现实世界的数据以提高AI模型预测的准确性，该团队开发了一种引擎，将虚拟对象放置到包含AR会话数据的场景中。这样就可以使用摄像机的姿势，检测到的平面表面以及估计的照明来生成与场景匹配的光照在物理上可能的位置，从而产生高质量的合成数据，其中包含的渲染对象尊重场景的几何形状并无缝地适合真实背景。在验证测试中，综合数据的准确性提高了约10％。

更好的是，该团队表示，当前版本的Objectron模型足够轻巧，可以在旗舰移动设备上实时运行。借助LG V60 ThinQ，三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片，它能够每秒处理约26帧。