根据Google的声明,近几年来3D传感器(如激光雷达,深度感应摄像头和雷达)的增长,导致需要一种可以处理这些设备捕获的数据的场景理解技术。Google认为,这种需求技术可以使使用这些传感器的机器学习系统(例如自动驾驶汽车和机器人)在现实世界中导航和操作,从而在移动设备上创造增强的增强现实体验。
搜索引擎提供商Google指出,计算机视觉领域最近在理解3D风景方面取得了良好的进展,其中包括用于移动3D对象检测,透明对象检测的模型等等。但是,该公司在其博客文章中指出,由于可用性工具和资源有限,可能难以在现场进行操作。
科技巨头Google已发布TensorFlow 3D,这是一个模块化且高效的库,旨在为TensorFlow带来三维深度学习功能,以进一步发展和改善对三维场景的理解,并减少感兴趣的研究人员的进入障碍。
由技术公司开发的TensorFlow 3D库允许更广泛的研究社区开发,训练和分发前沿的3D场景理解模型。此外,新库提供了流行的交易,损失功能,数据处理工具,模型和指标。
TF 3D还可以启用其他潜在应用程序,例如3D对象形状预测,点云记录和点云凝结。此外,它提供了统一的数据集功能和配置,用于训练和评估标准3D场景洞察数据集。
由Google在博客文章中宣布的新库目前支持Waymo Open,ScanNet和Rio数据集。但是,用户可以将其他流行的数据集(例如NuScenes和Kitti)自由转换为相似的格式,并在预先存在的或定制的管道中使用它们。
Google还指出,用户可以利用TF 3D进行各种3D深度学习研究和应用,通过快速构建原型并尝试新想法来实施实时推理系统。
要了解有关由Google创建的TensorFlow 3D的更多信息,以进一步发展和改善对三维场景的理解,您可以访问Google发布的有关该主题的博客文章。