工程师使用心理学、物理学和几何学使机器人更智能_专栏

易百纳社区

机器人无处不在，从在空中拍摄视频的无人机，到在餐馆提供食物，再到在紧急情况下拆除炸弹。机器人正在通过增强我们的能力、腾出时间、增强我们的人身安全和福祉，缓慢而坚定地改善人类的生活质量。虽然现有的机器人在完成简单任务方面越来越熟练，但要处理更复杂的请求，在机动性和智能方面都需要进一步发展。

哥伦比亚工程学院和丰田研究所的计算机科学家正在深入研究心理学、物理学和几何学，以创建算法，使机器人能够适应周围环境，并学习如何独立做事。这项工作对于使机器人能够应对老龄化社会带来的新挑战，并为老年人和残疾人提供更好的支持至关重要。

计算机视觉中一个长期存在的挑战是物体持久性，这是心理学中一个众所周知的概念，它涉及理解物体的存在与它是否随时可见是分开的。对于机器人来说，了解我们不断变化的动态世界至关重要。但是计算机视觉中的大多数应用程序完全忽略遮挡，并且往往会失去对暂时隐藏在视野中的对象的跟踪。

“人工智能面临的一些最困难的问题对人类来说是最容易的，”计算机科学副教授、丰田研究所青年教师奖获得者卡尔·冯德里克（Carl Vondrick）说。想想幼儿是如何玩躲猫猫game的，并了解到他们的父母不会在他们遮住脸时消失。另一方面，一旦某个物体被阻挡或隐藏在视线之外，计算机就会失去跟踪，无法处理该物体的去向或回忆其位置。

为了解决这个问题，冯德里克和他的团队向神经网络教授了成人和儿童自然产生的基本物理概念。与孩子通过观看周围环境中发生的事件来学习物理类似，该团队创造了一种机器，可以观看许多视频来学习物理概念。关键的想法是训练计算机预测未来的场景。通过训练机器在多个示例中解决此任务，机器自动创建了一个内部模型，说明对象在典型环境中的物理移动方式。例如，当冰箱内的汽水罐从视线中消失时，机器学会记住它仍然存在，因为冰箱门再次打开时，它再次出现。

“我以前处理过图像和视频，但让神经网络很好地处理3-D信息是非常棘手的，”三年级博士生Basile Van Hoorick说，他与Vondrick合作开发了可以在遮挡发生时理解遮挡的框架。与人类不同，计算机并非天生就能理解我们世界的三维空间。该项目的第二个飞跃不仅是将摄像机的数据无缝地转换为3d，而且还重建了超出可视范围的整个场景配置。

这项工作可以广泛扩展家用机器人的感知能力。在任何室内环境中，事物总是被隐藏起来。因此，机器人需要智能地解读周围环境。“汽水罐在冰箱里”的情况就是其中一个例子。不过，很容易看出，如果机器人能够利用它们的记忆和物体永久推理技能来跟踪物体和人类，那么任何使用视觉的应用程序都将受益。

如今，大多数机器人的编程都带有一系列的假设，以便它们能够工作。一种是刚体假设，它假设物体是固体，不会改变形状。这简化了很多事情。机器人专家可以完全忽略与机器人交互的物体的物理性质，只需要考虑机器人的运动。

哥伦比亚大学人工智能与机器人(CAIR)实验室由计算机科学助理教授Shuran Song领导，一直在以不同的方式研究机器人的运动。她的研究重点是可变形的非刚性物体——它们可以折叠、弯曲和改变形状。在处理可变形物体时，机器人专家不能再依赖刚体假设，这迫使他们重新思考物理学。

“在我们的工作中，我们试图调查人类是如何凭直觉做事的，”丰田研究所青年教师奖获得者Shuran Song说。她的团队没有试图解释每一个可能的参数，而是开发了一种算法，允许机器人从做中学习，使其更具普遍性，减少了对大量训练数据的需求。这迫使小组重新思考人们如何做一个动作，比如用绳子击中一个目标。我们通常不会考虑弦的轨迹——相反，我们会试着先击中物体，然后调整我们的动作，直到我们成功。Shuran Song指出:“这种新的视角对于解决机器人领域的这一难题至关重要。”

她的团队在机器人科学与系统会议(RSS 2022)上获得了最佳论文奖，因为他们开发的算法迭代剩余策略(IRP)。IRP是用于具有复杂动态的可重复任务的通用学习框架，其中单个模型使用不准确的模拟数据进行训练。该算法可以从这些数据中学习，并在机器人实验中使用不熟悉的绳子击中许多目标，精度达到亚英寸，展示了强大的泛化能力。

“以前，要达到这种精度水平，机器人可能需要完成100到1000次任务，”与Shuran Song合作开发IRP的三年级博士生Cheng Chi说。“有了我们的系统，我们可以在十次之内做到这一点，这和一个人的表现差不多。”

研究人员注意到，他们的机器人所能做的投掷运动仍有一些局限性。虽然投掷运动是有效的，但它受到机械臂速度的限制，这意味着它不能处理大型物品。更不用说在人群周围快速投掷是很危险的。

Shuran Song的团队将这项研究进一步推进，并开发了一种利用主动吹气来操纵它们的新方法。他们给机器人配备了一个气泵，它能够迅速展开一块大布或打开一个塑料袋。他们称之为DextAIRity的自我监督学习框架通过一系列抓取或吹气动作来学习有效地执行目标任务。通过视觉反馈，该系统采用闭环配方，不断调整其吹气方向。

与Shuran Song在CAIR实验室合作的四年级博士生Zhenjia Xu说:“系统在打开塑料袋任务中开发的一个有趣的策略是将空气指向塑料袋上方一点，以保持袋子打开。”“我们没有以任何方式注释或训练它;它是自己学会的。”

目前，机器人可以成功地在具有明确定义区域的结构化环境中机动，并同时完成一项任务。然而，一个真正有用的家用机器人应该具备各种技能，能够在一个非结构化的环境中工作，比如地板上有玩具的客厅，并处理不同的情况。这些机器人还需要知道如何识别任务，以及哪些子任务必须以何种顺序完成。然后，如果他们在工作中失败了，他们需要知道下一步该做什么，以及如何适应完成目标所需的下一步。

“Carl Vondrick和Shuran Song在他们的研究中取得的进展直接有助于丰田研究所的使命，”大学研究项目顾问Eric Krotkov博士说。“TRI在机器人及其他领域的研究重点是开发能力和工具，以应对老龄化社会、劳动力短缺和可持续生产等社会经济挑战。赋予机器人理解被遮挡物体和处理可变形物体的能力将使它们能够提高所有人的生活质量。”

Shuran Song和冯德里克计划合作，将他们各自在机器人和计算机视觉方面的专长结合起来，创造出在家里帮助人们的机器人。通过教机器理解家里的日常物品，如衣服、食物和盒子，该技术可以使机器人帮助行动不便的人，提高人们的日常生活质量。通过增加机器人可以学习的物体和物理概念的数量，该团队的目标是使这些应用在未来成为可能。

工程师使用心理学、物理学和几何学使机器人更智能

艾

审核成功

审核失败