15个可交互的真实房屋场景,支持CubiCasa5K和3D-Front等8000余个场景
在这项研究中,斯坦福视觉与学习实验室(SVL)Silvio / 李飞飞组的研究者推出了一个全新的模拟环境 iGibson,从而可以为大型真实场景中的交互任务开发机器人解决方案。iGibson 包含 15 个充分可交互、视觉上逼真、依据真实房屋构建的场景,并且可以支持 CubiCasa5K 和 3D-Front 的 8000 余个场景。真正实现了「可交互性」。
近来,面向 AI 和机器人的模拟环境得到了大力发展。仅仅几年前,机器人模拟环境还算是相对稀有的产物,但如今,各大学术会议(NeurIPS、CoRL、甚至 ICRA 和 IROS)几乎所有与 AI 机器人相关的论文都会用到模拟环境。那么,模拟环境是如何帮助到 AI 发展的呢?可以归结为以下几点原因:
首先,在机器人领域,机器学习正逐渐发挥越来越大的作用,从而导致了数据需求的迅猛增长 [2] [3] [4] [5]。现实世界中,机器人只能“real-time” 即时地产生数据,但海量的数据需求导致了从现实世界收集数据变得不现实。此外,机器学习需要收集的数据具备多样性,涉及到机器人的随机探索(random exploration)。如果在现实世界中让机器人随机活动,对机器人本身和周遭事物都是有挺大风险的。
其次,在模拟环境变得越来越robust、逼真(视觉效果和物理引擎)、便捷的同时,算力的增长也导致了大部分机器都可以运行这些模拟环境。因此即便没有足够的资金来购置机器人,也可以通过模拟环境来从事机器人研究。模拟环境降低了机器人研究的准入门槛,让更多的人能推进该领域的发展。
最后,随着关于各种机器人任务(例如导航、抓握、操作等)的论文数量不断增长,一个问题也日渐凸显:机器人领域需要可复现的基准(repeatable benchmark)。一个成熟的学科需要能简洁、可靠地复现实验结果,这样才能让不同的方法理论得到有效地对比。与现实世界相比,在模拟环境中实现可复现的基准要容易许多。
然而,当前结合物理模拟与机器人任务的模拟环境往往局限于一小类任务,并且仅包含 clean 和小型场景。包含家庭和办公室等大型场景的少数模拟环境要么无能力改变场景,仅侧重于导航性能,如 Habitat;要么使用游戏引擎或者简化的交互模式,如 AI2Thor、VirtualHome。所以,在处理那些需要与场景进行丰富交互的任务而言,这些模拟器不支持端到端感觉运动控制回路的开发,也就难以完成此类任务。此外,简化的交互模式也导致很难将可学得的交互策略转换为可执行的真实机器人指令。
基于如上这些想法,来自斯坦福视觉与学习实验室(SVL)的研究者开发了 iGibson 以用来训练和测试interactive(可交互的)AI 智能体 iGibson。
那么,iGibson 的特殊点在哪里呢?首先我们先来区分一下这两个概念:
Physics simulator (物理引擎): 物理引擎可以计算不同行为对现环境产生的物理影响。比如对一个物体施加一个力的后果,或者对于水流的模拟。随着计算机图形学的发展,现在有许多成熟的物理引擎。其中在机器人领域最为突出的是 Bullet, PyBullet, MuJoCo, Nvidia PhysX and Flex, UnrealEngine, DART, Unity, and ODE 等。
Simulation environment (模拟环境): 模拟环境是一个整体框架,包含多个元件:物理引擎、渲染引擎、模型(包括场景、物体、机器人)等。我们可以用模拟环境模拟一个给定的任务,并用它来研究其解决方案。
那么,对一个研究人员而言,想解决什么任务或想研究什么课题就决定了用什么模拟环境,所谓工欲善其事,必先利其器。对 iGibson 而言,我们想研究的是:基于视觉信号,机器人如何在大型真实场景(如一整间公寓)中解决需要与环境互动的任务。








相关新闻