谷歌发布机器人导航系统LM-Nav,无需用户注释可执行自然语言命令

分享到:

在机器人领域中,最大的挑战之一就是如何让机器人实时听懂人类指令,并立即根据新指令、以及环境变化做出反应,实时进行新规划并完成人类要求的任务。

这一过程对于机器人有着方方面面的要求,例如在依照人类指令导航到达目的地这一任务中,不仅需要机器人理解人类的指令,即要求其有自然语言理解能力,还得具备实时感知周围环境、即视觉识别能力,而且还需要机器人能将语言指令与感知到的环境互相“翻译”,才能最终按照人类指示的要求到达目的地。

针对这类任务,该领域此前的主要解决方法是:让机器人理解文本时,需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是,这一方法需要注释数据,进而会消耗大量成本,最终阻碍了机器人在更多场合的应用。

而最近越来越多的研究表明,如下新方法是可行的:即在没有事先标记的情况下,通过自我监督训练的目标条件策略,来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且,该具有更好的可扩展性与鲁棒性。

正是在这一思路的启发下,谷歌研究人员开发了大型模型导航系统 LM-Nav 系统,该系统结合了上面所说的两种方法的优点,利用了预训练模型的功能,即使在导航数据没有经过任何用户注释的前提下,也可让机器人导航系统通过其自我监督系统,去理解自然语言指令并完成任务要求。

尤其重要的是,该系统内的预训练语言和视觉语言模型的泛化能力非常强大,从而使机器人理解并执行更为复杂的高级指令。

近日,相关论文以《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》(LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action)为题发表在 arXiv 上,美国加州大学伯克利分校和波兰华沙大学一起参与了研究。

(来源:arXiv)

LM-Nav 导航系统包含三个大型预训练模型,分别用于进行语言处理、将图像与语言关联、以及视觉导航。具体如下:

首先,大型语言模型(Large language models,LLM)用于完成自然语言理解的任务,该模型经过了大型网络文本语料库上的训练,可以将用户给出的文本指令解析为一系列地标。LM-Nav 导航系统中选择的 LLM 正是知名的 GPT-3 模型。

其次,视觉和语言模型(Vision-and-language models,VLM)可以将图像和文本所表达的信息进行关联。在导航任务中,视觉和语言模型可将用户指令中的地标,与机器人视觉感知到的周边环境进行关联。据介绍,该系统选择的视觉和语言模型是美国人工智能研究公司 OpenAI 的 CLIP 模型。

第三,视觉导航模型(Visual navigation models,VNM)用于从其视觉观察的信息中直接进行导航工作,它可以将图像和之后执行的动作按时间进行关联。LM-Nav 系统选择了加州人工智能公司 DeepAI 的目标条件模型 ViNG 作为视觉导航模型。

图|LM-Nav 导航系统(来源:arXiv)

简单来说,LM-Nav 导航系统的主要工作过程如下图所示。

图 |LM-Nav 导航系统的主要工作过程(来源:arXiv)

首先,系统以目的地环境的初始观察结果、以及用户给的文本指令作为输入,通过系统中的三个预训练模型得出执行计划:LLM 用于提取指令中的地标,VLM 用于将文本地标与图像关联,而 VNM 用于执行导航任务。正是有了这些,即使在复杂环境中,LM-Nav 也无需任何微调,完全根据实时视觉观察到的信息,来执行各种用户指令。

为对这一系统进行评估,研究人员将 LM-Nav 模型在机器人研究平台 Clearpath Jackal UGV 上进行部署和应用。在这一平台的传感器套件,包含了一个 6 自由度的 IMU、一个用于近似定位的 GPS 单元、一个车轮编码器,以及用于进行视觉观察捕捉的 170°视野前后 RGB 摄像头。

实验过程包括在不同难度的环境中,对该系统进行的 20 个导航测试,机器人共行走的总长度超过 6 千米。

图|LM-Nav 系统的应用,要求机器人在实际环境中按照用户指令执行任务(来源:arXiv)

如上图,左侧文本中下划线部分,为 LLM 提取出的地标;中间俯视图中标记的路标,为通过 VLM 进行语言-图像关联的结果;右侧为按照 VNM 执行导航的实况。

图|LM-Nav 系统与没有 VNM 的 GPS-Nav 系统的性能对比结果(来源:arXiv)

研究人员还引入了规划成功性、效率、平均人工干预次数等性能指标,以用于将 LM-Nav 的性能与 GPS-NAV 导航系统进行对比。结果显示,LM-Nav 在各方面的性能均优于 GPS-Nav 系统。

继续阅读
机器人自己造自己,像搭积木一样轻松

还没完——机器人2号刚来到这个世界,立刻就能和1号那样身手敏捷,然后它还给自己“戴上”两个饰品,哦不,配件。

操控机器人“火星”上架设信号塔

“快,启动能量阀门,收集信号方舱!”“超变战场”一触即发。11月27日,第二届厦门市中小学人工智能嘉年华暨WRC世界教育机器人大赛城市选拔赛进入第二天的“超变战场”赛程。“超变战场”项目赛,故事背景发生于火星,参赛队伍须自行搭建机器人,之后操控机器人在复杂地形的战场上完成方舱扫描、碎片收集、阀门开启等任务,并在对抗中架设信号塔。这考验着选手动手创新、合作分工、操控技巧以及临场应变能力。

我国智能制造应用规模全球领先,中国制造业机器人密度增长约 13 倍

据央视报道,在 2022 世界智能制造大会上,工业和信息化部相关负责人表示,十年来,我国智能制造应用规模和水平进入全球领先行列。

在制造业中使用最频繁的是哪种机器人?

制造机器人由于其快速高效生产产品的能力而越来越受欢迎。虽然许多不同类型的机器人可以用于制造业,但工业机器人是最常见的。工业机器人可以执行各种任务,非常适合用于制造业。

谷歌宣布到 2030 年全球所有数据中心和园区无碳运营

在 Google 亚太区可持续发展大会,Google 承诺到 2030 年,全球所有数据中心和园区使用 24/7 无碳能源运营。

精彩活动