谷歌发布机器人导航系统LM-Nav,无需用户注释可执行自然语言命令

分享到:

在机器人领域中,最大的挑战之一就是如何让机器人实时听懂人类指令,并立即根据新指令、以及环境变化做出反应,实时进行新规划并完成人类要求的任务。

这一过程对于机器人有着方方面面的要求,例如在依照人类指令导航到达目的地这一任务中,不仅需要机器人理解人类的指令,即要求其有自然语言理解能力,还得具备实时感知周围环境、即视觉识别能力,而且还需要机器人能将语言指令与感知到的环境互相“翻译”,才能最终按照人类指示的要求到达目的地。

针对这类任务,该领域此前的主要解决方法是:让机器人理解文本时,需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是,这一方法需要注释数据,进而会消耗大量成本,最终阻碍了机器人在更多场合的应用。

而最近越来越多的研究表明,如下新方法是可行的:即在没有事先标记的情况下,通过自我监督训练的目标条件策略,来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且,该具有更好的可扩展性与鲁棒性。

正是在这一思路的启发下,谷歌研究人员开发了大型模型导航系统 LM-Nav 系统,该系统结合了上面所说的两种方法的优点,利用了预训练模型的功能,即使在导航数据没有经过任何用户注释的前提下,也可让机器人导航系统通过其自我监督系统,去理解自然语言指令并完成任务要求。

尤其重要的是,该系统内的预训练语言和视觉语言模型的泛化能力非常强大,从而使机器人理解并执行更为复杂的高级指令。

近日,相关论文以《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》(LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action)为题发表在 arXiv 上,美国加州大学伯克利分校和波兰华沙大学一起参与了研究。

(来源:arXiv)

LM-Nav 导航系统包含三个大型预训练模型,分别用于进行语言处理、将图像与语言关联、以及视觉导航。具体如下:

首先,大型语言模型(Large language models,LLM)用于完成自然语言理解的任务,该模型经过了大型网络文本语料库上的训练,可以将用户给出的文本指令解析为一系列地标。LM-Nav 导航系统中选择的 LLM 正是知名的 GPT-3 模型。

其次,视觉和语言模型(Vision-and-language models,VLM)可以将图像和文本所表达的信息进行关联。在导航任务中,视觉和语言模型可将用户指令中的地标,与机器人视觉感知到的周边环境进行关联。据介绍,该系统选择的视觉和语言模型是美国人工智能研究公司 OpenAI 的 CLIP 模型。

第三,视觉导航模型(Visual navigation models,VNM)用于从其视觉观察的信息中直接进行导航工作,它可以将图像和之后执行的动作按时间进行关联。LM-Nav 系统选择了加州人工智能公司 DeepAI 的目标条件模型 ViNG 作为视觉导航模型。

图|LM-Nav 导航系统(来源:arXiv)

简单来说,LM-Nav 导航系统的主要工作过程如下图所示。

图 |LM-Nav 导航系统的主要工作过程(来源:arXiv)

首先,系统以目的地环境的初始观察结果、以及用户给的文本指令作为输入,通过系统中的三个预训练模型得出执行计划:LLM 用于提取指令中的地标,VLM 用于将文本地标与图像关联,而 VNM 用于执行导航任务。正是有了这些,即使在复杂环境中,LM-Nav 也无需任何微调,完全根据实时视觉观察到的信息,来执行各种用户指令。

为对这一系统进行评估,研究人员将 LM-Nav 模型在机器人研究平台 Clearpath Jackal UGV 上进行部署和应用。在这一平台的传感器套件,包含了一个 6 自由度的 IMU、一个用于近似定位的 GPS 单元、一个车轮编码器,以及用于进行视觉观察捕捉的 170°视野前后 RGB 摄像头。

实验过程包括在不同难度的环境中,对该系统进行的 20 个导航测试,机器人共行走的总长度超过 6 千米。

图|LM-Nav 系统的应用,要求机器人在实际环境中按照用户指令执行任务(来源:arXiv)

如上图,左侧文本中下划线部分,为 LLM 提取出的地标;中间俯视图中标记的路标,为通过 VLM 进行语言-图像关联的结果;右侧为按照 VNM 执行导航的实况。

图|LM-Nav 系统与没有 VNM 的 GPS-Nav 系统的性能对比结果(来源:arXiv)

研究人员还引入了规划成功性、效率、平均人工干预次数等性能指标,以用于将 LM-Nav 的性能与 GPS-NAV 导航系统进行对比。结果显示,LM-Nav 在各方面的性能均优于 GPS-Nav 系统。

继续阅读
全球首台“小型智能机器人移动 CT”亮相

3 月 20 日消息,据“成都发布”消息,3 月 16 日,在第十届四川国际健康产业博览会暨第二届成渝地区双城经济圈国际健康旅游展上,四川省人民医院与电子科技大学医工交叉研发团队在首席专家徐如祥教授领导下成功研制的全球首台“小型智能机器人移动 CT”亮相。

制造业的生产方式会因为机器人的出现而改变吗?

随着人工智能技术的不断进步,协作机器人作为其中的一项重要应用,已经逐渐成为现代工业生产线上的重要角色。协作机器人通过和人类的协同工作,不仅可以提高生产效率和质量,还可以缓解人力资源短缺和劳动强度大的问题。同时,协作机器人具有智能化、柔性化等特点,可以为企业带来更多的商业价值。

特斯拉人形机器人可以自己造自己吗?

2023 年 3 月 2 日消息,目前特斯拉正在得克萨斯州超级工厂举办 2023 Investor Day 投资者日活动。

双足/四足机器人:从电影“流浪”到现实

如果你看过《流浪地球2》,那你一定会被里面的机器狗“笨笨”圈粉,它不仅可以感知主人的情感,自己也拥有丰富的情绪,让人很想在家里也养一只。除了“笨笨”,电影里一台造型别致的“门框机器人”(Framer)也吸引了不少观众的目光,它不仅可以架枪输出,还能加盾防御,安静站在那里时就成了一个安检门,它还可以潜入海底执行任务,几乎无所不能。

我国将加快布局人形机器人等前沿领域

3月1日消息(记者吕红桥)据中央广播电视总台经济之声《天下财经》报道,普通人对新型工业化和制造强国、网络强国建设的关注往往集中在一些热点问题上,比如,新能源汽车卖得好不好?6G技术研发进展如何?怎么看待元宇宙这样的未来产业?国务院新闻办1日举行“权威部门话开局”系列主题新闻发布会第6场,工信部负责人回应了这些热点。

精彩活动