李飞飞机器人大模型听懂人话
丰色 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
(资料图片仅供参考)
李飞飞团队 具身智能 最新成果来了:
大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。
从此,人类可以很随意地用自然语言给机器人下达指令,如:
打开上面的抽屉,小心花瓶!
大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。
然后重点来了, 真实世界 中的机器人在未经“培训”的情况下,就能直接执行这个任务。
新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。
可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。
目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。
一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。
具体到机器人研究界也有同行表示:给运动规划领域开辟了新世界。
还有本来没看到AI危险性的人,因为这项AI结合机器人的研究而改变看法。
李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单。
首先,给定环境信息 (用相机采集RGB-D图像) 和我们要执行的自然语言指令。
接着,LLM (大语言模型) 根据这些内容编写代码,所生成代码与VLM (视觉语言模型) 进行交互,指导系统生成相应的操作指示地图,即 3D Value Map 。
所谓3D Value Map,它是Affordance Map和Constraint Map的总称,既标记了 “在哪里行动” ,也标记了 “如何行动” 。
如此一来,再搬出动作规划器,将生成的3D地图作为其目标函数,便能够合成最终要执行的操作轨迹了。
而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能hold任何给定任务。
在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:
它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。
VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。
而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“ 感兴趣的实体 (entity of interest) ”来引导机器人进行操作,也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。
还是以开头的例子举,抽屉就是“吸引”的,花瓶是“排斥”的。
当然,这些值如何生成,就靠大语言模型的理解能力了。
而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划。
因此,VoxPoser有着很强的抗干扰能力。
以下分别是VoxPoser在真实和模拟环境中的表现 (衡量指标为平均成功率) :
可以看到,无论是哪种环境哪种情况(有无干扰、指令是否可见),它都显著高于基于原语的基线任务。
最后,作者还惊喜地发现,VoxPoser产生了 4个“涌现能力” :
(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;
(2)行为常识推理,比如在摆餐具的任务中,告诉机器人“我是左撇子”,它就能通过上下文理解其含义;
(3)细粒度校正,比如执行“给茶壶盖上盖子”这种精度要求较高的任务时,我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作;
(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但VoxPoser可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录手柄位移,然后将其推回至中点就可以满足要求了。
大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:
具身智能 (Embodied AI) 视觉推理 (Visual Reasoning) 场景理解 (Scene Understanding)李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。
正如ImageNet旨在表示广泛且多样化的现实世界图像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。
遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。
最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。
机器人结合大模型可能正是解决这些问题的一个途径。
除李飞飞外,参与本次研究的还有清华姚班校友 吴佳俊 ,博士毕业于MIT,现为斯坦福大学助理教授。
论文一作 Wenlong Huang 现为斯坦福博士生,在谷歌实习期间参与了PaLM-E研究。
论文地址: 项目主页: / 参考链接: [1]/wenlong_huang/status/1677375515811016704 [1]/publication/searching-computer-vision-north-stars
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
标签:
推荐文章
- 鲜切花扮靓产业振兴路!每年可实现总产值800余万元
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 陆军第73集团军某旅 创新升级模拟训练器材
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
X 关闭
资讯
X 关闭