机器人研究(二)

sim2real

当PI的π*0.6用“冲咖啡”的炫酷Demo斩获56亿美元估值,当“真实物理交互数据是智能核心”“一个模型适配所有机器人”的口号成为融资标配,具身VLA领域正上演一场集体自我催眠:仿佛只要堆足够多的真机数据、喊响“跨本体通用”的口号,通用智能就会如期而至。但参考行业实测与头部玩家的战略转向,这套被资本热捧的叙事,实则是具身智能赛道最大的双重谎言——真机数据既非不可替代、更无从规模化,跨本体则是比Sim2Real鸿沟更宽的技术幻想,两者共同服务于“概念融资-生态绑定-估值抬升”的商业闭环,从未真正触及具身智能的核心诉求

真实数据不可替代?

VLA领域最根深蒂固的谎言,莫过于“只有真机数据才能构建可靠智能”。PI联创Sergey Levine曾坚定反对“替代数据”策略,将真实交互数据奉为圭臬,但π*0.6的论文已隐晦承认这一叙事的破产:仅依赖人工示教的真实数据,不仅会因示教质量低、覆盖面窄导致误差累积,更难以满足规模化需求。为突破瓶颈,PI不得不引入“真机数据+互联网场景数据”的协同方案,还通过RECAP机制复用部署中的试错数据——本质上已放弃“纯真实数据”的坚守,变相承认了单一数据来源的局限性。

更具颠覆性的实证来自上海AI Lab与北大的研究:纯高保真仿真数据训练的InternData-A1模型,在49个任务中不仅对标甚至超越了PI用真实数据训练的π0模型,在“悬挂马克杯”“拾取双瓶”等任务中成功率提升显著,部分复杂场景表现更优。这一结果直接击碎了“真实数据不可替代”的行业共识——当仿真数据能以更低成本实现更优效果,所谓“真机数据的独特价值”,不过是未找到高效替代路径时的自我安慰。特斯拉的战略转向同样印证了这一点:放弃效率低下的动捕遥操采集,转而通过人类视频直接学习任务,已实现吸尘、炒菜等多任务的统一神经网络执行,证明非真机数据同样能支撑核心能力

真机数据能规模化?

VLA另一致命谎言,是“真机数据可通过扩产实现规模突破”。行业经验显示,仅“叠毛巾”这类简单任务要达到稳定泛化,就需数十万到上百万条高质量动作轨迹;而Generalist AI的研究更直指核心:衣物处理任务要将每步误差控制在3.1%以下,需10亿条数据支撑。若扩展到成百上千种日常操作,数据需求将呈指数级暴涨,而真机数据的采集效率与成本,从根源上堵死了规模化之路。

单条高质量真机轨迹的采集,需人工示教或遥操完成,耗时2-10分钟,每小时成本高达100-200元。按此计算,10亿条轨迹的采集成本将突破千亿元,且需同时投入海量机器人与操作人员,连续运行数十年——这对任何企业而言都是不可承受的天文数字。PI的困境早已印证这一点:其核心训练数据仅1万小时灵巧操作数据,即便引入互联网数据与RECAP机制,π*0.6仍只覆盖叠衣服、冲咖啡等3个场景,复杂任务成功率偏低。反观Skild AI的混合范式,通过“仿真+互联网视频+少量真实数据”协同训练,在跨场景与多形态机器人适配中表现更优,估值已达45亿美元,用资本投票证明了规模化路径的可行性。

Demo惊艳=终局能力?

VLA最具迷惑性的谎言,是用单点Demo的惊艳表现,掩盖通用能力的缺失。PI的π*0.6“冲咖啡”视频火遍全球,但这种表现本质是“单点数据堆叠”的结果:通过持续追加人工示教与场景适配数据,将特定任务练到极致,却难以迁移到新场景。正如行业批判所指,PI的路径更像“训练超级熟练工”,在桌面任务中表现出色,但换个机器人形态、换种衣物材质或换个厨房环境,就需重新采集数据、调整参数,适配成本极高。

这种“Demo导向”的发展模式,在GEN-0发布后更显脆弱。GEN-0的出现强化了具身智能的核心规律:能力提升遵循Scaling Law,需依赖高质量多样化数据与可扩展的架构,而非单点技能打磨。而PI在GEN-0发布后仓促推出π*0.6,更像是应激式回应,其有限的场景覆盖与偏低的复杂任务成功率,暴露了“真实数据路径”的终局局限性。反观Skild AI的“类脑分区”架构,通过区分“高层行为决策”与“低层执行控制”,先构建通用行为框架再适配不同机器人,实现了跨形态、跨场景的快速迁移;英伟达GR00T N1平台则用“合成数据+真实数据”的融合方案,使表现提升40%,且11小时就能生成78万条合成轨迹,相当于6500小时人类示教数据——这些实践都证明,VLA的终局竞争力不在单一Demo的华丽,而在数据生产系统的规模化与架构的通用性

“跨本体通用”——比Sim2Real更宽的鸿沟?

如果说真机数据的谎言是技术认知偏差,那“跨本体”则是刻意为之的融资骗局——它将“硬件适配”包装成“智能迁移”,用远超Sim2Real的技术鸿沟,换取估值抬升的商业利益,实则从底层逻辑上就与真机数据形成不可调和的矛盾。

跨本体的核心承诺是“一个模型适配所有机器人”,但真机数据的“硬件专属属性”从源头掐灭了这一可能。每一条真机轨迹、每一个力反馈信号,都深深烙印着采集硬件的“基因”:智元AgiBot World的数据集虽覆盖100台机器人,却均为自家Genie-1移动双臂机器人,其动作数据完全匹配特定机械臂参数;乐聚LET数据集则严格绑定夸父系列人形机器人,对其他品牌机器人毫无复用价值。即便是谷歌整合22种机器人数据的Open X-Embodiment数据集,其RT-2-X模型跨硬件迁移时性能仍暴跌40%,证明“硬件绑定的真机数据,根本无法支撑跨本体智能”。更讽刺的是,跨本体宣称的“一脑多机”反而加剧数据负担——适配N种硬件就需N套专属数据集,陷入“数据越多-硬件绑定越深-跨本体越难”的恶性循环。

更致命的是,跨本体的技术Gap远比Sim2Real更难跨越。Sim2Real的核心是“仿真与现实的物理参数差异”,已有明确破局路径:Jim Fan团队的HOVER框架实现“虚拟一年训练=现实50分钟”,上海AI Lab纯仿真模型超越真机数据模型,这些都证明其是“可优化的工程问题”。但跨本体的Gap是“硬件本质的结构性差异”——自由度、驱动方式、感知系统完全不同:宇树人形的“弯腰拾物”轨迹对单臂机器人毫无意义,松灵双臂的“力控协同”数据对全身机器人无效。这种差异导致跨本体Demo只能局限于“递东西”“拿物品”等简单任务,从未涉及“冲咖啡”“叠衣服”等长程复杂任务,所谓“通用适配”不过是“硬件分工伪装+简单任务摆拍”

TVLA

视觉-语言-动作模型凭借其强大的语义理解和跨模态泛化能力,已成为通用型机器人代理研发的核心驱动力。这类模型依托预训练的视觉-语言backbone网络,能够解读抽象指令并在多种任务中展现出优异的泛化性能。然而,现有VLA模型在接触密集型场景中存在显著短板——难以将决策精准扎根于物理现实,尤其在需要精细力控制的交互任务中表现乏力。

造成这一局限的关键原因在于**触觉感知的缺失**。与视觉和语言提供的高层语义信息不同,触觉感知能传递物理交互中丰富、局部且动态的反馈,如摩擦、柔顺性和材料特性等,这些信息对涉及接触的操作任务至关重要。尽管已有研究尝试将触觉纳入机器人系统,但多将其视为补充性感知模态,未能真正实现与决策过程的深度融合。

针对这一问题,Tactile-VLA旨在通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,实现接触密集型任务中的精准力控制与泛化能力

https://zhuanlan.zhihu.com/p/1928484559713990654

视触觉发展史

人类对世界的感知有六个维度,眼耳鼻舌身意,对应视觉、听觉、嗅觉、味觉、触觉、意识。我们假设机器人进化的终极能量来源还是电力,而不是食物,那么味觉和嗅觉对机器人来说似乎没什么用。剩下四个维度,视觉、听觉、触觉和意识在机器人领域的进展分别是什么样子?

视觉,硬件以摄像头为主,融合激光雷达等传感器,过去几年自动驾驶和服务机器人的发展让视觉算法有很大发展;听觉,硬件以手机和智能音箱听筒和麦克风器件为主,近些年语音识别的算法也相对成熟;意识,ChatGPT的出现让人们相信,也许AI很快会拥有自我意识。那么触觉呢,相比之下,不管是硬件还是算法目前都非常不成熟。

尽管近些年,学术界也有很多paper证明,加入触觉感知,机器人操作物体的准确性可以提高,但触觉感知依然没有完美的方案,甚至到目前为止都没有成熟的硬件平台。在和一些做操作相关的老师交流时,常常听到视触觉传感器,尤其是GelSight。这篇文章以GelSight学术进展为时间轴,呈现从提出到后面每个时期的关键进展。

触觉传感器模仿生物的皮肤触觉,检测外部物理环境引起的刺激。常见的触觉传感器类型包括压阻式、压电式、光学式、电容式、电磁式和视触觉传感器。我们今天这篇文章探讨的GelSight是视触觉传感器的典型代表,所谓视触觉传感器就是基于视觉的触觉传感器(Vision-Based Tactile Sensor,VBTS)。

人类在操作物体的时候,手部的触觉信息包含两个维度:物体本身的状态和接触的状态;其中物体本身的状态信息包含表面纹理、物体形状、软硬度;接触状态信息包含法向力(垂直人手皮肤)、剪切力(平行人手皮肤)、相对滑动和物体的位姿。对上述触觉信息,大多数触觉传感器比如压阻式、压电式、电容式和电磁式大都只能感受法向力,而对其他信息无法采集或灵敏度很低。VBTS和其他触觉方案相比,最大的优点就是可以高灵敏地感知上述全部信息,非常接近人手的触觉信息维度

基于荧光点的视触觉传感器早在2004年就由东京大学团队提出过(GelForce),但分辨率不高。GelSight是第一个超高分辨率的视触觉传感器,它于2009年由MIT计算机科学与人工智能实验室(CSAIL)的Edward Howard Adelson(简称Edward Adelson)研究小组提出。GelSight是由“Gel”和“Sight”组成,Gel(凝胶)是传感器弹性接触表面使用的材料;Sight(视觉),传感机制是使用摄像头采集视觉图像。在GelSight触觉传感器接触物体时,内置的摄像头在LED灯光的辅助下捕捉接触物体的凝胶产生的形变,通过计算机视觉的算法将凝胶形变信息与触觉信息进行映射

GelSight触觉传感器结构 (GelSight 2017论文)

从2009年提出至今,Edward Adelson的小组经历了几代人持续十几年的努力,将视触传感器推到了机器人触觉感知领域的最前沿,获得了全球顶尖高校和科研机构的认可和跟随,AI机器人领域的顶级高校MIT、Stanford、CMU、UCB、UIUC、ETH、牛津、清华、北大、上交、港科大、中科院等高校以及Meta、TRI(丰田)等大企业都推出过基于GelSight的各项工作。近些年,基于GelSight的论文也常常获得机器人领域顶会RSS、ICRA、IROS的Best Paper。接下来就让我们进入GelSight的历史长河,回顾它从诞生至今15年所经历的重要时刻。

https://zhuanlan.zhihu.com/p/691621404

GelSight提出——GelSight @ MIT 2009

提到GelSight视触觉传感器,就绕不开他的发明人MIT教授Edward Adelson。Edward Adelson是一位美国神经科学家,目前是麻省理工学院John and Dorothy Wilson视觉科学教授,同时也美国国家科学院和美国艺术与科学学院的两院院士。他近些年的研究重点是机器人的人工触觉感知,他于2009年在CVPR首次提出GelSight视触觉感知技术(Micah Johnson and Edward Adelson, 2009)。

Edward Adelson 2009年的工作最初只是用于物体表面微观结构的观测,和机器人的触觉感知并没有关系。2009年的GelSight传感器由透明弹性体(一种凝胶状材料)和涂有颜色的外皮组成,可以测量触碰其表面的物体的纹理和几何形状。从背后观察,被按压到传感器上的物体呈现为一个具有均匀反射度的阴影表面。这些特性允许对物体表面进行三维重建。

GelSight @ MIT 2011

在2011年SIGGRAPH,Edward Adelson和团队对GelSight做了进一步优化,提出了一个用于捕捉微观表面几何的系统,将2009年的工作扩展到微观领域,展示了小至 2 微米的空间分辨率(Micah Johnson et al. and Edward Adelson, 2011)。该系统不受被测表面的光学特性的影响 - 无论物体是哑光的、光亮的还是透明的,它都能捕捉相同的几何形状。此外,硬件设计支持多种形式,包括手持设备,可用于在现场捕捉高分辨率表面几何。相较于 Johnson 和 Adelson 2009年提出的原始传感器,2011年的工作改进了传感器材料、照明设计和重建算法,也提出了在表面缺陷检测方面的应用可能。但至此,GelSight和机器人以及触觉依然没有什么关系。

GelSight进化——GelSight @ MIT 2013

在2013年的CVPR,Edward Adelson团队首次将GelSight与机器人触觉感知进行结合,构建了一个包含40个触觉纹理类别的数据库,使用了诸如织物、木材和砂纸等材料(Rui Li and Edward Adelson,2013)。这个系统可以正确分类来自该数据库的材料,表明 GelSight 传感器可以帮助机器人进行材料识别

GelSight @MIT 2014

在2014年IROS,Adelson团队首次提出了使用 GelSight触觉传感来进行机器人小零件的精确定位和操控(Rui Li et al. and Edward Adelson, 2014)。这也是全球第一个用于机器人的超高分辨率(10微米级别)指尖触觉传感器Fingertip GelSight Sensor,并首次将GelSight用于机器人插拔USB的任务,通过视觉和触觉结合实现类人的精细操作和闭环控制。至此,以GelSight为代表的视触觉用于机器人操作的学术研究正式拉开了帷幕。下图可以看到10年前第一款机器人指尖传感器的结构和外观设计和如今GelSight Mini(后文会介绍)非常类似。

这里值得一提的是,2009-2011年的GelSight设备比较大(最小的也有易拉罐大小)且不够实时,不适合用于机器人的操作。自2011年起,Adelson团队将GelSight应用于机器人场景,在软硬件方面进行诸多改进,使得2014年提出的GelSight指尖触觉传感器同时具备小型化和超高分辨率的特性,且具备实时测量法向力、剪切力、相对滑动等能力。

与基于压电、压阻、磁学等传统触觉传感器相比,GelSight指尖触觉传感器拥有超高分辨率、同时测量法向力和剪切力(很多操作需要剪切力)、软硬度测量(可用于抓取柔性物体),且不受环境磁场和温湿度影响。因此,用同一套GelSight软硬件,可以用于自适应抓取不同硬度、大小、形状的物体,如鸡蛋、薯片、草莓,甚至是树叶(见以下视频),可以根据多维力信息形成闭环控制,非常类似于人类操作物体的方式。这些性能对于通用机器人的通用和泛化操作显得尤为重要

GelSight @MIT 2015

在2015年ICRA,Adelson团队首次在GelSight 指尖触觉传感器系统中引入marker点来测量接触表面剪切力、相对滑动和扭转负荷(Wenzhen Yuan et al. and Edward Adelson, 2015)。至此,同时测量接触表面的法向力、剪切力和相对滑动,作为GelSight在机器人触觉领域应用最大的特性之一被普遍认知。可以参看2015年这篇工作的演示视频。

GelSight加速进化——GelSight @MIT 2017

2017年发表在Sensors的一篇论文GelSight: High-Resolution Robot Tactile Sensors for Estimating Geometry and Force可以说对GelSight在机器人领域的应用有极大的推动作用(Wenzhen Yuan et al, 2017)。这篇论文回顾了GelSight的发展,重点介绍了传感原理,传感器设计,光学系统的设计,形状、力和滑动测量的算法,以及不同传感器版本的硬件设计和制造,并系统的总结了GelSight在机器人领域应用的软硬件问题。通过对形状和接触力的高分辨率测量,该传感器成功地辅助了机器人进行材料感知和识别等任务。

在2017年IROS,一款用于测量滑动的GelSight触觉传感器被提出(Siyuan Dong et al, 2017)。2017年Sensors和2017年IROS的这两篇论文采用的核心硬件结构设计都如下图所示。2017年的这款硬件结构和2014年的Fingertip GelSight Sensor是之后诸多科研lab里视触觉传感器的参考原型。

2017年-2018年,Adelson团队发表了多篇让机器通过GelSight触觉传感来感知物体和材料的物理特性的论文。在应用GelSight测量物体软硬度方面也有两个工作(Wenzhen Yuan et al. and Edward Adelson, 2017和Wenzhen Yuan and Edward Adelson, 2017),这两项工作开创性地用GelSight指尖触觉传感器,在不需要准确控制接触条件或对象形状的情况下,让机器人可以估算接触物体的硬度。同时用深度卷积(和递归)神经网络对数据进行分析,估算具有不同形状的物体硬度。

在CVPR 2017,Edward Adelson团队的一篇工作(Wenzhen Yuan et al, 2017)使用了118个织物样本的集合,拍摄了垂挂织物的彩色和深度图像,并使用高分辨率触觉传感器获取了触觉数据。然后通过同时训练卷积神经网络(CNN)跨足三个模态来关联视觉和触觉的信息。通过CNN,每个输入,无论模态如何,都生成一个嵌入向量,记录了织物的物理特性。通过比较嵌入向量,这个系统能够查看织物图像并预测其手感,反之亦然。

在上文的基础上,Edward Adelson团队构建了一个机器人系统,通过触觉可以自主感知物体的属性(Wenzhen Yuan et al, 2019)。机器人在外部Kinect传感器的引导下移动,并用GelSight触觉传感器挤压衣物,然后根据触觉数据识别衣物的11种属性。这些属性包括物理属性,如厚度、毛绒度、柔软度和耐久性,以及语义属性,如穿着季节和首选洗涤方法。作者收集了包含153件各种衣物的数据集,对触觉数据应用了卷积神经网络(CNN)来识别衣物的属性。

GelSlim @MIT 2018

2018年,Adelson团队在2014年工作的基础上对GelSight指尖传感器进一步小型化,提出了GelSlim指尖传感器。下图左侧的结构是2014年提出的GelSight指尖传感器结构,GelSlim对GelSight内部结构进行调整,将传感器厚度减薄。

GelSight @ MIT RSS 2020 Best Paper Finalist

Edward Adelson团队一篇用Gelsight操作绳子的论文获得了2020年RSS这最佳论文入围奖(Yu She et al, 2020),作者依靠GelSight,来估计握持电缆时的姿态以及电缆滑动过程中的摩擦力。将跟随电缆的行为分解为两个基于触觉的控制器:电缆握持控制器和电缆姿态控制器。

GelSight @ MIT IROS 2020 Best Paper

2020年IROS,Edward Adelson团队和上海交通大学学者一篇Swingbot获得最佳论文(Chen Wang et al. and Edward Adelson, 2020)。SwingBot通过手持触觉传感器,探索物体物理特征以实现动态摆动操纵。通过使用重力或手臂加速度来操纵物体,从而增加了质量、质心和摩擦信息的重要性。

GelSight Wedge @ MIT 2021

2021年,Edward Adelson团队提出了GelSight Wedge传感器(Shaoxiong Wang et al. and Edward Adelson,2021),它具有紧凑的形状适用于机器人手指,同时实现高分辨率的3D重建。

GelSlim 3.0 @ MIT 2022

在2018年GelSlim的基础上,Alberto Rodriguez团队进一步推出GelSlim 3.0,在更紧凑的形状中感知高分辨率、压力和滑动。为了实现紧凑的集成,作者优化了从照明源到相机的光学路径。

GelSight Baby Fin Ray @MIT 2023

2023年,Ted Adelson团队推出了GelSight Fin Ray,将触觉感知整合到软性柔顺机器人中(如Fin Ray手指)。过往的GelSight手指传感器都是刚性的,外界接触仅会引起凝胶形变而不会引起刚性手指形变。而对Fin Ray这类柔性手指,GelSight触觉传感器的挑战在于在柔性手指也会形变的同时测量凝胶形变。

GelSight EndoFlex @ MIT 2023

除了夹爪外,Edward Adelson团队也推出了多指的灵巧手版本,GelSight EndoFlex是一种新颖的三指机器人手,其整个手指长度都具有高分辨率的触觉感知。手指是柔软的,由柔软的外壳和灵活的内骨架支撑构建而成。每个手指包含两个摄像头,允许沿手指的前侧和侧面收集触觉数据。该夹爪可以对物体进行包围式抓取,并在单次抓取中提取大量丰富的触觉数据。

GelSight Svelte @ MIT 2023 IROS Best Paper

2023年,Edward Adelson团队提出了一种曲线状、人手指大小、单摄像头触觉传感器GelSight Svelte(Jialiang Zhao and Edward Adelson,2023),能够在大范围内进行触觉和本体感知。GelSight Svelte利用弯曲的镜子来实现所需的形状和感知覆盖范围。本体感知信息,如作用在手指上的总弯曲和扭矩,表现为GelSight Svelte柔软主体上的变形,这些变形也被摄像头捕捉到。作者训练了一个卷积神经网络(CNN),以从捕捉到的图像中估计弯曲和扭矩。这篇文章也获得了2023年IROS Best Paper。

基于手指形状的视触觉传感器GelSight Svelte,作者进一步提出了一种新型的3指2自由度触觉机械手GelSight Svelte Hand。每个手指都配备有一个摄像头,能够获取丰富的触觉信号,其感知区域类似于人手指的全长。GelSight Svelte Hand的每个手指都由半刚性内骨架支撑,并覆盖有柔软的硅胶材料,既提供了刚度又具有一定的柔韧性。

GelSight Svelte: A Human Finger-Shaped Single-Camera Tactile Robot Finger with Large Sensing Coverage and Proprioceptive Sensing

GelSight 360 @ MIT 2023

过往的GelSight触觉传感器只能进行单侧感知,Edward Adelson团队于2023年推出了GelSight360,这是一种类似指尖的全向触觉传感器。这个传感器引入了一种新颖的十字LED照明方案。

除了Edward Adelson自己组里关于GelSight的一系列工作,他的团队也和其他团队合作产生了一系列基于GelSight触觉感知的机器人操作工作。比较有代表性的是MIT Tao Chen的两个工作,我们在之前的文章将机器人的手牵向人类的手:灵巧操作华人论文综述也引用过。

比如TactoFind:在视觉感知缺失、对象形状事先未知且对象可以自由移动的场景中进行对象检索的问题,例如从抽屉中取出物体。

人员

https://www.duyipai.me/

相关论文

https://zhuanlan.zhihu.com/p/1987884045833615002