探索发现 · 交大智慧

上海交大人工智能学院卢策吾团队:让数据采集从"专业工具"走向"全民参与"

在人工智能快速发展的今天,具身智能正成为下一个重要突破口。学院卢策吾教授团队长期深耕具身智能领域,联合穹彻研发RoboPocket,用创新思维重新定义具身智能数据采集的范式。这套可搭载手机的数采终端及其配套应用程序,让每个普通人都能上手,边采边筛,只投喂机器人“爱吃的”,采出来的数据“不脏也不废”,已经在实际模型训练中跑出了效果。

01.gif

一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集!

采出来的数据不脏也不废,已经在实际模型训练中跑出了效果!

模型需求前置到采集一线,让你随时接入模型的训练闭环!

具身数据一天比一天多了,结果训练效率出现不升反降情况,怎么破?

如果模型训练最终还是要根据数据结构做判断与筛选,那么为什么这件事不能在数据采集阶段就发生?

02.gif

问:当前具身模型在规模化升级过程中,数据环节主要面临哪些困境?数采厂和现有UMI方案都没能很好解决问题的核心原因是什么?

卢策吾团队:具身模型规模化卡在数据采集的“真实性与质量平衡”难题,数采厂和传统UMI各有局限且无法突破核心困境。

具体来看,在具身智能领域,高质量、多样化数据的重要性已成共识,但数据采集长期面临困境。2023年起,各团队大规模建设数采厂以实现数据规模化生产,却出现数据量攀升而模型能力未稳定提升的问题。因数采厂依赖预设场景和标准化流程,难以覆盖真实世界中非标准、非重复的操作情境,导致数据高度相似、训练收益边际递减,甚至出现训练效率不升反降的情况。在此背景下,轻量便携的UMI应运而生,突破了固定场地限制,能采集贴近现实分布的数据,弥补了数采厂与真实世界的差距,但大规模应用后又面临质量控制难题,大量低价值数据需在后处理阶段才能甄别,推高成本并拉长训练周期,形成采集质量、使用便捷性与后处理压力的“不可能三角”。

问:针对现有UMI方案“采得的数据能不能用”的核心痛点,团队是从什么角度找到突破方向的?RoboPocket的核心设想是什么?

卢策吾团队:突破方向从第一性原理出发将数据筛选前置,核心设想落地为RoboPocket,破解“采得即用”难题。

现有UMI方案未能解决“采得的数据能不能用”这一核心问题,为此我们团队从第一性原理出发重新探索,提出关键设想:既然模型训练最终需依据数据结构判断筛选,为何不将这一环节前置到数据采集阶段?这一问题此前未被行业直面解决,因解决它需全面调整采集逻辑、平台架构等诸多层面。而RoboPocket的出现,首次将这一设想转化为现实,为破解具身智能数据采集困境提供了新路径。

问:RoboPocket内置的“数据价值中枢系统”是核心亮点,能否具体介绍一下这个系统的作用?它与传统UMI的采集逻辑有何本质区别?

卢策吾团队:核心优势是内置“数据价值中枢系统”,颠覆传统采后筛选逻辑,从根源把控高价值数据。

相较于传统UMI默认“记录人类操作行为”的采集目标,RoboPocket的核心改变是将采集目标转向模型能力缺口,聚焦模型未掌握的高价值数据。依托我们团队对具身模型训练与数据闭环的深厚积累,其内置实时“数据价值中枢系统”,打破传统数据采后筛选模式,在采集当下即可完成判断,从根源规避重复、低价值数据问题,这一能力依赖对模型的长期理解,难以复制。采集过程中,系统同步实现实时评估、即时引导、动态调度三大动作,精准把控数据质量、纠正操作偏差,并结合模型表现分发高优先级任务,如同24小时待命的数据采集主理人。

问:基于RoboPocket采集的数据进行训练,模型能获得哪些具体提升?在实际任务中的表现如何?

卢策吾团队:训练优势显著,可推动模型在复杂非理想环境中稳定可靠完成任务,提升数据系统运行效率。

RoboPocket采集的数据在训练中优势显著,尤其在开放复杂环境多步骤任务中,模型执行稳定性更强,能精准识别上下文意图,在光照、背景变化等干扰下仍保持清晰目标推进逻辑,双臂协同与长序列操作能力卓越,零食分拣、毛巾折叠等任务可稳定高效完成,复杂场景下成功率与一致性较高。这推动模型从“粗糙完成任务”向“非理想条件下可靠完成任务”演进,更让数据采集成为面向模型能力补齐的闭环行为,通过与训练联动显著提升整个数据系统的运行效率。

问:从行业发展视角来看,RoboPocket的出现对具身智能数据采集领域意味着什么?它推动行业迎来了怎样的范式转变?

卢策吾团队:其意义在于推动具身数据采集从“专业体系”迈向“社会化网络”,实现关键范式转变。

从长期视角看,RoboPocket并非孤立的产品更新,机器人学习的发展本质是数据采集方式持续演进的历史。早期机器人数据依赖少数研究者在实验室封闭环境录制;随具身智能发展,数据走向规模化采集场,团队发布的RH20T实现中国机器人操作数据系统性规模化采集,但仍依赖预设场景。UMI让设备轻量化,采集转向“自然发生”;穹彻CoMiner系统推动机器人走出采集场进入真实世界。这一过程中,具身数据逐步脱离搭建场景,愈发贴近现实,RoboPocket的出现,彻底将采集从特定场所与专业系统推向社会,以手机为节点让普通人参与,实现从“专业体系”到“社会化网络”的范式转变。

问:RoboPocket实现了数据的社会化采集,如何确保普通人的采集行为能精准匹配模型需求?这对行业未来竞争格局会产生哪些影响?

卢策吾团队:核心保障是双重角色+实时调度,可推动行业竞争升级,助力具身智能实现规模化能力涌现。

当然,采什么、怎么采、优先级如何,这些都不是由人随意决定的。RoboPocket并非放任采集,而是承担数据入口与调度中枢的双重角色,前端连接真实世界的分散场景,后端联动任务库、模型训练与评估系统,凭借这套持续在线的判断与调度机制,为数据社会化采集提供了前提条件。这样一来,采集员可以是每一个普通人,但采集行为始终由数据中枢系统根据模型需求统一牵引调度。长远来看,这会推动具身数据从工具竞争迈向体系竞争,谁的数据采集流程更早接入模型反馈、谁的任务设计天然适配训练目标,谁就能更快积累泛化能力与落地鲁棒性。当前行业普遍认为具身智能还在上半场,大家也都期待这个领域能像大模型一样,凭借规模化优势带来能力涌现。

卢策吾团队
人工智能学院