交大要闻

上海交通大学在自动驾驶领域取得新进展,登CVPR2025 行为世界模型竞赛榜首

近日,上海交通大学人工智能学院团队在由北美、欧洲等地,以及学术界与工业界广泛参与的Waymo自动驾驶挑战大赛中脱颖而出,提出的TrajTok方法在行为世界模型项目上获头名(奖金 10,000美金),并于CVPR 2025自动驾驶研讨会(Workshop on Autonomous Driving)介绍相关工作。

CVPR比赛结果.jpg

研究团队对next-token-prediction (NTP) 范式的行为世界模型所使用的tokenizer进行深入的研究和分析,提炼出若干设计要点,结合两类思路设计了TrajTok tokenizer。与先前工作相比,TrajTok tokenizer能够更充分地涵盖现实中多样的轨迹分布,使行为世界模型的输入和输出空间与现实场景接近,从而大幅提高模型性能,在竞赛中摘得桂冠。

研究背景

仿真器是自动驾驶以及具身智能模型测试链的重要一环,也是近年流行的基于在线强化学习的算法所依赖的训练环境。它需要根据世界知识构建车辆或机器人所处的场景图,尽可能真实地推演环境中各种物体的物理状态。

行为世界模型是仿真器的重要组成部分。以自动驾驶场景为例,它需要从海量数据中提炼出关于驾驶的世界知识,控制车辆的加速、刹车、转向等行为,并且还需要处理复杂的车辆之间的交互,并对自车的行为做出实时的反馈。通过学习真实世界的驾驶数据分布,行为世界模型能够生成多样化且逼真的驾驶行为,并模拟在现实中难以采集到的长尾事件。

目前相当多的行为仿真世界模型都借鉴了大语言模型,采用了next-token-prediction (NTP)的范式。其中,轨迹tokenizer决定了模型的输入和输出空间,直接影响模型的性能。 然而,目前针对轨迹设计的tokenizer较少,并且缺少针对轨迹tokenizer设计的研究。

核心见解

目前,轨迹tokenizer主要有数据驱动和基于规则两类方法。数据驱动方法产生的token利用率较高,但覆盖范围受限于所使用数据集、对称性和鲁棒性差;基于规则的方法有较大的覆盖范围和较好的鲁棒性,但往往因为缺乏先验而引入大量无效token,计算代价高。TrajTok结合数据先验和网格的规则(gridding),兼顾了覆盖率-利用率取舍、对称性、鲁棒性三大设计要点,其生成过程主要包括四步:

(1)数据预处理和翻转:从数据集中提取固定长度的轨迹,转换至以车辆为中心的坐标系下,并做翻转处理以保证数据的对称性。

(2)网格化:按照给定间距和边界生成网格,将末端点落入网格的轨迹与该网格对应。

(3)过滤和扩展:根据每个网格的轨迹数量是否超过阈值,确定网格是否有效,生成二值图。利用二值图操作来过滤异常数据,并依据现有数据推测可能的轨迹分布区域。

(4)生成轨迹:对每个有效的网格,根据其对应的所有轨迹的均值,或运用曲线插值方法来生成对应的token。

vis.png

process.png

此外,TrajTok还对模型的交叉熵损失的平滑方法做出改进,提出了基于轨迹token的距离为非真值标签分配目标概率的方法,进一步提高了性能。

实验结果

图为Waymo自动驾驶挑战大赛行为世界模型赛题原始排行榜。在规定时间内、符合赛题相关要求的提交中,TrajTok获得了官方宣布的冠军,并相较于Baseline有明显的提升。

result.png

工作总结

上海交通大学人工智能学院团队提出的TrajTok丰富了行为世界模型的tokenizer设计的相关研究,提出了新的设计理念,有效提高了行为世界模型的性能。这一研究成果契合自动驾驶及机器人相关算法闭环测试和强化学习的需要,有望在科研和产业落地方面发挥重要作用,推动相关领域的发展。

赛事介绍

自2020年以来每年于CVPR举办的谷歌Waymo自动驾驶挑战大赛是自动驾驶领域参与最广、最具影响力的比赛之一。赛事包含感知、预测、行为世界仿真等多个赛题,任务难度高,高手云集。历届参赛单位涵盖国际知名高校(卡内基梅隆大学、普林斯顿大学、伯克利大学等)和自动驾驶及人工智能领域的头部企业(谷歌、英伟达、地平线、滴滴、零跑等)。学术界和工业界的顶尖研发团队反复迭代的算法,在数据量庞大、场景丰富多样的自动驾驶数据集上一决高下。在这项赛事中夺冠的方案,大多对领域发展起到了重要的推动作用,成为了学界、业界广泛采用的方法。

关于作者

该工作由严骏驰(上海交大人工智能学院教授)指导,张致远(共同一作,交大AI试点班大四本科生,直升人工智能学院硕士)、贾萧松(共同一作,交大计算机四年级直博生)、陈冠宇(交大AI试点班大三本科生)、李奇峰(交大计算机二年级普博生)共同完成。

严骏驰、张致远、贾萧松
人工智能学院
惠慧
钱露