交大要闻
上海交大计算机学院成果获ACM MM '25 Systems Theme领域杰出论文奖
2025年10月27日至31日,第33届ACM国际多媒体大会(ACM MM '25)在爱尔兰都柏林召开。上海交通大学计算机学院蒋力老师、刘方鑫老师和上海期智研究院合作完成的论文“ASTER: Adaptive Dynamic Layer-Skipping for Efficient Transformer Inference via Markov Decision Process”的研究,从全球顶尖学术成果中脱颖而出,获本次大会 Systems Theme 领域杰出论文奖(Outstanding Paper Award) 。ACM MM '25共录用1251篇高质量论文,Systems Theme领域仅评选出3篇杰出论文,获奖率不足0.25%,其学术影响力备受业界认可。本论文由上海交通大学计算机学院刘方鑫老师、王俊杰通信学担任共同第一作者,蒋力老师为通讯作者。

会议介绍
ACM 国际多媒体大会(ACM MM)是国际公认的多媒体领域顶级学术会议,涵盖计算机视觉、自然语言处理、多媒体系统、人机交互等前沿方向,被誉为该领域的 “风向标”。每年吸引全球数千名顶尖学者、工业界专家参与,所录用论文代表相关研究方向的最新进展与最高水平,是衡量学术成果影响力的核心标杆之一。
成果介绍
作者信息: Fangxin Liu=, Junjie Wang=, Ning Yang, Zongwu Wang, Junping Zhao, Li Jiang, and Haibing Guan.
研究背景
随着 Transformer 架构在自然语言处理、计算机视觉等领域实现突破,模型规模呈指数级增长 —— 从百亿参数到千亿参数的跨越,虽带来性能提升,却也引发 “效率危机”:巨大的计算成本、漫长的推理延迟,制约了高性能模型在移动端、边缘设备等资源受限场景,以及实时交互、自动驾驶等低延迟需求应用中的落地。
团队研究发现,Transformer 模型多层结构存在 “冗余性”:并非所有网络层对每个输入样本都同等重要,许多场景下早期层已能提取关键信息,后续层计算不仅浪费资源,还可能引入噪声、降低模型泛化能力。但现有层跳跃方法难以平衡 “加速比” 与 “精度”:预定义的固定跳层策略无法适配动态输入数据,激进的层裁剪会导致信息丢失,造成模型性能大幅下降。如何在不牺牲核心性能的前提下提升推理效率,成为全球学界与工业界亟待解决的问题。

图:ASTER执行框架示意图
研究成果:ASTER 让层跳跃成为智能的自适应决策过程
为解决这一问题,团队提出ASTER 自适应动态层跳跃框架,将层跳跃问题建模为马尔可夫决策过程(MDP),通过三大核心设计实现 “高效推理” 与 “性能保持” 的平衡:
1. 动态决策机制:摒弃传统固定策略,引入智能评分模型,实时感知输入样本特征状态,动态规划最优计算路径,实现 “该算则算、该跳则跳” 的自适应推理;
2. 信息补偿策略:设计 “认知令牌”(Cognitive Token),通过知识蒸馏技术从完整层计算的教师模型中学习关键信息,弥补跳层导致的信息缺口,保障高加速比下的精度稳定;
3. 轻量适配模块:针对多层跳跃场景,引入轻量化适配器模块,平滑隐藏状态的表征空间转换,避免层结构突变导致的性能退化。
实验在多个场景表明,ASTER 在性能与效率的双重领先:
· 视觉任务:在DeiT模型的ImageNet数据集上,1.71倍加速时达到74.02%准确率;2倍理论加速时保持65.86%准确率(同类方法均大幅下降)。
· 语言任务:在DistilBERT模型的SST-2情感分类任务中, 1.5 倍加速时准确率达 84.75%,与完整模型性能接近;3 倍高压力加速下,准确率仍达 81.65%,而传统方法性能普遍跌破 70%,体现出 ASTER 在语言任务中的鲁棒性。
该研究为 Transformer 模型高效部署提供了新方案,有望推动高性能 AI 模型在移动终端、智能车载、边缘计算等资源受限场景的规模化应用,为人工智能技术 “轻量化落地” 提供支持。
作者介绍

刘方鑫,上海交通大学计算机学院助理研究员、博士生导师,兼任上海期智研究院研究员。研究方向包括计算机体系架构与设计自动化、大模型加速、AI编译优化等。以第一/通讯作者身份在HPCA、ISCA、MICRO、ASPLOS、DAC等领域顶级期刊及会议上发表论文 50 余篇,其中CCF-A类30余篇,体系结构四大顶会13篇。主持国家自然科学基金青年项目、上海市自然科学基金面上项目,以及华为、阿里巴巴、蚂蚁金服、中兴通讯、小米、OPPO、CCF-蚂蚁科研基金、CAAI-蚂蚁科研基金等十余项企业及学会合作课题。曾入选上海交通大学首届“吴文俊人工智能博士项目”,并担任“国智班”项目导师。研究成果入选华为火花奖(2022)、中国计算机学会容错计算专委40周年代表性成果等,此外,获DATE 2022最佳论文奖及最佳论文提名、上海市计算机学会优秀博士论文奖(每年仅2–3人入选)、ACM上海优秀博士论文奖(每年仅2–3人入选)、上海市优秀毕业生、CCF体系结构优秀博士论文提名等奖项与荣誉。指导学生获CCFSys图计算系统设计大赛特等奖、CCFSys 2025最佳项目海报奖及第二届集成芯片与芯粒技术开源社区大赛一等奖等荣誉。

王俊杰,共同第一作者,上海交通大学计算机学院博士研究生,研究方向包括模型压缩、大模型加速等。
指导老师

蒋力,上海交通大学研究员,博导。入选国家高层次青年人才计划。长期开展软硬件协同设计技术研究与产业化工作,紧抓云端 AI 芯片与智算系统的国产替代需求,取得了多方面创新成果。在国际期刊 IEEE/ACM Transactions(TPDS、TACO、TC、TVLSI 等),以及ISCA、MICRO、HPCA、ASPLOS、DAC、AAAI、ICCV 等知名国际会议上发表论文 140余篇,获得芯片设计知名国际会议DATE最佳论文奖2次(2022/2023年)。授权国家发明专利 10项(含美国发明专利 1 项)。主持国家重点研发计划“战略性科技创新合作”重点专项项目(首席)、国家自然科学基金、上海市科创中心·上海期智研究院项目、上海市自然科学基金等10 余项。承担华为、阿里巴巴、蚂蚁金服、中兴通信等龙头科技企业横向课题20余项。长期担任 DAC、DATE等知名国际会议 TPC。以第一完成人获ACM上海新星奖(2018年),第二届CCF集成电路Early Career Award(2019年),以主要完成人获教育部-华为智能基座“突出贡献奖”(2021年),吴文俊人工智能科学技术(芯片类)二等奖(2022年),教育部·国家一流本科课程(线上)(2023年),上海市高校教师教学创新大赛·特等奖(2024年),上海市技术发明二等奖(2025年),CCF-CFTC40周年代表性成果奖(2025年)。担任Mindspore技术委员会委员,IET Computers & Digital Techniques,Integration the VLSI Journal等国际知名集成电路杂志编委,高等教育出版社人工智能实践系列课程与教材编委会委员。兼任华为技术有限公司数通通信处理器实验室主任,通信处理器关键技术研究高级专家(首席)。