探索发现 · 交大智慧

上海交通大学计算机学院2项成果荣获ACL 2025杰出论文奖

近日,自然语言处理领域会议ACL 2025在奥地利维也纳举办。上海交通大学计算机学院2项成果荣获会议杰出论文奖(Outstanding Paper Award),分别是吴帆教授、刘生钟副教授团队与北京航空航天大学、商汤研究院合作完成的论文"Pre3: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation",上海交通大学计算机学院硕士生陈俊一为论文第一作者,刘生钟副教授为论文共同通讯作者;马利庄教授团队的论文"LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts",上海交通大学计算机学院博士生任麒冰为论文第一作者,马利庄教授为论文通讯作者。本次会议共录用论文3000余篇,其中仅26篇获得杰出论文奖。


成果一:Pre3: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation

图片1.png

吴帆教授、刘生钟副教授团队Pre3荣获ACL杰出论文奖(Outstanding Paper Award)

研究背景

随着大语言模型(LLM)技术的快速发展,结构化生成任务在各类智能应用中变得日益重要。从自动化工具调用、思维链推理到具身智能系统,这些应用都要求LLM能够生成符合特定格式的输出,如JSON或其他结构化数据。


图片2.png

图:结构化输出的应用场景

当前主流的约束解码方法主要将LR(1)文法解析为下推自动机(PDA),导致运行时需要处理上下文相关的token,在大规模推理批次下效率低下。特别是当批量处理请求增加时,动态验证步骤造成的串行瓶颈问题更加突出。

研究成果


图片3.png

图:Pre3的工作流程

Pre3系统的工作流程如图所示,在系统中团队提出了三点创新技术:

1. 前缀条件边机制:论文设计了一种新颖的前缀条件边机制,通过同时匹配输入符号和已接受符号的前缀信息,确保转换路径的唯一性。每条边都包含三个关键组件:接受符号、栈匹配条件和栈操作。

2.确定性下推自动机构建算法:论文提出了一种从LR(1)状态转换图构建DPDA的系统方法。算法保留了LR(1)转换图中的节点定义,但将边重新定义为两种不同类型:接受边和归约边。

3.自动机循环问题解决方案:针对LR(1)文法中可能存在的循环符号序列,论文提出了专门的解决方案。通过修改回边并引入额外的栈操作,Pre3能够高效处理循环遍历问题。

图片4.png

图:Pre3的主要创新点

实验结果表明,Pre3系统在各项指标上均显著优于现有技术:在单步解码效率方面,Pre3引入的开销比基线减少约30%;在系统测试实验中,Pre3的吞吐量比基线方法提高约36%。

图片5.png

图:会议论文宣讲现场

作者介绍

1d8a222a5eb20ad788f8af3f11cf8ae.png

陈俊一,论文第一作者,上海交通大学计算机科学与技术专业硕士研究生。主要研究方向包括大语言模型、多模态大模型以及机器学习系统,研究工作聚焦于提升大模型推理效率与系统性能优化。

e97e2bd69b77ba508810942f9c964cb.png

刘生钟,论文共同通讯作者,上海交通大学计算机学院长聘教轨副教授,国家级高层次青年人才。研究方向为实时边缘智能、多模态感知与物联网,在RTSS、UbiComp、SenSys、WWW等国际知名会议与期刊发表论文60余篇,先后获得RTSS、UbiComp、ACL、SenSys、RTAS等国际会议最佳/杰出论文奖7次。


成果二:LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

cfedcae10087d24a608b5a40ef4cd54.jpg

马利庄教授团队成果荣获ACL杰出论文奖(Outstanding Paper Award)

研究背景


随着大语言模型(LLM)技术的快速发展,确保其在现实世界的安全部署变得愈发重要。系列安全对齐工作通过监督微调或者人类反馈强化学习技术来教给模型面对有害输入时拒绝回答。

本文尝试从人类语言学的视角来分析LLM的潜在安全风险。语言学家索绪尔分析说,人类语言有组合(compositional)结构和联想(associative)结构。组合结构即指人类语言的语法句法结构,联想结构指说话者在说了若干词汇后,听者可以根据上下文联想下一个词会是什么。

因为LLM在预训练阶段通过预测下一个token目标,所以我们认为LLM很好的建模了语言的联想关系。而这里面隐藏着风险:如果输入包含“诺贝尔”这个和“炸弹”相关但是安全词汇,“炸弹”是否会更有可能出现在LLM的下一个token的预测空间里?

研究成果

我们发现恶意用户可以利用联想关系来绕过LLM的安全护栏。下图展示了用户利用“Ted Kaczynski”和“炸弹”的联想关系通过多轮对话逐渐诱导大模型危险回复。现有的对抗攻击通常会对查询施加一些人为bias来让查询偏离安全训练数据的分布,从而绕过安全护栏。然而,我们的攻击是在看似自然和安全的查询中,通过“指代”等方式,使对话主题逐渐向危险方向偏离。完成攻击。

图片2.png


图:利用“Ted Kaczynski”和“炸弹”的联想关系诱导大模型危险回复

为了系统性的去识别有可能导致不安全输出的联想关系,我们提出了ActorBreaker方法。受Actor-Network Theory启发,有害知识并不是孤立存在的,而是在网络的行动者中传播。每个行动者影响和塑造着有害知识。具体的,我们确定了六大类行动者,比如创造、传播、执行、接收、管制等。

给定一个有害输入,我们提出利用LLM自己的预训练先验来建模有害输入和相关的人事物的联想关系。然后,从任何一个相关的人事物出发,LLM可以自动生成一个多轮查询路径,来让话题逐渐偏移到危险的目标主题。

图片3.png

图:ActorBreaker的工作流程

如下图所示,ActorBreaker在主流的LLMs上均取得了很高的攻击成功率,超越了最优的单轮和多轮攻击方法。特别是对推理模型比如GPT-o1,ActorBreaker也取得了60%的攻击成功率,暴露了当前安全推理机制在多轮交互中的安全漏洞。

图片4.png


图:ActorBreaker和baselines在主流LLM上的攻击成功率

所以我们提出了第一个多轮对话安全对齐数据集。基于ActorBreaker生成的多轮问答,我们使用GPT-4o模型来判断第一次模型出现危险回答的位置,并用安全回复来替换。下图展示了使用我们的安全对齐数据可以帮助LLM极大提高面对多轮攻击的鲁棒性。

图片5.png

图:不同安全对齐方法在ActorBreaker上的防御效果

作者介绍

图片6.png

任麒冰,论文第一作者,上海交通大学计算机科学与技术博士生,吴文俊人工智能实验班班长。主要研究方向包括安全可控智能体、多模态大模型以及工业视觉质检。

图片7.png

马利庄,上海交通大学特聘教授,上海交通大学人工智能研究院副院长,华东师范大学特聘教授。中国图象图形学会理事、会士,中国计算机学会 CAD&CG 专委会副主任,中国人工智能学会理事。马教授是国家杰出青年基金(1996),上海市科技进步特等奖(第一完成人)、一等奖、二等奖,中国青年科技奖,国家教育部科技进步二等奖,吴文俊人工智能自然科学奖一等奖;国家“百千万人才工程”(国家级)首批人选(1997);国务院特殊津贴获得者。马教授在国内外重要学术刊物上发表论文500多篇,包括一系列 IEEE TPAMI、TIP、CVPR 等顶级论文,在跨媒体智能处理、人体姿态估计、3D场景分析与理解等方向取得一系列创新性成果。

计算机学院
计算机学院(网络空间安全学院、密码学院)