综合新闻

计算机学院俞凯教授指导硕士毕业生张晗翀获2025年度上海市计算机学会优秀硕士学位论文奖

近日,2025年度上海市计算机学会优秀硕士学位论文奖公布。上海交通大学计算机学院机器智能研究所硕士毕业生张晗翀的学位论文《基于大模型的结构化查询代码解析研究》成功入选,其指导教师为俞凯教授。

获奖人简介

01_副本.png

张晗翀,毕业于上海交通大学计算机学院,现为美团平台技术部数字人与创意生成组算法策略工程师。研究方向聚焦于语义解析Text-to-SQL。在ACL、EMNLP、NAACL等国际自然语言处理顶级会议发表论文4篇,其中以第一作者身份在CCF-A/B/C类会议发表3篇,展现了扎实的科研能力。在校期间表现优异,荣获2025届硕士研究生优秀毕业生。目前致力于将前沿算法策略应用于数字人与创意生成的实际业务场景中,推动技术在工业界的落地与应用。

CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset

跨领域Text-to-SQL任务旨在构建一个能将用户问题解析为SQL语句的系统,且该系统需能应对完全未见过的数据库;而单领域Text-to-SQL任务则主要评估模型在相同数据库上的表现。然而,这两种设定在实际应用中都会遇到难以避免的困难。

为此,我们引入了跨模式Text-to-SQL任务,即评估数据中的数据库虽然与训练数据不同,但两者源自同一领域。为了开展相关研究,我们提出了CSS,这是一个大规模的医疗领域跨模式中文Text-to-SQL数据集。CSS最初包含跨越2个数据库的4,340个问题/SQL对。为了让模型能够泛化到不同的医疗系统,我们扩展了CSS,新增了19个数据库以及29,280个相应的数据样本。此外,CSS也是一个用于单领域中文Text-to-SQL研究的大型语料库。我们详细介绍了数据收集方法,并对数据统计情况进行了系列分析。为了展示CSS的潜力和实用价值,我们还进行了基准测试并报告了相关结果。

ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought

近年来,大语言模型(LLMs)已被证实在多个领域和任务中展现出强大的能力。我们研究了Text-to-SQL任务中的提示词设计问题,并试图提升LLM在生成SQL查询时的推理能力。除了常规的少样本上下文学习设置外,我们借鉴了类似于模式链接的方法,设计了我们的思维链提示词。我们提出了一种名为ACT-SQL的方法,用于自动生成思维链示例,因此整个过程无需人工标注。我们的方法非常节省成本,因为在生成一条SQL查询时,我们仅需调用一次LLM API。此外,我们将这种上下文学习方法扩展到了多轮Text-to-SQL任务中。实验结果表明,LLM的性能可以从我们的ACT-SQL方法中获益。在现有的上下文学习方法中,我们的方法在Spider开发集上取得了最先进(SOTA)的性能表现。

CoE-SQL: In-Context Learning for Multi-Turn Text-to-SQL with Chain-of-Editions

最近,大语言模型已被证明在各种领域和任务中具有令人印象深刻的能力,我们研究了多轮Text-to-SQL任务中的提示词工程设计问题,试图增强大模型在生成SQL时的推理能力,补全将大模型和上下文学习方法应用于多轮Text-to-SQL任务的研究空缺。在对话上下文中,由于上下文依赖,当前的SQL查询语句可以基于前几轮对话中的SQL查询语句通过少量操作修改得到。我们介绍了称为编辑链(Chain-of-Editions,CoE)的针对多轮Text-to-SQL任务的上下文学习方法,该方法可以提示大模型利用一条编辑链,基于前几轮对话中的SQL查询语句生成当前的SQL查询语句。我们还进行了广泛的消融实验,以确定编辑链方法的最佳实验配置。我们所提出的方法稳定地超越了不同的上下文学习基线方法,并且使用大模型在SParC和CoSQL两个数据集上取得了最先进的性能表现,同时也与最佳的微调模型性能可比。

NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering

学术论文数量的激增使得研究人员难以高效地获取关键细节。虽然检索增强生成(RAG)在基于大语言模型(LLM)的自动问答中展现出巨大潜力,但以往的工作往往将语义检索与符号检索孤立开来,忽视了二者的互补优势。此外,传统的单视角切片方法忽略了PDF文件丰富的结构和布局(如章节和表格)。在本工作中,我们提出了NeuSym-RAG,这是一个混合语义符号检索框架,通过交互过程结合了这两种范式。通过利用多视角切片和基于模式的解析,NeuSym-RAG将半结构化的PDF内容组织到关系数据库和向量存储中,使LLM智能体能够迭代地收集上下文,直到足以生成答案。在三个基于完整PDF的问答数据集(包括一个自标注的数据集AIRQA-REAL)上的实验表明,NeuSym-RAG稳定地击败了基于向量的RAG和各种结构化基线,突显了其统一两种检索方案并利用多视角的能力。

指导老师介绍

02_副本.jpg

俞凯,现任上海交通大学计算机学院特聘教授、博导,机器智能研究所所长,思必驰公司联合创始人及首席科学家。语言计算国家人工智能开放创新平台负责人,江苏省语言计算及应用重点实验室主任。国际语音通讯联盟会士(ISCA Fellow),美国电子电气工程师协会会士(IEEE Fellow),中国计算机学会杰出会员。国家级高层次人才计划获得者,科技部中青年科技创新领军人才,国家自然科学基金委优青,上海市“东方学者”特聘教授,上海市欧美同学会副会长兼人工智能分会会长。清华大学自动化系本科(1999)、硕士(2002),英国剑桥大学工程系博士(2006)。2012年回国在上海交通大学创立智能语音实验室(SpeechLab),后扩展并更名为跨媒体语言智能实验室(X-LANCE)。

研究兴趣主要集中在人工智能领域,尤其是以对话为核心的智能语音及自然语言处理,涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体,它可以在复杂的现实环境中运行,处理不确定性,以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文,并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖,Interspeech等多个顶级国际会议的优秀论文奖,以及一系列国际研究评测的冠军。作为中国大陆高校首位入选者,曾任 IEEE 语音语言处理技术委员会(Speech and Language Processing Technical Committee,SLTC)委员,曾任IEEE/ACM Transactions on Audio Speech and Language Processing 副主编,现任IEEE 信号处理分会会议事务理事会、会员事务理事会理事。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席,全国人机语音通讯会议大会主席,以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会(CCF)第十三届理事会理事,CCF语音对话及听觉专委会主任,中文信息学会(CIPSC)第九届理事会理事,CIPSC语音信息处理专委会副主任;中国人工智能产业联盟(AIIA)学术及知识产权组组长,工信部人工智能关键技术和应用评测重点实验室学术委员会委员,第四届全国计算机科学技术名词审定委员会委员,全国信标委用户界面分委会(TC28/SC35)委员,世界顶尖科学家论坛青年科学家委员会委员。

相关研究成果不仅在学术界得到了认可,也成功实现了大规模产业化。作为联合创始人创立思必驰信息科技有限公司,任首席科学家,进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性,2016年作为中国仅有的两家人工智能创业公司之一,入选高盛发布的全球人工智能报告中的“Key AI Players”;2017年作为中国仅有的三家人工智能公司之一,入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年,思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”,成为国家级的人工智能战略力量。

计算机学院
计算机学院(网络空间安全学院、密码学院)
吴迪