综合新闻
计算机学院X-LANCE实验室科学大模型成果入选Cell Reports Physical Science期刊年度优秀论文
近日,由计算机学院机器智能研究所X-LANCE实验室、苏州国家实验室、思必驰科技股份有限公司合作发表的ChemDFM科学大模型论文Developing ChemDFM as a large language foundation model for chemistry入选Cell Reports Physical Science (CRPS) 期刊2025年度优秀论文(Advisory Board Picks / Best of 2025)。CRPS期刊是 Cell Press旗下物质科学领域的高水平期刊,主要发表物质科学及相关交叉领域的高质量前沿研究,本年度优秀论文是该期刊顾问委员会从 2025 年全年发表的论文中遴选出的一批具有代表性的研究成果,旨在突出展示该期刊在物质科学及其交叉领域所发表工作的广度、学术质量与创新价值。
成果介绍
本次入选论文是X-LANCE实验室一系列化学材料领域开源垂域科学大模型的开篇之作,于2024年1月完成,2025年4月在该期刊正式发表,由计算机学院俞凯老师、陈露老师以及苏州实验室主任研究员陈忻老师联合指导,计算机学院博士生赵梓涵、马达担任共同第一作者。该工作针对通用大模型在化工和材料领域专业知识不足、分子表示理解能力弱等挑战,研究团队通过“两阶段训练”实现化学和材料科学知识的注入与专业任务能力的学习。第一阶段是领域预训练,研究团队收集了大量的化学和材料科学领域相关的论文与教科书等高质量数据,形成了约 340 亿词元的专业语料库,让模型能够系统的学习物质科学知识。第二阶段是指令微调,研究团队构建了约 270 万条指令数据,覆盖分子设计、分子表示对齐、逆合成分析等多种不同的任务,重点强化模型对 SMILES 等化学符号语言的理解与生成能力,同时通过通用任务的联合训练,最大程度的保留了模型的通用语言理解能力。在多个基准测试中,ChemDFM大模型的性能显著优于当时的开源大模型,并在多项任务中超过当时最优的闭源大模型。
在ChemDFM工作的基础上,研究团队后续进行了一系列的研究和探索:针对化学材料领域存在相比通用领域更多的异质模态的情况,研究团队采用“分编码器+统一解码器”架构构建了跨模态化学材料大模型ChemDFM-X,支持文本、图像、2D/3D分子图、红外光谱、质谱等多种不同模态的感知和推理;针对科学研究对于可解释性与可靠性的高要求,研究团队提出科学知识和分子官能团机理双增强的大模型思维链强化学习,研发了推理型化学材料大模型ChemDFM-R;针对化学材料领域的经典挑战性问题逆合成分析,研究团队通过针对性的训练任务设计与数据合成,使用继续预训练、思维链蒸馏、强化学习三阶段学习训练了逆合成分析推理大模型RetroDFM-R。
本系列工作得到了新一代人工智能国家科技重大专项、国家自然科学基金重大研究计划、上海市市级科技重大专项以及苏州国家实验室人工智能专项等项目支持。同时,思必驰公司为本工作提供了其DFM基座大模型的关键技术和部分算力支持。
成果影响力
ChemDFM系列科学大模型论文单篇引用最高已超过100次,其中被CNS子刊、CCF-A、中科院1区等顶会顶刊论文引用总计超30次。该系列大模型于2024年3月起逐步在HuggingFace社区开源,涵盖8B、13B、14B、19B不同大小的7个大模型,已被下载超过22万次,是该领域下载应用最多的大模型之一,其他团队在该系列模型上发展出多个相关衍生模型与方法并发表于ACL、NMI等顶会顶刊。此外,ChemDFM系列大模型已被国家实验室、化工和能源材料等领域产业界智能研发平台集成应用,入选苏州国家实验室首届“十大科技进展”,支撑上海交大材料学院获批教育部“首批生成式人工智能教育专用大模型”专项建设项目,相关工作曾被央视新闻联播、新华网、苏州日报等各级媒体报道。