上海交大人工智能研究院AI for Science团队在《中国科学院院刊》发表“智能化科学设施变革基础研究”论文_交大智慧

探索发现 · 交大智慧

上海交大人工智能研究院AI for Science团队在《中国科学院院刊》发表“智能化科学设施变革基础研究”论文

2024年01月24日责任编辑：马雨彤

2023年4月，在科学技术部、上海市人民政府指导下，由上海市科学技术委员会和上海交通大学共同举办浦江创新论坛“AI for Science专题论坛”。在该论坛上，上海交通大学人工智能研究院院长梅宏院士做主旨报告，提出了建设智能化科学设施（AI enabled Scientific Facility, AISF）的构想。近日，人工智能研究院AI for Science团队杨小康教授等人在《中国科学院院刊》发表题为 “AI for Science：智能化科学设施变革基础研究”的论文。

该论文提出一种智能化科学设施的建设构想，兼顾“高度智能化的科学新设施”和“AI赋能已有科学大设施”2个层面的需求，构筑AI for Science的科学设施体系，形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能，加速重大科学发现、变革性物质合成，以及重大工程技术应用。

研究背景

人工智能（AI）在前沿科学与技术领域的应用已经取得了令人瞩目的重大成果。在生物领域，2021年《科学》杂志将 AlphaFold2 评选为“2021年度十大科学突破”榜首；在物质领域，AI实现了核聚变托卡马克装置的等离子流高效控制；在药物领域，AI加速了新冠药物设计。众多的科学突破和国内外的发展趋势表明，AI for Science正在成为一种新的研究范式。

2007年，图灵奖得主Jim Gary曾经用“4种范式”描述了科学发现的历史演变，即实验观察、理论推导、模拟仿真、数据驱动（即数据密集型科学发现）。由于受限于数据采集与模拟空间，即便在数据密集型的科学研究范式下，科学假设依旧由科学家的专家经验主导；同时由于缺乏有效的数据开放机制和实验的局域性，制约了大规模、跨学科科研活动的开展。最近若干年，深度学习技术，特别是生成式AI的迅猛发展，使得学术界可以利用深度学习建模和挖掘高维科研数据，捕捉多模态数据背后的科学规律，同时借助数据生成的方式，突破实验观测数据的有限性与数值模拟的理论限制，拓展科学假设的空间。多模态语言大模型潜在的文献理解总结、实验方案生成等全新能力，结合无人实验系统与科学数据开放平台，可促使科学研究迈向以“平台协作”为主要特征的新模式。微软剑桥研究院院长Chris Bishop等将AI for Science称为驱动科学研究的第五范式（利用AI和机器猜想来进行科学发现的新方法）。

智能化科学设施的建设构想

虽然AI在特定科学领域的应用已经取得了令人瞩目的重大成果，但是这些工作仍然处于特定研究组对特定问题的科研模式，学科的跨度、研究场景的规模、研究方案及其结果的可复现性均受到限制，“平台协作式”的AI for Science科研模式及设施体系尚有待建立。

图1 智能化科学设施的总体思路

针对以上问题，杨小康教授等人在文章指出，实现智能时代的基础科学源头创新及其下游重大技术创新，急需破解2个核心问题。①如何面向AI for Science的研究范式，建立全新的科学智能大设施? 从而系统性、整体性地释放新一代AI（特别是生成式AI及大模型）在基础科学领域的创造性和通用性，实现自发假设生成、自动规律推演、自主无人实验、自驱可信协作等创新功能，推动超大规模、高速迭代的科学探索？ ②如何利用新一代AI实现对传统科学设施的赋能？科学研究活动主要包括由科学家提出问题和假设、由实验人员进行检验和验证、通过科研机构与出版商进行科研成果和数据传播与共享等环节。在传统的科学设施和研究范式下，整个科研流程存在科学问题沟通难、科学实验操作难、科学数据共享难等困难。一些高精尖的大型科学设施及其科研环境高度复杂，此类困难尤为突出。利用新一代AI实现“科学问题（科学家） —实验设备（实验员） —科研数据及文献（科研机构及中介） ”高效闭环，不仅是新建的科学设施需要具备的标配，更是在已有的科学设施升级改造过程中的新需求和新机遇。

图2 智能化科学设施的架构设想

智能化科学设施综合运用生成式AI、语言大模型、大数据、区块链等前沿技术，形成人在环路的科学智能大设施3层体系架构，如图2所示：

（1）基础支撑层：通过高性能计算、算力网，形成算力支撑；

（2）科学模型层：构建跨学科、跨模态的科学大模型，以及“AI 科研助手”；

（3）实验应用层：通过 AI 操作机器人、智能实验环境，实现自主无人实验和多方科研协作。

图3 智能化科学设施的创新功能

在3层架构基础上，智能化科学设施可形成传统范式所不具备的4个主要新功能，如图3所示：

（1）科学大模型：实现跨模态的科研内容生成、文献综述生成、科学任务自动拆解及实验方案自动生成等能力，进而构造具有较高综合科学能力的“AI 科研助手”系统模型；

（2）生成式模拟与反演：提供复杂流体、多物理场、复杂物质结构等科学现象生成及其AI加速的超大规模模拟能力，缓解维度灾难(Curse of Dimensionality)，激发科学直觉；

（3）高通量自主无人实验：将自动化实验室和AI模型结合，实现合成化学、合成药物、材料基因组等领域的“干湿闭环”自主实验验证；

（4）大规模可信科研协作：通过区块链、群体智能等技术，实现科学模型及数据集的链上朔源、确权、共享、流通，加速科学新思想和新方法的涌现。

在上述架构和功能基础上，以人类科学家和科学问题为中心，构筑“AI 科研助手—AI操作机器人—智能实验环境—可信多方协作”的人机物协同科研空间，横向支撑超大规模的“假设生成—规律推演—无人实验”高速迭代、推进高度智能化的 AI for Science 科研范式转变，纵向优化基础科学大设施、赋能传统“实验观察—理论建模—数据分析”科研流程。

智能化科学设施的初步实践

作为对上述智能化科学设施构想的尝试，上海交通大学初步搭建了AI for Science科学数据开放平台，包括科学算力基座、科学数据、人工智能、科学协作等四个子平台。基于该平台，研制了“白玉兰科学大模型”，于2023年7月和12月先后发表1.0版和2.0版，涵盖化学、流体、法律、跨科学评测基准等方向，对相关学科研究的加速作用已经显现，多个成果发表于Nature子刊。

未来展望

智能化科学设施的建设不仅有助于解决复杂科学问题、促进跨学科合作创新、开辟新的科学疆域，而且有望对工程技术、未来产业起到重要推动作用。在工程技术方面，智能化科学设施可以提高大规模和复杂工程问题的仿真和推理能力，对复杂工程场景做出更加准确的预测，提高重大工程设备的可靠性和运行效率。在产业方面，智能化科学设施的建设将促进我国产业界承接基础研究的新成果，并充分利用AI和区块链等技术，探索低成本、高可信、标准化的CRO（合同研究组织）科创合作模式及其“风险共担、收益共享”的激励机制，提升重大科技成果的转化效率和质量，对未来产业发展起到支撑作用。

论文链接：http://www.bulletin.cas.cn/previewFile?id=52965146&type=pdf&lang=zh

AI for Science团队相关研究

上海交通大学AI for Science团队搭建的科学数据开放平台已上线使用。平台面向分子科学、物质科学、材料科学、流体仿真、城市科学、医学和法学等科学领域，实现科学实验汇聚、数据共享，人工智能与基础学科专家协作进行科学数据探索，充分发挥人工智能技术在文献数据获取、实验预测、结果分析、规律发现等方面的优势。基于该平台算力资源，团队于2023年取得了重要的研究进展，城市功能结构动态演变的人类动力学研究成果作为封面论文发表在《Nature Computational Science》，基于眼底图像精准预测糖尿病视网膜病变进展的研究成果发表在《Nature Medicine》。

在平台建设过程中，2023年7月发布“白玉兰科学大模型1.0版”，其中化学合成（BAI-Chem）代表了以分子结构为中心的学科方向，首次实现反应条件生成与优化功能，潜在功能性分子（如药物分子）及其合成方案设计，从传统方法的几个月提速到几十分钟；神经流体（BAI-NeuroFluid）代表了以动力学为中心的学科方向，创建了视觉直觉学习框架，将物理启发的生成式人工智能技术用于流体粒子模型的计算与模拟，首次实现了从外部视觉表观推理内部流体动态，仿真效率提升一个量级；科学评测基准（BAI-SciEval）是一个跨学科、跨模态的基础模型，构建了首个包含动态数据的评测基准，旨在全面评估大模型的科学知识掌握水平和辅助科研能力。

2023年12月发布“白玉兰科学大模型2.0版”，其中“法律开源（BAI-Law-13B）”在第三方法律综合评估基准LawBench测试中，超越目前所有公开的中文通用大模型和领域微调大模型。“化学合成2.0（BAI-Chem 2.0）”可实现快速高效的药物分子设计，每秒可设计30个类药性、靶点高亲和力分子；在公开数据集USPTO测试集上单步逆合成Top1准确率较目前文献最优提升15%。对高通量实验数据的产率预测R2达到了0.88；催化剂推荐准确率达到了93.7%。目前，BAI-Chem 2.0已有效连接湿实验验证，在线实现实验优化，快速提高化学实验效率。

作者：

电子信息与电气工程学院

供稿单位：

电子信息与电气工程学院