探索发现 · 交大智慧
上海交大人工智能研究院AI for Science团队在《中国科学院院刊》发表“智能化科学设施变革基础研究”论文
2023年4月,在科学技术部、上海市人民政府指导下,由上海市科学技术委员会和上海交通大学共同举办浦江创新论坛“AI for Science专题论坛”。在该论坛上,上海交通大学人工智能研究院院长梅宏院士做主旨报告,提出了建设智能化科学设施(AI enabled Scientific Facility, AISF)的构想。近日,人工智能研究院AI for Science团队杨小康教授等人在《中国科学院院刊》发表题为 “AI for Science:智能化科学设施变革基础研究”的论文。
该论文提出一种智能化科学设施的建设构想,兼顾“高度智能化的科学新设施”和“AI赋能已有科学大设施”2个层面的需求,构筑AI for Science的科学设施体系,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能,加速重大科学发现、变革性物质合成,以及重大工程技术应用。
研究背景
人工智能(AI)在前沿科学与技术领域的应用已经取得了令人瞩目的重大成果。在生物领域,2021年《科学》杂志将 AlphaFold2 评选为“2021年度十大科学突破”榜首;在物质领域,AI实现了核聚变托卡马克装置的等离子流高效控制;在药物领域,AI加速了新冠药物设计。众多的科学突破和国内外的发展趋势表明,AI for Science正在成为一种新的研究范式。
2007年,图灵奖得主Jim Gary曾经用“4种范式”描述了科学发现的历史演变,即实验观察、理论推导、模拟仿真、数据驱动(即数据密集型科学发现)。由于受限于数据采集与模拟空间,即便在数据密集型的科学研究范式下,科学假设依旧由科学家的专家经验主导;同时由于缺乏有效的数据开放机制和实验的局域性,制约了大规模、跨学科科研活动的开展。最近若干年,深度学习技术,特别是生成式AI的迅猛发展,使得学术界可以利用深度学习建模和挖掘高维科研数据,捕捉多模态数据背后的科学规律,同时借助数据生成的方式,突破实验观测数据的有限性与数值模拟的理论限制,拓展科学假设的空间。多模态语言大模型潜在的文献理解总结、实验方案生成等全新能力,结合无人实验系统与科学数据开放平台,可促使科学研究迈向以“平台协作”为主要特征的新模式。微软剑桥研究院院长Chris Bishop等将AI for Science称为驱动科学研究的第五范式(利用AI和机器猜想来进行科学发现的新方法)。
智能化科学设施的建设构想
虽然AI在特定科学领域的应用已经取得了令人瞩目的重大成果,但是这些工作仍然处于特定研究组对特定问题的科研模式,学科的跨度、研究场景的规模、研究方案及其结果的可复现性均受到限制,“平台协作式”的AI for Science科研模式及设施体系尚有待建立。
图1 智能化科学设施的总体思路
针对以上问题,杨小康教授等人在文章指出,实现智能时代的基础科学源头创新及其下游重大技术创新,急需破解2个核心问题。①如何面向AI for Science的研究范式,建立全新的科学智能大设施? 从而系统性、整体性地释放新一代AI(特别是生成式AI及大模型)在基础科学领域的创造性和通用性,实现自发假设生成、自动规律推演、自主无人实验、自驱可信协作等创新功能,推动超大规模、高速迭代的科学探索? ②如何利用新一代AI实现对传统科学设施的赋能?科学研究活动主要包括由科学家提出问题和假设、由实验人员进行检验和验证、通过科研机构与出版商进行科研成果和数据传播与共享等环节。在传统的科学设施和研究范式下,整个科研流程存在科学问题沟通难、科学实验操作难、科学数据共享难等困难。一些高精尖的大型科学设施及其科研环境高度复杂,此类困难尤为突出。利用新一代AI实现“科学问题 (科学家) —实验设备 (实验员) —科研数据及文献 (科研机构及中介) ”高效闭环,不仅是新建的科学设施需要具备的标配,更是在已有的科学设施升级改造过程中的新需求和新机遇。
图2 智能化科学设施的架构设想
智能化科学设施综合运用生成式AI、语言大模型、大数据、区块链等前沿技术,形成人在环路的科学智能大设施3层体系架构,如图2所示:
(1)基础支撑层:通过高性能计算、算力网,形成算力支撑;
(2)科学模型层:构建跨学科、跨模态的科学大模型,以及“AI 科研助手”;
(3)实验应用层:通过 AI 操作机器人、智能实验环境,实现自主无人实验和多方科研协作。
图3 智能化科学设施的创新功能
在3层架构基础上,智能化科学设施可形成传统范式所不具备的4个主要新功能,如图3所示:
(1)科学大模型:实现跨模态的科研内容生成、文献综述生成、科学任务自动拆解及实验方案自动生成等能力,进而构造具有较高综合科学能力的“AI 科研助手”系统模型;
(2)生成式模拟与反演:提供复杂流体、多物理场、复杂物质结构等科学现象生成及其AI加速的超大规模模拟能力,缓解维度灾难(Curse of Dimensionality),激发科学直觉;
(3)高通量自主无人实验:将自动化实验室和AI模型结合,实现合成化学、合成药物、材料基因组等领域的“干湿闭环”自主实验验证;
(4)大规模可信科研协作:通过区块链、群体智能等技术,实现科学模型及数据集的链上朔源、确权、共享、流通,加速科学新思想和新方法的涌现。
在上述架构和功能基础上,以人类科学家和科学问题为中心,构筑“AI 科研助手—AI操作机器人—智能实验环境—可信多方协作”的人机物协同科研空间,横向支撑超大规模的“假设生成—规律推演—无 人实验”高速迭代、推进高度智能化的 AI for Science 科研范式转变,纵向优化基础科学大设施、赋能传统“实验观察—理论建模—数据分析”科研流程。
智能化科学设施的初步实践
作为对上述智能化科学设施构想的尝试,上海交通大学初步搭建了AI for Science科学数据开放平台,包括科学算力基座、科学数据、人工智能、科学协作等四个子平台。基于该平台,研制了“白玉兰科学大模型”,于2023年7月和12月先后发表1.0版和2.0版,涵盖化学、流体、法律、跨科学评测基准等方向,对相关学科研究的加速作用已经显现,多个成果发表于Nature子刊。
未来展望
智能化科学设施的建设不仅有助于解决复杂科学问题、促进跨学科合作创新、开辟新的科学疆域,而且有望对工程技术、未来产业起到重要推动作用。在工程技术方面,智能化科学设施可以提高大规模和复杂工程问题的仿真和推理能力,对复杂工程场景做出更加准确的预测,提高重大工程设备的可靠性和运行效率。在产业方面,智能化科学设施的建设将促进我国产业界承接基础研究的新成果,并充分利用AI和区块链等技术,探索低成本、高可信、标准化的CRO(合同研究组织)科创合作模式及其“风险共担、收益共享”的激励机制,提升重大科技成果的转化效率和质量,对未来产业发展起到支撑作用。
论文链接:http://www.bulletin.cas.cn/previewFile?id=52965146&type=pdf&lang=zh
AI for Science团队相关研究
上海交通大学AI for Science团队搭建的科学数据开放平台已上线使用。平台面向分子科学、物质科学、材料科学、流体仿真、城市科学、医学和法学等科学领域,实现科学实验汇聚、数据共享,人工智能与基础学科专家协作进行科学数据探索,充分发挥人工智能技术在文献数据获取、实验预测、结果分析、规律发现等方面的优势。基于该平台算力资源,团队于2023年取得了重要的研究进展,城市功能结构动态演变的人类动力学研究成果作为封面论文发表在《Nature Computational Science》,基于眼底图像精准预测糖尿病视网膜病变进展的研究成果发表在《Nature Medicine》。
在平台建设过程中,2023年7月发布“白玉兰科学大模型1.0版”,其中化学合成(BAI-Chem)代表了以分子结构为中心的学科方向,首次实现反应条件生成与优化功能,潜在功能性分子(如药物分子)及其合成方案设计,从传统方法的几个月提速到几十分钟;神经流体(BAI-NeuroFluid)代表了以动力学为中心的学科方向,创建了视觉直觉学习框架,将物理启发的生成式人工智能技术用于流体粒子模型的计算与模拟,首次实现了从外部视觉表观推理内部流体动态,仿真效率提升一个量级;科学评测基准(BAI-SciEval)是一个跨学科、跨模态的基础模型,构建了首个包含动态数据的评测基准,旨在全面评估大模型的科学知识掌握水平和辅助科研能力。
2023年12月发布“白玉兰科学大模型2.0版”,其中“法律开源(BAI-Law-13B)”在第三方法律综合评估基准LawBench测试中,超越目前所有公开的中文通用大模型和领域微调大模型。“化学合成2.0(BAI-Chem 2.0)”可实现快速高效的药物分子设计,每秒可设计30个类药性、靶点高亲和力分子;在公开数据集USPTO测试集上单步逆合成Top1准确率较目前文献最优提升15%。对高通量实验数据的产率预测R2达到了0.88;催化剂推荐准确率达到了93.7%。目前,BAI-Chem 2.0已有效连接湿实验验证,在线实现实验优化,快速提高化学实验效率。