探索发现 · 交大智慧

推动医疗 AI 可信落地,上海交通大学、复旦大学、瑞金医院和蚂蚁集团联合发布《医疗健康大模型伦理与安全白皮书》

7 月 18 日,在云南昆明举办的中华医学会医学伦理分会 2025 年会现场,由上海交通大学、复旦大学、上海交通大学医学院附属瑞金医院和蚂蚁集团联合编写的《医疗健康大模型伦理与安全白皮书》正式发布,为医疗健康大模型的安全、有效、合规应用提供参考指导,推动医疗 AI 可信落地,助力医疗行业智能化的发展,让算法更有“医者仁心”。白皮书由上海交通大学计算机学院吴梦玥、吕宝粮、俞凯、王烁主要牵头,还集结了来自北京协和医学院、北京大学医学部、复旦大学附属中山医院、复旦大学附属肿瘤医院、西安交通大学、厦门大学医学院、天津医科大学、天津中医药大学等十余所国内高校与医院的专家组成专家委员会,参与内容的框架制定,确保白皮书内容的权威性和科学性。

图片1.png 

《医疗健康大模型伦理与安全白皮书》正式发布(右五为吴梦玥老师、右二为王烁老师)

近年来,人工智能技术发展迅猛,在医疗领域,大模型的应用为提高医疗服务效率、优化医疗资源配置、方便用户就医问诊带来了巨大机遇。然而当 AI 走进诊室、药房和家庭健康管理时,其安全性、严谨性和伦理合规性面临远超其他行业的挑战:AI 给我的就诊建议是否正确专业?我的个人隐私能得到充分保护吗?医疗决策过程是否透明可溯?诊疗过程中的责任归属如何界定?这些都是用户担忧、医生关切、行业亟需解决的“痛点”。

该白皮书针对上述大模型应用中可能出现的知情同意、用户隐私、数据歧视、不透明性、幻觉与错误信息以及违反伦理法律规定等风险,围绕科学性、安全性、合规性、伦理性等关键维度,构建了“应用场景 × 伦理规范 × 法规数据集 × 考点 × 主观题”五位一体的医疗健康大模型评估体系,并提出“大模型自评+专家复核”的多层评估机制,提升模型伦理违规的识别率,让医疗大模型在应用前通过“质检关”,变得更准确、安全、公平、透明。

在医疗健康大模型评测指引的基础上,白皮书也提供了系统性的风险防控路径,包括数据安全防控、伦理合规建设、技术可靠性与风险监控、监管与评估体系建设等环节。白皮书特别强调了“人机对齐”理念,只有让对齐原则融入技术开发、行业应用、监管等各个环节,AI 才能从“高效工具”转变为“可靠伙伴”,并提出包括伦理准则微调、价值观对齐训练、敏感内容干预机制、RAG 模块引用质量控制、医学共情识别等医疗大模型伦理对齐的技术路径,确保大模型首先遵循“以人为本,生命至上”的原则。该白皮书还介绍了在目前在医疗产业已落地应用的产品案例,包括“小瑞健康”、“夸克健康助手”和“AI 健康应用 AQ”。

北京大学医学人文学院医学伦理与法律系教授、博士生导师丛亚丽表示,“医疗健康大模型的研发与应用不是一个单纯的技术命题,而是涉及生命尊严与安全的社会责任课题。这次发布的白皮书在医疗大模型伦理与法律风险等方面的归纳和测评提出了独创的尝试,为行业各方提供了一个非常有价值的参考框架和指引。”

微信图片_20250819155932.png

白皮书编写历时一年,聚焦于医疗健康大模型中的安全风险和伦理风险,其中一项工作是构建大模型医学伦理评测基准,用以评测大模型回答医学伦理问题的能力和水平。相较已有的评测,该评测基准的创新之处主要有如下几个方面。

第一,采取主观题和客观题相结合的评测方案。已有的针对大模型的医学伦理评测基准,就题型来说,一般有两种模式。一种是收集现有的医学伦理题目,这种多为客观题;一种是运用大模型出测试题,这种多为主观题。这两种模式都有一定的不足和局限。

第二,基于法律法规和伦理规范的条款生成题目。已有的运用大模型出测试题方案多是基于一般性的伦理原则,如给大模型提示词“出违反‘尊重患者自主原则’的题目xx道”。然而,这种题目难以考察细节。

第三,制定了针对主观题答案的6级评分标准并训练主观题自动赋分模型。已有的针对大模型的主观题评测,对于大模型给出的回答,赋分维度单一,一般是识别出伦理风险赋1分,没能识别出伦理风险赋0分。此类赋分标准难以对大模型的回答进行全面合理的评价。

图片2.png

图片3.png

《医疗健康大模型伦理与安全白皮书》下载链接:

https://pan.baidu.com/s/1PNDSHgLC8cIfVHyDMaZ04Q?pwd=iffj   提取码: iffj


计算机学院
计算机学院(网络空间安全学院、密码学院)