探索发现 · 交大智慧
HERGAST:揭示超大规模空间转录组数据中的精细空间结构并放大基因表达信号
上海交大俞章盛课题组提出亚细胞分辨率空间组织结构识别新方法
近期,上海交通大学转化医学院袁欣助理研究员和上海交通大学生命科学技术学院俞章盛教授合作文章“Unveiling fine-scale spatial structures and amplifying gene expression signals in ultra-large ST slices with HERGAST”发表于Nature子刊Nature Communications。生命科学技术学院博士生龚禹桥、转化医学研究院助理研究员袁欣为共同第一作者,俞章盛教授和上海市第六人民医院焦琼教授为共同通讯作者。
空间转录组学(ST)技术彻底改变了我们对组织内基因表达组织的理解,为细胞异质性和组织结构提供了宝贵的见解。近年来,空间转录组学技术正向高分辨率平台过渡,如Visium HD和Xenium,这大大增加了数据的大小和稀疏性,给描绘空间组织结构、识别细胞类型和检测空间特异性基因表达带来了计算上的挑战。现有的计算方法在处理这些超大规模和超高分辨率技术产生的数据时,往往会遇到计算效率低、内存消耗大、过平滑以及生物信号稀释等问题。因此,该研究提出了HERGAST (High-resolution Enhanced Relational Graph Attention Network for ST),一个用于超大规模和超高分辨率空间转录组数据中空间结构识别和信号放大的系统,用于克服现有空间组学计算方法的局限性。
HERGAST的核心思想是采用“分而治之”的策略。HERGAST将整个组织切片分割成可处理的小块,在这些小块上迭代训练一个先进的模型,然后在整个切片上进行推断,并基于模型的输出进行下游分析。我们将这个策略框架称为“分-迭-治”(Divide-Iterate-Conquer, DIC)。为了解决数据分割可能导致的“过平滑”问题,HERGAST构建了一个异构图网络,能够包含局部和全局的空间关系。该遗址图网络不仅考虑了空间上相邻的“点”(spots)之间的关系,还利用了基因表达谱的相似性来建立不同“点”之间的连接,从而让信息在训练过程中可以流动,使得模型能够捕捉到全局的模式,并通过交叉注意力机制实现自适应信息融合。模型输出的低维嵌入可用于结构识别,解码器则增强原始数据中的关键表达信号,可以用来增强关键的空间模式(图1)。
图1. HERGAST模型概览
主要研究成果
大量的数据模拟试验表明,HERGAST在不牺牲性能的前提下,有效减少CPU内存占用,支持超大数据集处理。相比其他方法,HERGAST的ARI等指标平均提升10%以上(图2)。
图2. HERGAST在模拟数据中的性能表现
结直肠癌(CRC)具有复杂的肿瘤微环境,在疾病进展和治疗结果中起着关键作用。对于Visium HD技术获得的一份包含超过54万个spots的结直肠癌切片数据进行分析。结果显示,HERGAST能够更平滑、更精细地描绘出肿瘤基质区域,并将其与肿瘤区域区分开来。此外,HERGAST在肿瘤区域内识别出了一簇独特的SPP1+巨噬细胞,这些细胞围绕在钙化区域周围。SPP1+巨噬细胞在肿瘤微环境中起着至关重要的作用(图3d-g)。HERGAST的这一发现凸显了其在解读复杂空间组织和揭示肿瘤区域内异质性方面的优势。
图3. HERGAST在结直肠癌中精细绘制肿瘤微环境图谱
高分辨率的ST数据(如Xenium)虽然优势明显,但也存在高强度信号过度饱和,可能掩盖低强度生物学信号的风险。HERGAST不仅可以进行空间聚类,其解码器还能重建基因表达谱,从而增强关键的分子特征。我们通过模拟实验证明,即使在加入了大量噪声的原始数据中,HERGAST重建的基因表达值也能在很大程度上恢复原始的空间模式,皮尔逊相关系数从0.37提高到了0.89。
在Xenium乳腺癌数据中,HERGAST成功识别浸润癌和多个DCIS区域,并增强ERBB2、ESR1、PGR等关键分子信号,揭示了EGFR和ESR1的空间异质性,为理解细胞互作提供了新视角(图4)。
图4. HERGAST高精度增强关键分子特征
综上所述,HERGAST是一种专为超大规模和超高分辨率空间转录组数据分析而设计的有效方法,在空间聚类和信号放大方面表现出色。所提出的DIC策略为处理海量ST数据提供了可行的解决方案。通过整合异构图网络和交叉注意力机制,HERGAST能够巧妙地结合基因表达相似性和空间邻近性,从而准确捕捉局部和全局空间关系的复杂细节,并有效避免了过平滑的问题。HERGAST的出现将助力研究人员深度探索复杂的生物系统。
该研究得到了国家自然科学基金、上海市科学技术委员会基金、上海交通大学“医工交叉研究基金”、上海交通大学交大之星“STAR”计划等项目资助。同时感谢上海交通大学高性能计算中心“思源一号”集群平台提供的技术支持。
论文链接:https://doi.org/10.1038/s41467-025-59139-w