生命科学中的细胞"语言"由DNA、RNA、蛋白质和基因表达等分子“词语”构成,开发基于这种语言的人工智能细胞大模型,不仅能深入解析疾病机制,还能加速药物靶标发现,正为生物医学研究带来革命性突破。其中单细胞转录组大模型(如scGPT、GeneCompass等)已能整合数千万细胞数据,实现了跨器官、跨物种的通用细胞表征,正在促进疾病机制和药靶发现的研究。然而,空间单细胞转录组技术进一步突破了单细胞转录组的局限,通过保留细胞在原位组织的空间位置信息,能够更全面地揭示细胞间互作和微环境调控机制,因此开发空间转录组大模型正成为下一代生物医学人工智能的关键方向,但目前尚未出现全面的空间转录组基础模型。特别是在大脑疾病研究中,神经细胞的高度异质性、复杂的功能环路以及阿尔茨海默病、帕金森病等神经系统疾病的复杂发病机制,都极度依赖细胞的空间组织信息,因此亟需开发面向脑科学的空间转录组大模型,系统解析神经细胞的时空动态调控机制,从而为神经退行性疾病的精准诊断、靶标发现及个性化治疗提供全新的AI驱动研究范式。
2025年7月11日,由临港实验室牵头,联合上海科学智能研究院、上海交通大学、东京大学国际神经智能研究中心等多家单位,共同发布了全球首个跨物种大脑空间转录组基础模型 —— BrainBeacon。 BrainBeacon基于1.33亿全脑空间细胞跨物种训练,首创空间扰动模块,为脑疾病提供了AI药物靶标挖掘新工具。BrainBeacon以脑组织为切入点,融合多物种、多平台空间组学数据,构建统一、可泛化的脑空间分子图谱,迈出建设“数字孪生大脑”关键一步,也为探索疾病机制与精准干预提供了全新智能引擎。
一、构建跨物种空间脑图谱:打造全球脑数据语义基座
BrainBeacon模型训练基于横跨四个物种(人、食蟹猴、狨猴、小鼠)和五种主流空间组学平台(MERFISH、Xenium、STARmap、Slide-seqV2、Stereo-seq)的数据,覆盖总面积超过 210,000 平方毫米的全脑空间转录组数据,细胞总数超过 1.33 亿。
模型采用双阶段 Transformer 架构,分别模拟细胞内部基因依赖(intra-cell transformer)与细胞之间空间依赖(inter-cell transformer),实现统一的跨物种表征学习。
图1:BrainBeacon 模型架构与训练数据概览
二、提升跨平台泛化能力:实现多样脑结构的精准识别
BrainBeacon在多个平台和物种的公开数据集上实现了高精度的零样本空间细胞分类能力,表现优于现有主流模型(如Geneformer、scGPT、NicheFormer、UCE 等):
- 空间聚类的亚型分辨率提升,ARI 指数高达 0.79;
- 在小鼠海马体中准确识别 CA1、CA2-3、DG 等经典分区;
- 模型嵌入空间保持生物发育谱系的连续性。
图2:BrainBeacon 在空间细胞识别与分类任务中的表现
三、推进跨物种图谱映射:打通脑认知的“公共语言”
BrainBeacon可通过“参考引导微调”机制,在某一物种(如食蟹猴)高质量空间图谱上进行微调后,迁移预测其他物种(人类、小鼠)的大脑组织切片,准确识别 同源亚型与脑区结构,探究多物种之间的保守性。
图3:BrainBeacon 实现跨物种脑区注释与映射
四、开发空间虚拟扰动模块:实现数字干预与靶标发现
BrainBeacon内置的“空间数字扰动(Spatial Digital Perturbation)”功能,突破传统组学扰动仅限于细胞内部的局限,模拟细胞和领域微环境之间的双向扰动。
图4:BrainBeacon 在空间扰动中的预测与靶标挖掘能力
五、迈向智能空间体系统:从静态图谱走向“数字孪生脑”
BrainBeacon的发布标志着空间转录组进入“结构重建 + 状态干预”双轮驱动时代。其高通量训练能力、泛化表示结构与虚拟实验平台,未来为多个研究方向提供基础:
- 跨模态图谱构建:结合 ATAC,蛋白质组与图像数据;
- 疾病机制建模:整合阿尔茨海默、抑郁、自闭症等大脑疾病数据的脑疾病大模型;
- AI 靶标筛选与药物发现:基于扰动模拟与空间重塑;
- 多物种智能脑图谱基座模型建设。
作为首个专注于脑组织的跨物种空间转录组大模型,BrainBeacon 将成为连接“智能感知—空间理解—干预预测”的关键桥梁。
临港实验室将联合多方合作伙伴,共同推动 BrainBeacon 成为“空间组学大模型基础设施”的核心之一,加速生命科学范式的跃迁,助力脑疾病药物靶标发现。
本研究由临港实验室牵头,联合上海科学智能研究院、上海交通大学、东京大学等单位共同完成。临港实验室魏武研究员、上海交通大学陈洛南教授、上海科学智能研究院程远研究员、临港实验室李澄宇研究员和东京大学合原一幸教授为共同通讯作者。东京大学博士后张城铭、临港实验室和上海交通大学博士生杨逸文、上海科学智能研究院研究员焦一峰、临港实验室和上海科技大学博士生杨倩倩、上海科学智能研究院主任研究员郭昕为该论文的共同第一作者。
该研究得到了临港实验室(E511201G01)、国家自然科学基金、上海市东方英才计划领军项目、上海科学智能研究院、复旦大学CFFF智能计算平台、日本科学技术振兴机构 Moonshot 研究开发项目等支持。
附件下载: