Nat Commun:ROSIE模型可从H&E染色图像中直接预测50种蛋白质表达,精准解析肿瘤免疫微环境

时间:2025-08-22 12:13:23   热度:37.1℃   作者:网络

苏木精-伊红(H&E)染色是临床病理诊断中应用最广泛的检测方法,成本低廉、操作简便易获取以及能清晰呈现组织形态特征目前已成为病理评估的“金标准” 之一H&E染色无法提供与现代精准医学相关的复杂分子信息,通过标注计算方法也仅能区分内皮细胞、上皮细胞等少数广谱细胞类别,难以揭示更深层次细胞微环境细节。

与之相对,多重免疫荧光(mIF)成像技术(如索引共检测技术CODEX和免疫组织化学技术 IHC)能够在原位同时检测数十种蛋白质,提供更丰富的组织微环境信息这类技术的应用受成本较高、实验流程耗时限制,难以作为常规检测技术使用。因此,如何从广泛可及的H&E图像中推算蛋白质表达,成为数字病理领域一项具有重要价值的研究方向。

近日,美国斯坦福大学研究团队开发了一种名为ROSIE的深度学习框架,可通过计算推断出数十种蛋白质的表达与空间分布。该框架在超1300配对H&E-mIF样本上进行训练(涉及1600个细胞),覆盖10余个组织、13种疾病类型,具有良好的泛化能力验证结果显示,ROSIE预测的生物标志物能有效识别细胞表型准确区分H&E难以分辨的B细胞、T细胞等淋巴细胞还能可靠识别基质和上皮微环境,以及肿瘤浸润淋巴细胞(TILs)等免疫细胞亚型,相关治疗策略提供指导。总之,ROSIE为临床病理诊断和癌症研究提供了高效、经济的新工具。

图片

为训练与验证ROSIE,研究团队首先构建了目前规模最大的H&E与mIF共染色数据集,涉及20项临床研究、16种疾病类型,覆盖胰腺、结直肠、胃食管结合部等10个解剖部位。其中,训练集包含18项研究、1342个样本、超1600万个细胞及13种疾病类型;评估集包含4项研究、485个样本、近500万个细胞及4种疾病类型。

研究所有组织样本均同时进行了H&E与CODEX共染色,实现了H&E与mIF图像的像素级对齐UChicago-DLBCL研究采用全切片样本外,其余数据集均组织微阵列(TMA)芯片组成提升了模型对不同样本类型的适配性。

图片

1.ROSIE概述

ROSIE采用ConvNext27卷积神经网络架构,遵循 “patch级图像块预测-全图拼接” 的核心逻辑:首先将H&E图像分割为128×128像素的局部patch,并将其作为输入然后针对每个patch预测对应CODEX图像中心8×8像素区域生物标志物平均表达水平再通过8像素滑动窗口迭代预测并拼接结果,最终拼接为完整的虚拟mIF图像

训练过程中,模型采用单一均方误差(MSE)损失函数,相传统生成对抗网络(如pix2pix),避免了训练不稳定、边界伪影等问题,且训练效率更高。研究共涵盖148种生物标志物,研究团队筛选了流行度前50的生物标志物作为ROSIE的预测目标,包括DAPI、CD45、CD68、CD14、PD1、FoxP3、CD8、HLA-DR等。

接下来,研究团队在四个独立评估数据集上对ROSIE进行测试。结果显示,该模型预测的50种蛋白质标志物表达水平与真实值相比,皮尔逊相关系数(Pearson R)0.285、斯皮尔曼相关系数(Spearman R)0.352、样本水平一致性指数(C-index)为0.706显著优于仅基于H&E染色强度或细胞形态的基线模型。此外,通过梯度加权类激活映射(Grad-CAM)ROSIE生成的预测进行可视化发现对于核蛋白(如DAPI、Ki67、PCNA),模型注意力集中在patch中心区域;对于环境依赖型蛋白(如CD68、PanCK、ECad),注意力则分布在细胞周围区域。

图片

2 . ROSIE预测的可视化

研究团队验证了ROSIE预测出的蛋白质表达数据在下游生物学和临床任务中的高度实用性。利用ROSIE预测的蛋白质表达信息,研究团队通过最近邻算法精准识别了B细胞、内皮细胞、上皮细胞、成纤维细胞等7种细胞类型,准确性显著高于基于形态学或批量表型的分类方法。进一步分析显示,ROSIE能有效区分H&E难以分辨的B细胞与T细胞。

图片

3. 使用ROSIE进行细胞类型预测

结合组织结构识别算法SCGP预测出的表达进行无监督聚类ROSIE能有效识别样本中的复杂组织结构,如基质、肿瘤样上皮、血管样内皮肿瘤巢等,调整兰德指数(ARI)达 0.475、F1分数达0.624,性能远超传统基线模型

图片

4ROSIE预测组织结构

此外,ROSIE还可识别具有临床意义的细胞邻域表型:肿瘤浸润淋巴细胞(TILs)与淋巴细胞相邻上皮细胞(LNEs),其与肿瘤-免疫相互作用密切相关。在Stanford-PGC数据集中,ROSIE预测的TILs数量、LNEs比例与真实值的皮尔逊相关系数分别达0.805和0.598,且能准确反映“免疫冷”(胰腺癌,预测T细胞比例20.0%)与 “免疫热”(结直肠癌,预测T细胞比例 40.1%)肿瘤的免疫特征差异,这与临床认知完全一直,证明了其预测的生物学真实性

值得注意的是,对未纳入训练的结直肠癌(Ochsner-CRC)、胃食管结合部癌(Tuebingen-GEJ)数据集,ROSIE的平均Pearson R仍达0.241;在Orion mIF平台(不同于训练用的CODEX平台)的CRC数据上,对CD45等核心生物标志物的预测仍保持稳健,显示出强大的泛化能力

图片

5ROSIE的细胞邻域表型分析

综上所述,ROSIE为临床组织病理学提供了一种低成本、高效率的蛋白质表达推断工具,显著扩展了H&E染色的信息维度。该框架不仅有助于挖掘现有大量H&E存档样本的分子潜力,还在肿瘤免疫微环境解析、患者分层及治疗策略制定方面展现出重要价值。

参考文献:

Wu, E., Bieniosek, M., Wu, Z. et al. ROSIE: AI generation of multiplex immunofluorescence staining from histopathology images. Nat Commun 16, 7633 (2025). https://doi.org/10.1038/s41467-025-62346-0

上一篇: 糖尿病基层规范性管理质量调查

下一篇: 内蒙古大学李昕宇团队JCR:精准狙击三阴...


 本站广告