Nature | 迁移学习为网络生物学赋能

Nature | 迁移学习为网络生物学赋能_新视野

2023-06-19 10:02:25 来源：个人图书馆-DrugAI

今天为大家介绍的是来自Christina V. Theodoris和Patrick T. Ellinor团队的一篇基于迁移学习发现关键调控因子和潜在治疗靶标的论文。基因网络的映射需要大量的转录组数据，以学习基因之间的连接关系，这在数据有限的环境中，包括罕见疾病和临床无法接触的组织中，会阻碍发现。最近，迁移学习通过利用在大规模通用数据集上预训练的深度学习模型，然后对有限的特定任务数据进行微调，革新了自然语言理解和计算机视觉等领域。在这里，作者开发了一种上下文感知、基于注意力机制的深度学习模型，名为Geneformer，它在约3000万个单细胞转录组的大规模语料库上进行了预训练，以实现在网络生物学中有限数据环境下的上下文特定预测。

映射基因网络结构需要大量的转录组数据来学习基因之间的连接关系，这在数据有限的环境中，包括罕见疾病和临床无法接触的组织中，阻碍了网络修正型药物的发现。尽管在这些环境中数据仍然有限，但最近测序技术的进步推动了人类组织中可用的转录组数据量的快速扩展。此外，单细胞技术进一步促进了观察转录组状态的能力，这可能为推断网络相互作用提供更精确的数据，特别是在由多个细胞类型失调驱动的疾病中。

最近，迁移学习通过利用在大规模通用数据集上预训练的深度学习模型，革新了自然语言理解和计算机视觉等领域。这些预训练模型可以通过有限的任务特定数据进行微调，以适用于各样的下游任务，但当单独使用这些数据时，模型很难产生有意义的预测。与为每个任务重新训练新模型的建模方法不同，这种方法将在大规模预训练阶段学到的基础知识普及到与预训练学习目标不同的许多下游应用中，将知识转移给新任务（图1a和）。自注意机制的出现进一步改变了深度学习领域，通过生成能够关注大量输入空间并学习在每个上下文中最重要的元素的上下文感知模型，提高了各种应用的预测能力。基因调控网络结构高度依赖上下文，同时基于注意力的模型，即Transformer，可能非常适合上下文特定的网络动态建模。

(资料图片仅供参考)

图 1

作者开发了一种上下文感知、基于注意力机制的深度学习模型，名为Geneformer，它在大规模转录组数据上进行了预训练。作者构建了一个大规模的预训练语料库，名为Genecorpus-30M，其中包含来自公开可获得数据的广泛组织的2990万个人类单细胞转录组，使用自监督的掩码学习目标在该语料库上对Geneformer进行了预训练，以获得对网络动态的基本理解。预训练的Geneformer通过上下文感知的方法准确预测了剂量敏感性疾病基因及其下游靶点。此外，通过使用有限的特定任务训练示例，将Geneformer微调为与染色质和网络动态相关的多样化下游任务的模型，证明了Geneformer能够提高预测准确性。

架构以及预训练

Geneformer是一种上下文感知、基于注意力机制的深度学习模型，它在大规模转录组数据上进行了预训练，通过迁移学习实现了在网络生物学中有限数据环境下的预测能力（图1a）。Geneformer利用了自注意力机制，以保持对每个单细胞转录组中表达的基因的关注，并学习哪些基因在优化预测准确性时最重要。重要的是，网络动态可能因细胞类型、发育时间点或疾病状态而异。因此，上下文感知是Geneformer模型架构的独特优势，它允许对每个细胞上下文进行特定的预测。

首先，作者组装了一个大规模的预训练语料库，名为Genecorpus-30M，其中包含来自公开可获得数据的广泛组织的2,990万个人类单细胞转录组（图1b）。作者排除了具有高突变负荷（例如，恶性细胞和免疫细胞系）的细胞，这些突变可能导致网络重构，而没有伴随的基因组测序。作者建立了可扩展的筛选指标，以排除可能的双细胞和/或损坏细胞。

然后，每个单细胞的转录组以排名值编码的形式呈现给模型，其中基因根据其在该细胞中的表达，经过Genecorpus-30M全局表达的归一化排名（图1c）。尽管基于排名的表示方法存在局限性，包括未充分利用转录计数中提供的精确基因表达测量，但排名值编码提供了每个单细胞转录组的非参数表示，并利用了Genecorpus-30M中每个基因表达的许多观察结果，以优先考虑区分细胞状态的基因。具体而言，该方法通过将广泛高表达的基因归一化到较低的排名来降低它们的优先级。相反，转录因子等基因在表达时可能表达水平较低，但在区分细胞状态方面具有较高的能力，将在编码中移至较高的排名位置。

每个单个细胞的转录组的排名值编码然后通过六个Transformer编码器单元进行处理，每个单元由自注意力层和前馈神经网络层组成（图1c）。预训练是通过使用掩码学习目标来完成的，在其他信息领域中已经证明可以提高预训练期间所学基础知识的泛化能力，以适应广泛的下游微调目标。在预训练期间，每个转录组中的15%基因被掩盖，并且模型经过训练，利用剩余未掩盖的基因的上下文，预测应该位于特定细胞状态下每个掩盖位置的基因。这种方法的一个主要优势在于它完全是自监督的，并且可以在完全没有标签的数据上进行，这使得可以包含大量的训练数据，而不仅限于伴随标签的样本。

上下文感知和批处理整合

对于Geneformer所展示的每个单细胞转录组，模型将每个基因嵌入到一个256维的空间中，编码了与该细胞上下文相关的基因特征。作者首先测试了预训练的Geneformer对基因嵌入是否受常见批次相关的技术的影响。作者发现基因嵌入对测序平台、保存方法和个体患者变异具有鲁棒性。然而，基因特征依赖于细胞中其他基因的上下文，凸显了Geneformer的上下文感知性。当作者通过在其排名值编码的前部人工添加OCT4、SOX2、KLF4和MYC来模拟重编程成纤维细胞时，转录组中的其他基因明显地向iPSC状态偏移其特征。iPSC源性肌肉细胞中的基因特征也表现出类似的上下文感知性。接下来，作者整合了每个细胞中表达的基因的特征，生成了细胞级别的特征，这些特征编码了该单个细胞状态的特征。以公开可用的主动脉瘤数据集作为测试案例，可以发现尽管原始数据受到患者间变异的影响，但Geneformer的细胞特征主要按细胞类型和表型进行聚类，而不是按独立患者。鉴于预训练的Geneformer的细胞嵌入对这些技术影响具有鲁棒性，作者接下来测试了微调是否会影响泛化能力。使用公开可用的iPSC分化为心肌细胞的数据集作为测试数据，该数据集在Drop-seq（单细胞）或DroNc-seq（单核）平台上进行了并行测定，作者测试了使用一个平台的数据微调模型以区分细胞类型是否会降低在另一个平台上的泛化能力。有趣的是，经过微调的Geneformer的细胞嵌入主要按细胞类型进行聚类，并且与原始数据相比，即使在使用ComBat或Harmony方法去除批次效应后，也显示出对平台的整合性的改善。

基因剂量敏感性预测

图 2

接下来，作者测试了Geneformer在各种下游微调应用中是否能够利用有限的数据提升预测性能。在遗传诊断中解读CNV（copy number variants）的一个主要挑战是确定哪些基因对其剂量变化敏感。作者使用先前报道的基因集，这些基因集被认为对剂量敏感或剂量不敏感，仅使用10,000个随机单细胞转录组来微调Geneformer，以区分剂量敏感和剂量不敏感的转录因子。与其他方法相比，经过微调的Geneformer显著提升了预测剂量敏感性的能力（AUC为0.91）（图2a）。值得注意的是，尽管使用了相同数量的有限任务特定数据进行微调，但预训练使用更大更多样的语料库提高了下游任务中的预测能力（图2b）。

然后，作者想知道在没有进一步的训练下，经过微调的模型是否能够预测最近报道的一组疾病基因的剂量敏感性（图2c）。Collins等人分析了753,994个个体的CNV，以确定与神经发育性疾病主要相关的基因，分为高度或中度可信度。经过微调的Geneformer模型在特定胎儿脑细胞的上下文中，准确预测了与高度可信的基因相关的剂量敏感性，与原始研究相比准确率达到了96%。中度可信度基因是一个更宽容的集合（得分范围为0.15-0.85，高度可信度得分阈值大于0.85）。经过微调的Geneformer预测在胎儿脑细胞中中度可信度基因的剂量敏感性，与原始研究一致性达到了84%。

接下来，作者设计了一种基于模拟的删除方法，以识别在特定细胞环境中预测删除会产生有害效应的基因。作者通过从细胞的排名值编码中移除基因，并量化剩余基因在编码中的特征效果来模拟基因的删除。为了测试这种方法，作者使用预训练的Geneformer在胎儿心肌细胞中进行了基于模拟的删除，没有进行任何微调。已知的心肌病和结构性心脏病基因的模拟删除效果明显大于已知的高脂血症基因对照组，后者在心肌细胞中表达并与心脏疾病相关，但其表型影响的细胞类型不仅限于心肌细胞（图2d）。

总的来说，预测其删除将对心肌细胞产生最严重影响的基因，显著地富集于包括心肌病和异常心肌形态在内的人类表型。在具有最显著影响的前25个被删除的基因中，有一些是已知调控心肌发育的转录因子，也有完全新的剂量敏感基因候选者，例如TEAD4。实验验证显示，通过CRISPR介导的候选TEAD4在诱导的多能干细胞(iPSC)衍生的心脏微组织中的敲除，导致其产生收缩应力（单位面积的力）的能力显著降低（图2e）。TEAD4是参与Hippo信号通路的转录因子，未来的工作需要进一步研究其在心脏发展中的角色。

染色质动态预测

图 3

众所周知，二价染色质结构标记着胚胎干细胞(ESCs)中的关键发育基因。二价领域由大片的H3K27me3区域组成，内含较小的H3K4me3区域。作者对Geneformer进行了微调，以便使用来自约15,000个ESCs的转录组，区分被二价标记的基因和那些启动子未甲基化或仅被H3K4me3标记的基因。用于这种微调的标记基因集仅包括在56个保守的基因组区域中发现的基因。与其他方法相比，Geneformer显著提高了预测二价标记基因的能力（AUC 0.93和0.88；分别为二价对比未甲基化或仅H3K4me3标记）（图3a,b）。此外，预测可以推广到从微调中排除的基因组的其余部分（图3c）。

确定转录因子结合影响下游表达的基因组距离对于解释调控变异和从转录因子基因组占据数据中推断目标基因是非常有价值的。作者对Geneformer进行了微调，以便仅使用约34,000个细胞从诱导的多能干细胞(iPSC)到心肌细胞的分化过程中的单细胞转录组来区分这些远程与近程的转录因子，没有用相关的ChIP-seq或基因组距离数据。再次，与其他方法相比，Geneformer显著提高了预测转录因子的调控范围的能力，而其他方法的预测几乎是随机的（图3d）。因此，微调预训练的Geneformer模型甚至能够提高对这种更高阶转录因子属性——调控范围的预测。

网络动态预测

图 4

确定基因网络中的层次关系使得可以设计瞄准核心调控元素正常化的疗法，这些元素驱动着疾病过程，而不是矫正可能并非疾病改变的下游效应因子。作者测试了Geneformer是否可以被微调，以便仅使用来自Heart Atlas中大约30,000个正常内皮细胞（ECs）的单细胞转录数据，来区分N1依赖性基因网络中的中心因子与边缘因子，而无需任何扰动数据。再次，Geneformer显著提高了预测中心因子与边缘因子的能力，相比于其他方法（AUC 0.81）（图4a）。此外，将预训练的Geneformer在Heart Atlas ECs上进行微调，能够在没有任何扰动数据的情况下，区分N1的下游目标与非目标，进一步展示了该模型编码基因网络动态关键特性的能力，并再次显著提高了相对于其他方法的预测能力（图4b）。

随后作者发现，即使将微调数据减少到仅5,000个ECs，预测能力也几乎相同（图4c）。然后，为了确定Geneformer是否能够在任务特定数据与学习目标更相关的情况下，使用更少的微调训练样本生成有意义的预测，作者仅使用健康和扩张主动脉的884个ECs14对预训练的Geneformer进行微调。有趣的是，Geneformer能够在这个非常少的数据上微调，比在大约30,000个ECs32的更大数据集上训练的其他方法的预测更好地区分N1依赖网络中的中心与边缘因子，这展示了预训练在能够从越来越有限的数据中做出预测的强大力量（图4d）。

基因调控网络分析

图 5

鉴于基因特征反映了网络的注意力权重的联合输出，作者测试了预训练的Geneformer在微调之前是否已经编码了转录因子和它们目标之间的网络连接。作者确定了在胎儿心肌细胞中特征最受GATA4删除影响的基因，GATA4是一个已知的先天性心脏病基因。删除GATA4对已知最显著受GATA4变异调控的基因影响最大，这在之前报道的GATA4相关心脏缺陷的iPSC疾病模型中已经描述过。值得注意的是，直接的GATA4目标（由ChIP-seq定义）在胎儿心肌细胞中的删除后受到的影响显著大于间接目标（图5a）。类似地，在胎儿心肌细胞中的TBX5删除后，另一个已知的先天性心脏病基因，对其直接目标（由ChIP-seq定义）的影响比对间接目标和内源基因的影响更显著。这些数据表明，在模型中扰动可以应用于模拟基因网络的连接关系。

治疗分析

图 6

接下来，作者测试了扰动策略是否可以应用于模拟人类疾病并揭示候选治疗目标（图6a）。首先，作者对Geneformer进行了微调，以区分来自非衰竭心脏（n = 9）或受到肥大（n = 11）或扩张（n = 9）型心肌病影响的心脏中的心肌细胞，总体样本外准确率为90%（图6b）。然后，作者确定了那些在非衰竭心脏的心肌细胞中进行删除或激活后，显著将Geneformer细胞特征向肥大型或扩张型心肌病状态转移的基因（图6c、d）。总的来说，该模型确定了447个预计其丧失会使心肌细胞向肥大型心肌病状态转移的基因，这些基因富集在已知影响肥大型心肌病发病机制的途径中，包括Titin结合和肌原纤维组织。该模型确定了478个预计其丧失会使心肌细胞向扩张型心肌病转移的基因，这些基因富集在涉及肌肉收缩和线粒体功能的途径中。然后，作者对患有肥大型或扩张型心肌病的患者的心肌细胞进行了计算机模拟治疗分析，以确定是否通过抑制或激活特定的生物通路可以将细胞特征向非衰竭心脏状态转变（见图6e）。对于肥大型心肌病，富集度最高的通路指向了一些可能的心肌细胞特异性治疗靶点，包括ADCY5，其失调与小鼠模型中的寿命延长和对心肌病的保护有关，以及可以药物化的靶点，包括SRPK3，这是MEF2的下游效应器，已知在心肌细胞肥大中起关键作用。

结论

总的来说，作者开发了一个基于深度学习的、具有环境感知能力的模型——Geneformer。它预先在大规模转录组数据上进行训练，使其能够在数据有限的情况下对下游任务进行预测。通过在预训练过程中观察大量的细胞状态，Geneformer获得了对网络动态的基本理解，并以完全自我监督的方式在模型的注意力权重中编码网络层次结构。Geneformer通过环境感知的计算机模拟删除方法预测剂量敏感性疾病基因的能力，对遗传变异的解释提供了有价值的工具，包括优先考虑驱动复杂特性的GWAS命中，并预测它们可能影响的特定组织。在胎儿心肌细胞中对剂量敏感性基因候选者TEAD4进行实验验证，支持了Geneformer在推动人类发育生物学认知方面的应用价值。应用于使用有限病人样本进行心肌病疾病建模的Geneformer预测了候选治疗靶点，这些靶点在iPSC疾病模型中的实验性靶向导致了显著的功能改善。因此，使用有限的数据进行计算机模拟治疗分析可能有助于在数不清的疾病中发现治疗方法，这些疾病以前因数据有限而受阻，因为它们罕见或影响临床难以接近的组织。

参考资料

Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023).

/10.1038/s41586-023-06139-9

关键词：

每日推荐