您的位置: 游戏资讯 > 游戏问答

一种基于Transformer的深度学习架构,在量化解码方面表现优异。

来源:头条 浏览:0 2022-12-30 11:02:01

编辑|萝卜皮组蛋白修饰转录调控的定量表征一直受到诸多计算研究的挑战,但大多只关注启动子周围狭窄和线性基因组区域,存在改进空间。 首尔大学的研究者提出了Chromoformer。 这是一种基于Transformer的三维染色质构象感知深度学习体系结构,在基因调控中定量解读组蛋白编码方面具有领先的性能。 Chromoformer框架的核心本质在于注意力操作的三个突变体,每个突变体都涉及模拟转录调控的个体水平,通过三维染色质相互作用从核心启动子与启动子接触的远端元件。 根据对Chromoformer的深刻解释,它自适应地利用了转录起始和扩增相关的组蛋白修饰之间的长距离依赖性。 研究表明,Chromoformer能捕获转录工厂和Polycomb基团的定量动力学。 总之,该研究强调了基于注意力的表观遗传学中复杂相互作用深度建模的巨大优点。 该研究题为“learningthehistonecodeswithlargegenomicwindowsandthree-dimensionalchromatininteractionsusingtransformer”,221;

基因表达的调控通过不同人群的调节因子进行,包括转录因子、共激活因子、辅助抑制因子和基因组序列因子。 但是,这些因素相互作用背后的基本前提是相关基因组区域中组蛋白尾部和组蛋白修饰( HMs )共价修饰的恰当安排。 为什么这么说,是因为它们在染色质的可移动性的调节中起着重要的作用。 因此,我们认为一定数量的HM及其组合编码附近基因组区域的可调节性。 这个概念被称为“希斯顿密码假说”。 有许多计算和定量方法来破译由HM编码的基因表达的控制码。 这些大多是预测模型,利用转录起始位点( TSS )周边启动子的HMs水平预测该基因的表达水平。 值得注意的是,最近的研究表明,在该任务中,深度学习模型具有比传统机器学习模型更好的性能。

一种基于Transformer的深度学习架构,在量化解码方面表现优异。

两个挑战迄今为止,深度学习在计算生物学的各个领域都有显著突破,从表达结合DNA和RNA结合蛋白的特异性到基于长期存在的氨基酸序列的蛋白质结构预测问题。 如果没有新模型体系结构的发明和在复杂生物学问题上的巧妙应用,就不可能在生物学上取得深度学习的这些成功。 从这个意义上说,组蛋白编码的高度复杂性确实成为了深度学习的优秀目标。 正如现有方法所示,但是它们仍然有两个主要限制,正在推进新方法的开发。 首先,他们只能在TSS周围使用狭窄的基因组窗口。 这是因为,卷积神经网络( CNN )和循环神经网络( RNN )等,这些模型作为基础的深度学习体系结构在对长数组内的依赖关系进行模型化时没有效果。 CNN高度特殊化了学习数据的局部模型,但对它们来说学习模型之间的远程依存关系很困难。 开发RNN体系结构是为了对序列数据建模,但由于嵌入在一个位置的信息逐渐被稀释和污染,模型计算沿两个较远的位置传播,RNN体系结构也很难明确捕获远程相关性事实上,诸如门控循环单元和长短期存储( LSTM )的RNN单元的高级形式部分地改善了这个问题,但是基于周期对长序列建模的内在低效率仍然存在。 其次,许多深度学习模型没有考虑通过三维( 3D )染色质折叠的远位顺式调节,但已知核心启动子与远位顺式调节元件之间的物理相互作用显著调节基因表达。 也就是说,组蛋白代码携带的控制信息不仅可以在本地,而且还可以通过3D染色质相互作用在远处的基因组位点之间跳跃。 幸运的是,Hi-C等高通量测量技术的最新进展成功地提供了千碱基规模的3D染色质相互作用的高分辨率视图,为研究者提供了前所未有的机会,利用这些有价值的信息模拟基因调控的综合观点。 明确考虑3D染色质相互作用预测基因表达的新兴研究很少。 GC-MERGE就是一个这样的例子。 这是一种图形神经网络( GNN ),用于在相互作用的基因组区域之间传递信息并预测基因表达水平。 这是一个概念验证模型,不适用于没有染色质相互作用的基因,只能执行10 kbp基因组bin水平的预测,但不能进行基因水平的预测,强调了将远程基因组区域和启动子的表观基因组环境模型化的前景。

Transformer是一个药方,同时最初为自然语言处理开发的名为Transformer的深度学习模型体系结构,在理解DNA序列、氨基酸序列甚至它们比对的潜在语法方面显示出巨大的潜力该研究发现Transformer体系结构的两个主要功能非常适合解决这两个难题。 首先,Transformer可以正确地对序列数据内的长期依赖关系进行模型化。 这是通过在输入序列中添加位置代码优雅地完成的。 包含这些位置信息的输入特征被独立处理,并输入到计算输入特征之间所有对依赖关系的后续的自我注意模块。 这样可以捕获远程依赖关系,而不会干扰对之间的特性。 其次,Transformer体系结构也适用于无序实体集的建模及其交互。 值得注意的是,在许多深度学习体系结构中,这并不简单,因为包含它们的操作取决于输入位置。 另一方面,构成转换器的操作基本上是不被置换的。 输入特征之间的交互仅在自适应操作中考虑,所有其他操作均在位置进行,因此可应用于模型的一组无序特征。 也就是说,Transformer体系结构的这两个优势成为了直方图码定量建模的有前景的选择。 这是因为研究者可以同时在多个远程控制区域利用TSS附近更宽的基因组窗口和组蛋白编码。

基于Transformer的深度学习体系结构Chromoformer

图标: Chromoformer模型框架。 【来源:论文】在此,首尔大学的研究者提出了一种基于Transformer的深度学习架构Chromoformer,模拟了组蛋白编码在基因表达调控中的定量作用。 通过建立与核心启动子和pCRE相关的三阶段顺式调控层次模型,Chromoformer最大化了提高预测基因表达的性能。 通过对自适应权值、潜在嵌入动力学以及一些特征烧蚀研究的分析,研究者对Chromoformer模型的行为提供了深入的生物学解释。

图标:实现Chromoformer卓越性能的因素。 【来源:论文】Transformer可以理解序列中的远程依赖性,因此Chromoformer成功关注了基因表达相关HM在高表达和低表达基因之间最独特的基因体内的特定区域。 有趣的是,对基因体的关注程度取决于TSS的表观背景,这意味着Chromoformer模型捕获了TSS和放置在基因体上的HM的远程依赖性。 另一方面,通过利用Transformer对一组无序特征中的对关系建模,Chromoformer了解组蛋白编码介导的信息如何通过3D染色质折叠从pCRE传播到核心启动子并调节基因表达对模型学习组蛋白密码潜在表示的分析表明,持家基因与细胞型特异性基因的表达通过与增强子的相互作用而加强,发育基因的表达主要通过与结合PRC2的沉默子的相互作用而被抑制。 该团队使用3D染色质相互作用的预编译知识指导Chromoformer的学习。 通过实验测量的交互频率用于确定参与模型训练的pCRE优先级,该模型训练被明确注入自我注意分数矩阵。 但是,似乎也可以仅根据基因组序列信息推测pCRE与核心启动子的相互作用频率。 这是因为顺式调控相互作用的特异性很大程度上依赖于DNA结合蛋白对DNA序列基序的识别,包括转录因子或CCCTC结合因子( CTCF ),它们作为分隔3D基因组序列的绝缘体。 因此,整合到基因组中的它们的结合基序可以是隐性词汇表,可以仅基于DNA序列推测所需的染色质序列。

图: Chromoformer学习的顺式调节特征。 【来源:论文】同时,最近来自Enformer这一模型的结果得到了大力支持,在使用更广泛的序列信息时,pCRE的这种从头排序更为有效,使用Transformer架构进行基因组和表观遗传该团队将此基于Transformer的多组集成作为进一步的工作。 从活跃的TSS跳转到整合到基因体的Transformer学到的注意,即使不是最重要的信息,在预测稳态基因表达水平时,放置在基因体上的HM也确实有用。 该结果表明,研究人员考虑使用分布于单基因的整个组蛋白编码景观,可进一步提高提高稳态mRNA水平预测准确率的可能性。 此外,研究所使用的H3K36me3外显子远比内含子丰富,利用全长基因注释可作为模型训练的另一有效指导。 由于基因长度和外显子内含子分布具有较大的波动性,研究者需要巧妙地展示这一生物学先验知识。 同样,Transformer体系结构将成为最强大的选择之一。 因为可以灵活地应用掩码来处理可变长度输入,也可以扩展包含基因组位置和基因结构注释信息的位置代码来形成复合代码。 为Chromoformer模型提出的训练方案具有很高的可扩展性。 例如,该团队表明Chromoformer模型可以针对来自人类以外物种的细胞类型进行训练。 也就是说,小鼠胚胎干细胞利用相关组蛋白ChIP-seq和Hi-C分型,通过种间预测性能证实了两个物种间组蛋白码语法间的总体相似性。

图: Chromoformer异种间及细胞间类型间性能预测。 【来源:论文】此外,细胞间型预测实验表明,在某种细胞类型上训练的Chromoformer模型也不同程度地应用于其他细胞类型,相似细胞类型的交叉预测性能更高。 这意味着细胞类型特异性训练的Chromoformer不仅学习了基因调控的细胞类型特异性特征,而且捕获了普遍适用于其他细胞类型的一般规则。 如果可以表示为所有基因组信号值的序列,可以扩展染色体训练,添加表观基因组特性。 这些特征包括转录因子ChIP-seq信号或区间标识的第一主成分( PC1 )信号。

图:在Chromoformer训练中加入CTCF耦合信号。 【来源:论文】论文介绍,如上图所示,CTCF结合是3D基因组结构的重要决定因素,通过远位增强子-启动子相互作用,启动子-近位CTCF结合在基因激活中也得到了强调。 该团队证明,含有CTCF的Chromoformer-clf的性能虽然有限,但一直在增加,嵌入Transformer的Chromoformer-clf模型的增加更大。 另一方面,将PC1值作为附加特征通知Chromoformer细胞型特异性基因组分割状态并不能显著提高整体性能。 心室化与基因表达水平相关,但相关绝对水平(皮尔森相关系数0.120.19 )不够,该团队认为,心室水平特征的预测能力没有超过基因水平HM特征的预测能力。

图标:在Chromoformer培训中包括基因组分割状态。 【来源:论文】总之,Chromoformer是另一个示例性应用,强调了Transformer体系结构在生物序列建模中的巨大潜力。 该研究还强调了开发有效嵌入生物先验知识的专业深度学习架构的重要性,不仅可以预测提高任务的性能,还可以定量表达生物实体之间的复杂关系。

论文链接: https://www.nature.com/articles/s 41467-022-34152-5

和平精英体验服官网「V3.02」IOS版

和平精英体验服官网「V3.02」IOS版

  • 分类:资讯阅读
  • 大小:17MB
  • 语言:简体中文
  • 版本:V3.02