- 所属分类: SCI 生物
- 期刊名: JOURNAL OF COMPUTATIONAL BIOLOGY
- 2021年影响因子/JCR分区:1.479/Q4
- 文章:Deep Learning of Sequence Patterns for CCCTC-Binding Factor-Mediated Chromatin Loop Formation | Journal of Computational Biology
- 代码与数据集:GitHub - BioDataLearning/DeepCTCFLoop: Deep learning of CTCF-mediated chromatin loops in 3D genome organization 目录
(八月摸鱼计划而已)
一、摘要二、结果三、方法四、分析过程五、最终结论
一、摘要
理解3D基因组的组织机制提供了有用的信息,也可能有助于对与人类疾病相关的非编码序列变体进行注释和优先排序,开发了一个名为DeepCTCFLoop的深度学习模型,用于预测染色质环是否可以由一对收敛或串联的CTCF基序形成,并发现除了CTCF基序对之外的潜在序列模式。
二、结果
数据集:DeepCTCFLoop的数据集来自三个不同细胞系:GM12878、HeLa和K562。
1、证明DeepCTCFLoop能够准确地预测由聚合或串联CTCF基序对介导的染色质环的形成。
2、TF蛋白与特定DNA基序的结合可能为CTCF介导的染色质环的形成提供了额外的信息。
3、DeepCTCFLoop为研究潜在的染色质环中断和致病机制提供了一个分析非编码序列变异的有用工具
三、方法
编辑
DeepCTCFLoop架构图
将CTCF基序的DNA序列及其周围的基因组序列(250nt)编码成二进制矩阵作为输入。然后,利用两层卷积神经网络学习序列基元和高层特征。双向LSTM层用于学习高层特征之间的长期依赖关系。接下来,使用关注层来捕捉最重要的特征,以获得高模型性能。最后,使用两个完全连通的层对关注层的输出进行组合并进行二值预测。
四、分析过程
DeepCTCFLoop与两层CNN取得了最好的性能。利用GM12878数据集对模型构建的超参数进行了优化。采用丢弃、L2正则化和早期停止过程来避免模型过拟合。
第一步:在第一卷积层之后,使用最大汇聚层来获得空间相邻子区域的最大激活值。作为一种下采样策略,最大合并层可以降低输入维数,从而避免模型过拟合。然后,使用第二卷积层和另一个最大汇集层来学习序列基序之间的高层相互作用。通过与单层CNN模型和三层CNN模型的比较,选择了两层CNN模型。
第二步:使用一层BLSTM学习两层CNN学习到的高层特征之间的长期依赖关系。与Vanilla递归神经网络相比,LSTM能够克服梯度消失问题。每个LSTM单元由输入门、遗忘门和输出门组成。这些门决定应该丢弃、存储或输出哪些信息。因此,LSTM能够长时间地记住信息,并学习长期依赖关系。这里,BLSTM用于向前和向后扫描输入。在BLSTM层之后,注意力层被用来通过赋予更多权重来更多地关注最重要的特征。
第三步: 将输出馈入完全连通的层,并使用Sigmoid函数来计算形成染色质环的概率。在这项研究中,使用小批量的亚当优化算法来最小化二元交叉熵损失函数。采用丢弃和L2正则化的方法对模型进行正则化。为了避免模型过拟合,还采用了提前停止过程。该模型是使用Kera 2.2.4(https://github.com/fchollet/keras),TensorFlow1.5.0作为后端)用Python语言实现的。
通过调节超参数:利用GM12878的数据,使用贝叶斯优化通过Hyperopt调整用于模型训练的超参数,得到CNN过滤器的数量(N)为208,过滤器的长度(L)为13,池化层的大小为4,LSTM单元为64,学习率为1e-4,L2正则化为5e-5,CNN之后的辍学率为0.43,以及注意后的辍学率。使用三种细胞系的数据进行模型训练和评估的平均时间约为2小时。相关AUC与对比表格如下:
编辑
DeepCTCFLoop和CTCF-MP(仅word2vec特征)在GM12878、Hela和K562测试数据集上的ROC。
编辑
CTCF-MP,DNA序列用word2vec编码成载体特征
从这里面得出word2vec在这里没有他们这个深度学习模型研究的好。
五、最终结论
以CTCF基序及其侧翼基因组序列作为模型输入,DeepCTCFLoop表现出更好的性能,并显著优于之前的机器学习模型CTCF-MP,包括ZNF384、ZNF263、ASCL1、SP1和ZEB1在内的几种TF蛋白的DNA基序与DeepCTCFLoop从GM12878、HeLa和K562细胞数据中获得的PWMS显著匹配,表明这些DNA结合蛋白在CTCF介导的染色质环形成中可能发挥作用。