[论文笔记] iDNA-ABF: multi-scale deep biological language learning model for the interpretable prediction of DNA methylations

发表于 2023-11-22 更新于 2025-12-30 分类于论文笔记阅读次数：本文字数： 592 阅读时长 ≈ 1 分钟

Method

给定一组固定长度的DNA序列，进行有无甲基化的预测，输出一个binary概率

网络架构：

从3mers和6mers两个角度对序列进行tokenize，分别进两个dnabert预训练模型，输出两个features：F1和F2
对F1和F2进行特征融合（加权平均，权值是可学习的参数）
融合后的features进全连接层做二分类

可解释性

从多个数据集的ACC Recall Precicion AUC MCC角度，对不同模型进行对比
采用Uniform Manifold Approximation and Projection (UMAP)对不同模型对DNA序列的聚类结果进行可视化，和其他模型进行对比

跨物种对比Accuracy，反映进化路径相似的物种之间甲基化结构的相似性

cross-species validation，用一个物种训练，另一个物种预测，反映出的结论和上条类似

用attention map反映出不同k-mers在特征提取中的差异性，以此证明采用3mers+6mers构建模型能提取到更多信息。
- 3mers特征“learns more local discriminative information as compared to that before training”，而6mers特征“more focused on global information after training”

验证不同尺度的数据集对结果的影响

0%