Nature Communications | 张阳实验室:端到端深度学习实现高精度RNA结构预测

RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑战之一。

近日,新加坡国立大学张阳教授团队在《Nature Communications》杂志上发表了题为 “Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction” 的研究论文。该研究报道了一项用于精确预测RNA的三维结构全新技术DRfold。新加坡国立大学和密歇根大学的李阳博士、张成辛博士和封晨洁博士为该论文的共同第一作者。


图1: 新加坡国立大学张阳团队在《Nature Communication》上的论文

研究背景

就像蛋白质分子一样,RNA分子的生物学功能与其特定的三维构象密切相关;而这种三维构型取决于RNA分子中核苷酸序列的排列顺序。RNA分子的序列和结构,会影响到RNA的稳定性、药物结合、催化活性等多个关键功能。因此,深入了解RNA的三维结构对于疾病研究和药物开发至关重要。然而,传统X射线晶体、冷冻电镜和核磁共振等生物湿实验方法不仅耗时,而且成本高昂,远远无法满足生物学家的结构测定需求。因此,直接基于RNA序列进行结构建模的计算方法成为现代计算生物学一个前沿热点方向。

DRfold采用了一种RNA的粗粒度模型,并将RNA结构的特定原子进行建模,以达到提高计算效率的目的。特别是,研究人员引入了一个与端对端训练并行运行的新颖几何模块设计,同时整合端对端学习和几何势,指导RNA结构的模拟重建。研究结果令人振奋,DRfold方法能够生成比传统自动方法更准确的RNA结构模型。另外,定量的基准测试结果表明,端到端深度学习与几何学相结合,超越了仅基于粗粒度端对端学习或仅基于几何的结构优化方法

DRfold的执行代码可以在张阳团队的实验室网页(https://zhanggroup.org/DRfold/)免费获得。该网页也提供在线服务。使用者只需提供RNA序列,DRfold服务器自动生成RNA三维结构模型。

DRfold算法流程

DRfold流程如图2A所示。首先,通过用户提供待预测的RNA序列,DRfold 预测该序列的二级结构特征;其次,这些信息被送入嵌入层(图2B),它的任务是将输入的RNA序列和二级结构信息转化为计算机可以理解的表示形式。

随后,这些表示形式通过 48 个 RNA transformer 模块(图2C),进行了一系列复杂的转换。这个过程中,深度学习将自动学习如何通过结构模块(图2D)预测RNA的全局结构,包括每个核苷酸的旋转和平移信息(图2G),这些信息将用于后续恢复RNA特定原子(图2F)坐标。

同时,还有另一组神经网络模型(图2E)专门用于预测RNA核苷酸之间的几何约束(图2H)。所学到的全局结构信息和核苷酸间的几何信息将被整合成一个复合势能。这个复合势能描述了RNA分子的稳定性和构象。

随后,计算机使用基于梯度的优化算法,尝试不断调整RNA分子的构象,以找到具有最低能量的最稳定的结构。最终,这个优化后的构象被选定作为DRfold的输出模型。

图2. DRfold利用深度学习预测RNA分子结构流程图

实验结果

与同类算法的比较

这项研究首先将DRfold与以前的RNA结构计算机预测方法进行了比较。对比方法包括片段组装方法和从头预测方法。计算结果表明DRfold在多项性能指标上均超越了这些方法(图3)。例如,与其他方法相比,DRfold的模型在RMSD误差和TM-score方面表现出更高的准确性,这表明它可以更准确地预测RNA结构的三维构象。

图3. DRfold与其他方法的性能比较

DRfold的性能优势

DRfold的性能优势与研究团队的预期一致。因为现有的自动RNA结构预测方法主要利用基本的经验和统计势能的形式来进行预测,这种形式通常表示为𝑃(𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒|𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒)。由于这些方法的力场中参数数量有限,因此无法广泛考虑全局序列条件,通用的势能形式(例如距离或角度)也不能精确地确定RNA结构的复杂拓扑结构。相比之下,DRfold使用的Transformer模块嵌入了大量的权重参数设置,使其能够访问RNA全局序列信息。这意味着DRfold可以更好地捕捉RNA序列中的全局特征,从而提高了结构预测的准确性。

此外,DRfold还采用了端到端的损失函数(loss function),确保深度学习的预测与正确的整体构象高度一致。这意味着DRfold不仅可以考虑全局序列信息,还可以确保生成的结构与实际的RNA结构紧密匹配。

氢键的作用

在RNA分子中,氢键相互作用在三维结构中起着至关重要的作用,直接影响着RNA的结构和生物功能。准确地预测这些关键的结构模式对于推进我们对RNA生物学的认识至关重要。尽管DRfold没有在其方法中明确纳入特定的碱基配对信息,但它在相关评估指标上的表现都优于其他方法(表1)。

表1. DRfold与其他方法的RNA二级结构恢复性能比较

这表明在DRfold的方法中,通过学到的相对位置的帧对齐点误差(FAPE)和几何分布,可能形成了一种隐含的机制,有助于恢复RNA结构内的碱基配对模式。然而,值得注意的是,DRfold 在预测非经典碱基配对模式(INF_nwc)方面的成功率仍然相对较低。为了在这一特定方面提高准确性,研究人员建议开发一个更详细的原子水平学习模型。通过增强非经典配对示例的数据集权重,从而期望提供更准确的预测。

伪结(pseudo-knot)的预测

该项研究的测试集中涉及了40个RNA测试目标,其中15个包含被称为伪结(pseudo-knot)的复杂结构。有趣的是,虽然其他方法难以准确检测到这些伪结,但DRfold成功预测了两个与原生结构中观察到的伪结非常相似的结构(图4)。这突显了DRfold学习和复现RNA分子内复杂碱基间相互作用模式的出色能力。

图4. DRfold成功预测两个含有伪结的RNA分子的结构。红色部分表明伪结结构

FAPE势能和几何势能的互补

DRfold的核心创新在于引入了两种互补的势能函数:FAPE势能和几何势能。它们通过两个独立的Transformer网络进行训练,共同构成了RNA结构预测的深度学习势能

首先,FAPE势能的作用是直接预测核苷酸的旋转矩阵和平移向量,也就是核苷酸构象的坐标信息。通过这种方式,DRfold能够更全面地考虑RNA结构的各种复杂性,从而提高了模型的预测准确性。作者训练了6个独立的端到端模型,每个模型使用不同的参数初始化。令人惊奇的是,即使在没有进行后续处理的情况下,每个单独的端到端模型已经显著优于其他同类RNA预测算法。这意味着FAPE势能本身已经为RNA结构预测带来了很大的提升。

其次,几何势能使用了一系列几何约束项,用于表示核苷酸之间的几何关系,包括距离和扭转角。几何势能的引入进一步改善了DRfold的性能。研究人员发现,将几何势能叠加到端到端势能之上,虽然改进不大,但在TM-score上带来了一致的提升。这表明几何势能主要对RNA结构的远距离核苷酸关系起到了积极的作用。

总的来说,DRfold通过端到端学习策略和几何势能的优势互补,让RNA结构预测变得更为准确和全面。如消融实验结果如图 5 所示,拿掉任何一个分量,都会降低DRfold的预测精度。

图 5. DRfold中端到端势能和几何势能的消融(ablation)实验结果

二级结构预测的作用

因为DRfold是基于单序列的结构预测,二级结构的引导显得特别重要。就像图 6 的结果所示,拿掉二级结构会显著的降低DRfold的模型预测精度。


图 6,二级结构对DRfold模型精度的影响

CASP双盲测试

早期版本的DRfold程序参与了CASP15的RNA结构预测实验,该程序被标识为“rDP”组。尽管只有12个测试目标,仍为评估DRfold的性能提供了宝贵的信息。就RMSD而言,使用惩罚阈值为-2.0和0.0时,DRfold分别排名第5和第6。在使用TM-score评估时,相同的惩罚阈值下,排名分别为第6和第9。然而,DRfold与排名前4的方法(如AIchemy_RNA2和GeneSilico等)之间存在一定的性能差距,这些方法依赖于丰富的RNA结构领域专业知识和人工专业技能。

相比之下,DRfold完全自动运行,且仅利用单一的序列信息进行预测。尽管存在这一差距,CASP15的结果表明,DRfold的基于单一序列的方法在RNA结构预测领域具有很大的潜力。它的性能与一些依赖于额外信息源(如模板、多序列比对或预训练核苷酸序列模型)的方法相媲美。这强调了DRfold在未来版本中通过复合势能函数整合多种信息源来进一步改进的潜力。

结论与展望

最近,RNA结构预测领域出现了好几种深度学习模型。这些深度学习方法根据其训练所使用的输入特征可分为单一序列方法和多序列比对(MSA)方法。MSA方法通常可以从多序列比对中获得协同进化信息,因此在整体结构预测方面性能更优。但在单一序列方法中,DRfold表现出色,显著优于其他单一序列方法,而且与大多数MSA方法的性能上相当,差异并不具有统计学上的显著性。

从方法论的角度来看,这些深度学习方法可以分为端到端方法和基于几何的方法。而DRfold则通过势能函数集成将这两种方法结合在一起。这使得DRfold在其方法流程的扩展上更具灵活性。例如,研究人员将另一种RNA结构预测算法(DeepFoldRNA)中的几何预测用于构建混合几何势能,并替换了DRfold中的默认几何势能。这种结合可以使DRfold获得了更精确的空间约束,有助于更好地引导RNA结构的组装和优化过程。

DRfold的成功得益于其深度学习模型,这一方法在现有的RNA结构预测中鲜有涉足。DRfold采用的端到端模型已被证明非常有效,再通过整合几何约束,可以进一步提高结构模型的准确性。此外,从物理学角度生成的二级结构特征也对帮助网络学习和生成准确的碱基配对和局部结构组装起到了积极作用。

然而,与蛋白质结构预测相比,RNA结构预测的整体精度仍然有限。这部分原因在于RNA结构可用于训练的实验数据相对较少。此外,为了改进对没有足够同源序列的RNA的建模,DRfold目前只使用单一序列进行训练。进一步使用多序列比对、结构模板和RNA物理知识等额外信息,将显著其结构预测的准确性。

总的来说,DRfold在人工智能RNA结构预测问题上做了一些非常有意义的探索。随着深度学习技术和RNA数据的不断发展,以DRfold为代表的人工智能算法对RNA三维结构的测定将会起着越来越重要作用。

参考文献:

Y Li, C Zhang, C Feng, R Pearce, PL Freddolino, Y Zhang. Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction. Nature Communications 14: 5745 (2023).

https://www.nature.com/articles/s41467-023-41303-9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/144128.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

货物寄到英国选择什么物流比较划算?

随着全球化的发展,越来越多的企业开始将产品销售到海外市场,其中英国作为一个重要的贸易伙伴,吸引了大量的中国企业的关注。然而,如何将货物安全、快速地运送到英国,成为了众多企业面临的一个问题。那么,货…

XML文件反序列化读取

原始XML文件 <?xml version"1.0" encoding"utf-8" ?> <School headmaster"王校长"><Grade grade"12" teacher"张老师"><Student name"小米" age"18"/><Student name&quo…

C++简单实现红黑树

目录 一、概念 二、红黑树的性质 三、红黑树的定义 四、红黑树的插入操作 情况一&#xff08;叔叔节点存在且为红色&#xff09;——变色向上调整&#xff1a; 情况二&#xff08;叔叔节点不存在或为黑色&#xff09;——旋转变色&#xff1a; 2.1叔叔节点不存在 2.2叔叔…

智能网联驾驶测试与评价工业和信息化部重点实验室“车载智能计算基础平台参考架构2.0专家研讨会”圆满结束

近日&#xff0c;智能网联驾驶测试与评价工业和信息化部重点实验室在北京市召开“车载智能计算基础平台参考架构2.0专家研讨会”&#xff0c;本次会议由智能网联驾驶测试与评价工业和信息化部重点实验室、中国软件评测中心&#xff08;工业和信息化部软件与集成电路促进中心&am…

ChatGPT 在机器学习中的应用

办公室里一个机器人坐在人类旁边&#xff0c;Artstation 上的流行趋势&#xff0c;美丽的色彩&#xff0c;4k&#xff0c;充满活力&#xff0c;蓝色和黄色&#xff0c; DreamStudio出品 一、介绍 大家都知道ChatGPT。它在解释机器学习和深度学习概念方面也非常高效&#xff0c;…

SpringCloud Alibaba - Sentinel

接上文SpringCloud Alibaba - Nacos 1.Sentinel 流量防卫兵 1.1 安装与部署 和Nacos一样&#xff0c;它是独立安装和部署的&#xff0c;下载地址https://github.com/alibaba/Sentinel/releases 下载后的jar放到目录 然后配置 启动并访问,用户名密码都是 sentinel 此时就…

祝贺莱佛士学生在ASDA2023设计大赛中获得最高奖项

莱佛士一直主张学生们积极参与各种国际知名的设计大赛&#xff0c;也会竭尽所能为学生们的参赛提供途径与指导&#xff0c;本次的American Standard Design Award&#xff08;ASDA&#xff09;2023设计大赛也不例外。 ASDA2023设计大赛&#xff0c;推广以用户为中心的设计理念…

为什么要选择Spring cloud Sentinel

为什么要选择Spring cloud Sentinel &#x1f34e;对比Hystrix&#x1f342;雪崩问题及解决方案&#x1f342;雪崩问题&#x1f342;.超时处理&#x1f342;仓壁模式&#x1f342;断路器&#x1f342;限流&#x1f342;总结 &#x1f34e;对比Hystrix 在SpringCloud当中支持多…

CSS滚动条详解(::-webkit-scrollbar )

滚动条出现的事件&#xff1a; 当设置定宽或者定高的元素添加overflow:scroll属性&#xff0c;会出现滚动条&#xff0c;但是原生样式的会比较丑影响美观。 <div class"content"><div class"contain"></div> </div>.content {wid…

第十四届蓝桥杯大赛软件赛决赛 C/C++ 大学 B 组 试题 A: 子 2023

[蓝桥杯 2023 国 B] 子 2023 试题 A: 子 2023 【问题描述】 小蓝在黑板上连续写下从 1 1 1 到 2023 2023 2023 之间所有的整数&#xff0c;得到了一个数字序列&#xff1a; S 12345678910111213 ⋯ 20222023 S 12345678910111213\cdots 20222023 S12345678910111213⋯2…

IntelliJ IDEA学习总结(3)—— IntelliJ IDEA 常用快捷键(带动图演示)

一、构建/编译 Ctrl + F9:构建项目 该快捷键,等同于菜单【Build】—>【Build Project】 执行该命令后,IntelliJ IDEA 会编译项目中所有类,并将编译结果输出到out目录中。IntelliJ IDEA 支持增量构建,会在上次构建的基础上,仅编译修改的类。 Ctrl + Shift + F9:重新编…

【论文阅读 09】融合门控自注意力机制的生成对抗网络视频异常检测

2021年 中国图象图形学报 摘 要 背景&#xff1a; 视频异常行为检测是智能监控技术的研究重点&#xff0c;广泛应用于社会安防领域。当前的挑战之一是如何提高异常检测的准确性&#xff0c;这需要有效地建模视频数据的空间维度和时间维度信息。生成对抗网络&#xff08;GANs&…

【2251. 花期内花的数目】

来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 描述&#xff1a; 给你一个下标从 0 开始的二维整数数组 flowers &#xff0c;其中 flowers[i] [starti, endi] 表示第 i 朵花的 花期 从 starti 到 endi &#xff08;都 包含&#xff09;。同时给你一个下标从 0 开始…

数据结构和算法(8):搜索树(二叉搜索树和AVL树)

查找 所谓的查找或搜索&#xff0c;指从一组数据对象中找出符合特定条件者&#xff0c;这是构建算法的一种基本而重要的操作。其中的数据对象&#xff0c;统一地表示和实现为 词条&#xff08;entry&#xff09; 的形式&#xff1b;不同词条之间&#xff0c;依照各自的 关键码…

Caddy Web服务器深度解析与对比:Caddy vs. Nginx vs. Apache

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

canvas手写签名组件

效果图&#x1f447; 代码不多直接粘在这里 <template><div class"border"><canvasref"canvas"width"800"height"500"class"border-success"tabindex"0"mousedown"onMouseDown"/>&…

二叉树题目:二叉树剪枝

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;二叉树剪枝 出处&#xff1a;814. 二叉树剪枝 难度 4 级 题目描述 要求 给定二叉树的根结点 root \texttt{root} root&#xff0c;返回移除了所有…

如何用思维导图做学习计划?

在我们不断追求个人和职业发展的过程中&#xff0c;学习计划起着至关重要的作用。然而&#xff0c;很多人在制定学习计划时常常感到困惑&#xff0c;不知道如何才能制定一份周全且可行的计划。本文将介绍一种结构化思维的方法&#xff0c;以帮助你制定一份高效的学习计划。 首先…

113. 路径总和ii

力扣题目链接(opens new window) 给定一个二叉树和一个目标和&#xff0c;找到所有从根节点到叶子节点路径总和等于给定目标和的路径。 说明: 叶子节点是指没有子节点的节点。 示例: 给定如下二叉树&#xff0c;以及目标和 sum 22&#xff0c; 在路径总和题目的基础上&…

如何使用Etherscan Remix插件验证智能合约

在Moonbeam上验证合约的方式有很多&#xff0c;使用Etherscan Remix插件是最快、最简单的方式。 此示例中&#xff0c;我们展示如何在Remix上激活Etherscan插件并验证简单的增量智能合约。开始之前&#xff0c;请准备以下内容&#xff1a; MetaMask钱包 存有DEV的账户 将验证…