权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质

蛋白质是生命活动的主要执行者,其结构与功能之间的关系一直是生命科学领域研究的核心议题。近年来,随着深度学习的兴起,借助其强大的数据处理能力,让模型学习蛋白质序列、结构及其功能之间的映射关系,设计出具备更高稳定性、更强结合亲和力、更高酶活性的新型蛋白质,可以大幅提升蛋白质设计的效率,并有效降低其研发成本。

然而,现有方法通常需要在大规模数据集上训练一个参数量极大的模型,难以推广到同源序列稀少的特异蛋白上,往往也只能生成结构、功能相对简单的蛋白质。此外,实验验证表明,设计出的蛋白一般活性较低,能够超越野生型蛋白质的更是凤毛麟角。

对此,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮课题组的助理研究员周冰心等人,设计了一种扩散概率模型框架 CPDiffusion, 该框架结合蛋白质骨架结构、活性位点等多种生成条件,能够以非常低的训练成本、数据成本,学习蛋白质的序列、结构与功能之间的隐含映射关系,进而生成多样化的蛋白质序列,这些生成的序列能够在湿实验验证中以极高的成功率通过测试。

值得注意的是,CPDiffusion 的训练和推理过程几乎不需要专家指导, 可自动识别高度保守的区域,进而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。该研究以「A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity」为题,发表于 Nature 旗下 Cell Discovery。

研究亮点:

  • 该研究成功设计并生成内切核酸酶 KmAgo、PfAgo,它们的 DNA 剪切活性最高提升 10 倍以上,显著高于现在已发现的中温野生型蛋白活性

  • 该研究可一次性改变数百个氨基酸,为蛋白质工程研究提供了更多的可能性

  • 多样化生成的新型蛋白序列还能扩展蛋白质家族的数据库,为科学家们提供更为丰富的研究资源

在这里插入图片描述

论文链接:
https://www.nature.com/articles/s41421-024-00728-2
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:确保样本多样性,避免数据偏见

为了学习蛋白质序列-结构-功能之间的映射关系,CPDiffusion 模型用 CATH 4.2 中的 2 万条野生型蛋白质进行训练,此外,研究人员还在训练集中加入了 694 条 pAgos 蛋白质,用于强化模型对待生成蛋白质特征的理解。

这些蛋白质来自先前研究中整理的 pAgo 蛋白质家族,包括短型、long-A、long-B 型的 pAgo 蛋白质,确保了所选样本的多样性,以此减少可能存在的数据偏见问题。此外,数据集中大多数 WT 蛋白质是中温 pAgos,仅有少数 long-A pAgo 蛋白质属于嗜热型。

模型架构:6 步法自动设计 pAgo 蛋白

为了验证 CPDiffusion 对功能性蛋白质的生成效果,研究人员选择将关注点放在 pAgo 蛋白上。pAgo 蛋白是一种在原核生物 DNA 干扰过程中起重要作用的内切核酸酶,能够特异性地识别并切割特定的单链 DNA 或 RNA 序列,在诊断学领域具有广泛的应用价值。此外,pAgo 蛋白对底物具有高度亲和力,并能够特异地识别目标序列,这使得它们成为成像和基因编辑的重要工具。

研究人员利用 CPDiffusion 框架设计新型 pAgo 蛋白,如下图 a 所示, 首先将输入蛋白质 (Original pAgo) 的序列和信息转化为一种图表示,这种图表示在氨基酸层面展示了蛋白质的分子生化和拓扑特性。如图 b 所示, 蛋白质进入前向扩散 (Forward Diffusion) 阶段,原始蛋白质中的每种氨基酸类型都会遵循某个替换概率矩阵,在一系列步骤(T 步)中被破坏,直到整个序列变得均匀分布。

在这里插入图片描述

CPDiffusion 设计新型 pAgo 序列的工作流程

如上图 c 所示, 在逆向扩散 (Reverse Diffusion) 阶段,研究人员从 20 种均匀分布的氨基酸类型中随机抽样氨基酸,随后,对蛋白质序列逐步去噪。如上图 d 所示, 在去噪过程中,研究人员依据一些条件(如目标蛋白质的野生型骨架结构 Backbone、二级结构 Secondary Structure,以及基于野生型蛋白质的氨基酸替换矩阵 Transition Matrix 等)来指导这一过程。为了确保模型能够学习到蛋白质三维结构中隐含的等变性,研究人员使用了一个等变图卷积层来拟合传播函数。随后,该模型会生成蛋白质骨架上每个氨基酸位置的联合概率分布,通过对学习到的分布进行采样 (Sampling),研究人员可以得到相应的蛋白质序列 (Generated pAgo),如上图 e 所示。

接下来,研究人员使用 AlphaFold2 对生成的序列进行结构预测,并通过评估 RMSD 和 pLDDT 等指标来筛选出合适的序列。最后,如下图 f 所示, 这些合适的序列会在实验室中通过湿实验(实验合成 Synthesis、表征 Characterization 和评估),进一步确认它们的实际特性,如表达水平、酶活性和热稳定性等。

在这里插入图片描述

湿实验

实验结论:新型蛋白质活性、热稳定性更强

研究人员以嗜温 pAgo 蛋白(如 KmAgo)、嗜热 pAgo 蛋白(如 PfAgo)作为候选蛋白,进一步生成两组新蛋白质序列。如下图所示,利用生成和筛选框架 CPDiffusion,研究人员成功生成了 27 种新型人工 KmAgos (Km-APs) 和 15 种新型人工 PfAgos (Pf-APs)。这些新生成的蛋白质,与原始的野生型 (WT) 模板相比,有 50%-70% 的序列同一性,与其他非模板 WT 蛋白质(即 NCBI 数据库中的其他 WT 蛋白)相比,序列同一性则低于 40%。

  • KmAgo 是一种中温酶,野生型的 DNA 切割活性相对较低,限制它在实际应用中的潜力

  • PfAgo 是一种超高温酶,野生型的 DNA 切割活性更高,但通常仅在高温下发挥作用,随着温度下降,活性也会随之减弱

在这里插入图片描述

CPDiffusion成功学习蛋白质序列的保守特征、表面带点性等重要性质

值得一提的是,CPDiffusion 的训练和推理过程几乎不需要专家指导, 可自动识别高度保守的区域,从而在确定保守区功能的基础上,在非保守区域引入更多的变化,提高所生成序列的多样性。

通过多种实验验证,如下图所示,研究人员发现为 KmAgo 生成的新序列中,所有序列都能够表达。将近 90% 的新序列具备 DNA 切割活性,超过 70% 的序列表现出比野生型更高的活性,其中,表现最佳的新 KmAgo 活性比野生型 KmAgo 高出将近 9 倍。此外,相较于野生型 KmAgo,部分 Km-AP 的热稳定性也得到了增强。

在这里插入图片描述

e: 37 °C 下 27 种 Km-AP 的 DNA 切割活性
g: 27 个 Km-AP 中,发挥不同作用的蛋白质数量
f: 42°C 下培育 2min 和 5min后,WT KmAgo 和 27 种 Km-APs 的 DNA 切割活性

如下图所示,在为 PfAgo 生成的 15 个新序列中,所有的序列都能够表达,并展示出单链 DNA 切割活性。其中表现最佳的新 PfAgo 不仅将野生型 PfAgo 的熔解温度从 100°C 左右降低到了约 50°C,而且在 45°C 时的单链 DNA 切割活性是野生型 PfAgo 在 95°C 时的 2 倍,更是中温下野生型 KmAgo 切割活性的 11 倍。

在这里插入图片描述

c: 45 °C 下 15 种 Pf-AP 的 DNA 切割活性
d: WT PfAgo 和 Pf-AP 的熔融温度
e: 15 个 Pf-AP 中,发挥不同作用的序列数量

综上,CPDiffusion 可作为一种强大的全新蛋白质序列设计工具,能够自动从野生型功能蛋白中学习,并设计出功能更强大的复杂蛋白质序列,丰富现有蛋白质数据库,为蛋白质工程设计带来更多的可能。

AI 重塑蛋白质工程的未来之路

用 AI 解码蛋白质奥秘,对于生命科学研究的数字化进程具有关键意义,在这场探寻生命本质的竞赛中,中国研究团队正不断前进,贡献力量。作为该领域的杰出代表之一,本研究的通讯作者洪亮教授及其课题组长期关注 AI 蛋白质定向改造和辅助药物设计, 具体研究内容包括但不限于蛋白质结构预测和优化、蛋白质定向改造和设计、辅助药物设计和优化等,团队成果颇丰。截止目前共发表论文 77 篇,其中多篇登顶 Nature 期刊。

洪亮教授课题组主页:

https://ins.sjtu.edu.cn/people/lhong/index.html

自 2021 年起,洪亮教授团队就尝试将 AI 用于蛋白质领域,比如,构建蛋白质工程领域的专有模型,端对端地面向功能设计序列。 他们曾与上海人工智能实验室的谈攀研究员合作,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,该方法能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,大幅提高模型的单点突变预测阳性率,可适用于蛋白质适配性的小样本学习,在实际应用中显示出了巨大的潜力。

洪亮教授团队还开发了一种名为 ProtLGN 的微环境感知图神经网络, 能够从蛋白质三维结构中学习并预测有益的氨基酸突变位点,指导具有不同功能白质单位点突变和多位点突变设计。实验结果显示,超过 40% 的 ProtLGN 设计单点突变体蛋白质优于其野生型对应物。

此外,他们还引入了一种简单、高效、可扩展的适配器 SES-Adapter, 将蛋白质语言模型嵌入与结构序列嵌入结合,以创建结构感知表示 (structure-aware representations),能够显著增强蛋白质语言模型的性能。

以上研究展示了深度学习在蛋白质设计中的强大潜力,毫无疑问,随着深度学习技术在蛋白质领域的进一步应用,蛋白质工程的研究将迎来更加广阔的发展空间。

参考资料:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1544546.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

prithvi WxC气象模型

NASA发布了prithvi WxC气象模型发布 Prithvi是NASA开源的模型,被誉为全球最大的开源地理空间大模型。昨天晚上逛X平台,我看到Prithvi模型又来了新成员:prithvi WxC。 NASA和IBM创建了一个基于MERRA-2数据的天气和气候AI基础模型—Prithvi Wx…

数据库事务索引视图、存储过程

目录 文章目录 一、数据库事务 事务概述: 事务特征: 提交回滚 隔离级别 二、索引 索引创建原则: 存储引擎 单列索引 组合索引 全文索引 空间索引 三、视图 四、函数和存储过程 1.函数的创建 2.存储过程 3.调用格式 4.两者…

初识爬虫8

1.selenium的作用和工作原理 2. 使用selenium,完成web浏览器调用 # -*- coding: utf-8 -*- # 自动化测试工具,降低难度,性能也降低 from selenium import webdriverdriver webdriver.Edge()driver.get("https://www.itcast.cn/")…

高德2024全民出行节启动,联合生态伙伴发放百亿补贴

临近十一黄金周,高德地图宣布启动“2024全民出行节” ,致力于打造出门好生活体验,让用户十一出行“和囧途说ByeBye”。今年十一黄金周期间,高德地图联合生态伙伴在百大行业推出百亿补贴,涵盖吃、住、行、游、购、娱。同…

netty编程之那么多的网络框架为啥非选你?

写在前面 java nio框架不止一种,为啥非选netty?本文来看下。 1:正文 网络io框架,除了netty外,还有mina,sun grizzly,cindy等,为啥独选netty。 mina netty和mina作者同属一人&…

CAN协议一致性测试——深入浅出理解CAN协议(四)

本系列是在同公司硬件设计、验证的同事1、在完成了CANFD硬件接口IP开发 2、熟悉ISO-11898系列、ISO16845、CAN2.0协议、CANFD协议等以及大量学习资料 3、深入研究其他家CANFD IP(NXP、BOSCH)4、独立开发了对应底层驱动 5、通过CANoe和周立功CAN分析仪完成…

类的难疑点

一、知识点 1、类的属性和对象属性(实例属性) shuxing"123" self.shuxing"123" 2、类的对象 self.loginMyclass() loginMyclass() 3、访问类属性和方法的操作 通过“类名.属性”访问:Myclass.shuxing 通…

筋膜炎能自愈吗

筋膜炎能否自愈,主要取决于病情的严重程度以及患者的自我管理和治疗情况。 一、轻微筋膜炎的自愈可能性 对于轻微筋膜炎患者,通过合理的日常护理和适当的运动锻炼,有很高的自愈可能性。这包括: 1、充分休息:避免过度…

【BetterBench博士】2024华为杯C题:数据驱动下磁性元件的磁芯损耗建模 Python代码实现

题目 【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 E题:高速公路应急车道紧急启用模型 问题分析 【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动…

React 理解 re-render 的作用、概念,并提供详细的例子解释

一、什么是 re-render 在 React 中 re-render(重新渲染) 是经常发生的行为,主要确保视图要时刻保持最新的数据来呈现。 但每次发生 re-render 也是有代价的,比如数据状态、focus 焦点、表单数据、都得重置, 遇到代码…

Linux ping c实现

linux下ping程序的c实现 #include <stdio.h> #include <stdlib.h> #include <sys/socket.h> #include <netinet/in.h> #include <stdint.h> #include <netdb.h> #include <arpa/inet.h> #include <unistd.h> #include <st…

LoongArch 个人赛一级评测(前递旁路+load阻塞)

目录 LoongArch 个人赛一级评测&#xff08;前递旁路load阻塞&#xff09;声明测试说明 代码修改thinpad_top.vconver_ram.vIF_stage 测试自动评测在线实验 踩坑记录读写使能控制inout类端口的使用方法Vivado生成Bit流文件时出现[Synth 8-91] ambiguous clock in event control…

file zilla server安装以后,client连接,账号登录成功,但是读取目录失败的处理

1、下载 2、连接 开始一直报错&#xff0c;server1.9.1的版本&#xff0c;后来直接下载了汉化版本进行安装&#xff1a; 服务端 - FileZilla中文网 3、报错&#xff1a;登录正常&#xff0c;但是读取目录失败&#xff0c;一开始也是这个错误&#xff0c;后来改成安装低版本的&a…

python之装饰器、迭代器、生成器

装饰器 什么是装饰器&#xff1f; 用来装饰其他函数&#xff0c;即为其他函数添加特定功能的函数。 装饰器的两个基本原则&#xff1a; 装饰器不能修改被装饰函数的源码 装饰器不能修改被装饰函数的调用方式 什么是可迭代对象&#xff1f; 在python的任意对象中&#xff…

Mac使用技巧-来自苹果专人在线辅导服务3

真的太喜欢上苹果专人在线辅导课程了&#xff01;每次感觉都满满收获&#xff01; 目录 一、手势 1.1三指拖移 1.2四指上推 1.3五指快速进入启动台 二、程序坞里的app 1.如何将程序坞中不需要/不常用的app移除&#xff1f; 2.当鼠标放在将程序坞中app时&#xff0c;图标…

到底该不该做副业?这些真相你必须知道!零基础入门到精通,收藏这一篇就够了

天哪&#xff01;根据最新调查显示&#xff0c;超过60%的职场人士正在考虑或已经开始从事副业。 那么&#xff0c;究竟该不该做副业&#xff1f; 第一部分&#xff1a;副业的好处 1. 增加收入 做副业最直接的好处就是可以增加收入。 在经济压力日益增大的今天&#xff0c;…

STMCubeMx——C8T6的串口调试、接收与发送

一、stmCubeMX串口通信的步骤 1、新建一个文件&#xff0c;选择自己的芯片 2、配置时钟 3、配置串口 串口的模式解析可以跳转到以下文章查看 stmCubemx——配置串口时的几种模式-CSDN博客在STM32CubeMX中配置串口&#xff08;USART或UART&#xff09;时&#xff0c;可以设置…

Python连接Kafka并收发数据

目录 一、Kafka 二、发送端&#xff08;生产者&#xff09; 三、接收端&#xff08;消费者&#xff09; 一、Kafka Apache Kafka 是一个开源流处理平台&#xff0c;由 LinkedIn 开发&#xff0c;并于 2011 年成为 Apache 软件基金会的一部分。Kafka 广泛用于构建实时的数据…

soul怎么改ip地址归属地

在数字化时代&#xff0c;社交应用已成为人们日常生活中不可或缺的一部分。Soul&#xff0c;作为一款深受年轻人喜爱的社交APP&#xff0c;以其独特的灵魂社交理念和丰富的互动功能吸引了大量用户。然而&#xff0c;在使用Soul的过程中&#xff0c;不少用户会关注到一个问题——…

详解Web测试和APP测试的区别

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 最近听到有些朋友说&#xff0c;移动端要比web端稍微难一些&#xff0c;涉及到的细节笔记要多&#xff0c;有转去做web测试的想法&#xff0c;看看在具体测试的…