【阅读总结】Variant Effect Predictor: ProteinNPT 半监督伪条件生成

之前分享的EVE利用MSA来训练VAE模型,Tranception在UniRef100上训练自回归模型,二者都是无监督学习,即不依赖任何标签,通过对蛋白序列的挖掘来学习突变效应。ProteinNPT于2023年发表于NeurIPS Proceedings,能够将无监督预测作为辅助标签,和真实标签一起用于训练网络,做半监督学习。截止到2024.10.08,ProteinNPT于是ProteinGym DMS Substitutions数据上有监督学习的最佳模型。

目录

      • 数据
      • 模型
        • 训练与推理
        • 消融实验
      • 性能
        • ProteinGym
        • Protein Redesign
        • Conditional Sampling

数据

在ProteinGym上进行交叉检验,设计了三种五折交叉检验的划分方式:

  1. Random:每个突变随机分配,可能会导致同一位置的突变被分配到不同fold
  2. Contiguous:仅考虑包含突变的位置,将序列分割为连续的片段,确保每个片段中包含同样多的突变位置
  3. Modulo:仅考虑包含突变的位置,对于 5 折交叉验证,位置 1 被分配给fold 1,位置 2 分配给fold 2,…,位置 6 分配给fold 1,以此类推。

仅在评估单突变时才使用Contiguous和Modulo交叉验证方案。多突变仅基于Random交叉验证方案。

模型

模型采用MSA Transformer预训练的embedding(MSA Transformer内部冻结不参与训练),线性投影到 d d d=200。序列的真实标签和辅助标签(zero-shot preditions from MSA Transformer)经过标准缩放后也线性投影到 d d d=200,和序列embedding拼接起来。对batch B中的每条序列,获得$(L_{seq}+2) \cdot d $形式的input embed,经过CNN非线性化后输入5个连续的ProteinNPT layers。

每个 ProteinNPT 层依次row-attention、column-attention和前馈层。每个变换前都有 LayerNorm,每个变换后都有残差连接。

最后,通过输入L2-penalized linear projector来进行预测。目标函数包括去噪和预测两部分:

L total  = α t ⋅ L AA reconstruction  + ( 1 − α t ) ⋅ L target prediction  \mathcal{L}^{\text {total }}=\alpha_t \cdot \mathcal{L}^{\text {AA reconstruction }}+\left(1-\alpha_t\right) \cdot \mathcal{L}^{\text {target prediction }} Ltotal =αtLAA reconstruction +(1αt)Ltarget prediction 

ProteinNPT layers代码如下:

from ..utils.esm.modules import AxialTransformerLayerself.layers = nn.ModuleList([AxialTransformerLayer(self.args.embed_dim,self.args.ffn_embed_dim,self.args.attention_heads,self.args.dropout,self.args.attention_dropout,self.args.activation_dropout,getattr(self.args, "max_tokens_per_msa", self.args.max_tokens_per_msa),self.deactivate_col_attention,self.tranception_attention,self.num_targets_input,)for _ in range(self.args.num_protein_npt_layers)])
训练与推理

训练中,batch size取425,PLM embedding提前存储进硬盘,每次随机屏蔽氨基酸和标签各64。使用AdamW优化器,测试各种early stopping策略后选择使用固定10k的training steps。

推理时,将训练集与测试集row-wise拼接,类似Chain of Thought,使得模型进行Colunmn attention时了解序列-标签关系和有标注序列之间的同源性。拼接对训练集设定最大数量M,如果训练数据集较大,随机不替换采样M条训练数据(随机替换采样经测试效果相近)。

消融实验

消融实验全部在8个较小的DMS assay上进行(见B.2),统一使用Spearman’s rank correlation作为比较指标。

  1. 使用哪个PLM:比较了不使用PLM、ESM-1v、Tranception和MSA Transformer,使用PLMembedding的同时选择对应的zero-shot预测做辅助标签。在三种交叉检验方式上MSA Transformer表现均为最佳。
  2. 是否使用辅助标签:使用MSA Transformer预测后,在三种交叉检验方式上模型性能都获得提高。
  3. post embedding非线性层架构:在随机交叉检验上比较了Light attention、Linear、MLP、ConvBERT、CNN后选择CNN
  4. 推理时M取值:相比于不添加训练数据,添加100条即在三种交叉检验方式上均有有性能提升,添加1000以上时不再有性能提升,故M取1k。
  5. 训练集大小:Small size (≤2k labels),Medium size (2-8k labels) and Large size (>8k labels),未观察到small assays上性能显著下降(medium表现最好)。

性能

ProteinGym

比较了ProteinNPT和以下模型:

  1. Zero-shot (MSA Transformer):无修改,5个模型取ensemble
  2. OHE: ridge regression on trained one-hot-encodings
  3. OHE - Augmented (DeepSequence): OHE + zero-shot predictions from DeepSequence
  4. OHE - Augmented (MSA Transformer): OHE + zero-shot predictions from the MSA Transformer
  5. Embeddings - Augmented (MSA Transformer):该团队增强后的mean pooled embeddings from the MSA Transformer + zero-shot predictions from the MSA Transformer,见C.1。

在单突变、多突变、多分类三个不同任务上,ProteinNPT都取得了最优表现。

Protein Redesign

模拟重设计中,从小部分有标签数据开始训练模型,对所有(总数据中存在的)未标记数据根据Upper Confidence Bound (UCB) 打分,获取最佳的少量数据标签加入训练集,重新训练-评分-获取标签。UCB函数如下:

a ( x ; λ ) = μ ( x ) + λ ⋅ σ ( x ) a(x ; \lambda)=\mu(x)+\lambda \cdot \sigma(x) a(x;λ)=μ(x)+λσ(x)

其中 μ \mu μ代表预测的适应性, σ \sigma σ代表预测的不确定性, λ \lambda λ做探索-利用的权衡。

采用5 Monte Carlo dropout samples for 5 resample inference batches混合的策略来衡量不确定性:

  1. Monte Carlo dropout:在推理时使用固定的推理批次,使用多个前向传递的预测标准差作为不确定性度量
  2. Batch resampling:对于待预测的数据点,用有替换的方式采样不同样本与该数据点组成不同的input batches,取前向传递后的标准差。

对 ProteinGym 扩展基准中的所有 DMS 测定进行迭代蛋白质重设计实验。仅考虑单突变,根据assay包含的数据量将assay分为三组:

  1. 对< 1250 的assay,从 50 个有标签数据开始,并在每次迭代中获取 N = 50 个新标签。
  2. 对>1250 且< 2500 的assay,从 100 个有标签数据开始,并在每次迭代中获取 N = 100 个新标签。
  3. 对>2500 的assay,从50 个有标签数据开始,并在每次迭代中获取N = 200 个新标签。

运行三次以保证稳定。ProteinGym几乎在所有assay中超过基线,且在数据量更大的assay上表现更好。

Conditional Sampling

以GFP DMS assay为例,首先识别高适应性序列(top 3 deciles),然后构建输入:随机选择其他有标签序列+对最优序列做5个掩码,输入模型后获取掩码位置的log softmax分布,采样、获取新序列。

注意,掩码位置不是随机选择,而是采样在ProteinNPT最后一层与标签的row-wise注意力分数最高的位置。

使用ESM-1v评价条件采样结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1558658.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

搭建Serverless社交媒体分析平台,Dataxet运维成本降低50%

社交媒体平台发展如火如荼,据相关机构统计,2024年全球社交媒体活跃用户已占全球人口总数约62.5%。亚洲知名智能媒体公司Dataxet意识到社交媒体数据分析潜在商业价值,即推出全新的社交媒体分析平台DTX360,用于提供媒体监测、社交网…

Canvas:AI协作的新维度

在人工智能的浪潮中,OpenAI的最新力作Canvas,不仅是一款新工具,它标志着人工智能协作方式的一次革命性飞跃。Canvas为写作和编程提供了一个全新的交互界面,让用户能够与ChatGPT进行更紧密、更直观的协作。 ​​​​​​​ Canvas的…

危房安全监测系统解决方案

一、危房产生原因 1、地基因滑移,或因承载力严重不足,或因其他特殊地质原因,导致不均匀沉降引起结构明显倾科、位移、裂缝、扭曲等,并有继续发展的趋势。 2、地基因毗邻建筑增大荷载,或因自身局部加层增大荷载,或因其他人为因素,导致不均匀沉降,引起结构明显倾料、位移、裂缝…

linux安装Go ImageMagick插件

ImageMagick安装 在程序中需要对图片转化时需要使用到gopkg.in/gographics/imagick.v2/imagick库,但是这个库需要在本地安装ImageMagick插件。 有些机器在软件库是有的,可以直接下载安装,没有的话推荐源码安装。 ImageMagick中文站 ImageM…

Spring Boot学习资源库:Java开发者的新篇章

2 相关技术简介 2.1Java技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译,任…

张驰咨询:企业管理难题?精益六西格玛培训公司有‘秘籍’!

在当今这个快速变化、竞争激烈的市场环境中,企业要想持续保持竞争优势,就必须不断追求效率与质量的双重提升。而精益六西格玛作为一种集精益生产与六西格玛管理于一体的先进管理理念和工具,正成为越来越多企业转型升级的首选。在这样的背景下…

Springboot3+druid+jasypt+application.yml配置文件数据库密码加密技术

说明 开发环境我们经常把数据库密码直接明文暴露在配置文件中,但是在生产环境,出于安全考虑,必须对数据库密码进行加密。 Jasypt是一个简单易用的Java加密工具库。Jasypt支持多种加密算法,如AES、SHA512、AES_256等,以适应不同的安全需求,可以轻松将加密技术应用于配置…

JavaScript 入门基础 第1章

第一部分:入门篇 第1章:JavaScript 基础 JavaScript 是什么? JavaScript 是一种广泛使用的脚本语言,主要用于Web开发,为网页添加交互功能。它是一种解释型语言,可以在客户端(浏览器&#xff0…

重学SpringBoot3-集成Redis(九)之共享Session

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-集成Redis(九)之共享Session 1. 为什么需要 Session 共享2. Spring Session 和 Redis 的集成2.1. 引入依赖2.2. 配置 Redis 连接…

猿人学— 第一届第1题(解题思路附源码)

猿人学 — 第一届第1题(解题思路附源码) F12进入开发者工具—> 发现停止在debugger处 —> 右键点击Never pause here后下一步 翻页,抓包后发现请求携带page和m两个参数,page应该就是页数,m则需要逆向 依次查…

《深度学习》循环神经网络RNN 结构及原理解析

目录 一、关于RNN 1、传统神经网络存在的问题 2、什么是循环神经网络 3、RNN特点 二、RNN基本结构 1、RNN基本结构 2、推导方式 注意: 3、循环的由来 4、RNN的局限性 一、关于RNN 1、传统神经网络存在的问题 无法训练出具有顺序的数据,模型搭…

【LeetCode】每日一题 2024_10_9 找到按位或最接近 K 的子数组(LogTrick、位运算)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:找到按位或最接近 K 的子数组 代码与解题思路 今天是 2100 的题目,难度略高,不在我的能力范围,推荐题解:两种方法:LogTrick/滑…

大模型转型指南:现在开始学习还来得及吗?非常详细收藏我这一篇就够了

大模型学习路线,从基础入门到项目实战! 第一阶段:AI大模型时代 理解大模型大模型提示工程 第二阶段:AI大模型API应用开发工程 3. 理解Function Calling 4. RAG与Embedding 5. 向量数据库 6. OpenAI GPTs与Assistant API 7. 实战…

智融SW3536DC/DC+快充协议二合一IC

描述 SW3536 是一款高集成度的多快充协议双口充电芯片,支持 AC 口任意口快充输出,支持双口独立限流。其集成了 7A 高效率同步降压变换器,支持 PPS/ PD/ QC/ AFC/ FCP/ SCP/ PE/ SFCP/TFCP 等多种快充协议,支持 140W 输出功率&…

骨传导耳机哪款好?五大绝佳骨传导耳机集锦推荐!

随着科技的不断进步,骨传导耳机以其独特的听音方式和开放双耳的设计,逐渐成为了众多音乐爱好者、运动达人乃至日常通勤者的首选。相比传统的入耳式耳机,骨传导耳机不仅能够保护听力,还能让使用者在享受音乐的同时保持对外界环境的…

一文彻底搞懂大模型 - Hugging Face Transformers

Hugging Face Hugging Face Transformers是一个开源的预训练模型库,旨在将NLP领域的最新进展向更广泛的机器学习社区开放。该库包含了经过精心设计的最先进的Transformer架构,并提供了易于使用的API**,使得研究人员和开发者能够轻松地加载、…

如何自己动手实现一个图片解答小助手

有一张图片如下所示: Kimi上有一个功能,就是解析图片内容,给出回答: 这样可以用于拍照向AI提问的场景,我自己也有这方面的需求,因此动手实践了一下。 自己动手实现的效果如下所示: 那么自己如何…

记录一次fdisk分区成功后lsblk不显示新建的分区

1. 查看vda盘还剩余900G空间 2. 使用fdisk分区vda3并保存 3. 分区后,使用lsblk发现没有显示vda3 4. 使用partprobe或者kpartx -a /dev/vda强制重新读取分区表,后成功显示

Spring系列 Bean的生命周期

文章目录 初始化时机单例初始化流程getBeandoGetBeangetSingleton(String) 获取单例getSingleton(String, ObjectFactory) 创建单例beforeSingletonCreationcreateBeanafterSingletonCreation createBean 创建对象doCreateBeanaddSingletonFactory createBeanInstance 创建 Bea…

文本区域分割系统源码&数据集分享

文本区域分割系统源码&数据集分享 [yolov8-seg-EfficientHead&yolov8-seg-EfficientRepBiPAN等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI …