BiGRU——提高基于 RNN免疫反应预测的准确性

导言

论文地址:https://arxiv.org/abs/2208.04314

深度学习在免疫学领域的应用

人们有一种叫做免疫系统的系统来保护自己免受外来有害物质(包括病毒和细菌)的侵害。免疫系统是指包括白细胞在内的人体内各种元素相互配合以保卫身体的系统,众所周知,它是人类生存的重要机制。近年来,人们一直在研究如何利用免疫系统的机制来治疗难以治愈的癌症。
免疫系统中一个特别重要的组成部分是HLA分子,它通过向另一个细胞呈现一种叫做肽的物质来诱导免疫反应,这种物质会被一个细胞吸收,因此它是发生免疫反应的一个重要组成部分。近年来,人们一直在进行研究,以阐明免疫系统的机制,并了解 HLA 如何呈现肽。
特别是,HLA 可根据其组成单元的序列分为多个版本(这些不同的基因版本称为等位基因)。根据这些分类准确预测肽的表现形式是一项重要的临床挑战。

在本文中,除了使用一般数据集进行实验外,还利用了黑色素瘤(一种皮肤癌)细胞的数据进行实验,证明了该模型在临床应用方面的潜力。

当前工具和研究流的局限性和问题

在过去二十年中,人们开发了许多工具来预测 HLA 肽的结合。特别是近年来,利用深度学习的模型得到了广泛应用。然而,这些模型仅适用于有限数量的 HLA 等位基因(版本),在实际准确性方面存在不足(已知 HLA 可分为 HLA-I 和 HLA-II,HLA-II 的这一趋势尤为明显)。

众所周知,当与 HLA 结合的肽具有一定长度(如 9 或 10)时,预测准确率较高,但当肽较长时,由于缺乏具有该长度的训练样本,预测性能会明显降低。另一个挑战是,目前的方法没有充分利用数据(尤其是蛋白质之间的序列上下文信息)与生物信息之间的关系

因此,本文提出了TripHLApan来解决这些问题。

型号详情

整体模型

TripHLApan的整体工作流程如图 a 所示。

在 TripHLApan 模型中,肽序列和 HLA 分子均来自 IEDB 数据库,并以字符串的形式表示为输入数据(如图所示,每个 HLA 和肽构件均用一个英文字母表示)。这些输入数据在训练前已根据各种属性HLA 分子和肽进行了预处理

需要注意的是,在本实验中,首先要对数据进行选择,使训练集、测试数据集和包含不包含在训练数据中的等位基因的数据集(以下定义为未见数据集)不相互重叠

上述作为输入的数据采用了三种编码方法:AAIndex、Blosum62 和 Embedding。通过这三种编码方法的并行****化过程,可以获得潜在的多方面信息,如****生物化学特性和结合的物理信息,而这些信息是无法仅从表面的序列信息中看到的。

编码模型的输出被用作名为 BiGRU的模型的输入。

此外,本文中的模型还使用了 BiGRU 模型中的注意力机制,以反映序列中哪些是学习的重要点(下文将讨论在该模型中使用 BiGRU 模块和注意力机制的原因)。

由此获得的三个矩阵合并后输出(在最终输出前使用全合并层或西格码层)。该模型表明,利用这种并行多重编码方法进行学习,可以从多个角度利用氨基酸的特性。

BiGRU 模型的详情以及使用该模型的原因

BiGRU(双向门控递归单元)模型是RNN模型的扩展;BiGRU 的最重要特点之一是,它们涉及阵列正反两个方向的信息处理过程。

与只从一个方向进行训练的普通 RNN 模型不同,字符串是从正反两个方向进行训练的,这样就能更好地捕捉字符序列的上下文信息。

BiGRU 还引入了一种门控机制来捕捉长期依赖关系。此外,在 TripHLApan 中,BiGRU 模型还增加了注意机制:注意机制包括一个根据序列的重要性重新分配权重的过程,从而使其能够充分反映上下文所包含的信息。

因此,通过利用 BiGRU 和 Attention 机制,即使三维结构不足以预测 HLA 和多肽,也可以最大限度地利用序列上下文信息进行学习。在本文中,该模型的最大优势之一是能够了解直接与 HLA 结合的多肽末端是如何影响结合的。

迁移学习简介

如图 b 所示,该模型还引入了过渡学习,以解决因缺乏长度较长的肽的训练数据而导致的预测准确性不高的问题。引入这种过渡学习的原因之一是,当肽的长度为 8 时,已知会出现一种特殊的耦合。

因此,该机制是这样的:在训练的早期阶段,利用长度在 9 到 14 之间的多肽(即长度相对较长的多肽数据)对模型进行训练,然后利用训练得到的模型对长度为 8 的多肽进行预测。这种机制使得在预测长度大于 8 的多肽时,学习不受长度为 8 的数据的影响,并防止过度拟合特定多肽长度的数据。

实验结果

在图 b 中,显示了在不同的阳性样本和阴性样本比例下(具体来说,左起四幅图中阳性样本和阴性样本的比例分别为 1:1、1:5、1:10 和 1:50)测量 BiGRUAUC 的实验结果。横轴表示实验中使用的肽段长度(在本实验中,学习是在一定程度上根据肽段长度进行分类的)。

图 b 包括三行:最上面一行显示的是测试集上的 AUC,中间一行显示的是使用未见数据集(如上所述,数据集包含未包含在训练数据中的等位基因(版本))时的 AUC,最下面一行显示的是使用未见数据集和迁移学习时的 AUC。最下面一行显示的是使用未见数据集进行迁移学习时的 AUC。图中蓝色部分显示的是本文提出的模型的评价指数,其他彩色部分显示的是传统模型的评价指数。

从图中可以看出,新方法在所有肽段长度上的表现都优于传统方法,尤其是在较长的肽段长度上。下图还显示了过渡学习的有效性。

此外,图 c 和 d 显示了AUPRtop-PPV,这是模型在使用不平衡数据集时的性能指标。这证实了该模型在数据不平衡情况下的有效性。

实验结果

上图显示了使用预测工具对不同等位基因样本进行皮尔逊相关性测量的结果,并在与单个黑色素瘤****相关的数据集上进行了测试(黑色素瘤是皮肤癌的一种,目前正在考虑引入免疫疗法)。获得的**平均皮尔逊相关系数 (PCC)**被用作纵轴,实验中使用的细胞系都与黑色素瘤有关(细胞系是为研究目的而持续培养的一组细胞)。

PCC 是用来衡量预测的肽-HLA 结合频率与实际结合频率相关性的指标。本文发现 TripHLApan 在所有肽长度和样本中都表现出较高的 PCC

众所周知,HLA 可根据其功能分为 I 和 II 两类。之前的实验表明,HLA-I 的性能很高,但如上图所示,TripHLApan 的模型对 II 也显示出了出色的 AUC 值。这表明该模型可能对 HLA-II 特别有效,因为它之前只在有限的数据集上进行了验证,确保了足够的预测准确性。

总结

与传统方法相比,HLA 分子和肽的准确性更高,这是因为在利用分子的生物和统计特性、BiGRU 架构注意力模块的组合以及迁移学习进行适当预处理后,整合了多种信息和并行编码。结果表明,与传统方法相比,准确度有所提高。这可能是因为能够从多个角度利用生物特性和序列上下文信息。

HLA-I 模型与 HLA-II 模型的比较中,TripHLApan 的表现优于目前最先进的预测工具,无论是在一般数据集还是在与皮肤癌细胞、黑色素瘤相关的数据集中

未来面临的一个挑战是,对于肽段长度为 9 的样本,HLA-I 与肽段的结合预测还没有足够的改进,而这是 HLA-I 结合预测中最常见的肽段长度。因此,今后必须设法更多地关注三维结构,因为目前还没有利用三维结构进行学习。就我个人而言,我认为多功能性非常重要,它可以让过渡学习的肽长度设置更加灵活,而不仅仅是将其设置为一个预先指定的值(本例中为 8)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148064.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第三篇-着色器光照】

在前两篇文章中,我们分别拆解描述了实现原理,并进行了基础的着色器制作。在这一篇文章中,我们将为它实现光照效果 简单的概述 当光线射入体积时,随着光线射入距离的增加,体积中的介质会对光线产生反射和吸收作用&…

【已解决】ElementPlus 的 el-menu 组件如何用 js 控制展开某个子菜单,并在其他组件中控制使用呢?

文章目录 需求几次探索官网寻找线索(解决办法) 需求 我如何用代码来实现 ElementPlus 的菜单的展开和收缩呢? 几次探索 尝试通过找到节点之后,使用 click 事件,失败了 // 伪代码如下 const handleFindNodeAndClick …

力扣:用队列模拟栈

题目描述 解题 class MyStack {Queue<Integer> queue;int size 0;public MyStack() {queue new LinkedList<Integer>();}public void push(int x) {queue.offer(x);size;}public int pop() {for(int i 0; i < size - 1; i){queue.offer(queue.poll());}size…

LLM - 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/142463789 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 多模态…

Perfetto-Android开发分析神器(性能、内存、线程调度)

一、Perfetto内存分析 1.1Prefetto内存分析优势 Prefetto相比其他的sysmem、sysinfo或者追踪堆栈的方式进行内存相关问题的追踪具有更强的可视化以及调用层级更加详细的优势&#xff0c;很多时候能精确到某一个结构体&#xff0c;更加便于在内存泄漏环境下的问题定位。 1.1.1…

数据驱动农业——农业中的大数据

橙蜂智能公司致力于提供先进的人工智能和物联网解决方案&#xff0c;帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。 橙蜂智农的智慧农业产品涵盖了多方面的功能&…

美信监控易的优势:长期稳定运行

美信监控易作为一款运维产品&#xff0c;其显著的优势在于能够长期稳定运行。在IT运维领域&#xff0c;系统的稳定性是至关重要的&#xff0c;它直接关系到企业的业务连续性和客户满意度。美信监控易通过其自研的数据库和先进的监测技术&#xff0c;确保了系统的高可用性&#…

Mysql高级篇(中)——事务篇

事务篇 一、数据库事务概述&#xff08;1&#xff09;概念&#xff08;2&#xff09;事务的处理原则&#xff08;3&#xff09;事务的特性(ACID)&#xff08;4&#xff09;事务的创建 二、如何使用事务三、事务隔离级别&#xff08;1&#xff09;分类&#xff08;2&#xff09;…

每日一练:二叉树的中序遍历

94. 二叉树的中序遍历 - 力扣&#xff08;LeetCode&#xff09; 一、题目要求 给定一个二叉树的根节点 root &#xff0c;返回 它的 中序 遍历 。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,3,2]示例 2&#xff1a; 输入&#xff1a;root …

探索Allure Report:提升自动化测试效率的秘密武器

一.使用 Allure2 运行方式-Python # --alluredir 参数生成测试报告。 # 在测试执行期间收集结果 pytest [测试用例/模块/包] --alluredir./result/ (—alluredir这个选项 用于指定存储测试结果的路径) # 生成在线的测试报告 allure serve ./result 二.使用 Allure2 运行…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-15

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-15 1. Towards the holistic design of alloys with large language models Z Pei, J Yin, J Neugebauer, A Jain - Nature Reviews Materials, 2024 利用大型语言模型实现合金的全面设计 摘要 文章讨论了大型…

基于单片机的自行车智能辅助系统设计

文章目录 前言资料获取设计介绍功能介绍设计程序具体实现截图目 录设计获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师&#xff0c;一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 …

构建数据分析模型,及时回传各系统监控监测数据进行分析反馈响应的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本。增…

[论文精读]Towards Deeper Graph Neural Networks

论文网址&#xff1a;Towards Deeper Graph Neural Networks | Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 英文是纯手打的&#xff01;论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和…

在云渲染中3D工程文件安全性怎么样?

在云渲染中&#xff0c;3D工程文件的安全性是用户最关心的问题之一。随着企业对数据保护意识的增强&#xff0c;云渲染平台采取了严格的安全措施和加密技术&#xff0c;以确保用户数据的安全性和隐私性。 云渲染平台为了保障用户数据的安全&#xff0c;采取了多层次的安全措施。…

ROS机器人书的一些思考

思考 写一本书不难&#xff0c;写一本有价值的书很难&#xff0c;在语言大模型如此发展的今天写一本有价值的书&#xff0c;难上加难。 如何能让学生或读者发自内心的渴望打开一本书&#xff0c;尤其是在这个数字媒体技术如此发达的时代。 这个问题从一开始从事相关工作到如…

解决shop-vite项目打包被限制问题

本人网上找了一个好看的项目 shio-vite 项目源码 &#xff0c;并通过其他方式获取到源码&#xff0c;但是打包出现了以下问题。 问题图片一&#xff1a; 问题图片二&#xff1a; 问题图片三&#xff1a; 需要code和解决方式私可以留言哈

如何使用gewechat开发微信机器人

随着人工智能和自动化技术的快速发展&#xff0c;微信机器人已经成为越来越多人的选择。它们可以帮助我们自动回复消息、管理群组、发送定时消息等&#xff0c;极大地提高了我们的工作效率。而GeWe框架&#xff0c;作为一款开源的微信机器人框架&#xff0c;为开发者提供了便捷…

基于SpringBoot+Vue的垃圾分类回收管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

ChatGPT 推出“Auto”自动模式:智能匹配你的需求

OpenAI 最近为 ChatGPT 带来了一项新功能——“Auto”自动模式&#xff0c;这一更新让所有用户无论使用哪种设备都能享受到更加个性化的体验。简单来说&#xff0c;当你选择 Auto 模式后&#xff0c;ChatGPT 会根据你输入的提示词复杂程度&#xff0c;自动为你挑选最适合的AI模…