Geneformer AI 模型,有限数据也能解锁基因网络

目录

类似于 BERT 的单单元数据参考模型

NVIDIA Clara 工具组合用于药物研发

用于疾病建模的基础 AI 模型


Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,研究人员可以在数据有限的情况下准确预测基因行为和疾病机制,从而加速药物目标的发现,并提高对各种生物学背景下复杂基因网络的理解。

AI 模型 Geneformer 由麻省理工学院和哈佛大学博德研究所的研究人员及其合作者开发,该模型使用 sc-RNA 表达数据中表达最高的基因生成每个细胞的密集表示,这些表示可以用作各种下游预测任务的特征。然而,Geneformer 的独特之处在于其架构所支持的功能,即使在使用很少的数据进行训练时也是如此。

类似于 BERT 的单单元数据参考模型

Geneformer 具有类似 BERT 的 Transformer 架构,并基于来自各种人体组织中大约 3000 万个单细胞转录组的数据进行了预训练。其注意力机制使其能够专注于输入数据中最相关的部分,以便更好地捕捉关键信息。借助这种上下文感知方法,模型可以通过考虑基因之间的关系和依赖性来做出预测。

在预训练阶段,模型采用了一种蒙版语言建模技术。这种技术将部分基因表达数据蒙版,然后模型根据周围环境学习预测蒙版基因。这项方法不需要标记数据,而是使模型能够理解复杂的基因相互作用和调节机制。

这种架构和训练 使模型能够在处理有限的数据时持续提高与染色质和基因网络动力学相关的各种任务的预测准确性。 例如,Geneformer 能够使用仅 5000 个数据细胞重建心脏内皮细胞中的重要基因网络,这与之前使用超过 30000 个数据细胞进行训练时使用的先进方法一样准确。

它还可以在特定细胞类型分类任务中实现超过 90% 的准确度,这是基因表达基础模型的最常见用例之一。我们使用了克罗恩病小肠数据集对 NVIDIA BioNeMo 模型进行评估,在准确性 (图 1) 和 F1 评分 (图 2) 方面,与基准模型相比,性能有所提高。

Two Geneformer models in the BioNeMo platform show improved performance in cell annotation accuracy over baseline controls.

图 1. Geneformer 模型的参数为 10M 和 106M 时,细胞标注准确率比基准模型有所提高

Two Geneformer models in the BioNeMo platform show improved cell annotation F1 score performance over baseline controls.

图 2. Geneformer 模型的参数为 10M 和 106M 时,细胞标注 F1 得分比基准模型有所提高

图 1 和图 2 中的比较使用了一个基准 Logp1 PCA+RF 模型,该模型使用包含 10 个组件的 PCA,并使用归一化和对数转换的表达式计数训练随机森林模型。基准随机权重模型经过大约 100 步的训练,使用近似随机的权重。具有 1000 万个参数的模型是 6 层模型,具有 106M 个参数的模型具有 12 层,这两种模型都在 BioNeMo 文档中进行了描述。

我们的实验 和原始 Geneformer 出版物中的数据表明,将 Geneformer 扩展到目前生成的 10.6M 参数 12 层模型是有价值的。

为了支持新一代基于 Geneformer 的模型,我们在 BioNeMo 框架中提供了两项新功能。首先,BioNeMo 模型版本具有数据加载器,其数据加载速度比发布方法快 4 倍,同时保持与原始出版物中使用的数据类型的兼容性。其次,Geneformer 现在允许实现张量和管线并行,只需简单地更改训练配置。这有助于管理内存限制并减少训练时间,从而能够利用多个 GPU 的总计算能力训练具有数十亿参数的模型。

NVIDIA Clara 工具组合用于药物研发

Geneformer 可以在 BioNeMo 框架内访问,是 NVIDIA Clara 套件中不断增长的加速单细胞和空间组学分析工具目录的一部分(图 3)。这些工具可以在用于药物研发的互补研究工作流中实施,如 转化基因组学研究院(TGen)的研究。

RAPIDS 编程库套件(包括 RAPIDS-SINGLECELL 工具包和 ScanPy 库)专为基于 Python 的组学数据预处理、可视化、集群、轨迹推理和差分表达测试而构建。当用于分析单细胞表达数据时,其输出可以使用传统的生物信息学方法来分析表达数据,对细胞类型标注和微扰预测的成像和基础模型方法进行补充。借助 NVIDIA RAPIDS 数据分析库,RAPIDS SINGLE-CELL 可加速 Scanpy 中最计算成本极高的工作负载。

对于空间分辨率方法,MONAI 中的 VISTA-2D 模型专为处理和分析细胞图像而设计。它提供高质量的分割掩膜,用于识别和量化细胞形态以及组织内的空间组织。通过 VISTA-2D 生成的分割掩膜,可以生成表达数据,并将其输入到基础模型中,如 Geneformer。

AI models like VISTA 2D, Geneformer, and RAPIDS-SINGLECELL can use cell images and expression data to provide complementary downstream analyses, such as cell type annotation and predicting the effects of cell perturbation.

图 3. Geneformer 在 NVIDIA Clara 套件中补充了 BioNeMo 之外的其他单细胞资源,以加速获得见解。

用于疾病建模的基础 AI 模型

正如其各种应用所展示的那样(图 4),Geneformer 可以作为生物学基础模型,这些用例涵盖了从分子到有机体规模的问题,使其成为生物学研究中一种广泛实用的工具。

模型论文中描述了其中许多用例。该模型现已开源,可供研究使用。 图 4 展示了 Geneformer 可以使用零样本学习处理的用例,其中包括一些下划线的项目。零样本学习意味着 Geneformer 可以预测其以前从未见过或明确训练过的数据类,即使没有相关的训练数据。

This image illustrates the problems that Geneformer can solve in three categories, including gene regulation, cell type and cell state annotation, and predictive biological modeling for therapeutics.

图 4. Geneformer 用例涵盖多个生物复杂性级别,从基因调节到治疗性疾病建模。

在基因调控研究中,Geneformer 可以对测量基因表达变化的数据集进行微调,这些变化是响应不同水平的转录因子的结果。这使得可以准确预测不同剂量的转录因子如何影响基因表达和细胞表型,从而帮助了解基因调控和潜在的治疗干预措施。

通过在数据集上微调 Geneformer,捕捉细胞在微分过程中的状态转换,可以实现细胞状态的精确分类,从而帮助理解微分过程和发展。该模型甚至可以用于一-shot 识别转录因子之间的协同作用。这可以增强对复杂调节机制的理解,以及转录因子如何协同工作来调节基因表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1535888.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

misc合集(1)

[Week3] 这是一个压缩包 有密码,提示QmFzZUNURj8/Pz8/P0ZUQ2VzYUI base64解密是BaseCTF??????FTCesaB 猜测这应该是⼀个轴对称的密码 python ⽣成了密码字典,再通过 ARCHPR 进⾏字典爆破 lowercase abcdefghijklmnopqrstuvwxyz uppercase l…

java写s7和plc通讯

pom.xml <dependency><groupId>com.github.s7connector</groupId><artifactId>s7connector</artifactId><version>2.1</version></dependency>maven下载不了的&#xff0c;下载包&#xff0c;评论或者私自内免费给 DB212 类&a…

5.1 溪降技术:个人装备

Content 5.1 个人装备概览设备概览视频电子书&#xff1a;个人装备安全装备非安全装备 峡谷探险个人安全装备个人安全装备视频*安全扣结构*峡谷探险个人非安全装备 湿峡谷湿峡谷装备视频个人安全装备个人非安全装备 干峡谷干峡谷装备视频个人安全装备个人非安全装备 团队装备&a…

安全区域边界等保测评

1.边界防护 应保证跨越边界的访问和数据流通过边界设备提供的受控接口进行通信。 [测评方法] 1)应核查在网络边界处是否部署访问控制设备;网闸和防火墙2)应核查设备配置信息是否指定端口进行跨越边界的网络通信,指定端口是否配置并启用了安全策略acl 3)应采用其他技术手…

【网盘外快】百度网盘SVIP充值使用说明,如何通过软件自动充值获取新用户优惠?这篇文章给你正确答案。

资源地址&#xff1a; 此软件需要 网盘ck 才可以使用。 雷电模拟器下载地址&#xff1a;https://www.ldmnq.com/ 软件下载地址&#xff1a;https://wwi.lanzoup.com/b01qdiavzg 密码:666 模拟器使用说明&#xff1a; 1、调整模拟器分辨率调整为&#xff1a;540 X 960。 2、…

每天练打字1:今日状况——击键5第1遍

前言 首先说明一点&#xff0c;这个每天练打打字系列不会每天更新。因为本来练打字就不是一件太大的事&#xff0c;没必要为了更新而更新&#xff0c;但还是会做到每周一更新。以便于跟踪进度&#xff0c;监控目标是否达成。 今日练习情况 一、跟打情况 常用字中五百&#…

RockyLinux-软件实现RAID5

一、背景 RAID&#xff08;Redundant Array of Independent Disks&#xff0c;独立磁盘冗余阵列&#xff09;是一种将多个物理硬盘驱动器组合成单一逻辑单元的技术&#xff0c;目的是提高存储性能、可靠性和/或数据冗余度。虽然早期的名字中包含“独立”&#xff08;Independen…

【资料分析】常见的坑

in 比较或计数类问题 差别大的基期比较&#xff0c;可以直接用现期进行比较 注意单位可能不同&#xff01; 注意顺序是从小到大还是从大到小 以及老问题&#xff0c;名字本身就叫XX增量&#xff0c;XX增加值&#xff0c;而非还要另外去算的东东 给出的图表可能是不完整的 2…

通过SQL语句判断奇偶数的几种方法

文章目录 1. 准备数据2. 使用 % 判断奇偶数3. 使用 MOD 判断奇偶数4. 使用按位与运算符 & 1. 准备数据 假设我们有一张测试表test_numbers -- 创建测试表 CREATE TABLE test_numbers (number_value INT );-- 插入测试数据 INSERT INTO test_numbers (number_value) VALUE…

Qt:饿汉单例(附带单例使用和内存管理)

前言 本文主要写饿汉单例以及单例的释放&#xff0c;网上很多教程只有单例的创建&#xff0c;但是并没有告诉我们单例的内存管理&#xff0c;这就很头疼。 正文 饿汉式单例 // SingletonClass.h #ifndef SINGLETONCLASS_H #define SINGLETONCLASS_H #include <QObject&g…

PCIe进阶之TL:First/Last DW Byte Enables Rules Traffic Class Field

1 First/Last DW Byte Enables Rules & Attributes Field 1.1 First/Last DW Byte Enables Rules Byte Enable 包含在 Memory、I/O 和 Configuration Request 中。本文定义了相应的规则。Byte Enable 位于 header 的 byte 7 。对于 TH 字段值为 1 的 Memory Read Request…

【stm32笔记】使用rtt-studio与stm32CubeMx联合创建项目

使用rtt-studio与stm32CubeMx联合创建项目 创建rt-thread项目 设置项目信息 在项目资源管理器中“右击“&#xff0c;创建RRT studio 项目 双击“RT-Thread 项目“。 选择MCU&#xff0c;设置UART&#xff0c;以及调试方式。添加项目名称&#xff0c;点击“完成“按钮。 …

长春自闭症寄宿学校:开启创造力与艺术之旅

长春自闭症寄宿学校的启示&#xff1a;在广州星贝育园&#xff0c;自闭症儿童开启创造力与艺术之旅 当我们谈及自闭症儿童的教育与成长时&#xff0c;总有一股力量在推动着我们不断探索与创新。虽然题目中提及了“长春自闭症寄宿学校”&#xff0c;但本文将聚焦于广州的星贝育…

使用jmeter做性能测试实践过程中需要注意什么

前言 在驾驭Apache JMeter进行性能测试之旅中&#xff0c;深刻理解其特性和限制是至关重要的。以下是提升JMeter效能的关键策略&#xff0c;旨在挖掘其潜力&#xff0c;克服局限&#xff0c;实现精准测试。 1.精确调控线程数 推荐阈值&#xff1a;将线程数控制在300以内&…

SSH公私钥后门从入门到应急响应

目录 1. SSH公私钥与SSH公私钥后门介绍 1.1 SSH公私钥介绍 1.1.1 公钥和私钥的基本概念 1.1.2 SSH公私钥认证的工作原理(很重要) 1.2 SSH公私钥后门介绍 2. 如何在已拿下控制权限的主机创建后门 2.1 使用 Xshell 生成公钥与私钥 2.2 将公钥上传到被需要被植入后门的服务…

AIGC技术下的动画新纪元:效率与创意的双重飞跃

文章目录 一、技术革新&#xff1a;从辅助到引领二、创作效率与质量的双重飞跃三、创新与艺术的深度融合四、挑战与展望《Procreate Dreams动画设计与制作完全解析》亮点内容简介作者简介目录 《猎头高情商沟通实务》亮点内容简介作者简介 在科技日新月异的今天&#xff0c;人工…

初始Python篇(1)——输入输出函数、数据类型、运算符

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; Python 以B站up主&#xff1a;Python_子木的视频 &#xff1a;花了2万多买的Python教程全套&#xff0c;现在分享给大家&#xff0c;入门到精…

C++进阶 二叉搜索树的讲解

二叉搜索树的概念 二叉搜索树又称为二叉排序树。 二叉搜索树的性质 若它的左子树不为空&#xff0c;则左子树上所有结点的值都小于等于根结点的值若它的右子树不为空&#xff0c;则右子树上所有结点的值都大于等于根结点的值它的左右子树也分别为二叉搜索树二叉搜索树中可以支持…

vscode搭建ros开发环境问题记录(更新...)

文章目录 vscode 不能自动补全 开发环境&#xff1a; vmware 15.7 ubuntu 20.04 ros noetic vscode 不能自动补全 这里将头文件已经正确包含到c_cpp_properties.json中代码中仍然不能自动补全&#xff0c; 将C_CPP插件设置中的Intelli Sense Engine 设置为TagParser,然后重新加…

MySQL:基本查询操作

插入 基本插入语法&#xff1a; insert [into] 表名 (列1, 列2 ...) values (值1, 值2 ...); create table students( id int unsigned primary key auto_increment, sn int not null unique comment 学号, name varchar(20) not null, tel varchar(20) );一次性指定所有值&…