GWAS分析中显著位点如何注释基因:excel???

大家好,我是邓飞。

今天星球的小伙伴问了一个问题:

我现在在做GWAS分析,现在已经找到性状关联的SNP位点,下一步我如何根据position 找到基因呢?

关于基因注释,之前写过一些博客,可以用到的软件有:ANNOVAR、Bedtools,今天回答了这个问题,感觉excel也可以做基因注释了。

下面,对我的回答进行进一步的阐述。

1. GWAS分析

GWAS分析,之前写过一个Cookbook,包括方方面面的内容了,如果是小白,推荐一遍看配套的视频,一遍敲代码学习:

录制了配套的视频教程,前面的数据下载、软件安装、环境配置等相关视频免费观看,后面的付费观看。对于想要快速学习的小白,视频+代码+数据+实操+技术支持,是比较快的一条路。 

                                          (扫码查看视频教程)

2,显著SNP位点

做完GWAS分析后,确定阈值,然后小于阈值的位点都是显著性位点,显著性位点最重要的两个信息:

  • 染色体

  • 物理位置

有时候还包括snp的名称,但是不是必填项,只需要上面两个信息,就可以知道显著snp在基因组上的位置了。

3,配套基因组的gff文件

一般,有基因组数据的物种,有基因组的版本,还有配套的gff或者gff3格式的文件,文件的内容里面有:

  • 染色体

  • 基因起始位置

  • 基因终止位置

  • 基因功能描述

  • ……

类似:

4,计算LD衰减距离

为何要计算LD衰减距离呢,是为了知道显著snp代表的区间,因为存在连锁,所以衰减距离就是确定snp所代表的有效区间,可以代表这个有效区间的变异。虽然snp不在基因上,但是如果snp的衰减距离区间内(比如上下50kb)包含基因,那也可以说明这个基因是显著影响性状的。

所以,计算了LD衰减距离,显著性snp的信息,就变成了:

  • 染色体

  • 有效区间起始位置

  • 有效区间终止位置

5,用excel注释显著性snp

我们把gff文件,简化一下,整理成excel格式:

怎么用excel表格呢,可以手动查看,也可以编写一个函数。

话说,上面的显著性位点,一共就6个SNP,手动搞就行了。

第一个snp,区间是1染色体,5-15,这个区间有:gene1
第二个snp,区间是1染色体,10-20,这个区间有:gene2,不是完全包括,但是有交集,也算是
第三个snp,没有基因
第四个snp,gene4
第五个snp:没有基因
第六个snp:没有基因

所以这些snp,一共注释的基因有:gene1, gene2, gene4

6,我有1000个显著性位点,谢谢

如果位点很多,这就需要用到软件了:bedttols

「换到基因注释的领域,看一下相关需求:」

  • 1,显著性的SNP位点,取上下游50k的位点,作为候选的区间

  • 2,将候选区间有基因的,匹配到SNP的右边

「处理注意:」

  • 1,显著SNP在上下游区间时,可能会有交叉,所以要先合并(merge)

  • 2,匹配基因时,一个SNP区间可能会有多个基因

1. 数据描述

「SNP区间文件:」

这里,提取显著SNP的区间,提取三列信息:染色体,开始位置,结束位置:

共有6个SNP区间,其中第一个和第二个有重合,第五个和第六个有重合。

 cat snp_infor.ped  chr1 5 15  chr1 10 20  chr1 30 40  chr1 80 90  chr1 110 120

「基因区间文件:」

共有5个基因区间文件,分别是:染色体,开始位置,终止位置,基因名称。

 cat gene_infor.ped  chr1 1 14 gene1  chr1 17 19 gene2  chr1 45 82 gene3  chr1 88 93 gene4

2. 提取每个SNP上面的基因

「需求:」

  • 每个SNP一行

  • 如果有基因在其区间,放到右边,如果没有基因,返回空

  • 如果一个SNP区间对应多个基因,写成多行

代码:

  • intersect,交集

  • -a,第一个位置信息表

  • -b,第二个位置信息表

  • -loj,以第一个为基准,返回结果

结果可以看到,第二个SNP区间,对应两个基因,写成了两行。第三个SNP区间没有对应基因,用-1表示占位。共返回8行信息。

3. 返回有基因信息的SNP

如果不想要占位符,只想返回有基因的SNP信息,可以命令如下:

bedtools intersect -a snp_infor.ped -b gene_infor.ped  -wa -wb

结果:

​​​​​​

$ bedtools intersect -a snp_infor.ped -b gene_infor.ped  -wa -wb  chr1 5 15 chr1 1 14 gene1  chr1 10 20 chr1 1 14 gene1  chr1 10 20 chr1 17 19 gene2  chr1 80 90 chr1 45 82 gene3

可以看到,将没有匹配到基因的SNP删除了。

上面的信息中,有些SNP匹配到了多个基因,也就是基因是有重复的。

  • 如果我们想看每个SNP匹配的基因情况,可以用上面的结果

  • 如果我们想看一下共有多少无重复的基因匹配,就需要对SNP区间先合并

4. 合并SNP区间再匹配

合并命令:

bedtools merge -i snp_infor.ped >snp_infor_merge.ped

原始数据:

 
$ cat snp_infor.ped  chr1 5 15  chr1 10 20  chr1 30 40  chr1 80 90  chr1 110 120

合并的结果:

$ cat snp_infor_merge.ped  chr1 5 20  chr1 30 40  chr1 80 90

然后和基因的信息进行合并:​​​​​​​

$ bedtools intersect -a snp_infor_merge.ped -b gene_infor.ped -wa -wb  chr1 5 20 chr1 1 14 gene1  chr1 5 20 chr1 17 19 gene2  chr1 80 90 chr1 45 82 gene3

5. 查看每个SNP区间基因的个数

结果可以用2中,统计一下个数,也可以用bedtools的-c参数:​​​​​​​

$ bedtools intersect -a snp_infor.ped -b gene_infor.ped -c  chr1 5 15 1  chr1 10 20 2  chr1 30 40 0  chr1 80 90 2  chr1 110 120 0

结果可以看到,SNP1有一个基因,SNP2有2个基因,SNP3没有基因……

6. 基因注释的不同玩法

把上面SNP的区间,作为显著性SNP上下游的信息,把基因的信息作为gff基因文件,就可以进行基因注释了!

上面的玩法都可以做。

「注意,将gff格式整理为:染色体,开始位置,结束位置,基因信息;

snp区间整理为:染色体,开始区间,结束区间」

可以实现的功能:

  • 每个SNP区间内的基因

  • 每个SNP全进内基因的个数

  • 合并SNP区间内的基因

  • 合并SNP区间内基因的个数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551451.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

windows全局配置pip镜像源

在Windows系统中,可以在用户目录下创建一个名为pip的文件夹,然后创建一个名为pip.ini的配置文件,其中输入镜像源信息。 [global] index-url http://mirrors.aliyun.com/pypi/simple/ [install] trusted-hostmirrors.aliyun.com

什么是reactor以及其三种版本

写在前面 本文来看下什么是reactor以及其三种版本。 1:什么是reactor以及其三种版本 为了更好的理解什么是reactor,我们结合现实生活中的例子来看下。 翠花是个貌美如花的姑娘,人称赛东施,她的梦想是嫁给王子,可是天…

AI产品经理如何做好职业规划❓

AI如何做好职业规划❓ 一、认识AI产品经理的角色 AI产品经理是连接技术与市场的桥梁,需要具备以下核心能力: 1)技术理解力 深入理解AI技术,包括机器学习、深度学习、自然语言处理等。 2)市场洞察力 敏锐捕捉市场动态,理解用户需求和行业趋…

中概股浪潮中暴涨20%的知乎,被低估了吗?

“在未来,要么被AI统治,要么成为AI的创造者”——埃隆马斯克 9月27日以来,受政策以及AI应用前景的利好,中概股开启了一轮强力的反弹。其中,知乎涨超10%,领涨一众中概股,花旗、福瑞集团均给出了…

企业内训|AI助力智能办公与职场效能提升-青岛某国资平台

9月25日,TsingtaoAI派驻讲师进驻现场,为青岛市某国资平台公司员工交付“AI助力智能办公与职场效能提升”企业内训,整个培训通过AIGC的实际应用案例,帮助学员掌握智能办公的常用工具,提升工作流程优化和决策效率。课程涵…

拯救华为秘盒M310

这个盒子当年宣传得比较厉害, 当时确实也没有什么可选的,当年是高价入的,这个盒子有二切一的hdmi切换功能, 这点从今天来看, 都是一个亮点 华为秘盒M310是一款小巧但功能强大的网络机顶盒。它搭载了基于安卓系统的操作平台&#x…

golang 获取证书的生效及过期时间

测试样例 func TestGetCertVaildTime(t *testing.T) {certPEM, err : ioutil.ReadFile("aa.bbb.com.crt")if err ! nil {fmt.Println("读取证书文件出错:", err)return}// 解码PEM格式的证书block, _ : pem.Decode(certPEM)if block nil {fmt.Println(&q…

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

近日,智源研究院推出全球首个中文大模型辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大语言模型能力评估提供新的度量标尺。该平台是智源模型对战评测服务FlagEval大模型角斗场的延展,将有助于甄别大语言模型的能力差异。 F…

vector中push_back和emplace_back的区别

push_back 在引入右值引用,转移构造函数,转移复制运算符之前,通常使用push_back()向容器中加入一个右值元素(临时对象)的时候,首先会调用构造函数构造这个临时对象,然后需要调用拷贝构造函数将…

Redis入门第一步:认识Redis与快速安装配置

认识Redis与快速安装配置🍃 Redis是什么🐲 1.Redis的背景🎍 Redis(Remote Dictionary Server)译为"远程字典服务",它是一款基于内存实现的键值型 NoSQL 数据库, 通常也被称为数据结…

pytorch线性/非线性回归拟合

一、线性回归 1. 导入依赖库 import numpy as np import matplotlib.pyplot as plt import torch from torch import nn, optim from torch.autograd import Variable numpy:用来构建数据matplotlib.pyplot: 将构建好的数据可视化torch.nn&#xff1a…

2024还在拼多多赚钱的,无不满足这几个条件

拼多多只是我棋盘上的一小步,整个棋局几人看懂了? 如果我说我做拼多多,其实是另有目的,拼多多只是我棋局里的一小步,你们信吗?认真看文章,后面会为大家揭秘! 先来客观公正的回答下…

Queued Synchronous Peripheral Interface (QSPI)

文章目录 1. 介绍2. Feature List3. 概述3.1 QSPI框图3.2 操作模式3.3 三线模式3.4 时钟极性和时钟相位 4. Master模式4.1 状态机4.2 采样点4.3 波特率4.4 通信模式4.4.1 短数据模式4.4.2 长数据模式4.4.3 短连续模式4.4.4 长连续模式4.4.5 单配置多帧模式4.4.6 XXL模式4.4.7 M…

选择国企eHR人事管理系统的时候,应该注意什么?

近年来,中国正步入高速发展的黄金时期,国有企业(国企)在追求效率和管理水平提升方面迈出了重要步伐。为了进一步实现数字化、流程化和科学化管理,越来越多的国企选择引进eHR(电子人力资源管理)系…

【Diffusion分割】MedSegDiff-v2:Diffusion模型进行医学图像分割

MedSegDiff-V2: Diffusion-Based Medical Image Segmentation with Transformer 摘要: 最近的研究揭示了 DPM 在医学图像分析领域的实用性,医学图像分割模型在各种任务中表现出的出色性能就证明了这一点。尽管这些模型最初是以 UNet 架构为基础的&…

opencv实战项目(三十):使用傅里叶变换进行图像边缘检测

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一,什么是傅立叶变换?二,图像处理中的傅立叶变换:三,傅里叶变换进行边缘检测: 一&#xff0c…

13个大V出文需要准确把握的重要因素

推文作为全球最大的社交平台之一,吸引了很多大V(即具有巨大粉丝团的影响力和的账户)的关注。那些大V常常运用推文发布相关各种各样热点的营销推广信息,以吸引更多人的关注参与。推文的发布时间段是V在宣传推广过程中需要准确把握的…

【真实访问】那些选择土木专业的学生,后来怎么样了?

“你会让孩子报土木专业吗?” 7月15日,澎湃新闻在微博上发起线上调研,截至16日12时,8000多人参与了投票,结果显示近7000人选择“不会,天坑专业”。短短几年时间,土木工程专业的报考从“香饽饽”…

CAN总线的错误类型

前言 CAN总线的错误类型主要包括:位错误、填充错误、格式错误、ACK错误和CRC错误。这里一定要做好CAN总线的错误类型、错误帧类型、节点状态之间的区别。 错误类型是帧传输出错的原因类型;错误帧类型(主动错误帧、被动错误帧)是帧…

基于IntraWeb的数据表格的多选实现

基于IntraWeb的数据表格的多选实现 既可以单条操作,也可以多选操作。 delphi源代码。 BS开发Web网站开发,不需要安装服务器,Apache和IIS都不需要,自带企业级服务器。 运行exe服务器就架好了,直接打开手机浏览器或者…