GEO生信数据挖掘(二)下载基因芯片平台文件及注释

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

2.手工去GEO官网下载

转换芯片探针ID为gene name

拓展:通过bioconductor注释包

# 找到GPL6244相应的注释包hgu133a.db



上节我们下载了GEO数据集,并提取了基因表达矩阵,但是矩阵行名称是芯片探针需要转换为基因名。

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

注意:下载好soft文件,才可以直接可以提取注释,没下载好,注释内容全为空,后续代码可以运行但是,不能得到正确数据的矩阵。

# 提取注释信息
annotation <- featureData(gse_info[[1]])  

library(GEOquery)
# 指定GEO数据集的ID
gse_id <- "GSE1297"
# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = TRUE )# 提取注释信息
annotation <- featureData(gse_info[[1]])  #下载好soft,可以直接可以提取注释,没下载好注释内容全为空#查看平台文件列名
colnames(annotation)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=annotation[,c(1,11)]

#还可以尝试单独下载GPL96平台文件

gse_gp<-getGEO('GPL96',destdir =".")  #  网速不佳 下载失败提示 Failed to download ./GPL96.soft.gz!

2.手工去GEO官网下载

GEO Accession viewerNCBI's Gene Expression Omnibus (GEO) is a public archive and resource for gene expression data.icon-default.png?t=N7T8https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96

dir() #打印项目文件列表
# 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")
#查看平台文件列名
colnames(platform_file)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=platform_file[,c(1,11)]

转换芯片探针ID为gene name

先将上节中提取到的表达矩阵转换格式。

表达矩阵是Matrix对象,而我们接下来要用到的merge函数不能对Matrix对象使用,因此要先将表达矩阵转换为data.frame对象。否则会报错。Error in fix.by(by.x, x) : 'by'必需指定唯一有效的列

#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = platform_file_set, by.x = "ID")#删除探针ID列
express$ID =NULL

最终将探针ID列删除,剩余32列,即得到有基因名称的表达矩阵。

大家观察最后一列,一个芯片探针匹配到多个基因,下节我们来看看处理方案。

拓展:通过bioconductor注释包

GPL96hgu133a
# 找到GPL6244相应的注释包hgu133a.db

gpl    bioc_package    title
GPL32    mgu74a    [MG_U74A] Affymetrix Murine Genome U74A Array
GPL33    mgu74b    [MG_U74B] Affymetrix Murine Genome U74B Array
GPL34    mgu74c    [MG_U74C] Affymetrix Murine Genome U74C Array
GPL71    ag    [AG] Affymetrix Arabidopsis Genome Array
GPL72    drosgenome1    [DrosGenome1] Affymetrix Drosophila Genome Array
GPL74    hcg110    [HC_G110] Affymetrix Human Cancer Array
GPL75    mu11ksuba    [Mu11KsubA] Affymetrix Murine 11K SubA Array
GPL76    mu11ksubb    [Mu11KsubB] Affymetrix Murine 11K SubB Array
GPL77    mu19ksuba    [Mu19KsubA] Affymetrix Murine 19K SubA Array
GPL78    mu19ksubb    [Mu19KsubB] Affymetrix Murine 19K SubB Array
GPL79    mu19ksubc    [Mu19KsubC] Affymetrix Murine 19K SubC Array
GPL80    hu6800    [Hu6800] Affymetrix Human Full Length HuGeneFL Array
GPL81    mgu74av2    [MG_U74Av2] Affymetrix Murine Genome U74A Version 2 Array
GPL82    mgu74bv2    [MG_U74Bv2] Affymetrix Murine Genome U74B Version 2 Array
GPL83    mgu74cv2    [MG_U74Cv2] Affymetrix Murine Genome U74 Version 2 Array
GPL85    rgu34a    [RG_U34A] Affymetrix Rat Genome U34 Array
GPL86    rgu34b    [RG_U34B] Affymetrix Rat Genome U34 Array
GPL87    rgu34c    [RG_U34C] Affymetrix Rat Genome U34 Array
GPL88    rnu34    [RN_U34] Affymetrix Rat Neurobiology U34 Array
GPL89    rtu34    [RT_U34] Affymetrix Rat Toxicology U34 Array
GPL90    ygs98    [YG_S98] Affymetrix Yeast Genome S98 Array
GPL91    hgu95av2    [HG_U95A] Affymetrix Human Genome U95A Array
GPL92    hgu95b    [HG_U95B] Affymetrix Human Genome U95B Array
GPL93    hgu95c    [HG_U95C] Affymetrix Human Genome U95C Array
GPL94    hgu95d    [HG_U95D] Affymetrix Human Genome U95D Array
GPL95    hgu95e    [HG_U95E] Affymetrix Human Genome U95E Array
GPL96    hgu133a    [HG-U133A] Affymetrix Human Genome U133A Array
GPL97    hgu133b    [HG-U133B] Affymetrix Human Genome U133B Array
GPL98    hu35ksuba    [Hu35KsubA] Affymetrix Human 35K SubA Array
GPL99    hu35ksubb    [Hu35KsubB] Affymetrix Human 35K SubB Array
GPL100    hu35ksubc    [Hu35KsubC] Affymetrix Human 35K SubC Array
GPL101    hu35ksubd    [Hu35KsubD] Affymetrix Human 35K SubD Array
GPL198    ath1121501    [ATH1-121501] Affymetrix Arabidopsis ATH1 Genome Array
GPL199    ecoli2    [Ecoli_ASv2] Affymetrix E. coli Antisense Genome Array
GPL200    celegans    [Celegans] Affymetrix C. elegans Genome Array
GPL201    hgfocus    [HG-Focus] Affymetrix Human HG-Focus Target Array
GPL339    moe430a    [MOE430A] Affymetrix Mouse Expression 430A Array
GPL340    mouse4302    [MOE430B] Affymetrix Mouse Expression 430B Array
GPL341    rae230a    [RAE230A] Affymetrix Rat Expression 230A Array
GPL342    rae230b    [RAE230B] Affymetrix Rat Expression 230B Array
GPL570    hgu133plus2    [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
GPL571    hgu133a2    [HG-U133A_2] Affymetrix Human Genome U133A 2.0 Array
GPL886    hgug4111a    Agilent-011871 Human 1B Microarray G4111A (Feature Number version)
GPL887    hgug4110b    Agilent-012097 Human 1A Microarray (V2) G4110B (Feature Number version)
GPL1261    mouse430a2    [Mouse430_2] Affymetrix Mouse Genome 430 2.0 Array
GPL1318    xenopuslaevis    [Xenopus_laevis] Affymetrix Xenopus laevis Genome Array
GPL1319    zebrafish    [Zebrafish] Affymetrix Zebrafish Genome Array
GPL1322    drosophila2    [Drosophila_2] Affymetrix Drosophila Genome 2.0 Array
GPL1352    u133x3p    [U133_X3P] Affymetrix Human X3P Array
GPL1355    rat2302    [Rat230_2] Affymetrix Rat Genome 230 2.0 Array
GPL1708    hgug4112a    Agilent-012391 Whole Human Genome Oligo Microarray G4112A (Feature Number version)
GPL2112    bovine    [Bovine] Affymetrix Bovine Genome Array
GPL2529    yeast2    [Yeast_2] Affymetrix Yeast Genome 2.0 Array
GPL2891    h20kcod    GE Healthcare/Amersham Biosciences CodeLink™ UniSet Human 20K I Bioarray
GPL2898    adme16cod    GE Healthcare/Amersham Biosciences CodeLink™ ADME Rat 16-Assay Bioarray
GPL3154    ecoli2    [E_coli_2] Affymetrix E. coli Genome 2.0 Array
GPL3213    chicken    [Chicken] Affymetrix Chicken Genome Array
GPL3533    porcine    [Porcine] Affymetrix Porcine Genome Array
GPL3738    canine2    [Canine_2] Affymetrix Canine Genome 2.0 Array
GPL3921    hthgu133a    [HT_HG-U133A] Affymetrix HT Human Genome U133A Array
GPL3979    canine    [Canine] Affymetrix Canine Genome 1.0 Array
GPL4032        [Maize] Affymetrix Maize Genome Array
GPL4191    h10kcod    CodeLink UniSet Human I Bioarray
GPL5188    huex10sttranscriptcluster    [HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array [probe set (exon) version]
GPL5689    hgug4100a    Agilent Human 1 cDNA Microarray (G4100A) [layout C]
GPL6097    illuminaHumanv1    Illumina human-6 v1.0 expression beadchip
GPL6102    illuminaHumanv2    Illumina human-6 v2.0 expression beadchip
GPL6244    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]
GPL6246    mogene10sttranscriptcluster    [MoGene-1_0-st] Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]
GPL6885    illuminaMousev2    Illumina MouseRef-8 v2.0 expression beadchip
GPL6947    illuminaHumanv3    Illumina HumanHT-12 V3.0 expression beadchip
GPL8300    hgu95av2    [HG_U95Av2] Affymetrix Human Genome U95 Version 2 Array
GPL8321    mouse430a2    [Mouse430A_2] Affymetrix Mouse Genome 430A 2.0 Array
GPL8490    IlluminaHumanMethylation27k    Illumina HumanMethylation27 BeadChip (HumanMethylation27_270596_v.1.2)
GPL10558    illuminaHumanv4    Illumina HumanHT-12 V4.0 expression beadchip
GPL11532    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [transcript (gene) version]
GPL13497    HsAgilentDesign026652    Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version)
GPL13534    IlluminaHumanMethylation450k    Illumina HumanMethylation450 BeadChip (HumanMethylation450_15017482)
GPL13667    hgu219    [HG-U219] Affymetrix Human Genome U219 Array
GPL14877    hgu133plus2    Affymetrix Human Genome U133 Plus 2.0 Array [Brainarray Version 13, HGU133Plus2_Hs_ENTREZG]
GPL15380    GGHumanMethCancerPanelv1    Illumina Sentrix Array Matrix (SAM) - GoldenGate Methylation Cancer Panel I
GPL15396    hthgu133b    [HT_HG-U133B] Affymetrix HT Human Genome U133B Array [custom CDF: ENTREZ brainarray v. 14]
GPL17556    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [HuGene10stv1_Hs_ENTREZG_17.0.0]
GPL17897    hthgu133a    [HT_HG-U133A] Affymetrix Human Genome U133A Array (custom CDF: HTHGU133A_Hs_ENTREZG.cdf version 17.0.0)
GPL18190    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [CDF: Brainarray HuGene11stv1_Hs_ENTREZG_15.1.0]
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/147843.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

保姆级Anaconda安装教程

一.anaconda下载 建议使用清华大学开源软件镜像站进行下载&#xff0c;使用官网下载速度比较慢。 anaconda清华大学开源软件镜像站 &#xff1a; https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 一路next即可&#xff0c;注意添加环境变量得选项都勾上。 二.验证…

【AI视野·今日Robot 机器人论文速览 第四十六期】Tue, 3 Oct 2023

AI视野今日CS.Robotics 机器人学论文速览 Tue, 3 Oct 2023 Totally 76 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Robotics Papers Generalized Animal Imitator: Agile Locomotion with Versatile Motion Prior Authors Ruihan Yang, Zhuoqun Chen, Jianhan M…

Java 随机数的获得方法(5种)

1. Math.random() 静态方法 产生的随机数是 0 - 1 之间的一个 double&#xff0c;即 0 < random < 1 代码&#xff1a; 结果&#xff1a; 当调用 Math.random() 方法时&#xff0c;自动创建了一个伪随机数生成器&#xff0c;实际上用的是 new java.util.Random()。当接…

【考研英语】2011 年英语(一)排序题思路复盘(费曼学习法)

文章目录 引言一、找语段特征词二、确定位置写在最后 引言 英语一中的新题型之一 —— 排序题&#xff0c;我是看的刘琦老师的方法课&#xff0c;她用的 2011 年的真题来讲解方法。讲完让我们回去用“费曼学习法”复盘以下&#xff0c;我个人感觉是一个不错的方法&#xff0c;…

mysql面试题10:MySQL中有哪几种锁?表级锁、行级锁、页面锁区别和联系?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:Mysql中有哪几种锁? 在MySQL中,主要有以下几种类型的锁: 共享锁(Shared Lock):也称为读锁。多个事务可以同时持有共享锁,可以读取但不能修…

106.从中序与后序遍历序列构造二叉树

力扣题目链接(opens new window) 根据一棵树的中序遍历与后序遍历构造二叉树。 注意: 你可以假设树中没有重复的元素。 例如&#xff0c;给出 中序遍历 inorder [9,3,15,20,7]后序遍历 postorder [9,15,7,20,3] 返回如下的二叉树&#xff1a; class Solution { public:Tr…

国产32位单片机 普冉PY32F002B 适用于LED灯驱,控制器等

PY32F002B 系列单片机采用高性能的 32 位 ARM Cortex-M0内核&#xff0c;宽电压工作范围的 MCU。嵌入了24Kbytes Flash 和 3Kbytes SRAM 存储器&#xff0c;最高工作频率 24MHz。有TSSOP20, QFN20, SOP16, SOP14,MSOP10多种不同封装类型多款产品。 芯片集成了I2C、SPI、USART 等…

新一代网络框架UringNet,基于最新的异步I/O

介绍 在去年的一篇文章中&#xff0c;笔者曾经提到了最新一代的网络I/O框架UringNet。具体内容可以参考Rings’ Power,性能“世界第一”的Web I/O框架。这是基于最新Linux内核的异步I/O组件io_uring开发的网络框架。由于采用了最新的异步框架&#xff0c;因此在同等硬件配置条件…

RabbitMQ的基本介绍

什么是MQ 本质是一个队列&#xff0c;只不过队列中存放的信息是message罢了&#xff0c;还是一种跨进程的通信机制&#xff0c;用于上下游传递信息。在互联网架构中&#xff0c;MQ是一种非常常见的上下游“逻辑解耦物理解耦”的消息通信服务。使用了MQ之后&#xff0c;信息发送…

【简单的留言墙】HTML+CSS+JavaScript

目标&#xff1a;做一个简单的留言墙 1.首先我们用HTML的一些标签&#xff0c;初步构造区域 样式。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>留言墙</title><style>/* ...... */ …

STM32HAL库CRC学习及测试记录

STM32HAL库CRC学习及测试记录 1.CRC的校验原理2.基本原理3.几个基本概念13.1.1 CRC检验码的计算13.1.2 错误检测13.2 STM32中的CRC 4.CRC功能描述5.STM32Cube生成工程6.看官方说如何使用这个驱动程序7.实验现象 1.CRC的校验原理 循环冗余校验(CRC)计算单元是根据固定的生成多项…

pycharm 中的一个非常好使用的智能提示tabnine(大大提高代码的书写效率)

一. pycharm 中的代码智能提示插件 有时候,我们总是在写代码的时候,敲全部的代码,太过于麻烦了,如果有一个软件可以预知你的后续的操作,提前将代码给你写出来,你只需要检查对错,就可以了,这样就大大提高了工作的效率. 上面的一个插件是汉化pycharm的软件包,也是非常好用的一款…

Kafka收发消息核心参数详解

文章目录 1、从基础的客户端说起1.1、消息发送者主流程1.2、消息消费者主流程 2、从客户端属性来梳理客户端工作机制2.1、消费者分组消费机制 1、从基础的客户端说起 Kafka提供了非常简单的客户端API。只需要引入一个Maven依赖即可&#xff1a; <dependency><groupId…

lv7 嵌入式开发-网络编程开发 02OSI七层结构

目录 1 计算机网络体系结构的形成 1.1 提出了不同体系结构 1.2 国际标准&#xff1a;开放系统互连参考模型 OSI/RM 1.3 存在两种国际标准 2 协议与划分层次 2.1 网络协议 2.2 协议的两种形式 2.3 层次式协议结构 2.4 各层完成的主要功能 2.5 计算机网络的体系结构 …

大规模语言模型--训练成本

目前&#xff0c;基于 Transformers 架构的大型语言模型 (LLM)&#xff0c;如 GPT、T5 和 BERT&#xff0c;已经在各种自然语言处理 (NLP) 任务中取得了 SOTA 结果。将预训练好的语言模型(LM) 在下游任务上进行微调已成为处理 NLP 任务的一种 范式。与使用开箱即用的预训练 LLM…

jenkins联动显示或隐藏参数

1. 添加组件 Active Choices Plug-in 如jenkins无法联网&#xff0c;可在以下两个地址中下载插件&#xff0c;然后放到/home/jenkins/.jenkins/plugin下面重启jenkins即可 Active Choices Active Choices | Jenkins plugin 2. 效果如下&#xff1a; sharding为空时&#xf…

GEE15:获取不同遥感指数的时间序列及不同指数间的关系

GEE 1. 不同遥感指数间的时间序列分析2. 不同指数之间的关系 1. 不同遥感指数间的时间序列分析 GPP数据在一定程度上和植被指数&#xff08;如NDVI和EVI&#xff09;有着显著的相关性&#xff0c;那么其相关性如何&#xff1f;如何从时间序列的角度来思考呢&#xff1f;下面我将…

自动驾驶中的感知模型:实现安全与智能驾驶的关键

自动驾驶中的感知模型&#xff1a;实现安全与智能驾驶的关键 文章目录 引言感知模型的作用感知模型的技术安全与挑战结论 2023星火培训【专项营】Apollo开发者社区布道师倾力打造&#xff0c;包含PnC、新感知等的全新专项课程上线了。理论与实践相结合&#xff0c;全新的PnC培训…

大语言模型之十四-PEFT的LoRA

在《大语言模型之七- Llama-2单GPU微调SFT》和《大语言模型之十三 LLama2中文推理》中我们都提到了LoRA&#xff08;低秩分解&#xff09;方法&#xff0c;之所以用低秩分解进行参数的优化的原因是为了减少计算资源。 我们以《大语言模型之四-LlaMA-2从模型到应用》一文中的图…

vscode 打开后 默认terminal power shell 报错 名为“.C”的驱动器不存在。

这是 默认terminal power shell 打开报的错 Test-Path : 找不到驱动器。名为“.C”的驱动器不存在。 所在位置 C:\Users\HUAWEI\Documents\WindowsPowerShell\profile.ps1:4 字符: 5 If (Test-Path "C:\Users\HUAWEI\AppData\Local\Temp\_MEI319962\Scripts\ ... …