提交高通量测序处理数据到 GEO --- 操作流程

写在前面

由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书
2. 提交高通量测序原始数据到 SRA --- 操作流程


目录

  • 1 注册 NCBI 账号
  • 2 准备要上传的数据
    • 2.1 Raw data files
    • 2.2 Processed data files
    • 2.3 Metadata spreadsheet
  • 3 上传数据

在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 Processed data 到 GEO 的操作流程。

在进行操作之前,强烈建议先阅读我之前的推文:《提交高通量测序数据到 GEO --- 说明书》。里面详细介绍了要准备的文件和格式要求。

1 注册 NCBI 账号

首先需要登陆https://www.ncbi.nlm.nih.gov/account/注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:

alt

2 准备要上传的数据

进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/),按如下操作:① 选择 GEO DataSets、② 点击 Search、③ 点击 Submit to GEO、④ Submit high-throughput sequencing

alt
alt
alt

可以看到需要准备以下数据:1. Metadata spreadsheet、2. Processed data files、3. Raw data files

alt
2.1 Raw data files

Raw data 是测序数据的 fastq 文件,可以将 raw data 提交给 GEO,也可以直接提交给 SRA。但是 raw data 往往非常大,按照 GEO 推荐的 FileZilla 软件上传非常的慢,因此推荐用 Aspera 命令行直接将 raw data 上传到 SRAAspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s

关于如何将 raw data 上传到 SRA,可以查看我之前的推文:《提交高通量测序原始数据到 SRA --- 操作流程》

alt
2.2 Processed data files

Processed data 一般为比对后生成的 count matrix 文件。比如我这里为单细胞测序数据比对后的 cell-gene 矩阵的 csv 文件:

alt
2.3 Metadata spreadsheet

Metadata 是指有关研究、样本、方法以及对 processed data 和 raw data 文件名的引用的描述性信息。GEO 中提供了两种模板,由于我这里选择将 raw data 提交到 SRA,因此选择 "Download metadata spreadsheet with SRA accessions"。

alt
2.3.1 STUDY

STUDY 部分介绍研究的整体概况。STUDY 部分提供的信息将在公共网页上的 GEO Series(GSE record)中显示。

alt
  • title:标题,可以是发表文章的标题。
  • summary(abstract):摘要,可以是发表文章的摘要。
  • experimental design:实验设计,描述 submission 中包括的样本类型,已经实验条件和变量。包括分析什么类型样本、是否包括复制、是否有对照和/或参考样本等。不包括 protocols/methods。可以参照 EXAMPLE sheets 填写。
  • contributor:作者,例如 Yixin, Wang,每个作者都在单独的一行上。
  • supplementary file:补充文件,如果您提交的 processed data 文件对应于多个样本。例如:fpkms_allsamples.txt。该文件应该具有与 metadata SAMPLES 中的唯一描述符匹配的唯一列名(例如,"library name")。single-cell submissions 除外。
  • BioProject:BioProject accession,例如:PRJNA123456
2.3.2 SAMPLES

SAMPLES 部分是对样本的描述。SAMPLES 部分提供的信息将在公共网页上的 GEO Samples(GSM records)中显示。

注意:*为必填项,**为至少选择一项填写

alt
alt
  • library name:文库名称,必须唯一,如 Sample1、Sample2...
  • title:样本名称,必须唯一,建议使用以下约定: [biomaterial][condition(s)][replicate number],例如: Muscle, exercised,60min, rep2
  • organism:物种,如 Mus musculus
  • BioSample:BioSample accessions,如 SAMN123456
  • SRA Experiment or Run:SRX/SRR accessions,如 SRR123456
  • tissue:组织,如 Distal colon
  • cell line:细胞系,如 C3H 10T1/2
  • cell type:细胞类型,如 mesenchymal stem cells
  • genotype:基因型,如 WT、KDM4D knockdown
  • treatment:处理,如 adipogenic differentiation
  • molecule:分子类型,选择以下之一:total RNA、polyA RNA、cytoplasmic RNA、nuclear RNA、genomic DNA、protein、other
  • single or paired-end:测序类型,选择 single 或 paired-end
  • instrument model:仪器型号,如 Illumina NovaSeq 6000。
  • description:描述信息,可选的,其他选项中没有提供的额外信息。或者,如果您提交的矩阵包含多个样品的 processed data (例如,所有 RNA-Seq 样品的 Counts.txt),请在此处列出矩阵列名称。
  • processed data file:包含 processed data 的文件的确切名称。例如:HeLa_H3K4me3.bw。可以为多个样本列出相同的处理文件。如果一个样本存在多个处理文件,则可以包括多个 'processed data file' 列。
2.3.3 PROTOCOLS

PROTOCOLS 部分是对实验方法的描述。PROTOCOLS 部分提供的信息将出现在每个 GEO Sample(GSM record)中。

alt
  • growth protocol:可选项,描述在提取前用于培养或维持生物体或细胞的条件。
  • treatment protocol:可选项,描述在提取制备之前对生物材料进行的处理。
  • extract protocol:必填项,描述用于提取和准备待测序材料的方法。
  • library construction protocol:必填项,描述文库构建方法。
  • library strategy:必填项,描述每个文库的测序技术,如 RNA-Seq。
  • data processing step:必填项,提供有关如何生成 processed data 文件的详细信息。步骤可能包括:基本调用软件、版本、参数;数据过滤步骤;Read 比对软件版本、参数;额外的处理软件(例如,peak-calling, abundancemeasurement)、版本、参数;等。
  • genome build/assembly:必填项,UCSC或NCBI基因组构建号(例如,hg18、mm9、human NCBI genome build 36 ...),或用于 read 比对的参考序列。
  • processed data files format and content:必填项,对于每种 processed data 文件类型,提供格式和内容的描述。如 Tab-separated values files and matrix files。
2.3.4 MD5 Checksums

在填写完 Metadata 页面后,还需要在 MD5 Checksums 页面填写所有 processed data 文件的 MD5 校验码。checksums 可以使用以下方法计算:

  • Unix: md5sum <file>
  • OS X: md5 <file>
  • Windows: Windows Command Processor (cmd): certutil -hashfile <file> MD5

这里以 Windows 上命令行为例:

打开 cmd,输入以下命令:certutil -hashfile "F:\path\Sample1_expression_matrix.csv" MD5

alt

将文件名和生成的MD5码填入表格:

alt

3 上传数据

点击 Transfer files 开始上传数据。

alt

进入后可以看到上传数据的个人空间地址,以及 FTP 服务器账号和密码。

alt

下载 GEO 推荐的第三方文件传输软件 FileZila Client,下载地址:https://filezilla-project.org/download.php?show_all=1

下载后按下图操作:① 输入主机地址、用户名、密码;② 点击快速连接;③ 输入个人空间地址;④ 找到需上传文件地址;⑤ 将需上传文件拖拽到此处

alt

可以看到上传速度非常慢(0.5Mb/s),需要等待很长时间。这也是为什么不推荐将原始 fastq 文件上传到 GEO。荐用 Aspera 命令行直接将 fastq 文件上传到 SRA,上传速度可达 100Mb/s

数据上传完成之后,上传 metadata 文件:

alt

选择前面填写的 metadata Excel 文件,选择发布日期,然后点 Submit 提交。

alt

一般提交后一天内就会收到邮件,看到 GEO 编号,状态为 resolved,就表示数据提交成功了。邮件中还提供了后续如何更改信息,以及更改发布日期的相关连接。

alt

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1488434.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

tcache attack

Tcache Attack tcache让堆利用更加简单&#xff1a; tcache回顾&#xff1a; 在 tcache 中新增了两个结构体&#xff0c;分别是 tcache_entry 和 tcache_perthread_struct&#xff1a; /* We overlay this structure on the user-data portion of a chunk when the chunk is …

如何安全的申请SSL证书

随着数字化时代的快速发展&#xff0c;互联网政务应用已成为政府服务民众、提升治理效能的重要途径。在这个网络日益复杂的时代&#xff0c;政务网站的安全问题显得尤为重要。2024年&#xff0c;国家出台并从2024年7月1日开始实施执行《互联网政务应用安全管理规定》&#xff0…

使用 XRDP 远程linux主机

一、简介 XRDP是一个开源的远程桌面协议&#xff08;Remote Desktop Protocol,RDP&#xff09;服务器&#xff0c;采用的是标准的RDP。 官网地址&#xff1a;https://www.xrdp.org/ github地址&#xff1a; https://github.com/neutrinolabs/xrdp/releases XRDP也是C/S架构&…

LLM及GPT知识点

工欲善其事必先利其器&#xff0c;在了解大语言模型和GPT之前先要了解基本概念。 LLM Large Language Model (LLM) 即大型语言模型&#xff0c;也叫大语言模型&#xff0c;是一种基于深度学习的自然语言处理&#xff08;NLP&#xff09;模型&#xff0c;它能够学习自然语言的语…

汇昌联信科技拼多多怎么样?

汇昌联信科技拼多多怎么样?汇昌联信科技是一家专注于提供电子商务解决方案的公司&#xff0c;其业务涉及多个电商平台&#xff0c;其中就包括了国内知名的电商平台——拼多多。对于汇昌联信科技在拼多多上的表现&#xff0c;我们可以从以下几个方面来进行深入的探讨和分析。 一…

网站用HTTP访问的危害以及如何升级HTTPS访问

在互联网世界中&#xff0c;数据传输的安全性是至关重要的。我们每天都在网络上进行各种操作&#xff0c;从浏览网页、购物到银行转账&#xff0c;每一项活动都涉及敏感信息的传递。然而&#xff0c;在这个过程中&#xff0c;我们的数据可能面临被窃取、篡改或滥用的风险。这正…

git实践汇总【配置+日常使用+问题解决】

**最初配置步骤&#xff1a;** git config --global user.name "yournemae" git config --global user.email "yourmail" git config -l ssh-keygen -t rsa -C “xxx.xxxx.EXTcccc.com” git config --global ssh.variant ssh $ git clone git仓库路径 git…

掌握AJAX技术:从基础到实战

文章目录 **引言****1. 什么是AJAX&#xff1f;****2. AJAX的工作原理**AJAX 示例使用 Fetch API 实现 AJAX **3. 如何在项目中使用AJAX****4. 处理AJAX请求的常见问题****5. AJAX与JSON的结合****6. 使用AJAX框架和库****7. 实战&#xff1a;创建一个动态表单****8. AJAX中的事…

PostgreSQL性能优化之体系结构

本文介绍 PostgreSQL 数据库的体系结构&#xff0c;包括实例结构&#xff08;进程与内存&#xff09;、存储结构&#xff08;物理与逻辑&#xff09;以及插件式存储引擎。 实例与数据库聚簇 PostgreSQL 使用典型的客户端/服务器&#xff08;Client/Server&#xff09;架构&am…

JVM调优与监控命令概览

JVM调优与监控命令概览 1. jps - JVM Process Status Tool2. jstat - JVM Statistics Monitoring Tool3. jmap - JVM Memory Map Tool4. jhat - JVM Heap Analysis Tool5. jstack - Stack Trace for Java Threads6. jinfo - JVM Configuration Information &#x1f496;The B…

厚积薄发,详解 IoTeX 2.0 如何推动 DePIN 赛道迈向新台阶

背 景 DePIN 是加密货币行业的一个新兴垂直领域&#xff0c;也是本轮牛市最重要的叙事之一。DePIN 通常通过发行和分配代币来激励参与者&#xff0c;用户可以通过提供资源、维护网络、参与治理等方式获得代币奖励并产生直接的经济收益&#xff0c;从而重新洗牌财富分配方…

安卓嘀嗒清单v7.2.2.2高级版

软件介绍 TickTick是一款轻便高效的任务管理、日程管理&#xff08;GTD&#xff09;和时间管理应用&#xff0c;配备强大的记事和提醒功能。你可以在手机、平板、网页等多达11个平台上使用滴答清单记录大小事务、制定工作计划、整理购物清单、设置生日提醒&#xff0c;甚至安排…

分布式相关理论详解

目录 1.绪论 2.什么是分布式系统&#xff0c;和集群的区别 3.CAP理论 3.1 什么是CAP理论 3.2 一致性 3.2.1 计算机的一致性说明 1.事务中的一致性 2.并发场景下的一致性 3.分布式场景下的一致性 3.2.2 一致性分类 3.2.3 强一致性 1.线性一致性 a) 定义 a) Raft算法…

C语言 | Leetcode C语言题解之第290题单词规律

题目&#xff1a; 题解&#xff1a; typedef struct node_t {char *key;char *value;struct node_t* pnext; }NODE_T;typedef struct hash_t {NODE_T** hash_list;int size; }HASH_T;HASH_T *hash_init(int size) {HASH_T *hash (HASH_T *)malloc(sizeof(HASH_T));if(NULL h…

蚂蚁集团Android一面凉经(2024)

蚂蚁集团Android一面凉经(2024) 笔者作为一名双非二本毕业7年老Android, 最近面试了不少公司, 目前已告一段落, 整理一下各家的面试问题, 打算陆续发布出来, 供有缘人参考。今天给大家带来的是《蚂蚁集团Android一面凉经(2024)》。 面试职位: 蚂蚁集团-Android/iOS开发工程师-支…

documents4j 将word转pdf文件,本地(Windows)测试没问题,部署到服务器(centos)报错

问题 报错如下&#xff1a; 代码 首先要保证你的Java代码没问题&#xff0c;可以参考下面代码 maven依赖 <!--documents4j--> <dependency><groupId>com.documents4j</groupId><artifactId>documents4j-local</artifactId><versi…

java之继承

继承&#xff08;Inheritance&#xff09;&#xff1a;一个类可以继承另一个类的属性和方法&#xff08;不支持多继承&#xff09;&#xff0c;这个被继承的类称为父类&#xff08;或超类、基类&#xff09;&#xff0c;继承它的类称为子类&#xff08;或派生类&#xff09;。 …

唯众物联网(IOT)全功能综合实训教学解决方案

一、引言 在信息技术日新月异的今天&#xff0c;物联网&#xff08;IoT&#xff09;作为推动数字化转型的关键力量&#xff0c;其触角已延伸至我们生活的方方面面&#xff0c;深刻地重塑了工作模式、生活习惯乃至社会结构的每一个角落。面对这一前所未有的变革浪潮&#xff0c…

CVE-2024-39700 (CVSS 9.9):JupyterLab 模板中存在严重漏洞

在广泛使用的 JupyterLab 扩展模板中发现了一个严重漏洞&#xff0c;编号为CVE-2024-39700 。此漏洞可能使攻击者能够在受影响的系统上远程执行代码&#xff0c;从而可能导致大范围入侵和数据泄露。 该漏洞源于在扩展创建过程中选择“测试”选项时自动生成“update-integratio…

InternLM学习笔记

入门岛 1. Linux基础知识 2. Python 基础知识 from collections import Countertext """ Got this panda plush toy for my daughters birthday, who loves it and takes it everywhere. Its soft and super cute, and its face has a friendly look. Its a …