hisat2安装与使用(v2.2.1)bioinfomatics tools 33

01 背景

概述

HISAT2 是一种快速且灵敏的比对程序,可用于将下一代测序读段(全基因组、转录组和外显子组测序数据)比对到人类基因组群体(也可比对到单一参考基因组)。基于对图的 BWT 扩展[1],我们设计并实现了图 FM 索引(GFM),这是一种原创方法,并据我们所知首次实现。除了使用一个代表总体的全局 GFM 索引外,HISAT2 还使用了一大组覆盖整个基因组的小 GFM 索引(每个索引代表一个 56 Kbp 的基因组区域,共需 55,000 个索引来覆盖人类群体)。这些小索引(称为局部索引)结合多种比对策略,可以有效地进行测序读段的比对。这种新的索引方案被称为分层图 FM 索引(HGFM)。我们基于 HISAT [2] 和 Bowtie 2 [3] 的实现开发了 HISAT2。更多信息请参见 HISAT2 网站。

同样的软件

minimap2安装与使用(v 2.28)生物信息学工具26

LASTZ v1.04.22安装与使用-Bioinformatics工具-028

bwa安装及使用(生物信息学工具-018)

Bowtie2安装与使用-bowtie2-2.5.2(bioinfomatics tools-011)

Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)

02 参考
https://daehwankimlab.github.io/hisat2/download/    #官网 #version-hisat2-221https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download   #win直接下载
03 安装
git clone https://github.com/DaehwanKimLab/hisat2.git
cd hisat2
makewget -c https://github.com/DaehwanKimLab/hisat2/archive/refs/tags/v2.2.1.tar.gz
#conda install bioconda::hisat2
04 使用
HISAT2 版本 2.2.1 由 Daehwan Kim 开发 (infphilo@gmail.com, www.ccb.jhu.edu/people/infphilo)****使用方法:**  hisat2 [选项]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA 访问编号>} [-S <sam>]- `<ht2-idx>`: 索引文件名前缀(不包括 .X.ht2 后缀)。
- `<m1>`: 与 `<m2>` 中文件配对的 #1 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<m2>`: 与 `<m1>` 中文件配对的 #2 mates 文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<r>`: 未配对的读段文件,可为 gzip 压缩 (.gz) 或 bzip2 压缩 (.bz2)。
- `<SRA accession number>`: SRA 访问编号的逗号分隔列表,例如 `--sra-acc SRR353653,SRR353654`。
- `<sam>`: SAM 输出文件(默认:标准输出)。`<m1>`、`<m2>`、`<r>` 可以是无空格的逗号分隔列表,且可以多次指定,例如 `-U file1.fq,file2.fq -U file3.fq`。**选项(默认值在括号中):****输入:**
- `-q`                输入文件为 FASTQ 格式 .fq/.fastq(默认)
- `--qseq`            输入文件为 Illumina 的 qseq 格式
- `-f`                输入文件为(多重)FASTA 格式 .fa/.mfa
- `-r`                输入文件为原始单序列每行的格式
- `-c`                `<m1>`、`<m2>`、`<r>` 为序列本身,而不是文件
- `-s/--skip <int>`   跳过输入中的前 `<int>` 个读段/配对(无)
- `-u/--upto <int>`   处理前 `<int>` 个读段/配对后停止(无上限)
- `-5/--trim5 <int>`  从读段的 5'/左端修剪 `<int>` 个碱基(0)
- `-3/--trim3 <int>`  从读段的 3'/右端修剪 `<int>` 个碱基(0)
- `--phred33`         质量值为 Phred+33(默认)
- `--phred64`         质量值为 Phred+64
- `--int-quals`       质量值为空格分隔的整数
- `--sra-acc`         SRA 访问 ID**预设:** 与以下选项相同:
- `--fast`            `--no-repeat-index`
- `--sensitive`       `--bowtie2-dp 1 -k 30 --score-min L,0,-0.5`
- `--very-sensitive`  `--bowtie2-dp 2 -k 50 --score-min L,0,-1`**比对:**
- `--bowtie2-dp <int>` 使用 Bowtie2 的动态规划比对算法 (0) - 0: 无动态规划, 1: 有条件动态规划, 2: 无条件动态规划(最慢)
- `--n-ceil <func>`    函数用于限制比对中允许的非 A/C/G/T 数量 (L,0,0.15)
- `--ignore-quals`     将所有质量值视为 Phred 量表上的 30(关闭)
- `--nofw`             不比对读段的正向(原始)版本(关闭)
- `--norc`             不比对读段的反向互补版本(关闭)
- `--no-repeat-index`  不使用重复索引**拼接比对:**
- `--pen-cansplice <int>`              规范剪接位点的惩罚 (0)
- `--pen-noncansplice <int>`           非规范剪接位点的惩罚 (12)
- `--pen-canintronlen <func>`          对具有规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--pen-noncanintronlen <func>`       对具有非规范剪接位点的长内含子的惩罚 (G,-8,1)
- `--min-intronlen <int>`              最小内含子长度 (20)
- `--max-intronlen <int>`              最大内含子长度 (500000)
- `--known-splicesite-infile <path>`   提供已知剪接位点列表
- `--novel-splicesite-outfile <path>`  报告剪接位点列表
- `--novel-splicesite-infile <path>`   提供新发现的剪接位点列表
- `--no-temp-splicesite`               禁用发现的剪接位点
- `--no-spliced-alignment`             禁用拼接比对
- `--rna-strandness <string>`          指定链特异性信息(无特异性)
- `--tmo`                              仅报告已知转录组内的比对
- `--dta`                              报告适合转录组装配程序的比对
- `--dta-cufflinks`                    报告特别适合 cufflinks 的比对
- `--avoid-pseudogene`                 尝试避免将读段比对到假基因(实验选项)
- `--no-templatelen-adjustment`        禁用 RNA-seq 读段的模板长度调整**得分:**
- `--mp <int>,<int>`   错配的最大和最小惩罚;质量越低,惩罚越低 <6,2>
- `--sp <int>,<int>`   软剪切的最大和最小惩罚;质量越低,惩罚越低 <2,1>
- `--no-softclip`      禁用软剪切
- `--np <int>`         读段/参考中的非 A/C/G/T 惩罚 (1)
- `--rdg <int>,<int>`  读段间隙的开启和延伸惩罚 (5,3)
- `--rfg <int>,<int>`  参考间隙的开启和延伸惩罚 (5,3)
- `--score-min <func>` 最小可接受的比对得分与读段长度有关 (L,0.0,-0.2)**报告:**
- `-k <int>`            搜索每个读段的最多 `<int>` 个不同的主要比对。主要比对指得分等于或高于其他比对的比对。
- `--max-seeds <int>`   控制将延伸的最大种子数量。
- `-a/--all`            报告所有可以找到的比对。
- `--repeat`            直接报告与重复序列的比对。**双端:**
- `-I/--minins <int>`   最小片段长度 (0),仅在 `--no-spliced-alignment` 时有效
- `-X/--maxins <int>`   最大片段长度 (500),仅在 `--no-spliced-alignment` 时有效
- `--fr/--rf/--ff`      -1, -2 mates 分别比对于正/反,反/正,正/正(默认 `--fr`)
- `--no-mixed`          抑制成对读段的非配对比对
- `--no-discordant`     抑制成对读段的不同步比对**输出:**
- `-t/--time`            打印搜索阶段所花费的时间
- `--un <path>`          将未比对的单端读段写入 `<path>`
- `--al <path>`          将至少比对一次的单端读段写入 `<path>`
- `--un-conc <path>`     将未协调比对的双端读段写入 `<path>`
- `--al-conc <path>`     将至少协调比对一次的双端读段写入 `<path>`
- `--summary-file <path>` 打印比对总结到该文件。
- `--quiet`              除严重错误外,不打印任何内容到 stderr
- `--new-summary`        以新格式打印比对总结,格式更易于机器读取。**性能:**
- `-o/--offrate <int>`  覆盖索引的 offrate,必须 >= 索引的 offrate
- `-p/--threads <int>`  启动的比对线程数量 (1)
- `--reorder`           强制 SAM 输出顺序与输入读段顺序匹配
- `--mm`                为索引使用内存映射 I/O,多次 'hisat2' 可共享**其他:**
- `--qc-filter`        过滤掉根据 QSEQ 过滤器为不良的读段
- `--seed <int>`       随机数生成器的种子 (0)
- `--non-deterministic` 任意种子随机生成器,而不是使用读段属性
- `--remove-chrname`   在比对中删除参考名称中的 'chr'
- `--add-chrname`      在比对中将 'chr' 添加到参考名称中
- `--version`          打印版本信息并退出
- `-h/--help`          打印此使用说明

他遇到fq.gz文件会报错,解压即可

解压zip、tar、gz文件--linux003

05 常用命令行
构建索引`hisat2-build` 用于从一组 DNA 序列中构建 HISAT2 索引。`hisat2-build` 会输出一组具有后缀 `.1.ht2`、`.2.ht2`、`.3.ht2`、`.4.ht2`、`.5.ht2`、`.6.ht2`、`.7.ht2` 和 `.8.ht2` 的文件。在大索引的情况下,这些后缀会以 `ht2l` 结尾。这些文件共同构成索引,是将读段比对到参考序列所需的全部内容。一旦索引建立,HISAT2 不再使用原始的序列 FASTA 文件。ISAT2 索引构建示例:hisat2-build genome.fa genome使用 HISAT2 进行比对HISAT2 比对的示例:1. **单端 FASTA 读段 DNA 比对:**```bashhisat2 -f -x genome -U reads.fa -S output.sam --no-spliced-alignment```2. **双端 FASTQ 读段比对:**```bashhisat2 -x genome -1 reads_1.fq -2 reads_2.fq -S output.sam```
06 参考文献

[1] Sirén J, Välimäki N, Mäkinen V (2014) Indexing graphs for path queries with applications in genome research. IEEE/ACM Transactions on Computational Biology and Bioinformatics 11: 375–388. doi: 10.1109/tcbb.2013.2297101

[2] Kim D, Langmead B, and Salzberg SL HISAT: a fast spliced aligner with low memory requirements, Nature methods, 2015

[3] Langmead B, Salzberg SL: Fast gapped-read alignment with Bowtie 2. Nat Methods 2012, 9:357-359

Kim, D., Paggi, J.M., Park, C. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37, 907–915 (2019). Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype | Nature Biotechnology

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/147123.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

盘点3款.NetCore(C#)开源免费商城系统

CoreShop商城 介绍 核心商城系统&#xff08;CoreShop&#xff09; 是基于 Asp.Net 8.0、Uni-App开发、支持可视化布局的小程序商城系统&#xff1b;前后端分离&#xff0c;支持跨平台运行&#xff1b;拥有分销、代理、团购秒杀、接龙、拼团、直播、优惠券、自定义表单等众多营…

为什么用迭代器调用不了对象中的函数

没加const可以 加了const就不行 我懂了 加了const v的值就不能修改&#xff0c;我的那些函数都可以修改值 应该是 好像不对 有大佬会吗

直通滤波-PassThrough Filter-原理-代码实现

前言 对坐标轴上的上下限进行约束&#xff0c;选取其中符合范围的点云区域使用场景&#xff1a;去除噪声点&#xff0c;关注特定区域&#xff0c;减小计算量 工作流程 假设我们要在 d d d 轴&#xff08; d ∈ { x , y , z } d \in \{x, y, z\} d∈{x,y,z} &#xff09;上…

yolov5足球运动分析-速度分析-足球跟踪

足球分析项目 引言 在现代体育分析领域&#xff0c;利用先进的计算机视觉技术和机器学习模型对比赛视频进行深入解析已成为一种趋势。本项目旨在通过YOLO&#xff08;You Only Look Once&#xff09;这一顶级的人工智能目标检测模型来识别并跟踪足球比赛中的球员、裁判以及足球…

软件开发详解:通过源码搭建高效的食堂采购与供应链管理平台

通过源码构建定制化的系统&#xff0c;能够让企业根据自身需求灵活调整功能&#xff0c;打造符合其业务流程的高效管理平台。接下来&#xff0c;小编将详细介绍如何通过源码搭建一套高效的食堂采购与供应链管理平台&#xff0c;并分析其在技术架构、功能实现及优化策略方面的关…

大模型入门 ch04:实现一个GPT模型

本文是github上的大模型教程LLMs-from-scratch的学习笔记&#xff0c;教程地址&#xff1a;教程链接 LLM大模型主要是参数量大&#xff0c;而不是代码量大。 这是本节的具体内容 首先实现一个GPT的骨架分别实现GPT骨架内的各个部分&#xff0c;包括LayerNorm&#xff0c;GELU,…

有什么好用的电容笔?2024总结apple pencil平替笔排名TOP五!

在这个信息高度发展的社会&#xff0c;iPad等触控设备日益普及&#xff0c;电容笔的市场需求也不断扩大&#xff0c;因为它们在一定程度上可以替代传统的笔和纸&#xff0c;携带它们就无需携带厚重的书本&#xff0c;这种环保、便捷、方便的特点吸引了越来越多的用户。但电容笔…

动态线程池(五)

动态线程池 Filter过滤器 AlarmBaseFilter NoticeBaseFilter NotifyRedisTateLimiterFilter RedisRateLimiter redis限流器 NotifierHandler DtpNotifier动态线程池通知者 Notifier通知者 关于发送Email消息的额外说明

分布式Id生成策略-美团Leaf

之前在做物流相关的项目时候&#xff0c;需要在分布式系统生成运单的id。 1.需求&#xff1a; 1.全局唯一性&#xff1a;不能出现重复的ID。&#xff08;基本要求&#xff09; 2.递增&#xff1a;大多数关系型数据库&#xff08;如 MySQL&#xff09;使用 B 树作为索引结构。…

三菱FX3U-4DA(4通道模拟量输出)使用说明

FX3U-4DA连接在FX3G/FX3GC/FX3U/FX3UC可编程控制器上&#xff0c;是将来自可编程控制器的4个通道的数字值转换成模拟量值(电压/电流)并输出的模拟量特殊功能模块。 1、FX3G/FX3GC/FX3U/FX3UC可编程控制器上最多可以连接8台*1(包括其它特殊功能模块的连接台数。) 2、可以对各通道…

Global Attention Decoder for Chinese Spelling Error Correction(ACL2021)

Global Attention Decoder for Chinese Spelling Error Correction(ACL2021) 一.概述 作者认为现有的纠错方法大多是基于局部上下文信息进行纠错&#xff0c;没有考虑句子中错词的影响。将注意力放在错误上下文信息上可能会误导并降低CSC(Chinese Spelling Correction)的整体性…

shopro前端 短信登录只显示模板不能正常切换

删掉 换成下面的代码 // 打开授权弹框 export function showAuthModal(type smsLogin) {const modal $store(modal);setTimeout(() > {modal.$patch((state) > {state.auth type;});}, 100); }

数据集 InterHand2.6M 双手交互 三维手势建模 >> DataBall

数据集 InterHand2.6M 双手交互 三维手势建模 人工智能 深度学习 >> DataBall 数据集 InterHand2.6M&#xff0c;双手/单手交互 ---------------------------------------------------------------------------------------------------------- Train set * Train (H):…

MybatisPlus代码生成器使用

一、前言 Mybatis逆向工程也可以生成代码&#xff0c;但配置太过复杂&#xff0c;不便于后期维护&#xff0c;Mybatis Plus 主动集成了代码的自动生成&#xff0c;用起来也很方便&#xff0c;两种代码自动生成我都用过&#xff0c;没有好坏之分&#xff0c;如果非要我推荐哪一…

跨游戏引擎的H5渲染解决方案(腾讯)

本文是腾讯的一篇H5 跨引擎解决方案的精炼。 介绍 本文通过实现基于精简版的HTML5&#xff08;HyperText Mark Language 5&#xff09;来屏蔽不同引擎&#xff0c;平台底层的差异。 好处&#xff1a; 采用H5的开发方式&#xff0c;可以将开发和运营分离&#xff0c;运营部门自…

一个安卓鸿蒙化工具

DevEco插件&#xff0c;为已有安卓项目鸿蒙化加速。 目前支持&#xff1a; 1、安卓Vector Assets转svg&#xff1b; 2、json转ets model&#xff1b; 3、kotlin model转ets model&#xff1b; 下载地址&#xff1a;andtoharplugin1.1.0 安装&#xff1a; deveco插件安装选硬…

傻白甜萌妹爆改成长型女主!男频番的花瓶也有高光?

“师父&#xff0c;师妹不是任何人的依附&#xff0c;也不是小琼峰的一个摆件。” 能说出这句话的男主&#xff0c;堪称人间清醒。 男频作品的女性塑造向来是备受瞩目的话题。“镶边”、“挂件”、“花瓶”…总有这样的标签一个个打在“她们”身上&#xff0c;看似暗讽&#…

seL4 Untyped(二)

链接: Untyped Untyped 这篇主要是针对seL4物理内存管理的介绍。 物理内存 在seL4系统中&#xff0c;除了内核占用的一小部分静态内存之外&#xff0c;其他的所有的物理内存都是用户一级管理的。seL4在启动时创建的对象能力&#xff0c;以及seL4管理的其余物理资源&#xf…

tensorflow底层架构

tensorflow底层架构 架构图 Training libraries 和 Inference libs&#xff08;训练库和推理库&#xff09; Training libraries&#xff1a;用于模型的训练过程&#xff0c;包括定义模型、计算梯度、更新模型权重等。这些库提供了在训练过程中所需的所有功能。Inference lib…

推荐几本值得阅读的书籍!

大家好&#xff0c;这里是大话硬件。 初次关注我公众号的朋友第一反应基本都是认为内容太专业&#xff01; 其实不然&#xff0c;大话硬件公众号除了有硬件设计方面的内容&#xff0c;还包含书籍推荐&#xff0c;个人反思总结模块等内容。 今天这篇文章继上篇荐书《相见恨晚的…