RNA-seq分析htseq-count的使用
RNA-seq分析htseq-count的使用
HTSeq作为一款可以处理高通量数据的python包,由Simon Anders, Paul Theodor Pyl, Wolfgang Huber等人携手推出HTSeq — A Python framework to work with high-throughput sequencing data。自发布以来就备受广大分析人员青睐,其提供了许多功能给那些熟悉python的大佬们去自信修改使用,同时也兼顾着给小白们提供了两个可以拿来可用的可执行文件 htseq-count(计数) 和 htseq-qa(质量分析)。
这里需要注意的是HTSeq作为read counts的计数软件,承接的是上游比对软件对于clean data给出的比对结果即bam文件(由sam文件sort得到),和HTSeq能行使同样作用的还有类似于GFold,bedtools等软件,我会在最后做一个基本的结果比对。
附manual
附油管视频讲解
HTSeq的安装
HTSeq安装
HTSeq使用注意事项
- HTSeq是对有参考基因组的转录组测序数据进行表达量分析的,其输入文件必须有SAM和GTF文件。
- 一般情况下HTSeq得到的Counts结果会用于下一步不同样品间的基因表达量差异分析,而不是一个样品内部基因的表达量比较。因此,HTSeq设置了-a参数的默认值10,来忽略掉比对到多个位置的reads信息,其结果有利于后续的差异分析。
- 输入的GTF文件中不能包含可变剪接信息,否则HTSeq会认为每个可变剪接都是单独的基因,导致能比对到多个可变剪接转录本上的reads的计算结果是ambiguous,从而不能计算到基因的count中。即使设置-i参数的值为transcript_id,其结果一样是不准确的,只是得到transcripts的表达量。
HTSeq的使用
#这里承接的是上游hisat2比对软件得到的bam文件,sort by pos, 所以需要重新sort
1 2 3 |
|
1 2 3 4 5 6 7 8 9 10 11 |
|
htseq-count 的三种比对模式
union, intersection-strict and intersection-nonempty 对照示意图可以选择自己需要的模式
我这里使用intersection_nonempty
mode
HTSeq的输出
HTSeq将Count结果输出到标准输出,其结果示例如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
GFold:另一个count matrix的提取工具
GFold是一款2012年同济大学的研究组发表在Bioinformatics 上的软件,旨在通过对于相对基因变化找出RNA-seq中表达差异的基因,同时也可以用作read count的计数。
安装
gfold.V1.1.4.tar.gzdownload解压后即可使用
使用
1 2 |
|
输出
output文件包含五列:
#说明很详细,这里不再翻译
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
output文件示例:
1 2 3 4 5 6 7 8 9 10 11 |
|
此处使用示例bam文件or sam文件和HTSeq的输入文件一致,但是结果出入还是较大的,此处仅作说明,不加以推荐。
Bedtools :再一个count matrix的提取工具
bedtools是一个极其老牌的数据处理软件了,由犹他大学一个实验室开发,我也是看了生信菜鸟团Jimmy的一篇文章才知道也可以用来计数的。
安装
1 2 |
|
使用
1 |
|
1 2 3 4 5 |
|
输出
标签: linux, RNA-seq
好文要顶 已关注 收藏该文
RNA-seq分析htseq-count的使用相关推荐
- 重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)
原文链接: https://www.embopress.org/doi/10.15252/msb.20188746 主编评语 这篇文章最好的地方不只在于推荐了工具,提供了一套分析流程,更在于详细介绍了 ...
- 一文掌握RNA seq,RNA seq课程大汇总
RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...
- 超详细解读带你读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)
Abstract 单细胞RNA-seq使研究者能够以前所未有的分辨率研究基因表达图谱.这一潜力吸引着更多科研工作者应用单细胞分析技术解决研究问题.随着可用的分析工具越来越多,如何组合成一个最新最好的数 ...
- 北林oj-算法设计与分析-Simple Count(C++,思路+代码)
描述 Count how many numbers do not contain 4 or 7 in the N numbers from 1 to N. 输入 Each test case star ...
- SQL难点对比分析:COUNT(IF) 和 SUM(IF)的区别
COUNT(IF) 和 SUM(IF) 的区别和联系: COUNT(IF xxx, 1, 0):无视条件求和,即统计0或者1的数量(因为不论0还是1,都是不为NULL的值) SUM(xxx, 1, 0 ...
- 一个R包完成单细胞基因集富集分析 (全代码)
singleseqgset | 单细胞RNA-Seq基因集富集分析 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (Ch ...
- 关于RNA-seq 的那点事Count 数的标准化 (一) RPKM 和FPKM,TPM及C(R)PM
图片来自网络 我们都知道,在RNA seq 测序的过程中,我们测完序的最终目的是想根据测序的结果,最终分析得到差异基因以及潜在可能的功能分析,那么在进行差异分析以及对表达量进行分析的时候,对基因原始的 ...
- 转录组分析丨一套完整的操作流程简单案例
" 今天分享的学习笔记是一套转录组分析简单流程,适用于初学者入门阅读,从原始测序数据开始,经过质控.序列比对.定量表达.差异表达.功能富集等一系列分析步骤,最终获得基因表达信息,制作出火山图 ...
- WGCNA分析,简单全面的最新教程(在线做,但也需要懂原理)
生信学习的正确姿势(第三版) NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序 ...
- WGCNA分析,简单全面的最新教程(可以在线做了)
生信学习的正确姿势(第三版) NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序 ...
最新文章
- 0x22.搜索 - 深度优先搜索
- 学机器学习有必要懂数学吗?深入浅出机器学习与数学的关系附教程
- ORM之SQLAlchemy
- 一个功能函数所具备的要素
- 成功解决Python3版UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0x90 in position 614: ordinal not in
- “阿里云 Cloud AIoT Native” 等你一“名”惊人
- leetcode 141. Linked List Cycle
- 使用Maven Failsafe和TestNG分别运行单元测试和集成测试
- python打开软件输入消息_用Python编写一个私人助理程序,为我们起草电子邮件!...
- 前端开发常用代码片段(下篇)
- 路西法第一季为什么会被打伤_《数码宝贝》第一季,为何只有亚古兽与加布兽会究极进化?...
- wordpress 首页调用指定分类文章_怎样给wordpress网站分类目录页面,添加文章列表和分页效果?...
- 马云盖茨入选最伟大25名抗疫领袖;周鸿祎卸任360金服;Node.js 14发布 | 极客头条...
- LCP 01. 猜数字
- MSP430学习小结3-MSP430基本时钟模块
- list 集合 分页 三种实现方式,include jdk8 --stream
- CodeBlocks(17.12) 代码调试基础方法快捷方式
- 微信朋友圈功能测试用例
- 设置只允许在微信里打开,做一个服务赞赏评价系统,提升服务质量,让员工更积极参与工作
- matlab实现QPSK调制解调
热门文章
- 我把自己的java库发布到了maven中央仓库,从此可以像Jackson、Spring的jar一样使用它了
- Apache Log4j Server 反序列化漏洞(CVE-2017-5645)
- 羲云社区团购微信小程序 活动详细页 (界面及功能设计)
- 2021-06-09
- 【路由篇】03. 远程设置并访问内网中二层路由的小米路由器
- 2017 云+未来峰会——上海站开发者专场即将开讲(30元电话充值卡等你拿)
- 4款好用的密码管理器,你值得拥有
- U盘格式化后如何恢复数据?
- 一缕黑暗中的火光-----------构件图--------------优雅的建模语言
- Unity 两张Texture叠加时用到的颜色混合