使用mirDeep2进行miRNA-seq数据分析
软件安装
首先从GitHub上下载最新的miRDeep2
git clone https://github.com/rajewsky-lab/mirdeep2.git mirdeep2.0.1.2
cd mirdeep2.0.1.2/
使用install.pl
脚本进行安装
perl install.pl
会有如下的提示信息
可以按照他的要求,直接使用source ~/.bashrc
加载环境变量,然后再次运行perl install.pl
就会帮你解决依赖关系,依赖工具如下
- bowtie short read aligner
- Vienna package with RNAfold
- SQUID library
- randfold
- Perl package PDF::API2
数据分析流程
miRDeep2处理数据主要用到了三个脚本: miRDeep2.pl
, mapper.pl
和quantifier.pl
, 需要提供如下的数据集:
- 参考基因组的FASTA文件
- miRBase中该物种的成熟miRNA
- mRBase中该物种的前体miRNA
- 高通量测序结果的FASTA文件
假如你已经有了如下文件
文件名 | 描述信息 |
---|---|
cel_cluster.fa
|
参考基因组的FASTA文件 |
mature_ref_this_species.fa
|
miRBase中该物种的成熟miRNA |
mature_ref_other_species.fa
|
miRBase中该物种邻近物种的成熟miRNA |
precursors_ref_this_species.fa
|
mRBase中该物种的前体miRNA |
reads.fa
|
高通量测序结果的FASTA文件 |
第一步: 建立索引
bowtie-build cel_cluster.fa cel_cluster
第二步: 将read回帖到参考基因组
mapper.pl reads.fa -c -j -k TCGTATGCCGTCTTCTGCTTGT -l 18 -m -p cel_cluster \-s reads_collapsed.fa -t reads_collapsed_vs_genome.arf -v
各个参数的含义如下:
- -c: 表示输入文件是fasta,
- -e fastq: 表示输入文件是fastq
- -h 如果不是fasta,用该参数处理成fasta
- -j 移除ATCGUNatcgun以外的字符
- -k: 表示去除接头序列
- -l 18 剔除长度在18 bp以下的序列
- -m 合并相同的reads
- -p bowite索引
- -s 处理后的read
- -t 处理后比对文件
- -d 如果要处理多个样本,则指定配置文件
第三步(可选): 快速进行定量。如果不需要预测新的miRNA, 可以用直接用miRBase数据库进行定量
quantifier.pl -p precursors_ref_this_species.fa -m mature_ref_this_species.fa \-r reads_collapsed.fa -t cel -y 16_19
输出结果为miRNA_expressed.csv
, 记录每个样本的每个miRNA的count数,结果同样可以用网页打开expression_16_19.html
查看
第四步: 鉴定新的miRNA,并进行定量
miRDeep2.pl reads_collapsed.fa cel_cluster.fa reads_collapsed_vs_genome.arf \mature_ref_this_species.fa mature_ref_other_species.fa \precursors_ref_this_species.fa -t C.elegans 2> report.log
这一步要求的参考基因组的序列不能有'ATCGN'以外的字符,没遇到报错就万事大吉,遇到报错就用
tr
解决吧
第五步: 浏览结果
最后可以打开results.html查看结果。
参考资料
https://github.com/rajewsky-lab/mirdeep2/blob/master/TUTORIAL.md
使用mirDeep2进行miRNA-seq数据分析相关推荐
- miRNA数据分析专题
欢迎关注"生信修炼手册"! miRNA是一类长度在18到36bp的非编码RNA, 其功能属于转后后修饰调控,主要通过和mRNA的3'UTR区进行结合,结合区域称之为`seed`,当 ...
- mirdeep2识别novel miRNA
欢迎关注"生信修炼手册"! 得益于NGS测序技术和生物信息学的发展,我们可以通过NGS测序数据识别新的miRNA,大大加快了miRNA的研究进程. mirdeep2这个软件不仅可以 ...
- R循环有两个_R语言数据分析与挖掘(第九章):聚类分析(2)——层次聚类
层次聚类(hierarchical clustering)基于簇间的相似度在不同层次上分析数据,从而形成树形的聚类结构,层次聚类一般有两种划分策略:自底向上的聚合(agglomerative)策略和自 ...
- miRDeep2 学习及安装篇
一.mirDeep2安装 下载和解压 wget http://mdc.helmholtz.de/38350089/en/research/research_teams/systems_biology_ ...
- 8 个 Python 高效数据分析的技巧
(给视学算法加星标,提升数据技能) 编译:专知/Yingying, Jiahui,英文原作:Conor Dewey 不管是参加Kaggle比赛,还是开发一个深度学习应用,第一步总是数据分析,这篇文章介 ...
- 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark ...
- linux shell 宏定义_Linux系统和Shell命令行简介,走上数据分析之路
122Linux系统和Shell命令行简介,走上数据分析之路 本节作者:刘永鑫 中国科学院遗传与发育生物学研究所 版本1.0.2,更新日期:2020年8月31日 本项目永久地址:https://git ...
- 遗传:微生物组数据分析方法与应用
本文版权归<遗传>杂志,已获授权,转载请联系杂志社 微生物组数据分析方法与应用 刘永鑫1,2,秦媛1,2,3,郭晓璇1,2,白洋1,2,3 1. 中国科学院遗传与发育生物学研究所,植物基因 ...
- 送你8个Python高效数据分析的技巧(附代码)
来源:专知 本文共1300字,建议阅读5分钟. 本文介绍的数据分析方法,不仅能够提升运行效率,还能够使代码更加"优美". 不管是参加Kaggle比赛,还是开发一个深度学习应用,第一 ...
最新文章
- 人的一生有三件事不能等
- 【组队学习】【31期】组队学习内容详情
- 解题报告(四)生成函数(ACM/ OI)
- c++中报错预处理器指令后有意外标记 - 应输入换行符
- Java秒杀系统实战系列~基于Redis的原子操作优化秒杀逻辑
- MMSegmentation:标准统一的语义分割框架
- sql unicode转中文_汉字转拼音的Java类库 JPinyin
- 2021音视频技术大会北京站开幕
- 便宜php扩展,php扩展【货币问答】- php扩展所有答案 - 联合货币
- 计算机 仿真 流体力学剪切应力,基于人体血管B型主动脉夹层三维建模及血流动力学仿真研究...
- mapgis6.7原创2019视频教程
- 什么是ROM、EPROM、EEPROM、FLASH ROM、RAM?
- LeetCode刷题(158)~从尾到头打印链表【递归|辅助栈】
- 虚拟机银河麒麟V10安装达梦数据库
- 关于Android开发中如何使用dp表示长宽
- bmp文件数字水印c语言代码,图像数字水印+matlab程序文件.doc
- 安装Blue Prism Chrome插件
- mysql怎么替换部分字符串
- html 软键盘 页面高度,深入理解高度,获取屏幕、webview、软键盘高度
- java计算机毕业设计ssm+vue房地产销售系统
热门文章
- c语言中finally的作用,请问Finally中文是什么意思……
- 3D视觉:为工业机器人配备一双“火眼金睛”
- python 加密解密 rc4_python实现rc4加密解密,base64输出
- cad2023中文版最低系统要求,cad2023电脑配置要求
- 医院计算机操作权限管理制度,医院信息安全管理制度_医院信息安全管理制度办法...
- 【招聘】苏映视硬件、软件、嵌入式、算法多岗位open!
- android支付宝客户端html5网页偶尔无法自动关闭问题
- 新iPhone有望首次加入屏下指纹解锁;小米 11推送“降温”补丁;McAfee杀毒软件创始人死于巴塞罗那监狱中|极客头条...
- html导航栏圆角,纯css实现蓝色圆角效果水平导航菜单代码
- Android app 去除顶部蓝色导航栏(Action Bar