欢迎关注”生信修炼手册”!

MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析,网址如下

https://miso.readthedocs.io/en/fastmiso/index.html#

这个软件支持exon和transcript两种水平的可变剪切分析,在rmats的文章中,我们也提到了rmats是从exon水平给出的可变剪切结果,因为二代测序读长短的特点,无法有效得到转录本全长,从exon水平得到的结果更加的准确,而且阳性结果更容易通过RT-PCR验证出来,但是无法详细的探究某个基因不同isoform之间的变化;transcript水平直接给出不同isoform间的定量和差异,能有效的探究基因不同isofrm的变化情况,但是结果准确性较差。

该软件是一个python包,直接通过pip就可以安装,分析的pipeline如下

1. 对参考基因组的GFF文件建索引

对于transcript水平的分析而言,只需要提供转录本的GFF文件,可以从Ensembl等数据库下载参考基因组的gtf文件,然后自己转换成GFF3格式;对于exon水平而言,需要提供已知的可变剪切事件的GFF格式文件,示意如下

chr1  SE      gene    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1  SE      mRNA    4772649 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1  SE      exon    4774032 4774186 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1  SE      exon    4775654 4775821 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B
chr1  SE      exon    4772649 4772814 .       -       .       ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B

第二列表示可变剪切的类型,以外显子跳跃为例,ID的格式如下

chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814

包含了用@符号隔开的3个外显子,中间的exon的跳过的外显子,第一个为上游的外显子,第二个为下游的外显子,对应如下示意图中的3个exon

transcript水平的GFF文件从数据库中下载即可,而exon水平的GFF文件是需要自己先识别可变剪切的不同isoform,然后整理得到的,对于人和小鼠等常见物种,官网提供了exon水平的GFF文件,链接如下

https://miso.readthedocs.io/en/fastmiso/annotation.html

准备好GFF文件之后,就可以建立索引了,命令如下

index_gff --index ensGene.gff3 index_db

index_db为索引保存的目录。

2. 运行miso

运行miso需要第一步建好的索引以及样本对应的bam文件,该bam文件必须是经过排序处理的,而且有对应的bai索引,对于双端数据,用法如下

miso --run
index_db \
algin.sorted.bam \
--output-dir out_dir \
--read-len 150 \
--paired-end 250 15 \
--settings-filename miso_settings.txt

read-len是reads的平均长度,paired-end代表插入片段长度的平均值和方差,miso_settings.txt是配置文件,内容如下

[data]
filter_results = True
min_event_reads = 20
strand = fr-unstranded
[sampler]
burn_in = 500
lag = 10
num_iters = 5000
num_processors = 4

配置文件中的参数很多,就不一一解释了,每个参数的意义请参考官方文档。
通过上述方式得到的结果可以直接用于后续的差异分析,但是这个结果不利于我们查看,所以官方提供了汇总程序,用法如下

summarize_miso \
--summarize-samples \
raw_out/ \
summary_out1

3. 样本间的差异分析

进行样本间差异分析的代码如下

compare_miso --compare-samples control case/ comparisons/

在输出目录,会生成一个后缀为bf的文件。

4. 对结果进行过滤

用法如下

filter_events \
--filter  case_vs_control.miso_bf \
--num-inc 1 \
--num-exc 1 \
--num-sum-inc-exc 10 \
--delta-psi 0.20 \
--bayes-factor 10 \
--output-dir filter_dir

5. 可视化

用法如下

sashimi_plot \
--plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" \
index_db/ \
sashimi_plot_settings.txt  \
--output-dir out_dir

sashimi_plot_settings.txt是配置文件,其中设置了样本的bam文件和可变剪切的输出结果,示例如下

[data]
# directory where BAM files are
bam_prefix = ./test-data/bam-data/
# directory where MISO output is
miso_prefix = ./test-data/miso-data/bam_files = ["heartWT1.sorted.bam","heartWT2.sorted.bam","heartKOa.sorted.bam","heartKOb.sorted.bam"]miso_files = ["heartWT1","heartWT2","heartKOa","heartKOb"][plotting]
# Dimensions of figure to be plotted (in inches)
fig_width = 7
fig_height = 5
# Factor to scale down introns and exons by
intron_scale = 30
exon_scale = 4
# Whether to use a log scale or not when plotting
logged = False
font_size = 6# Max y-axis
ymax = 150# Whether to plot posterior distributions inferred by MISO
show_posteriors = True# Whether to show posterior distributions as bar summaries
bar_posteriors = False# Whether to plot the number of reads in each junction
number_junctions = Trueresolution = .5
posterior_bins = 40
gene_posterior_ratio = 5# List of colors for read denisites of each sample
colors = ["#CC0011","#CC0011","#FF8800","#FF8800"]# Number of mapped reads in each sample
# (Used to normalize the read density for RPKM calculation)
coverages = [6830944,14039751,4449737,6720151]# Bar color for Bayes factor distribution
# plots (--plot-bf-dist)
# Paint them blue
bar_color = "b"# Bayes factors thresholds to use for --plot-bf-dist
bf_thresholds = [0, 1, 2, 5, 10, 20]

最终会产生如下所示的结果

这种图称之为sashimi plot , 是一种专用于可变剪切可视化的图表,上述示意图表示的是一个外显子跳跃事件在不同样本中的表达情况,左下方是GFF文件中共的exon结构,左上方是每个样本中比对上exon的reads的可视化,采用了RPKM表示,不同剪切方式用曲线链接,曲线上标记的是比对上该区域的reads数目,不同分组的样本用不同颜色表示,右侧的图片是样本中对应的可变剪切的表达量值。

从这种图中,可以直观的看到两组样本间的可变剪切表达有无差异,上图中heartWT组中的表达量高于heartKO组。

实际分析时,由于需要手动整理可变剪切isofrom对应的gff文件,所以使用的难度较大,但是其提供的可视化功能是非常值得借鉴的。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

使用MISO进行可变剪切的分析相关推荐

  1. 使用leafcutter 做可变剪切分析流程

    本博客的主要目的是把本次使用Leafcutter做可变剪切的分析流程记录一下,以方便后续分析或者分享给别人. Leafcutter的文章发表在了NG上,有感兴趣的可以看原文. #批量改文件的名字 #A ...

  2. 使用ASProfile分析可变剪切事件

    欢迎关注"生信修炼手册"! ASprofile是一款识别可变剪切事件的软件,该软件可以直接将同一个基因的多个转录本进行比较,从而鉴定可变剪切事件,官网如下 https://ccb. ...

  3. linux可变剪切分析,可变剪切的意义和重要性

    欢迎关注"生信修炼手册"! 可变剪切differential splicing,也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程 ...

  4. linux可变剪切分析,SUPPA2进行可变剪切定量

    SUPPA2是一款通过转录本定量来获取可变剪切定量结果的软件.转录本的定量方式有很多,例如count,FPKM, TPM等,作者建议使用TPM,因为先均一化了基因的长度,然后均一化了测序的深度.同时建 ...

  5. linux可变剪切分析,SUPPA 可变剪切分析

    SUPPA是一款通过转录本定量来获取可变剪切定量结果的软件.转录本的定量方式有很多,例如count,FPKM, TPM等,作者建议使用TPM,因为先均一化了基因的长度,然后均一化了测序的深度.同时建议 ...

  6. Deep-learning augmented RNA-seq analysis of transcript splicing | 用深度学习预测可变剪切

    可变剪切的预测已经很流行了,目前主要有两个流派: 用DNA序列以及variant来预测可变剪切:GeneSplicer.MaxEntScan.dbscSNV.S-CAP.MMSplice.clinVa ...

  7. 剪切文件_转录组测序技术和结果解读(十六)——可变剪切

    可变剪切的概念 可变剪切是指从一个mRNA前体中通过不同剪接方式,选择不同的剪接位点组合,所产生不同的mRNA剪接异构体的过程. 可变剪切的分类: 外显子缺失 (Exon skipping): 可变的 ...

  8. matlab中-psi_建议收藏 | 生物信息学中的可变剪切,这些内容你了解吗?

    聊点学术 声明:非常感谢Carina投稿至公众号,全文由Carina撰写,主要对生信的可变剪切相关内容作了一定的梳理. 检索TCGA中可变剪切的相关文献,虽然总数量并不多,但是其在2019年猛增为49 ...

  9. 揭秘可变剪切研究的本质

    欢迎关注"生信修炼手册"! 可变剪切指的是一个基因由于剪切方式的不同从而产生了不同的转录本,很多人对于可变剪切的研究有很多的困惑,比如有没有现成的软件可以研究单个样本中的可变剪切事 ...

  10. 利用circpedia 数据库探究circRNA的可变剪切

    circpedia 中收录了利用circexplorer 软件识别到的circRNA, 覆盖了人,小鼠,鸟类,昆虫多个物种的多种细胞系的数据 官网链接如下: http://www.picb.ac.cn ...

最新文章

  1. 从熵到交叉熵损失的直观通俗的解释
  2. ubuntu 能解析域名但ping不通_域名解析设置方法
  3. atitit.js javascript 调用c# java php后台语言api html5交互的原理与总结p97
  4. html load方法的区别,jQuery  中的.load()、$get()、$,post()用法和区别
  5. 关于Eclipse基本设置(字体大小、项目导入、简单)
  6. Python基础笔记,后续更新
  7. 阿里AI再出神器,“你是什么垃圾”一拍便知
  8. mac预装的php路径,Mac使用系统自带php和Apache
  9. 安装matplotlib时,报错Command “python setup.py egg_info“ failed with error code 1 in /tmp/pip-build-gvyzl2
  10. jact变频器故障代码_高淳JACT变频器,艾克特变频器ERR20编码器故障维修烟台市...
  11. Cannot connect to the Maven process. Try again later. If the problem persists, check the Maven Impor
  12. java基于ssm人体健康体检信息管理系统-springboot
  13. python折痕检测_无纺布折痕检测(2)· 基于Laws纹理滤波的折痕检测
  14. 期货市场监控后台管理系统
  15. 百度旋转验证码识别平台接口文档
  16. 小程序-微信账号绑定多个开发者权限
  17. 个人学习笔记——Python篇(基础)
  18. FAQ-NE40E BGP邻居状态中的no neg代表什么含义
  19. mac深色主题下把chrome主题从默认黑色变回以前的默认白色
  20. 《鸟哥linux私房菜》读书笔记

热门文章

  1. ansible 变量
  2. Linux系统如何隐藏一个文件?
  3. 计算机重装后不能启动怎么办,重装系统后无法进入系统怎么办 修复进不去系统方法教程...
  4. 基于R语言进行K折交叉验证
  5. string.h 详解
  6. Windows系统连接蓝牙音箱,已连接,没有声音
  7. java public aspect_ASPECT Java的使用
  8. 解决联想小新笔记本电脑触摸板失灵
  9. 四川大学计算机专业贵州分数线,四川大学2019贵州录取分数线
  10. 计算机科学与技术专业大学四川省录取分数,四川人工智能专业大学分数线