写在前面

这个软件是干什么用的,估计只要研究基因组,一定会用到它。
任何基因组都有基因,基因比较有规律。而重复序列会不像基因结构那样好预测,就需要这个软件进行同源注释。
无论你是想研究重复序列,还是不想研究重复序列,都需要用到它的注释结果。

RepeatMasker是一款专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物种。是研究基因组、非编码RNA、转座子和着丝粒领等相关领域的必备软件。很多small RNA, lncRNA与Repeat区有密切关系。

之前我在2013在PLOB发布过《RepeatMasker安装方法与使用 》,阅读近7600+。相关百度云中Repbase也被下载几千次。但目前软件和数据库均更新很多次,旧版在主流系统安装也会出一些问题,重复序列发现种类也已经翻倍,故重发新版软件安装和使用方法。

软件安装与配置

本次安装环境为 Ubuntu 16.04.2 x64,所有相关软件和数据库全为文章发布时最新版。本文是以Root权限安装提供服务所有用户使用,没有权限的小伙伴只需将软件下载安装在自己的文件夹内,配置repeatmasker时设置所有相关软件的位置即可,不会设置环境变量的一律使用程序完整路径名运行RepeatMasker即可。

1. RMBlast序列搜索引擎

http://www.repeatmasker.org/RMBlast.html
2.6.0 ver 2 2017-3-29

# 下载RMBlast源码包并编辑
cd ~/bin/
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.6.0/ncbi-blast-2.6.0+-src.tar.gz
wget http://www.repeatmasker.org/isb-2.6.0+-changes-vers2.patch.gz
tar zxvf ncbi-blast-2.6.0+-src.tar.gz
gunzip isb-2.6.0+-changes-vers2.patch.gz
cd ncbi-blast-2.6.0+-src
patch -p1 < ../isb-2.6.0+-changes-vers2.patch
cd c++
./configure --with-mt --prefix=/usr/local/rmblast --without-debug
make
# 安装程序及库至系统目录,有报误,但我们需要的rmblastn已经可以正常使用了
sudo make install # Makefile:40: recipe for target 'install-toolkit' failed
# 测试程序是否安装成功
/usr/local/rmblast/bin/rmblastn -h

2. TRF(Tandem Repeat Finder)搜寻串联重复序列

http://tandem.bu.edu/trf/trf.download.html
4.09 2016-2-22
最新版4.09,本操作系统需要安装其中的legacy的64位版才能运行

cd ~/bin/
wget http://tandem.bu.edu/trf/downloads/trf409.legacylinux64
chmod +x trf409.legacylinux64
sudo cp trf409.legacylinux64 /usr/local/bin/trf
# 测试有帮助信息即可用
trf

3. RepeatMasker程序

http://www.repeatmasker.org/RMDownload.html
4.0.7  2017-2-1

# 下载267MB安装包,也比较慢,放在后台慢慢下
nohup wget -c http://www.repeatmasker.org/RepeatMasker-open-4-0-7.tar.gz &bg
tar xvzf RepeatMasker-open-4-0-7.tar.gz

4. Repbase数据库

http://www.girinst.org/server/RepBase/index.php
需要注册才能下载,人工审批,可能要等两天。
RepBaseRepeatMaskerEdition-20170127.tar.gz (48.84 MB) 也可以在我的百度网盘下载,并上传服务器至RepeatMasker下载的相同目录。http://pan.baidu.com/s/1c2zSMKo

mv RepBaseRepeatMaskerEdition-20170127.tar.gz RepeatMasker/
cd RepeatMasker/
tar xvzf RepBaseRepeatMaskerEdition-20170127.tar.gz

5. 配置RepeatMasker依赖关系

# 默认perl, repatmasker, trf安装位置正确的就一路回车,搜索引挚选择2 RMBlast,输入RMBlast安装目录/usr/local/rmblast/bin,再选5 done完成;例如我刚才编绎最新版安装目录:/usr/local/rmblast/bin;如果新版安装失败的,下载的旧版预编辑 安装目录为:/usr/local/rmblast-2.2.28/bin
./configure
#添加至全局环境变量
sudo ln -s `pwd`/RepeatMasker /usr/local/bin/RepeatMasker

软件使用实例

1. 以拟南芥, 短柄草基因组为例

# 显示程序基本用法、参数和说明
RepeatMasker
# 显示程序详细帮助手册
RepeatMasker -help # 拟南芥分析实例
# 进入我存放拟南芥基因组的目录
cd ~/ref/phytozome/Athaliana/TAIR10/assembly
# 建立结果输出目录
mkdir repeat
# 运行程序:parallel是选择线程数; species是物种名,常见物种看帮助,没有的写小写拉丁属名或引号全名;  html和gff是输出html和gff格式结果,方便查看和下游分析; dir输出结果目录;基因组fa文件必须放在所有参数最后;用时8min
time RepeatMasker -parallel 30 -species arabidopsis -html -gff -dir repeat Athaliana_167_TAIR9.fa # 短柄草分析实例, 274MB基因组30线程用时13min
cd ~/ref/phytozome/Bdistachyon/v3.1/assembly
mkdir repeat
time RepeatMasker -parallel 30 -species brachypodium -html -gff -dir repeat Bdistachyon_314_v3.0.fa

运行开始会显示数据库的发布时间版本和物种特异数据信息,需 注释核对
( Complete Database: dc20170127-rb20170127 )
Building species libraries in:   /mnt/bai/public/bin/RepeatMasker/Libraries/dc20170127-rb20170127/brachypodium

  • 201 ancestral and ubiquitous sequence(s) for brachypodium

  • 282 lineage specific sequence(s) for brachypodium

2. 结果文件说明

*代表你基因组的名字

  1. *.out.gff:重复序列基因组注释文件,与基因注释类似,最重要结果

    # 结果预览
    Chr1    RepeatMasker    similarity      1       107     13.2    -       .       Target "Motif:ATREP18" 561 649
    Chr1    RepeatMasker    similarity      1066    1097    10.0    +       .       Target "Motif:(C)n" 1 32
    Chr1    RepeatMasker    similarity      1155    1187    17.1    +       .       Target "Motif:(TTTCTT)n" 1 33
  2. *.tbl:重复序列注释结果报告信息汇总表格 overview

  3. *.out.html: 网页版结果详细,同RepeatMasker在线注释结果报告

  4. *.masked: 将注释为重复序列区的大项替换为N的基因组

  5. *.out:RepeatMasker默认输入结果格式,信息基本与gff相关

  6. *.cat.gz: 序列与重复序列比对的文件

软件安装使用常见问题

1. RMBlast安装问题

  • NCBI自从2013年2.2.28后再没有更新过rmblast ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/LATEST ,我尝试安装源码包在Ubuntu16.04是无法安装的;

  • 在RepeatMasker的页面上有最近ncbi-blast-2.6.0+-src源代码和补定,按要求安装,即本文中的操作,make编辑成功,但make install有错误,不过关键程序rmblastn已经成功,可正常使用;

  • 如果新版安装失败,可尝试安装2.2.28的预译版

    cd /usr/local
    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz
    wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-x64-linux.tar.gz
    tar zxvf ncbi-blast-2.2.28+-x64-linux.tar.gz
    tar zxvf ncbi-rmblastn-2.2.28-x64-linux.tar.gz
    cp -R ncbi-rmblastn-2.2.28/* ncbi-blast-2.2.28+/
    rm -rf ncbi-rmblastn-2.2.28
    mv ncbi-blast-2.2.28+ rmblast-2.2.28
    /usr/local/rmblast-2.2.28/bin/rmblastn -h

    如果安装成功了2.2.28,则配置repeatmasker中rmblast位置则改为/usr/local/rmblast-2.2.28/bin/rmblastn

2. trf运行报错

是由于Linux legacy GLIBC的版本兼容性问题,故作者提供了两个版本,原文中的如果不可用,试试下面另一个版本

wget http://tandem.bu.edu/trf/downloads/trf409.linux64
chmod +x trf409.linux64
./trf409.linux64

3. Rpeatmasker运行时找不到依赖程序

是RepeatMasker文件中./configure步骤设置错了,再新再一次,仔细核对每个依赖程序的位置,即可正常运行。
前提是你先运行下相关依赖的程序是否可以运行!

4. 没有结果目录及结果

添加了-dir 指定输出目录,但没有结果

time RepeatMasker -parallel 30 -species arabidopsis -html -gff -dir repeat Bdistachyon_314_v3.0.fa

你一定是忘记建立结果文件夹了,程序不会自己建目录,mkdir repeat是必须的。你有两个选择,要么提前建文件夹,要么直接不用-dir result参数,把结果全都输出至当前目录。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2400+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

基因组重复序列注释-RepeatMasker安装和使用相关推荐

  1. RepeatMasker安装和使用——基因组重复序列注释

    本网对Markdown排版支持差,对格式不满意的用户请跳转至"宏基因组"公众号阅读: RepeatMasker是一款专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物 ...

  2. 基因组重复序列检测:RepeatMasker

    转载 RepeatMasker是重复序列检测的常用工具,通过与参考数据库相似性比对来准确识别或屏蔽基因组中的重复序列,属于同源预测注释的方式. 基因组组装完成后,进行基因预测和注释.由于基因组中存在重 ...

  3. RepeatMasker安装与使用(二)

    RepeatMasker是一款专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物种.是研究基因组.非编码RNA.转座子和着丝粒领等相关领域的必备软件.很多small RNA, lncRN ...

  4. Prokka:快速原核基因组、宏基因组基因注释

    文章目录 Prokka:快速原核基因组注释 热心肠日报 摘要 1 简介 2 描述 2.1 输入 2.2 注释 表1 Prokka使用的功能预测工具 2.3 输出 表2. 输出结果介绍 3 结果 表3. ...

  5. 关于人类参考基因组及注释文件,一篇就够了

    最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着 ...

  6. NGS数据分析实践:02. 参考基因组及注释库的下载

    NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...

  7. 参考基因组和注释文件下载

    首先下载猪的参考基因组和注释文件我是在ensembl上下载的,链接地址ftp://ftp.ensembl.org/pub/ 选择最先版本参考基因组下载:wget ftp://ftp.ensembl.o ...

  8. 参考基因组及注释文件下载

    参考基因组及注释下载 现有比对工具在做mapping之前,都需要下载对应物种的参考基因组做index,而如何选择合适的参考基因组是一件非常重要的事情. 现有的参考基因组存储网站三个: ENSEMBL ...

  9. 文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备

    前期学习了通过文章获取了RNA测序数据,具体参考往期文献RNA-seq复现第1期--文献中mRNA测序数据的获取.值得注意的是,下载测序数据通常是.sra格式文件(如下SRR3589956 - SRR ...

最新文章

  1. centos7 网卡配置vlan_【linux】Centos7单网卡多VLAN配置
  2. 把握现在才是最重要的
  3. 0913作业(冒泡排序、二分查找法、模拟摇乐游戏)
  4. python如何输入多组数据_Python 中如何实现多组的输入输出
  5. vertx web连接超时 阻塞_Flink之基于Vertx的Mysql异步IO
  6. python协程调度方式_python 3.x 学习笔记17(协程以及I/O模式)
  7. 凤凰 Remix android x86,主流 Android x86系统分享
  8. 一个开关电源PCB Layout设计流程
  9. 接口测试系列之——接口安全测试
  10. LAMMPS生成粗糙表面的in文件脚本(可调节微结构高、长和宽)
  11. SDRAM内存的接口和设计方法(并行输送接口)
  12. Esp8266 进阶之路33【大神篇】如何优雅地像乐鑫原厂封装esp8266底层寄存器的逻辑思维,做成自己的静态库库文件,让第三方人使用?
  13. m3u8转换到mp4 python_Python 实现MP4视频转M3u8视频
  14. python 图片对比文件夹_使用python进行文件夹对比
  15. Android实现二维码扫描功能(三)-闪光灯控制
  16. python员工管理系统课程设计报告_python--员工信息管理系统编译及思路
  17. c语言零基础第一课:认识c语言
  18. Node节点禁止调度(平滑维护)方式- cordon,drain,delete
  19. 【OpenCV3经典编程100例】(26)2D特征:Shi-Tomasi角点检测goodFeaturesToTrack()函数
  20. 大数据分析与应用(中级) 大数据分析概述

热门文章

  1. 我作为Java后端,分享一下入门Spark编程的经历!
  2. JVM 与 Linux 的内存关系详解
  3. 程序员哀叹:专科都是ji's万的年薪,互联网的泡沫要破了
  4. 互联网安全威胁及应对方案
  5. PingCode与Jira 敏捷开发管理能力的对比
  6. Scrum敏捷研发管理平台-Leangoo看板
  7. 用leangoo怎么做迭代管理?(Sprint Backlog、任务看板、燃尽图)
  8. 详细谈电脑ip、域名、内网、外网、localhost、127.0.0.1、网关等通讯基础知识(易懂)
  9. python中if else语句用法_讲解Python中if语句的嵌套用法
  10. 仅凭一部iPhone手机,打造现实版元宇宙