编者按

欢迎关注微信公众号:基因学苑,更多精彩内容等你发掘!

前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

一、功能分类:
原核生物基因预测

二、软件官网:
http://ccb.jhu.edu/software/glimmer/index.shtml

三、软件介绍:
Glimmer是用于原核生物基因组预测的工具,只要输入原核生物基因组即可得到其基因信息。不过该软件最终结果只是基因的位置信息,需要额外程序将基因从基因组上提取出来,并翻译成对应的氨基酸序列。

四、下载安装:
tar -zxvf glimmer302b.tar.gz
cd glimmer3.02
make
五、软件使用:
glimmer并不能像prodigal那样,一步完成工作。Glimmer做基因预测一般需要2个步奏。首先是建立预测的模型,第二步是利用模型来对基因组进行基因预测。模型也叫训练集,也就是先让软件了解基因的一些特征,这样软件就能根据已知的信息,来推测未知的信息。
建立模型采用build-icm程序来完成。build-icm的输入有三种。
1、某基因组的已知信息;
2、通过long-orfs产生的长的无重叠的orfs;
3、高度相似的物种的基因。
可以选用自身作为训练集来作为模型。
首先要将输入文件格式化到一条。
首先我们将多条fasta文件合并成一条,可以使用sed 命令完成。

sed -e ‘/>/d’ K12.fna |tr -d ‘\n’ |awk ‘BEGIN {print “>wholefile”}{print $0}’ >wholefile
这样就可以用作long-orfs的输入了。
运行long-orfs产生无重叠的orfs

long-orfs -n -t 1.15 $wholefile $tagname.longorfs 1>/dev/null 2>/dev/null
然后运行extract来提取训练集

extract -t $wholefile $tagname.longorfs > $tagname.train 2>/dev/null
这样训练集就处理好了。
如果有某基因组的已知基因,或者高度相似的物种基因不用以上三个步骤,接下来我们运行bulid-icm通过训练集,来生产预测的模型,用于基因预测

build-icm -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null
最后我们就可以直接运行glimmer3来完成基因预测。
glimmer3 -o50 -g110 -t30 [options]

六、使用案例:
sed -e ‘/>/d’ ref.fna |tr -d ‘\n’ |awk ‘BEGIN {print “>wholefile”}{print $0}’ >wholefile
long-orfs -n -t 1.15 wholefile tagname.longorfs 1>/dev/null 2>/dev/null
extract -t wholefile tagname.longorfs > tagname.train 2>/dev/null
build-icm -r tagname.icm < tagname.train 1>/dev/null 2>/dev/null
glimmer3 -o50 -g110 -t30 ref.fna tagname.icm ref
七、注意事项:
1、glimmer得到的结果是列表格式,需要自行根据列表将序列提取出来;
2、这里面注意一下基因的方向以及密码子的选择。原核生物选择第11套密码子表,如果是支原体要选择第四套密码子表。

生物信息百Jia软件(七):glimmer相关推荐

  1. 生物信息百Jia软件(六):prodigal

    编者按 欢迎关注微信公众号:基因学苑,更多精彩内容等你发掘! 前面写了专题<手把手教你生物信息分析平台搭建>,然后又介绍了很多<生物神奇网站>资源,也介绍了<生物信息之独 ...

  2. 生物信息百Jia软件(十七):flash

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 编者按 前面写了专题<手把手教你生物信息分析平台搭建>,然后又介绍了很多<生物神奇网站>资源 ...

  3. 生物信息百jia软件(25):quast

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 去年这时候制定了一个计划,写100篇生物软件的教程推文,取名字"生物信息百jia软件",本来以为 ...

  4. 生物信息百Jia软件(22):featureCounts

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 编者按 虽然短序列比对工具subread的使用没有bwa和hisat2流行,但是软件包中的featureCounts ...

  5. 生物信息百Jia软件(二十):lumpy

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 通哥点评 基因组结构变异SV的检测一直都是当前基因组研究中非常困难的课题,由于二代测序多长过短,因此无论在优化算法, ...

  6. 生物信息百Jia软件(十四):velvet

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 通哥点评 velvet是最早的用于二代测序的序列拼接工具,拼接效果还可以,不过我觉得不如SOAPdenovo效果好. ...

  7. 生物信息百Jia软件(21):hisat2

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 编者按 现在的软件更新实在太快了,光是转录组用来比对的软件就有很多,bowtie, tophat,star,现在又有 ...

  8. 生物信息百Jia软件(28):canu

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 上一次介绍了三代拼接工具falcon,但是falcon这款无论是从安装还是使用都比较麻烦,对于新手是一个很大的考验, ...

  9. 百胜软件2016年双十一项目正式启动

    7月29日下午,百胜软件2016年双十一项目正式启动.百胜软件公司高层领导.各分公司总经理及项目组成员参加了启动会. 百胜软件副总裁马龙飞首先致辞,马总表示,今年双十一一定是全渠道玩法,百胜软件在践行 ...

最新文章

  1. Windows Server 2008 和 Windows Vista 结合的功能更加强大
  2. 关于Eclipse插件开发(一)
  3. linux下 发布qt程序,Linux下发布qt程序
  4. 复习深入笔记01:对象/可变与不可变类型/字符编码/闭包
  5. 空白世界地图打印版_洪恩识字卡1300字十字帖+绘本,可打印成册
  6. 《深入理解 Spring Cloud 与微服务构建》第十一章 服务网关
  7. 在windows上传一个新的项目到GitHub上
  8. [置顶] Jquery学习总结(二) jquery选择器详解
  9. 电脑是个神奇的东西!
  10. object 整理中..... 顶级页面
  11. 最新回归算法理解、实现及应用(1)线性回归
  12. 如何Vue项目中加载字体的最佳做法
  13. 本地打印后台处理程序服务没有运行和windows无法连接到打印机拒绝访问
  14. 【牛客网-公司真题-前端入门篇】——百度2021校招Web前端研发工程师笔试卷(第二批)
  15. php如何配置gii,PHP Framework YII的里的gii设置。
  16. Github与Git安装使用
  17. python中关于try,expect的用法
  18. 1.初始Hadoop大数据技术
  19. 希腊字母大小写及其读音、英文
  20. 笔记:JavaScript编译与执行

热门文章

  1. dart pub私有仓库搭建、私有仓库上传方法、上传工具定制
  2. 阿里云发布的数加是什么鬼
  3. 网狐服务器的基本结构
  4. JSP | 简易购物车的实现
  5. 第33篇:DNS劫持攻击原理讲解及溯源分析的常规步骤
  6. Requests模块设置Header的User-Agent
  7. mysql 5.7.17 zip_win10下mysql 5.7.17 zip压缩包版安装教程
  8. 嵌入式GEC6818利用多线程实现视频播放器
  9. 计算机信息检索 服务方式,计算机信息检索.ppt
  10. android ota机制,Android OTA简介