TBtools:基因家族分析简单流程
写在前面:非常感谢CJ开发出如此强大的TBtools工具。作者(CJchen-0410)在B站上有新手教程,大家可以给大神点个关注。
本文以《Genome-wide identification and phylogenetic analysis of rice FTIP gene
family》为例,介绍TBtools基因家族分析的流程。
本文内容
1、从结构域出发鉴定基因家族成员
2、顺式作用元件分析
3、保守结构域分析
4、多物种共线性分析
准备工作
本文主要介绍TBtools的用法,复现文章中作者用到TBtools的地方。
1、工具
(1) TBtools 1.09852 (下载地址:https://github.com/CJ-Chen/TBtools/releases)
(2) MEGA
(3) Pfam
(4) PlantCARE
2、数据集下载
(1) EnsemblPlants
1、从结构域出发鉴定基因家族成员
(1) 从 Pfam下载所有的结构域的hmm格式文件
Pfam-A 是 人工标注的结构域,Pfam-B 是预测的结构域
(2)EnsemblPlants 下载水稻的所有蛋白序列(pep),基因序列(fa),全基因组序列(fa),全基因组注释(gff3) ( 我用的是MSU的水稻数据,MSU 和 NCBI 的基因注释差别不大)
其他物种的相关序列也可以在这下载。
(3)文献作者是利用C2结构域和PRT-C结构域查找OsFTIPs基因家族成员,在Pfam上找到两个相关结构域的登录号PF00168,PF08372。新建个文本
(4) 利用TBtools的hmm search 工具 查找
这里其实是做了个 hmmer 软件的接口 。往常要用hmmer来找结构域需要在Pfam 上 下载 结构域的模型 ,而且hmmer 这个软件 win版本不太友好,这里是给出了个优化方案,TBtools内置了部分 hmmer 使其直接调用。
(4)输出结果
每个结构域都会有两部分 分数 ,分别是序列得分和结构域得分,可以通过结果太多可以用E-value 筛选。我用excel筛选了下,找个交集,共找到13个,和文献中一致。
(5) 得到目标基因的蛋白序列、基因序列、启动子序列、注释文件
利用TBtools的 Fasta Extract 工具提取蛋白序列、基因序列
要注意蛋白和mRNA序列的ID是有版本号的,如 LOC_Os06g41090.1 的.1。 提取蛋白序列需要标版本号,提取DNA序列则需要把版本号去掉。总之就是输入的目标ID要和fasta文件中的ID对应。
利用GXF Selector 筛选目标基因的注释文件
利用Gtf/Gff3 Sequences Extract 提取启动子
输入上步目标基因的注释文件和基因组序列文件,选择参数。输入注释文件后需要按下初始化,不然start是灰的。如果需要 基因组所有基因 的启动子 可以输入 全基因组的注释文件。
(6) 可视化
TBtools 画的是矢量图,可以改颜色 样式 ,比较方便。具体操作如下,结果就不一一展示了。
同时,TBtools也支持NCBI、MEME的预测结果
当然还有更加酷炫的进化树、基因结构、motif分析的三合一图,请出门向左(https://my.oschina.net/u/4579431/blog/4834581)。
2、顺式作用元件预测
文献中作者是用PlantCARE进行预测的。拿出提取到的启动子序列扔上去等邮件就好了,一般在半个小时左右。
邮件中的tab文件是所有结果的汇总。得到的启动子序列往往比较多,需要手动筛选下,主要保留响应元件。需要整理成TBtools能识别的格式和一个序列长度的文件。
3、保守结构域分析
TBtools上可以直接运行MEME。
可视化 用到输出的 xml 文件
作者还写过一个更全的版本,出门右转(https://www.jianshu.com/p/b8ffd0fd1cbf)
4、多物种共线性分析
(1)需要两个物种的基因组序列(fa)和基因组注释文件(gff3) 这里用水稻和拟南芥为例。原理就是blast。这一步运行时长主要还是和基因组大小和电脑线程数有关,条件允许的情况下可以多开几个线程。
(2)运行过程中可能会弹出警告,但没事儿。这主要是注释文件的问题
(3)可视化 主要用到结果中的gff文件、ctl文件、collinearity文件
灰色的是基因组比对上的地方,红色的是比对上的目标基因(没比对上就没有。还可以放多个物种的比对结果。也可以物种内共线性比对,查看是否发生基因复制事件(https://www.meiwen.com.cn/subject/ljltbctx.html),思路和方法也是差不多的
TBtools 不止能做基因家族分析,随着TBtools这个社区的壮大,已经有了很多教程,也有很多作者贡献了十分有用的插件,小的方面可以完成批量重命名、热图、维恩图、火山图、Logo、气泡图,大的方面能够完成转录组分析和注释,WGCNA等工作。同时也感谢这些作者降低了生信分析的门槛,更好的帮助科研工作~~(凑结果)~~ 。作者也写了很多的教程 可以关注公众号:生信药丸。
参考文献:
Genome-wide identification and phylogenetic analysis of rice FTIP gene family
愚见 | 解读文稿 BMC Plant Biology 本氏烟类成束蛋白阿拉伯半乳聚糖基因家族分析
TBtools: An Integrative Toolkit Developed for Interactive Analyses of Big Biological Data
TBtools:基因家族分析简单流程相关推荐
- 基于TBtools做基因家族分析教程 (全)
基因家族分析笔记-全部开始记录 一. 写在前面 2023年4月中旬自己开始做基因家族的分析,对于这块自己没有接触过,因此也是一个挑战,没事!!!(安慰自己),对于基因家族的分析网上的教程很多,跟着步骤 ...
- [基因课学习笔记]一个简单的基因家族分析
工作背景 探究在芝麻.大豆以及拟南芥中FAD4-like基因家族进化关系,并使其可视化(进化树) 操作环境及软件的准备 虚拟机应用:VMware Workstation pro 17 虚拟机操作系统: ...
- seqkit根据基因id_基因家族分析保姆级教程(分子进化)-生信小白自学之路
开始前先熟悉一下我自己 简单介绍一下,我是20级研究生,普通本科和中科院海洋所联培的学生,什么是联培呢,简单来说就是理论课程在学校上,根据学校安排,一般是一年,我们半年就上完了,后面就去海洋所工作了. ...
- 从Zygote孵化frameworks进程,分析StartActivity流程中intent传递数据的最大值。
Pangu-Immortal (Pangu-Immortal) · GitHub 当我们用Intent传输大数据时,有可能会出现错误: val intent = Intent(this@MainAct ...
- MVC学习一:MVC简单流程
MVC学习一:MVC初次接触 1.MVC简单流程 1.1.服务器接收客户端请求后,解析URL(根据 路由表里配置的URL来分析 类名(控制器名)和方法名)根据请求的类名,创建对应的控制器类对象,并调用 ...
- linux统计单拷贝基因家族,为什么要进行基因家族分析?
原标题:为什么要进行基因家族分析? 某物种基因组被测序后,大部分课题组都会发表一些基因家族分析的文章,此举常常被误解为"灌水",其实不然,理清基因组内基因家族成员分类组成,是挖掘和 ...
- 基因家族分析及SCI写作技巧
随着高通量测序以及生物信息学的发展,各物种基因组序列快速释放,为基因家族分析和论文写作带来了契机.基因家族的生物信息学分析也为后续基因功能研究提供了强有力的理论支撑,在数据挖掘中发挥着越来越重要的作用 ...
- 熟练掌握R语言的Meta分析全流程和不确定性分析,并结合机器学习等方法讲解Meta分析在文献大数据的延伸应用
Meta分析是针对某一科研问题,根据明确的搜索策略.选择筛选文献标准.采用严格的评价方法,对来源不同的研究成果进行收集.合并及定量统计分析的方法,最早出现于"循证医学",现已广泛应 ...
- 移植u-boot-2016.11到JZ2440(二:分析启动流程)
目录 2. 分析启动流程 2.1 u-boot.lds链接脚本 2.2 vectors.S 2.3 start.S 2.3.1 设置SVC管理模式.关看门狗.关 ...
- 移植u-boot-2012.04.01到JZ2440(二:分析启动流程)
目录 2. 分析启动流程 2.1 u-boot.lds链接脚本 2.2 start.S启动文件 2.2.1 设置异常向量表 2.2.2 设置SVC管理模式.关看门狗.关中断.设置时钟频 ...
最新文章
- The listener supports no services
- SQL中LIKE的妙用
- springMVC+Spring+mybatis整合配置版与注解版
- Myeclipse10下载,安装,破解,插件,优化介绍.
- 北斗信号服务器解算,GPS/北斗定位解算算法的研究
- .net中前台javascript与后台c#函数相互调用
- 众多SEO专家集体盛赞
- vue.js:634 [Vue warn]: Error in render: “TypeError: Cannot read property ‘matched‘ of undefined“
- studio python 格式快捷键_ubuntu下visual studio 怎么使一段python代码代码格式化
- 图的邻接矩阵(C语言实现)
- C++_类和对象_对象特性_友元_成员函数做友元---C++语言工作笔记054
- anaconda怎么运行python程序_怎么用cmd运行python
- MATLAB plot 画多条线段的问题
- Redis 3.2.8 安装与配置
- 8汉化 netreflector_Reflector下载_.NET Reflector官方中文版下载-华军软件园
- 计算机二级考试报名如何上传照片?
- iOS调用系统相机、相册里面的文字显示英文
- Java做图片上传、文件上传、 批量上传、 Base64图片上传 。附上源码
- matlab用到两个工具箱有重复函数文件处理方法
- Go Signal信号处理
热门文章
- 第一章、Zigbee模块的简介及特点
- C# 使用Aspose.Word将Word书签的数据进行替换 包含打印
- 爬虫->TpImgspider
- shell编程三大神器之awk
- JPG图片比较大如何压缩,图片压缩的简单方法
- python求角度_python根据坐标点的坐标计算角度
- gg大玩家f服务器无响应,gg大玩家显示应用启动失败 | 手游网游页游攻略大全
- Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献之二
- vmware使用桥接模式无法ping通本地和外网的解决方法
- 怎么用计算机打印出东西,打印东西怎么打印出来