[基因课学习笔记]一个简单的基因家族分析
工作背景
探究在芝麻、大豆以及拟南芥中FAD4-like基因家族进化关系,并使其可视化(进化树)
操作环境及软件的准备
虚拟机应用:VMware Workstation pro 17
虚拟机操作系统:Ubuntu
MobaXterm:用于在虚拟机与宿主机之间传输文件
MEGA 11:用于生成基因家族进化树
数据支持
基因课教程 15天入门生物信息(2021年)_哔哩哔哩_bilibili
分析步骤
STEP1: 根据已知protein ID(在本次练习中为拟南芥的At1g62190、At2g22890、At4g27030)在对应的物种数据库(在本次练习中为atha.fasta)中获取对应protein ID的sequence信息,并输出为.fasta格式文件
less -S atha.fasta #tip在此使用less -S打开atha.fasta文件
出现如下情况,即.fasta文件的文本格式(每个protein ID后接其sequence信息)
#tip在less浏览器中使用 “/ + 文本”的方法对ID对应的信息进行查找
/At1g62190
/At2g22890
/At4g27030
使用vim新建并编辑.fasta,成功查找并复制sequence信息后,将信息导入至新的.fasta文件(在此命名为query.fasta)
vi query.fasta
至此步骤一结束
STEP2: 在此步骤中,我们需要建立芝麻、大豆以及拟南芥的全部蛋白质序列库,并将At1g62190、At2g22890、At4g27030的序列信息比对其中。为减少工作步骤,我们将上述三个物种的蛋白质序列库合为一个总序列库,这样只需要进行一次比对即可进行后续操作。
将三物种蛋白质序列库合为一个总数据库(all.fasta)
cat atha.fasta gmax.fasta sind.fasta >all.fasta
至此步骤二结束
STEP3: blast比对
首先我们要在虚拟机上安装blast包,并查看其使用方法
conda install blast #tip使用conda安装blast包
blastp -help #tip查看blastp(蛋白质比对)使用方法
可知进行blastp比对的命令行用法为
blastp -query <filename1> -db <databasename> -out <filename2> -evalue <evalue> -outfmt <0-18>
#tip filename1是对比文件 databasename是blastdb数据库 filename2是比对结果文件 evalue是e值 0-18对应结果文本输出格式
-db后的参数bingfei之前整合的all.fasta文件,而是blast比对特定的数据库格式,在运行上述代码之前我们应先将all.fasta转化为blast数据库blastdatabase.fasta,方法如下
makeblastdb -help
makeblastdb -dbtype prot -in all.fasta -out blastdatabase.fasta
构建好blastdb数据库后,我们运行blastp比对程序,并命名比对结果为compare.out,代码如下
blastp -query query.fasta -db blastdatabase.fasta -out compare.out -evalue 1e-20 -outfmt 7
获得比对结果,我们将compare.fasta用less -S命令行打开
less -S compare.out
我们在设置e值为1e-20条件下获得了比对结果,但我们要获得其他物种同家族的条件为%identity>50且e值为<1e-30,在我们重新调试参数后,将满足上述条件的文本第二列提取出来,多余的文本删除,完成去重复,并将最终序列存入proteinID.txt文件中,代码如下
grep -v "#" compare.out | awk '$3>50 && $11<1e-30 {print $2}' | sort | uniq > proteinID.txt
至此,我们完成了blast比对并获取了三个物种的FAD4-like降家族基因
STEP4: 根据蛋白质ID获取对应蛋白质序列
此过程我们需要用到seqtk包
conda install seqtk
seqtk #tip了解其使用方法
进行获取,并保存至proteinSequence.fasta
seqtk subseq all.fasta proteinID.txt > proteinSequence.fasta
至此我们完成了基因家族蛋白质序列的获取
STEP5: 将proteinSequence.fasta导入MEGA 11生成进化树
MEGA 11蛋白质序列比对
MEGA 11基因家族进化树
至此一个简单的基因家族分析就完成了!
期待和各位感兴趣的伙伴们交流
[基因课学习笔记]一个简单的基因家族分析相关推荐
- C语言学习笔记---一个简单的文件压缩示例
通过一个简单的文件文件压缩例子,来学习文件操作的相关函数.该程序以只读的方式 "r" 打开第一个文件,以只写的方式"w"打开第二个文件.将第一个文件中每隔3 ...
- web学习笔记——一个简单的HTML
为了更好的做web安全测试,最近开始学习web相关知识.先从最简单的一个html页面开始: <!DOCTYPE html> <html><head><titl ...
- VC学习笔记:简单绘图
VC学习笔记:简单绘图 SkySeraph Oct.29th 2009 HQU Email-zgzhaobo@gmail.com QQ-452728574 Latest Modified Date ...
- 鲁祥老师吉他课学习笔记
鲁祥老师吉他课学习笔记 导语 参考教材: <吉他入门经典教程>李国标 <弹指之间>潘尚文 <吉他教本>好连得出版社 <吉他教程>杰瑞吉他学校 <伯 ...
- python自训练神经网络_tensorflow学习笔记之简单的神经网络训练和测试
本文实例为大家分享了用简单的神经网络来训练和测试的具体代码,供大家参考,具体内容如下 刚开始学习tf时,我们从简单的地方开始.卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第 ...
- STM32F429I-Discovery学习笔记--(1)简单上手和官方例程的下载与使用
STM32F429I-Discovery学习笔记–(1)简单上手和官方例程的下载与使用 到手测试 收到开发板后我们要首先检查一下外观有没有磕碰破损,排针是否发生弯折,重要的是看一下JP3和CN4处的跳 ...
- Tensorflow2学习笔记:简单灰度图分类
Tensorflow2学习笔记:简单灰度图分类 相关介绍 实验环境 实验步骤 导入相关库 导入数据集 浏览数据 预处理数据 构建模型 设置层 编译模型 训练模型 向模型馈送数据 评估准确率 进行预测 ...
- 学习笔记--一个自管理(组织)的多目标进化算法(SMEA)
学习笔记–一个自管理(组织)的多目标进化算法(SMEA) 摘要:在温和条件下,一个连续m维目标的优化问题的帕累托前沿(解集)可以形成一个(m-1)维的分段连续流形.基于这个性质,这篇文章提出了一个自管 ...
- wyy课堂cmos模拟设计课学习笔记-器件介绍
推荐一下wyy课堂的cmos模拟课程,比之前便宜好多就果断买了. wyy课堂cmos模拟设计课学习笔记-器件介绍 一.工艺库介绍的相关文件 二.bipolar 三.mos 四.电阻 五.电容 六.电感 ...
最新文章
- Flex LineChart曲线——动态加载组件
- node.js 爬虫中文乱码 处理
- C/C++返回内部静态成员的陷阱
- 一篇论文未发博士毕业,中科院最年轻院士入职浙大
- mysql5.045_数据库升级后goldengate报错,ORA-04045
- FPGA RTL级设计原则
- 社区团购真的是实体店终结者吗?
- javaweb 获取服务器整个文件夹下的文件_详细得不要不要的 JavaWeb快速入门,值得收藏!...
- 拿到offer怕查学历不敢去_《令人心动的offer》— 我们法庭见
- python编程求一个数的平方根_用Python求一个数的平方根.
- html文件默认浏览器改不了,怎么设置默认浏览器 3种更改默认浏览器方法
- 下一代 Web 应用模型 — Progressive Web App
- java链接易联云打印机
- Influxdb相关概念及简单实用操作
- 神秘贼掉包二维码,支付宝赔偿200多,烧烤小哥为何还骂支付宝没良心?
- 黑苹果 之 神舟战神Z7M-SL7D2
- 管道仪表流程图中常用的字母及其含义
- 分享数百个 HT 工业互联网 2D 3D 可视化应用案例
- hdu 1541 树状数组版)——咯咯
- 80/20法则:少工作,多赚钱,多享受生活