1. 工作背景

探究在芝麻、大豆以及拟南芥中FAD4-like基因家族进化关系,并使其可视化(进化树)

  1. 操作环境及软件的准备

虚拟机应用:VMware Workstation pro 17

虚拟机操作系统:Ubuntu

MobaXterm:用于在虚拟机与宿主机之间传输文件

MEGA 11:用于生成基因家族进化树

  1. 数据支持

基因课教程 15天入门生物信息(2021年)_哔哩哔哩_bilibili

  1. 分析步骤

STEP1: 根据已知protein ID(在本次练习中为拟南芥的At1g62190、At2g22890、At4g27030)在对应的物种数据库(在本次练习中为atha.fasta)中获取对应protein ID的sequence信息,并输出为.fasta格式文件

less -S atha.fasta  #tip在此使用less -S打开atha.fasta文件

出现如下情况,即.fasta文件的文本格式(每个protein ID后接其sequence信息)

#tip在less浏览器中使用 “/ + 文本”的方法对ID对应的信息进行查找
/At1g62190
/At2g22890
/At4g27030

使用vim新建并编辑.fasta,成功查找并复制sequence信息后,将信息导入至新的.fasta文件(在此命名为query.fasta)

vi query.fasta

至此步骤一结束

STEP2: 在此步骤中,我们需要建立芝麻、大豆以及拟南芥的全部蛋白质序列库,并将At1g62190、At2g22890、At4g27030的序列信息比对其中。为减少工作步骤,我们将上述三个物种的蛋白质序列库合为一个总序列库,这样只需要进行一次比对即可进行后续操作。

将三物种蛋白质序列库合为一个总数据库(all.fasta)

cat atha.fasta gmax.fasta sind.fasta >all.fasta

至此步骤二结束

STEP3: blast比对

首先我们要在虚拟机上安装blast包,并查看其使用方法

conda install blast #tip使用conda安装blast包
blastp -help #tip查看blastp(蛋白质比对)使用方法

可知进行blastp比对的命令行用法为

blastp -query <filename1> -db <databasename> -out <filename2> -evalue <evalue> -outfmt <0-18>
#tip filename1是对比文件 databasename是blastdb数据库 filename2是比对结果文件 evalue是e值 0-18对应结果文本输出格式

-db后的参数bingfei之前整合的all.fasta文件,而是blast比对特定的数据库格式,在运行上述代码之前我们应先将all.fasta转化为blast数据库blastdatabase.fasta,方法如下

makeblastdb -help
makeblastdb -dbtype prot -in all.fasta -out blastdatabase.fasta

构建好blastdb数据库后,我们运行blastp比对程序,并命名比对结果为compare.out,代码如下

blastp -query query.fasta -db blastdatabase.fasta -out compare.out -evalue 1e-20 -outfmt 7

获得比对结果,我们将compare.fasta用less -S命令行打开

less -S compare.out

我们在设置e值为1e-20条件下获得了比对结果,但我们要获得其他物种同家族的条件为%identity>50且e值为<1e-30,在我们重新调试参数后,将满足上述条件的文本第二列提取出来,多余的文本删除,完成去重复,并将最终序列存入proteinID.txt文件中,代码如下

grep -v "#" compare.out | awk '$3>50 && $11<1e-30 {print $2}' | sort | uniq > proteinID.txt

至此,我们完成了blast比对并获取了三个物种的FAD4-like降家族基因

STEP4: 根据蛋白质ID获取对应蛋白质序列

此过程我们需要用到seqtk包

conda install seqtk
seqtk #tip了解其使用方法

进行获取,并保存至proteinSequence.fasta

seqtk subseq all.fasta proteinID.txt > proteinSequence.fasta

至此我们完成了基因家族蛋白质序列的获取

STEP5: 将proteinSequence.fasta导入MEGA 11生成进化树

MEGA 11蛋白质序列比对

MEGA 11基因家族进化树

至此一个简单的基因家族分析就完成了!

期待和各位感兴趣的伙伴们交流

[基因课学习笔记]一个简单的基因家族分析相关推荐

  1. C语言学习笔记---一个简单的文件压缩示例

      通过一个简单的文件文件压缩例子,来学习文件操作的相关函数.该程序以只读的方式 "r" 打开第一个文件,以只写的方式"w"打开第二个文件.将第一个文件中每隔3 ...

  2. web学习笔记——一个简单的HTML

    为了更好的做web安全测试,最近开始学习web相关知识.先从最简单的一个html页面开始: <!DOCTYPE html> <html><head><titl ...

  3. VC学习笔记:简单绘图

    VC学习笔记:简单绘图 SkySeraph Oct.29th 2009  HQU Email-zgzhaobo@gmail.com  QQ-452728574 Latest Modified Date ...

  4. 鲁祥老师吉他课学习笔记

    鲁祥老师吉他课学习笔记 导语 参考教材: <吉他入门经典教程>李国标 <弹指之间>潘尚文 <吉他教本>好连得出版社 <吉他教程>杰瑞吉他学校 <伯 ...

  5. python自训练神经网络_tensorflow学习笔记之简单的神经网络训练和测试

    本文实例为大家分享了用简单的神经网络来训练和测试的具体代码,供大家参考,具体内容如下 刚开始学习tf时,我们从简单的地方开始.卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第 ...

  6. STM32F429I-Discovery学习笔记--(1)简单上手和官方例程的下载与使用

    STM32F429I-Discovery学习笔记–(1)简单上手和官方例程的下载与使用 到手测试 收到开发板后我们要首先检查一下外观有没有磕碰破损,排针是否发生弯折,重要的是看一下JP3和CN4处的跳 ...

  7. Tensorflow2学习笔记:简单灰度图分类

    Tensorflow2学习笔记:简单灰度图分类 相关介绍 实验环境 实验步骤 导入相关库 导入数据集 浏览数据 预处理数据 构建模型 设置层 编译模型 训练模型 向模型馈送数据 评估准确率 进行预测 ...

  8. 学习笔记--一个自管理(组织)的多目标进化算法(SMEA)

    学习笔记–一个自管理(组织)的多目标进化算法(SMEA) 摘要:在温和条件下,一个连续m维目标的优化问题的帕累托前沿(解集)可以形成一个(m-1)维的分段连续流形.基于这个性质,这篇文章提出了一个自管 ...

  9. wyy课堂cmos模拟设计课学习笔记-器件介绍

    推荐一下wyy课堂的cmos模拟课程,比之前便宜好多就果断买了. wyy课堂cmos模拟设计课学习笔记-器件介绍 一.工艺库介绍的相关文件 二.bipolar 三.mos 四.电阻 五.电容 六.电感 ...

最新文章

  1. Flex LineChart曲线——动态加载组件
  2. node.js 爬虫中文乱码 处理
  3. C/C++返回内部静态成员的陷阱
  4. 一篇论文未发博士毕业,中科院最年轻院士入职浙大
  5. mysql5.045_数据库升级后goldengate报错,ORA-04045
  6. FPGA RTL级设计原则
  7. 社区团购真的是实体店终结者吗?
  8. javaweb 获取服务器整个文件夹下的文件_详细得不要不要的 JavaWeb快速入门,值得收藏!...
  9. 拿到offer怕查学历不敢去_《令人心动的offer》— 我们法庭见
  10. python编程求一个数的平方根_用Python求一个数的平方根.
  11. html文件默认浏览器改不了,怎么设置默认浏览器 3种更改默认浏览器方法
  12. 下一代 Web 应用模型 — Progressive Web App
  13. java链接易联云打印机
  14. Influxdb相关概念及简单实用操作
  15. 神秘贼掉包二维码,支付宝赔偿200多,烧烤小哥为何还骂支付宝没良心?
  16. 黑苹果 之 神舟战神Z7M-SL7D2
  17. 管道仪表流程图中常用的字母及其含义
  18. 分享数百个 HT 工业互联网 2D 3D 可视化应用案例
  19. hdu 1541 树状数组版)——咯咯
  20. 80/20法则:少工作,多赚钱,多享受生活

热门文章

  1. 利用决策树算法对sklearn中红酒数据集进行可视化分类
  2. js方法在ie浏览器不起作用
  3. html5制作颜色的诗句,写颜色的诗句
  4. python的类变量和成员变量
  5. GDUT_排位赛题解报告_第5场_A. 唯一排列
  6. MD5 base64 sha1 加密,解密
  7. 山东企业办理体系认证大盘点
  8. Android传递对象方式Parcelable
  9. APK构建过程-命令行编译
  10. 累加校验和C语言实现