转载:http://www.realbio.cn/news/124.html

https://blog.csdn.net/seallama/article/details/43820763

http://www.cnblogs.com/huangying78/p/8638506.html

1. 数据库的配置

OrthoMCL的分析需要先行建立mysql账户并建立相应的数据库。关于mysql用户的创建我们不在此进行介绍,我们以已经建立好的账户(账户名user,密码123456)为例进行操作。
A. 在linux环境下输入mysql -uuser -p123456进入mysql界面;
B. 输入create database orthomcl;建立一个名为orthomcl的空数据库用以存放分析时的中间文档;
C. 输入\q退出mysql界面。

2  软件下载
OrthoMCL的分析需要OrthoMCL软件本体和mcl软件。
OrthoMCL软件下载地址为:http://orthomcl.org/common/downloads/software/,解压缩后,其中包含文件夹:bin、config、doc、lib四个文件夹,添加bin路径为环境变量

mcl软件下载地址为:http://www.micans.org/mcl/src/mcl-latest.tar.gz;下载后使用:’./configure && make && make install’安装即可。包含发的文件是bin 、share。

3 配置OrthoMCL软件
进入安装路径下,输入:cp~/orthomclSoftwarev2.0.9/doc/OrthoMCLEngine/Main/orthomcl.config.template ~/example,将~/orthomcl.config.template拷贝到工作目录(以~/example为例)中,该文件为OrthoMCL的配置文件,以使用mysql数据库为例,其中的内容如下:cat orthomcl.config.template

dbVendor=mysql   #使用的数据库为mysql
dbConnectString=dbi:mysql:orthomcl   #使用之前建立的名为orthomcl的数据库
dbLogin=user    #创建的用户名
dbPassword=123  #密码
similarSequencesTable=SimilarSequences #
orthologTable=Ortholog
inParalogTable=InParalog
coOrthologTable=CoOrtholog
interTaxonMatchView=InterTaxonMatch
percentMatchCutoff=50
evalueExponentCutoff=-5
oracleIndexTblSpc=NONE

4 分析过程

4.1 输入文件格式转化

orthomcl的输入文件为fasta格式的基因或蛋白序列,fasta文件的序列名称要求以样品名开头之后接’|’分隔,之后接每个样品的序列名(如例1),而且样品名和序列名不能有重复。

命令:orthomclAdjustFasta程序,将fasta文件转换出兼容orthomcl的fasta文件使用命令:(1)orthomclAdjustFasta    A(B,ref)   X1(X2,X3).fa   1,结果输出为A(B,ref).fasta。(单个跑完再合并)。本文生成样品A,B和参考序列ref为例,在compliantFasta文件夹中的序列文件名分别为:A.fa,b.fa,ref.fa。

例1:

>A|gene1

ASSRKSKWQFMGARDAGAKDELRQVYGVSERTESDGAANLIHKLRAINYTLAELGQWCAYKVGQSFLSAL

>B|contig1

KDELRQVYGVSERTESD

4.2 输入文件合并过滤

使用命令:orthomclFilterFasta  compliantFasta/  10  20。允许的最短的protein长度是10,stop codons最大比例为20%;生成了两个文件(2)goodProteins.fasta和poorProteins.fasta两个文

4.3 全序列比对

将上一步的goodProteins.fasta序列进行自身的多序列比对,比对使用软件为blast+,输出结果为all.m8.anno。文件太大可以拆分比对,最后合并
/share/nas2/genome/bin//blastall -b 1000 -v 1000  -a 2  -p  blastp  -e 1e-5 -F F -d goodProteins.fasta  -i goodProteins.fasta.div1/goodProteins.fasta.f2.106.seq   -o /goodProteins.fasta.div1/goodProteins.fasta.f2.106.seq.blast   -m 8

cat goodProteins.fasta.f2.*.seq.blast  >(3)all_VS_all.out.tab  还可以去除重复(一列,二列)最后获得 (4)all_VS_all.result

4.4  导入比对结果
将比对结果导入mysql数据库,包含以下几个步骤:
A. 将比对结果转化为规定格式,命名为similarSequences.txt,命令为:(5)orthomclBlastParser all_VS_all.result seq > similarSequences.txt
B. 将similarSequences.txt导入到数据库中,命令为:orthomclLoadBlast orthomcl.config.template similarSequences.txt

4.5 寻找paired蛋白
输入为数据库中的表SimilarSequences,和数据库的空表InParalog, Ortholog, CoOrtholog tables;输出为对这些空表的操作,命令为:orthomclPairs orthomcl.config.template orthomcl_pairs.log cleanup=no。

4.6 将数据从mysql导出

生成(6)mcllnput文件和pairs目录。这个目录包含三个文件:
ortholog.txt, coortholog.txt, inparalog.txt。
每一个文件有三列: proteinA, protein B, their normalized score (See the Orthomcl Algorithm Document)。

命令为:orthomclDumpPairsFiles orthomcl.config.template。

4.7 使用mcl对paired蛋白聚类
命令为:mcl mclInput --abc -I 1.5 -o (7) mclOutput。

4.8 对结果编号
命令为:orthomclMclToGroups gf 1 < mclOutput > (8)groups.txt。家族名为gf_1,gf_2,gf_3...,格式如图2 。

转载于:https://www.cnblogs.com/renping/p/10126229.html

41、OrthoMCL和mcl软件进行基因家族分析相关推荐

  1. seqkit根据基因id_基因家族分析保姆级教程(分子进化)-生信小白自学之路

    开始前先熟悉一下我自己 简单介绍一下,我是20级研究生,普通本科和中科院海洋所联培的学生,什么是联培呢,简单来说就是理论课程在学校上,根据学校安排,一般是一年,我们半年就上完了,后面就去海洋所工作了. ...

  2. 基于TBtools做基因家族分析教程 (全)

    基因家族分析笔记-全部开始记录 一. 写在前面 2023年4月中旬自己开始做基因家族的分析,对于这块自己没有接触过,因此也是一个挑战,没事!!!(安慰自己),对于基因家族的分析网上的教程很多,跟着步骤 ...

  3. 全球与中国云合同管理软件市场深度研究分析报告

    [报告篇幅]:111 [报告图表数]:144 [报告出版时间]:2021年12月 报告摘要 本文研究全球及中国市场云合同管理软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲 ...

  4. 基因家族分析及SCI写作技巧

    随着高通量测序以及生物信息学的发展,各物种基因组序列快速释放,为基因家族分析和论文写作带来了契机.基因家族的生物信息学分析也为后续基因功能研究提供了强有力的理论支撑,在数据挖掘中发挥着越来越重要的作用 ...

  5. 全球与中国能力和技能管理软件市场深度研究分析报告

    [报告篇幅]:115 [报告图表数]:143 [报告出版时间]:2022年2月 报告摘要 本文研究全球及中国市场能力和技能管理软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧 ...

  6. 全球与中国云监控软件市场深度研究分析报告(2021)

    [报告篇幅]:129 [报告图表数]:174 [报告出版时间]:2021年1月 报告摘要 本文研究全球及中国市场云监控软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.日本 ...

  7. 全球与中国体积视频软件市场深度研究分析报告

    [报告篇幅]:133 [报告图表数]:164 [报告出版时间]:2021年11月 报告摘要 本文研究全球及中国市场体积视频软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲. ...

  8. 全球与中国医疗BI软件市场深度研究分析报告

    本文研究全球及中国市场医疗BI软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中国.日本.东南亚和印度等地区的现状及未来发展趋势. 2021年全球医疗BI软件市场销售额达 ...

  9. 全球与中国智能精准医疗软件市场深度研究分析报告

    [报告篇幅]:85 [报告图表数]:123 [报告出版时间]:2021年1月 报告摘要 本文研究全球及中国市场智能精准医疗软件现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲. ...

最新文章

  1. JavaScript Array相关方法
  2. python 将字符串转换成字典dict
  3. 在Visual Studio中使用Git [关闭]
  4. html 弹出遮罩 iframe,iframe正在加载时显示遮罩层 加载完毕后显示iframe
  5. boost::remove_if相关的测试程序
  6. JAVA多线程之扩展ThreadPoolExecutor
  7. ethereumjs/ethereumjs-common-3-test
  8. QCostomPlot 示例注解 1
  9. CSS3j背景渐变,字体颜色渐变,以及兼容IE写法
  10. WebService基础学习
  11. Bailian2996 选课【置换】
  12. 微软百名员工公开请愿,力挺“996.ICU”
  13. 【相机标定系列】双目相机标定要求,基础知识,相机参数
  14. 摄像头bug查找工作总结
  15. GitHub官网操作指南
  16. Python百行代码随机生成姓名
  17. 2020届春招实习面经(含阿里、腾讯、网易、京东、华为、美团、快手、字节跳动)
  18. armbian 斐讯n1_树莓派/斐讯N1/ARMBIAN/安装HOME ASSISTANT
  19. Keil(MDK)STM32和51版本详细安装
  20. 一文打通 Git 任督二脉

热门文章

  1. MSP430F5529 DriverLib 库函数学习笔记(九)SPI
  2. CommonCollection1反序列化链学习
  3. 对话框找不到WM_ERASEBKGND消息的解决方法与对话框背景图片的载入方法
  4. js reduce数组循环相加x+y
  5. [react] 为什么建议Fragment包裹元素?它的简写是什么?
  6. 前端学习(2940):vue作为组件的注意事项
  7. [html] 如何优化页面的渲染过程?
  8. [html] 为什么我们要使用web workers?
  9. [css] 请说说CSS3实现文本效果的属性有哪些?
  10. [js] ajax如何接收后台传来的图片?