HomoloGene数据库就是用来查找物种间对应的同源基因

ftp地址:

ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data

homologene.data存放着不同物种之间同源基因的对应关系

nohup wget -c 'ftp://ftp.ncbi.nih.gov/pub/HomoloGene/build68/homologene.data' & #下载数据
echo -e "HID(HomoloGene_group_id)\tTaxonomyID\tGeneID\tGeneSymbol\tProtein_gi\tProtein_accession" |cat - homologene.data >mid && mv mid homologene.data #给homologene.data文件加上列名$ head -5 homologene.data |column -t
HID(HomoloGene_group_id)  TaxonomyID  GeneID  GeneSymbol  Protein_gi  Protein_accession
3                         9606        34      ACADM       4557231     NP_000007.1
3                         9598        469356  ACADM       160961497   NP_001104286.1
3                         9544        705168  ACADM       109008502   XP_001101274.1
3                         9615        490207  ACADM       545503811   XP_005622188.1

根据HID去重之后的个数,得到44233组同源基因

$ awk 'NR>1{print $1}' homologene.data |sort -u |wc -l
44233

根据TaxonomyID得到目前共21个物种

$ awk 'NR>1{print $2}' homologene.data |sort -u |wc -l
21

每个物种都有一个对应的Taxonomy ID

10090   Mus musculus
10116   Rattus norvegicus
28985   Kluyveromyces lactis
318829  Magnaporthe oryzae
33169   Eremothecium gossypii
3702    Arabidopsis thaliana
4530    Oryza sativa
4896    Schizosaccharomyces pombe
4932    Saccharomyces cerevisiae
5141    Neurospora crassa
6239    Caenorhabditis elegans
7165    Anopheles gambiae
7227    Drosophila melanogaster
7955    Danio rerio
8364    Xenopus (Silurana) tropicalis
9031    Gallus gallus
9544    Macaca mulatta
9598    Pan troglodytes
9606    Homo sapiens
9615    Canis lupus familiaris
9913    Bos taurus

数据库中包含的人类基因数:19129,也就是说这些基因有其它物种的同源基因对应关系

$ awk 'NR>1 && $2=="9606"' homologene.data |wc -l
19129
参考:

https://www.jianshu.com/p/877d6f3cc799

NCBI-homologene数据库的初步探索相关推荐

  1. Redis主从复制架构初步探索 http://www.sxt.cn/info-1750-u-324.html#SXT_h2_11

    Redis主从复制架构初步探索 目录http://www.sxt.cn/info-1750-u-324.html#SXT_h2_11 ·  一.主从复制架构简介 ·  1.1 源于关系数据库的读写分离 ...

  2. python实战故障诊断之CWRU数据集(二):异常数据剔除及包络解调初步探索

    文章目录 1. 概述 2. 异常数据探索 2.1. 电噪声干扰 2.2. 驱动端与风扇端传感器信号混淆 2.3. 分段采集信号整合 3. 正常信号的平方包络解调分析 1. 概述   在完成了CWRU数 ...

  3. 重用体系理论实际应用的初步探索(转)

    重用体系理论实际应用的初步探索(转)[@more@] 一个理论从建立发展到应用有很长的一段路要走.但是再长的道路也是人一点点走出来的吧.这是我从理论迈向实践的第一步. 构建一个游戏的重用体系,具体分为 ...

  4. python socket发送数组_利用pyprocessing初步探索数组排序算法可视化

    [经过两次更新,功能基本完成]最终效果请直接下拉到最后一个视频观看 背景说明 这篇文章旨在初步探索利用pyprocessing的强大的可视化功能,以及pyprocessing和Ipython之间的本地 ...

  5. 关于mysql的教学文章_数据库课程教学方法探索论文

    数据库课程教学方法探索论文 [摘要]本文结合多媒体手段.课程特点和创新理念,分析了数据库知识领域的教学手段.特点和重要性,并提出了加大实践环节.使用创新理念和情景模式的教学方法,以进行详细探讨. [关 ...

  6. Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索

    Alibaba Druid 源码阅读(二) 数据库连接池实现初步探索 简介 在上篇文章中,了解了连接池的应用场景和本地运行了示例,本篇文章中,我们尝试来探索下Alibaba Druid数据库连接池的整 ...

  7. 企查查app sign算法破解初步探索

    企查查app sign算法破解初步探索 之前有说过企查查的sign的解密,但这次是企查查app的sign算法破解,目前是初步进程. 目前我们需要做查壳,具体方法可以百度搜索,企查查用的360加固,很简 ...

  8. ASPNet请求处理机制初步探索之旅Part2核心

    ASPNet请求处理机制初步探索之旅Part2核心 开篇:上一篇我们了解了一个请求从客户端发出到服务端接收并转到ASP.Net处理入口的过程,这篇我们开始探索ASP.Net的核心处理部分,借助强大的反 ...

  9. 创客教育和Mixly的初步探索

    创客教育的理论与实践 + Mixly的初步探索 创客教育 傅骞老师在课堂上指出,创客教育要注重"创新"和"分享","创客就是让你没有目标的去做你喜欢做 ...

最新文章

  1. SpringMVC 处理multipart形式数据:java方式配置文件上传
  2. 从 FFmpeg 性能加速到端云一体媒体系统优化
  3. Kendo UI开发教程(8): Kendo UI 特效概述
  4. Today is my birthday
  5. 私有云之迷思:未来是什么?
  6. 如何将每一条记录放入到对应的范围中
  7. 用python扩展snmp
  8. 关于这个错误的不明原因的解决之道
  9. SpringCloud——pom文件初始配置
  10. 分享一款漂亮的Bootstrap模板INSPINIA_adminV2.5
  11. tpadmin的坑收集 nginx下配置tp5失败
  12. 一、super slomo介绍
  13. MSDN Library下载与安装(MFC)
  14. 计算机屏幕怎么设置键盘,[怎么用屏幕键盘]怎么用键盘调屏幕分辨率
  15. iphone,ipad,android图片尺寸
  16. 翻车率贼高的一个小题目
  17. Chromium网页CPU光栅化原理分析
  18. 异贝,通过移动互联网技术,为中小微实体企业联盟、线上链接、线上线下自定义营销方案推送。案例62
  19. 郭秀闲:我如何看待埃维诺的未来发展
  20. 计算机主机组成成分,手机电脑芯片主要由什么物质组成

热门文章

  1. linux系统界面转换为中文,Linux 系统把英文修改成中文界面
  2. arduino字符串比较,串口打印
  3. 径向基函数(rbf)神经网络 基础篇 奥利给 干就完了!
  4. 【Win 10 应用开发】在后台进行多媒体转码
  5. 基于SSM的果蔬经营平台系统
  6. 微信小程序 JS 字符串string与utf8编码的arraybuffer的相互转换
  7. 视频教程-Java基础中国象棋和网络聊天室Swing开发-Java
  8. 自然语言处理中的自动对话系统开发及实现
  9. 纯js弹窗Dialog组件
  10. 新版谷歌浏览器不支持TABLE表格标记