NCBI中对所有原核生物ANI计算的统计结果简单讲解

来龙去脉还没搞清楚,就先从结果切入。放上一个计算结果的链接https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/
里面有一个文件ANI_report_prokaryotes.txt就是最终的统计结果。
根据README_ANI_report_prokaryotes.txt这个文件里面的介绍可以看到:
1.这个文件是时刻更新的
2.这里面包含了对于Genbank中所有提交的原核生物基因组的ANI信息
3.计算ANI的方法如这篇文章里面讲的一样。

ANI

ANI是average nucleotide identity,也就是平均核苷酸相似度,是在核苷酸水平比较两个基因组亲缘关系的指标。ANI被定义为两个微生物基因组同源片段之间平均的碱基相似度,他的特点是在近缘物种之间有较高的区分度。[1]

就结果本身而言

先从说明文件中了解一下结果文件这些列分别表示什么:

0~8列,组装序列基本信息
0.序列组装的GenBank登录号 1.组装序列所使用的RefSeq 2.组装序列所对应的分类编号 3.组装序列所对应的物种的的分类编号【当这个序列是在亚种层面组装,或者是从一个有自己分类学编号的较老品种中得到时会与前一列【2】编号不同】 4.与【2】对应的,组装序列所对应的分类名称 5.与【3】对应的,组装序列所对应的物种名 6.组装名,对于本次序列组装的识别符 7.如果组装序列来自于模式株,则对于它的type进行分类,分为“type”, “neotype”, “pathovar”, “reftype”, “syntype”, “suspected-type”。如果不是来自于模式株则为“na” 8.组装序列被排除在RefSeq外的理由。如果组装序列非常可靠则为"na"
genbank-accession refseq-accession taxid species-taxid organism-name species-name assembly-name assembly-type-category excluded-from-refseq

【7】的补充说明:
type - the sequences in the genome assembly were derived from type material

neotype - the sequences in the genome assembly were derived from neotype material

pathovar - the sequences in the genome assembly were derived from pathovar
material

reftype - the sequences in the genome assembly were derived from reference
material where type material never was available and is not likely to ever be available

syntype - the sequences in the genome assembly were derived from synonym type material

suspected-type - the type is one of the types listed above but because it does
not match other type-strain assemblies for the same species, or cannot be vetted for some other reason, it is not used to make taxid changes even though it is used to generate ANI data.

【7】【8】的补充说明:
Any type-strain assembly that is untrustworthy as type will have “na” in the assembly-type-category column.
一些从模式株中分离出的序列在【8】中有一些理由不被收录为RefSeq,并且这些理由使这个组装序列不可信,那么【7】中也会给这个序列标为"na"。

9~14列,declared-type-assembly匹配结果
9.这个物种中与该组装序列匹配最好的模式株组装序列,或者以"no-type"表示这个物种没有模式株组装的序列。如果这个组装序列来自于模式株,则是匹配最好的其他模式株组装序列,或者以"same"表示这个模式株只有这一个序列组装 10.【9】中序列的分类名称 11.对【9】中序列以与【7】相同的type分类方式进行标注。以"no-type"表示该物种没有模式株组装序列,或者以"na"表示这个组装序列就是唯一的模式株组装序列 12.组装序列与该物种模式株组装序列的ANI。“na”表示这个物种没有模式株组装序列,或者【13】或【14】中<10% 13.【9】中模式株组装序列对该组装序列的覆盖百分比 14.该组装序列对【9】中模式株组装序列的覆盖百分比
declared-type-assembly declared-type-organism-name declared-type-category declared-type-ANI declared-type-qcoverage declared-type-scoverage
15~24列,best-match-type-assembly匹配结果
15.根据ANI得到的最佳匹配模式株组装序列。“none-found“表示没有模式株组装序列和该组装序列匹配 16.【15】中序列对应的物种的分类学标识符 17.【15】中序列对应的物种名称 18.与【7】中相同的方式标注【15】中的序列的type类别 19.该组装序列与【15】中序列的ANI 20.该组装序列被【15】中序列所覆盖的百分比 21.【15】中序列被该组装序列所覆盖的百分比 22.【15】中序列与该组装序列best match的情况 23. 24.综合【22】和【23】中的表述得到3个级别的分类检验等级。”ok”,“inconclusive”和“failed”
best-match-type-assembly best-match-species-taxid best-match-species-name best-match-type-category best-match-type-ANI best-match-type-qcoverage best-match-type-scoverage best-match-status comment taxonomy-check-status

【22】的补充说明:
Values that indicate the species declared for the query assembly is OK:

  • species-match
  • the query assembly matches a type-strain assembly for the declared species.
  • subspecies-match
  • the query assembly matches a type-strain assembly for the declared species and both are the same subspecies.
  • synonym-match
  • the query assembly matches a type-strain assembly for a synonym of the
    declared species. A specialized synonymy list is used to handle difficult
    cases of typing.
  • derived-species-match
  • the query assembly matches a type-strain assembly for a subspecies of the declared species.
  • genus-match
  • the query assembly has an informal species name (usually “sp.” format), and the best-matching type-strain assembly shares the same genus.
  • approved-mismatch
  • the query assembly best matches a type-strain assembly from a different
    species above ANI threshold, but the mismatch was manually reviewed and the declared species was accepted.

Values that indicate the species declared for the query assembly is incorrect:

  • mismatch
  • 尽管这一物种有模式株的序列组装,但是该组装序列仍然匹配到了别的物种的模式株序列。the query assembly best matches a type-strain assembly from a different species, above ANI threshold, even though a type-strain assembly for the declared species is available. GenBank will address the mismatch when high coverage values provide high confidence in the mismatch result, i.e. query coverage and subject coverage are both over 80%.

Values that indicate the ANI data are inconclusive:

  • below-threshold-match
  • the query assembly matches a type-strain assembly for the declared species but the ANI is below the species ANI threshold.
  • below-threshold-mismatch
  • the query assembly best matches a type-strain assembly from a different
    species but the ANI is below the species ANI threshold.
  • low-coverage
  • the query assembly did not match the best-matching type-strain assembly above 10% query-coverage and/or 10% subject-coverage.

【23】的补充说明:

  • Assembly is the type-strain, no match is expected
  • the assembly is the only type-strain assembly for the species, hence it is
    expected that it may not match any other type-strain assembly.
  • Assembly is the type-strain, mismatch is within genus and expected
  • the assembly is the only type-strain assembly for the species, hence it is
    expected that its best match may be to a type-strain assembly from another species on the same genus but with ANI below 98%.
  • Assembly is type-strain, failed to match other type-strains on its species
  • a type-strain assembly is expected to match all other type-strain assemblies on the species.

【24】的补充说明:

OK
  • the ANI result is consistent with the declared species
    The best-match-status is species-match, subspecies-match,
    derived-species-match, synonym-match, genus-match, approved-mismatch, or the comment indicates either that the assembly is the type-strain and no match is expected, or that the assembly is the type-strain, the mismatch is within genus and is expected.
Inconclusive
  • the ANI result is inconclusive
    The best-match-status is low-coverage, below-threshold-match, below-threshold-mismatch, na, or the comment indicates that the assembly is a type-strain that failed to match other type-strains on its species.
Failed
  • the ANI result is inconsistent with the declared species The best-match-status is mismatch and the comment is na.

参考

1,基因组相似性计算:ANI,星空Idealist

NCBI中对所有原核生物ANI计算的统计结果简单讲解相关推荐

  1. pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations)、例如,计算两种商品销售额之间的3个月的滚动相关性

    pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations).例如,计算两种商品销售额之间的3个月的滚动相关性 目录

  2. python使用numpy中的np.mean函数计算数组的均值、np.var函数计算数据的方差、np.std函数计算数组的标准差

    python使用numpy中的np.mean函数计算数组的均值.np.var函数计算数据的方差.np.std函数计算数组的标准差 目录

  3. NCBI中SRA数据库简介

    NCBI中SRA数据库简介 SRA数据库简介 SRA 数据库, 为Sequence Read Archive 的缩写.主要存储高通量测序的数据,来自四个测序平台,分别为: Roche_LS454,Il ...

  4. C程序语言表达式运算顺序,详解C++编程中表达式的语义与计算顺序

    表达式根据其运算符的优先级和分组来计算. 计算顺序请看以下示例: // expre_pluslang__pluslang_Order_of_Evaluation.cpp // compile with ...

  5. DNA序列编码中Hairpin的定义和计算

    DNA序列编码中Hairpin的定义和计算 觉得有用的话,欢迎一起讨论相互学习~ 参考文献 [1] 张凯. DNA计算核酸编码优化及算法设计[D]. 2008. [2] Shin, Soo Yong ...

  6. [爬虫实战]利用python快速爬取NCBI中参考基因组assembly的相关信息

    1.问题导向 最近在做某个课题的时候,按老师的要求需要从NCBI中批量下载不同物种的参考基因组,同时收集相应参考基因组的一些组装信息,基因组非常多,导致工作量巨大,一个一个手动收集的话,既费时又费力, ...

  7. 如何用python处理excel中时间重合_python读取Excel文件中的时间,并计算时间间隔...

    以此Excel文件为例: 1.python读取Excel文件中的时间 import xlrd #读取Excel文件 workbook = xlrd.open_workbook('C:/Users/12 ...

  8. ncbi查找目的基因序列_如何获得基因序列——在NCBI中查找目的基因实例.PDF

    如何获得基因序列--在NCBI中查找目的基因实例 如何获得基因序列?--在 NCBI 中查找目的基因实例 如何获得基因序列?--在 NCBI 中查找目的基因实例 基因,即具有遗传效应的 DNA 片段, ...

  9. NCBI中SRA数据下载

    NCBI中SRA数据下载 hs6605015 2020-08-02 14:35:34  1170  收藏 8 版权 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要 ...

最新文章

  1. 生态伙伴 | 轻计划入驻飞书,轻松管理你的项目
  2. Python pandas
  3. hdu2438 三分
  4. LVM的创建与快照和SSM存储管理器的使用
  5. body-parser 是一个Http请求体解析中间件
  6. LUOGU P4281 [AHOI2008]紧急集合 / 聚会 (lca)
  7. 中保车服灾备云,为保险公司“上保险”
  8. ParticleEditor粒子编辑器
  9. table 转义字符 html,HTML转义字符表
  10. 中国矿业大学本科毕业设计Latex模板cumtthesis
  11. java nio为什么是非阻塞_Java nio都是非阻塞IO么?并非如此
  12. c语言编八卦图形,关于C语言实现一个八卦图!(我代码写好了,求人改动一下)
  13. java反向代理开源_树莓派反向代理方法大全
  14. 常用传感器讲解二--火焰探测器-KY-026(FLAME)
  15. voyage java_GitHub - zhaoshiling1017/voyage: 采用Java实现的基于netty轻量的高性能分布式RPC服务框架...
  16. Java实现第九届蓝桥杯第几个幸运数字
  17. 用 HTML 做一个表单模板
  18. react等 一些视频学习网址
  19. 最详细的maven教程
  20. 同人女,我想对你说——黄金圣斗士对同人女的真情告白

热门文章

  1. 火箭军计算机网络技术就业方向,计算机系统结构专业就业方向
  2. Java5分钟制作海报
  3. js 复制图片到微信
  4. FREENAS虚拟机Jails配置全攻略(多篇集合)
  5. vue-cli 项目踩坑 npm install 时出错
  6. Vue2(十一):脚手架配置代理、github案例、插槽
  7. 【算法设计zxd】第四章蛮力法 1.枚举法 02穷举查找
  8. 《C++Primer》学习笔记(11-12章)
  9. 社会演化动力学:人类社会复杂性为何不断增加?
  10. 商品管理系统SSM练习开发详细手册