目录

  • cd-hit简要原理
  • cd-hit的参数
  • 叮!

cd-hit简要原理

cd-hit是一款用于蛋白质序列或者核酸序列聚类的工具,由 Dr. Weizhong Li开发。其主要目的是在一堆较相似的序列找出几条代表序列,这几条代表序列就能分别代表这堆序列中的一个小类。

cd-hit算法的核心在于首先找出较长的序列作为代表序列,之后将剩下的序列与这些代表序列比对。某条序列与某代表序列比对达到自行设置的相似性阈值后则直接归为此代表序列一类,默认情况下某序列第一次找到符合条件的代表序列后就不再进行后续与其它代表序列的比对。

从其设计原理来看此工具也具有一些缺点,因为其首先找到长的代表序列,剩下的序列只与这些代表序列比对,而剩下的序列之间不用互相比对,某一类序列之间也没有互相比对,但剩下的序列间相似性差距可能也很大,这样就可能导致结果不够可靠。但是也正是因为这样比对的方式,不用所有序列间进行两两比对,使得这个工具运行速度很快。因此实际应用时要根据需要选择使不使用此工具。

cd-hit的参数

cd-hit一般在命令行下操作,只需要一行代码即可,十分方便,其有很多参数可以帮助改变聚类方式及聚类的相似性阈值等。我仅列了几个个人认为比较重要的参数,当然有需要的时候可以自己敲出cd-hit -h查看帮助文档哈!

   -i    input filename in fasta format, required# 输入文件,必需。为fasta格式。基本格式为一行以'>'开头的注释行和单独的一列序列行反复重复。-o    output filename, required# 输出文件名,必需。-c   sequence identity threshold, default 0.9# 相似性阈值,默认为0.9,c必须和字长一起调整,字长最长为5,最短为2,c最小为0.4,需要越少的类就选择越小的c值-M    memory limit (in MB) for the program, default 800; 0 for unlimitted;# 程序占用的内存-T number of threads, default 1; with 0, all CPUs will be used# 线程-n   word_length, default 5, see user's guide for choosing it# 字长,字长代表在比对时两个序列比对上的相邻的几个碱基或者氨基酸,字长越长那么相似性越高。默认为5最少为2,此时相似性阈值最低,可以设置为0.4-l    length of throw_away_sequences, default 10# 需要丢弃掉不管的序列,blast有时候会生成很短的序列,这个选项很适合用。-s  length difference cutoff, default 0.0if set to 0.9, the shorter sequences need to beat least 90% length of the representative of the cluster# 即短序列若要和代表序列匹配需要达到的长度,默认为0-S    length difference cutoff in amino acid, default 999999if set to 60, the length difference between the shorter sequencesand the representative of the cluster can not be bigger than 60# 同s,但是是以数字表示不能超过的个数-g 1 or 0, default 0by cd-hit's default algorithm, a sequence is clustered to the first cluster that meet the threshold (fast cluster). If set to 1, the programwill cluster it into the most similar cluster that meet the threshold(accurate but slow mode)but either 1 or 0 won't change the representatives of final clusters# 此选项即是否选择是否将序列划入匹配到的第一个代表序列,若设置为1,那么还需要和其它代表序列进行比较获取更为接近的类,因此分类效果会更好。但相应的会延长时间。默认为0哦

叮!

cd-hit本身只能比对到相似性为40%的哦,如果有更低的相似性要求的话,还是有解决办法的,那就是使用PSI-CD-HIT,这个需要使用到另外一个脚本,到作者的github上下载代码就行啦,有两个文件是需要下载的,即psi-cd-hit.pl和psi-cd-hit-local.pl。网站在https://github.com/weizhongli/cdhit。我也帮大家整理了一份,在这里。详细使用方式信息参考github上的用户引导吧,其实和cd-hit差不多。→ link

关于字长的一张图:

图中a、b、c、d分别代表5、4、3、2的字长。读开发者的user guide,其中写到了要确定两个链是否达到某相似性阈值,那么针对某字长的出现次数是有要求的,即高于某个值后则代表两条链有相似性,当然其实字长设置后还是会有比字长更长的相邻核酸或氨基酸能匹配上。

参考:http://www.docin.com/p-268272221.html
参考:“CD-HIT: accelerated for clustering the next generation sequencing data”, Limin Fu, Beifang Niu, Zhengwei Zhu, Sitao Wu & Weizhong Li. Bioinformatics, (2012) 28:3150-3152

使用cd-hit对核酸序列或氨基酸序列聚类相关推荐

  1. 使用NCBI数据库查询并使用BLAST比对新冠病毒及九种变种的核酸序列

    一.实验目的 学会使用NCBI这一常见生物数据库 学会使用比对分析工具BLAST分析核酸或氨基酸序列. 二.实验内容 登录NCBI生物信息站点,查找新冠病毒(COVID-19)和其他几个变种的核酸序列 ...

  2. cd-hit linux,使用cd-hit对蛋白质或核酸序列进行聚类

    2018.9.7 星期四 多云 biolearn cd-hit 是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析. c ...

  3. RDKit | 基于RDKit的肽和核酸序列转换分子Mol对象

    RDKit文档中MolFromHELM(),从HELM字符串构建分子(当前仅支持肽) ".另一方面,正如GitHub问题中指出的那样,除了肽之外,实际上还可以从核酸序列创建Mol对象. 导入 ...

  4. 拼接两条有重叠区域的核酸序列

    目的 27F 和 1492R 是细菌 16S 核糖体基因的一对通用引物.利用这对引物扩增DNA提取物,然后进行Sanger法测序,能获得两条长度约为 800+ 的 DNA 序列.根据正链(+)和负链( ...

  5. 七种常见的核酸序列蛋白编码能力预测工具 | ncRNAs | lncRNA

    注:这些工具的应用都是受限的,有些本来就是只能用于预测动物,在使用之前务必用ground truth数据来测试一些.我想预测某一个植物的转录本,所以可以拿已经注释得比较好的拟南芥来测试一下.(测试的结 ...

  6. 序列特征分析 AND linux,4️⃣ 核酸序列特征分析(6):密码子使用模式的分析

    一共20种编码氨基酸,除去3个终止密码子,一共61个密码子.也就是说61个密码子编码20种氨基酸.会出现每个氨基酸对应几个密码子的现象,这些编码同一个氨基酸的密码子叫同义密码子.但是这些密码子不是平均 ...

  7. 核酸序列特征信息分析

  8. NCBI ORFfinder结果在线可视化

    1,ORF简介 开放阅读框(Open Reading Frame,ORF)从起始密码子开始,到终止密码子结束的连续碱基序列,具有蛋白质编码潜能.由于密码子(codon)读写起始位点的不同,mRNA序列 ...

  9. 序列比对-BLAST

    一.BWA BWA主要是将reads比对到大型基因组上,主要功能是:序列比对.首先通过BWT(Burrows-Wheeler Transformation,BWT压缩算法)为大型参考基因组建立索引,然 ...

  10. Kraken2 物种序列比对 注释

    kraken基于k-mer精确比对,采用最LCA投票结果快速宏基因组DNA序列进行物种注释. Kraken2数据库至少包括3个文件 hash.k2d: 物种地图,即所有序列与物种的数据库 opts.k ...

最新文章

  1. Git使用笔记(一)
  2. Python实现不规则txt文本数据读取并转换为csv文本
  3. MySQL查询对NULL的处理
  4. 电压3.3V的ESD静电保护器件型号大全
  5. golang基础归纳
  6. 仿 腾讯新闻快讯 --无缝滚动
  7. Android官方开发文档Training系列课程中文版:Android的安全建议 .
  8. 你知道i=i++;的含义吗?原理其实没有你想的那么简单
  9. windows 下启动zookeeper的zkServer.cmd服务闪退
  10. 小米旗下电商平台「有品有鱼」宣布于3月终止运营
  11. 784. 字母大小写全排列
  12. mysql in 索引_关于MySQL种的in函数到底走不走索引、我和同事差点大打出手!
  13. java提高篇(十三)-----字符串
  14. Debian下安装搜狗拼音输入法
  15. Ajax学习笔记-运行原理及实现-2
  16. 刷卡机显示服务器连接失败,pos密码错误_POS机常见故障代码解释
  17. pentaho java,用于创建Pentaho报告的Java代码,此报告接受输入作为数据集成(.ktr)文件...
  18. 个人计算机键盘上的按键击键声音小,按键盘每个键出现嘟嘟的声音也打不出字是什么...
  19. 为什么有些公司不招大龄程序员?
  20. Android 手机卡了怎么办

热门文章

  1. Python re库match(),serach(),findall()和finditer()方法使用
  2. error: <class ‘xmlrpclib.Fault‘>, <Fault 92: “CANT_REREAD: The directory named as part of the path /
  3. 自动化测试——selenium(完结篇)
  4. 致谢zyf2000,仅是你的备份,留念和记录学习C++的足迹
  5. 信息安全快讯丨桃李满天下,金秋谢师恩——教师节快乐!
  6. 迅雷的php文件_使用迅雷下载.php文件的方法(Picjumbo可用)
  7. xenu死链接工具使用
  8. Excel怎么实现多列数据排列组合
  9. python将十进制转换二进制_python进制转换:十进制转二进制的用法
  10. 小米笔记本触摸板失效