下载:http://www.bioinformatics.org/cd-hit/

背景:生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度。

cd-hit 去冗余,也可以叫做相似序列的聚类

工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈值需要注意(默认相似性在0.9)

简要的使用:

eg:蛋白序列的去冗余

cd-hit -i all.prot.fa -o all.nr.prot.fa -M 0 -T 24

说明:

软件:cd-hit

参数:基本默认

-i :预测的蛋白序列

-o :输出文件

-M :分配的内存

-T :线程数

-c :相似性阈值,默认值为0.9

输出结果:

去除冗余后的蛋白序列

对于核酸的去冗余,建议使用cd-hit-est (速度快,去冗余效果更明显),使用方法同上;

参考:http://blog.sina.com.cn/s/blog_670445240101nidy.html
           https://www.sohu.com/a/190353140_785442

cd-hit 去冗余相关推荐

  1. 扩增子分析解读3格式转换,去冗余,聚类

    本网对Markdown排版支持较差,请跳转"宏基因组"公众号阅读: 写在前面 之前发布的<扩增子图表解读>系列,相信关注过我的朋友大部分都看过了(链接直达7月文章目录) ...

  2. drep:微生物基因组快速去冗余-文章解读+帮助文档+实战教程

    在微生物分离培养.分箱中获得的大量的基因组.宏基因组拼接的基因组(MAG),如何确定到底有多少种非冗余的细菌基因组呢? 来自加州大学伯克利分校Jillian F Banfield组开发的dRep可以帮 ...

  3. drep:微生物基因组快速去冗余-文章解读+帮助文档+实战

    在微生物分离培养.分箱中获得的大量的基因组.宏基因组拼接的基因组(MAG),如何确定到底有多少种非冗余的细菌基因组呢? 来自加州大学伯克利分校Jillian F Banfield组开发的dRep可以帮 ...

  4. 安装生物序列去冗余软件cd-hit

    cd-hit是一款生信常用于序列去冗余的工具,在https://github.com/weizhongli/cdhit下载后,需要自己编译,对于windows系统,工作步骤如下(以下以windows ...

  5. 对表型数据框进行去冗余 phe 表型信息提取 临床信息提取 自建函数提取 种方法数据框里面进行取子集操作,坐标、列名和逻辑判断每列满足某个要求每行满足某个要求按条件筛选数据库dataframe

    NA 去掉删除多余的na 向量是否存在两个以及两个以上等于0的值 na NA 如何计算R中向量中大于某个值的元素数量 R如何按条件查找数据并删除符合条件的数据所在的行 判定一个向量是否包含0这个元素_ ...

  6. 7、purge_haplogs 基因组去冗余

    1.下载安装 https://bitbucket.org/mroachawri/purge_haplotigs/wiki/Install 1.Dependencies (in no particula ...

  7. C语言中PURGE用法,使用Purge_dups去冗余序列

    purge_dups能够根据read深度分析组装中haplotigs和overlaps.相对于另一款purge_haplotigs,它的运行速度更快,而且能够自动确定阈值. purge_dups分为三 ...

  8. csvtk:表格处理神器-美化、统计、头表、合并、转置、筛选、取样、去冗余 、分列、分类汇总和简单绘图...

    写在前面 CSV/TSV作为数据科学和组学分析的基本格式,其实本质上均为txt格式的表格,CSV是按逗号分隔,TSV是以制表符分隔的表格.这两种格式数据格式应用非常广泛.比较常用的处理软件包括: Ex ...

  9. 一站解决:如何用cd-hit去低于30%的冗余(资源见百度云链接)

    一站解决:如何用cd-hit去低于30%的冗余(资源见百度云链接) 环境 简介 遇到的问题 使用流程 百度云链接 运行代码举例 环境 cd-hit-v4.8.1 Linux 简介 一般情况下我们使用c ...

最新文章

  1. 计算机原理与基础 —— 进制之间的转换(二进制与十、八、十六禁止之间的转换)
  2. C语言试题四十四之移动一维数组中的内容,若数组中由n个整数,要求把下标从0到p(p小于等于n-1)的数组元素平移到数组的最后。
  3. 网络层:构成超网(CIDR)
  4. 打开word时出现“在加载ThisDocument时出现错误”
  5. 关于使用类成员函数作为回调的方法
  6. 3dmax无法显示缩略图 或者 缩略图显示为黑色 -解决方法
  7. 中国气象局所有城市代码
  8. 大华电子秤 手动变价方法
  9. 网络视频服务器系统,网络视频直播系统,搭建直播服务器环境
  10. 第145章 SQL函数 TO_NUMBER
  11. 砸蛋程序php,基于JQuery+PHP编写砸金蛋中奖程序
  12. 【转】Google Page Rank 算法(转载) - 北溟居 - CSDN博客
  13. 如何压缩视频可以不影响画质
  14. java 集合元素自定义排序——Comparator.comparing , 不用实现 Comparable 接口
  15. Python中的PIL给图片添加文字
  16. Memory cgroup out of memory
  17. Win10更新后网络图标变成了英文怎么办?
  18. (二维树状数组)E - Stars
  19. cpu和gpu各自的作用
  20. win7用友u8安装教程_win7安装用友U8教程详解

热门文章

  1. 微信小程序获取当前位置并调用微信内置地图打开
  2. 【黑马程序员JVM学习笔记】01.引言
  3. NPDP产品经理小知识:运用六西格玛设计,提升企业质量流程管理
  4. android dialog 消失动画,android 自定义dialog弹出和消失缩放动画
  5. ctfshow 2022新春迎新赛(详细解说)
  6. 实习成果—GlusterFS
  7. Vue、React、Angular之三国杀,web前端入坑第六篇(上)
  8. 利用Crontab + shell + python 每日更新小说
  9. zynq-linux 配置WN821(RTL8192)
  10. 一铺养三代,也得看你怎么选,否则三代养一铺