一、HiC-Pro

  1. HiC-Pro官网
https://github.com/nservant/HiC-Pro
  1. 下载软件包
git clone https://github.com/nservant/HiC-Pro.git
  1. 利用conda配置软件运行环境
conda env create -n hicpro -f /gss1/home/tri01/software/HiC-Pro/environment.yml
  1. HiC-Pro的编译安装
修改config-install.txt和config-system.txt文件下的路径
make configure
make install

二、运行文件准备

  1. 准备三个文件:bed、table、bowtie2构建的索引,bed、table文件格式可以参考HiC-Pro软件安装包annotation目录下的人类和小鼠的.bed和.sizes文件。
    bed文件由保存着基因组数据的fasta文件,经过digest_genome.py的python脚本处理得到,具体命令为:python digest_genome.py -r ^GATC -o Tden_mobi.bed Tden.genome.fasta。
    索引文件利用bowtie2得到,具体命令为: bowtie2-build Tchi.fasta tc
    #第一个Tchi.fasta代表输入的参考序列
    #第二个tc代表输出的索引文件前缀
    #产生六个.bt2新文件
    table文件保存着每条contig的长度,可以利用samtools得到
samtools faidx Tden.fasta
awk '{print $1 "\t" $2 }' Tden.fasta.fai > Tden.sizes
  1. 修改配置文件config-hicpro.txt


  1-12行不需要修改。


  13-25行:
  16行CPU数目,21行内存大小,越大计算越快,其余几行不用改。


  26-32行:
  原始的下机数据的前缀的最后要以_R1/_R2结尾,当然也可以在配置文件里修改成与raw_data前缀的最后一样。


  37-42行:
  39行改为构建索引的绝对路径,40、41不用改。

  43-49行:
  47行是索引的前缀,48行保存染色体/contig大小文件的绝对路径。


  64-73行:
  67行是基因组酶切的bed文件的绝对路径;
  68行为酶切连接位点,Mobi酶切连接位点为GATCGATC;
  69行酶切后最小的片段长度,70行酶切后最大的片段长度,这个范围越大,reads数越多;
  71,72行插入片段的大小,HiC建库的插入片段长度一般在300-500bp。


  85-91行:
  89行是将bin的长度,我选择了10kb-1Mb之间,bin的值越小,分辨率越高,处理起来占用内存空间越大,后面做的图数据量能达到的话,结果会更精准吧。
  90行是生成矩阵的形式,可选参数为:complete、asis、upper和lower,默认值为upper。如果后续还要做A/B compartment分析的话,需修改成complete,否则会影响PCA分析的结果。

三、运行

HiC-Pro -i 输入文件路径 -o 输出文件路径/文件名 -c 配置文件

PS:输入文件要在二级目录下,不能在当前目录或着一级目录下。
PPS:结果文件存放的目录不需要提前建好。

四、常见报错

  1. 局部比对报错
    Pairing of R1 and R2 tags …
    Logs: logs/fastq/mergeSAM.log
    make: *** [/home/yaotianyi/biosoft/HIC-PRO/bin/…/scripts//Makefile:144: bowtie_pairing] Error 1
    解决办法:重新建立索引,再跑一次。
  2. 矫正出错,得不到.matrix文件
    Run ICE Normalization …
    Logs: logs/sample1/ice_20000.log
    /home/biocon/yaotianyi/biosoft/HIC-PRO/bin/…/scripts//Makefile:191: recipe for target ‘ice_norm’ failed
    make: *** [ice_norm] Error 1
    问题所在: 编译安装好的HiC-Pro的ice文件使用的是作者设置的环境,更改成自己安装好的环境即可。
cd $HiC-Pro insrall PATH$/scripts/
vi ./ice
将一行改成自己的环境,,再重新运行即可

HiC-Pro | HiC数据处理工具相关推荐

  1. HiC-Pro: Hi-C数据预处理高效工具

    本文可在http://xuzhougeng.top/archives/HiC-Pro-An-optimized-and-flexible-pipeline-for-Hi-C-data-processi ...

  2. 盘点数据处理工具,手把手教你做数据清洗和转换

    导读:原始数据本身没有用.为了使它实际有用,你需要准备它. 作者:Mars Geldard, Jonathon Manning, Paris Buttfield-Addison, Tim Nugent ...

  3. 探秘采云间:全链路数据处理工具直击传统DW/BI痛点

    采云间 近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域.如何在数据金矿中挖掘出宝藏.如何做好数字化运营,成为各类企业共同关注的话题.针对企业日益迫切的数据化运营需求, ...

  4. mac mysql sequel_苹果系统Sequel Pro—MySQL客户端工具一个大坑

    软件名称:Sequel Pro(MySQL客户端工具) 官网地址:http://www.sequelpro.com/ 该工具在导出表数据的时候,会产生一条坑爹的SQL:/*!40000 ALTER T ...

  5. Python 数据处理工具 Pandas(上)

    序列与数据框的构造 外部数据的读取(文本文件读取.电子表格读取.数据库数据读取) 数据类型转换及描述统计 字符与日期数据的处理 数据清洗方法(重复观测处理.缺失值处理.异常值处理) 数据子集的获取 透 ...

  6. [转]开源大数据处理工具汇总

    查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitH ...

  7. python数据处理工具-Pandas笔记

    序列与数据框的构造 Pandas模块的核心操作对象就是序列Series和数据框DataFrame序列可以理解为数据集中的一个字段数据框是指含有至少两个字段(或序列)的数据集. 构造序列 可以通过以下几 ...

  8. 1、大道至简的数据处理工具-(Microsoft Power Query入门)

    大道至简的数据处理工具-Microsoft Power Query 告别复杂的excel函数,excel VBA编程,让一切回归简单与职能. 什么样的人群适合这样的一个工具: 1.出纳.会计.统计.仓 ...

  9. 一共81个,开源大数据处理工具汇总(下)转

    作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要 ...

  10. 数据分析---数据处理工具pandas(二)

    文章目录 数据分析---数据处理工具pandas(二) 一.Pandas数据结构Dataframe:基本概念及创建 1.DataFrame简介 2.创建Dataframe (1)方法一:由数组/lis ...

最新文章

  1. ESPNet系列:自动驾驶领域轻量级分割模型
  2. 今天你写控件了吗?----ASP.net控件开发系列(三)
  3. shell实例第10讲:判断用户输入的是否为数字
  4. javaweb项目中遇到的一些乱码问题
  5. 多功能复合机基于用户认证功能的实现过程详解
  6. 查看商品图片,鼠标悬浮图片放大js实现
  7. 狄慧201771010104《面向对象程序设计(java)》第八周学习总结
  8. iPhone系统更新提醒怎么关闭?
  9. ICLR最佳论文“彩票假设”:如何通过彩票假设构建轻量化模型(上)
  10. 人脸识别demo分析(opencv版本)
  11. 用python计算ph_用于水和水蒸汽物性计算的Python模块——iapws
  12. 菜菜的sklearn课堂——决策树
  13. 已解决:[emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forb
  14. Spark调优之推测执行
  15. Java之网络编程(三)TCP
  16. macOS下快速复制文件或文件夹路径
  17. 巧妙处理pdf转换成jpg的好方法
  18. iOS编程——Swift实现常见的递归算法1
  19. im即时通讯聊天软件,完整的一套即时通讯IM源码
  20. PostgreSQL performance test use ssh tunnel

热门文章

  1. 浙江大学吴朝晖:脑机融合系统综述
  2. java8中数据类型_Java 8中 基本数据类型
  3. 【uniapp微信小程序组件】大转盘抽奖组件
  4. Julia1.4文档 —— 2. Julia的基本数值类型
  5. GAN 生成对抗网络 10-6 Tips for improving GAN
  6. 毛笔书法艺术作品,能不能写简化字?
  7. java osm pbf_OSM PBF 文件格式说明
  8. 对于程序员来说什么才是A站B站。。。Z站?
  9. 微星性能测试软件,MSI Kombustor
  10. 产品战略与战术之行业分析