定义

之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下
在这里不做赘述。

软件安装

新版本

建议使用目前最新的3.0.0版本(需要root权限)
安装方法如下:

# 创建conda环境
conda create -y -n hic-pro python=3.7 pysam bx-python numpy scipy samtools bowtie2 iced# 下载HiC-Pro最新版本
wget https://hub.fastgit.org/nservant/HiC-Pro/archive/refs/tags/v3.0.0.tar.gztar zxf v3.0.0.tar.gzcd HiC-Pro-3.0.0/# 需要root权限
sudo make install

旧版本

如果新版本不适应可以使用旧版本

conda install -c davebx hicpro

其他安装方法参考官方

软件操作流程

数据准备

  1. 将Hi-C数据放入对应以样品名命名的目录下。
    (注意文件夹名、_R1.fastq.gz._R2.fastq.gz)

  2. 基因组组装结果文件
    ln -s PATH=your_assembly.fasta genome.fa

必备文件1-基因组bowtie2索引

bowtie2-build genome.fa genome

酶切片段文件

/home/lixingze/software/HiC-Pro-3.0.0/bin/utils/digest_genome.py genome.fa -r dpnii -o genome_dpnii.bed

基因组中序列大小文件

samtools faidx genome.fa
awk '{print $1"\t" $2}' genome.fa.fai >genome.sizes

运行hic-pro

HiC-Pro -c config-hicpro.txt -o analysis -i data

config-hicpro.txt 配置

其中没有提到的建议使用默认数据操作

## SYSTEM AND SCHEDULER - Start Editing Here !!N_CPU = 50  #CPU线程数
LOGFILE = hicpro.log  #log文件名JOB_NAME = sample  #任务名
JOB_MEM = 100gb  #占用内存
JOB_WALLTIME =
JOB_QUEUE =
JOB_MAIL = PAIR1_EXT = _R1
PAIR2_EXT = _R2BOWTIE2_IDX_PATH = /home/lixingze/XHS-Analysis/HiC-Pro/reads #比对的reads文件目录
BOWTIE2_GLOBAL_OPTIONS = --very-sensitive -L 30 --score-min L,-0.6,-0.2 --end-to-end --reorder
BOWTIE2_LOCAL_OPTIONS =  --very-sensitive -L 20 --score-min L,-0.6,-0.2 --end-to-end --reorderGENOME_SIZE = /home/lixingze/XHS-Analysis/HiC-Pro/reads/genome.sizes #genome.sizes的绝对路径## Digestion Hi-CGENOME_FRAGMENT = /home/lixingze/XHS-Analysis/HiC-Pro/reads/genome_dpnii.bed #绝对路径
LIGATION_SITE = GATCGATC #限制性内切酶,具体用的什么酶可以咨询测序公司,我这里用的dnp II
MIN_FRAG_SIZE = 100
MAX_FRAG_SIZE = 100000
MIN_INSERT_SIZE = 100
MAX_INSERT_SIZE = 1000## Contact MapsBIN_SIZE = 20000 40000 150000 500000 1000000 #根据自身需求设置 bin size
MATRIX_FORMAT = upper

结果

hic_result/matrix目录

data:存放validpair及其他无效数据文件matrix:存放不同分辨率矩阵文件,
分为raw和iced文件,raw:原始矩阵iced:ice校正后的矩阵后续分析使用,
可以使用HiCPlotter、HiCExplorer出图,或者进行三维基因组学中的部分分析。

pic:存放统计结果图片

stats:存放统计表

hic_result/data目录

allVaildPairs:合并后的valid pairs数据
DEPairs: Dangling end pairs数据
DumpPairs:实际片段长度和理论片段长度不同的数据REPairs:酶切片段重新连接的pairs
FiltPairs:基于min/max insert/fragment size过滤的pairsSCPairs:片段自连的pairs

hic_result/pic目录

plotHiCContactRanges_Example1.pdf有效互作中各类型比例图

plotHiCFragmentSize_Example1.pdf有效互作的片段大小分布图

plotMappingPairing_Example1.pd合并后双端比对过滤结果图

plotHiCFragment_Example1.pdf有效数据过滤结果图

plotMapping_Example1.pdf单端比对过滤结果图

HiC-Pro易报错的地方总结

错误一

Exit: Error: Directory Hierarchy of rawdata '/home/lixingze/data/HiC/hicpro/data' is not correct. No '.fastq(.gz)' files detected

整理reads目录结构
注意:这里在HiCPro的源码中只会读入指定目录的子目录的文件 ,所以将hic测序数据放在子目录下即可

错误二

Pairing of R1 and R2 tags ...
Logs: logs/fastq/mergeSAM.log
make: *** [/home/lixingze/software/HiC-Pro-3.0.0/bin/../scripts//Makefile:144: bowtie_pairing] Error 1

原因可能是之前的bowtie2索引数据有问题造成的,重新跑一次。

总结

不同的报错内容很大程度是个人和环境的原因,所以因人而异,不具有普适性

HiC-Pro的使用 | HiC辅助基因组组装(一)相关推荐

  1. ALLHIC使用 | HiC辅助基因组组装(三)

    安装 git clone https://github.com/tangerzhang/ALLHiC cd ALLHiC chmod +x bin/* chmod +x scripts/* expor ...

  2. 使用ALLHiC基于HiC数据辅助基因组组装

    使用ALLHiC基于HiC数据辅助基因组组装 基因组组装大致可以分为三步(1)根据序列之间的重叠情况构建出contig,(2)基于二代的mate pair文库或光学图谱将contig搭建成scaffo ...

  3. Hi-C辅助基因组组装原理|主流软件

    导语 Hi-C是高通量染色体构象捕获(High-throughput Chromosome Conformation Capture, Hi-C)技术的简称,开发于2009年,最初用于捕获全基因组范围 ...

  4. 3d-DNA的使用及juicebox调整挂载到染色体水平 | HiC辅助基因组组装(二)

    定义 之前的文章中有介绍过,HiC常用的几款软件的原理内容.可以点击链接访问了解一下 在这里不做赘述. 软件安装 3d-DNA $ git clone https://hub.fastgit.org/ ...

  5. Hi-C辅助基因组组装技术以及其常用的软件介绍

    导语 Hi-C是高通量染色体构象捕获(High-throughput Chromosome Conformation Capture, Hi-C)技术的简称,开发于2009年,最初用于捕获全基因组范围 ...

  6. NBT:牛瘤胃微生物组的4941个宏基因组组装基因组(MAG)

    牛瘤胃微生物组的参考基因组集 用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集 Compendium of 4,941 rumen metagenome-assembled gen ...

  7. 基因组组装的那些困扰,用单倍体基因组一一破解!

    动植物基因组非常复杂,基因组大小.杂合度.GC含量.倍性等都会影响着基因组组装的难度和结果.特别是目前动植物基因组大多采用二倍体或多倍体材料直接进行测序组装,对于复杂基因组如高杂合.大基因组等,组装的 ...

  8. MPB:微生物所蔡磊组-​​基于二代测序的真菌基因组组装和注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  9. Nature子刊:宏基因组组装基因组实现谱系解析

    宏基因组组装基因组实现谱系解析 MAGs achieve lineage resolution Nature Microbiology [IF: 17.745] DOI:https://doi.org ...

最新文章

  1. sqlserver/mysql按天,按小时,按分钟统计连续时间段数据
  2. 今天又听了蓝色的缘分
  3. SAP Spartacus如何启用B2B feature
  4. ArcGIS实验教程——实验六:空间数据格式转换
  5. 前端学习(1302):实现es6的转化
  6. mysql 结构体_mysql模块使用结构体生成数据库表,不识别long类型
  7. mysql 非等值条件 索引_慢SQL简述与定位
  8. 驾校一点通下载|驾校一点通电脑版下载
  9. python-发邮件脚本
  10. python微信自动回复
  11. linux内核态删除文件函数,初探Linux内核态——通过proc文件系统作快速问题定位...
  12. 免费报表工具 - RDP报表工具
  13. Uipath文档教程
  14. Spring源码解析(一)下载及编译(版本5.2.x)
  15. xlsxwriter设置Excel的表格边框
  16. 怎么彻底删除users下的文件夹_c盘用户文件夹特别大,c盘users文件夹可以删除吗...
  17. android锁屏壁纸设置,安卓锁屏壁纸怎么换 安卓锁屏壁纸设置教程
  18. Atitit. 软件开发中的管理哲学--一个伟大的事业必然是过程导向为主 过程导向 vs 结果导向
  19. Element 中表格表头添加搜索图标和功能使用
  20. 完成有顺序约束的任务指派问题--应用模拟退火算法求解

热门文章

  1. IT周盘点:苹果湿手触屏新专利,315后反诈中心App上线;字节自研AI芯片
  2. 计算机绘图心得简短,cad画图心得体会(精选3篇)
  3. c语言中的猜字谜游戏
  4. X005---alteryx的工作流程配置
  5. 云免流usb共享电脑_手机共享电脑网络,无需流量与WiFi即可高速上网,这次是真的黑科技!...
  6. python3实现推荐算法
  7. 计算机模拟人工录入,地震动输入及动力人工边界的数值模拟方法研究
  8. 小程序 网易云课堂云开发初体验
  9. 用阿狸狗装Cadence17.4的操作细节
  10. 农村中学计算机教室管理制度,中小学专用教室管理标准.doc