文章目录

  • CHIP-Seq数据分析流程
    • 相关软件安装
    • 数据下载
    • 将SRA转化为fastq文件
    • 数据质控,过滤
      • 数据质控
      • 然后进行质控,过滤低质量reads,去接头
    • 比对
      • 下载小鼠参考基因组的索引和注释文件
      • 比对
    • sam文件转bam
    • 为bam文件建立索引
    • 载入IGV查看
    • 用MACS call peak
      • 安装MACS
    • 结果注释与可视化
      • 使用deeptools进行可视化
      • peaks注释

CHIP-Seq数据分析流程

相关软件安装

所需要的软件有sratoolkit, fastqc,bowtie2,samtools,macs2,htseq-count,bedtools和前面RNA-seq数据分析很多软件相同,所以基本都安装过了。后面遇到没有安装过的在进行安装

###igv
axel -n 20 https://data.broadinstitute.org/igv/projects/downloads/2.8/IGV_Linux_2.8.12_WithJava.zip
unzip IGV_Linux_2.8.12_WithJava.zip
cd IGV_Linux_2.8.12/
./igv.sh

数据下载

还是利用sratoolkit的prefetch下载,首先构建SRR_Acc_List.txt

for ((i=204;i<=209;i++))
do
echo SRR620$i >> SRR_Acc_List.txt
done
###文件内容如下
SRR620204
SRR620205
SRR620206
SRR620207
SRR620208
SRR620209
##接下来进行下载
wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录
cat SRR_Acc_List.txt | while read id
do
nohup prefetch  ${id} &
done

将SRA转化为fastq文件

wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录for i in $wkd/rawdata/*sra
doecho $ifastq-dump --split-3 --skip-technical --clip --gzip $i  ## 批量转换
done

数据质控,过滤

数据质控

fastqc生成质控报告,multiqc将各个样本的质控报告整合为一个

wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录ls $wkd/rawdata/*gz | xargs fastqc -t 5
multiqc ./
##得到以下结果
ls -lh multiqc_data/
total 7.1M
-rw-r--r-- 1 meiling meiling 312K Nov 10 14:10 multiqc_data.json
-rw-r--r-- 1 meiling meiling 1.5K Nov 10 14:10 multiqc_fastqc.txt
-rw-r--r-- 1 meiling meiling  621 Nov 10 14:10 multiqc_general_stats.txt
-rw-r--r-- 1 meiling meiling  24K Nov 10 14:10 multiqc.log
-rw-r--r-- 1 meiling meiling 1.2M Nov 10 14:10 multiqc_report.html
-rw-r--r-- 1 meiling meiling  604 Nov 10 14:10 multiqc_sources.txt
-rw-r--r-- 1 meiling meiling 576K Nov 10 14:08 SRR620204_fastqc.html
-rw-r--r-- 1 meiling meiling 431K Nov 10 14:08 SRR620204_fastqc.zip

每个id_fastqc.html都是一个质量报告,multiqc_report.html是所有样本的整合报告

然后进行质控,过滤低质量reads,去接头

wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录
mkdir $wkd/cleandata
cd $wkd/cleandata
ls $wkd/rawdata/*.fastq.gz >config
##开始质控
wkd=/home/meiling/baiduyundisk/Chip-seq/cleandata #设置工作目录
cd $wkd
cat config |while read id
doarr=(${id})fq1=${arr[0]}
#        fq2=${arr[1]} trim_galore -q 25 --phred33 --length 36 --stringency 3 -o $wkd  $fq1
done

比对

下载小鼠参考基因组的索引和注释文件

还是选择在ensemble上下载小鼠参考基因组

选择primary进行下载

axel -n 20 ftp://ftp.ensembl.org/pub/release-101/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
axel -n 20 ftp://ftp.ensembl.org/pub/release-101/gtf/mus_musculus/Mus_musculus.GRCm38.101.chr_patch_hapl_scaff.gtf.gz
##解压
gzip -d Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
ls -lh
total 2.7G
-rw-r--r-- 1 meiling meiling  33M Nov  9 21:32 Mus_musculus.GRCm38.101.chr_patch_hapl_scaff.gtf.gz
-rw-r--r-- 1 meiling meiling 2.6G Nov  9 21:31 Mus_musculus.GRCm38.dna.primary_assembly.fa
#构建索引
nohup bowtie2-build ../Mus_musculus.GRCm38.dna.primary_assembly.fa mouse  &

比对

这里选择bowtie,或者bwa
将得到的fastq文件用bowtie2比对小鼠参考基因组上

wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录
cd $wkd/cleandata
ls *gz|cut -d"_" -f 1 |sort -u |while read id;do
ls -lh ${id}_trimmed.fq.gz
bowtie2 -q -p 10 -x $wkd/reference/mouse/bowtie_index/mouse -U ${id}_trimmed.fq.gz -S $wkd/align/${id}.sam
done

比对结果输出

bash align.sh >align.log 2>&1
#打开align.log
-rw-r--r-- 1 meiling meiling 517M Nov 10 14:15 SRR620204_trimmed.fq.gz
12553187 reads; of these:12553187 (100.00%) were unpaired; of these:3148914 (25.08%) aligned 0 times7170824 (57.12%) aligned exactly 1 time2233449 (17.79%) aligned >1 times
74.92% overall alignment rate

sam文件转bam

wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录
cd $wkd/align
ls *.sam|cut -d"." -f 1 |while read id ;dosamtools view -@ 8 -S $id.sam -1b -o $id.bamsamtools sort -@ 8 -l 5 -o $id.sort.bam $id.bam
done

为bam文件建立索引

ls *.sort.bam |xargs -i samtools index {}

载入IGV查看

从官网下载IGV, 解压即可使用,linux下 igv.sh打开IGV界面
首先载入参考基因组,可以载入自己下载好的参考基因组,也可选择IGV中含有的参考基因组,ref_Genome 必须是fasta格式。
载入比对的文件,比对的文件必须先经过sort 和 index, 才可加载。
比对可视化结果:其他组有的峰在对照组没有,即为peak.

用MACS call peak

安装MACS

#下载安装
axel -n 20 https://files.pythonhosted.org/packages/e2/61/85d30ecdd34525113e28cb0c5a9f393f93578165f8d848be5925c0208dfb/MACS2-2.2.7.1.tar.gz
tar -xvf MACS2-2.2.7.1.tar.gz
cd MACS2-2.2.7.1/
##安装
python setup.py install
##验证
macs2 -h
##出现以下结果
usage: macs2 [-h] [--version]{callpeak,bdgpeakcall,bdgbroadcall,bdgcmp,bdgopt,cmbreps,bdgdiff,filterdup,predictd,pileup,randsample,refinepeak}...macs2 -- Model-based Analysis for ChIP-Sequencingpositional arguments:{callpeak,bdgpeakcall,bdgbroadcall,bdgcmp,bdgopt,cmbreps,bdgdiff,filterdup,predictd,pileup,randsample,refinepeak}
##call peak
wkd=/home/meiling/baiduyundisk/Chip-seq #设置工作目录
cd $wkd/align
ls *.sort.bam|cut -d"." -f 1 |sort -u |while read id
do
macs2 callpeak -c SRR620208.bam -t ${id}.bam -q 0.05 -f BAM -g mm -n ${id} 2> ${id}.log &
done
# (在当前目录下)统计 *bed 的行数(peak数)
wc -l *bed
7765 SRR620204_summits.bed
1963 SRR620205_summits.bed
6775 SRR620206_summits.bed
0 SRR620207_summits.bed
0 SRR620208_summits.bed##对照组
0 SRR620209_summits.bed##对照组
16503 total
#RYBP SRR620207 无数据,估计是数据上传错误,可以下载作者上传的peak数据。 ● 下载RYBP的peak数据
wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE42nnn/GSE42466/suppl/GSE42466_RYBP_peaks_5.txt.gz
gzip -d GSE42466_RYBP_peaks_5.txt.gz
mv GSE42466_RYBP_peaks_5.txt SRR620207_summits.bed

callpeak会得到如下结果文件:

NAME_summits.bed:Browser Extensible Data,记录每个peak的peak summits,话句话说就是记录极值点的位置。MACS建议用该文件寻找结合位点的motif。能够直接载入UCSC browser,用其他软件分析时需要去掉第一行。

NAME_peaks.xls:以表格形式存放peak信息,虽然后缀是xls,但其实能用文本编辑器打开,和bed格式类似,但是以1为基,而bed文件是以0为基.也就是说xls的坐标都要减一才是bed文件的坐标。

NAME_peaks.narrowPeak,NAME_peaks.broadPeak 类似。后面4列表示为, integer score for display, fold-change,-log10pvalue,-log10qvalue,relative summit position to peak start。内容和NAME_peaks.xls基本一致,适合用于导入R进行分析。

NAME_model.r:能通过$ Rscript NAME_model.r作图,得到是基于你提供数据的peak模型。

.bdg:能够用 UCSC genome browser 转换成更小的 bigWig 文件。

结果注释与可视化

结果的注释用的是Y叔 的 Chipseeker包。

ChIPseeker的功能分为三类: ● 注释:提取peak附近最近的基因, 注释peak所在区域 ● 比较:估计ChIP peak数据集中重叠部分的显著性;整合GEO数据集,以便于将当前结果和已知结果比较 ● 可视化: peak的覆盖情况;TSS区域结合的peak的平均表达谱和热图;基因组注释;TSS距离;peak和基因的重叠。
后续在R语言中实现。

使用deeptools进行可视化

deeptools提供bamCoverage和bamCompare进行格式转换,为了能够比较不同的样本,需要对先将基因组分成等宽分箱(bin),统计每个分箱的read数,最后得到描述性统计值。对于两个样本,描述性统计值可以是两个样本的比率,或是比率的log2值,或者是差值。如果是单个样本,可以用SES方法进行标准化。

##deeptools安装
git clone https://github.com/fidelram/deepTools
cd deepTools
python setup.py install

bamCoverage的基本用法

peaks注释

CHIP-Seq数据分析流程相关推荐

  1. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年11月27日)

    感谢中科院南京土壤所褚海燕老师的邀请,参加微生物生态与生物信息技术培训. 本次会议预计300人规模的会议,结果现场来了超千人.即使会议进行至第二天下午接近尾声,依然火爆如下: 我将本次90分钟报告&l ...

  2. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年10月27日)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  3. QIIME 2:可重复、交互和扩展的微生物组数据分析流程

    文章目录 QIIME2:可重复.可交互.适用范围广和可扩展的微生物组数据科学 摘要 正文 图1. 交互式可视化工具 图2. 迭代记录数据来源确保分析可重复 代码可用 在线方法 提取QIIME2的存档内 ...

  4. python数据分析及可视化(九)pandas数据规整(分组聚合、数据透视表、时间序列、数据分析流程)

    作业 拼接多个csv文件 去除重复数据,重新索引 自动挡和手动挡数目 计算每个城市二手车数量 统计每个汽车品牌平均售价价格(不是原价) 分组与聚合 如下表所示,5行3列的表格,5种水果分别对应的名称, ...

  5. python与数据分析结合_将Python和R整合进一个数据分析流程

    原标题:将Python和R整合进一个数据分析流程 在Python中调用R或在R中调用Python,为什么是"和"而不是"或"? 在互联网中,关于"R ...

  6. 实际业务中的数据分析流程和痛点

    平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是: 在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的.比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有 ...

  7. DPABI详细使用教材——数据准备、预处理流程、数据分析流程

    dpabi必看内容 1.DPABI(用于脑成像的数据处理和分析的工具箱)的下载和安装步骤 2.DPABI详细使用教材--数据准备.预处理流程.数据分析流程 3.DPABISurf的安装及使用(wind ...

  8. 如何做数据分析,数据分析流程是什么?

    前言 如何做数据分析,数据分析流程是什么?数据分析是基于商业目的,有目的地进行收集.整理.加工和分析数据,提炼出有价值的信息的一个过程.整个过程大致可分为五个阶段,具体如下图所示. 关于图中流程的相关 ...

  9. python数据分析-互联网业务数据分析流程及指标体系的搭建

    一. 数据分析流程 1.明确需求 2.确定思路 3.处理数据 4.分析数据 5.展示数据,撰写报告 6.效果反馈 二.数据清洗 1.选择子集 2.列名重命名 3.删除重复值 4.缺失值处理 5.一致化 ...

  10. 通过一个简单的电商零售数据集,了解数据分析流程

    目录 数据分析流程 1.数据分析真实项目流程 2.数据分析方法 3.零售消费数据数据集介绍 4.分析内容 明确分析的目的 案例分析实战 1理解数据 2数据清洗 3数据分析和可视化 1.购买商品前十的国 ...

最新文章

  1. 从 Servlet 入手带你看架构和框架设计的套路
  2. 假如我拥有字节工牌......
  3. Google推出的新服务:Docs Spreadsheets
  4. 亮剑.NET. 图解C#开发实战 在线阅读
  5. mysql服务器(二)
  6. fatal error LNK1103: debugging information corrupt; recompile module
  7. C 中 static 的常见作用
  8. Python基础—08-函数使用(02)
  9. 我来重新学习js的面向对象(part 4)
  10. 【vSphere故障案例】案例七:数据中心虚拟化网络故障
  11. 位带操作全解释,个人觉得不错就转过来理解下
  12. sqlhelper 下载 使用指南 代码 [收藏]
  13. 生成逼真3D人偶,居然不用3D形状建模,还能学会你的舞步 | 三星CVPR Oral
  14. 社区发现(二)--GN
  15. python 正则表达式语法
  16. 【mysql】关于IO/内存方面的一些优化
  17. 电脑复制粘贴不了怎么办?
  18. 内网ssl证书颁发_使用SSL和开放源证书颁发机构消除垃圾邮件
  19. 入门级深度学习服务器配置方案
  20. echarts 桑基图

热门文章

  1. 截止到2022年9月底可用的与大屏可视化相关的网站和网页
  2. linux输入法_惊奇软件:这是我见过最有【态度】的输入法!
  3. MySQL总结4_多表查询
  4. “华为杯”第17届中国研究生数学建模竞赛B题二等奖论文
  5. 联想教育应用使用说明(7.6版本号)——第4章 网络控制工具的使用
  6. java求职简历建议
  7. 动感标题文字快闪(闪白特效)开场PR模板MOGRT
  8. plsqldev1105_x64与instantclient_11_2配置使用
  9. 什么是IEC球压测试?
  10. 如何成为一个优秀的计算机工程师,如何成为一个优秀的电气工程师