数据原理——1、ChIP-seq

文章目录

1、背景介绍
2、测序对象：三种类型组蛋白（组蛋白、转录因子、转录调控子）
3、测序原理
4、检测蛋白质与DNA序列的结合峰
- （1）测序片段匹配到参考基因组
- （2）检测峰
- （2）提高峰质量
5、影响ChIPseq测序结果的因素
- （1）免疫共沉淀的影响
- （2）测序的影响
- （3）酶断裂方法和超声波打断的影响

ChIP-seq（研究体内DNA与蛋白质相互作用的方法）

1、背景介绍

ChIP-seq测序方法：

ChIP 指染色质免疫共沉淀技术（Chromatin Immunoprecipitation，ChIP）
seq 指的是二代测序方法（ChIP-seq比ChIP-chip具有更高的分辨率、更低的噪声和更大的覆盖范围）

作用： 识别蛋白质与DNA互相作用情况

原理： 染色质免疫共沉淀 + 二代测序

应用： 常用于转录因子结合位点和组蛋白修饰位点的研究

2、测序对象：三种类型组蛋白（组蛋白、转录因子、转录调控子）

①组蛋白与DNA的结合是结构性的，结合强度非常大，分度高，是最容易做的蛋白
②TF直接与DNA结合，有序列特异性，比较短，只有几个bp，TF与DNA的结合牢固度，弱于组蛋白
③转录调控子：不直接和DNA互作，与TF或组蛋白互作，和DNA间接结合在一起，容易在交联剂上脱落（第一步），通常作为大蛋白复合体中的一员起作用，表面抗原容易被蛋白复合体中的其他蛋白组分所阻挡，从而影响抗体的富集（第二步）。

交联时间
- 研究表明；在DNA上的停留时间短于5秒的蛋白质无法用甲醛交联
- histone：10 min
- TF：10-30 min
- cofactor：30 min
- 不超过30min，防止影响解交联及后续的过程
对剪切条件的敏感性
- histone：low
- TF：medium
- cofactor：high

3、测序原理

（1）甲醛交联整个细胞系（组织），即使用甲醛将目标蛋白（组蛋白，转录因子等）与染色质交联固定起来

（2）从细胞裂解液分离基因组DNA，并用超声波将其打断成一定长度的小片段；

（3）添加与目标蛋白质特异的抗体，该抗体与目标蛋白形成免疫沉淀免疫结合复合体，收集这些沉淀；

免疫结合复合体 = 靶蛋白 + 抗体 + 靶蛋白结合的DNA

（4）去交联，分开蛋白与DNA，纯化DNA即得到染色质免疫沉淀的DNA样本，准备测序；

（5）将准备好的样本进行深度测序，测序完成得到数百万个reads，通过与参考基因组匹配后，实现完整序列的构建

4、检测蛋白质与DNA序列的结合峰

（1）测序片段匹配到参考基因组

将测序得到的 DNA 片段（sequenced fragments）匹配到参考基因组序列上。有一部分短序列不能匹配到参考基因组上，有可能是未知的基因组序列；另一部分是能够匹配到基因组上的短序列，通常要对这些短序列进行覆盖度计算。
从匹配到基因组上的短序列中进行富集区域的扫描。通常扫描到的富集区即被认为是蛋白质与DNA相互结合的区域（也有假阳性位点等的影响）如果在基因组的某个位置蛋白质结合的概率越大，那么在该位置检测到 DNA 片段堆叠就会越高。反之，如果没有蛋白结合，在该位置就会几乎没有DNA 片段堆叠。为了研究方便，我们将这些DNA片段堆叠叫做峰 (Peak)。

（2）检测峰

将覆盖到参考基因组的DNA片段堆叠用柱状图画出来，就会看到峰。
这里需要知道，ChIP-seq是利用抗体去结合特异的靶蛋白，进而去沉淀靶蛋白结合的DNA。理论上，只要抗体设计的好，与蛋白质结合的 DNA 的都可以检测到。

我们一般用 ChIP-seq 检测转录因子的结合，以及检测组蛋白修饰，二者有着截然不同的峰形：

转录因子结合的特征峰，峰型高，而且窄：

组蛋白修饰结合的特征峰，峰型起伏，而且分布广泛：

对扫描到的富集区做深度分析，包括基因，GO注释，利用基因浏览器进行可视化浏览，研究与基因结构的关系等。在UCSC基因组浏览器中显示。

（2）提高峰质量

一般在做ChIP-seq时，会加入一组空白对照（control），提高峰质量，那么为什么？

一般检测出的峰值会有背景噪音，也就是文库会夹渣一些没有用抗体捕获的DNA片段也被测序了。
开放的染色质区域比封闭的区域更容易断裂
序列在基因组中分布不均
允许我们在比对的控件中与相同区域进行比较
消除 ENCODE 的 Black list的影响

所以会准备空白对照，排除假阳性，对照组有有两种类型：

input DNA：不用任何抗体捕获的DNA
mock IP DNA：用不含有抗体的DNA

这样一来，就会让我们检测到的峰更明显更接近真实的生物学特征。

5、影响ChIPseq测序结果的因素

（1）免疫共沉淀的影响

高效特异性抗体
起始样本量
ChIP DNA 产量
-细胞类型
-标记或蛋白质丰富程度（组蛋白比TF具有更高的结合覆盖率）
-抗体质量

对于组蛋白，使用来自T细胞的20ug染色质DNA作为起始材料，总共会得到15-50ng DNA。
对于TF，通常从2500万个细胞（200ug染色质）中得到5-25ng。

染色质片段

片段大小：影响ChIP-seq中的信噪比
因细胞类型而异
偏向启动子区域的片段会在ChIP 和对照样品中的启动子上引起ChIP-seq富集

（2）测序的影响

Reads 长度
- 较长的 Reads 和双末端 Reads 可提高匹配率
- 对于等位基因特异性染色质事件，转座因子研究是必需的
避免分批次
序列输入对照的深度等于或大于IP样本
测序深度
- 对于转录因子：最小5-10M
- 对于组蛋白修饰宽谱图则更高：标准为20-40M

（3）酶断裂方法和超声波打断的影响

酶解法：核小体间信息

最常用的酶类如MNase，即：微球菌核酸酶，是一种能降解核小体连接区的DNA序列的核酸酶，最初从金黄色葡萄球菌中分离出来。MNase消化染色质可以释放出一个个独立的核小体。

超声波法：核小体蛋白组分上的完整性

超声打断不如酶裂解法温和，由于打断的不均匀性，导致测序结果背景噪音高，影响后续数据分析

两种方法对实验结果有影响，各有优劣

如果所研究的蛋白质高丰度表达且与DNA结合紧密如组蛋白，那么样本无需交联，这时可使用酶解法
如果所研究的蛋白质表达丰度较低或与DNA结合不紧密如转录因子等，往往需要用交联试剂将样本进行固定，稳定蛋白质和DNA的形态，这时最好选用超声法进行断裂。

参考：
https://www.abcam.com/epigenetics/studying-epigenetics-using-chip

https://academic.oup.com/nar/article/42/9/e74/1248114

https://www.jianshu.com/p/e894626cbcbd

https://blog.csdn.net/E_gene/article/details/112191111?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2_{aggregatepage}first_rank_v2~rank_aggregation-2-112191111.pc_agg_rank_aggregation&utm_term=chip%E6%8A%80%E6%9C%AF%E7%9A%84%E5%8E%9F%E7%90%86&spm=1000.2123.3001.4430

https://blog.csdn.net/weixin_30666943/article/details/96063992?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2_{aggregatepage}first_rank_v2~rank_aggregation-6-96063992.pc_agg_rank_aggregation&utm_term=%E9%AB%98%E9%80%9A%E9%87%8F%E6%B5%8B%E5%BA%8F%E5%8E%9F%E7%90%86&spm=1000.2123.3001.4430