背景介绍:
癌症病人基因组内有许许多多的Indel,这些Indel与发病机制有着密切关系,而通常的做法是对癌症病人进行基因组测序或者外显子测序,找出相关Indel。
而Chip-seq数据可以找出Enhancer,对Chip-seq数据进行处理,可以将Indel与Enhancer进行结合分析
方法介绍:
简单地说,就是follow最近的高分文章《Small genomic insertions form enhancers that misregulate oncogenes》PMID:28181482
用大牛的方法,跑自己的数据,最后如果搜集足够多的癌症病人Chip-seq数据,能找出更多新的enhancer区域内的插入缺失(Indel)
大牛的脚本在:
https://bitbucket.org/young_computation/indelsfromchipseq

Chip-Seq display
先做Chip-seq display一段
ChIP-Seq display.Reads were aligned to the hg19 revision of the human reference
genome using bowtie with parameters –best –k 2 –m 2 –sam and –l set to read
length. Read pileup in 50 bp bins was determined using MACS with parameters –
w –S –space=50 –shiftsize=200 –nomodel. WIG file output from MACS was
visualized in the UCSC genome browser.
首先,下载数据
LY4_H3K27AC Chromatin immunoprecipitation against H3K27Ac
ascp -QT -l 100M -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR155/005/SRR1554605/SRR1554605.fastq.gz .
LY4_WCE Whole cell extract input control for ChIP
ascp -QT -l 100M -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR155/006/SRR1554606/SRR1554606.fastq.gz .
SUDHL6_H3K27AC     Chromatin immunoprecipitation against H3K27Ac
ascp -QT -l 100M -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR155/009/SRR1554599/SRR1554599.fastq.gz .
SUDHL6_WCE     Whole cell extract input control for ChIP
ascp -QT -l 100M -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR155/000/SRR1554600/SRR1554600.fastq.gz .
接着,fastqc质量检测
fastqc -o . -f fastq -t 4 SRR1554605.fastq &
fastqc -o . -f fastq -t 4 SRR1554606.fastq &
fastqc -o . -f fastq -t 4 SRR1554599.fastq &
fastqc -o . -f fastq -t 4 SRR1554600.fastq &
下载bowtie hg19索引
基因组索引从bowtie官网下载
Pre-built indexes H. sapiens, UCSC hg19    2.7 GB
bowtie序列比对
bowtie genome/hg19 -q SRR1554605.fastq -k 2 --best -m 2 --threads 4 -l 40 -S 2> SRR1554605.out > SRR1554605.sam
bowtie genome/hg19 -q SRR1554606.fastq -k 2 --best -m 2 --threads 4 -l 40 -S 2> SRR1554606.out > SRR1554606.sam
bowtie genome/hg19 -q SRR1554599.fastq -k 2 --best -m 2 --threads 4 -l 40 -S 2> SRR1554599.out > SRR1554599.sam
bowtie genome/hg19 -q SRR1554600.fastq -k 2 --best -m 2 --threads 4 -l 40 -S 2> SRR1554600.out > SRR1554600.sam
-m 2 Suppress all alignments for a particular read or pair if more than 2 reportable alignments exist for it.
--threads 4 4个线程
--best hits guaranteed best stratum; ties broken by quality
-k 2 report up to 2 good alignments per read (default: 1)
-l 40 seed length for -n (default: 28) 文献中-l set to read length
-S/--sam write hits in SAM format
macs建双峰模型
macs14 -t SRR1554605.sam  -c SRR1554606.sam --format SAM --name "LY4" --wig --single-profile --space=50 --shiftsize=200 --nomodel
macs14 -t SRR1554599.sam  -c SRR1554600.sam --format SAM --name "SUDHL6" --wig --single-profile --space=50 --shiftsize=200 --nomodel
-w, --wig             Whether or not to save extended fragment pileup at
every WIGEXTEND bps into a wiggle file. When --single-
profile is on, only one file for the whole genome is
saved. WARNING: this process is time/space consuming!!
-S, --single-profile  When set, a single wiggle file will be saved for
treatment and input.
--space=SPACE         The resoluation for saving wiggle files, by default,
MACS will save the raw tag count every 10 bps. Usable
only with '--wig' option.
--shiftsize=SHIFTSIZE
The arbitrary shift size in bp. When nomodel is true,
MACS will use this value as 1/2 of fragment size.
DEFAULT: 100
--nomodel             Whether or not to build the shifting model. If True,
MACS will not build model. by default it means
shifting size = 100, try to set shiftsize to change
it. DEFAULT: False
放到IGV中对ASNS基因进行可视化。
至此,文章中Chip-Seq display一段算是完成了

数据准备
接下来就是这篇文章的精髓了,从chip-seq数据里面寻找indel
首先是数据准备
下载bowtie hg19索引和bowtie2 hg19索引
基因组从bowtie和bowtie2官网下载
H. sapiens, UCSC hg19     3.5 GB
or: part 1 (1.5 GB), part 2 (650 MB), part 3 (1.5 GB)
H. sapiens, UCSC hg19     2.7 GB
or: part 1 - 1.7 GB, part 2 - 1.0 GB
colorspace: full, or part 1, part 2
blat程序所需的染色体序列,同样下载UCSC的
http://hgdownload.soe.ucsc.edu/downloads.html#human
进入http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/
下载chromFa.tar.gz          20-Mar-2009 09:21  905M

寻找Indel
主要还是根据大牛的脚本走
https://bitbucket.org/young_computation/indelsfromchipseq
顺序是:首先CANCERS/run_everything.sh ,然后是Scaffold_Dev/run_everything.sh
这两步,基本上把文章的精髓给做完了,把所有的INDEL都找出来了。
两者方法差不多,都是基于一个思路:先用bowtie1比对,把没比对上的reads调整参数用bowtie2再比对,然后通过perl脚本以及一系列awk,sed命令进行处理,得到Indel
而Scaffold_Dev在处理时候,将第一步没比对上的reads用Edena进行了一定的拼接,所以最后找出来的Indel会长一些(其实测序reads就40bp,也不会太长)
接下来做dbSNP和Enhancers文件夹里面的内容
这两步会将找出来的Indel与“SNP以及Chip-seq分析出来的enhancer”进行overlap,整合分析

结果
由于涉及有关科研课题,具体结果就没有啦~等着以后看PubMed吧
不过也用文章的数据,将这篇文章的结果重复出来啦,特别是Jurkat细胞系里那个GTTAGGAAACGG 12bp的插入找出来了。
脚本
最后也写了一个脚本,理论上搜集好一堆Chip-seq数据,安装配置好相关软件,就能自动运行分析。有些Indel地方因为reads coverage比较高,IGV可视化的时候也能看出来有很多reads能证明这个Indel是真实可靠的,不过最有力的证据还是要sanger测序进行相关实验,结合相关gene解释生物学问题。

Chip-seq数据寻找Indel相关推荐

  1. 海量无序数据寻找第 K 大的数

    前言 最近在参加阿里云举办的<第三届数据库大赛创新上云性能挑战赛--高性能分析型查询引擎赛道>,传送门:https://tianchi.aliyun.com/competition/ent ...

  2. CBNData:骑行大数据寻找城市热点之购物中心篇

    近日,第一财经商业数据中心(CBNData)联合ofo小黄车发起了"骑行大数据寻找城市热点"主题系列研究,通过对北京.上海.广州.深圳.成都.西安.杭州.天津8个一.二线城市的共享 ...

  3. 中国家庭收入调查(CHIP)数据88-13年

    88.95.99.02.07.08.13七年 为了追踪中国收入分配的动态情况,中国家庭收入调查(CHIP)已经相继在1989年.1996年.2003年.2008年和2014年进行了五次入户调查.它们分 ...

  4. 【Sentieon】PacBio HiFi三代测序数据SNP/Indel加速分析

    Sentieon软件在二代测序中SNP/Indel变异检测流程已非常成熟,并以其检测准确性高和检测速度快而广受业内人士认可.近日,Sentieon推出了DNAscope LongReads分析流程,深 ...

  5. python爬虫数据寻找过程(解决爬虫异步导致AttributeError: 'NoneType' object has no attribute 'find_all'错误)

    前边写了url的分析 我们爬取想要的数据,一般是打开网站链接,用浏览器的elements功能对网页标签进行数据分析,确定想要的数据的位置,再在代码中通过requests库的get和post方式发起请求 ...

  6. 大数据应用:双十一,阿里京东该如何利用大数据寻找突破?

    2017年"双11"交易额又创新高,巨额交易背后是各大平台提前数月的摩拳擦掌.这是一次全民的购物狂欢,更是一场暗流涌动的"军备竞赛",从中我们可以一窥整个零售行 ...

  7. APP推广方案—通过数据寻找最优App推广方式

     摘要:在APP整个的推广过程中,有很多开发者只注重两个指标:下载量和激活量,他们把这两个指标认为是判断一个APP推广是否成功的标准,所以许多的应用出现了"只推广,无运营"的状态. ...

  8. 分析全球最大美食点评网站万家餐厅数据 寻找餐厅经营成功的秘密

    ◆ ◆ ◆ 摘要 各位美食爱好者对于Yelp应该比"大众点评"更加熟悉.这家美食评论起家的网站是被全球公认的"美食攻略提供者",它是利用大众经验和点评的最好例子 ...

  9. 本周最新文献速递20210815

    一.精细解读文献 一 文献题目: Rare variant contribution to human disease in 281,104 UK Biobank exomes 不想看英文题目: 28 ...

最新文章

  1. Vue子组件调用父组件方法并传参的5种方式:$emit触发、传入子组件function、访问父组件$parent.function、用inject关联父组件provide的方法、用window.fun
  2. 使用 spring boot 开发通用程序
  3. SAP MM ME57界面看到的供应源跟Source List主数据不一致?
  4. 爬取百度知道分类_百度指数爬虫|介绍篇
  5. 兑吧:游戏化玩转用户运营的三驾马车
  6. SAP UI5 Opportunity popup
  7. Cortex-M3栈内存操作
  8. JavaScript的调用栈、回调队列和事件循环
  9. 2021-2025年中国住宅安全行业市场供需与战略研究报告
  10. mysql优于oracle的地方_MYSQL转为ORACLE要注意的地方
  11. 固定资产分类(仅供参考 2005年),
  12. html5在线拍照,js html5 调用摄像头拍照
  13. 修改硬盘固件的木马 探索方程式(EQUATION)组织的攻击组件
  14. kubernetes证书配置相关
  15. Pycharm 添加自动表头(包含汉化和英文版本路径)
  16. 中国银联移动支付技术规范
  17. R语言之决策树CART、C4.5算法
  18. NVMe系列专题之一:NVMe技术概述
  19. 46_Pandas,Python,Seaborn热图的生成
  20. 电脑运行应用程序出现0xc000007b的解决方法

热门文章

  1. 用计算机处理文字单元设计,计算机应用基础单元设计62(处理图像).doc
  2. 浏览器无法访问此网站,连接已被重置,无法加载
  3. 权威发布丨2020 中国开源先锋 33 人之心尖上的开源人物
  4. 用html2canvas长按保存h5页面,html2canvas - 微信中长按存图 - 将h5活动结果保存到本地...
  5. 软件测试中遇到的印象深刻的问题及反思
  6. ckplayer ajax,谁能帮我做一个脚本啊?能让这个网页视频播放可以拉动进度条 可以快进...
  7. 根据股票涨跌用KMeans进行分类
  8. 无招胜有招——面向对象设计模式随笔,
  9. springboot实现pdf里面插入图片
  10. SSIS Execute SQL Task assign output 的两种方法