外显子测序数据分析流程

1、数据下载
2、与参考序列比对(采用bwa)
3、标记PCR重复
4、碱基矫正
5、质量控制
6、VEP标记

**

  1. 数据下载

**

数据下载方式:

/mnt/raid61/Personal_data/zhouran/soft/linuxnd login -u X101SC20030543-Z01-J077 -p cxpez225 /mnt/raid61/Personal_data/zhouran/soft/linuxnd cp -d oss://CP2018091214925/H101SC20030543/RSCS7000/X101SC20030543-Z01/X101SC20030543-Z01-J077/ /mnt/raid62/BetaCoV/Person/zengwanqin/datalss

1、比对

ls /mnt/raid62/BetaCoV/Person/zengwanqin/datalss/X101SC20030543-Z01-J077/2.cleandata/夏天翼2号管_FDHE202653854-1a/ 夏天翼2号管_FDHE202653854-1a_1.clean.fq.gz>1 ls /mnt/raid62/BetaCoV/Person/zengwanqin/datalss/X101SC20030543-Z01-J077/2.cleandata/夏天翼2号管_FDHE202653854-1a/ 夏天翼2号管_FDHE202653854-1a_2.clean.fq.gz>2 cut -d"/" -f 7 1 |cut -d"_" -f 1 > 0 paste 0 1 2 > config source activate wes INDEX=/mnt/raid62/Personal_data/zhangyiming/GATK/hg38/Homo_sapiens_assembly38.fasta cat config |while read id do arr=($id) fq1${arr[1]} fq2=${arr[2]} sample=${arr[0]} echo $sample $fq1 $fq2 bwa mem -t 5 -R "@RG\tID:$sample\tSM:$sample\tLB:WGS\tPL:Illumina" $INDEX $fq1 $fq2 | samtools sort -@ 5 -o $sample.bam - done

##质量控制

time $gatk CollectHsMetrics \ -BI /mnt/raid64/pancreas_sc/align/WES/info/Agilent/S07604514_Covered.interval_list \ -I FDHE202653854.bam \ -O xiatianyi.txt.metrics \ -TI /mnt/raid64/pancreas_sc/align/WES/info/Agilent/S07604514_Covered.interval_list \ --VALIDATION_STRINGENCY=LENIENT查看文件:
samtools view 夏天翼2号管.bam | less
samtools view -H 夏天翼2号管.bam |grep -v "SQ"
samtools index 夏天翼2号管.bam

2、标记重复序列####定义变量

ref=/mnt/raid62/Personal_data/zhangyiming/GATK/hg38/Homo_sapiens_assembly38.fasta
snp=/mnt/raid62/Personal_data/zhangyiming/GATK/hg38/dbsnp_146.hg38.vcf.gz
indel=/mnt/raid62/Personal_data/zhangyiming/GATK/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz
gatk=/mnt/raid61/Personal_data/zhouran/soft/gatk-4.1.0.0/gatk

标记PCR重复reads

sample=xiatianyi echo $sample time $gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" MarkDuplicates \ -I FDHE202653854.bam \ -O ${sample}_marked.bam \ -M $sample.metrics \ 1>log.mark 2>&1

#FixMateInformation

time $gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" FixMateInformation \ -I ${sample}_marked.bam \ -O ${sample}_marked_fixed.bam \ -SO coordinate \ 1>${sample}_log.fix 2>&1

#进行index

samtools index ${sample}_marked_fixed.bam

#BaseRecalibrator 碱基矫正

time $gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" BaseRecalibrator \ -R $ref \ -I ${sample}_marked_fixed.bam \ --known-sites $snp \ --known-sites $indel \ -O ${sample}_recal.table \ 1>${sample}_log.recal 2>&1 time $gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" ApplyBQSR \ -R $ref \ -I ${sample}_marked_fixed.bam \ -bqsr ${sample}_recal.table \ -O ${sample}_bqsr.bam \ 1>${sample}_log.ApplyBQSR 2>&1

#HaplotypeCaller命令

$gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" HaplotypeCaller \ -R $ref \ -I ${sample}_bqsr.bam \ --dbsnp $snp \ -O ${sample}_raw.vcf \ 1>${sample}_log.HC 2>&1

#gtf文件:/mnt/raid64/ref_genomes/HomSap/release101/Homo_sapiens.GRCh38.101.sorted.gtf.gz
#VEP进行功能注释

/home/zhouran/data/miniconda3/bin/perl /home/zhouran/vep/vep --species homo_sapiens --assembly GRCh38 --no_progress --no_stats --buffer_size 5000 --sift b --ccds --uniprot --hgvs --symbol --numbers --domains --gene_phenotype --canonical --protein --biotype --uniprot --tsl --variant_class --shift_hgvs 1 --check_existing --total_length --allele_number --no_escape --xref_refseq --failed 1 --vcf --flag_pick_allele --pick_order canonical,tsl,biotype,rank,ccds,length --dir /home/zhouran/.vep --fasta /home/zhouran/.vep/homo_sapiens/100_GRCh38/Homo_sapiens.GRCh38.100.dna.primary_assembly.fa.gz --format vcf --input_file xiatianyi_raw.vcf --output_file xiatianyi_raw.vep.vcf.gz --offline --pubmed --fork 4 --cache_version 100 --polyphen b --af --af_1kg --af_esp --af_gnomad --regulatory

##保留probe内的SNP index

bcftools view xiatianyi_raw.vep.vcf.gz -R /mnt/raid64/pancreas_sc/align/WES/info/Agilent/S07604514_Covered.bed | bgzip > subset.vep.vcf.gz

##注释

vep-annotation-reporter subset.vep.vcf.gz Consequence SYMBOL Feature -o xiatianyi.subset.tsv

##bam-readcount

/mnt/raid62/BetaCoV/Person/zengwanqin/datalss/X101SC20030543-Z01-J077/2.cleandata/FDHE202653854-1a/bam-readcount/bin/bam-readcount \ -f /mnt/raid62/Personal_data/zhangyiming/GATK/hg38/Homo_sapiens_assembly38.fasta \ -l /mnt/raid64/pancreas_sc/align/WES/info/Agilent/S07604514_Covered.bed xiatianyi_bqsr.bam > subset_readcounts.tsv bam-readcount -f /mnt/raid62/Personal_data/zhangyiming/GATK/hg38/Homo_sapiens_assembly38.fasta xiatianyi_bqsr.bam chr1:11000-12000 > read_count.tsv

##将VCF和bam-readcounts合并##https://vatools.readthedocs.io/en/latest/vcf_readcount_annotator.html

vcf-readcount-annotator xiatianyi_raw.vep.vcf subset_readcounts.tsv DNA \ -t all -o all_annotated_vcf bcftools query -f '[%AD\t%DP]\n' all_annotated_vcf > all_annotated_vcf_ad_pd.tsv vep-annotation-reporter all_annotated_vcf Consequence SYMBOL Feature -o xiatianyi.subsetrc.tsv

##用R合并xiatianyi.subsetrc.tsv all_annotated_vcf_ad_pd.tsv提出aa和密码子

vep-annotation-reporter subset.vep.vcf.gz Consequence SYMBOL Feature HGVSp Codons -o xiatianyi.subset.tsv

#看该区域有没有突变
/

home/zhouran/data/anaconda3/bin/tabix xiatianyi_raw.vep.vcf.gz chr1:160288594-160343273| less
ls -lh xiatianyi*.bam|cut -d " " -f 5-samtools view -h FDHE202653854.bam chr1:160288594-160343273|samtools sort -o xiatianyi.copa.bam -
samtools view -h xiatianyi_bqsr.bam chr1:160288594-160343273|samtools sort -o xiatianyi_bqsr.copa.bam -
samtools view -h xiatianyi_marked.bam chr1:160288594-160343273|samtools sort -o xiatianyi7_marked.copa.bam -
samtools view -h xiatianyi_marked_fixed.bam chr1:160288594-160343273|samtools sort -o xiatianyi_marked_fixed.copa.bam -
ls -lh *copa.bam
ls *.copa.bam|xargs -i samtools index {}

zcat /mnt/raid64/ref_genomes/HomSap/release101/Homo_sapiens.GRCh38.101.sorted.gtf.gz |grep -w STAT3|head|less -SN

/home/zhouran/data/anaconda3/bin/tabix xiatianyi_raw.vep.vcf.gz chr17:42313324-42388482| less
zcat /mnt/raid64/ref_genomes/HomSap/release101/Homo_sapiens.GRCh38.101.sorted.gtf.gz |grep -w LRBA|head|less -SN

外显子测序数据分析流程相关推荐

  1. aggr代码 cellranger_单细胞转录组测序数据分析流程-数据预处理

    结果评估 1. 质控: 单细胞测序产生数亿的结果序列,不可避免的会出现低质量的测序结果,存在各种情况的序列污染.因此序列过滤及质量评得极为重要.序列质量主要通过测序质量值Q20/Q30的占比来表征,即 ...

  2. 第9期 | 家系、肿瘤临床基因组/外显子组数据分析实战

    福利公告:前 78期<临床基因组/外显组数据分析实战>线上/线下课程已圆满结束.现于2023年1月6~8日,在北京安排第七期课程. 线上课是通过腾讯会议实时直播线下课,实时互动,并录制有视 ...

  3. 【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...

                    简介                  标题:长序列测序数据分析的机遇与挑战 杂志:GenomeBiology 影响因子:10.806 发表时间:2020年05月08日 ...

  4. 学习全基因组测序数据分析2:FASTA和FASTQ

    本文转载自微信公众号解螺旋的矿工,作者为黄树嘉,已获得授权.黄树嘉写了WGS系列的文章,堪称教科书级别的生物信息学习材料.虽然本平台只关注宏基因组领域,但此系列文章知识体系完善.干货满满,是值得每位专 ...

  5. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年10月27日)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.高颜值在线绘图和分析.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流 ...

  6. QIIME 2:可重复、交互和扩展的微生物组数据分析流程

    文章目录 QIIME2:可重复.可交互.适用范围广和可扩展的微生物组数据科学 摘要 正文 图1. 交互式可视化工具 图2. 迭代记录数据来源确保分析可重复 代码可用 在线方法 提取QIIME2的存档内 ...

  7. 二代测序linux软件,二代测序数据分析软件包大全

    二代测序数据分析软件包大全 Integrated solutions*CLCbio Genomics Workbench-de novoand reference assembly of Sanger ...

  8. mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

    1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...

  9. Seurat 单细胞转录组测序数据分析教程(二)——python(scanpy)

    Seurat 单细胞转录组测序数据分析教程(二)--python(scanpy) 文章参考至scanpy官网,做了一个更详细的解读. 数据由来自健康捐赠者的 3k PBMC组成,可从 10x Geno ...

  10. 扩增子和宏基因组数据分析流程和可视化方案—刘永鑫(南京,2020年11月27日)

    感谢中科院南京土壤所褚海燕老师的邀请,参加微生物生态与生物信息技术培训. 本次会议预计300人规模的会议,结果现场来了超千人.即使会议进行至第二天下午接近尾声,依然火爆如下: 我将本次90分钟报告&l ...

最新文章

  1. 《算法导论》学习总结 — 13. 第13章 红黑树(2)
  2. Java中如何实现j并发更新数据库同一条数据
  3. 如何用一句话得罪 95% 的中国人?昨天这家公司做到了...
  4. mnn 可变输入项目实例
  5. python中的装饰器decorator
  6. 微软开源AI诊断工具Error Analysis
  7. matlab padarray函数零,matlab padarray函数
  8. C程序范例(2)——学生管理系统”链表“实现
  9. [设计模式] javascript 之 策略模式
  10. 弹窗实用素材模板|UI设计中的弹窗设计技巧,快get
  11. jQuery easyUI Pagination控件自定义div分页(不用datagrid)
  12. python list定义_Python中list总结
  13. 如何确定线程池核心数的最佳值?
  14. utf8_general_ci、utf8_unicode_ci和utf8_bin的区别
  15. 三极管电路限流电阻如何选择
  16. 酷安uwp版|酷安uwp版客户端
  17. 为什么会有这么多种Python?
  18. DC-DC15-150V降压5V0.8A 替代PN6005、PN6006电源驱IC
  19. 小米技术委员能扛起雷军技术立业的大旗吗?
  20. C/C++是程序员必须掌握的语言吗?

热门文章

  1. 基于ThinkPHP6组件化开发框架
  2. 2021react复习
  3. win10下如何关闭445端口,教程演示
  4. 《左耳听风》-ARTS-打卡记录-第十一周
  5. 数字资产期权新手入门手册 | TokenInsight
  6. android sdk模拟器中文版,安卓sdk自带模拟器的使用
  7. PMBOK(第五版)学习笔记 —— 3 项目管理过程
  8. python浪漫代码表白npy_【交大表白墙】表白dxy小姐姐,十里春风不如你,三里桃花不及卿,要每天开心哦!...
  9. Python笔记 之 dict模块
  10. 思维导图怎么制作?这些制作技巧,支持一键模板套用,建议收藏