检测cnv的范围:1KB~几M,中值100KB

杂合性缺失,位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,与之配对的染色体上仍然存在

1:在有的文献中指出cfDNA长度一般在167bp,ctDNA一般在145bp.在脑脊液中发现(ctDNA)取代在血浆中。本文对13个病人进行了平均深度(0.4X)的测序,测序每个样本数据量标准化到10Mreads。在13人中有5人发现了 somatic copy number alterations (SCNAs)基因组按照30K的大小分成没有overlap的bin区域,根据GC含量矫正比对reads数量,拷贝数变异分析使用R软件包CNAclinic(https://github.com/sdchandra/CNAclinic ),reads counts标准化是使用中值,以及log化
影响因子:10.293

Mouliere F, Mair R, Chandrananda D, et al. Detection of cellfree DNA fragmentation and copy number alterations in cerebrospinal fluid from glioma patients[J]. EMBO molecular medicine, 2018: e9323.

2:测序数据量为10M reads,在后续分析的时候也都标准化到这个范围。bin size选择是100K 数据R分析包是QDNAseq 病人中要比正常人包含更多cfDNA,因此对cfDNA也很重要。这篇文章尝试了多个binsize15 kb, 50 kb and 100 kb,最终选择了100KB
影响因子:10.199

Van Roy N, Van Der Linden M, Menten B, et al. Shallow whole genome sequencing on circulating cell-free DNA allows reliable non-invasive copy number profiling in neuroblastoma patients[J]. Clinical Cancer Research, 2017: clincanres. 0675.2017.

3:选择bin窗口为10kb,在选取log的对照时候,选取的是千人基因组中血液样本,样本编号NA18535
影响因子:2.766

 Molparia B, Nichani E, Torkamani A. Assessment of circulating copy number variant detection for cancer screening[J]. PloS one, 2017, 12(7): e0180647.

4:使用数据0.01X(小于10万条reads),使用的测序平台是Torrent Suite version 5.0.2,copy数目变异分析使用的R软件分析包QDNASeq,对于CNV的定义设置为1.5–20 Mb的长度 log2(CopyNumberRatio) ≥ 0.2。在分析之前抽取数据使用seqtk
影响因子:0

Hovelson D H, Liu C J, Wang Y, et al. Rapid, ultra low coverage copy number profiling of cell-free DNA as a precision oncology screening strategy[J]. Oncotarget, 2017, 8(52): 89848.

5:利用NIPT技术可以发现约在~7MB大小的CNV,且在敏感性和特异性上都可以达到95%以上,pathogenic cancer的CNV的范围从1M,5M甚至到100MB。这篇文章选取的bin的大小为10KB。计算每个bin里的reads数目使用的是HTSeQ_Count,采用的数据是模拟的
影响因子: 2.766

Molparia B , Nichani E , Torkamani A . Assessment of circulating copy number variant detection for cancer screening[J]. Plos One, 2017, 12(7):e0180647.

6:本篇文章使用不同的测序文库(short\3KB\5KB)对标准品na12878进行不同深度的测序(1X、3X、5X),从结果上来看如果是针对正常样本或者肿瘤组织样本可以建议测序的时候选取大文库,结果显示低深度的各个文库都检测出了黄金标准的CNV
影响因子:5.751

Zhou B, Ho S S, Zhang X, et al. Whole-genome sequencing analysis of CNV using low-coverage and paired-end strategies is efficient and outperforms array-based CNV analysis[J]. Journal of medical genetics, 2018, 55(11): 735-743.

7:这是一篇综述性的文献,只是讲讲call CNV的方法,简单的汇总下对我有用的要点是,对于得到的CNV结果可以设置过滤1kb以下的结果,去除简单重复区域(如果与地重复区域含有70%的重复)这里call CNV只是针对单样本很多软件程序没有比较是源于有特殊分析需求比如样本需求
影响因子:8.855

Trost B, Walker S, Wang Z, et al. A comprehensive workflow for read depth-based identification of copy-number variation from whole-genome sequence data[J]. The American Journal of Human Genetics, 2018, 102(1): 142-155.

8:本篇文章收集1002 cfDNA样本,有3%的人发现了chromosomal imbalances。全基因组单端测序,每个样本平均测序深度9.6M reads
影响因子: 13.926

Lenaerts L, Vandenberghe P, Brison N, et al. Genomewide copy number alteration screening of circulating plasma DNA: potential for the detection of incipient tumors[J]. Annals of Oncology, 2018.

9:选取了344个样本其中200个病人样本包含多种类型癌症,进行全基因组测序,测序深度在(0.4x)也就是在最后分析时数据都标准到10M reads,其中病人比正常人在插入片段长度在90-150bp内存在有统计意义的差异,且在后续CNV发现过程中更具有敏感性和特异性。因此在分析变异时可以进行片段筛选。通过片段筛选然后结合CNA计算出t-MAD。其他的特征提取是提取了P(20 to 150), P(100 to 150), P(160 to 180), P(180 to 220),and P(250 to 320); three features based on ratios of those proportions: P(20 to 150)/P(160 to 180), P(100 to 150)/P(163 to 169), and P(20 to 150)/P(180 to 220); and a further feature based on the amp- litude of the oscillations having 10-bp periodicity observed below 150 bp.这些特征,最终在选择预测算法中选择了随机森林和线性回归模型,特征选取上The best feature set for the LR model included t-MAD, 10-bp amplitude, P(160 to 180), P(180 to 220), and P(250 to 320)对于线性回归模型最好,随机森林的计算结果要好于线性回归的结果。
影响因子: 16.71

Mouliere F, Chandrananda D, Piskorz A M, et al. Enhanced detection of circulating tumor DNA by fragment size analysis[J]. Science translational medicine, 2018, 10(466): eaat4921.

10:在测序比对过程中,基因组上的低复杂区域( DAC Blacklisted Regions )去掉,这些bed区域下载链接:
wgEncodeDukeMapabilityRegionsExcludable.bed.gz
wgEncodeDacMapabilityConsensusExcludable.bed.gz
这个是由 ENCODE project 承担发起的。

11:The wiggle (WIG) format is an older format for display of dense, continuous data such as GC percent, probability scores, and transcriptome data.Wiggle data elements must be equally sized.

12:关于bin(或者window)大小的选择建议参考下面的文章

Gusnanto A, Taylor C C, Nafisah I, et al. Estimating optimal window size for analysis of low-coverage next-generation sequence data[J]. Bioinformatics, 2014, 30(13): 1823-1829.

13:测序深度要求至少10M reads,依据测序读长覆盖在<0.4X

14:在分析copy数过程中有一步称为segmente,其实就是 log2(copy-number/2)处理,针对于二倍体来说如果是没有改变则该值为0,扩增则大于0,缺失则小于0。之前都是芯片分析的数据,芯片数据数据分析使用的是GISTIC2,只考虑基因部分在文献

Beroukhim R, Mermel C H, Porter D, et al. The landscape of somatic copy-number alteration across human cancers[J]. Nature, 2010, 463(7283): 899.

其定义的阈值为:

  • Genes with focal CNV values smaller than -0.3 are categorized as a “loss” (-1)
  • Genes with focal CNV values larger than 0.3 are categorized as a “gain” (+1)
  • Genes with focal CNV values between and including -0.3 and 0.3 are categorized as “neutral” (0).
    参考链接:https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/

15:ichorCNA软件可以推断Tumor fraction (TFx) ,针对全基因组低深度cfDNA(0.1X),该软件可以评估的敏感度在(3%),针对外显子平均测序深度在~150x下,评估敏感度在(10%),该分析软件不需要对照,当然你也可以使用内部的对照,也可以自己建立。

Adalsteinsson V A, Ha G, Freeman S S, et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors[J]. Nature communications, 2017, 8(1): 1324.
Stover D G, Parsons H A, Ha G, et al. Association of cell-free DNA tumor fraction and somatic copy number alterations with survival in metastatic triple-negative breast cancer[J]. Journal of Clinical Oncology, 2018, 36(6): 543.
Chen X, Chang C W, Spoerke J M, et al. Low-Pass Whole-Genome Sequencing of Circulating Cell-Free DNA Demonstrates Dynamic Changes in Genomic Copy Number in a Squamous Lung Cancer Clinical Cohort[J]. Clinical Cancer Research, 2019: clincanres. 1593.2018.

低深度全基因组测序技术在产前诊断中的应用专家共识

1: 目前用于全基因组范围CNVs检测的技术为染色体微阵列分析(chromosomal microarray analyisis,CMA)成本较高。CMA技术对于<30%的嵌合体无法进行准确分析。

2: CNV-seq可精确检测低至10~50ng的DNA样本,研究还发现在核型分析判定的平衡易位样本中,有7.9%的样本在断裂连接处存在CNVs

3: CNV-seq无法检测三倍体以及多倍体,当CNV-seq检测提示性染色体拷贝数异常时,建议进一步进行荧光原位杂交(FISH)检测

4: 对于由47,XXX与45,X两种性染色体非整倍 体构成的嵌合体,若其细胞比例各占50%,则CNV— seq会将其判断为X染色体拷贝数无异常。

5: CNV—seq无法对包括单亲二倍体(uniparental disomy,UPD)在内的杂合性缺失(loss heterozygosity,LOH)进行检测

6: 对夫妻双方的外周血样本和胎儿样本同时进行 CNV—seq检测,将有利于及时确定CNVs的来源并判 断胎儿CNVs的致病性。

7: 常染色体非整倍体 建议终止妊娠。对于13、14、15、21、22号染色体的非整倍体,建议对父母行外周血染色体核型分析,排除存在罗氏易位的可能性。

生物信息分析文献结论汇总

1: 使用CNVkit检测CNV,但是需要构建基线文件采用了10男10女,而且这些正常样本必须是经过CMA验证正常的样本

  • 关于拷贝数阈值的设置理论上:
    duplication (three copies) log2 [1.5] =0.58
    a deletion (one copy) is log2 [0.5] =1.0
    Liang D, Peng Y, Lv W, et al. Copy number variation sequencing for comprehensive diagnosis of chromosome disease syndromes[J]. The Journal of Molecular Diagnostics, 2014, 16(5): 519-526.

  • 在相关文献中:这个值设为1.2和0.8比如贝瑞发表的文章和dragen:

  • 在华大的文献中:这个值设定为1.15和0.85

  • 为了增加敏感性,华大的另一篇文献里提到设置为:1.1和0.9
    Zhou X, Chen X, Jiang Y, et al. A Rapid PCR-Free Next-Generation Sequencing Method for the Detection of Copy Number Variations in Prenatal Samples[J]. Life, 2021, 11(2): 98.
    Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.
    Wang H, Dong Z, Zhang R, et al. Low-pass genome sequencing versus chromosomal microarray analysis: implementation in prenatal diagnosis[J]. Genetics in Medicine, 2020, 22(3): 500-510

检测算法:

  • 划动bin大小一般设置50kb
  • 步长:5kb
  • 解析度:100K

测序深度与读长

  • 测序数据量,最少15M reads
  • 对于读长单端50bp
  • 理论模拟上,对于unique reads至少达到6M

Kucharík M, Budiš J, Hýblová M, et al. Copy Number Variant Detection with Low-Coverage Whole-Genome Sequencing Represents a Viable Alternative to the Conventional Array-CGH[J]. Diagnostics, 2021, 11(4): 708.
Chau M H K, Wang H, Lai Y, et al. Low-pass genome sequencing: a validated method in clinical cytogenetics[J]. Human Genetics, 2020, 139: 1403-1415.

华大share的分析代码
http://sourceforge.net/projects/increment-ratio-of-coverage/files/

Dong Z, Zhang J, Hu P, et al. Low-pass whole-genome sequencing in clinical cytogenetics: a validated approach[J]. Genetics in Medicine, 2016, 18(9): 940-948.
Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.

低深度测序下的拷贝数变异文章阅读笔记相关推荐

  1. 测序技术检测拷贝数变异在染色体疾病综合检测中的应用--转载

    http://www.cogonline.com/Article/zyyd/yjsj/144070515.html Desheng Liang,* Ying Peng,* Weigang Lv,* L ...

  2. 《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(八)

    第五章  新一代测序NGS:重测序的回帖和变异鉴定 5.1  新一代测序 从二十世纪前,人类认识到DNA的重要性后,一直以来将测序----确定一个特定DNA分子的序列----作为理解生命的重要方法. ...

  3. Super4PCS文章阅读笔记

    Super4PCS阅读笔记 Super4PCS阅读笔记 前言 前言 今天给大家分享一下点云配准四点法4PCS0的变种--Super4PCS.此算法的原文在:Super4PCS: Fast Global ...

  4. 《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(九)

    第五章  新一代测序NGS 5.4 关于回帖.变异鉴定的补充材料 BWT算法是BWA软件所使用的压缩算法,它可以对数据进行无损压缩,它对字符串乱转后得到的字符矩阵进行排序和变换,使数据更容易被压缩. ...

  5. NAR:UNITE真菌鉴定ITS数据库——处理未分类和并行分类(数据库文章阅读笔记Markdown模板)...

    上方文章标题要求:包括杂志名缩写(一个词的杂志名不缩写,两个及上用实词首字母)和吸引人且有重要信息的语句,中间用中文冒号(:)分隔 注:文中灰色部分(引用格式)为写作说明文字,帮助编辑规范Markdo ...

  6. 深度学习半监督:mean teacher阅读笔记

    参考博客:[深度学习]半监督学习入门:Mean teachers_兔子爱读书的博客-CSDN博客_mean teacher

  7. 医学图像分割文章阅读笔记

    1.Detection-aided liver lesion segmentation using deep learning 2.Automatic Liver and Tumor Segmenta ...

  8. Control-Freec:检测拷贝数变异的神器

    欢迎关注"生信修炼手册"! Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH.官网如下 http://boevalab.com/FREEC/ 在检 ...

  9. 基于三代测序数据的结构变异检测,PBHoney方法解读

    本文来自"生信算法"公众号. 基因变异普遍存在于同一物种内的不同个体中,如人与人之间的基因组是不完全一样的(即是多态的),彼此之间都存在着一些差异,即使是和父母或是兄弟姐妹之间去比 ...

  10. php变异测试工具,Control-Freec:检测拷贝数变异的神器

    欢迎关注"生信修炼手册"! Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH.官网如下 http://boevalab.com/FREEC/ 在检 ...

最新文章

  1. 没有与制定类型匹配的重载函数 cv::Vec<_Tp 实例
  2. 数据中心用蓄电池解决方案
  3. LeetCode 2 Keys Keyboard
  4. 消息分发的同步均衡策略
  5. Unity经典游戏教程之:雪人兄弟
  6. 【渝粤教育】国家开放大学2018年秋季 1374T班级管理 参考试题
  7. 函数指针的应用学习Demo
  8. HIVE SQL 时间函数
  9. Vue实现省市区信息选择(附前端源码)
  10. 内存映射(Memory Map)
  11. Linux系统分区访问windows分区提示挂载失败
  12. 一起学爬虫(Python) — 07
  13. ado控件 怎么链接mysql_使用ADO或ADO控件访问数据库
  14. 频繁模式挖掘 (Frequent pattern mining):01 概念篇 (附例题)
  15. 【1.6万字长文】华为战略管理方法论介绍(含开发战略到执行DSTE、业务领先模型BLM、业务执行力模型BEM、组织绩效和战略解码)
  16. IDEA一直在indexing的解决方案
  17. C语言编程>第三周 ⑥ 有一个已经排好序的数组。现输入一个数,要求按原来的规律将它插入数组中。
  18. 一些调格式的经验 插入图注和尾注
  19. h5页面在新版微信iOS 端出现底部白色导航条
  20. 世界排名第 3 的滴滴裁员,开春求职必知的独角兽排行榜

热门文章

  1. Python将数字排列组合
  2. 故障处理 | 网站500,无法打开站点(突然无法打开,代码和服务器没做调整)
  3. intel945显卡linux驱动,下载:Intel 945G/G965/G3X显卡新版驱动
  4. mq 的Publish/Subscribe 模式
  5. 菜鸟点评-FILCO 忍者二代机械键
  6. Computer Science | Retrosynthesis:关于逆合成路线规划
  7. 被人民日报等官媒反复强调的​「企业家精神」,到底是什么?
  8. iOS开发之千呼万唤始出来iOS10更新内容以及iOS 10的闪退问题解决
  9. 汽车维修企业管理【12】
  10. java分库框架shard_架构组件:基于Shard-Jdbc分库分表,数据库扩容方案-Go语言中文社区...