SNP基因数据质控调研
一、基因芯片质量控制简介
基因芯片的质量控制是分析基因芯片的第一步。snp的质控是非常重要的,如果snp数据的质量不佳,那么计算的结果的有效性和准确性就无法保证。在进行snp芯片测序采集的过程中,难免出现测序、人工操作等其他方面造成的误差,而非该个体的真实情况,如果不对这些测序出现问题的个体进行筛选控制,必然会对后续操作造成影响,由此可见质控操作的重要性。
由于选种、配种等各种业务的需求,为了使各项业务更加精准顺利的展开,我们需要对基因芯片上的snp数据进行质控,当满足一定的质量要求后,才能更准确的计算出各种数值。
二、常见的质控指标
质量控制包括两个方向,一个是样本的质量控制,一个是SNP的质量控制。
2.1、样本的质量控制
样本的质量控制包括:缺失率、杂合性、基因型性别和记录的性别是否一致。
1.mind(个体缺失检测)
按照个体的缺失比例进行对snp进行删除。
plink --file snp_maf –mind 0.05 --recode --out snp_hwe
如果一个SNP5%的个体中都是缺失的,那么就删掉该SNP。
2.call rate(检出率)
样本检出率:是指对于某种样本而言,通过测序并成功判刑的snp与所有检出的snp的比值,通常标准在90%或以上。
plink --file snp_geno -mind 0.05 --recode --out snp_mind
这步就是对样本检出率进行质控,控制在95%以上
3.杂合性检测
plink --bfile file --het --make-bed --out file_het
4.sex(性别是否出错)
–check-sex 可以生成性别检测的结果,然后根据结果构造removesample.txt(名称自由),再使用 --remove removesamp.txt 将性别出错的样本剔除。
plink --bfile outputname1 --check-sex
2.2、SNP位点的质量控制
SNP位点的质量控制包括:MAF值、call出率、Hardy-Weinberg Equilibrium。
1.MAF(最小等位基因频率)
最小等位基因频率:对那些MAF较小的snp,能得到信息量较少而且目前对这些snp检出效率也不高,通常要求maf值在3%及以上。
plink --file shp_mind -maf 0.05 --recode --out snp_maf
这步是对最小等位基因频率进行质控,要求要大于0.05.
MAF(Minor Allele Frequency):最小等位基因频率
最小等位基因频率通常是指在给定人群中的不常见的等位基因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率=0.36,T的频率=0.64,则等位基因C就为最小等位基因频率,MAF=0.36。
MAF的作用
Hapmap计划将MAF>0.05的SNPs作为首要研究目标,MAF广泛应用于复杂疾病的全基因组关联研究。在关联研究中,较小的MAF将会使统计效能降低,从而造成假阴性的结果。为了研究人群中罕见突变与疾病的关联,通常通过加大样本量的方法来弥补MAF降低所带来的统计效能的损失。在研究中,这一突变位点往往属于同一基因或同一通路上一组罕见突变中的一个。
此外,已知MAF还可以估算样本量或检验效能,并可以确定基因型的频率。 eg.G is a MAF=0.40 ,
freq(A)=1-freq(G)=1-0.40=0.60 so, freq_(AA)=0.600.60
freq_(AG)=20.400.60 freq_(GG)=0.400.40
2.call rate(检出率)
snp检出率:指对某个snp位点被成功检测到的样本与所有样本比值,一般要求在90%或以上。
plink --file snp -geno 0.05 --recode --out snp_geno
这一步就是要求snp检出率要在95%以上。
3.HWE(哈迪—温伯格平衡)
哈迪—温伯格平衡:HWE有助于确定哪些有明显基因分型错误的snp,因此一般要求位点snp符合HWE.
plink --file snp_maf -hwe 0.0001 --recode --out snp_hwe
此步要求哈迪温伯格平衡要小于0.0001。
三、质控的工具选择
3.1、plink(较为成熟)
Plink是一个免费、开源的全基因组关联分析工具集,用于执行基本范围的、大规模分析计算的有效方式。PLINK的重点是对基因型/表型数据的分析,因此不支持此前的步骤(例如,研究设计和计划,从原始数据生成基因型或CNV调用)。通过与gPLINK和Haploview集成,可以为后续的可视化,注释和结果存储提供支持。
plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
目前业界基本上都采用plink进行质控,市场上多年的打磨,使得其在可靠性、准确性、稳定性上都有很不错的表现。
3.2、R语言——arrayQualityMetrics包(小众)
arrayQuallityMetircs对芯片质量控制分为两个部分:
1.是对原始RAW data进行质量评估;
2.是对归一化之后的结果进行控制。这个包有一个非常突出的优点,即生成的结果通过一个网页有效地组织在一起,而且使用了部分html5代码,使得我们可以非常自由和灵活地选择某一张/几张特定的芯片进行观察。并且,可以通过编辑phenoData,对芯片进行聚类和组成成分分析(PCA)。
arrayQualityMetrics支持的class有ExpressionSet, AffyBatch, NChannelSet, ExpressionSetIllumina, RGList和MAList。如果以上的这些对象不够,比如marray包class,可以使用convert package实现class之间的转换。
3.3、python(待开发)
Python并没有直接进行SNP质控的相关包,但是可以尝试对质量控制的几个点进行开发,这样集成性能会更高,但是也存在着结果准确性、可靠性未知的不稳定性。
SNP基因数据质控调研相关推荐
- 宏基因组数据分析专题之展望与数据质控
宏基因组数据分析专题之展望与数据质控 导读 宏基因组测序(Metagenomics Sequencing)是以特定环境下的微生物群落作为研究对象,对该样品中所包含的全部微生物总的DNA进行测序 从而使 ...
- 【Bioinfo Blog 006】【R Code 005】——GEO表达谱数据质控
目录 一.数据下载及质控 1.1 GEO数据下载 1.1.1 GEOquery包安装 1.1.2 .cel数据下载 1.2 读取.cel文件 1.2.1 Affy包安装 1.2.2 利用ReadAff ...
- 全球与中国光电通信芯片市场数据专项调研及竞争格局分析报告2022-2028年版
全球与中国光电通信芯片市场数据专项调研及竞争格局分析报告2022-2028年版 [报告目录]: 2021年全球光电通信芯片市场销售额达到了 亿美元,预计2028年将达到 亿美元,年复合增长率( ...
- TCGA肿瘤基因数据的访问(二)
TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问. 网址是 https://portal.gdc. ...
- 高通量测序数据质控神器Trimmomatic
简介 高通量测序下机的原始数据中存在一些低质量数据.接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节.Trimmomatic就 ...
- 【论文笔记】高维基因数据中的特征选择
原论文:Feature Selection for High-Dimensional Genomic Microarray Data 介绍 基因数据通常具有较高的维度,同时可用样本数少.不到100例维 ...
- 高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据...
原文链接:http://tecdat.cn/?p=23378 1 介绍 在本文中,我们将研究以下主题 证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
- 中国女式西装行业发展前景预测及数据专项调研报告2022年版
中国女式西装行业发展前景预测及数据专项调研报告2022年版 第1章 女式西装行业发展综述 10 1.1 女式西装行业定义及分类 10 1.1.1 行业定义 10 1.1.2 行业产品/服务分类 1 ...
- 城乡规划现状数据移动调研系统开发
城乡规划现状数据移动调研系统开发 这是在13年开发的用于在移动终端进行现状数据调研的系统,因为原来单位是城市规划行业,所有系统也是针对城乡规划现状数据的调研,项目获得15年吉林省优秀城乡规划设计奖. ...
- R语言零基础基因/数据差异分析(二)
文章目录 结果展示 安装ggplot2包 制作方法 注意,本 系列 有连贯性,每一步都很详细,每一步都很重要,请耐心读完!! 结果展示 安装ggplot2包 如图操作 找到并勾上即可. 制作方法 关于 ...
最新文章
- ASP.net 验证码(C#)
- RecyclerView的使用(1)之HelloWorld
- lua 循环语句 实例
- Java并发知识总结,超详细!(下)
- 关于导航按钮在其他尺寸下显示问题
- h264检测是I帧还是P帧
- 高内聚低耦合通俗理解_带你从入门到精通——「高内聚低耦合」
- 人生没有理想,只有目标
- 沈伟华:图神经网络的三连问
- 免费python编程自学网站-免费学习Python编程的3个优秀的网站资源
- 信息安全工程师第二版教材主要章节内容
- 使用Java制作一款简单的小游戏
- java war包 加密_Java加密jar包流程
- oracle解锁sysman用户,详解Oracle如何解锁用户的方法
- Unity热更之旧项目救星——Xlua热补丁修复
- 干货!10分钟,用Python生成图文并茂的PDF报告!
- 软件设计师--判定覆盖,判定条件覆盖,条件组合覆盖--一个栗子
- c# winform word模板 利用WORD 书签 定位替换 生成 WORD
- html中的文字透明背景图片,利用css实现背景透明和文字不透明效果汇总
- 这个高仿微信,差点我就信了