1. 电子书领取

前几天发了一篇GWAS电子书分享,异常火爆,阅读量8000+,很多人评价比较基础。这本电子书主要特点是比较基础,GLM模型用软件和R语言进行比较,如何添加数字协变量、因子协变量、PCA等内容,可以说是构建模型的基础。

今天,根据自己的理解,加上查阅的资料,介绍一下协变量的用法。

2. 什么是协变量

其实,GWAS中的协变量和一般模型中的协变量是不一样的。

一般模型:
y=F1+F2+x1+x2y = F1 + F2 + x1 + x2y=F1+F2+x1+x2

  • F1, F2为因子,特点是因子,比如不同颜色(红黄绿)
  • x1,x2为协变量,特点是数值,不如初生重,PCA值等数值

协变量是指数字类型的变量。

GWAS模型中:
y=x1+x2y = x1 + x2 y=x1+x2

  • GWAS中只有协变量,所谓的因子,也是协变量的一种
  • 在GWAS分析汇总,因子也是转化为虚拟变量(dummy)放到模型中

实例演示

举个例子:

library(learnasreml)
data(fm)
head(fm)
str(fm)

这个Rep有5个水平(5个重复),是因子类型。在方差分析中,它为因子:

# mod anova
mod = aov(dj ~ Rep, data=fm)
summary(mod)
coef(mod)

这里面,Rep的方差分析,自由度为4,用coef查看系数时,给出每个水平的效应值。

在回归分析里面,它也为因子:

mod2 = lm(dj ~ Rep, data=fm)
summary(mod2)
anova(mod2)

在回归分析中,用的是lm函数,用summary给出每个水平的效应值,以及T检验的结果。用anova会打印出方差分析的结果。


上面的例子可以看出aov和lm函数是等价的。

因子和协变量等价

如果我们将Rep变为虚拟变量,然后进行数字变量的回归分析,是什么样的?

library(useful)
xx = build.x(~Rep-1,data=fm,contrasts = F)
dat = cbind(xx[,-1],dj = fm$dj) %>% as.data.frame()
head(dat)
str(dat)

用R包useful的函数build.x将因子变为虚拟变量(数值变量),然后进行回归分析。

mod3 = lm(dj ~.,data=dat)
summary(mod3)


结果可以看出,用因子变为的虚拟变量(数字变量)结果是一样的。说明二者是等价的。

这也是说明了,在GWAS分析中,你以为因子和变量是两个类型,但是在GWAS模型中,他们最后都变为了协变量。

注意:

  • R中因子第一个强制为0,所以这里在构建dummy变量时,第一列去掉
  • R中默认是有截距(mu)的,所以再构建dummy变量时,将截距去掉

写道这里,我想到了一句话:

当你将方差分析和回归分析看做是一样的东西时,你就进阶了。

所以,我进阶了,哈哈。

所以,统计课本里面,方差分析和线性回归分析,都是基于一般线性模型(GLM),放到GWAS分析中,就可以解释因子协变量和数字协变量,以及PCA协变量的区别了。

无它,在GWAS模型中,都会变为数值协变量。

下一次推文,讲解如何在plink中构建协变量,以及如何在R语言中构建协变量。欢迎继续关注。

GWAS分析中协变量的区分(性别?PCA?初生重?)相关推荐

  1. GWAS分析中SNP解释百分比PVE | 第二篇,GLM模型中如何计算PVE?

    上一篇,介绍了一下显著性的SNP,他们的解释表型变异百分比(PVE)之和,为何可能大于1. https://yijiaobani.blog.csdn.net/article/details/12209 ...

  2. GWAS分析中SNP解释百分比PVE | 第三篇,MLM模型中如何计算PVE?

    之前,想研究一下GWAS分析汇中PVE(表型方差解释百分比)的计算方法,写了两篇: GWAS分析中SNP解释百分比PVE | 第一篇,SNP解释百分比之和为何大于1? GWAS分析中SNP解释百分比P ...

  3. GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?

    系列部分: GWAS分析中SNP解释百分比PVE | 第一篇,SNP解释百分比之和为何大于1? GWAS分析中SNP解释百分比PVE | 第二篇,GLM模型中如何计算PVE? GWAS分析中SNP解释 ...

  4. GWAS分析中SNP解释百分比PVE | 第一篇,SNP解释百分比之和为何大于1?

    关于GWAS分析中PVE的计算方法: 我查了一下,大体计算PVE的方法有三种:第一种回归分析或者方差分析的方法,计算R方(GLM模型),第二种是根据effect,se,maf计算PVE,第三种是根据L ...

  5. GWAS分析中0-1-2的编码问题

    昨天一个小伙伴给我写了封信,问我了几个GWAS的问题,我就回信说,答案可以写一下公众号了. 这不,就来了. 邓老师,您好,看了好多博文,学到好多,最近看一些GWAS原理相关的内容,有些疑惑.想请教一下 ...

  6. 倾向值分析(协变量选择)

    Hirano 和 Imbens 基于预设的临界t值来设定预测变量的方法 逻辑回归:逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法.逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于 ...

  7. Stata:psestimate-倾向得分匹配(PSM)中协变量的筛选

    全文阅读:https://www.lianxh.cn/news/2da90377100cf.html 目录 1. 命令的安装与示例数据导入 2. 命令的语法 3. 命令操作 3.1 命令基本操作 3. ...

  8. 笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型

    1. 名词解释 GWAS 全基因组关联分析 手动计算 使用R语言编程GLM模型和Logistic模型,提取Effect和Pvalue GLM 一般线性模型 Logistic 主要分析广义线性模型,Y变 ...

  9. GWAS分析中使用PCA校正群体分层

    欢迎关注"生信修炼手册"! GWAS通过分析case/control组之间的差异来寻找与疾病关联的SNP位点,然而case和control两组之间,可能本身就存在一定的差异,会影响 ...

最新文章

  1. 使用卷积神经网络预防疲劳驾驶事故
  2. ​cglib实现动态代理构建带参数的代理实例
  3. 在docker中构建普通java程序_Docker入门-构建第一个Java程序
  4. Markov Decision Processes
  5. 【Solr】- Tomcat部署
  6. sh(Spring+Spring mvc+hibernate)——IEmpDao.java
  7. 前端学习(1266):axios的常见api
  8. 程序员面试金典 - 面试题 03.03. 堆盘子 (vector(stack))
  9. Spring的国际化(转载)
  10. VMWare 修改虚拟机的swap文件
  11. python监听键盘输入_Python监听模拟鼠标键盘
  12. linux建ftp用户限制访问,Linux下建ftp用户并限制用户访问路径
  13. Codeforces Round #359 (Div. 2) C. Robbers' watch DFS
  14. 友情链接交换工具使用方法
  15. NodeJS + WebStorm 中文显示乱码
  16. 添加最顶层js广告_js实现网站最上边可关闭的浮动广告条代码
  17. 嵌入式Linux系统优化的那些事儿
  18. 重装Windows10后调节亮度无效,一直是最亮
  19. 1008: 美元和人民币 ZZULIOJ
  20. AcWing1017.怪盗基德的滑翔翼

热门文章

  1. 给力!腾讯正布局长沙!互联网指数,长沙全国第6,中部第1
  2. php 用户认证,用户认证-php初级教程手册,php程序员教程网
  3. HRNet 论文阅读笔记
  4. 推荐一款护眼的IDEA主题及配色方案
  5. Mobox企业网盘回收站文件清空与恢复的管控
  6. 高毛利低成本,敷尔佳深陷信任危机
  7. cf 723e One-Way Reform
  8. FFMPEG centos 安装指南
  9. pycharm导入ModuleNotFoundError: No module named最全方法整理
  10. 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?