使用PRSice进行多基因风险评分分析
欢迎关注”生信修炼手册”!
PRSice是最常用的多基因风险评分软件之一,目前最新版本为v2, 官网如下
https://www.prsice.info/
该软件计算样本PRS值的公式如下
计算PRS值时有两个关键点,第一个是SNP位点的筛选,在上述公式中,Pt
表示的是GWAS结果中P值的阈值,挑选P值小于该阈值的SNP位点进行PRS的计算;第二个是SNP位点对表型效应的度量,这里用β
表示,可以是OR值或者回归系数beta值。
在筛选SNP位点时,单一的阈值不可避免会出现假阳性和假阴性的问题,阈值太小,很多阳性的位点会因为P值不达标被过滤掉, 导致假阴性;阈值太大,很多阴性的位点也会被包括进来,导致假阳性,这些都会对最终的分析结果造成影响。
为了解决这一问题,PRSice使用一系列Pvalue的阈值进行分析,针对不同的阈值计算PRS值,然后根据PRS值和表型关联分析的结果来挑选最佳的阈值。
该软件的安装过程如下
wget https://github.com/choishingwan/PRSice/releases/download/2.2.11/PRSice_linux.nightly.zip
unzip PRSice_linux.nightly.zip
解压缩后的文件如下
其中PRSice_linux
是该软件的执行脚本,PRSice.R
是对执行脚本的封装,TOY
开头的是软件自带的数据集,用于测试,其中分为了BASE
和TARGET
两个部分。
基本用法如下
通过R脚本来调用该软件,dir
参数指定R包ggplot2安装的路径,因为结果展示会调用ggplot2进行可视化,如果已经安装了这个包,这个参数可以不要; prsice
参数指定可执行文件的路径;base
参数指定base data的关联分析结果,target
参数指定target data的分型结果,thread
参数指定线程数;stat
指定base data关联分析结果中的效应值,有OR和BETA两种取值;binary-target
参数指定target data中分型结果是否为二分类的表型。
base data关联分析结果的内容示意如下
需要注意的是,软件通过表头来识别对应的信息,上述表头是默认的,比如CHR
代表SNP位点所在的染色体,如果你的结果中不叫CHR
, 比如是CHROM
, 那么需要修改软件的参数,让软件知道代表染色体的列名是什么。
该软件的输出结果有多个文件,示意如下
PRSice.prsice记录了不同阈值下的分析结果,内容示意如下
PRSice.summary记录了最佳阈值的分析结果, 内容示意如下
PRSice.best记录了target data中样本的PRS值,内容示意如下
BARPLOT.png以柱状图的形式展示了不同阈值得到的关联结果对应的R2分布,结果示意如下
HIGH-RES_PLOT.png以折线图的形式展示了不同阈值得到的关联结果对应的P值分布,结果示意如下
P值最小的点对应的就是最佳的阈值,无论是柱状图还是折线图,只需要y轴最大的点对应的横坐标即可。该软件在进行PRS值和表型的关联分析时,还支持协变量的校正,只需要添加cov
参数即可,更多用法请参考官方文档。
·end·
—如果喜欢,快分享给你的朋友们吧—
往期精彩
自己动手进行逻辑回归,你也可以!
GWAS大家都知道,Gene-Based GWAS你了解吗?
3步搞定GWAS中的Gene Set Analysis
你听说过Epistasis吗?
GWAS中的Gene-Gene Interactions如何分析?看这里
终于搞清楚了Lasso回归和Ridge回归的区别
odd ratio置信区间的计算,你学会了吗?
多元回归分析存在多重共线性了怎么办?
基因型与表型的交互作用如何分析,多元回归来搞定
曼哈顿图就够了吗?你还需要LocusZoom
GWAS做完了,下一步做什么?
GWAS meta分析
GWAS样本量不够怎么办,meta分析了解一下
你没看错,搞定GWAS meta分析只需一行代码!
meta分析的森林图不会画?看这里
GWAMA:GWAS meta-analysis的又一利器
点击鼠标即可完成GWAS meta分析,任何人都可以!
用R进行gwas meta分析,原来如此简单
基因型填充
GWAS中的genotype imputation简介
基因型填充中的phasing究竟是什么
基因型填充前的质控条件简介
使用shapeit进行单倍型分析
gtool:操作genotype data的利器
使用IMPUTE2进行基因型填充
使用Beagle进行基因型填充
使用Minimac进行基因型填充
使用Eagle2进行单倍型分析
X染色体的基因型填充
文献解读|不同基因型填充软件性能的比较
Haplotype Reference Consortium:最大规模的单倍型数据库
Michigan Imputation Server:基因型填充的在线工具
CNV分析
aCGH芯片简介
aCGH芯片分析简介
基于SNP芯片进行CNV分析中的基本知识点
PennCNV:利用SNP芯片检测CNV
DGV:人类基因组结构变异数据库
dbvar:染色体结构变异数据库
DGVa:染色体结构变异数据库
CNVD:疾病相关的CNV数据库
DECIPHER:疾病相关的CNV数据库
全基因组数据CNV分析简介
使用CNVnator进行CNV检测
使用lumpy进行CNV检测
CNVnator原理简介
WES的CNV分析简介
XHMM分析原理简介
使用conifer进行WES的CNV分析
使用EXCAVATOR2检测WES的CNV
靶向测序的CNV分析简介
使用CNVkit进行CNV分析
DECoN:最高分辨率的CNV检测工具
TCGA
TCGA数据库简介
使用GDC在线查看TCGA数据
使用gdc-client批量下载TCGA数据
一文搞懂TCGA中的分析结果如何来
通过GDC Legacy Archive下载TCGA原始数据
使用GDC API查看和下载TCGA的数据
使用GDC下载TCGA肿瘤患者的临床信息
使用TCGAbiolinks下载TCGA的数据
使用TCGAbiolinks进行生存分析
使用TCGAbiolinks分析TCGA中的表达谱数据
使用TCGAbiolinks进行甲基化和转录组数据的联合分析
Broad GDAC:TCGA数据分析中心
使用cBioPortal查看TCGA肿瘤数据
UCSC Xena:癌症基因组学数据分析平台
GEPIA:TCGA和GTEx表达谱数据分析平台
TANRIC:肿瘤相关lncRNA数据库
SurvNet:基于网络的肿瘤biomarker基因查找算法
TCPA:肿瘤RPPA蛋白芯片数据中心
TCGA Copy Number Portal:肿瘤拷贝数变异数据中心
生存分析
生存分析详细解读
用R语言进行KM生存分析
使用OncoLnc进行TCGA生存分析
用R语言进行Cox回归生存分析
使用kmplot在线进行生存分析
肿瘤数据库
ICGC:国际肿瘤基因组协会简介
HPA:人类蛋白图谱数据库
Oncomine:肿瘤芯片数据库
ONGene:基于文献检索的肿瘤基因数据库
oncomirdb:肿瘤相关的miRNA数据库
TSGene:肿瘤抑癌基因数据库
NCG:肿瘤驱动基因数据库
mutagene:肿瘤突变频谱数据库
CCLE:肿瘤细胞系百科全书
mSignatureDB:肿瘤突变特征数据库
GTEx:基因型和基因表达量关联数据库
肿瘤免疫和新抗原
Cancer-Immunity Cycle:肿瘤免疫循环简介
TMB:肿瘤突变负荷简介
肿瘤微环境:Tumor microenvironment (TME)简介
肿瘤浸润免疫细胞量化分析简介
使用EPIC预测肿瘤微环境中免疫细胞构成
TIMER:肿瘤浸润免疫细胞分析的综合网站
quanTIseq:肿瘤浸润免疫细胞定量分析
The Cancer Immunome Atlas:肿瘤免疫图谱数据库
肿瘤新抗原简介
TSNAdb:肿瘤新抗原数据库
使用NetMHCpan进行肿瘤新抗原预测分析
Hi-C数据分析
chromosome-territories:染色质疆域简介
chromosome conformation capture:染色质构象捕获技术
3C的衍生技术简介
解密Hi-C数据分析中的分辨率
A/B compartment:染色质区室简介
TAD:拓扑关联结构域简介
chromatin loops:染色质环简介
Promoter Capture Hi-C:研究启动子区染色质互作的利器
使用HiCUP进行Hi-C数据预处理
Juicer:Hi-C数据处理分析的利器
Juicer软件的安装详解
Juicebox:Hi-C数据可视化利器
Juicer实战详解
HiC-Pro:灵活的Hi-C数据处理软件
HiC-Pro实战详解
3D Genome Browser:Hi-C数据可视化工具
HiCPlotter:Hi-C数据可视化工具
3CDB:基于3C技术的染色质互作信息数据库
3DIV:染色质空间互作数据库
4DGenome:染色质相互作用数据库
4D nucleome project:染色质三维结构研究必不可少的参考项目
3dsnp:SNP在染色质环介导的调控网络中的分布数据库
iRegNet3D:疾病相关SNP位点在三维调控网络中的作用
使用WashU Epigenome Browser可视化hi-c数据
HiGlass:高度定制的Hi-C数据可视化应用
Hi-C Data Browser:Hi-C数据浏览器
使用FitHiC评估染色质交互作用的显著性
使用TADbit识别拓扑关联结构域
使用pyGenomeTracks可视化hi-c数据
hi-c辅助基因组组装简介
文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装
chip_seq数据分析
Chip-seq简介
chip_seq质量评估之计算样本间的相关性
chip_seq质量评估之查看抗体富集效果
chip_seq质量评估之PCA分析
chip_seq质量评估之coverage分析
chip_seq质量评估之FRiP Score
chip_seq质量评估之cross correlation
chip_seq质量评估之文库复杂度
depth, bedgraph, bigwig之间的联系与区别
bigwig归一化方式详解
使用igvtools可视化测序深度分布
使用UCSC基因组浏览器可视化测序深度分布数据
使用deeptools查看reads分布特征
使用phantompeakqualtools进行cross correlation分析
blacklist regions:NGS测序数据中的黑名单
MACS:使用最广泛的peak calling软件之一
MACS2 peak calling实战
使用SICER进行peak calling
使用HOMER进行peak calling
peak注释信息揭秘
PAVIS:对peak区域进行基因注释的在线工具
使用UPORA对peak进行注释
使用GREAT对peak进行功能注释
annoPeakR:一个peak注释的在线工具
使用ChIPpeakAnno进行peak注释
使用ChIPseeker进行peak注释
使用PeakAnalyzer进行peak注释
使用homer进行peak注释
利用bedtools预测chip_seq数据的靶基因
motif
关于motif你需要知道的事
详解motif的PFM矩阵
详解motif的PWM矩阵
使用WebLogo可视化motif
使用seqLogo可视化motif
使用ggseqlogo可视化motif
MEME:motif分析的综合性工具
使用MEME挖掘序列中的de novo motif
使用DREME挖掘序列中的de novo motif
使用MEME-ChIP挖掘序列中的de novo motif
chip_seq数据库
ENCODE project项目简介
FactorBook:人和小鼠转录因子chip_seq数据库
ReMap:人类Chip-seq数据大全
IHEC:国际人类表观基因组学联盟
Epifactors:表观因子数据库
GTRD:最全面的人和小鼠转录因子chip_seq数据库
ChIP-Atlas:基于公共chip_seq数据进行分析挖掘
Cistrome DB:人和小鼠的chip_seq数据库
chipBase:转录因子调控网络数据
unibind:human转录因子结合位点数据库
chip_seq在增强子研究中的应用
DENdb:human增强子数据库
VISTA:人和小鼠的增强子数据库
EnhancerAtlas:人和小鼠的增强子数据库
FANTOM5:人类增强子数据库
TiED:人类组织特异性增强子数据库
HEDD:增强子疾病相关数据库
HACER:human增强子数据库
SEdb:超级增强子数据库简介
dbSUPER:人和小鼠中的超级增强子数据库
dbCoRC:核心转录因子数据库
使用ROSE鉴定超级增强子
18年文章目录
2018年推文合集
扫描下方二维码,关注我们,解锁更多精彩内容!
生物信息入门
只差这一个
公众号
使用PRSice进行多基因风险评分分析相关推荐
- GWAS - PRS多基因风险评分计算学习笔记
一.安装PRSice(mac版) 经试验我觉得直接从git hub中下载对应的安装包是最快的:https://github.com/choishingwan/PRSice,下载之后解压,解压文件如图所 ...
- polygenic risk score:多基因风险评分
欢迎关注"生信修炼手册"! 针对复杂疾病,通过GWAS研究可以识别到大量的疾病易感位点,然而这些位点绝大多数都属于微效位点,单个或者少数几个位点对疾病的效应较弱,无法准确的预测疾病 ...
- PRS多基因风险评分的几个算法
之前体验了一下impute.me的基因检测分析服务,其内容之丰富和详尽让我感到吃惊.基本上涵盖了几乎所有有影响的GWAS研究结果(GWAS-Catalog等来源),于是我感到很好奇,他的评估计算方法, ...
- [文献分享] 父母炎症性肠病与儿童自闭症(国家登记数据队列研究、连锁不平衡分数回归、多基因风险评分、孟德尔随机化)
文献来源:Sadik A, Dardani C, Pagoni P, et al. Parental inflammatory bowel disease and autism in children ...
- 数据分析 - 美国金融科技公司Prosper的风险评分分析
数据分析 - 美国金融科技公司Prosper的风险评分分析 今年Reinhard Hsu觉得最有意思的事情,是参加了拍拍贷第二届魔镜杯互联网金融数据应用大赛.通过"富爸爸队",认识 ...
- 多基因风险预测模型2--相关概念和软件
计算PRS时,设计到的概念和常用的软件,这里整理一下. 1. PRS和GRS PRS,polygenic risk score,多基因风险评分 GRS,genetic risk score,遗传风险评 ...
- ElasticSearch评分分析 explian 解释和一些查询理解
ElasticSearch评分分析 explian 解释和一些查询理解 按照es-ik分析器安装了ik分词器.创建索引:PUT /index_ik_test.索引包含2个字段:content和nick ...
- 小微数字风控必学-冷启动开发风险评分(含实操)
新产品上线,往往只能使用规则进行审批与授信.能不能拦住风险是一回事,老板报以不信任的目光更使得风控从业人员倍受挫折.我们提供一个迁移学习风险评分开发方案,尝试在冷启动阶段就完成风险评分的开发. 假定某 ...
- 如何应对数据匮乏,试试冷启动阶段开发的风险评分
前言: 在模型开发过程中,或多或少都会遇到在生产过程中非常常见的问题就是模型样本开发不足.特别是在一些数据策略的冷启动阶段,而关于这些我们之前的文章都有以下内容: ①讲解经典专家评分卡怎么实操 ②两种 ...
- 案例分析-电影评分分析
电影评分分析 数据 原始数据展示 json格式说明 数据字段含义 需求 1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影) 2.每个用户的uid和评分的平均值. 3.最大方(评分平均值高 ...
最新文章
- RxJS - Observables, observers 和 operators 简介
- dubbox 编译 和 测试
- 安卓导航车机root方法_安卓手机设置充电提示音教程来了!教你三种方法,无需 ROOT!...
- Zookeeper的命令
- [BZOJ2456/ZOJ2132]mode/The Most Frequent Number
- logic回归是一种线性回归
- 科技论文的组织-如何写好科技论文之我见(四)
- linux下lua开发环境安装
- [数据库] Navicat for MySQL触发器更新和插入操作
- 【project】十次方-01
- 【Python】random模块生成多种类型随机数
- python测试题 - 字典操作
- 树莓派编译mysql卡死_关于树莓派编译工作空间卡死情况的解决办法
- redis lua 设置过期_详解 Redis 内存管理机制和实现
- AD637_高精度,宽带RMS-DC转换器
- vue提示音_VueJS 实现管理后台新订单的语音提醒
- 戴尔服务器技术响应表,戴尔PowerEdge T110 II产品技术白皮书
- 计算某年某月某日到某年某月某日之间的天数
- 网路新年贺词_文伟_新浪博客
- 非线性规划MATLAB求解原理,专题六--非线性规划介绍及其Matlab求解方法.ppt