tcga数据下载_TCGA突变数据的下载、整理和可视化
今天是生信星球陪你的第520天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
花花写于2020-01-17 小年快乐呀大家!
今天上班最后一天,接下来开启长达半个月的年假(距离下一场讲课还有20天,期待)。我今年第一年在广东过年,不回家了,我父母会从山东老家过来和我一起过年,后天就到咯。。。你呢
1.数据下载
1.1 突变数据
TCGA的突变数据有4个软件得到的不同版本:
这个可以在gdc的官网上找到,case选择KIRC,文件类型选择maf即可获得。
选择mutect,就一个文件,直接点进去,download就行,下载下来只有一个tar.gz文件,解压放在工作目录下。
tar -xzvf file.tar.gz
解压,即可得到一个maf.gz文件。
同样的筛选条件,参考https://www.jianshu.com/p/559d9604fcdf下载临床信息数据并整理。
1mkdir kirc-clinical
2.数据读取
2.1 突变数据
使用maftools读取。
1rm(list=ls())
因此,有336个病人,9444个突变基因信息。了解maf还可以用下面的几个函数:
1getSampleSummary(laml)
2.2.临床信息
将下载好的临床信息xml文件整理成一个数据框。
1xmls = dir(
3.突变数据的可视化
3.1 plotmafSummary
maftools 自带可视化函数plotmafSummary,可以比较直观的统计maf文件的数据。
1dev.off()
就是将maf_df 数据框做了统计,用barplot和boxplot做了可视化。
3.2 突变频谱图
代码其实就一句!
1oncoplot(maf = laml, top =
下面展开一下这个图的解读
主体热图
一行是一个基因,总共是9444个基因,从中截取了top30;一列是一个样本,总共是336个样本。不同颜色代表不同类型的突变。
右侧条形图
右侧的条形图是每个基因的突变样本数、突变类型和比例
验证一下突变样本数
1count(maf_df,Hugo_Symbol,sort =
结果显示VHL在169样本中突变,样本总数336,所以是49%,以此类推
条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:
1maf_df %>% filter(Hugo_Symbol==
顶部条形图
显示每个样本里突变的基因个数,可以看到最高的是那个一枝独秀的1600多。
1laml@variants.per.sample %>% head()
本系列是我的TCGA
学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776
插个小广告!
生信零基础入门学习小组长期报名中
GEO数据挖掘广州专场课程
再给生信技能树打个call!
全球公益巡讲、招学徒
tcga数据下载_TCGA突变数据的下载、整理和可视化相关推荐
- 不是maf格式的somatic突变数据就没办法读入到maftools了么
因为使用的是百度李彦宏的文章数据,大家会比较倾向于处理tcga的肿瘤突变数据,虽然仅仅是输入数据的不一样,后续分析都是靠 maftools 这个包,maftools 全能无需我再吹嘘,必须花十几个小时 ...
- tcga数据下载_TCGA数据库免疫相关文件下载大全
本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ 2018年4月Immunity杂志上发表了文章The Imm ...
- tcga数据下载_TCGA数据下载-GDC
本系列是我的TCGA学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^).课程链接:https://www.bilibili.com/video/av49363776 1.从数据库下载m ...
- tcga数据下载_TCGA数据挖掘(二):数据下载与整理
关于TCGA数据库中的数据下载,我们之前有介绍过R语言下载包:R语言TCGA-Assembler包下载TCGA数据,同时在介绍数据库的使用教程中也介绍了在线下载以及官方下载工具下载:TCGA数据库使用 ...
- 下载的长数据怎么分开R语言_TCGA数据库单基因gsea作业之COAD-READ
我前面写过 单基因GSEA分析策略(数据分析免费做活动继续) ,然后马上就碰到了一个求助,复现下面的图表! 发表在Cancer Management and Research的简单数据挖掘杂志:Apo ...
- 手动下载新版的TCGA数据也是可以用TCGAbiolinks包整理的
很多人因为网络原因不能使用TCGAbiolinks这个神包下载TCGA的RNA-seq数据,只能通过浏览器访问GDC TCGA的官网进行下载,而下载后得到的是一个个文件夹,对于如何整理成一个表达矩阵也 ...
- 处理tcga突变数据一点思考
TCGA突变数据 写在前面 泛癌mc3作图 学到的额外知识点 使用TCGAbiolinks下载数据 TCGA关于maf的注释 代码文件夹命名最好还是以英文命名,中文命名经常会出现错误 GTF文件有的以 ...
- GWAS处理流程(全基因组关联分析)——对从ADNI数据库下载的SNP数据及进行质控(QC)
对从ADNI数据库下载的SNP数据及进行质控(QC) 简介 一.先查看数据中的个体和SNP缺失情况 1.查看 2.生成绘图以可视化缺失结果. 二.QC第一步:删除缺失度大于某个数值的SNP和个体 1. ...
- 独家 | 王海峰:百度大数据与人工智能(附PPT下载)
1月28日上午,由中国工程院和清华大学联合主办的"长城工程科技会议"第四次会议工业大数据分会在清华大学信息科技大楼召开.中国工程院院士李伯虎.工业和信息化部信息化和软件服务业司副司 ...
- 从新浪财经上下载交易明细数据并统计每天的买卖笔数(shell 命令行)
从新浪财经上下载交易明细数据并统计每天的买卖笔数 1.下载 如果需要下载多只股票多个交易日的明细数据,可以建立一个地址链接文件.下例给出了下载600001股票2008年1至9月各个交易日的数据需要的链 ...
最新文章
- Android系统的命令行操作及C程序编译
- python 手动读取cifar10_Python读入CIFAR-10数据库
- c语言的程序框图怎么写,C语言课程设计————写下流程图! 谢谢
- Android插件化开发之动态加载技术系列索引
- layui templet格式化_layui数据表格日期如何格式化成2012-12-30这样的?
- 1.6.jquerymobile--列表
- git 上传项目到github
- Juniper Open contrail 虚拟网络互通
- 参数问题:nested exception is java.lang.NumberFormatException: For input string: “null“,已解决。
- 3分钟阿里云商标智能注册申请及申请流程图文详解
- 统一社会信用代码的校验
- 怎么关闭计算机右侧的硬盘预览,选择性关闭视频文件预览 给Win7硬盘CPU减压
- [分块]Most Influential Pumpkin
- [note]First draft of a report on the EDVAC (1~2)
- 有房没房,日子过的都是心态
- 基于神经网络的图像去水印/图像修复实践
- python颜色填充代码_python中如何给图形填充颜色
- Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate
- 大数据--Hbase
- ubuntu添加用户
热门文章
- Quartus II——基于VGA的图像显示
- 一文带你看透IP归属地
- AWS Python应用
- 将QQ拼音词库导入到搜狗拼音中
- SVG defs元素
- python 谷歌地图_Python查询一个城市的谷歌地图的经度和纬度
- Mac批量恢复废纸篓文件
- 小马哥spring编程核心思想_《Spring Boot编程思想(核心篇)》小马哥著 PDF电子书下载...
- android睡眠伴侣,GitHub - HuangZengPei/Sleepmon: 我的Android团队项目,一款可以监测、统计睡眠质量情况的睡眠健康伴侣应用。...
- LaTeX错误“Unable to read an entire line---bufsize=200000. Please increase buf_size in texmf.cnf.”