处理tcga突变数据一点思考
TCGA突变数据
- 写在前面
- 泛癌mc3作图
- 学到的额外知识点
- 使用TCGAbiolinks下载数据
- TCGA关于maf的注释
- 代码文件夹命名最好还是以英文命名,中文命名经常会出现错误
- GTF文件有的以、t,有的以;分割
- perl 一行式
- 基因命名方式
- 未解决问题
写在前面
大概是在利用xena网站的数据作图时,碰到一些问题。一个是xena下载的数据不能直接作为maf文件,需要稍微做点变换,这个好解决,不好解决的是关于变异类型存在的问题。
vaf的说明参考:https://byteofbio.com/archives/7.html#:~:text=VAF%20%E7%9A%84%E5%85%A8%E7%A7%B0%E6%98%AF%20Variant%20Allele%20Frequency%20%EF%BC%88%20%E5%8F%98%E5%BC%82%E7%AD%89%E4%BD%8D%E5%9F%BA%E5%9B%A0%E9%A2%91%E7%8E%87%20%EF%BC%89%E6%88%96,p%20t%20h%20%3D%20A%20D%20D%20P
3‘5’端说明:查看知乎,说是在核苷酸连接磷酸基团的那端我们称为 5‘ 端,连接着羟基的那端称为 3’ 端。
变异信息一些说明(ANNOVAR结果说明-SNP/INDEL):https://www.jianshu.com/p/6c11fe689bac
泛癌mc3作图
瀑布图结果:
图表中没有multi_hit信息,但注释有,而且自己的文件存在这样一些问题
就是某个一个基因有多个突变,但是数据将其放在一块了,就会变得非常奇怪,在变异列中会非常挤,且让我们损失部分信息。
尝试下从GDC平台下载的数据处理会不会有这样的问题;
从GDC平台下载的数据处理不会有上述effect的问题,但问题在于做了处理后画不出来oncoplot图,原因应该是effect命名方式不一致,这可能说明需要重新更改effect的命名规则,而这个multi_hit问题也还是存在着
针对上面这个问题,下载GDCMUTEct2的数据不会有这个问题,但effect还是这样子,不符合规范
作图时
学到的额外知识点
一个是VAF,这个属于突变碱基占该位点碱基比例。
使用TCGAbiolinks下载数据
果子前辈的教程是真的好用:https://mp.weixin.qq.com/s/rdFnq6jCMIjmrWI8A8fS5g
只是安装最新版TCGAbiolinks时,更新R版本,中间遇到了R包老的问题,头疼了一阵,但是后面也都解决了,因为这个大概找到了更新全部R包的代码:
install.packages("rvcheck") library(rvcheck) rvcheck::check_r() rvcheck::update_all(check_R = FALSE,which = c("CRAN","BioC","github"))
直接用perl代码运行速度快,而用R是简便但速度略慢。
TCGA关于maf的注释
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
代码文件夹命名最好还是以英文命名,中文命名经常会出现错误
GTF文件有的以、t,有的以;分割
但是R用rtracklayer::import(“gencode.v19.annotation.gtf”)能解决这个问题。
perl 一行式
https://cloud.tencent.com/developer/article/1642632
zcat gencode.v34.annotation.gtf.gz | grep protein_coding |perl -alne '{next unless $F[2] eq "gene" ;/gene_name \"(.*?)\";/; print "$F[0]\t$F[3]\t$F[4]\t$1" }' >protein_coding.hg38.position
针对上述代码,表示的先找到protein_codeing信息的行,再看第三列是不是基因,是的话做正则,不是的话直接跳过
基因命名方式
NCBI的RefSeq数据库ID,一般是两个大写首字母,加下划线,后面为数字。两个首字母 ”NC”、”NM”、”NP_”分别代表DNA、mRNA、Protein。
未解决问题
1.有没有一个文件对应人类全部的外显子序列,理论上应该有,不然,全外显子测序何来?
我需要找到这个文件
2.xena上的文件已经有点过时了,因为数据可能一直没有更新吧,所以尽量能在官网上下还是在官网上下
官网注释的文件同样存在effect那边很冗余的情况,把这类相对应的行删掉后就可以正常跑onco图了,原先LUSC12万行,大致存在这样的行800多,共包含300多个样本,560个基因,大概每个样本有两三行这类信息,所以删掉应该是影响不大的。
处理tcga突变数据一点思考相关推荐
- maftools|TCGA肿瘤突变数据的汇总,分析和可视化
之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫"瀑布图",以及一些细节的 ...
- mysql 手动写时间_关于数据库中如何存储时间的一点思考
1.切记不要用字符串存储日期 我记得我在大学的时候就这样干过,而且现在很多对数据库不太了解的新手也会这样干,可见,这种存储日期的方式的优点还是有的,就是简单直白,容易上手. 但是,这是不正确的做法,主 ...
- 对于表列数据类型选择的一点思考
对于表列数据类型选择的一点思考 简介 SQL Server每个表中各列的数据类型的选择通常显得很简单,但是对于具体数据类型的选择的不同对性能的影响还是略有差别.本篇文章对SQL Server表列数据类 ...
- 关于STM32驱动DS1302实时时钟的一点思考
关于STM32驱动DS1302实时时钟的一点思考 之前用51驱动过DS1302,没用多久就输出了正确的时间.当时以为这块芯片其实没啥,很简单.但是现在用STM32做项目,用到同样的芯片,以为这有何难, ...
- 对高并发流量控制的一点思考
前言 在实际项目中,曾经遭遇过线上5W+QPS的峰值,也在压测状态下经历过10W+QPS的大流量请求,本篇博客的话题主要就是自己对高并发流量控制的一点思考. 应对大流量的一些思路 首先,我们来说一下什 ...
- 对高并发流量控制的一点思考 推荐
前言 在实际项目中,曾经遭遇过线上5W+QPS的峰值,也在压测状态下经历过10W+QPS的大流量请求,本篇博客的话题主要就是自己对高并发流量控制的一点思考. 应对大流量的一些思路 首先,我们来说一下什 ...
- python多线程队列处理_Python线程和队列使用的一点思考
Python线程和队列使用的一点思考 1. 斗哥采访环节请问为什么要使用线程? 答:为了提高程序速度,代码效率呀. 请问为什么要使用队列? 答:个人认为队列可以保证线程安全,实现线程间的同步,比较稳. ...
- 设计表的时候,对变长字段长度选择的一点思考
原文:设计表的时候,对变长字段长度选择的一点思考 不管是在MSSQL还是MySQL或者Oracle,变长字段的长度衡量都是要经常面对的. 对于一个变长的字段,在满足业务的情况下(其实所谓的满足业务是一 ...
- 关于前端职业规划的一点思考
自己目前已经工作3年了,最近也刚换了新工作,日常也一直在考虑自己的前端职业规划到底是怎样的,目前个人视角还不是很宽广,怕误人子弟,以下这篇文章有点启发,故转发供大家借鉴(里面有部分内容做了一些小修改) ...
最新文章
- mSystems:华中农大郝秀丽组发现稀有/丰富微生物类群对镉污染土壤改良剂的不同反应!...
- c语言 打砖块,打砖块
- java 制作报表案例_javaweb项目报表案例
- 鹅厂是如何使用 Git 的?看这!
- Gradle善良:仅添加包装用于战争
- java soap协议头_自己调用webservice方法总结(带请求头SoapHeader)
- c#.net多线程编程教学(2):Thread类
- 卡耐基梅隆大学CMU Brandon Amos博士论文《可微优化机器学习建模》
- 全新设计的 Xcode 12
- 求解斐波那契数列复杂度分析
- 远程安装CentOS
- 用 Java 爬小姐姐图片,直接拿来用!这个厉害了。。。
- windows远程连接linux中mysql数据库
- SpringBoot系列: Pebble模板引擎语法介绍
- 总线式布线、差分走线等布线方法
- 黑盒测试和白盒测试详解
- 你来分我先选 原则
- 漫画:如何用脚本抢月饼?
- 花了4000多的钱,领导让我去开8000多元的发票,我该怎么办??
- 算法竞赛入门经典 开灯问题
热门文章
- HFSS威尔金森(Wilkinson)功分器仿真
- CAD编辑器中CAD线型怎么修改?
- 永磁同步电机矢量控制中的双闭环是什么意思_【百问百答】ST 电机控制实战问答合辑 | 连载之二...
- 转:CDH--彻底解决问题----时钟异常
- mysql locate不走索引_面试--mysql的模糊查询优化、like、locate、position、instr、find_in_set...
- 奔驰采用鸿蒙系统,华为10分钟秒充190公里模块出口奥地利,奔驰使用鸿蒙系统!...
- 五险一金 | 2020年个人所得税税率表
- 什么是license
- Pulsar 社区周报| 2020-11-28 ~ 2020-12-04
- Pulsar 社区周报| 2020-12-12 ~ 2020-12.18