R语言画基因突变结构图

做遗传病的同志们经常头痛的一个事应该是怎么画突变示意图，以前都是PPT直接画，但是最近碰到一个问题，综述里涉及到数个基因的数百个突变位点，PPT画的画得累死，于是开始搜索怎么用R来画基因突变结构图

1.gggenes包实现

gggenes包是一个用以可视化基因组或染色体基因结构的ggplot2扩展包
首先安装gggenes

#建议安装github版
devtools::install_github("wilkox/gggenes")
#以下代码参考自官方教程
library(gggenes)
library(tidyverse)
library(rtracklayer)
library(ggrepel)
rm(list=ls())## 基本原理就是分别提取基因及其对应外显子的位置坐标
## 分别使用gggenes的geom_gene_arrow和geom_subgene_arrow画出对应的图## 利用TxDb包获取基因组坐标信息
library(TxDb.Hsapiens.UCSC.hg38.knownGene)txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene## 提取外显子序列并去除重叠部分，提取基因序列
ex_db <- reduce(exonsBy(txdb, "gene"))
gene_db <- genes(txdb, single.strand.genes.only=F)## 输入你要提取的基因名
keys =“AMELX"
## 利用y叔的clusterProfiler包里的bitr函数进行基因ID转换
library(clusterProfiler)
library(org.Hs.eg.db)
ENTREZID <- bitr(keys, fromType = 'SYMBOL', toType = "ENTREZID", OrgDb = org.Hs.eg.db)## 提取感兴趣的基因的外显子信息，这里我只需要primary assembly版本
exons <- subset(as.data.frame(ex_db) , group_name %in% ENTREZID$ENTREZID & !str_detect(seqnames, 'alt'))
## 提取感兴趣的基因的信息，这里我只需要primary assembly版本genes <- subset(as.data.frame(gene_db), group_name %in% ENTREZID$ENTREZID &  !str_detect(seqnames, 'alt'))exons <- merge(exons, ENTREZID, by.x = 'group_name', by.y  = 'ENTREZID')
## 输出结果为
> exonsgroup_name group seqnames    start      end width strand SYMBOL
1        265 15832     chrX 11293413 11293468    56      +  AMELX
2        265 15832     chrX 11294777 11294842    66      +  AMELX
3        265 15832     chrX 11296779 11296826    48      +  AMELX
4        265 15832     chrX 11298103 11298144    42      +  AMELX
5        265 15832     chrX 11298236 11298277    42      +  AMELX
6        265 15832     chrX 11298548 11298973   426      +  AMELX
7        265 15832     chrX 11300607 11300761   155      +  AMELXgenes <- merge(genes, ENTREZID, by.x = 'group_name', by.y  = 'ENTREZID')## 输出结果为> genesgroup_name group seqnames    start      end width strand SYMBOL
1        265 15832     chrX 11293413 11300761  7349      +  AMELX#开始作图library(ggsci)library(ggrepel)p <- ggplot(genes, aes(xmin = start, xmax = end, y = seqnames)) +geom_gene_arrow(aes(fill = SYMBOL)) +geom_gene_label(aes(label = SYMBOL)) +geom_subgene_arrow(data = exons,aes(xsubmin = start, xsubmax = end, fill =  "royalblue"))  + theme_genes()  +   scale_fill_brewer("Set3")+theme(legend.position = "none", axis.title = element_blank())
print(p)

## 然后是导入突变信息
## 一般我们从文献里整理或者从clinvar下载的突变信息是cDNA坐标的
## 我们可以利用transvar等工具将其转换为基因组坐标
## 下载整理后的突变位点信息如下
> AMELX_l
# A tibble: 27 × 4gene  cDNA                gDNA                                 location              <chr> <chr>               <chr>                                <chr>                 1 AMELX c.2T>C              chrX:g.11294790T>C                   inside_[cds_in_exon_2]2 AMELX c.11G>A             chrX:g.11294799G>A                   inside_[cds_in_exon_2]3 AMELX c.11G>C             chrX:g.11294799G>C                   inside_[cds_in_exon_2]4 AMELX c.14_22delTTTTATTTG chrX:g.11294802_11294810delTTTTATTTG inside_[cds_in_exon_2]5 AMELX c.120T>C            chrX:g.11298120T>C                   inside_[cds_in_exon_4]6 AMELX c.152C>T            chrX:g.11298243C>T                   inside_[cds_in_exon_5]7 AMELX c.155C>G            chrX:g.11298246C>G                   inside_[cds_in_exon_5]8 AMELX c.155delC           chrX:g.11298246delC                  inside_[cds_in_exon_5]9 AMELX c.185delC           chrX:g.11298276delC                  inside_[cds_in_exon_5]
10 AMELX c.152C>T            chrX:g.11298555C>T                   inside_[cds_in_exon_5]
# … with 17 more rows
## 利用正则式提取一下突变坐标
## feature plot
feature_location <- str_replace_all( AMELX_l$gDNA, "(.+\\.)(\\d+)", "\\2") %>% str_remove_all(pattern = "[:alpha:]|>")
AMELX_l<-   AMELX_l%>% dplyr::mutate(location = feature_location, .before =1) AMELX_l<- AMELX_l %>% dplyr::mutate(end = case_when(str_detect(location, "_") ~ str_replace (location, "(\\d+)_(\\d+)",  "\\2"),.default = location), start = str_replace(location, "(\\d+)_(\\d+)",  "\\1")) %>% modify_at(c("start", "end"), as.integer)
## 输出如下
>AMELX_l[,-4]
# A tibble: 27 × 5gene  cDNA                gDNA                                      end    start<chr> <chr>               <chr>                                   <int>    <int>1 AMELX c.2T>C              chrX:g.11294790T>C                   11294790 112947902 AMELX c.11G>A             chrX:g.11294799G>A                   11294799 112947993 AMELX c.11G>C             chrX:g.11294799G>C                   11294799 112947994 AMELX c.14_22delTTTTATTTG chrX:g.11294802_11294810delTTTTATTTG 11294810 112948025 AMELX c.120T>C            chrX:g.11298120T>C                   11298120 112981206 AMELX c.152C>T            chrX:g.11298243C>T                   11298243 112982437 AMELX c.155C>G            chrX:g.11298246C>G                   11298246 112982468 AMELX c.155delC           chrX:g.11298246delC                  11298246 112982469 AMELX c.185delC           chrX:g.11298276delC                  11298276 11298276
10 AMELX c.152C>T            chrX:g.11298555C>T                   11298555 11298555
# … with 17 more rows


## 加入染色体信息
AMELX_l$seqnames <- "chrX"
AMELX_l <- AMELX_l%>% arrange(start)
## 抽取前10个突变作为示例
##利用ggrepel的函数来给突变加上label
## 主要调整参数包括force，nudge_x, nudge_y等等，
突变越多，调整难度越大，100个以上建议还是R生成SVG，然后用AI手调
#具体参见官方文档https://ggrepel.slowkow.com/articles/examples.html#examples
p + geom_text_repel(data = AMELX_l[1:10,], aes(x = start,  label = cDNA, ), size =2,force = 20, # 强制让各个label不重叠direction    = "both",hjust        = 0.2,segment.size = 0.2,max.iter = 1e4, max.time = 1, max.overlaps = Inf, nudge_x =1000, nudge_y = 0.5)

transPlotR

除此之外还可以使用junjunlab开发的transPlotR和BioSeqUtils来达到类似的效果，具体参见https://github.com/junjunlab/BioSeqUtils

mytest <- loadGenomeGTF(gtfPath = "hg38.ncbiRefSeq.gtf.gz",genomePath = "hg38.fa.gz")
library(transPlotR)keys = c("AMELX","ENAM","FAM20A","FAM83H")
# get intron
intron <- getIntronInfo(mytest,geneName = keys)# get gtf
gtfFile = data.frame(mytest@gtf)
gtfFile <- rbind(gtfFile,intron)# plot
p1 <- trancriptVis(gtfFile = gtfFile,gene = keys[2], selecType = "lt", exonColorBy = "type", #facetByGene = T,  exonWidth = 0.1, textLabel = "gene_name",arrowCol = NA,addNormalArrow = F,newStyleArrow = T,show.legend = T) +ggsci::scale_fill_igv() + scale_x_continuous(expand = expansion(mult= c(0.08,0.05))) + guides(fill = guide_legend("Type"))

同样用ggrepel添加一下突变信息

## feature plot
##导入整理好的突变信息
ENAM_l <- read_csv("ENAM_mutation_location.csv")
feature_location <- str_replace_all(ENAM_l$gDNA, "(.+\\.)(\\d+)", "\\2") %>% str_remove_all(pattern = "[:alpha:]|>")
ENAM_l <-   ENAM_l %>% dplyr::mutate(location = feature_location, .before =1) ENAM_l <- ENAM_l %>% dplyr::mutate(end = case_when(str_detect(location, "_") ~ str_replace(location, "(\\d+)_(\\d+)",  "\\2"),.default = location
), start = str_replace(location, "(\\d+)_(\\d+)",  "\\1")) %>% modify_at(c("start", "end"), as.integer)
ENAM_l$seqnames <- "chr4"
ENAM_l <- ENAM_l %>% arrange(start)
library(ggrepel)
## 这里y坐标根据transPlot的内含子的y坐标，相对比较好看
p1 + geom_text_repel(data = ENAM_l[1:10,], aes(x = start, y= 1.016667,  label = cDNA, ), size =2,force = 40, # do not pull toward data pointsdirection    = "x",hjust        = 0.3,segment.size = 0.2,max.iter = 1e4, max.time = 1, max.overlaps = Inf, nudge_x =1000, nudge_y = 0.2)
ggsave("ENAM_mut.jpg", units = "cm", width = 30, height = 15, device = "jpg")

完成，这样至少能在突变少于等于30个的时候比较自动化了，当然还是要手调…

R语言画基因突变结构图相关推荐

利用R语言画简单时间序列图
R 语言无法自动将读取的数据转化为时间序列格式, 所以利用R语言画时间序列图的一个关键步骤就是将读取的数据转变为时间序列格式, 下面是一个简单的程序: # 读取数据, 首先将excel 格式的转化为 ...
R语言画个中国地图使用shp文件
R语言画个中国地图,使用shp文件前几天帮人用R语言画个一个河北省的地图,河北省各个市被填充上颜色,颜色的深浅和这个市的GDP有关系,效果如下: 然后加上各个城市的名字并加上指北针.再把背景的网格去 ...
R语言画森林图方法4
获取更多R语言知识,请关注公众号:医学和生信笔记医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化.主要分享R语言做医学统计学.meta分析.网络药理学.临床预测模型.机器学习.生 ...
【R语言画生日蛋糕】
R语言画生日蛋糕直接上代码! rm(list = ls())a100 <- seq(0, 100, by = 1) a50 <- seq(12, 88, length.out = 101 ...
用R语言画一朵玫瑰花
首先,需要安装并加载绘图包 "ggplot2". install.packages("ggplot2") library(ggplot2) 然后,使用函数 gg ...
用r语言画出y = ax^2 + bx + c,R语言中如何使用最小二乘法
这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下: > x > y > lsfit(x,y) 结果如下: $coefficients Intercept ...
R语言画词云图——建模常用软件
在数学建模--软件篇介绍了我常用的软件,借着今年的华为杯,想做个LOGO.然后就使用R语言做了词云图,不过最后由于队友做得比较好,就没采用.本文吧效果和代码贴出来记录一下. library(wordc ...
包包的结构制图_原来可以用R这么画基因结构图
gggenes是一款基于ggplot2开发的R包,可以很方便的画出下图所示的基因结构图. 1. 安装R包直接从CRAN官方源来安装: install.packages("gggenes&q ...
R语言对基因进行GO注释（附代码）
通常在挑选出一些基因之后,需要对这些基因进行GO注释,分析该基因的功能,现在把R分析GO的代码放在下面所需要的文件,有一列geneid即可 rm(list=ls()) genelist <- ...

R语言画基因突变结构图

1.gggenes包实现

transPlotR

R语言画基因突变结构图相关推荐

最新文章

热门文章