前面提到基因组中的趣事(一):这个基因编码98种转录本,现在看看其它还有什么没想到的?

序列最长和最短的基因

计算基因序列的长度,注意GTF中的位置是前闭后闭。

awk 'BEGIN{OFS=FS="\t"}{if($3=="gene") {len1=$5-$4+1; print $10, $14, $18, len1;}}' GRCh38.tab.gtf | sort -k4,4nr | sed '1 i\ID\tGene\tType\tLength' >Gene_length

查看最长和最短的3个基因

head -n 4 Gene_length; tail -n 3 Gene_length
ID    Gene    Type    Length
ENSG00000078328    RBFOX1    protein_coding    2473539
ENSG00000174469    CNTNAP2    protein_coding    2304997
ENSG00000153707    PTPRD    protein_coding    2298478
ENSG00000236597    IGHD7-27    IG_D_gene    11
ENSG00000237235    TRDD2    TR_D_gene    9
ENSG00000223997    TRDD1    TR_D_gene    8

可变剪接调控基因RBFOX12.7 million的长度超过之前文献报道的最长基因CNTNAP2 (智力语言损伤相关基因)。RBFOX1编码的蛋白倒不长,只有397个氨基酸,可见其内含子区特别长。

T细胞受体相关基因TRDD1作为最短的基因,长度只有8 nt,编码的小肽序列包含2个氨基酸 EI

直接用上面的数据绘制长度分布不太合适,拖尾很长。对数据根据长度区间重新做下分组 (当然还可以分的再细),再进行绘制其长度分布。

awk 'BEGIN{OFS=FS="\t"}{if($3=="gene") {len1=$5-$4+1; if(len1<2000) type1="Less2000"; else if(len1<5000) type1="Less5000"; else if(len1<20000) type1="Less20000"; else type1="Other"; print  type1, len1;}}' GRCh38.tab.gtf | sed '1 i\Type\tLength' >Gene_length.plot

数据放入ImageGP,设置统一的bin大小为100。跟我最初的印象还是不太一样的,以前凭空以为1000-2000 nt的基因是最多的,实际看并不是,短基因还是更多的。

只看蛋白编码基因的长度分布呢?蛋白编码基因的长度分布比较均匀,太短和太长的都不多,集中在1000-5000 nt

awk 'BEGIN{OFS=FS="\t"}{if($3=="gene" && $18=="protein_coding") {len1=$5-$4+1; if(len1<2000) type1="Less2000"; else if(len1<5000) type1="Less5000"; else if(len1<20000) type1="Less20000"; else type1="Other"; print  type1, len1;}}' GRCh38.tab.gtf | sed '1 i\Type\tLength' >PC_Gene_length.plot

基因组中临近基因最近和最远的是多少 (不考虑正负链)

# 需要考虑的是跨染色体的情况
# 只输出不重叠的基因或只重叠1个碱基的基因
awk 'BEGIN{OFS=FS="\t"; lastgene=""; lastchr=""}{if(lastchr=="") lastchr=$1; if($3=="gene") {gene=$14 ;start=$4; end=$5; if($1!=lastchr) {lastchr=$1; lastgene=""; } if(lastgene!="") {dist=start-lastend; if(dist>=0) print gene,lastgene,dist; } lastgene=gene; lastend=end} }' GRCh38.tab.gtf | sort -k3,3nr | sed '1 i\SecondGene\tFirstGene\tDist' >Gene_dist.txt

看下最近和最远的基因是什么?CTBP2P1CCNQP2相距最远,距离有30million。这是两个pseudogene

head Gene_dist.txt; tail Gene_dist.txt
SecondGene    FirstGene    Dist
CTBP2P1    CCNQP2    30228085
AC242852.1    LINC01691    21762656
BX088702.1    ABBA01045074.1    17301933
ANKRD26P1    PPP1R1AP2    10556825
ROCK1    RNU6-721P    5625962
BX322784.1    KRT8P17    4793117
EMB    AC122694.1    4500222
AC128676.1    AC023141.13    4439110
AC069061.1    AC131274.2    4286863
FIBP    CTSW    0
MTATP6P22    MTCO3P35    0
MT-CO3    MT-ATP6    0
MTCO3P10    AC099654.7    0
MTCO3P12    MTATP6P1    0
MTCO3P31    MTATP6P31    0
MTND4P26    MTND4LP14    0
MTND5P33    MTND6P33    0
MT-TY    MT-TC    0
TRMT2A    AC006547.2    0

距离最近的就是紧挨着了,主要是线粒体基因,串联起来了。

# 前面做了排序,基因的顺次就变了
# grep 'MT-' Gene_dist.txt
# 重新算下,再捕获下
awk 'BEGIN{OFS=FS="\t"; lastgene=""; lastchr=""}{if(lastchr=="") lastchr=$1; if($3=="gene") {gene=$14 ;start=$4; end=$5; if($1!=lastchr) {lastchr=$1; lastgene=""; } if(lastgene!="") {dist=start-lastend; if(dist>=0) print gene,lastgene,dist; } lastgene=gene; lastend=end} }' GRCh38.tab.gtf | grep 'MT-'
MT-RNR1    MT-TF    1
MT-TV    MT-RNR1    1
MT-RNR2    MT-TV    1
MT-TL1    MT-RNR2    1
MT-ND1    MT-TL1    3
MT-TI    MT-ND1    1
MT-TM    MT-TQ    2
MT-ND2    MT-TM    1
MT-TW    MT-ND2    1
MT-TA    MT-TW    8
MT-TN    MT-TA    2
MT-TC    MT-TN    32
MT-TY    MT-TC    0
MT-CO1    MT-TY    13
MT-TS1    MT-CO1    1
MT-TD    MT-TS1    4
MT-CO2    MT-TD    1
MT-TK    MT-CO2    26
MT-ATP8    MT-TK    2
MT-CO3    MT-ATP6    0
MT-TG    MT-CO3    1
MT-ND3    MT-TG    1
MT-TR    MT-ND3    1
MT-ND4L    MT-TR    1
MT-TH    MT-ND4    1
MT-TS2    MT-TH    1
MT-TL2    MT-TS2    1
MT-ND5    MT-TL2    1
MT-ND6    MT-ND5    1
MT-TE    MT-ND6    1
MT-CYB    MT-TE    5
MT-TT    MT-CYB    1
MT-TP    MT-TT    3

包含外显子最多的转录本

来一条代码同时计算每个转录本外显子的数目和每个外显子的长度。

# 第三列为exon
# exoncnt 外显子数量
# exonlen 每个转录本每个外显子长度
# 用到了二维数组。awk存储二维数组时是用SUBSEP把两个下标连起来存储
# 索引取值时也需要先把两个key切开再取
# 结果存入两个文件transcript_exon_cnt.txt
#             和transcript_exon_len.txt
awk 'BEGIN{OFS=FS="\t"}{if($3=="exon") {trid=$20"\t"$14; exoncnt[trid]+=1; exonlen[trid, exoncnt[trid]]=$5-$4+1}}END{transcript_exon_cnt="transcript_exon_cnt.txt"; for(i in exoncnt) print i, exoncnt[i] >transcript_exon_cnt; transcript_exon_len="transcript_exon_len.txt"; for(i in exonlen) {split(i, subkey, SUBSEP); print subkey[1], subkey[2], exonlen[subkey[1], subkey[2]] > transcript_exon_len;}}' GRCh38.tab.gtf

排个序看下,妊娠综合征相关lncRNA HELLPAR的外显子长度最长,超20万 nt。外显子长度最长的蛋白编码基因是NFIA,一个转录因子,其外显子长度超4万 nt。另外有33个基因各有一个长度为1 nt的外显子。

HELLPAR    ENST00000626826    1    205012
KCNQ1OT1    ENST00000597346    1    91667
AC003681.1    ENST00000624945    1    49287
NFIA    ENST00000603233    1    44880
TSIX    ENST00000604411    1    37027
AC245452.1    ENST00000458178    2    36531
FLRT2    ENST00000330753    2    33290
SMAD2    ENST00000262160    11    32994
PCDH9    ENST00000377861    2    27561
GRIN2B    ENST00000609686    13    27303

包含外显子数目最多的转录本是ENST00000589042,共有363个外显子。其对应的基因是TTN,横纹肌发育相关基因。外显子数目排第二的基因NEB也是骨骼肌微丝发育相关基因。肌肉的复杂性也许跟这些基因有关系,前面提到的最长的基因、编码转录本最多的基因也有一些是根肌肉发育相关的。

TTN    ENST00000589042    363
TTN    ENST00000591111    313
TTN    ENST00000342992    312
TTN    ENST00000615779    312
TTN    ENST00000342175    191
TTN    ENST00000359218    191
TTN    ENST00000460472    191
NEB    ENST00000618972    183
NEB    ENST00000397345    182
NEB    ENST00000427231    182

GTF怎么下载的?具体见推文NGS基础 - 参考基因组和基因注释文件和下图。

基因组中的趣事(二)- 最长的基因2.7 million,最短的基因只有8 nt却能编码相关推荐

  1. 基因组中的趣事(一):这个基因编码98种转录本

    从ENSEMBL的注释来看,人基因组中包含60,676个注释的基因,19968个蛋白编码基因.这些基因长度不同.位置不同.转录出的转录本不同,下面我们用几篇推文一步步去了解下基因组中的基因都有哪些令我 ...

  2. Nature子刊:宏基因组中挖掘原核基因组的分析流程

    宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...

  3. 论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》

    论文解读:<A Convolutional Neural Network Using Dinucleotide One-hot Encoder for identifying DNA N6-Me ...

  4. 广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记

    导读:本文是"数据拾光者"专栏的第三十二篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践.本篇主要是学习美团技术团队分享的<美团搜索中NER技术的探索与实践> ...

  5. pytorch中如何处理RNN输入变长序列padding

    一.为什么RNN需要处理变长输入 假设我们有情感分析的例子,对每句话进行一个感情级别的分类,主体流程大概是下图所示: 思路比较简单,但是当我们进行batch个训练数据一起计算的时候,我们会遇到多个训练 ...

  6. “鸟枪换炮”,nanopore测序在宏基因组中的应用

    "鸟枪换炮",nanopore测序在宏基因组中的应用 2003年使用一代测序破译sars病毒用了4个月,2020年初使用二代测序破译新冠病毒用了4天,现在使用使用nanompore ...

  7. 手写数字识别中多元分类原理_广告行业中那些趣事系列:从理论到实战BERT知识蒸馏...

    导读:本文将介绍在广告行业中自然语言处理和推荐系统实践.本文主要分享从理论到实战知识蒸馏,对知识蒸馏感兴趣的小伙伴可以一起沟通交流. 摘要:本篇主要分享从理论到实战知识蒸馏.首先讲了下为什么要学习知识 ...

  8. (翻译)开始iOS 7中自动布局教程(二)

     (翻译)开始iOS 7中自动布局教程(二) 这篇教程的前半部分被翻译出来很久了,我也是通过这个教程学会的IOS自动布局.但是后半部分(即本篇)一直未有翻译,正好最近跳坑翻译,就寻来这篇教程,进行 ...

  9. vue 项目中 自动生成 二维码

    vue 项目中 自动生成 二维码 ​ 最近在写一个vue项目,要求根据卡号可以自动生成一个二维码,并渲染在指定位置,因为第一次做类似业务,小编在网上找了找,发现了很多,具体起来主要用的就两种: QRc ...

最新文章

  1. Access和SQL SERVER两种数据库的直接转换,不需要第三方工具
  2. [转]notepad++各种插件
  3. Selenium自动化测试-6.鼠标键盘操作
  4. IntelliJ IDEA 初始化项目时No Java SDK Found
  5. Windows Phone 7 Tips (8)
  6. 使用tushare获取A股数据
  7. YUI:globle object
  8. echarts饼图显示百分比
  9. 如何将两张图片合成一张图片
  10. 三维重建笔记_基于图像的大规模场景三维建模overview
  11. python f检验 模型拟合度_Python 爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码...
  12. matlab 读取mdf文件路径,访问 MDF 文件 - MATLAB Simulink Example - MathWorks 中国
  13. Android驱动——WiFi驱动移植
  14. 大数据毕设项目 深度学习火焰检测识别 python opencv
  15. 时至今日,写字依然是很好的职场“捷径”
  16. 解读通往8K/3D VR直播之路
  17. Python 爬取东京奥运会奖牌榜!中国原来这么厉害!
  18. mysql中cube是什么意思中文,什么是EC-CUBE
  19. 无能为力,黑客承认iOS6内购破解不可能实现了
  20. dfs 个人理解总结

热门文章

  1. 【算法分析与设计】习题分享
  2. Fibonacci思想的灵活应用(洛谷P1011题题解,Java语言描述)
  3. mysql 层级结构查询
  4. tp3.2部署在nginx主页正常,其他页面404问题解决方式
  5. 为EF DbContext生成的实体添加注释(T5模板应用)[转]
  6. HTML学习(2)(摘抄自慕课)
  7. rank,dense_rank,row_number使用和区别
  8. ASP.NET 文件下载 .
  9. 超级棒的免费前端学习路线
  10. 基于Hadoop架构下的FineBI大数据引擎技术原理