WHISTLE特征提取

论文:

发表期刊:Nucleic Acids Research(JCR-Q1,11.5)

位点预测任务传统的特征:Sequence-derived feature

WHISTLE中加入的新的特征: Genome-derived features

WHISTLE集成35个Genome-derived features与传统Sequence-derived feature,重建了m6A表转录组的高精度地图

Genome-derived features

基于序列特征本身并不能完全捕获RNA修饰拓扑结构的属性。各种研究已经证实了m6A RNA甲基化的生物学意义,包括在生物钟中的作用、调控mRNA翻译、热休克反应、microRNA (miRNA)处理、DNA损伤反应、RNA -蛋白相互作用和调控RNA稳定性。传统的位点预测方法只基于序列衍生信息(sequence-derived information)—即使使用了二级结构或其他高阶特征,信息仍然是直接从序列中提取的,而不考虑其他潜在的有用的基因特征。虽然序列信息可能起着核心作用,但是其他基因组特征可能也有助于预测m6A位点,因此我们产生了35个额外的基因组特征,可能有助于预测。

序列特征通过三种不同的结构化学性质:环结构、官能团和氢键进行编码核苷酸序

WHISTLE从多基因组特征中预测全转录组whole-transcriptome m6A位点,该框架基于多种基因组特征提取了一套完整的的领域知识,并将其与传统的序列衍生特征整合,进而高精度的预测m6A位点。然后,“内疚关联”guilt-by-association原则被应用于通过整合基因表达谱、RNA甲基化谱和PPI网络,进一步注释每个RNA methylation位点的功能相关性

WhistleR包使用

WhistleR: extract genomic features for predictive modeling in genomics

该包目前实现了两种类型的特征提取模块:基因组衍生特征和序列衍生特征。 前者是通过基因组属性与基因组区域相互作用获得的特征,后者包括one-hot编码的核苷酸序列(nucleotide compositions)或通过伪核苷酸组合(PesTNC)进行编码。

WhistleR安装:使用R devel版 R>=4.1,可以通过Github安装

可以将Granges格式的文件作为输入

1.1.1 Genome-derived features encoding(基因组衍生特征编码)

基因组衍生特征编码为基因组区域(例如,从基因注释中提取的区域:5'UTR, CDS, 3'UTR)与基因组间的特性(例如,x长度,GC含量)之间的相互作用,因此我们将这种特征编码方法命名为区域特性特征。

1.1.2 Sequence-derived feature encoding(序列衍生特征编码)

1.2 WhistleR安装

if(!requireNamespace("BiocManager",quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("WhistleR")

安装流程:

先安装R devel版 R>=4.1

下载:https://cran.r-project.org/bin/windows/base/rdevel.html

如果使用github安装还需安装devtools

通过install.packages("devtools")或者

if(!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("TxDb.Hsapiens.UCSC.hg19.knownGene")

安装

TxDb.Hsapiens.UCSC.hg19.knownGene

phastCons100way.UCSC.hg19

BSgenome.Hsapiens.UCSC.hg19

1.3工作流程

1.3.1从文件中读取基于范围的注释

如果目标注释存储在BED、GTF或GFF文件中,则可以使用rtracklayer包中的import()函数轻松地将其加载到R中。文件的格式可以直接从文件扩展名获得,也可以通过format参数手动指定。import()的输出是一个GRanges对象,可以直接作为特征提取函数的输入。

bed_dir <- system.file("extdata", "GSE63753.bed",

package = "WhistleR")

X <- rtracklayer::import(bed_dir)

当加载以其他表格格式保存的注释文件时,例如TXT或CSV文件,应该首先使用read.table()或read.csv()将表加载到R中。然后,可以使用在GenomicRanges包中定义的构造函数GRanges()从加载的data.frame中构造GRanges;该函数需要提供seqname(染色体信息)、注释的开始、结束/宽度和链的属性。

1.3.2 Genome-derived features基因组衍生特征

在WhistleR的标准工作流程中,我们将首先使用genomeDerivedFeatures()函数来提取基因组衍生的特征。一般来说,函数返回的特征矩阵采用1.1.1中描述的区域属性编码方法进行编码,并从函数参数中指定的标注对象中提取相应的区域和属性。本节的以下部分将解释基因组特征提取的具体用法和基本原理。

首先加载特征提取所需的包

library(WhistleR)

library(TxDb.Hsapiens.UCSC.hg19.knownGene) ##Txdb for transcript annotation

library(BSgenome.Hsapiens.UCSC.hg19) ##BSgenome for genome sequence

library(phastCons100way.UCSC.hg19) ##GScores for genomic scores

将注释包的变量更改为简洁的名称:
txdb_hg19 <- TxDb.Hsapiens.UCSC.hg19.knownGene

genome_hg19 <- BSgenome.Hsapiens.UCSC.hg19

phastCons_hg19 <- phastCons100way.UCSC.hg19

接下来,提取目标GRanges对象的基因组衍生特征。每个列的详细结构可以通过str()函数显示(在文档中不计算)。

RPF <- genomeDerivedFeatures(X,

## Providing gene annotation

transcriptdb=txdb_hg19,

## Providing genome sequence

sequence=genome_hg19,

## Providing Phastcons scores

gscores=phastCons_hg19,

## Calculate clustering metrics on X itself

clusteringY=X)

## Display the outcomes of feature extraction

str(RPF)

表1总结了从转录数据库指定的转录注释中提取的默认基因组区域

表1中列出的所有基因区域都是使用包基因组特征中定义的函数计算的。默认情况下,获得的启动子是转录起始位点(transcription start sites, TSS)的上游2000bp和下游200bp。

WHISTLE特征提取相关推荐

  1. Attention is all your need 谷歌的超强特征提取网络——Transformer

    过年放了七天假,每年第一件事就是立一个flag--希望今年除了能够将技术学扎实之外,还希望能够将所学能够用来造福社会,好像flag立得有点大了.没关系,套用一句电影台词为自己开脱一下--人没有梦想,和 ...

  2. 特征提取,转换和选择

    特征提取,转换和选择 Extracting, transforming and selecting features This section covers algorithms for workin ...

  3. 深度学习数据特征提取:ICCV2019论文解析

    深度学习数据特征提取:ICCV2019论文解析 Goal-Driven Sequential Data Abstraction 论文链接: http://openaccess.thecvf.com/c ...

  4. yolov4源码_YOLOv4特征提取网络——CSPDarkNet结构解析及PyTorch实现

    1 YOLOv4目标检测模型 自从Redmon说他不在更新YOLO系列之后,我一度以为这么好用的框架就要慢慢淡入历史了,事实是我多虑了.YOLOv4在使用YOLO Loss的基础上,使用了新的back ...

  5. 机器学习(2)特征提取1 -- 字典特征提取

    目录 一.基础理论 1.特征工程 2.过程 3.API 二.特征提取转化为二维矩阵 0.获取数据集 1.实例化转换器类 2.提取特征值 3.显示 三.特征值转化为稀疏矩阵 0.获取数据集 1.实例化转 ...

  6. 【目标检测】(8) ASPP改进加强特征提取模块,附Tensorflow完整代码

    各位同学好,最近想改进一下YOLOV4的SPP加强特征提取模块,看到很多论文中都使用语义分割中的ASPP模块来改进,今天用Tensorflow复现一下代码. YOLOV4的主干网络代码可见我上一篇文章 ...

  7. 【YOLOV4】(7) 特征提取网络代码复现(CSPDarknet53+SPP+PANet+Head),附Tensorflow完整代码

    各位同学好,今天和大家分享一下如何使用 TensorFlow 构建YOLOV4目标检测算法的特征提取网络. 完整代码在我的Gitee中,有需要的自取:https://gitee.com/dgvv4/y ...

  8. 【yolo目标检测】(1) yolov3,网络结构Darknet53,特征提取

    各位同学好,今天和大家分享一下使用Tensorflow2.0进行yolov3目标检测,如何构建Darknet53整体网络结构,如何使用特征金字塔强化特征提取. 1. 网络简介 yolov3借鉴了res ...

  9. 小波矩特征提取matlab代码

    这是我上研究生时写的小波矩特征提取代码: %新归一化方法小波矩特征提取---------------------------------------------------------- F=imre ...

最新文章

  1. 必须掌握的八个【cmd 命令行】[转]
  2. Android平台下OpenGL初步
  3. mmap原理及流程(kernel 4.1版本)
  4. javaweb学习总结(三十六)——使用JDBC进行批处理
  5. springboot start
  6. 墨迹天气android,墨迹天气Android产品分析
  7. 增量更新同步_OneDrive增量更新功能正式推出 仅同步文件更改部分降低网络占用...
  8. Android中文API(99)—— RelativeLayout
  9. SQL Server 导入bak备份出错
  10. java高级工程师认证考试_java高级工程师开放面试题集
  11. c语言对抗程序代码,C语言贪吃蛇源程序代码双人对抗
  12. win11组策略如何开启自动更新 Windows11组策略开启自动更新的设置方法
  13. Nginx基本配置备忘
  14. 2020年商用的5G,中兴通讯已经下了哪些先手棋?
  15. 解决cuda官网安装包下载速度慢的问题
  16. 光纤跳线接口_一篇文章读懂光纤接头、尾纤、耦合器、终端盒的作用与接法!...
  17. 《七周七并发模型》作者Paul Butcher、阿里云研究员余锋(褚霸)——QCon北京2016前瞻...
  18. linux后门rootkit程序介绍
  19. 中国数码纺织印花染料行业运行态势与投资前景预测报告2022-2027
  20. Haswell芯配独显 华硕F450JF全新上市

热门文章

  1. 计算机专业术语拜年祝福语,技术部拜年祝福语
  2. linux忘记密码修改密码_如何更改我的Linux密码
  3. 基于vue的组织架构树组件_Vue组件基于D3.js布局显示树
  4. 机器学习之期望最大化算法(Expectation Maximization, EM)
  5. 三维人脸重建 (一)
  6. 小米官网首屏纯css代码
  7. 如何实现实时音视频聊天功能
  8. 程序员每天累成狗,是为了什么
  9. js获取唯一设备码_HTML5+下用js获取设备的唯一识别码和本地数据库的操作
  10. Python学习-操作列表