WHISTLE特征提取
WHISTLE特征提取
论文:
发表期刊:Nucleic Acids Research(JCR-Q1,11.5)
位点预测任务传统的特征:Sequence-derived feature
WHISTLE中加入的新的特征: Genome-derived features
WHISTLE集成35个Genome-derived features与传统Sequence-derived feature,重建了m6A表转录组的高精度地图
Genome-derived features:
基于序列特征本身并不能完全捕获RNA修饰拓扑结构的属性。各种研究已经证实了m6A RNA甲基化的生物学意义,包括在生物钟中的作用、调控mRNA翻译、热休克反应、microRNA (miRNA)处理、DNA损伤反应、RNA -蛋白相互作用和调控RNA稳定性。传统的位点预测方法只基于序列衍生信息(sequence-derived information)—即使使用了二级结构或其他高阶特征,信息仍然是直接从序列中提取的,而不考虑其他潜在的有用的基因特征。虽然序列信息可能起着核心作用,但是其他基因组特征可能也有助于预测m6A位点,因此我们产生了35个额外的基因组特征,可能有助于预测。
序列特征通过三种不同的结构化学性质:环结构、官能团和氢键进行编码核苷酸序
WHISTLE从多基因组特征中预测全转录组whole-transcriptome m6A位点,该框架基于多种基因组特征提取了一套完整的的领域知识,并将其与传统的序列衍生特征整合,进而高精度的预测m6A位点。然后,“内疚关联”guilt-by-association原则被应用于通过整合基因表达谱、RNA甲基化谱和PPI网络,进一步注释每个RNA methylation位点的功能相关性
WhistleR包使用
WhistleR: extract genomic features for predictive modeling in genomics
该包目前实现了两种类型的特征提取模块:基因组衍生特征和序列衍生特征。 前者是通过基因组属性与基因组区域相互作用获得的特征,后者包括one-hot编码的核苷酸序列(nucleotide compositions)或通过伪核苷酸组合(PesTNC)进行编码。
WhistleR安装:使用R devel版 R>=4.1,可以通过Github安装
可以将Granges格式的文件作为输入
1.1.1 Genome-derived features encoding(基因组衍生特征编码)
基因组衍生特征编码为基因组区域(例如,从基因注释中提取的区域:5'UTR, CDS, 3'UTR)与基因组间的特性(例如,x长度,GC含量)之间的相互作用,因此我们将这种特征编码方法命名为区域特性特征。
1.1.2 Sequence-derived feature encoding(序列衍生特征编码)
1.2 WhistleR安装
if(!requireNamespace("BiocManager",quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("WhistleR")
安装流程:
先安装R devel版 R>=4.1
下载:https://cran.r-project.org/bin/windows/base/rdevel.html
如果使用github安装还需安装devtools
通过install.packages("devtools")或者
if(!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("TxDb.Hsapiens.UCSC.hg19.knownGene")
安装
TxDb.Hsapiens.UCSC.hg19.knownGene
phastCons100way.UCSC.hg19
BSgenome.Hsapiens.UCSC.hg19
1.3工作流程
1.3.1从文件中读取基于范围的注释
如果目标注释存储在BED、GTF或GFF文件中,则可以使用rtracklayer包中的import()函数轻松地将其加载到R中。文件的格式可以直接从文件扩展名获得,也可以通过format参数手动指定。import()的输出是一个GRanges对象,可以直接作为特征提取函数的输入。
bed_dir <- system.file("extdata", "GSE63753.bed",
package = "WhistleR")
X <- rtracklayer::import(bed_dir)
当加载以其他表格格式保存的注释文件时,例如TXT或CSV文件,应该首先使用read.table()或read.csv()将表加载到R中。然后,可以使用在GenomicRanges包中定义的构造函数GRanges()从加载的data.frame中构造GRanges;该函数需要提供seqname(染色体信息)、注释的开始、结束/宽度和链的属性。
1.3.2 Genome-derived features基因组衍生特征
在WhistleR的标准工作流程中,我们将首先使用genomeDerivedFeatures()函数来提取基因组衍生的特征。一般来说,函数返回的特征矩阵采用1.1.1中描述的区域属性编码方法进行编码,并从函数参数中指定的标注对象中提取相应的区域和属性。本节的以下部分将解释基因组特征提取的具体用法和基本原理。
首先加载特征提取所需的包
library(WhistleR)
library(TxDb.Hsapiens.UCSC.hg19.knownGene) ##Txdb for transcript annotation
library(BSgenome.Hsapiens.UCSC.hg19) ##BSgenome for genome sequence
library(phastCons100way.UCSC.hg19) ##GScores for genomic scores
将注释包的变量更改为简洁的名称:
txdb_hg19 <- TxDb.Hsapiens.UCSC.hg19.knownGene
genome_hg19 <- BSgenome.Hsapiens.UCSC.hg19
phastCons_hg19 <- phastCons100way.UCSC.hg19
接下来,提取目标GRanges对象的基因组衍生特征。每个列的详细结构可以通过str()函数显示(在文档中不计算)。
RPF <- genomeDerivedFeatures(X,
## Providing gene annotation
transcriptdb=txdb_hg19,
## Providing genome sequence
sequence=genome_hg19,
## Providing Phastcons scores
gscores=phastCons_hg19,
## Calculate clustering metrics on X itself
clusteringY=X)
## Display the outcomes of feature extraction
str(RPF)
表1总结了从转录数据库指定的转录注释中提取的默认基因组区域
表1中列出的所有基因区域都是使用包基因组特征中定义的函数计算的。默认情况下,获得的启动子是转录起始位点(transcription start sites, TSS)的上游2000bp和下游200bp。
WHISTLE特征提取相关推荐
- Attention is all your need 谷歌的超强特征提取网络——Transformer
过年放了七天假,每年第一件事就是立一个flag--希望今年除了能够将技术学扎实之外,还希望能够将所学能够用来造福社会,好像flag立得有点大了.没关系,套用一句电影台词为自己开脱一下--人没有梦想,和 ...
- 特征提取,转换和选择
特征提取,转换和选择 Extracting, transforming and selecting features This section covers algorithms for workin ...
- 深度学习数据特征提取:ICCV2019论文解析
深度学习数据特征提取:ICCV2019论文解析 Goal-Driven Sequential Data Abstraction 论文链接: http://openaccess.thecvf.com/c ...
- yolov4源码_YOLOv4特征提取网络——CSPDarkNet结构解析及PyTorch实现
1 YOLOv4目标检测模型 自从Redmon说他不在更新YOLO系列之后,我一度以为这么好用的框架就要慢慢淡入历史了,事实是我多虑了.YOLOv4在使用YOLO Loss的基础上,使用了新的back ...
- 机器学习(2)特征提取1 -- 字典特征提取
目录 一.基础理论 1.特征工程 2.过程 3.API 二.特征提取转化为二维矩阵 0.获取数据集 1.实例化转换器类 2.提取特征值 3.显示 三.特征值转化为稀疏矩阵 0.获取数据集 1.实例化转 ...
- 【目标检测】(8) ASPP改进加强特征提取模块,附Tensorflow完整代码
各位同学好,最近想改进一下YOLOV4的SPP加强特征提取模块,看到很多论文中都使用语义分割中的ASPP模块来改进,今天用Tensorflow复现一下代码. YOLOV4的主干网络代码可见我上一篇文章 ...
- 【YOLOV4】(7) 特征提取网络代码复现(CSPDarknet53+SPP+PANet+Head),附Tensorflow完整代码
各位同学好,今天和大家分享一下如何使用 TensorFlow 构建YOLOV4目标检测算法的特征提取网络. 完整代码在我的Gitee中,有需要的自取:https://gitee.com/dgvv4/y ...
- 【yolo目标检测】(1) yolov3,网络结构Darknet53,特征提取
各位同学好,今天和大家分享一下使用Tensorflow2.0进行yolov3目标检测,如何构建Darknet53整体网络结构,如何使用特征金字塔强化特征提取. 1. 网络简介 yolov3借鉴了res ...
- 小波矩特征提取matlab代码
这是我上研究生时写的小波矩特征提取代码: %新归一化方法小波矩特征提取---------------------------------------------------------- F=imre ...
最新文章
- 必须掌握的八个【cmd 命令行】[转]
- Android平台下OpenGL初步
- mmap原理及流程(kernel 4.1版本)
- javaweb学习总结(三十六)——使用JDBC进行批处理
- springboot start
- 墨迹天气android,墨迹天气Android产品分析
- 增量更新同步_OneDrive增量更新功能正式推出 仅同步文件更改部分降低网络占用...
- Android中文API(99)—— RelativeLayout
- SQL Server 导入bak备份出错
- java高级工程师认证考试_java高级工程师开放面试题集
- c语言对抗程序代码,C语言贪吃蛇源程序代码双人对抗
- win11组策略如何开启自动更新 Windows11组策略开启自动更新的设置方法
- Nginx基本配置备忘
- 2020年商用的5G,中兴通讯已经下了哪些先手棋?
- 解决cuda官网安装包下载速度慢的问题
- 光纤跳线接口_一篇文章读懂光纤接头、尾纤、耦合器、终端盒的作用与接法!...
- 《七周七并发模型》作者Paul Butcher、阿里云研究员余锋(褚霸)——QCon北京2016前瞻...
- linux后门rootkit程序介绍
- 中国数码纺织印花染料行业运行态势与投资前景预测报告2022-2027
- Haswell芯配独显 华硕F450JF全新上市