思路

  1. 选择一种疾病,从TCGA数据库获得其案例。
  2. 获取各案例中lncRNA表达量。
  3. 对各lncRNA做差异分析。
  4. 考察差异表达的lncRNA编码肽链的可能性。
  5. 实验验证肽链对疾病的影响。

环境

  1. TCGA数据库
  2. R studio

实验步骤

从TCGA获取案例

TCGA癌症名称简写对照
TCGA样本命名原则

获取各案例中lncRNA表达量

#
# "TCGA_Dataset_lncRNA_Selector"
# "Version" 1.0
# "June 4, 2021"
#
###########################################
#                                         #
# Copyright (c) 2020-2021 by WLS Studio.  #
# Written by abhhba                       #
# Function:                               #
#   Get lnc-RNA data from TCGA dataset.   #
#                                         #
###########################################
#
#All Rights Reserved.#BiocManager::install("TCGAbiolinks")
#BiocManager::install("rtracklayer")
library(TCGAbiolinks)
library(Biobase)
library(SummarizedExperiment)
library(dplyr)
library(rtracklayer)
library(stringr)
#设定索引参数
query = GDCquery(project = "TCGA-LIHC", legacy = FALSE, experimental.strategy = "RNA-Seq", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - FPKM-UQ")
#下载数据并加载
GDCdownload(query)
dataAssy = GDCprepare(query, summarizedExperiment = F)
#处理版本号
dataAssy$X1=gsub('\\..*','',dataAssy$X1)#将第一列设为行名
f = t(dataAssy[,1])
dataAssy2 = dataAssy[,-1]
rownames(dataAssy2) = f
dataAssy=dataAssy2
#筛选列名
colnames(dataAssy) = str_match(colnames(dataAssy), "(TCGA-[^-]*-[^-]*-[^-]*)")[,2]#write.table(dataAssy, "RNA_FPKM_UQ_data.txt", row.names = F, sep = "\t", quote = F)#加载包含lnc-RNA的集合
AnnoData=import('gencode.v27.long_noncoding_RNAs.gtf')
index=which(AnnoData$type=='gene')#生成对应表
Target=data.frame(Ensembl_ID=AnnoData$gene_id[index],Symbol=AnnoData$gene_name[index],Biotype=AnnoData$gene_type[index])Target$Ensembl_ID=gsub('\\..*','',Target$Ensembl_ID)
#寻找交集
common=intersect(Target$Ensembl_ID,rownames(dataAssy))
#选出Lnc-RNA的基因
dataAssy_match=dataAssy[common,]
rownames(dataAssy_match)=common
#释放对象
rm(f,dataAssy2)

对各lncRNA做差异分析

获得lncRNA的编码可能性

获得lncRNA的fasta文件

采用ensembl的api获得。

library(httr)
library(jsonlite)
library(xml2)
#row_name=rownames(dataAssy_match)[1:10]
row_name=common
str_all=""
for (i in row_name){r <- GET(paste("https://rest.ensembl.org", "/sequence/id/",i,"?", sep = ""))p=content(r)str=paste0(">",p$id,"\n",p$seq,"\n")str_all=paste0(str_all,str)
}
stop_for_status(r)
#生成提交CPC用的fa文件
#提交至http://cpc2.gao-lab.org/batch.php
#获得result_cpc2.txt
write(str_all,file = "submit.fa")
result=read.csv("/Users/abhhba/Desktop/result_cpc2.txt",sep = "\t")

获取lncRNA编码能力预测值

###CPC2
#http://cpc2.cbi.pku.edu.cn/download.php
source /your_soft_dir/biosoft/conda/etc/profile.d/conda.sh
conda activate python27 #use python 2.7 envhuman_fa_linear=/data/fasta/Fed_Fasting_combined.human.isoforms.line.fa
data_dir=/data/fasta
input_dir=/data/fasta/total_novel
out_dir=/data/fasta/cpc2_results
cpc2_file=/your_soft_dir/Coding_potential/CPC2/CPC2-beta/bin/CPC2.py
python ${cpc2_file} -i /data/fasta/total_novel.fa -o ${out_dir}/total_novel.cpc2_results###CNCI
#https://github.com/www-bioinfo-org/CNCI download and use directly
data_dir=/data/fasta
sof_dir=/your_soft_dir/Coding_potential/CNCI-master
out_dir=/data/fasta/cnci_results
python $sof_dir/CNCI.py -f $data_dir/total_novel.fa -o $out_dir/total_novel -m ve -p 4###CPAT
#https://sourceforge.net/projects/rna-cpat/files/?source=navbar  website
#https://github.com/likelet/LncPipe/tree/master/bin/cpat_model cpat modules download
#https://blog.csdn.net/u013241595/article/details/101160741   pip3 aconda
#conda install r-base==3.5.1 --force-reinstall
source /your_soft_dir/biosoft/conda/etc/profile.d/conda.sh
conda activate flair_env #use python 3.5 env
data_dir=/data/fasta
out_dir=/data/fasta/CPAT_results
modle_dir=/your_soft_dir/Coding_potential/LncPipe-master/bin/cpat_model
cpat.py -g /data/fasta/total_novel.fa   -d ${modle_dir}/Human_logitModel.RData \
-x ${modle_dir}/Human_Hexamer.tsv -o ${out_dir}/total_novel###plek
#https://sourceforge.net/projects/plek/files/
source /your_soft_dir/biosoft/conda/etc/profile.d/conda.sh
conda activate python27 #python 2.7 env
plek_dir=/your_soft_dir/Coding_potential/PLEK.1.2/PLEK.py
out_dir=/data/fasta/plek_resultspython ${plek_dir} -fasta /data/fasta/total_novel.fa  -out ${out_dir}/total_novel -thread 15 -minlength 20###FEELnc
#https://github.com/tderrien/FEELnc
#use conda to install
#cd ${conda_dir}
#find ./ -name FEELnc_codpot.pl in python27 env
#then follow the install guide to creat and source
#source deactivate   firstly
#then re   conda activate python27 then it workssource /your_soft_dir/biosoft/conda/etc/profile.d/conda.sh
#source activate /your_soft_dir/biosoft/conda/pkgs/feelnc-0.1.1-pl526_5
conda activate python27
cd /data/fasta/FEELnc_results
codpot_dir=/your_soft_dir/biosoft/conda/pkgs/feelnc-0.1.1-pl526_5/bin/FEELnc_codpot.pl
FEELnc_codpot.pl -i /data/fasta/total_novel.fa -a /your_soft_dir/index/ori_genomic/hg38/fasta/gencode.v33.pc_transcripts.fa --mode=shuffle -p 18

某疾病特异性表达非编码RNA(lncRNA)探究相关推荐

  1. LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器

    Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系. <特色> 以前用于预测lncRNA亚细胞定位 ...

  2. 长链非编码RNA(lncRNA)

    长链非编码RNA(lncRNA) 转自:http://blog.sina.com.cn/s/blog_909da11301010bkz.html     长链非编码RNA(lncRNA)是一类转录本长 ...

  3. 基因调控分析之非编码RNA

    ​​非编码RNA简介 非编码 RNA (ncRNA) 是由基因组转录而成的不编码蛋白质的 RNA 分子.非编码 RNA 除了在转录和转录后水平上发挥作用外,还在基因表达的表观遗传学调控中发挥重要作用. ...

  4. Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

    长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA.与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记 ...

  5. TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法

    <TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...

  6. 人类长非编码RNA表达数据库,整合9种重要生物学场景(发育、癌症、病毒侵染等)...

    近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线.该研究成果以`LncE ...

  7. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

  8. 易基因|深度综述:表观遗传机制在慢性疼痛中的作用(DNA甲基化+组蛋白修饰+非编码RNA)

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2022年8月22日,德国海德堡大学Daniela Mauceri在<Cells>杂志发表了"Role of Ep ...

  9. Nucleic Acids Research | NONCODE数据库V6版发布,涵盖全面的动植物长非编码RNA注释

    长非编码RNA(long non-coding RNA,lncRNA)是一类长度大于200nt的非编码RNA.大量研究表明,lncRNA具有重要的调控功能,在植物和动物的各种生物学过程中起着重要作用. ...

最新文章

  1. (0090)iOS开发之本地文件预览的三种方法(1)
  2. Vmware iSCSi 配置
  3. 9月份国外最佳WordPress主机提供商Top12
  4. 深度学习(十二)稀疏自编码
  5. 盐城出台推进大数据产业发展实施意见
  6. JS中的THIS处理及正则表达式 — 1、callapplyjson
  7. linux脚本怎么退出while,linux中的while命令
  8. 说唱天王 Eminem 自传《The Way I am》1
  9. node.js基于vue框架潮牌官网设计与实现毕业设计源码010955
  10. Linux 文件夹右下角有锁,解锁
  11. 详解易经64卦-傅佩荣有声系列2
  12. 官方精简版Windows10:微软自己都看不过去了
  13. Linux强制使用短密码|修改短密码|passwd无效的密码
  14. ITU-T E.800
  15. java 实例变量是类的成员变量吗_JAVA中成员变量,局部变量,实例变量,类变量,有什么关系,,?...
  16. Sql 中两个数除法计算结果等于0原因是什么?
  17. char *str 和 char str[] 的区别
  18. 商用密码产品认证实施细则智能密码钥匙
  19. 找不到/storage/emulated/0文件
  20. 笔记本升级intel显卡驱动失败如何手动安装-驱动人生

热门文章

  1. 三菱FX3U画圆程序,程序结构简单,注释清晰,将圆划分为360段,循环调用子程序
  2. Python学习系列之错误和异常
  3. Activiti6.0版本如何显示在线流程图
  4. C++小游戏 吃豆人
  5. 自定义 Firefox TLS支持版本s
  6. 六月三日三条搞笑短信笑话分享
  7. 概率图模型之条件随机场
  8. python模板公式代码替换,Python - 字符串模板的安全替换(safe_substitute) 详解
  9. 判断请求时手机端访问还是电脑端访问
  10. 全景效果实现(Photo Sphere,photo-sphere-viewer全景虚拟漫游)